Quá trình xây dựng một cây quyết định cụ thể bắt đầu bằng một nút rỗng bao gồm toàn bộ các đối tượng huấn luyện và làm như sau [2].
1. Nếu tại nút hiện thời, tất cả các đối tượng huấn luyện đều thuộc vào một lớp nào đó thì cho nút này thành nút lá có tên là nhãn lớp chung của các đối tượng.
2. Trường hợp ngược lại, sử dụng một độ đo, chọn thuộc tính điều kiện phân chia tốt nhất tập mẫu huấn luyện có tại nút.
3. Tạo một lượng nút con của nút hiện thời bằng số các giá trị khác nhau của thuộc tính được chọn. Gán cho mỗi nhánh từ nút cha đến nút con một giá trị của thuộc tính rồi phân chia các các đối tượng huấn luyện vào các nút con tương ứng.
4. Nút con t được gọi là thuần nhất, trở thành lá, nếu tất cả các đối tượng mẫu tại đó đều thuộc vào cùng một lớp. Lặp lại các bước 1-3 đối với mỗi nút chưa thuần nhất.
Ví dụ 2.1 Xây dựng một cây quyết định như sau:
Cho Bảng 2.1 biểu diễn thông tin về 7 đối tượng u1,…,u7. Bảng 2.1 là một bảng quyết định với tập thuộc tính điều kiện C = {Ly, To, Nv, Av} và thuộc tính quyết định là d = {Tc}.
Bảng 2.1 Bảng quyết định minh họa Ví dụ 2.1 U Ly To Nv Av Tc u1 K2 K1 XS K1 A u2 K2 K2 G K2 T u3 K2 K2 TB K2 T u4 K1 K1 K1 K1 T u5 K1 K1 TB2 K2 T u6 K2 K1 TB K2 A u7 K1 K2 K2 K1 A
Từ Bảng 2.1 ta có thể vẽ cây quyết định như Hình 2.1.
Cây quyết định của ví dụ trên có thể được giải thích như sau: Các nút lá chứa các giá trị của thuộc tính quyết định hay thuộc tính phân lớp (thuộc tính “Tc”). Các nút con tương ứng với các thuộc tính khác thuộc tính điều kiện hay thuộc tính phân lớp; nút gốc cũng được xem như một nút con đặc biệt, ở đây chính là thuộc tính “To”. Các nhánh của cây từ một nút bất kỳ tương ứng với một giá trị của thuộc tính điều kiện được chọn. Lưu ý cây quyết định trên không có sự tham gia của thuộc tính “Nv” trong thành phần cây, các thuộc tính như vậy được gọi chung là các thuộc tính dư thừa bởi vì các thuộc tính này không ảnh hưởng đến quá trình xây dựng mô hình của cây.
To
Ly Av
T A A T
K1 K2
K1 K2 K1 K2
Trong các thuật toán cơ sở xây dựng cây quyết định chỉ chấp nhận các thuộc tính tham gia vào quá trình phân lớp có giá trị rời rạc, bao gồm cả thuộc tính được dùng để dự đoán trong quá trình học cũng như các thuộc tính được sử dụng để kiểm tra tại mỗi nút của cây. Do đó trong trường hợp các thuộc tính có giá trị liên tục có thể dễ dàng loại bỏ bằng cách phân mảnh tập giá trị liên tục của thuộc tính thành một tập rời các khoảng.
Việc xây dựng cây quyết định được tiến hành một cách đệ qui, lần lượt từ nút gốc xuống tới tận các nút lá. Tại mỗi nút hiện hành đang xét, nếu kiểm tra thấy thỏa điều kiện dừng: thuật toán sẽ tạo nút lá. Nút này được gán một giá trị của nhãn lớp tùy điều kiện dừng được thoả. Ngược lại, thuật toán tiến hành chọn điểm chia tốt nhất theo một tiêu chí cho trước, phân chia dữ liệu hiện hành theo điều kiện chia này.
Sau bước phân chia trên, thuật toán sẽ lặp qua tất cả các tập con (đã được chia) và tiến hành gọi đệ qui như bước đầu tiên với dữ liệu chính là các tập con này.
Trong bước 3, tiêu chuẩn sử dụng lựa chọn thuộc tính được hiểu là một số đo độ phù hợp, một số đo đánh giá độ thuần nhất, hay một quy tắc phân chia tập mẫu huấn luyện.
Vấn đề then chốt trong quá trình xây dựng cây quyết định là việc lựa chọn thuộc tính điều kiện kiểm tra tại mỗi nút (gọi tắt là chọn nút). Có nhiều phương pháp chọn nút dựa trên những tiêu chuẩn khác nhau đánh giá độ quan trọng của các thuộc tính. Có rất nhiều tiêu chuẩn thường được sử dụng để xây dựng cây quyết định, nhưng trong luận văn đề cập đến là dựa vào Entropy và tập thô, các tiêu chuẩn này được đề cập cụ thể trong từng thuật toán ở bên dưới.