Xây dựng cây quyết định

Việc tạo cây quyết định gồm 2 pha:

- Xây dựng cây quyết định từ trên xuống (top-down): Đầu tiên, tất cả các ví dụ huấn luyện đều nằm ở nút gốc. Nếu các ví dụ là cùng một lớp thì nút trở thành một nút lá, có nhãn là nhãn lớp. Nếu không phải, tất cả các thuộc tính cho mỗi nút trong phải được kiểm tra để tìm ra phép tách tốt nhất. Thuộc tính có độ tách biệt thành các lớp riêng biệt là tốt nhất được dùng để gán nhãn cho nút tách đó và tập dữ liệu được chia ra thêm nữa theo các giá trị của thuộc tính. Tập ví dụ huấn luyện được chia đệ qui cho tới khi mọi nút lá đều có tất cả (đa số) các ví dụ thuộc cùng một lớp hoặc không còn thuộc tính nào để phân chia.

- Tỉa cành cây quyết định từ dưới lên (bottom-up): lọai bỏ các cây con hoặc các nhánh theo cách từ dưới lên để cải thiện độ chính xác được đánh giá trong trường hợp phân loại mới. Bước này được sử dụng để tối ưu hóa cây kết quả, tối ưu về độ lớn của cây và độ chính xác của sự phân lớp bằng cách cắt tỉa các nhánh không phù hợp. Vì cây được sinh ra sẽ hoạt động tốt trên tập huấn luyện, nhưng có thể hoạt động không chính xác đối với tập dữ liệu không thấy (unseen data) do tập dữ liệu huấn luyện có thể có dữ liệu bị nhiễu hoặc bị thiếu giá trị. Bước cắt tỉa này cố gắng loại bỏ các nhánh bị lỗi khỏi cây và giữ nguyên hoặc thậm chí cải tiến độ chính xác của sự phân lớp. Độ chính xác của cây kết quả được xác định bằng cách

Tuổi?

Sinh viên Thu nhập

Sai Đúng Thấp Cao <=30 Không Có Không Có Có 31..40 >40

sử dụng một tập dữ liệu không thấy độc lập để kiểm tra. Bước này khá đơn giản, cây được áp dụng cho từng dữ kiện vào và nhãn của lớp đã dự đoán được so sánh với nhãn lớp thực tế. Tiêu chuẩn để đánh giá là số các mẫu được phân lớp chính xác.

Ở đay, ta nhận thấy việc chọn thuộc tính khác nhau sẽ cho ta các cây có hình dạng khác nhau, có độ sâu hay độ rộng khác nhau. Như vậy, việc chọn thuộc tính nào rất quan trọng vì sẽ ảnh hưởng đến độ phức tạp của cây và sẽ cho ta các cây kết quả khác nhau. Vì vậy, vấn đề được đặt ra ở đây là chọn thuộc tính nào là tốt nhất ở mỗi lần chọn, để cuối cùng ta có cây tối ưu nhất. Ta sẽ xem xét các giải thuật xây dựng cây quyết định trên cơ sở đánh giá các thuộc tính theo mức độ tách rời các lớp của tập ví dụ huấn luyện.

Những hạn chế của giải thuật ID3

Rút ra các luật từ Cây quyết định