C4.5 mở rộng một số xử lý từ thuật toán gốc ID3:
Trong việc xây dựng cây quyết ñịnh: Xử lý các tập huấn luyện có các
bản ghi chứa giá trị thuộc tính thiếu bằng cách ñánh giá lợi ích, hoặc tỷ lệ lợi ích cho một thuộc tính chỉ qua xem xét các bản ghi có giá trị của thuộc tính ñó.
Trong việc dùng một cây quyết ñịnh, ta có thể phân lớp các bản ghi
có các giá trị thuộc tính thiếu bằng cách ñưa ra kết quả là dự ñoán xác suất của mỗi kết quả khác nhau.
Xử lý với trường hợp các thuộc tính với phạm vi liên tục (continuous
ranges) như sau. Có thuộc tính Ci liên tục. Kiểm tra các giá trị của thuộc tính
này trong tập huấn luyện. Nói chúng là theo thứ tự tăng, A1, A2, ..,Am. Vậy cho mỗi giá trị Aj, j=1,2,..m, ta phân hoạch (partition) các bản ghi thành những phần mà có các giá trị Ci từ nhỏ tới Aj, và những phần có giá trị lớn hơn Aj. Với mỗi phần phân hoạch này ta tính toán gain, hoặc gain ratio, và chọn partition mà cực ñại lợi ích (gain).
Cắt tỉa cây quyết ñịnh: Cây quyết ñịnh xây dựng dùng tập huấn luyện, với cách xây dựng cây là xử lý chính xác với phần lớn các bản ghi của tập huấn luyện. Thực tế, ñể làm như vậy, cây có thể trở thành quá phức tạp, với các ñường ñi thậm chí rất dài.
Việc cắt tỉa cây quyết ñịnh ñược làm bằng cách thay thế toàn bộ cây con bằng một node lá. Sự thay thế thực hiện nếu một luật quyết ñịnh xây dựng mà tỷ suất lỗi trong cây con là lớn hơn trong lá ñơn lẻ. Ví dụ, nếu cây quyết ñịnh ñơn giản Color / \ red/ \blue / \ Success Failure
ðược xây dựng với một bản ghi thành công màu ñỏ và 2 bản ghi lỗi màu xanh, và như vậy trong tập kiểm thử ta tìm thấy 3 lỗi ñỏ và 1 thành công xanh, ta có thể xem xét thay thế cây con này bằng một node lỗi (Failure) ñơn lẻ. Sau khi thay thế ta sẽ chỉ có 2 lỗi thay vì 5 lỗi.
CHƯƠNG 3. ÁP DỤNG KHAI PHÁ TRÊN CSDL
NGÀNH THUẾ