Các mở rộng của C4.5

Một phần của tài liệu Luận văn: Nghiên cứu và áp dụng một số kỹ thuật khai phá dữ liệu với cơ sơ sở dữ liệu ngành Thuế Việt Nam. docx (Trang 70 - 72)

C4.5 mở rộng một số xử lý từ thuật tốn gốc ID3:

Trong vic xây dng cây quyết định: Xử lý các tập huấn luyện cĩ các

bản ghi chứa giá trị thuộc tính thiếu bằng cách đánh giá lợi ích, hoặc tỷ lệ lợi ích cho một thuộc tính chỉ qua xem xét các bản ghi cĩ giá trị của thuộc tính đĩ.

Trong vic dùng mt cây quyết định, ta cĩ thể phân lớp các bản ghi

cĩ các giá trị thuộc tính thiếu bằng cách đưa ra kết quả là dự đốn xác suất của mỗi kết quả khác nhau.

Xử lý với trường hợp các thuộc tính với phạm vi liên tục (continuous

ranges) như sau. Cĩ thuộc tính Ci liên tục. Kiểm tra các giá trị của thuộc tính

này trong tập huấn luyện. Nĩi chúng là theo thứ tự tăng, A1, A2, ..,Am. Vậy cho mỗi giá trị Aj, j=1,2,..m, ta phân hoạch (partition) các bản ghi thành những phần mà cĩ các giá trị Ci từ nhỏ tới Aj, và những phần cĩ giá trị lớn hơn Aj. Với mỗi phần phân hoạch này ta tính tốn gain, hoặc gain ratio, và chọn partition mà cực đại lợi ích (gain).

Cắt tỉa cây quyết định: Cây quyết định xây dựng dùng tập huấn luyện, với cách xây dựng cây là xử lý chính xác với phần lớn các bản ghi của tập huấn luyện. Thực tế, để làm như vậy, cây cĩ thể trở thành quá phức tạp, với các đường đi thậm chí rất dài.

Việc cắt tỉa cây quyết định được làm bằng cách thay thế tồn bộ cây con bằng một node lá. Sự thay thế thực hiện nếu một luật quyết định xây dựng mà tỷ suất lỗi trong cây con là lớn hơn trong lá đơn lẻ. Ví dụ, nếu cây quyết định đơn giản Color / \ red/ \blue / \ Success Failure

ðược xây dựng với một bản ghi thành cơng màu đỏ và 2 bản ghi lỗi màu xanh, và như vậy trong tập kiểm thử ta tìm thấy 3 lỗi đỏ và 1 thành cơng xanh, ta cĩ thể xem xét thay thế cây con này bằng một node lỗi (Failure) đơn lẻ. Sau khi thay thế ta sẽ chỉ cĩ 2 lỗi thay vì 5 lỗi.

CHƯƠNG 3. ÁP DNG KHAI PHÁ TRÊN CSDL

NGÀNH THU

Một phần của tài liệu Luận văn: Nghiên cứu và áp dụng một số kỹ thuật khai phá dữ liệu với cơ sơ sở dữ liệu ngành Thuế Việt Nam. docx (Trang 70 - 72)