VI. Các vấn đề học trong cây quyết định
4.3. Luật POST-PRUNING
Trong thực tiễn, một phương pháp thành công cho việc tìm kiếm những giả thuyết với sự chính xác cao là một kỹ thuật mà chúng ta sẽ gọi là luật cắt tỉa (post-pruning). Một dạng khác của phương pháp cắt tỉa được sử dụng trong C4.5 là một dạng phát triển của giải thuật ID3. Luật toán cắt tỉa (post-pruning) gồm những bước sau đây:
• Xây dựng cây quyết định từ tập dữ liệu huấn luyện - cho phép tình trạng quá khớp xảy ra.
• Chuyển đổi cây đã học thành một tập luật tương đương. Mỗi luật là một đường đi từ nút gốc đến nút lá của cây quyết định.
• Thu gọn mỗi luật bằng cách loại bỏ bất kỳ điều kiện tiên quyết mà kết quả được cải thiện độ chính xác.
• Phân loại các quy tắc cắt tỉa và sắp xếp chúng theo độ chính xác ước tính của chúng, và xem xét chúng trong trình tự khi phân loại các trường hợp tiếp theo. Để minh họa, xem xét lại cây quyết định sau:
Trong khi rút gọn luật, mỗi lá tương ứng với một luật và được tạo ra bằng cách đi từ nút gốc đến nút lá của cây. Mỗi lần kiểm tra thuộc tính dọc theo đường dẫn từ gốc đến
lá sẽ trở thành một quy tắc tiền đề (điều kiện tiên quyết) và phân loại tại các nút lá trở thành hệ quả (postcondition).
Ví dụ, một nhánh tận cùng bên tay trái của cây trong hình trên được chuyển thành luật như sau:
IF (Outlook = Sunny) A (Humidity = High) THEN PlayTennis = No
Tiếp theo, mỗi quy tắc như vậy được tỉa bằng cách loại bỏ bất kỳ tiền đề, điều kiện tiên quyết, mà khi loại bỏ kết quả không tồi tệ hơn ước tính chính xác của nó. Luật cắt tỉa được chọn tùy theo điều kiện nào của các bước cắt tỉa cải tiến hơn so với các điều kiện khác. Việc cắt tỉa sẽ không được thực hiện nếu nó làm giảm tính chính xác của quy tắc ước tính. Ví dụ luật cắt tỉa sẽ xem xét việc loại bỏ tiền đề (Outlook=Sunny) and (Humidity=High) trong luật đã được tạo ra.
Như đã nói ở trên, một trong những phương pháp để ước tính độ chính xác là sử dụng một xác nhận ví dụ phân chia tập huấn luyện. Một phương pháp khác, được sử dụng trong thuật toán C4.5 nhằm đánh giá hiệu suất dựa trên việc đào tạo thiết lập của chính nó nhằm ước tính khả năng không phù hợp của một nút bằng cách tính toán quy tắc chính xác về các ví dụ huấn luyện mà nó được áp dụng, sau đó tính độ lệch chuẩn trong tính chính xác ước tính này giả định một nhị thức phân phối. Đối với một độ tin cậy nhất định, ước tính thấp hơn giới hạn sau đó được thực hiện là biện pháp thực hiện quy tắc (ví dụ, cho một độ tin cậy là 95%, nguyên tắc tính độ chính xác bi quan được ước tính bởi tính chính xác quan sát được qua tập đào tạo, trừ đi 1,96 lần độ lệch chuẩn ước tính). Hiệu quả cho dữ liệu lớn, ước tính bi quan là rất gần với độ chính xác quan sát (ví dụ, độ lệch chuẩn là rất nhỏ), trong khi nó phát triển hơn nữa từ các quan sát chính xác là kích thước của các tập hợp dữ liệu giảm.
Có ba lợi thế khi chuyển đổi cây quyết định thành các luật trước khi cắt tỉa:
• Việc chuyển thành luật cho phép phân biệt trong những ngữ cảnh khác nhau khi một nút trong cây quyết định được sử dụng. Bởi vì mỗi đường đi (tương ứng với một luật) sẽ phân biệt thông qua một nút lá của cây quyết định cho ra một luật phân biệt, việc cắt tỉa cây quyết định xem xét việc kiểm tra các thuộc tính có thể tạo thành những đường đi khác nhau. Chỉ có 2 lựa chọn sẽ loại bỏ một nút lá hoàn toàn (khi đó cây quyết định được thu gọn) hoặc giữ nó lại ở dạng nguyên thủy. • Việc chuyển cây quyết định thành luật loại bỏ thuộc tính kiểm tra phân biệt mà xảy
ra gần với gốc của cây và những cái này xảy ra gần với những lá. Như vậy chúng ta có thể tránh được sự lộn xộn trong vấn đề tính toán như là làm thế nào để tổ chức lại cây nếu nút gốc bị cắt tỉa nhưng vẫn còn cây con thuộc nút gốc này.
• Chuyển đổi các quy tắc cải thiện khả năng học. Quy định nhằm dễ dàng cho việc hiểu.