Tiền cắt tỉa (pre-prunning)

Một phần của tài liệu Khai phá dữ liệu với cây quyết định (Trang 52)

Chiến thuật Tiền cắt tỉa hay còn được gọi là early stopping, dừng quá trình phát triển cây tại nút đang xem xét. Một nút không được tách thêm bước nữa nếu như phép tách đó sẽ đem lại kết quả về mức độ tốt dưới một ngưỡng cho phép. Nút đó trở thành nút lá và được gắn nhãn là nhãn của lớp phổ biến nhất trong nút đó. Trong thực tế, rất khó để chọn được một ngưỡng thích hợp.

Ví dụ, nếu có nhiều lỗi ở các dữ liệu kiểm tra được phân vào một nhánh nào đó và tần suất lỗi gây ra trong cây con là lớn hơn trong một nút lá, thì người ta sẽ thay thế nút ở nhánh đó bằng một nút lá mang giá trị là giá trị có xác suất cao nhất của thuộc tính phân lớp của các ví dụ huấn luyện được phân lớp vào cây con này. Như với cây đơn giản sau

Hình 2.6: Ví dụ về phương pháp Tiền cắt tỉa Đỏ

Xanh

Màu sắc

Đúng Sai

Tại nút “Màu sắc”, các ví dụ huấn luyện được chia thành hai lớp “Đúng” và “Sai”, “Đúng” ứng với giá trị “Xanh”, “Sai” ứng với giá trị “Đỏ”. Giả sử tại đây tập huấn luyện có 1 bản ghi Đỏ- Sai và 2 bản ghi Xanh- Đúng, sau đó trong tập kiểm tra được phân đến nút này, ta thấy có 3 bản ghi Đỏ- Đúng và 1 bản Xanh- Sai. Ta có thể xem xét việc thay thế cây con này bằng một nút lá “Đúng”. Sau việc thay thế này chúng ta sẽ còn lại 2 lỗi thay vì 4 lỗi.

Trên thực tế, phương pháp này có hiệu quả không cao, mặt khác lại khó cài đặt. Thông thường người ta hay sử dụng phương pháp hậu cắt tỉa.

Một phần của tài liệu Khai phá dữ liệu với cây quyết định (Trang 52)

Tải bản đầy đủ (PDF)

(129 trang)