Tránh overfitting dữ liệu

Trong một số trường hợp giải thuật mô tả sự phân nhánh của cây chỉ đủ sâu để phân loại tốt những ví dụ huấn luyện. Trong thực tế nó có thể dẫn đến những khó khăn khi có những dữ liệu hỗn tạp hoặc khi số lượng của ví dụ huấn luyện là quá ít để tạo ra biểu diễn điển hình cho hàm mục tiêu. Trong cả hai trường hợp này, giải thuật có thể sinh ra overfiting.

Định nghĩa: Cho một không gian giả thuyết H, một giả thuyết h thuộc H được gọi là quá khớp (overfit) trên tập dữ liệu huấn luyện nếu tồn tại một giả thuyết h‟ thuộc H mà h có ít lỗi hơn h‟ trên ví dụ huấn luyện, nhưng h‟ có lỗi nhỏ hơn h trên các dữ liệu không thuộc tập huấn luyện.

Làm thế nào chúng ta có thể sử dụng một tập hợp hợp lệ để tránh overfitting. Điều này được gọi là reduced-error pruning đây là việc xem xét trên mỗi nút của cây là đối tượng cho việc cắt nhánh (pruning). Có hai phương pháp cơ bản để cắt nhánh cây, đó là phương pháp Tiền cắt tỉa (prepruning) và phương pháp Hậu cắt tỉa (postpruning).

Ngoài ra, có một số hướng tiếp cận để xác định kích thước đúng cuối cùng của cây như là:

- Tách riêng dữ liệu huấn luyện và dữ liệu kiểm tra hoặc sử dụng kiểm tra chéo (cross-validation): Để phát triển cây quyết định, ta có thể không

quyết định bởi tập dữ liệu kiểm tra. Cắt nhánh một nút của cây quyết định có thể hiểu là việc loại bỏ cây con tại nút đó, tạo một nút lá và gán cho nó một một sự phân loại của đa số những ví dụ huấn luyện liên kết với nút đó. Những nút được loại bỏ chỉ nếu kết quả thu gọn cây có ít lỗi hơn cây cũ trên tập hợp dữ liệu kiểm tra. Việc cắt nhánh được lặp lại cho đến khi cây mới tạo ra có nhiều lỗi hơn cây cũ.

- Sử dụng tất cả dữ liệu để huấn luyện và áp dụng kiểm tra kiểu thống kê (như là chi-square) để đánh giá xem cần mở rộng hay cắt nhánh tại một nút có thể cải thiện trên toàn thể sự phân lọai

- Dùng nguyên tắc Minimum Description Length (MDL): ngừng phát triển cây khi mã (encoding) là tối thiểu

Xây dựng cây quyết định

Những hạn chế của giải thuật ID3