4. Vấn đề Overfitting và các giải pháp giảm Overfitting 1Quá khớp dữ liệu (Overfitting)
4.2 Phương pháp tránh quá khớp dữ liệu
Quá khớp dữ liệu là một khó khăn đáng kể đối với học bằng cây quyết định và những phương pháp học khác. Đặc biệt khi số lượng ví dụ trong tập dữ liệu đào tạo quá ít, hay có noise trong d ữ liệu.
Có hai phương pháp tránh “quá khớp” dữ liệu trong cây quyết định:
• Dừng phát triển cây sớm hơn bình thường, trước khi đạt tới điểm phân lớp hoàn hảo tập dữ liệu đào tạo. Với phương pháp này, một thách thức đặt ra là phải ước lượng chính xác thờ i điểm dừng phát triển cây.
• Cho phép cây có th ể “quá khớp” dữ liệu, sau đó sẽ cắt, tỉa cây.
Mặc dù phương pháp thứ nhất có vẻ trực tiếp hơn, nhưng với phương pháp thứ hai thì cây quyế t định được sinh ra được thực nghiệm chứng minh là thành công hơn trong thực tế . Hơn nữa việc cắt tỉa cây quyết định còn giúp tổng quát hóa, và cải thiện độ chính xác của mô hình phân lớp. Dù thực hiện phương pháp nào thì vấn đề mấu chốt ở đây là tiêu chuẩn nào được sử dụng để xác định kích thước hợp lý của cây cuối cùng.
Như vậy kích thước chính xác của cây được tìm thấy bằng việc dừng sớm hay trễ là một câu hỏi được đặt ra cho nhiều nhà khoa học để xác định kích thước cuối cùng của cây. Và có các phương pháp như sau:
• Tập dữ liệu được chia ra làm các phần riêng biệt, từ tập huấn luyện, tập đánh giá cây sau khi cắt tỉa bằng phương pháp hậu cắt tỉa
• Áp dụng một kiểm tra thống kê (Chi-square test) để đánh giá xem việc mở rộng (hay cắt tỉa) một nút có giúp cải thiện hiệu năng đối với tập huấn luyện.
• Dùng độ đo bằng cách mã hóa tập huấn luyện và cây quyết định , ngừng phát triển cây nếu chiều dài của chuỗi mã hóa là nhỏ nhất.
Phương pháp đầu tiên được dùng phổ biến và sử dụng tập dữ liệu huấn luyện để tạo cây, tập đánh giá để đánh giá node cần cắt tỉa. Và ta tiếp tục đi vào phương pháp thứ nhất để giảm lỗi cắt quá khớp dữ liệu.