4. Vấn đề Overfitting và các giải pháp giảm Overfitting 1Quá khớp dữ liệu (Overfitting)
4.2.1 Cắt tỉa để giảm lỗi (Reduced error pruning)
Như ta biết rằng phương pháp thứ nhất, người ta chia tập dữ liệu ra làm 3 phần do Quinlan đề xuất 1987 như sau:
• Tập huấn luyện để tạo cây(training examples).
• Tập đánh giá dùng cho việc cắt tỉa (validation examples).
• Tập kiểm tra dùng để đánh giá độ chính xác trong tương lai (test examples). 1. Phương pháp cắt tỉa như sau:
• Mỗi node trong cây quyết định là một ứng viên (không tính node lá).
• Node bị cắt đi nếu làm tăng độ chính xác của cây quyết định trên tập đánh giá. • Lặp cho tới khi độ chính xác của phần đánh giá giảm thì dừng.
Sau đây là kết quả thống kê tính hiệu quả của việc cắt tỉa:
H4 Độ chính xác của cây sau cắt tỉa
Hiệu quả của việc cắt tỉa trên cây quyết định. Biểu đồ trên có đường cong trên và dưới giống như H3 thể hiện độ chính xác của tập huấn luyện và tập test. Thêm vào đó còn thể hiện hiệu quả độ chính xác của cây quyết định trên tập dữ liệu test sau khi cắt tỉa bằng thuật toán Reduced-error pruning. Sau khi cắt tỉa thì độ chính xác của tập test tăng lên theo số lượng node ứng viên nhưng khi đạt đến số lượng node tối đa thì độ chính xác của cây cắt tỉa giảm bằng với trước khi cắt tỉa (số lượng node nhiều nhất). Để thể hiện rõ điều này ta đi vào ví dụ cụ thể:
H5 Cây dùng để cắt tỉa [4]
• Đánh giá tỉ lệ lỗi trên một nút theo PP C4.5:
• f =S/N: tỉ lệ lỗi trên tập huấn luyện • S: số mẫu lỗi tại một node
• N: tổng số mẫu tại node
• z : độ lệch chuẩn (standard deviation) • Phân bổ Gaussian (Normal Distribution)
• Trung bình µ= 0 và phương sai δ2 =1
• c% : khoảng tin cậy của biến random X [–z ≤ X ≤ z]
• Với phân bổ đối xứng:
Xác xuất của một biến ngẫu nhiên bất kỳ [4] :
Đánh giá việc cắt tỉa các node bằng cách dùng công thức đánh giá độ lỗi của một node cha so với độ lỗi trung bình ở một node con khi cho một bộ vào cây quyết định:
H6 Đánh giá độ lỗi tại một node[4]
H7 Cây được cắt tỉa[4]
Node cha bị cắt tỉa sẽ thay thế node con như sau: • Nâng cây:
H8 Nâng cây[4]