a) Phương pháp Hold out
Phương pháp Hold out [3], [5] được thực hiện như sau: toàn bộ tập dữ liệu D
được chia thành 2 tập con không giao nhau là :
- Tập huấn luyện D_train để xây dựng cây quyết định.
- Tập kiểm thử D_test để đánh giá hiệu quả của cây quyết định đã được xây dựng D = D_train ˅ D_test , và thường là D_train >> D_test.
Các yêu cầu :
- Bất kỳ mẫu nào thuộc tập kiểm thử D_test đều không được sử dụng trong quá trình xây dựng cây quyết định.
- Bất kì mẫu nào được sử dụng trong giai đoạn xây dựng cây đều không được sử dụng trong giai đoạn đánh giá hệ thống
- Các lựa chọn thường gặp là D_train = 2/3D, D_test = 1/3D
Kết quả có được so sánh với kết quả đã xảy ra ở tập kiểm tra để tính phần trăm chính xác của cây đó, phương pháp này phù hợp với tập D là lớn.
b) K-Fold cross validation.
Để tránh việc trùng lặp giữa các tập kiểm thử (một số mẫu cùng xuất hiện trong các tập kiểm thử khác nhau) , phương pháp k- fold cross validation [3], [5] làm như sau:
- Toàn bộ tập dữ liệu D được chia thanh k tập con không giao nhau (gọi là fold) có kích thướng xấp xỉ nhau.
Sinh viên thực hiện: Nguyễn Thu Hương - Lớp HTTTA – K11 Trang 20 / 61
tập con còn lại được dùng làm tập huấn luyện.
Như thế ta sẽ có k cây, và tính được độ chính xác của k cây đó, khi đó ta sẽ biết được độ chính xác của cây đó trong khoảng nào, phương pháp này phù hợp với tập D là vừa và nhỏ.