Đánh giá cây quyết định

a) Phương pháp Hold out

Phương pháp Hold out [3], [5] được thực hiện như sau: toàn bộ tập dữ liệu D

được chia thành 2 tập con không giao nhau là :

- Tập huấn luyện D_train để xây dựng cây quyết định.

- Tập kiểm thử D_test để đánh giá hiệu quả của cây quyết định đã được xây dựng D = D_train ˅ D_test , và thường là D_train >> D_test.

Các yêu cầu :

- Bất kỳ mẫu nào thuộc tập kiểm thử D_test đều không được sử dụng trong quá trình xây dựng cây quyết định.

- Bất kì mẫu nào được sử dụng trong giai đoạn xây dựng cây đều không được sử dụng trong giai đoạn đánh giá hệ thống

- Các lựa chọn thường gặp là D_train = 2/3D, D_test = 1/3D

Kết quả có được so sánh với kết quả đã xảy ra ở tập kiểm tra để tính phần trăm chính xác của cây đó, phương pháp này phù hợp với tập D là lớn.

b) K-Fold cross validation.

Để tránh việc trùng lặp giữa các tập kiểm thử (một số mẫu cùng xuất hiện trong các tập kiểm thử khác nhau) , phương pháp k- fold cross validation [3], [5] làm như sau:

- Toàn bộ tập dữ liệu D được chia thanh k tập con không giao nhau (gọi là fold) có kích thướng xấp xỉ nhau.

Sinh viên thực hiện: Nguyễn Thu Hương - Lớp HTTTA – K11 Trang 20 / 61

tập con còn lại được dùng làm tập huấn luyện.

Như thế ta sẽ có k cây, và tính được độ chính xác của k cây đó, khi đó ta sẽ biết được độ chính xác của cây đó trong khoảng nào, phương pháp này phù hợp với tập D là vừa và nhỏ.

Vai trò của cây quyết định

Thuật toán xây dựng cây ID3