Phơng pháp tỉa cây sau

Một phần của tài liệu KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU LỚN (Trang 47)

Chơng 5 Phân lớp dựa trên cây quyết định

5.4.2 Phơng pháp tỉa cây sau

Khác với phơng pháp trên, quá trình tỉa cây sau chỉ đợc thực hiện khi đã có một cây quyết định hoàn chỉnh. Phơng pháp này sẽ loại bỏ một số phần trên cây nhằm tối thiểu hóa sai số dự đoán. Tỉa cây sau tuy gây ra tốn kém về mặt thời gian và bộ nhớ do tạo ra các nút d thừa nhng cây thu đợc sau khi tỉa thờng đạt đợc độ chính xác phân lớp cao. Vì những lí do trên, quá trình thu gọn cây thờng đợc thực hiện bằng phơng pháp tỉa cây sau.

Để dự đoán tốc độ sai số, ngời ta thờng sử dụng hai kỹ thuật sau :

• Dự đoán trên một tập mẫu khác tập mẫu đã dùng để dựng cây.

• Dự đoán trên chính tập mẫu học.

Theo kĩ thuật thứ nhất, tập dữ liệu ban đầu đợc chia thành hai tập riêng rẽ, gọi là tập mẫu học (dùng trong quá trình phát triển cây) và tập mẫu thử (dùng để tỉa cây). Vấn đề cần giải quyết là phải chọn các mẫu thử sao cho chúng đáng tin cậy. Khi sử dụng kĩ thuật này, ta đã hạn chế số mẫu học. Điều này có thể làm giảm độ chính xác phân lớp của cây quyết định thu đợc nếu chỉ có ít dữ liệu. Ngời ta có thể khắc phục hiện tợng này bằng kĩ thuật xác nhận ngợc (cross-validation). Khi đó tập dữ liệu ban đầu đợc chia thành C khối có số lợng mẫu tơng đơng nhau. Đối với mỗi khối, ngời ta dựng cây tơng ứng với (C-1) khối còn lại, khối đang xét sẽ đợc dùng làm tập mẫu thử cho cây vừa dựng đợc.

Trong trờng hợp thứ hai, tập mẫu đã đợc dùng để dựng cây sẽ đợc điều chỉnh để có thể dự đoán tốc độ sai số. Các cây quyết định tạo ra thờng có kích thớc lớn hơn so với trờng hợp trên.

Một phần của tài liệu KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU LỚN (Trang 47)

Tải bản đầy đủ (DOCX)

(89 trang)
w