Cắt tỉa cây tối đa bằng phương pháp minimal cost-complexity
Trang 1Nhóm: 2
Cắt tỉa cây tối đa bằng phương pháp minimal cost-complexity
Trang 21. Vấn đề “Overfitting” trong xây dựng cây tối đa.
2. Phương pháp cắt tỉa tối thiểu chi phí phức tạp
3. Tránh “overfitting” bằng phương pháp xác thực chéo
4. Lựa chọn cây tối ưu theo quy tắc 1SE (one standard error)
Nội dung báo cáo
Trang 3 Quá khớp dữ liệu (overfitting) là hiện tượng cây quyết định chứa một số đặc trưng riêng của tập dữ liệu đào tạo, nếu lấy tập này để kiểm tra lại mô hình phân lớp thì độ chính xác sẽ rất cao nhưng đối với dữ liệu khác thì độ chính xác lại giảm.
Cho một không gian H, quá khớp với tập dữ liệu huấn luyện nếu tồn tại sao cho :
◦ h có tỉ lệ lỗi thấp hơn h’ với tập dữ liệu huấn luyện
◦ h’ có tỉ lệ lỗi thấp hơn h với dữ liệu tổng quát
Trang 4
Thống kê độ chính xác của cây quyết định
Trang 5 Do bộ dữ liệu test có nhiễu.
Số lượng dữ liệu đem đi huấn luyện quá ít
Dữ liệu huấn luyện chỉ nghiêng về một đặc trưng nào đó thôi chứ không bao quát toàn bộ các trường hợp
Nguyên nhân quá khớp dữ liệu:
Trang 6 Cách giải quyết:
dừng phát triển
Trong thực tế ta sử dụng phương pháp 2, việc cắt tỉa cây giúp tổng quát hóa, cải thiện độ chính xác của mô hình phân lớp.
Kích thước bộ dữ liệu tăng sẽ dẫn đến tăng độ phức tạp của cây mặc dù nó không cải thiện được nhiều tỉ lệ phân loại sai.
Phương pháp tránh “quá khớp” dữ liệu:
Trang 7Cắt tỉa cây tối đa
Trang 8 Cho cây con , độ phức tạp của cây là số node lá của cây T và tham số , ta có chi phí phức tạp Ra (T) :
Ta cần tìm cây tối ưu sao cho:
Tmax không phải là điểm khởi đầu tốt để tính toán giá trị , ta sẽ lược bớt cây Tmax để thu được cây con T1 có tỉ lệ lỗi R(T1) = R(Tmax) nhưng có độ phức tạp nhỏ hơn.
2 Phương pháp cắt tỉa tối thiểu chi phí phức tạp
Trang 9
Lược bớt cây tối đa
Trang 10
Gọi Tt là nhánh con bắt nguồn từ node cha t, ta định nghĩa R(Tt) là tỉ lệ lỗi resubstitution của nhánh:
là số node lá của nhánh Tt
Nếu t không phải node cuối hay node nội bộ của cây T1, và tỉ lệ lỗi R(t) > R(Tt) chúng ta có thể thay thế nhánh Tt bằng node
t để tăng tỉ lệ lỗi resubstitution
Tăng tỉ lệ lỗi resubstitution:
t
Trang 11
Ta định nghĩa hàm liên kết g(t) cho 1 node :
Liên kết yếu nhất trong T1 là của node có:
là giá trị tham số phức tạp cho cây con tỉa ký hiệu là α2 Cây ký hiệu là T2.
Quá trình này được lặp lại cho đến khi được cây Tn chỉ còn node gốc ta có các chuỗi cây và các giá trị tăng dần
Trang 12
Quá trình tỉa cây
Trang 13 Để tránh hiện tượng overfitting giá trị α sẽ được tính toán dựa trên phương pháp xác thực chéo
3 Phương pháp xác thực chéo (Cross-validation)
Trang 14 Dữ liệu sẽ được chia thành V phần bằng nhau
V- 1 tập con sẽ được dùng để xây dựng cây phân loại, tập còn lại dùng
để test
Quá trình được lặp lại N lần.
Phương pháp xác thực chéo
Trang 15 Xây dựng cây trên tập dữ liệu đầy đủ và tính các giá trị và T1> T2 > … > TK , Tk là cây con nhỏ nhất với
Trang 16 Chia dữ liệu thành V nhóm G1, G2, …, Gv (kích thước bằng nhau) và cho mỗi nhóm Gj:
◦ Tính toán chuỗi cây với cost-complexity pruning cho tất cả tập dữ liệu trừ Gj và xác định cho chuỗi này.
Bước 2: (Cross-validation)
Trang 17
Đối với mỗi βk, tính tổng các lỗi của trên Gj (j =1,…,v).
Cho βh là giá trị có tổng lỗi nhỏ nhất, ta sẽ chọn Th tương ứng là cây tốt nhất.
Sử dụng lỗi tính được bằng phương pháp xác thực chéo như một ước tính tỉ lệ lỗi cho cây.
Bước 3: (Cross-validation)
Trang 18 β2 có giá trị nhỏ nhất với 40 lỗi nên cây T2 được chọn.
Tỉ lệ lỗi tính đươc trên T2 là 20%
Ví dụ:
Trang 19 Với một số bộ dữ liệu cách tỉa cây con bằng tối thiểu là không ổn định
Những thay đổi nhỏ trong giá trị tham số hay dữ liệu cho mỗi lần xác thực chéo có thể cho kết quả Tfinal rất khác nhau
Ta sử dụng quy tắc 1SE để giảm sự bất ổn trong việc lựa chọn cây cuối cùng
Sự bất ổn trong lựa chọn cây tối ưu
Trang 20
Kết quả khi chưa sử dụng quy tắc 1SE
Trang 21 Gọi N tổng số trường hợp trong dữ liệu gốc Ước tính sai số chuẩn cho được định nghĩa:
Việc lựa chọn Tfinal theo quy tắc 1SE phải thỏa mãn:
Quy tắc 1SE (one standard error)
Trang 22
Lựa chọn bằng quy tắc 1SE