Cắt tỉa cây tối đa bằng phương pháp minimal cost-complexity
Nhóm: 2 Cắt tỉa cây tối đa bằng phương pháp minimal cost-complexity 1. Vấn đề “Overfitting” trong xây dựng cây tối đa. 2. Phương pháp cắt tỉa tối thiểu chi phí phức tạp. 3. Tránh “overfitting” bằng phương pháp xác thực chéo 4. Lựa chọn cây tối ưu theo quy tắc 1SE (one standard error) Nội dung báo cáo Quá khớp dữ liệu (overfitting) là hiện tượng cây quyết định chứa một số đặc trưng riêng của tập dữ liệu đào tạo, nếu lấy tập này để kiểm tra lại mô hình phân lớp thì độ chính xác sẽ rất cao nhưng đối với dữ liệu khác thì độ chính xác lại giảm. Cho một không gian H, quá khớp với tập dữ liệu huấn luyện nếu tồn tại sao cho : ◦ h có tỉ lệ lỗi thấp hơn h’ với tập dữ liệu huấn luyện. ◦ h’ có tỉ lệ lỗi thấp hơn h với dữ liệu tổng quát. 1. Vấn đề “Overfitting” Thống kê độ chính xác của cây quyết định Do bộ dữ liệu test có nhiễu. Số lượng dữ liệu đem đi huấn luyện quá ít Dữ liệu huấn luyện chỉ nghiêng về một đặc trưng nào đó thôi chứ không bao quát toàn bộ các trường hợp Nguyên nhân quá khớp dữ liệu: Cách giải quyết: ◦ Dừng phát triển cây trước khi đạt tới điểm phân lớp hoàn hảo tập dữ liệu, yêu cầu là phải ước lượng chính xác thời điểm dừng phát triển. ◦ Cho phép cây có thể “quá khớp” dữ liệu, sau đó sẽ cắt, tỉa cây Trong thực tế ta sử dụng phương pháp 2, việc cắt tỉa cây giúp tổng quát hóa, cải thiện độ chính xác của mô hình phân lớp. Kích thước bộ dữ liệu tăng sẽ dẫn đến tăng độ phức tạp của cây mặc dù nó không cải thiện được nhiều tỉ lệ phân loại sai. Phương pháp tránh “quá khớp” dữ liệu: Cắt tỉa cây tối đa Cho cây con , độ phức tạp của cây là số node lá của cây T và tham số , ta có chi phí phức tạp R a (T) : Ta cần tìm cây tối ưu sao cho: T max không phải là điểm khởi đầu tốt để tính toán giá trị , ta sẽ lược bớt cây T max để thu được cây con T 1 có tỉ lệ lỗi R(T 1 ) = R(T max ) nhưng có độ phức tạp nhỏ hơn. 2. Phương pháp cắt tỉa tối thiểu chi phí phức tạp Lược bớt cây tối đa Gọi T t là nhánh con bắt nguồn từ node cha t, ta định nghĩa R(T t ) là tỉ lệ lỗi resubstitution của nhánh: là số node lá của nhánh T t Nếu t không phải node cuối hay node nội bộ của cây T 1 , và tỉ lệ lỗi R(t) > R(T t ) chúng ta có thể thay thế nhánh T t bằng node t để tăng tỉ lệ lỗi resubstitution Tăng tỉ lệ lỗi resubstitution: t [...].. .Cắt tỉa liên kết yếu nhất Ta định nghĩa hàm liên kết g(t) cho 1 node : Liên kết yếu nhất trong T1 là của node có: là giá trị tham số phức tạp cho cây con tỉa ký hiệu là α 2 Cây ký hiệu là T2 Quá trình này được lặp lại cho đến khi được cây Tn chỉ còn node gốc ta có các chuỗi cây và các giá trị tăng dần Quá trình tỉa cây 3 Phương pháp xác thực chéo (Cross-validation)... trị α sẽ được tính toán dựa trên phương pháp xác thực chéo Phương pháp xác thực chéo Dữ liệu sẽ được chia thành V phần bằng nhau V- 1 tập con sẽ được dùng để xây dựng cây phân loại, tập còn lại dùng để test Quá trình được lặp lại N lần Bước 1: (Cross-validation) Xây dựng cây trên tập dữ liệu đầy đủ và tính các giá trị Đặt : và T1> T2 > … > TK , Tk là cây con nhỏ nhất với ◦ ◦ ◦ là... ứng là cây tốt nhất Sử dụng lỗi tính được bằng phương pháp xác thực chéo như một ước tính tỉ lệ lỗi cho cây Ví dụ: β2 có giá trị nhỏ nhất với 40 lỗi nên cây T2 được chọn Tỉ lệ lỗi tính đươc trên T2 là 20% Sự bất ổn trong lựa chọn cây tối ưu Với một số bộ dữ liệu cách tỉa cây con bằng tối thiểu là không ổn định Những thay đổi nhỏ trong giá trị tham số hay dữ liệu cho mỗi lần xác thực chéo... (kích thước bằng nhau) và cho mỗi nhóm Gj: ◦ Tính toán chuỗi cây với cost-complexity pruning cho tất cả tập dữ liệu trừ G j và xác định ◦ Tính sai số của trên Gj cho chuỗi này Bước 3: (Cross-validation) Đối với mỗi β , tính tổng các lỗi của trên G (j =1,…,v) k j Cho βh là giá trị có tổng lỗi nhỏ nhất, ta sẽ chọn Th tương ứng là cây tốt nhất Sử dụng lỗi tính được bằng phương pháp xác thực... Tfinal rất khác nhau Ta sử dụng quy tắc 1SE để giảm sự bất ổn trong việc lựa chọn cây cuối cùng Kết quả khi chưa sử dụng quy tắc 1SE Quy tắc 1SE (one standard error) Gọi N tổng số trường hợp trong dữ liệu gốc Ước tính sai số chuẩn cho được định nghĩa: Việc lựa chọn Tfinal theo quy tắc 1SE phải thỏa mãn: Lựa chọn bằng quy tắc 1SE . 2 Cắt tỉa cây tối đa bằng phương pháp minimal cost-complexity 1. Vấn đề “Overfitting” trong xây dựng cây tối đa. 2. Phương pháp cắt tỉa tối thiểu chi phí phức tạp. 3. Tránh “overfitting” bằng. sai. Phương pháp tránh “quá khớp” dữ liệu: Cắt tỉa cây tối đa Cho cây con , độ phức tạp của cây là số node lá của cây T và tham số , ta có chi phí phức tạp R a (T) : Ta cần tìm cây tối ưu. bớt cây T max để thu được cây con T 1 có tỉ lệ lỗi R(T 1 ) = R(T max ) nhưng có độ phức tạp nhỏ hơn. 2. Phương pháp cắt tỉa tối thiểu chi phí phức tạp Lược bớt cây tối đa Gọi