Cắt tỉa cây tối đa bằng phương pháp minimal cost-complexity

Trang 1

Nhóm: 2

Trang 2

1. Vấn đề “Overfitting” trong xây dựng cây tối đa.

2. Phương pháp cắt tỉa tối thiểu chi phí phức tạp

3. Tránh “overfitting” bằng phương pháp xác thực chéo

4. Lựa chọn cây tối ưu theo quy tắc 1SE (one standard error)

Nội dung báo cáo

Trang 3

 Quá khớp dữ liệu (overfitting) là hiện tượng cây quyết định chứa một số đặc trưng riêng của tập dữ liệu đào tạo, nếu lấy tập này để kiểm tra lại mô hình phân lớp thì độ chính xác sẽ rất cao nhưng đối với dữ liệu khác thì độ chính xác lại giảm.

 Cho một không gian H, quá khớp với tập dữ liệu huấn luyện nếu tồn tại sao cho :

◦ h có tỉ lệ lỗi thấp hơn h’ với tập dữ liệu huấn luyện

◦ h’ có tỉ lệ lỗi thấp hơn h với dữ liệu tổng quát

Trang 4

Thống kê độ chính xác của cây quyết định

Trang 5

 Do bộ dữ liệu test có nhiễu.

 Số lượng dữ liệu đem đi huấn luyện quá ít

 Dữ liệu huấn luyện chỉ nghiêng về một đặc trưng nào đó thôi chứ không bao quát toàn bộ các trường hợp

Nguyên nhân quá khớp dữ liệu:

Trang 6

 Cách giải quyết:

dừng phát triển

 Trong thực tế ta sử dụng phương pháp 2, việc cắt tỉa cây giúp tổng quát hóa, cải thiện độ chính xác của mô hình phân lớp.

 Kích thước bộ dữ liệu tăng sẽ dẫn đến tăng độ phức tạp của cây mặc dù nó không cải thiện được nhiều tỉ lệ phân loại sai.

Phương pháp tránh “quá khớp” dữ liệu:

Trang 7

Cắt tỉa cây tối đa

Trang 8

 Cho cây con , độ phức tạp của cây là số node lá của cây T và tham số , ta có chi phí phức tạp Ra (T) :

 Ta cần tìm cây tối ưu sao cho:

 Tmax không phải là điểm khởi đầu tốt để tính toán giá trị , ta sẽ lược bớt cây Tmax để thu được cây con T1 có tỉ lệ lỗi R(T1) = R(Tmax) nhưng có độ phức tạp nhỏ hơn.



2 Phương pháp cắt tỉa tối thiểu chi phí phức tạp

Trang 9

Lược bớt cây tối đa

Trang 10

 Gọi Tt là nhánh con bắt nguồn từ node cha t, ta định nghĩa R(Tt) là tỉ lệ lỗi resubstitution của nhánh:

 là số node lá của nhánh Tt

 Nếu t không phải node cuối hay node nội bộ của cây T1, và tỉ lệ lỗi R(t) > R(Tt) chúng ta có thể thay thế nhánh Tt bằng node

t để tăng tỉ lệ lỗi resubstitution

Tăng tỉ lệ lỗi resubstitution:

t

Trang 11

 Ta định nghĩa hàm liên kết g(t) cho 1 node :

 Liên kết yếu nhất trong T1 là của node có:

 là giá trị tham số phức tạp cho cây con tỉa ký hiệu là α2 Cây ký hiệu là T2.

 Quá trình này được lặp lại cho đến khi được cây Tn chỉ còn node gốc ta có các chuỗi cây và các giá trị tăng dần

Trang 12

Quá trình tỉa cây

Trang 13

 Để tránh hiện tượng overfitting giá trị α sẽ được tính toán dựa trên phương pháp xác thực chéo

3 Phương pháp xác thực chéo (Cross-validation)

Trang 14

 Dữ liệu sẽ được chia thành V phần bằng nhau

 V- 1 tập con sẽ được dùng để xây dựng cây phân loại, tập còn lại dùng

để test

 Quá trình được lặp lại N lần.

Phương pháp xác thực chéo

Trang 15

 Xây dựng cây trên tập dữ liệu đầy đủ và tính các giá trị và T1> T2 > … > TK , Tk là cây con nhỏ nhất với

Trang 16

 Chia dữ liệu thành V nhóm G1, G2, …, Gv (kích thước bằng nhau) và cho mỗi nhóm Gj:

◦ Tính toán chuỗi cây với cost-complexity pruning cho tất cả tập dữ liệu trừ Gj và xác định cho chuỗi này.



Bước 2: (Cross-validation)

Trang 17

 Đối với mỗi βk, tính tổng các lỗi của trên Gj (j =1,…,v).

 Cho βh là giá trị có tổng lỗi nhỏ nhất, ta sẽ chọn Th tương ứng là cây tốt nhất.

 Sử dụng lỗi tính được bằng phương pháp xác thực chéo như một ước tính tỉ lệ lỗi cho cây.



Bước 3: (Cross-validation)

Trang 18

 β2 có giá trị nhỏ nhất với 40 lỗi nên cây T2 được chọn.

 Tỉ lệ lỗi tính đươc trên T2 là 20%

Ví dụ:

Trang 19

 Với một số bộ dữ liệu cách tỉa cây con bằng tối thiểu là không ổn định

 Những thay đổi nhỏ trong giá trị tham số hay dữ liệu cho mỗi lần xác thực chéo có thể cho kết quả Tfinal rất khác nhau

 Ta sử dụng quy tắc 1SE để giảm sự bất ổn trong việc lựa chọn cây cuối cùng

Sự bất ổn trong lựa chọn cây tối ưu

Trang 20

Kết quả khi chưa sử dụng quy tắc 1SE

Trang 21

 Gọi N tổng số trường hợp trong dữ liệu gốc Ước tính sai số chuẩn cho được định nghĩa:

 Việc lựa chọn Tfinal theo quy tắc 1SE phải thỏa mãn:



Quy tắc 1SE (one standard error)

Trang 22

Lựa chọn bằng quy tắc 1SE

Tiêu đề	Cắt Tỉa Cây Tối Đa Bằng Phương Pháp Minimal Cost-Complexity
Tác giả	Nhóm: 2

Định dạng
Số trang	22
Dung lượng	731,4 KB