1. Trang chủ
  2. » Luận Văn - Báo Cáo

MỘT số PHƯƠNG PHÁP TĂNG HIỆU QUẢ

26 22 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 690,33 KB

Nội dung

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Viện Toán ứng dụng Tin học HỆ HỖ TRỢ QUYẾT ĐỊNH BÁO CÁO CUỐI KỲ ĐỀ TÀI: MỘT SỐ PHƯƠNG PHÁP TĂNG HIỆU QUẢ Giảng viên hướng dẫn: Lê Chí Ngọc Nhóm sinh viên thực hiện: MSSV Cung Bảo Yến 20173606 Cao Đắc Anh Đức 20173499 Thái Văn Trường 20174307 Lê Thu Hằng 20173510 Lớp Toán Tin 02- k62 HTTTQL-k62 Toán Tin 02- k62 Tốn Tin 02- k62 MỤC LỤC 4.1 Tính đa dạng 4.1.1 Khái niệm 4.2 Phân tích lỗi: 4.2.1 Phân tích lỗi khơng rõ ràng: 4.2.2 Phân rã Độ lệch – Phương sai – Hiệp phương sai 4.3 Thước đo tính đa dạng: 10 4.3.1 Thước đo cặp: 10 4.3.2 Thước đo không theo cặp: 12 4.3.3 Tóm tắt trực quan hóa 16 4.3.4 Giới hạn phương pháp đa dạng 18 4.4 Lý thuyết đa dạng thông tin 19 4.4.1 Lý thuyết thông tin kết hợp 19 4.4.2 Đa dạng thông tin tương tác 20 4.4.3 Đa dạng thông tin 21 4.4.4 Phương pháp ước tính 22 4.5 Tính đa dạng phương pháp sinh thông tin 24 4.6 Bài đọc thêm 26 4.1 Tính đa dạng 4.1.1 Khái niệm: Mơ hình máy học kết hợp, thể khác biệt máy học riêng biệt, vấn đề phương pháp tập hợp Theo trực giác, dễ nhìn nhận để đạt phối hợp; máy học phải trở nên khác biệt, máy học giống hệt kết hợp khơng có cải thiện chất lượng Tumer Ghosh [1995] phân tích hiệu suất cách thức soft-voting sử dụng kỹ thuật phân tích giá trị biên giới thiệu mục trước, cách đưa biến θ để mô tả mối tương quan tổng thể máy học riêng biệt Họ kỳ vọng lỗi sai bổ sung tập hợp là: 𝑠𝑠𝑣 (𝐻) = 𝑒𝑟𝑟𝑎𝑑𝑑 + θ(𝑇 − 1) 𝑒𝑟𝑟𝑎𝑑𝑑 (ℎ) 𝑇 (4.1) 𝑒𝑟𝑟𝑎𝑑𝑑 (ℎ) kỳ vọng lỗi sai bổ sung máy học riêng biệt (để hiểu đơn giản, máy học riêng biệt giả định có lỗi tương đương nhau), 𝑇 kích thước tập Biểu thức (5.1) thể máy học độc lập, tức θ=0; tập hợp máy học đạt số T giảm lỗi so với máy học riêng biệt; máy học có tương quan lẫn nhau, tức θ=1 khơng có kết có lợi thu từ kết hợp Phân tích rõ ràng cho thấy đa dạng quan trọng việc đồng Kết luận tương tự thu từ phương pháp kết hợp khác Việc tạo máy học riêng biệt đa dạng không dễ dàng Trở ngại nằm chỗ máy học đào tạo cho nhiệm vụ từ nguồn liệu đào tạo, chúng thường có mối tương quan với cao Có nhiều cách tiếp cận hợp lý mặt lý thuyết, ví dụ giải pháp tối ưu trung bình có trọng số, khơng hoạt động thực tế đơn giản chúng dựa theo giả định máy học độc lập tương quan với Tình hình thực tế thật cịn khó khăn Lấy ví dụ, đạo hàm (4.1), xem xét mối tương quan cao máy học; dựa giả định máy học đưa ước tính độc lập xác suất; thực chưa trường hợp thực tế Trên thực tế, vấn đề tạo máy học đa dạng chí cịn khó khăn xem xét đến việc máy học không yếu, không kết hợp chúng khơng cải thiện mà cịn làm giảm hiệu suất Ví dụ thấy từ biểu thức trước; hiệu suất máy cá nhân riêng lẻ phân loại kém, lỗi phương thức soft-voting trở nên lớn tùy ý; kết phân tích tương tự thu cho phương thức kết hợp khác Vì vậy, mong muốn máy học riêng biệt nên xác đa dạng Việc kết hợp máy học xác cao với thường kết tệ việc kết hợp số máy học xác với máy học tương đối hơn, bổ sung cho quan trọng độ xác túy Cuối cùng, thành cơng phương pháp Ensemble Learning nằm việc đạt trao đổi kết hợp tốt hiệu suất đa dạng máy học cá nhân Thật không may, đa dạng quan trọng, chưa có hiểu biết rõ ràng đa dạng; ví dụ, khơng có định nghĩa thức đa dạng chấp nhận tốt Khơng nghi ngờ nói đa dạng hiểu biết chén thánh phương pháp kết hợp 4.2 Phân tích lỗi: Điều quan trọng lỗi tổng quát hóa tập hơp phụ thuộc vào vào thuật ngữ liên quan đến tính đa dạng Với mục đích này, phần giới thiệu hai sơ đồ phân rã lỗi tiếng cho phương thức tập hợp, phân rã lỗi khơng rõ ràng phân rã phương sai 4.2.1 Phân tích lỗi khơng rõ ràng: Phân rã lỗi không rõ ràng đề xuất Krogh Vedelsby vào năm 1995 Giả sử phải dùng nhóm 𝑇 máy học cá nhân ℎ1 , … , ℎ 𝑇 để ước lượng hàm 𝑓: 𝑅𝑑 ↦ 𝑅, dự đoán cuối tập hợp lấy thơng qua tính trung bình có trọng số, là: 𝑇 H(𝑥) = ∑ 𝑤𝑖 ℎ𝑖 (𝑥) 𝑖=1 đó, 𝑤𝑖 tính nặng máy học ℎ𝑖 tính nặng bị ràng buộc bất đẳng thức 𝑤𝑖 ≥ ∑𝑛𝑖=1 𝑤𝑖 = Cho ví dụ 𝑥, khơng rõ ràng máy học riêng biệt định nghĩa (theo Krogh Vedelsby vào năm 1995): ambi(ℎ𝑖 |𝑥) = (ℎ𝑖 (𝑥) − 𝐻(𝑥)) (4.2) không rõ ràng tập hợp là: T T ̅̅̅̅̅̅̅ ambi(h | x) = ∑ wi ambi(hi  | x) = ∑ wi (hi (x) − H(x)) i=1 (4.3) i=1 Rõ ràng, thuật ngữ không rõ ràng hay mơ hồ đo lường bất đồng máy học riêng biệt trường hợp 𝑥 Nếu sử dụng lỗi bình phương để đo hiệu suất lỗi máy học ℎ𝑖 nhóm 𝐻 tương ứng là: 𝑒𝑟𝑟(ℎ𝑖 | 𝑥) = (𝑓(𝑥) − ℎ𝑖 (𝑥)) , (4.4) 𝑒𝑟𝑟(𝐻 | 𝑥) = (𝑓(𝑥) − 𝐻(𝑥)) (4.5) Từ đó, dễ dàng suy ra: 𝑇 ̅̅̅̅̅̅̅ 𝑎𝑚𝑏𝑖(ℎ|𝑥) = ∑ 𝑤𝑖 𝑒𝑟𝑟(ℎ𝑖 | 𝑥) − 𝑒𝑟𝑟(ℎ𝑖 | 𝑥) = 𝑒𝑟𝑟 ̅̅̅̅̅(ℎ | 𝑥) − 𝑒𝑟𝑟(𝐻 | 𝑥), 𝑖=1 (4.6) 𝑒𝑟𝑟 ̅̅̅̅̅(ℎ|𝑥) = ∑𝑇𝑖=1 𝑤𝑖 err(ℎ𝑖 |𝑥) trung bình trọng số lỗi riêng lẻ Vì (4.6) cho trường hợp 𝑥, sau lấy trung bình phân phối đầu vào, biểu thức đúng: 𝑇 ∑ 𝑤𝑖 ∫ 𝑎𝑚𝑏𝑖(ℎ𝑖 | 𝑥)𝑝(𝑥)𝑑𝑥 (4.7) 𝑖=1 𝑇 = ∑ 𝑤𝑖 ∫ 𝑒𝑟𝑟(ℎ𝑖 | 𝑥)𝑝(𝑥)𝑑𝑥 − ∫ 𝑒𝑟𝑟(𝐻 | 𝑥)𝑝(𝑥)𝑑𝑥 , 𝑖=1 𝑝(𝑥) phân phối đầu vào mà từ trường hợp lấy mẫu Lỗi khái quát không rõ ràng máy học riêng biệt ℎ𝑖 viết tương ứng là: 𝑒𝑟𝑟(ℎ𝑖 ) = ∫ 𝑒𝑟𝑟(ℎ𝑖 | 𝑥)𝑝(𝑥)𝑑𝑥 , 𝑎𝑚𝑏𝑖(ℎ𝑖 ) = ∫ 𝑎𝑚𝑏𝑖(ℎ𝑖 | 𝑥)𝑝(𝑥)𝑑𝑥 (4.8) (4.9) Tương tự, lỗi tổng quát hóa tập hợp viết là: err(𝐻) = ∫ 𝑒𝑟𝑟(𝐻 | 𝑥)𝑝(𝑥)𝑑𝑥 (4.10) Dựa ký hiệu biểu thức (4.6), nhận phân tách lỗi không rõ ràng [Kroghand Vedelsby, 1995]: 𝑒𝑟𝑟(𝐻) = 𝑒𝑟𝑟 ̅̅̅̅̅(ℎ) − ̅̅̅̅̅̅̅ 𝑎𝑚𝑏𝑖(ℎ), (4.11) 𝑒𝑟𝑟 ̅̅̅̅̅(ℎ) = ∑𝑇𝑖=1 𝑤𝑖 𝑒𝑟𝑟(ℎ𝑖 ) trung bình trọng số lỗi tổng qt hóa riêng lẻ ̅̅̅̅̅̅̅ 𝑎𝑚𝑏𝑖(ℎ) = ∑𝑇𝑖=1 𝑤𝑖 𝑎𝑚𝑏𝑖(ℎ𝑖 ) trung bình trọng số khơng rõ ràng (mơ hồ) hay gọi không rõ ràng (mơ hồ) tập hợp Ở phía bên phải biểu thức (4.11), giá trị 𝑒𝑟𝑟 ̅̅̅̅̅(ℎ) lỗi trung bình máy học riêng biệt, phụ thuộc vào khả khái quát máy học; giá trị thứ ̅̅̅̅̅̅̅ 𝑎𝑚𝑏𝑖(ℎ) không rõ ràng, giá trị đo lường thay đổi dự đoán máy học, tùy thuộc vào đa dạng tập hợp Vì giá trị thứ dương, trừ vào giá trị đầu tiên, nên rõ ràng lỗi tập hợp không lớn lỗi trung bình máy học Quan trọng hơn, biểu thức (4.11) cho thấy máy học riêng biệt xác đa dạng tập hợp kết hợp chúng tốt Lưu ý biểu thức (4.11) lấy từ hồi quy Vì khó lấy kết cho phân loại Hơn nữa, điều khó cho việc ước tính ̅̅̅̅̅̅̅ 𝑎𝑚𝑏𝑖 theo kinh nghiệm Thơng thường, ước lượng ̅̅̅̅̅̅̅ 𝑎𝑚𝑏𝑖 thu cách trừ giá trị ước lượng 𝑒𝑟𝑟 ̅̅̅̅̅ từ giá trị ước lượng 𝑒𝑟𝑟, đó, giá trị ước tính cho thấy khác biệt lỗi tập hợp lỗi máy học, không thực thể ý nghĩa vật lý tính đa dạng; ̅̅̅̅̅̅̅ phải dương ước tính thường vi phạm ràng buộc 𝑎𝑚𝑏𝑖 Do đó, biểu thức (4.11) khơng cung cấp cơng thức thức đơn đa dạng tập hợp, cung cấp số kiến thức quan trọng 4.2.2 Phân rã Độ lệch – Phương sai – Hiệp phương sai Phân rã độ lệch – phương sai – hiệp phương sai [Geman et al., 1992], hay thường gọi phân rã độ lệch – phương sai, cơng cụ chung quan trọng để phân tích hiệu suất thuật toán máy học Đưa mục tiêu máy học quy mô tập huấn luyện, chia lỗi tổng quát hóa máy học thành ba thành phần, nhiễu trong, độ lệch phương sai Nhiễu giới hạn thấp lỗi dự kiến thuật toán máy học mục tiêu; độ lệch đo lường mức độ ước tính trung bình thuật tốn máy học xấp xỉ mục tiêu; thước đo phương sai cho thấy phần lớn ước tính phương pháp máy học, áp dụng cho tập huấn luyện khác có kích cỡ Vì nhiễu khó để ước tính, thường đưa vào thuật ngữ độ lệch Do đó, lỗi tổng quát hóa chia thành thuật ngữ sai lệch mô tả lỗi máy học theo kỳ vọng, thuật ngữ phương sai phản ánh độ nhạy cảm máy học biến thể huấn luyện Gọi 𝑓 biểu thị mục tiêu ℎ biểu thị máy học Đối với tổn thất bình phương, phân hủy là: 𝑒𝑟𝑟(ℎ) = 𝔼[(ℎ − 𝑓)2 ] = (𝐸[ℎ] − 𝑓)2 + 𝐸[(ℎ − 𝐸[ℎ])2 ] = 𝑏𝑖𝑎𝑠(ℎ)2 + 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒(ℎ), (4.12) độ lệch phương sai máy học tương ứng là: 𝑏𝑖𝑎𝑠(ℎ) = 𝔼[ℎ] − 𝑓, (4.13) 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒(ℎ) = 𝔼(ℎ − 𝔼[ℎ])2 (4.14) Chìa khóa việc ước tính thuật ngữ độ lệch phương sai theo kinh nghiệm nằm quy mô biến thể mẫu huấn luyện có kích thước Ví dụ, phương pháp Kohavi Wolpert [1996] hoạt động theo kiểu xác thực chéo hai lần, nguyên tập liệu chia thành tập tập huấn luyện 𝐷1 tập kiểm tra 𝐷2 Sau 𝑇 lấy mẫu từ 𝐷1 , kích thước huấn luyện gần nửa so với 𝐷1 để đảm bảo khơng có nhiều huấn luyện trùng lặp với 𝑇 𝐷 nhỏ Sau đó, thuật tốn máy học đào tạo huấn luyện thử nghiệm 𝐷2 , từ ước tính sai lệch phương sai Tồn q trình lặp lại nhiều lần để cải thiện ước tính Đối với tập hợp gồm máy học từ ℎ1 , … , ℎ 𝑇 , phân rã (4.12) mở rộng nữa, mang lại phân rã độ lệch – phương sai – hiệp phương sai [Ueda and Nakano, 1996] Khơng tính tổng quát, giả sử máy học kết hợp với trọng số Độ lệch trung bình, phương sai trung bình, hiệp phương sai trung bình máy học xác định là: 𝑇 ̅̅̅̅̅̅̅ 𝑎𝑚𝑏𝑖 = ∑(𝐸[ℎ𝑖 ] 𝑇 𝑖=1 (4.15) − 𝑓), ̅̅̅̅̅̅̅̅̅̅̅̅(𝐻) 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑇 = ∑ 𝔼(ℎ𝑖 𝑇 𝑖=1 − 𝔼[ℎ𝑖 ])2 , (4.16) ̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅(𝐻) 𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑇 𝑇 = ∑ ∑ o𝐸(ℎ𝑖 − 𝐸[ℎ𝑖 ])𝐸(ℎ𝑗 𝑇(𝑇 − 1) 𝑖=1 𝑗=1𝑗≠𝑖 − 𝐸[ℎ𝑗 ])          (4.17) Sau đó, phân rã độ lệch – phương sai – hiệp phương sai lỗi bình phương tập hợp là: 1 𝑒𝑟𝑟(𝐻) = ̅̅̅̅̅̅ 𝑏𝑖𝑎𝑠(𝐻)2 + 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 ̅̅̅̅̅̅̅̅̅̅̅̅(𝐻) + (1 − ) 𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 ̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅(𝐻) 𝑇 𝑇 (4.18) Biểu thức (4.18) cho ta thấy lỗi bình phương tập hợp phụ thuộc nhiều vào hiệp phương sai, giá trị làm mơ hình tương quan máy học riêng biệt Hiệp phương sai nhỏ tập hợp có kết tốt Rõ ràng tất máy học mắc lỗi tương tự nhau, hiệp phương sai lớn, đó, máy học riêng biệt mắc lỗi khác Vì thế, thơng qua thuật ngữ hiệp phương sai, biểu thức (4.18) đa dạng quan trọng hiệu suất tập kết hợp Lưu ý độ lệch phương sai bị hạn chế dương, hiệp phương sai âm Ngoài ra, biểu thức (4.18) lấy theo cài đặt hồi quy, khó để có kết tương tự cho phân loại Vì vậy, biểu thức (4.18) khơng cung cấp cơng thức xác tính đa dạng tập kết hợp Brown cộng tiết lộ mối liên hệ phân rã lỗi không rõ ràng phân rã độ lệch – phương sai – hiệp phương sai Để đơn giản, ta giả sử máy học kết hợp với trọng số Xét phía bên trái biểu thức (4.11) giống với phía bên trái biểu thức (4.18), cách đặt biểu thức phía bên phải (4.11) (4.18) với nhau, ta được: ̅̅̅̅̅̅̅(𝐻) 𝑒𝑟𝑟 ̅̅̅̅̅(𝐻) − 𝑎𝑚𝑏𝑖 𝑇 𝑇 1 = 𝔼 [ ∑(ℎ𝑖 − 𝑓)2 − ∑(ℎ𝑖 − 𝐻)2 ] 𝑇 𝑇 𝑖=1 (4.19) 𝑖=1 1 ̅̅̅̅̅̅(𝐻)2 + 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 = 𝑏𝑖𝑎𝑠 ̅̅̅̅̅̅̅̅̅̅̅̅(𝐻) + (1 − ) 𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 ̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅(𝐻) 𝑇 𝑇 Sau số biến đổi, ta thu được: 𝑇 𝑒𝑟𝑟 ̅̅̅̅̅(𝐻) = 𝔼 [ ∑(ℎ𝑖 − 𝑓)2 ] 𝑇 𝑖=1 ̅̅̅̅̅̅̅ = 𝑏𝑖𝑎𝑠 (𝐻) + 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 ̅̅̅̅̅̅̅̅̅̅̅̅(𝐻), (4.20) 𝑇 ̅̅̅̅̅̅̅ 𝑎𝑚𝑏𝑖(𝐻) = 𝔼 [ ∑(ℎ𝑖 𝑇 𝑖=1 − 𝐻)2 ] (4.21) = 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 ̅̅̅̅̅̅̅̅̅̅̅̅(𝐻) − 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒(𝐻) (4.22) 1 = 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 ̅̅̅̅̅̅̅̅̅̅̅̅(𝐻) − 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 ̅̅̅̅̅̅̅̅̅̅̅̅(𝐻) − (1 − ) 𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 ̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅(𝐻) 𝑇 𝑇 Do đó, thấy 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 ̅̅̅̅̅̅̅̅̅̅̅̅ xuất thuật ngữ lỗi bình phương trung bình thuật ngữ mơ hồ trung bình, hủy bỏ ta trừ mơ hồ không rõ ràng khỏi thuật ngữ lỗi Hơn nữa, thực tế thuật ngữ 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 ̅̅̅̅̅̅̅̅̅̅̅̅ xuất theo thuật ngữ 𝑒𝑟𝑟 ̅̅̅̅̅ ̅̅̅̅̅̅̅ 𝑎𝑚𝑏𝑖 khó tối đa hóa thuật ngữ mơ hồ khơng rõ ràng mà không ảnh hưởng đến độ lệch, ngụ ý việc tạo máy học đa dạng vấn đề thách thức 4.3 Thước đo tính đa dạng: 4.3.1 Thước đo cặp: Để đo lường đa dạng tập kết hợp, cách tiếp cận cổ điển đo lường tương đồng/không tương đồng theo cặp hai máy học, sau lấy trung bình tất phép đo theo cặp cho đa dạng tổng thể Cho tập liệu 𝐷 = {(𝑥1 , 𝑦1 ), … (𝑥𝑚 , 𝑦𝑚 )}, phân loại nhị phân (tức 𝑦𝑖 ∈ {−1, +1}), có bảng dự phịng sau cho hai lớp ℎ𝑖 ℎ𝑗 , 𝑎 + 𝑏 + 𝑐 = 𝑚 biến không âm hiển thị số lượng ví dụ thỏa mãn điều kiện quy định hàng cột tương ứng Sau giới thiệu số biện pháp theo cặp đôi đại diện dựa biến 10 hai phân loại Margineantu Dietterich vào năm 1997 Nó định nghĩa là: κ𝑝 = Θ1 − Θ2 − Θ2 (4.25) Θ1 , Θ2 xác suất mà hai phân loại cân cân cách ngẫu nhiên Xác suất ℎ𝑖 , ℎ𝑗 ước tính tập liệu 𝐷 theo công thức đây: Θ1 = Θ2 = 𝑎+𝑑 𝑚 (𝑎 + 𝑏)(𝑎 + 𝑐) + (𝑐 + 𝑑)(𝑏 + 𝑑) 𝑚2 (4.26) (4.27) κ𝑝 = phân loại hoàn toàn cân tập 𝐷; κ𝑝 = hai phân loại cân cách ngẫu nhiên; κ𝑝 < trường hợp mà cân chí cịn mong đợi ngẫu nhiên Các biện pháp khơng u cầu phải biết tính xác phân loại Trong trường hợp biết tính xác phân loại, sử dụng thước đo sau: Thước đo lỗi kép [Giacinto Roli, 2001] coi tỷ lệ ví dụ bị phân loại sai hai phân loại ℎ𝑖 ℎ𝑗 ; tức là: 𝑑𝑓𝑖𝑗 = 𝑒 𝑚 (4.28) 𝑒 = ∑𝑚 𝑘=1 𝕝(ℎ𝑖 (𝑥𝑘 ) ≠ 𝑦𝑘 ∧ ℎ𝑗 (𝑥𝑘 ) ≠ 𝑦𝑘 ) 4.3.2 Thước đo không theo cặp: Các thước đo không theo cặp trực tiếp đánh giá đa dạng tập kết hợp, thay lấy trung bình phép đo theo cặp Cho tập hợp phân loại riêng lẻ {ℎ1 , … ℎ 𝑇 } tập liệu 𝐷 = {(𝑥1 , 𝑦1 ), … (𝑥𝑚 , 𝑦𝑚 )} 𝑥𝑖 phiên 𝑦𝑖 ∈ {−1, +1} nhãn lớp, sau vào tìm hiểu số thước đo không theo cặp 12 Phương sai Kohavi-Wolpert đề xuất Kohavi Wolpert vào năm 1996, bắt nguồn từ phân rã độ lệch – phương sai lỗi phân loại Với thể 𝑥, độ biến thiên nhãn lớp 𝑦 xác định là: 𝑣𝑎𝑟𝑥 = (1 − 𝑃(𝑦 | 𝑥)2 ) ∑ (4.29) 𝑦∈{−1,+1} Kuncheva Whitaker [2003] sửa đổi độ biến thiên để đo lường đa dạng cách xem xét hai kết đầu ra: xác (ký hiệu 𝑦̃ = +1) khơng xác (ký hiệu 𝑦̃ = −1); ước tính 𝑃(𝑦̃ = +1 | 𝑥) 𝑃(𝑦̃ = −1 | 𝑥) so với phân loại riêng lẻ, nghĩa là: 𝑃̂(𝑦̃ = 1|𝑥) = ρ(𝑥) ρ(𝑥) 𝑣à 𝑃̂(𝑦̃ = −1|𝑥) = − , 𝑇 𝑇 (4.30) ρ(𝑥) số lượng phân loại riêng lẻ mà phân loại 𝑥 Bằng cách thay biểu thức (4.30) thành (4.29) lấy trung bình tập liệu 𝐷, ta thu số đo 𝑘𝑤 sau: 𝑚 𝑘𝑤 = ∑ ρ(𝑥𝑘 )(𝑇 − ρ(𝑥𝑘 )) 𝑚𝑇 (4.31) 𝑘=1 Dễ dàng thấy phép đo 𝑘𝑤 lớn độ đa dạng lớn Sự cân bên thước độ tin cậy bên (giữa lớp) [Fleiss, 1981] Kuncheva Whitaker [2003] sử dụng để đo lường mức độ thỏa thuận nhóm phân loại Thước đo xác định là: 𝑚 ∑𝑘=1 ρ(𝑥𝑘 )(𝑇 − ρ(𝑥𝑘 )) 𝑇 κ=1− 𝑚(𝑇 − 1)𝑝̅ (1 − 𝑝̅) (4.32) Trong ρ(𝑥𝑘 ) số lượng phân loại mà phân loại 𝑥𝑘 đúng, và: 𝑇 𝑚 𝑝̅ = ∑ ∑ 𝕀(ℎ𝑖 (𝑥𝑘 ) = 𝑦𝑘 ) 𝑚𝑇 𝑖=1 𝑘=1 13 (4.33) độ xác trung bình máy phân loại riêng lẻ Tương tự với κ𝑝 , κ = phân loại cân 𝐷 κ ≤ cân chí cịn so với dự kiến Entropy thúc đẩy thực tế thể 𝑥𝑘 , bất cân tối đa hóa ràng buộc xảy phiếu phân loại Cunningham Carney [2000] trực tiếp tính tốn entropy Shannon trường hợp trung bình tập liệu 𝐷 để đo lường đa dạng, là: 𝑚 𝐸𝑛𝑡𝑐𝑐 = ∑ 𝑚 ∑ − 𝑃(𝑦|𝑥𝑘 )𝑙𝑜𝑔𝑃(𝑦|𝑥𝑘 ) (4.34) 𝑘=1 𝑘∈{−1,+1} 𝑃(𝑦|𝑥𝑘 ) = ∑𝑇𝑖=1 𝕀(ℎ𝑖 (𝑥𝑘 ) = 𝑦) ước tính tỷ lệ 𝑇 phân loại riêng lẻ dự đoán 𝑦 nhãn 𝑥𝑘 Rõ ràng việc tính tốn 𝐸𝑛𝑡𝑐𝑐 khơng cần thiết phải biết tính xác phân loại riêng lẻ Shipp Kuncheva [2002] giả định biết tính xác phân loại định nghĩa biện pháp entropy chúng là: 𝑚 𝐸𝑛𝑡𝑠𝑘 𝑚𝑖𝑛(ρ(𝑥𝑘 ), 𝑇 − ρ(𝑥𝑘 )) = ∑ 𝑚 𝑇 − ⌈𝑇/2⌉ (4.35) 𝑘=1 Trong ρ(𝑥) số lượng phân loại riêng lẻ mà lúc phân loại 𝑥 Giá trị 𝐸𝑛𝑡𝑠𝑘 nằm phạm vi [0,1], biểu thị khơng có phân tập biểu thị mức độ đa dạng lớn Lưu ý (4.35) entropy cổ điển, khơng sử dụng hàm Logarit Mặc dù chuyển đổi thành dạng cổ điển cách sử dụng phép biến đổi phi tuyến, biểu thức (4.35) ưa thích thực tế dễ xử lý nhanh để tính tốn [Shipp Kuncheva, 2002] Khó khăn ban đầu đề xuất Hansen Salamon [1990] xây dựng rõ ràng Kuncheva Whitaker [2003] Đặt biến ngẫu nhiên 𝑋 lấy giá trị {0, , , … 1} biểu thị tỷ lệ phân loại xác 𝑇 𝑇 thể rút ngẫu nhiên 𝑥 Có thể ước tính hàm khối lượng xác suất 𝑋 cách chạy lớp 𝑇 tập liệu 𝐷 Xem xét hình dạng phân phối, thể khó khăn cho tất phân loại 14 trường hợp khác dễ dàng cho tất phân loại, hình dạng phân phối có hai đỉnh riêng biệt; thể khác số người phân loại dễ dàng người khác, hình dạng phân phối với đỉnh ngồi trung tâm; tất trường hợp khác cho tất lớp, hình dạng phân phối khơng có đỉnh rõ ràng Vì vậy, cách sử dụng phương sai X để nắm bắt hình dạng phân phối, thước đo khó khăn định nghĩa là: θ = 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒(𝑋) (4.36) Dễ dàng suy giá trị θ nhỏ độ đa dạng lớn Đa dạng hóa tổng quát [Partridge Krzanowski, 1997] thúc đẩy lập luận đa dạng tối đa hóa thất bại loại kèm với dự đốn xác Thước đo xác định là: 𝑔𝑑 = − 𝑝(2) 𝑝(1) (4.37) đó: 𝑇 𝑖 𝑝(1) = ∑ 𝑝𝑖 𝑇 (4.38) 𝑖=1 𝑇 𝑝(2) = ∑ 𝑖=1 𝑖 𝑖−1 𝑝 𝑇𝑇 −1 𝑖 (4.39) 𝑝𝑖 biểu thị xác suất 𝑖 chọn ngẫu nhiên lớp học thất bại trường hợp rút ngẫu nhiên 𝑥 Giá trị 𝑔𝑑 nằm phạm vi [0,1] độ đa dạng giảm thiểu 𝑔𝑑 = Bảng 4.1: Tóm tắt thước đo độ đa dạng, ↑ (↓) biểu thị độ lớn (càng nhỏ) phép đp lường, độ đa dạng lớn (“Known” có cần biết tính xác phân loại riêng lẻ hay không): 15 Thất bại trùng hợp [Partridge Krazanowski, 1997] phiên sửa đổi đa dạng tổng quát, định nghĩa là: (4.40) 𝑐𝑓𝑑 = tất phân loại đưa dự đoán đồng thời 𝑐𝑓𝑑= phân loại mắc lỗi trường hợp 4.3.3 Tóm tắt trực quan hóa Bảng 4.1 giới thiệu tóm tắt 12 phương pháp đa dạng hóa Bảng cho ta biết phương pháp có phải phương pháp cặp hay khơng, liệu cần biết tính xác phân loại hay khơng liệu đối xứng hay không đối xứng Một phương pháp đối xứng giữ nguyên giá trị (khơng xác) (chính xác) cách phân loại theo hệ nhị phân hoán đổi cho [Ruta and Gabrys, 2001] Kuncheva and Whitaker [2003] cho thấy phương sai KohaviWolpert (kw), độ lệch trung bình (disavg) thống kê kappa (κ) có liên hệ với qua công thức: 𝑘𝑤 = 𝑇−1 2𝑇 disavg 16 (4.41) 𝑇 κ = 1− (1−𝑇)𝑝̅ (1−𝑝̅ ) kw (4.42) Hình 4.1: Ví dụ sơ đồ sai số kappa tập liệu credit-g, đố tập hợp gồm 50 C4.5 định Trong 𝑝̅ nằm (4.33) Hơn nữa, nghiên cứu thực nghiệm Kuncheva Whitaker [2003] tiết lộ phương pháp đa dạng thể hợp lý quan hệ chặt chẽ Một ưu điểm phương pháp cặp chúng thị đồ thị khơng gian 2D Điều lần đưa sơ đồ Kappaerror Margineantu Dietterich [1997], đồ thị phân tán điểm tương ứng với cặp phân loại, với trục x biểu thị giá trị κp cho hai phân loại trục y biểu thị tỷ lệ sai số trung bình hai phân loại Hình 4.1 cho thấy ví dụ sơ đồ sai số kappa Có thể thấy biểu đồ sai số 17 kappa trực quan hóa cân đa dạng xác phương pháp tập khác Các tập hợp điểm cao độ xác phân loại cá nhân thấp, tập hợp điểm gần phía bên phải đa dạng phân loại cá nhân Hiển nhiên phương pháp đa dạng cặp khác mường tượng theo cách tương tự 4.3.4 Giới hạn phương pháp đa dạng Kuncheva and Whitaker [2003] đưa nghi ngờ phương pháp đa dạng Thông qua loạt thứ nghiệm, họ hiệu phương pháp đa dạng không khả quan kể từ dường khơng có mối quan hệ rõ ràng phép đo đa dạng hiệu suất kết hợp Tang et al [2006] mặt lý thuyết phân tích sáu phương pháp đa dạng cho thấy độ xác trung bình chương trình học máy riêng biệt cố định đạt đa dạng tối đa, tối đa hóa đa dạng chương trình học máy riêng biệt tương đương với tối đa hóa biên độ tối thiểu kết hợp ví dụ đạo tạo Họ đưa thực nghiệm, nhiên, đa dạng tối đa thường đạt biên độ tối thiểu kết hợp không đơn điệu tăng phương pháp đa dạng Đặc biệt, Tang et al [2006] rằng, so với thuật tốn tìm đa dạng ngầm định, việc khai thác phương pháp đa dạng nói cách rõ ràng không hiệu việc xây dựng kết hipwj quán Ở mặt, thay đổi phép đo đa dạng không cung ứng hướng dẫn phù hợp việc liệu kết hợp có đạt hiệu suất tổng qt hóa tốt hay khơng Ở mặt khác, phép đo liên quan chặt chẽ đến độ xác trung bình cá nhân, điều khơng mong muốn người ta khơng cho phương pháp đa dạng trở thành ước tính xác khác Lưu ý cịn chấp nhận động thúc đẩy việc tạo tạo đa dạng chương trình học máy riêng biệt Kuncheva and Whitaker [2003] and Tang et al [2006] tiết lộ nhiều phương pháp đa dạng phát triển, cơng thức phương pháp xác cho đa dạng chưa giải quyết, biểu biết đa dạng tập hợn vấn đề cần giải 18 4.4 Lý thuyết đa dạng thông tin Lý thuyết đa dạng thông tin [Brown, 2009, Zhou and Li, 2010b] đưa hướng triển vọng để hiểu rõ sư đa dạng kết hợp Phần giới thiệu kết nối lý thuyết thông tin phương pháp kết hợp trước tiên, sau giới thiệu hai cơng thức lý thuyết đa dạng thông tin phương pháp ước lượng 4.4.1 Lý thuyết thông tin kết hợp Khái niệm lý thuyết thông tin entropy, phép đo không chắn Entropy biến ngẫu nhiên X định nghĩa là: Ent(X) = ∑𝑥 −p(𝑥) log(p(𝑥)) , (4.43) Trong x giá trị X p(x) xác suất phân phối Dựa khái niệm entropy, phụ thuộc hai biến X1 X2 đo thông tin lẫn [Cover and Thomas, 1991] I(X1;X2)=∑𝑥1,𝑥2 𝑝(x1,x2)log( 𝑝(𝑥1 ,𝑥2 ) 𝑝(𝑥1 )𝑝(𝑥2 ) ) (4.44) Hoặc đưa biến Y khác, đo thông tin lẫn có điều kiện [Cover and Thomas, 1991] I(X1;X2 | Y ) = ∑𝑦,𝑥1 ,𝑥2 𝑝(y) p(𝑥1 , 𝑥2 | y) log( 𝑝(𝑥1,𝑥2 | 𝑦) ) 𝑝(𝑥1| 𝑦)𝑝(𝑥2| 𝑦) (4.45) Trong tình lý thuyết thơng tin, giả sử tin nhắn Y gửi thông qua kênh truyền thông giá trị X nhận, mục tiêu khôi phục Y cách giải mã giá trị X nhận được, Nghĩa là, cần hoạt động giải mã 𝑌̂ = g(X) Trong học máy, Y nhãn lớp, X đầu vào, g yếu tố dự đoán Đối với phương pháp kết hợp, mục tiêu khôi phục Y từ phân loại T {X1, ,XT} hàm kết hợp g mục tiêu giảm xác suất dự đoán sai số p (g (X1:T ) ≠ Y ) Trong X1:T biểu diễn T qua biến X1, , XT Dựa lý thuyết thông tin, Brown [2009] xác định xác suất sai số hai bất đẳng thức [Fano, 1961, Hellman and Raviv, 1970]: 𝐸𝑛𝑡(𝑌)−𝐼(𝑋1:T ;𝑌)−1 𝐸𝑛𝑡(𝑌)−𝐼(𝑋1:T ;𝑌)−1 log (|𝑌|) ≤ p(g(X1:T) ≠ Y ) ≤ (4.46) Do đó, để giảm thiểu sai số dự đốn, thơng tin lẫn I(X1:T ; Y ) cần tối đa hóa Bằng cách xét khai triển khác thông tin lẫn nhau, 19 công thức khác lý thuyết đa dạng thông tin thu được, giới thiệu phần 4.4.2 Đa dạng thông tin tương tác Thông tin tương tác [McGill, 1954] khái quát đa biến thông tin lẫn để đo phụ thuộc nhiều biến Thông tin tương tác I (X1: n) thơng tin tương tác có điều kiện I ({X1: n} | Y) định nghĩa rằng: 𝐼 ({𝑋1 : 𝑋2 } 𝑣𝑠 𝑛 = I ({X1: n}) ={ (4.47) 𝐼 ({𝑋1:𝑛−1 }|𝑋𝑛 } − 𝐼 ({𝑋1:𝑛−1 }) 𝑣𝑠 𝑛 ≥ I ({X1: n} | Y) =𝐸𝑌 [𝐼 ({𝑋1:𝑛 }|𝑌} (4.48) Dựa thông tin tương tác, Brown [2009] đưa khai triển I (X1:T ; Y ) là: I (X1: n; Y) = ∑𝑇𝑖=1 𝐼{𝑋1 ; 𝑌} + Phần buộc ∑𝑇𝑘=2 ∑𝑆𝑘⊆𝑆 𝐼({𝑋𝑘 ∪ 𝑌}) (4.49) Đa dạng thông tin tương tác = ∑𝑇𝑖=1 𝐼{𝑋1 ; 𝑌} − ∑𝑇𝑘=2 ∑𝑆𝑘⊆𝑆 𝐼({𝑆𝑘 }) + ∑𝑇𝑘=2 ∑𝑆𝑘⊆𝑆 𝐼({𝑆𝑘 }|𝑌 ) (4.50) Phần buộc Phần dư Phần dư có điều kiện Trong Sk tập hợp kích thước k (4.50) cho thấy thơng tin lẫn I(X1:T ; Y ) khai triển thành ba phần Phần đầu, ∑𝑇𝑖=1 𝐼{𝑋1 ; 𝑌} tổng thông tin lẫn phân loại mục tiêu Nó gọi phần buộc, thực tế đưa ràng buộc tính xác phân loại riêng lẻ Bởi phần cộng thêm cho thơng tin lẫn nhau, buộc lớn ưu tiên Phần thứ hai, ∑𝑇𝑘=2 ∑𝑆𝑘⊆𝑆 𝐼({𝑆𝑘 }),đo phụ thuộc tất tập hợp có phân loại, độc lập với nhãn lớp Y Phần gọi phần dư Lưu ý phần trừ cho thơng tin lẫn Một I({Sk})biểu thị mối tương quan mạnh mẽ phân loại mà không xem xét mục tiêu Y, làm giảm giá trị I(X1:T ; Y ),do giá trị nhỏ ưu tiên 20 Phần thứ ba, ∑𝑇𝑘=2 ∑𝑆𝑘⊆𝑆 𝐼({𝑆𝑘 }|𝑌 ), đo phụ thuộc số phân loại đưa nhãn lớp Nó gọi phần dư có điều kiện Lưu ý phần thêm vào cho thơng tin lẫn nhau, phần lớn phần dư có điều kiện ưu tiên Rõ ràng phần buộc tương đương với độ xác, phần dư phần dư có điều kiện mơ tả mối tương quan phân loại Do đó, đa dạng thơng tin tương tác thể rõ hiển nhiên (4.49) Sự đa dạng thông tin tương tác đưa mối tương quan phân loại không thiết phải có hiệu tới hiệu suất kết hợp, có nhiều loại tương quan khác tương quan hữu ích thứ coi mục tiêu học Thật dễ dàng để thấy đa dạng tồn nhiều bậc tương quan, không cặp Một hạn chế đa dạng thông tin tương tác nằm chỗ biểu thuật ngữ đa dạng, đặc biệt thơng tin tương tác có liên quan, phức tạp khơng mang lại kết để tính tốn chúng u cầu thực tế 4.4.3 Đa dạng thông tin Đa thông tin [Watanabe, 1960, Studeny and Vejnarova, 1998, Slonim et al., 2006] khái quát đa biến khác thông tin lẫn Đa thông tin I(X1:n) đa thông tin có điều kiện I (X1: n | Y) định nghĩa sau: 𝑝(𝑥1 ,…,𝑥𝑛 ) I(X1:n)= ∑ 𝑥1:𝑛 𝑝(𝑥1 , … , 𝑥𝑛 )log( ) (4.51) ) (4.52) 𝑝(𝑥1 )𝑝(𝑥2 )…𝑝(𝑥𝑛 ) I(X1:n| Y)= ∑ 𝑦,𝑥1:𝑛 𝑝(𝑦)𝑝(𝑥1:𝑛 | 𝑦)log( 𝑝(𝑥1:𝑛 | 𝑦) 𝑝(𝑥1 | 𝑦)…𝑝(𝑥𝑛 | 𝑦) Dễ dàng thấy, n=2 đa thơng tin (có điều kiện) giảm xuống thành thơng tin lẫn (có điều kiện) Hơn nữa, I(X1:n)= ∑𝑛𝑖=2 𝐼{𝑋𝑖 ; 𝑋1:𝑖−1 }; (4.53) I(X1:n| Y)= ∑𝑛𝑖=2 𝐼{𝑋𝑖 ; 𝑋1:𝑖−1 | 𝑌}; (4.54) Dựa đa thơng tin đa thơng tin có điều kiện Zhou Li [2010b] đưa khai triển I(X1:T ; Y ) I(X1:T ; Y ) = ∑𝑇𝑖=1 𝐼{𝑋𝑖 ;Y} + I(X1:T | Y) - I(X1:T ) (4.56) 21 Phần buộc Đa dạng thông tin = ∑𝑇𝑖=1 𝐼{𝑋𝑖 ;Y} - ∑𝑇𝑖=2 𝐼{𝑋𝑖 ; 𝑋1:𝑖−1 }+ ∑𝑇𝑖=2 𝐼{𝑋𝑖 ; 𝑋1:𝑖−1 | 𝑌} (4.57) Phần buộc Phần dư Phần dư có điều kiện Zhou and Li [2010b] chứng minh (4.49) 4.55) tương đương mặt tốn học, cơng thức (4.55) đơn giản nhiều Một ưu điểm (4.55) thuật ngữ phân tách phân loại riêng lẻ Lấy phần dư làm ví dụ, cho tập hợp kích thước k, phần dư I(X1:k ) = ∑𝑇𝑖=2 𝐼{𝑋𝑖 ; 𝑋1:𝑖−1 } Sau đó, phân loại Xk+1 thêm vào, phần dư trở thành I(X1:k+1 ) = ∑𝑘+1 𝑖=2 𝐼{𝑋𝑖 ; 𝑋1:𝑖−1 } khác biệt thông tin lẫn I(Xk+1; X1:k) 4.4.4 Phương pháp ước tính Đối với đa dạng thông tin tương tác (4.49), rõ ràng đa dạng bao gồm thành phần bậc lấp bậc cao Nếu xem xét phần theo cặp, thu được: I(X1:T ; Y ) ≈ ∑𝑇𝑖=1 𝐼{𝑋𝑖 ;Y} - ∑𝑇𝑖=1 ∑𝑇𝑗=𝑖+1{𝑋𝑖 ; 𝑋𝑗 } + ∑𝑇𝑖=1 ∑𝑇𝑗=𝑖+1{𝑋𝑖 ; 𝑋𝑗 | 𝑌} (4.57) Ước tính khơng xác bỏ qua thành phần bậc cao Tuy nhiên, muốn xét thành phần bậc cao hơn, cần ước tính thơng tin tương tác bậc cao hơn, việc khó khăn khơng sẵn cách tiếp cận mang lại kết Đối với đa dạng đa thông tin (4.55), Zhou Li [2010b] trình bày phương pháp ước tính gần Lấy phần dư (4.55) I(X4;X3;X2;X1) = e + h + k + l + m + n + o, I(X4;X2;X1) = h + k + l + m + n + o, I(X4;X3;X1) = e + h + k + l + m + n, I(X4;X3;X2) = e + h + k + m + n + o, 22 HÌNH 4.2: Sơ đồ Venn ví dụ minh họa phương pháp tính gần Zhou Li [2010b] Ví dụ, cần ước tính I (Xi; X1: i-1) với i Thay tính tốn trực tiếp, I (Xi; X1: i-1) tính gần I (Xi; X1: i-1) ≈ 𝑚𝑎𝑥 𝐼(𝑋𝑖; 𝛺𝑘), 𝛺𝑘⊆𝛺 (4.58) Trong đó, Ω = {Xi−1, ,X1} Ωk tập có kích thước k (1 ≤ k ≤ i − 1) Như ví dụ minh họa, hình 4.2 mơ tả sơ đồ Ven cho bốn biến, hình elip đại diện cho entropies biến, thông tin lẫn thể giao vùng sơ đồ Ở phía bên phải hình, thấy cách thành phần bậc cao I(X4; X3, X2, X1) chung phần giao với thành phần bậc thấp I(X4; X2, X1), chỗ khác biệt vùng e Lưu ý X1, X2 X3 có mối quan hệ chặt chẽ, phần không xác định X3 thuộc X1 X2; nghĩa phần c e nhỏ Do đó, I (X4; X2, X1) tạo xấp xỉ cho I (X4; X3, X2, X1) Vì phân loại riêng lẻ thường có mối tương quan mạnh mẽ Tương tự, phần dư có điều kiện xấp xỉ I (Xi; X1: i-1| Y) ≈ 𝑚𝑎𝑥 𝐼(𝑋𝑖; 𝛺𝑘| 𝑌) 𝛺𝑘⊆𝛺 (4.59) Do đó, đa dạng thơng tin ước tính I (Xi; X1: i-1| Y) - I (Xi; X1: i-1) ≈ 𝑚𝑎𝑥 [ 𝐼(𝑋𝑖; 𝛺𝑘|𝑌) − 𝐼(𝑋𝑖; 𝛺𝑘)] 𝛺𝑘⊆𝛺 (4.60) Có thể chứng minh ước tính cho giới hạn thấp tính đa dạng lý thuyết thơng tin Để thực ước tính, cần có bảng liệt kê tất Ωk Tuy nhiên, 𝑘 theo cách này, với i, cần ước tính I (Xi;k) 𝐼(𝑋𝑖; 𝛺𝑘|𝑌) cho 𝐶𝑖−1 số lượng 𝛺𝑘′𝑠 khác k gần tới (i-1)/2, số lớn, ước tính 𝐼(𝑋𝑖; 𝛺𝑘)và 𝐼(𝑋𝑖; 𝛺𝑘|𝑌) trở nên khó khăn Do đó, thay đổi cần thiết, Zhou Li [2010b] cho thấy ước lượng chuẩn đạt không giới hạn giá trị nhỏ 23 4.5 Tính đa dạng phương pháp sinh thơng tin Mặc dù khơng có khơng thức phương pháp cống chấp nhận chung cho đa dạng kết hợp, có chế heuristic có hiệu cho phương pháp sinh việc xây dựng kết hợp Ý tưởng thông dụng đưa số ngẫu nhiên vào trình học Các chế thường dùng bao gồm thao tác mẫu liệu, đặc tính đầu vào, tham số học tập biểu diễn đầu Thao tác mẫu liệu Đây chế thông dùng Cho tập liệu, nhiều mẫu liệu khác tạo ra, sau chương trình học máy riêng biệt tạo từ mẫu liệu khác Nói chung, thao tác mẫu liệu dựa phương pháp lấy mẫu, e.g., Thuật tốn đóng gói thơng qua lấy mẫu bootstrap [Efron and Tibshirani, 1993], thuật tốn thích ứng tăng cường thơng qua lấy mẫu liên tiếp , etc Thao tác đặc tính đầu vào Dữ liệu học thuờng mô tả đặc tính Các tập hợp khác đặc tính, gọi khơng gian con, đưa cách nhìn khác liệu Do đó, chương trình học máy riêng biệt luyện từ liệu khác thường khác Phương pháp không gian ngẫu nhiên [Ho, 1998] đưa hình 4.3 phương pháp kết hợp tiếng mà sử dụng phương pháp Đối với liệu có nhiều đặc tính dư thừa, việc tạo chương trình học máy khơng gian khơng có mang lại kết mà cịn đem lại hiệu cao Chú ý khơng gian ngẫu nhiên không phù hợp với liệu đặc tính Hơn nữa, có nhiều đặc tính khơng liên quan, ta nên đưa đặc tính có liên quan trước tạo không gian Thao tác tham số học Cơ chế thử tạo chương trình học máy riêng biệt cách sử dụng tham số khác cho thuật thuật toán học Ví dụ, trọng số đầu gán cho mạng neural riêng biệt [Kolen and Pollack, 1991], cách chọn lọc phân chia khác dược áp dụng cho định riêng biệt [KwokandCarter,1988,Liu etal., 2008a], điều kiện quy tắc thích hợp áp dụng cho quy tắc FOIL riêng biệt [Ali and Pazzani, 1996], etc Phương pháp tương quan phủ định [Liu and Yao, 1999] ràng buộc rõ ràng tham số mạng neural riêng biệt khác theo thuật ngữ 24 quy Input: Bộ liệu D = {(x1,y1),(x2,y2),···,(xm,ym)}; Thuật toán luyện sở 𝛿; Số lượng chương trình học máy sở T; Kích thước khơng gian d; Process: 1.for t =1, ,T: Ft = RS(D,d) %Ft tập đặc tính ngẫu nhiên chọn d Dt = MapFt (D) %Dt giữ lại đặc tính Ft ht = 𝛿(Dt) % Tạo chương trình máy học end Output: H(x) =𝑎𝑟𝑔𝑚𝑎𝑥 ∑𝑇𝑖=1 ‖(ℎ𝑡 (𝑀𝑎𝑝𝐹𝑡 (𝑥)) = 𝑦) 𝑦∈𝑌 Hình 5.3: Thuật tốn không gian ngẫu nhiên Thao tác biểu diễn đầu Cơ chế thử tạo chương trình máy học riêng biệt khác cách sử dụng biểu diễn đầu khác Ví dụ, phương pháp ECOC [Dietterich and Bakiri, 1995] sử dụng sửa lỗi mã đầu ra, phương pháp đảo chiều đầu [Breiman, 2000] thay đổi ngẫu nhiên nhãn số thực thể luyện, phương pháp Flipping đầu [Breiman, 2000] chuyển đổi kết đầu nhiều lớp thành đầu hồi quy đa biến cho chương trình học máy riêng biệt, etc Ngồi thơng dụng trên, có số cách thử khác Ví dụ, Melville Mooney [2005] thử phát triển đa dạng cách sử dụng liệu luyện nhân tạo Họ xây dựng kết hợp theo cách lặp lặp lại Ở vòng, số thực thể cụ thể xây dựng dựa mơ hình phân chia liệu Các thực thể cụ thể sau gán tối đa nhãn khác từ dự đốn luồng kết hợp Sau đó, chương trình học máy 25 tạo từ liệu luyện ban đầu với liệu luyện nhân tạo Nếu thêm chương trình học máy vào luồng kết hợp làm tăng sai số luyện, chương trình máy học bị loại bỏ chương trình khác tạo với tập ví dụ cụ thể khác; khơng, chương trình máy học chấp nhận vào luồng kết hợp Lưu ý rằng, chế khác để tạo tính đa dạng phương pháp sinh sử dụng Ví dụ, Random Forest [Breiman, 2001] thông qua hai thao tác mẫu liệu thao tác đặc tính đầu vào 4.6 Bài đọc thêm Ngồi [Kohavi and Wolpert, 1996],có số phương pháp phân tích phương sai đem lại hiệu thực tiễn, ví dụ, [Kong and Dietterich,1995,Breiman,1996a] Hầu hết phương pháp tập trung vào 0-1 mát đưa định nghĩa khác James [2003] đề xuất cấu trúc chứa đặc trưng độ sai lệch phương sai, phân chúng khái quát hóa cho hàm mát thông tin đối xứng Một khảo sát toàn diện đa dạng phương pháp sinh thơng tin tìm thấy [Brown et al., 2005a] Các phương pháp kết hợp cố gắng tạo chương trình học máy riêng biệt từ liệu luyện dán nhãn Zhou [2009] ủng hộ việc thử khai thác liệu luyện khơng dán nhãn để tăng tính đa dạng, phương pháp hiệu đề xuất Zhang Zhou [2010] Những chương trình học máy ổn định, ví dụ., trình phân lớp nạve bayes hay k-lân cận gần nhất, không bị ảnh hưởng với thay đổi nhỏ liệu luyện, thường khác để cải thiện thông qua phương pháp kết hợp điển hình Zhou and Yu [2005] đề xuất phương pháp FASBIR cho thấy nhiễu loạn đa phương thức, kết hợp nhiều chế tạo đa dạng phương pháp sinh thông tin, cung cấp cách thực tiễn để xây dựng kết hợp chương trình máy học ổn định 26 ... giới thiệu tóm tắt 12 phương pháp đa dạng hóa Bảng cho ta biết phương pháp có phải phương pháp cặp hay khơng, liệu cần biết tính xác phân loại hay khơng liệu đối xứng hay khơng đối xứng Một phương. .. nhiên phương pháp đa dạng cặp khác mường tượng theo cách tương tự 4.3.4 Giới hạn phương pháp đa dạng Kuncheva and Whitaker [2003] đưa nghi ngờ phương pháp đa dạng Thông qua loạt thứ nghiệm, họ hiệu. .. nhỏ 23 4.5 Tính đa dạng phương pháp sinh thông tin Mặc dù khơng có khơng thức phương pháp cống chấp nhận chung cho đa dạng kết hợp, có chế heuristic có hiệu cho phương pháp sinh việc xây dựng

Ngày đăng: 04/08/2020, 00:43

w