Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
232,63 KB
Nội dung
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC ——–*——– BÁO CÁO CUỐI KÌ MƠN HỌC HỆ HỖ TRỢ QUYẾT ĐỊNH Chủ đề: SONG LUYỆN Giảng viên hướng dẫn: TS LÊ CHÍ NGỌC Nhóm thực hiện: Nhóm 10 - Tốn tin K61 HỌ TÊN MSSV LỚP Vũ Việt Anh 20160258 Tốn Tin K61 Ngơ Xn Lộc 20162552 Toán Tin K61 Phạm Văn Lộc 20162557 Toán Tin K61 Nông Cao Thiên 20164940 CN - Điện tử - K61 Bùi Anh Tuấn 20164315 Toán Tin K61 Song luyện Hệ hỗ trợ định 20192 Trang Lời cảm ơn Trước hết, chúng em xin chân thành cảm ơn T.s Lê Chí Ngọc trực tiếp hướng dẫn chúng em môn học "Hệ hỗ trợ định" kì học 20192, kì học đầy khó khăn đáng nhớ Thầy ln bảo tận tình, cung cấp kiến thức đưa lời khuyên quý giá q trình học tập để chúng em hồn thành mơn học nói chung báo nói riêng Để hồn thành báo cáo này, chúng em có tham khảo tài liệu, thơng tin từ thầy giáo để chúng em tìm hiểu nghiên cứu Mặc dù nhóm có nhiều cố gắng tìm hiểu chủ để này, thời gian, kiến thức kinh nghiệm nhiều hạn chế nên báo cáo tránh khỏi thiếu sót kiến thức trình bày Nhóm em mong nhận đóng góp ý kiến thầy để hồn thiện tốt Chúng em xin chân thành cảm ơn! Song luyện MỤC LỤC Mục lục LỜI MỞ ĐẦU Chương Hai góc nhìn Chương Song luyện 2.1 Thuật tốn song luyện 10 Chương 3.1 Giả thuyết song luyện 12 Giả thuyết song luyện 12 Chương Đa luyện 15 4.1 Hàm Loss 16 4.2 Empirical Risk (rủi ro thực nghiệm) 16 4.3 Regularized Risk (rủi ro quy) 17 4.4 Hồi quy tuyến tính chiều 20 4.5 Giả định nhiều chiều 21 KẾT LUẬN 22 Tài liệu tham khảo 23 Hệ hỗ trợ định 20192 Trang Lời nói đầu Co-Training hay song luyện (Blum & Mitchell,1998) thuật toán thuộc nhóm học bán giám sát Song luyện đề gán nhãn liệu chưa có nhãn, dựa vào nhãn gán liệu có trước Tuy nhiên để gán nhãn cho liệu chưa có phụ thuộc vào việc mẫu gán nhãn xác định trước, bỏ qua sai lệnh lấy mẫu tập hợp không gán nhãn gán nhãn không gian liệu Trong báo cáo này, nhóm em xin trình bày chủ đề theo chương nhắm giới thiệu chung, thuật toán tính chất thuật tốn, cụ thể nội dung chương sau : • Chương 1: Hai góc nhìn • Chương 2: Song luyện • Chương 3: Giả thuyết song luyện • Chương 4: Đa luyện Chương Hai góc nhìn Xem xét nhiệm vụ học tập có giám sát phân loại thực thể xử lý ngôn ngữ tự nhiên, thực thể đặt tên tên thích hợp với chúng , chẳng hạn "bang Washington" hay "Mr Washington" Mỗi thực thể đặt tên theo cách, tùy thuộc vào đề cập đến Để đơn giản, giả sử có hai lớp: người địa điểm Mục tiêu phân loại thực thể đặt tên gán nhãn xác cho thực thể Ví dụ: địa điểm cho " bang Washington " người "Mr Washington" Phân loại thực thể đặt tên rõ ràng vấn đề,như để dự đốn lớp y từ tính x Trọng tâm không tập trung vào chi tiết phân loại giám sát dựa hoạt động chuỗi (về bản, liên quan đến số hình thức khớp chuỗi phần Các chi tiết tìm thấy ghi thư mục) Thay vào đó, tập trung vào phân loại thực thể đặt tên nhiệm vụ, ví dụ liên quan đến trường hợp có cấu trúc đặc biệt cho phép bán giám sát tốt học tập Song luyện CHƯƠNG HAI GĨC NHÌN Một thực thể đặt tên biểu diễn hai tính riêng biệt Thứ tập hợp từ tạo nên thực thể Thứ hai tập hợp từ ngữ cảnh thực thể đặt tên xảy Trong ví dụ sau, thực thể đặt tên nằm ngoặc đơn ngữ cảnh gạch chân: Ví dụ 1: có trụ sở (Tiểu bang Washington) Ví dụ 2: ( Ơng Washington), Phó chủ tịch Một cách thức, thể thực thể đặt tên thể hai khung nhìn (bộ tính năng): từ x(1) , từ ngữ cảnh x(2) Chúng ta ký hiệu x = x(1) , x(2) Như ví dụ khác lượt xem, xem xét phân loại trang Web thành trang web sinh viên khoa Trong thao tác này, chế độ xem x(1) từ trang Web đề cập Khung nhìn thứ hai x(2) từ tất siêu liên kết trỏ đến trang web Quay trở lại nhiệm vụ phân loại thực thể đặt tên, giả sử có hai trường hợp gắn nhãn liệu : Ví dụ x1 x1 y Washington State Trụ sở Địa điểm Mr Washington Phó chủ tịch Người Hơn nữa, biết có nhiều cách khác để thể địa điểm người Ví dụ: (Rober Jordan), đối tác bay tới (Trung quốc) Hệ hỗ trợ định 20192 Trang Song luyện CHƯƠNG HAI GĨC NHÌN Vì trường hợp sau không bao gồm hai trường hợp gắn nhãn mẫu chúng ta, nên học giám sát phân loại chúng cách xác Có vẻ mẫu đào tạo dán nhãn lớn cần thiết để bao gồm tất biến thể biểu thức vị trí người Hệ hỗ trợ định 20192 Trang Chương Song luyện Song luyện không cần mẫu đào tạo có nhãn lớn cho cơng việc Nó đủ để có mẫu huấn luyện khơng nhãn lớn, dễ dàng nhiều để có Chúng ta có ví dụ khơng nhãn sau đây: Ví dụ 3: có trụ sở (Kazakhstan) Ví dụ 4: bay tới (Kazakhstan) Ví dụ 5: (Kazakhstan) đối tác Steptoe Johnson Đó minh họa để kiểm tra tính trường hợp dán nhãn khơng nhãn nhau, ta có: Ví dụ x1 x1 y Washington State Có trụ sở địa điểm Mr.Washington Kazakhstan Có trụ sở ? Kazakhstan Bay tới ? Mr.Smith đối tác ? Phó chủ tịch người Song luyện CHƯƠNG SONG LUYỆN Chúng ta lý giải thơng tin qua bước sau: Từ ví dụ dán nhãn 1, biết rằng, "trụ sở đặt thành phố" bối cảnh y = Vị trí Nếu điều đúng, suy xét rằng, “Kazakhstan” phải dịa điểm kể từ xuất với bối cảnh, trụ sở ví dụ 3 Vì ví dụ thứ nói việc “Kazakhstan”, nên nói bối cảnh bay đến “Vị trí” Tại thời điểm này, chúng tơi phân loại trị chơi Trung Quốc, Trung Quốc, bay đến (Trung Quốc), Địa điểm, khơng có chuyến bay đến khu vực Trung Quốc Tương tự, tương xứng “Mr.*” ví dụ 5, biết đối tác bạn Trực tiếp bối cảnh cho y = Người Điều cho phép phân loại người khác (Robert Jordan), đối tác trực tuyến Person Q trình có tương đồng mạnh mẽ với thuật toán triển khai phần 2.5, phân sử dụng dự đốn tự tin trường hợp khơng gắn nhãn Tuy nhiên, có khác biệt quan trọng: hoàn toàn sử dụng hai cách phân loại Chúng hoạt động khung nhìn khác thể hiện: dựa chuỗi thực thể đặt tên x(1) khác dựa bối cảnh x(2) Cả hai phân loại lẫn Một hai bình thường hóa q trình thuật tốn song Hệ hỗ trợ định 20192 Trang Song luyện CHƯƠNG SONG LUYỆN thuật tốn cho phân loại f (1) f (2) Yêu cầu cách phân loại tạo giá trị tin cậy với cách dự đoán chúng Giá trị phân loại sử dụng để chọn trường hợp chưa gán nhãn để thêm vào liệu huấn luyện cho góc nhìn khác Nó sử dụng cho nhiều ứng dụng khác Hệ hỗ trợ định 20192 Trang 11 Chương Giả thuyết song luyện Song luyện tạo vài giả định Hiển nhiên tồn góc nhìn riêng biệt x = x(1) , x(2) Với môt vài u cầu, đặc trưng khơng tự nhiên chia thành góc nhìn khác Để áp dụng song luyện trường hợp này, người ta chia ngẫu nhiên đặc trưng thành hai góc nhìn ảo Giả sử có hai góc nhìn, kết song luyện phụ thuộc vào hai giả định đây: 3.1 Giả thuyết song luyện Mỗi góc nhìn riêng đủ để tạo phân loại tốt, dựa vào đủ liệu gán nhãn Hai góc nhìn có điều kiện độc lập cho lớp nhãn 12 Song luyện CHƯƠNG GIẢ THUYẾT CỦA SONG LUYỆN Giả định thứ dễ hiểu Nó khơng u cầu hai góc nhìn mà hai góc nhìn cịn phải đủ tốt Giả định thứ hai đặc trưng Biểu diễn đây: P x(1) |y, x(2) = P x(1) |y (4.1) P x(2) |y, x(1) = P x(2) |y Nói cách khác , biết giá trị thực y, việc biết đến góc nhìn khơng ảnh hưởng đến mà ta quan sát từ góc nhìn khác (nó đơn giản P x(1) |y ) Để biểu diễn giả định thứ hai, ta xem xét lần yêu cầu phân loại thực thể đánh dấu Kết hợp tất ví dụ với giá trị thực y = Location Góc nhìn ví dụ đực gán tên từ Location, nghĩa x(1) thuộc Washington State, Kazakhastan„ China Tấn số việc quan sát thực thể gán từ y mô tả P x(1) |y Những thực thể gán kết hợp với ngữ ngữ cảnh khác Thử chọn ngữ cảnh cụ thể, x(2) = “Headquartered in”, xem xét ví dụ với ngữ cảnh y = Location Nếu điều kiện độc lập tồn ví dụ ta tìm lại tất thực thể gán Washington State, Kazakhastan„ China với tần số P x(1) |y Nói cách khác, ngữ cảnh “headquartered in” không hứa hẹn vị trí cụ thể Tại giả định điều kiện độc lập quan trọng với song luyện? Nếu phân loại f (1) định ngữ cảnh “headquarteredin” Location với độ tin cậy cao, Co-training thêm ví dụ chưa gán với ngữ cảnh ví dụ góc nhìn Những ví dụ huấn luyện cho f (1) se bao gồm tất thực thể biểu diễn V gán, nhờ vào giả định điều kiện độc lập Nếu giả định Hệ hỗ trợ định 20192 Trang 13 Song luyện CHƯƠNG GIẢ THUYẾT CỦA SONG LUYỆN không tồn tại, ví dụ giống nhau, thơng tin cho góc nhìn phân loại f (1) Nó biểu diễn hai giả định tồn tại, song luyện huấn luyện thành công từ dự liệu đánh dấu chưa đánh dấu Tuy nhiên, thật khó để tim yêu cầu việc huấn luyện mà hoàn toàn phù hợp với giả định điều kiện độc lập Khi giả định điều kiện độc lập bị vi phạm, hiệu suất song luyện khơng tốt Có vài biến thể song luyện Thật toán song luyện gốc chọn k ví dụ chưa đánh dấu có độ tin cậy cao góc nhìn, tăng chúng tăng lên với ví dụ dự đốn Ngược lại, thuật tốn Co-EM lại tuyệt đối Co-EM trì mơ hình xác suất P y|x(v) ; θ(v) cho góc nhìn v = 1,2 Với ví dụ chưa đánh dấu x = x(1) , x(2) , góc nhìn chia thành với nhãn ngược lại trọng số phân số (x, y = 1) với trọng số P y = l|x(1) ; θ(1) (x, y = −1) với trọng số - P y = l|x(1) ; θ(1) Góc nhìn thêm tất ví dụ tăng lên chưa gán nhẫn tới L2 Điều tương đương với E-bước thuật toán EM Điểm giống xác cho góc nhìn Mỗi tham số φ(v) góc nhìn sau sửa lại tương ứng với M-bước, ngoại trừ ngoại lệ từ góc nhìn khác Với mội u cầu đó, Co-EM tạo hiệu suất cao song luyện Hệ hỗ trợ định 20192 Trang 14 Chương Đa luyện Cuối Co-Training có ý nghĩa cho cách phân lớp f (1) f (2) , để đoán nhãn tập liệu Nhưng khơng có nhiều yếu tố để gán nhãn liệu mà dựa yếu tố chiều Nên đây, giả sử không gian yếu tố dự đoán bé Nếu yếu tố đề cử xem xét khơng gian nhỏ phù hợp liệu có nhãn, khả thấp chúng bị overfit, chấp nhận yếu tố tốt dùng cho dự đoán Ở phần này, ta bàn thuật toán mà thực rõ ràng giả thuyết giống nhau, mà không yêu cầu phải chia rõ feature thuật toán lặp lặp lại việc dạy lẫn Để hiểu thuật toán này, ta cần hiểu mơ hình giảm thiểu rủi ro cho máy học Thường ta sử dụng hàm mát loss function đó, để hiển thị độ sai số lỗi dự đoán: 15 Song luyện 4.1 CHƯƠNG ĐA LUYỆN Hàm Loss Định nghĩa hàm loss: giả sử x ∈ X instance liệu, y ∈ Y nhãn instance, f (x) hàm dự đoán Hàm Loss c(x, y, f (x)) ∈ [0, ∞), hàm đo độ sai lệch dự đoán Chẳng hạn ta định nghĩa hàm c(x, y, f (x)) = (y − f (x))2 , toán phân lớp ta định nghĩa hàm loss kiểu 0/1 c(x, y, f (x)) = y = f (x) Trong dự đoan sức khỏe người ta dùng hàm c(x, y = healthy , f (x) = diseased) = c(x, y = diseased , f (x) = healthy ) =100 Giá trị hàm loss bị phụ thuộc vào đối tượng x, ví dụ dùng hàm loss giá trị hàm trẻ cao so với người lớn 4.2 Empirical Risk (rủi ro thực nghiệm) Khái niệm: trung bình cộng sai số phát sinh gây dự đoán f tập ˆ = Σl c(xi , yi , f (xi )) liệu có nhãn: R l i=1 Áp dụng quy tắc giảm để giảm thiểu sai số (ERM), tìm: ˆ ), f ERM = argminf ∈F R(f tập giả định mà ta đặt Với toán dạng phân loại 0/1, ERM hướng tới giảm thiểu tối đa sai số tập train Tuy nhiên, f ERM gây overfit tập train f ERM không Hệ hỗ trợ định 20192 Trang 16 Song luyện CHƯƠNG ĐA LUYỆN thiết phải có yếu tố phân loại F Một phương thức khác để xử lý sai số thực nghiệm hàm quy Ω(f ) Hàm quy hàm khơng âm, lấy hàm dự đốn làm tham số trả giá trị không âm Nếu tập giá trị f "mượt" hàm quy Ω(f ) gần Còn giá trị f rải rác khơng "mượt", ví dụ dự đốn f bị overfit, giá trị hàm Ω(f ) lớn 4.3 Regularized Risk (rủi ro quy) Khái niệm: tổng trọng số rủi ro thực nghiệm thường xuyên, với trọng ˆ ) + λΩ(f ) Mục đích việc tối ưu hàm rủi ro quy số λ > : R(f tìm f cho tối ưu rủi ro quy ˆ ) + λΩ(f ) f ∗ = argminf ∈F R(f (4.3) Hiệu việc giảm thiểu tối đa rủi ro quy phụ thuộc vào hàm Ω(f ) Những hàm Ω khác bao hàm giả định khác Ví dụ, hàm quy hay sử dụng cho f (x) = wT x hàm Ω(f ) = ||w||2 Hàm trừng phạt nặng vào bình phương khoảng cách với tham số w Nó hữu dụng coi f điểm theo hệ tọa độ với tham số w Triển khai (4.3): Hệ hỗ trợ định 20192 Trang 17 Song luyện CHƯƠNG ĐA LUYỆN ˆ ) với điều kiện Ω(f ) ≤ s minR(f với s định nghĩa λ Mọi thứ trở nên rõ ràng điều kiện hàm quy ràng buộc bán kính của cầu không gian tham số Ở cầu đó, hàm f mà fit nhât với tập liệu train chọn Điều kiểm xoát độ phức tạp f, chống overfit Một điều quan trọng học bán giám sát, định nghĩa hàm sai số Ω(f ), ví dụ: Ω(f ) = ΩSL (f ) + λ ΩSSL (f ) (4.4) ΩSL (f ) hàm cho việc học giám sát, hàm ΩSSL (f ) cho việc học bán giám sát phụ thuộc vào tập liệu chưa gán nhãn Khi hàm ΩSSL (f ) cố fits, tìm f ∗ tốt dùng hàm ΩSL (f ) Giả sử thuật toán có liên quan đến k nhân tố học Nó khả thi, chưa chăc cần thiết Nó khái quát song luyện với k-luyện, nên gọi đa luyện Và, nhân tố học k-nhân tố, phương pháp khác định, neural network, lấy feature điểm liệu làm đầu vào Kiểu học gọi phương pháp học kết hợp Ở số trường hợp, mục tiêu tìm cho k-nhân tố f1∗ , fk∗ để tối ưu hàm rủi ro quy sau: Hệ hỗ trợ định 20192 Trang 18 Song luyện CHƯƠNG ĐA LUYỆN k (f1∗ , fk∗ ) =argminf1 , fk k l ( c(x1 , yi , fv (xi ) + λl ΩSL (fv )) v=1 i=1 l+u c(xi , fu (xi , fv (xi ))) + λ2 (4.5) u,v=1 i−1=l Tác dụng giả thuyết không giảm thiểu sai số, mà tạo nên đồng với giả thiết khác Ở công thưc trên, phần đầu tổng hàm rủi ro quy thành phần Phần thứ cơng thức hàm quy cho trình bán giám sát, đo độ bất đồng k-giả thuyết tập liệu chưa có nhãn k l+u ΩSSL (f1 fk ) = c(xi , fu (xi , fv (xi ))) (4.6) u,v=1 i−1=l Sự bất đồng cặp đôi định nghĩa mát trường hợp không gắn nhãn xi giả thiết fu (xi ) có nhãn ta cần dự đoán fv (xi ) dự đoán Bất đồng để giảm thiểu Dự đoán cuối cho đầu vào x nhãn bị phản đối tất giả thuyết: k c(x, y, fv∗ (x) y(x) = argminy∈F v=1 Hệ hỗ trợ định 20192 Trang 19 Song luyện 4.4 CHƯƠNG ĐA LUYỆN Hồi quy tuyến tính chiều Đặt trường hợp chiều x = x(1) , x(2) Xét hàm tuyến tính f (x) = wT x(1) f (x) = vT x(2) Đặt hàm bị thiếu c(x), y, f (x) = (y − f (x))2 Hàm quy giám sát ΩSL (f (1) ) = ||w||2 , ΩSL (f (2) ) = ||v||2 Hình thức đặc biệt quy hố, tức xử lý định mức l2 tham số, gọi hồi quy sườn Vấn đề giảm thiểu rủi ro chuẩn hoá là: l (y1 − w,v l (1) wT xi )2 i=1 (2) (y1 − vT xi )2 + λ1 ||w||2 + λ1 ||v||2 + i=1 l+u + λ2 (1) (2) (wT xi − vT xi )2 (4.8) i=l+1 Có thể tìm thấy giải pháp cách đặt độ góc giải phương trình tuyến tính Giả định đằng sau việc học đa chiều gì? Trong khung rủi ro chuẩn hóa, giả định mã hóa để giảm thiểu điều chỉnh ΩSSL (4.6) Rằng đa học thuyết f1 , f2 fk nên đồng với Tuy nhiên, đồng chưa đủ Xem xét ví dụ ngược lại sau: Sao chép tính k lần để tạo k “lượt xem” giống hệt Tất nhiên chép giả thuyết f1 = f2 = fk Theo định nghĩa, tất chúng đồng nhất, điều không đảm bảo chúng tốt so với học đơn lẻ ( thực tế chúng giống nhau) Cái nhìn cốt lõi tập hợp giả thuyết đồng cần bổ sung thêm để trở thành tập hợp nhỏ không gian giả thuyết Γ Ngược lại, giả thuyết trùng lặp ví dụ ngược lại chiếm toàn giả thuyết Γ Hệ hỗ trợ định 20192 Trang 20 Song luyện 4.5 CHƯƠNG ĐA LUYỆN Giả định nhiều chiều Học đa chiều có hiệu tập hợp giả thuyết f1 , f2 fk đồng với Hơn nữa, nhiều đồng đồng xảy có rủi ro thực nghiệm nhỏ Dưới kết luận cho tranh luận song luyện kỹ thuật học đa chiều Các mơ hình sử dụng chế độ xem đa chiều phân loại, kết hợp với liệu chưa gán nhãn để giảm kích thước không gian giả thuyết Chúng ta giới thiệu khung giảm thiểu rủi ro chuẩn hóa cho học máy, vấn đề xuất lại hai chương phương pháp dựa biểu đồ máy vector hỗ trợ bán giám sát Hệ hỗ trợ định 20192 Trang 21 KẾT LUẬN Bài báo cáo tham khảo nhiều tài liệu machine learning cụ thể nhóm thuật tốn bán giám sát để nêu vấn đề song luyện Trong báo cáo, nêu nội dung song luyện xếp theo chương, với: Chương 1: Giới thiệu song luyện, nêu ví dụ song luyện, nhãn liệu Chương 2: Nếu thuật toán song luyện, bước tiến hành Chương3: Nêu giả thuyết song luyện Chương 4: Đa luyện, giới thiệu số hàm, tính chất 22 Tài liệu tham khảo [1] Xiaojin Zhu and Andrew B.Goldberg,Introduction to Semi - Supervised Learning, University of Wisconsin, Madison [2] Avrim Blum and Tom Mitchell Combining labeled and unlabeled data with co-training In COLT: Proceedings of the Workshop on Computational Learning Theory, 1998 [3] T Mitchell The role of unlabeled data in supervised learning In Proceedings of the Sixth International Colloquium on Cognitive Science,, San Sebastian, Spain, 1999 [4] Maria-Florina Balcan, Avrim Blum, and Ke Yang Co-training and expansion: Towards bridging theory and practice In Lawrence K Saul, Yair Weiss, and Léon Bottou, editors, Advances in Neural Information Processing Systems 17 MIT Press, Cambridge, MA, 2005 [5] Maria-Florina Balcan and Avrim Blum An augmented pac model for semisupervised learning In O Chapelle, B Schăolkopf, and A Zien, editors,SemiSupervised Learning MIT Press,2006 [6] Sanjoy Dasgupta, Michael L Littman, and David McAllester PAC generalization bounds for co-training In Advances in Neural Information Processing 23 Song luyện CHƯƠNG ĐA LUYỆN Systems (NIPS), 2001 [7] Michael Collins and Yoram Singer.Unsupervised models for named entity classification In EMNLP/VLC-99, 1999 [8] Rosie Jones Learning to extract entities from labeled and unlabeled text Technical Report CMU-LTI-05-191, Carnegie Mellon University, 2005 Doctoral Dissertation [9] Kamal Nigam and Rayid Ghani Analyzing the effectiveness and applicability of co-training In Ninth International Conference on Information and Knowledge Management, pages 86–93,2000 [10]Sally Goldman and Yan Zhou Enhancing supervised learning with unlabeled data In Proc 17th International Conf on Machine Learning, pages 327–334 Morgan Kaufmann, San Francisco, CA, 2000 [11] Nitesh V Chawla and Grigoris Karakoulas Learning from labeled and unlabeled data: An empirical study across techniques and domains Journal of Artificial Intelligence Research, 23:331–366, 2005 [12] Yan Zhou and Sally Goldman Democratic co-learing In Proceedings of the 16th IEEE International Conference on Tools with Artificial Intelligence, 2004 [13] Zhi-Hua Zhou and Ming Li Tri-training: exploiting unlabeled data using three classi- fiers IEEE, Transactions on Knowledge and Data Engineering, 17(11):1529–1541, 2005 [14] Z.-H Zhou, D.-C Zhan, and Q Yang Semi-supervised learning with very few labeled training examples In In Twenty-Second AAAI Conference on Artificial Intelligence (AAAI-07), 2007 Hệ hỗ trợ định 20192 Trang 24 Song luyện CHƯƠNG ĐA LUYỆN [15] Rosie Jones Learning to extract entities from labeled and unlabeled text Technical Report CMU-LTI-05-191, Carnegie Mellon University, 2005 Doctoral Dissertation [16] Virginia R de Sa Learning classification with unlabeled data In Advances in Neural Infor- mation Processing Systems (NIPS), 1993 [17] Ulf Brefeld, Thomas Gaertner, Tobias Scheffer, and Stefan Wrobel Efficient co-regularized least squares regression In ICML06, 23rd International Conference on Machine Learning, Pittsburgh, USA, 2006 Hệ hỗ trợ định 20192 Trang 25 ... phân loại lẫn Một hai bình thường hóa q trình thuật tốn song Hệ hỗ trợ định 20192 Trang Song luyện CHƯƠNG SONG LUYỆN luyện 2.1 Thuật toán song luyện Đầu vào: Dữ liệu phân loại {(xi , yi )}li=1 liệu... huấn luyện cho góc nhìn khác Trong trình liệu chưa gán nhãn cuối sử dụng hết Song luyện phương pháp bao phủ Nó có nghĩa không quan trọng Hệ hỗ trợ định 20192 Trang 10 Song luyện CHƯƠNG SONG LUYỆN... ví dụ huấn luyện cho f (1) se bao gồm tất thực thể biểu diễn V gán, nhờ vào giả định điều kiện độc lập Nếu giả định Hệ hỗ trợ định 20192 Trang 13 Song luyện CHƯƠNG GIẢ THUYẾT CỦA SONG LUYỆN khơng