Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 51 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
51
Dung lượng
2,28 MB
Nội dung
-1- TRƯỜNG ………………… KHOA……………………… - - Báo cáo tốt nghiệp Đề tài: TRÍCH CHỌN THƠNG TIN TRÊN TẬP VĂN BẢN PHÁP LUẬT DÙNG KỸ THUẬT HỌC MÁY BÁN GIÁM SÁT DỰA TRÊN MƠ HÌNH CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT -2- LỜI CAM ĐOAN Tôi xin cam đoan kết đạt luận văn sản phẩm riêng cá nhân tôi, không chép lại người khác Trong toàn nội dung luận văn, điều trình bày cá nhân tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luận theo quy định cho lời cam đoan Hà Nội, 05/2011 Phạm Thị Ngân -3- MỤC LỤC LỜI CAM ĐOAN MỤC LỤC DANH MỤC HÌNH VẼ DANH MỤC BẢNG BIỂU KÝ TỰ VIẾT TẮT LỜI CẢM ƠN LỜI MỞ ĐẦU CHƯƠNG 1: HỌC BÁN GIÁM SÁT THEO MƠ HÌNH TRƯỜNG NGẪU NHIÊN CÓ ĐIỀU KIỆN 11 1.1.Phương pháp học máy Trường ngẫu nhiên có điều kiện 11 1.1.1 Khái niệm trường ngẫu nhiên có điều kiện 11 1.1.2 Học máy CRFs 13 1.1.2.1 Hàm tiềm mơ hình CRFs 13 1.1.2.2 Thuật toán gán nhãn cho liệu dạng chuỗi 14 1.1.2.3 Ước lượng tham số cho mơ hình CRFs 15 1.2.Học máy bán giám sát CRFs 15 1.2.1 Học máy bán giám sát 15 1.2.1.1 Học khơng có giám sát Học có giám sát 16 1.2.1.2 Học máy bán giám sát 18 1.2.1.3 Một số thuật toán học máy bán giám sát 19 1.2.2 Sơ mơ hình học máy bán giám sát CRFs 21 1.3.Kết luận chương 22 CHƯƠNG 2: HỌC MÁY BÁN GIÁM SÁT CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT 23 2.1.Tiêu chuẩn kỳ vọng tổng quát 23 2.1.1 Giới thiệu sơ 23 2.1.2 Tiêu chuẩn kỳ vọng tổng quát 24 2.2.Mơ hình học máy bán giám sát CRFs theo tiêu chuẩn kỳ vọng tống quát 26 -4- 2.3.Kết luận chương 28 CHƯƠNG 3: MỘT MÔ HÌNH HỌC MÁY BÁN GIÁM SÁT CRFs TRÍCH CHỌN THƠNG TIN PHÁP LUẬT TIẾNG VIỆT 29 3.1 Trích chọn thơng tin từ văn pháp luật tiếng Việt 29 3.1.1 Một số đặc trưng miền liệu văn pháp luật tiếng Việt 29 3.1.2 Bài tốn trích chọn thơng tin văn pháp luật tiếng Việt 31 3.2 Một mơ hình học máy bán giám sát CRFs trích chọn thơng tin pháp luật tiếng Việt 31 3.2.1 Một số phân tích 31 3.2.2 Mơ hình đề nghị 32 3.2.3 Lựa chọn thuộc tính 36 3.2.4 Cách đánh giá 36 3.3.Kết luận chương 37 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 38 4.1 Mơ hình thực nghiệm 38 4.1.1 Dữ liệu thực nghiệm 38 4.1.2 Bộ công cụ Mallet 38 4.2 Thực nghiệm đánh giá 38 4.2.1 Môi trường thực nghiệm 38 4.2.2 Mơ tả quy trình thực nghiệm 38 4.2.3 Kết thực nghiệm 39 4.2.4 Đánh giá 40 4.3 Kết luận chương 43 KẾT LUẬN 45 TÀI LIỆU THAM KHẢO 47 -5- DANH MỤC HÌNH VẼ Hình Đồ thị vơ hướng mơ tả CRFs 12 Hình Một bước thuật toán Viterbi cải tiến 14 Hình 3/4 Mơ hình đề xuất giải toán 34 Hình Tập ràng buộc (Constraint file) 35 Hình Kết nhóm thực nghiệm 40 Hình Kết nhóm thực nghiệm 40 Hình Kết nhóm thực nghiệm 41 Hình Kết nhóm thực nghiệm 42 Hình 10 Kết nhóm thực nghiệm 43 -6- DANH MỤC BẢNG BIỂU Bảng Mẫu ngữ cảnh từ vựng 36 Bảng Mẫu ngữ cảnh phát tên thực thể 36 Bảng Kết nhóm thực nghiệm 39 Bảng Kết nhóm thực nghiệm 40 Bảng Kết nhóm thực nghiệm 41 Bảng Kết nhóm thực nghiệm 42 Bảng Kết nhóm thực nghiệm 42 -7- KÝ TỰ VIẾT TẮT CRFs EM GE GEC GIS i.i.d IIS KL L-BFGS LOC MISC NER ORG PER Conditional Random Fields Entropy Maximum Generalized Expectation Generalized Expectation Criteria Generalized Iterative Scaling independently and identically Improved Iterative Scaling Kullback Leibler Limited memory Broyden–Fletcher–Goldfarb–Shanno LOCation MIScellaneous Named Entity Recognition ORGanization PERson -8- LỜI CẢM ƠN Để hoàn thành luận văn tác giả nhận giúp đỡ từ nhiều quan, đoàn thể cá nhân Trước hết xin chân thành cảm ơn thầy giáo, cô giáo Khoa Công nghệ Thông tin, trường Đại học Công nghệ, Đại học Quốc gia Hà Nội tận tình giảng dạy, trang bị cho tơi kiến thức quý báu suốt trình học tập trường Tơi xin bày tỏ lịng biết ơn sâu sắc đến TS Nguyễn Lê Minh - người thầy trực tiếp hướng dẫn tơi suốt q trình xây dựng hồn thành luận văn Tơi xin bày tỏ lòng biết ơn chân thành đến thầy giáo PGS.TS Hà Quang Thụy bạn Phịng thí nghiệm công nghệ tri thức, Trường Đại học Công nghệ giúp đỡ đóng góp nhiều ý kiến quý báu cho tơi Cuối cùng, tơi xin bày tỏ lịng biết ơn sâu sắc tới gia đình, bạn bè, người ln động viên, giúp đỡ tơi nhiệt tình để hoàn thành luận văn Hà Nội, tháng 05 năm 2011 Học viên Phạm Thị Ngân -9- LỜI MỞ ĐẦU Trích chọn thơng tin khâu toán khai phá liệu Ngày nay, với phát triển công nghệ thông tin, Tin học dần ứng dụng rộng rãi nhiều lĩnh vực kinh tế, thương mại, y tế, ngân hàng mang lại nhiều lợi ích to lớn Bản thân công tác Học viện Cảnh sát nhân dân, tơi có hiểu biết định cơng tác giữ gìn trật tự an tồn xã hội lực lượng cảnh sát nhân dân Tôi nhận thấy, hoạt động lực lượng cảnh sát có liên quan nhiều đến việc lưu trữ hồ sơ liệu, tra cứu, phân tích tổng hợp liệu Tuy nhiên, công tác quản lý hồ sơ liệu hiệu hạn chế định Do tơi mạnh dạn chọn đề tài tập trung nghiên cứu vào việc trích lọc thơng tin tập văn pháp luật Trong nhiều thập kỷ qua, nhà khoa học quan tâm đến lĩnh vực xử lý ngôn ngữ tự nhiên nghiên cứu đề xuất nhiều phương pháp, mơ hình xử lý ngôn ngữ với hiệu cao Nổi bật số phương pháp học máy bán giám sát dựa mơ hình trường ngẫu nhiên có điều kiện theo tiêu chuẩn kỳ vọng tổng quát, phương pháp đạt kết khả quan tập liệu ngôn ngữ tiếng Anh chưa áp dụng cho tiếng Việt Được giúp đỡ đồng ý Thầy giáo hướng dẫn TS Nguyễn Lê Minh, tác giả định sử dụng mơ hình ứng dụng cho tập văn pháp luật Bố cục luận văn chia thành chương sau: Chương 1: Trình bày kiến thức mơ hình trường ngẫu nhiên có điều kiện phương pháp học máy bán giám sát Chương 2: Trình bày tiêu chuẩn kỳ vọng tổng quát áp dụng tiêu chuẩn kỳ vọng tổng qt vào mơ hình trường ngẫu nhiên có điều kiện Chương 3: Trình bày tốn trích chọn thưc thể tập văn pháp luật đề xuất mơ hình giải tốn dựa mơ hình CRFs theo tiêu chuẩn kỳ vọng tổng quát Chương 4: Trình bày thực nghiệm tập liệu sử dụng số mơ hình học máy có giám sát CRFs, mơ hình học máy bán giám sát CRFs theo chuẩn hóa entropy theo tiêu chuẩn kỳ vọng tổng quát; Từ đánh giá kết thu Trong phần kết luận, luận văn tóm tắt lại cơng việc thực kết đạt Đồng thời đề cập đến điểm hạn chế - 10 - luận văn hướng nghiên cứu tương lai 10 - 37 - hồi tưởng Nếu độ xác độ hồi tưởng cao cân độ đo F1 lớn, cịn độ xác hồi tưởng nhỏ khơng cân độ đo F1 nhỏ Mục tiêu ta xây dựng mơ hình phân đoạn từ có số F1 cao Độ đo dựa theo từ tính theo cơng thức sau: Pr ecision Re call a b (3.1) a c F measure (3.2) * Pr ecision * Re call (Pr ecision Re call (3.3) Trong đó: a số thực thể gán b số thực thể mơ hình gán c số thực thể người gán 3.3 Kết luận chương Chương tập trung phân tích tốn trích chọn thông tin tập văn pháp luật sở phân tích đặc trưng miền liệu Từ đề xuất mơ hình giải tốn bao gồm giai đoạn: Giai đoạn tiền xử lý liệu Giai đoạn đưa tập liệu ràng buộc tự thiết lập vào huấn luyện mơ hình theo tiêu chuẩn kỳ vọng tổng quát 37 - 38 - CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Mơ hình thực nghiệm 4.1.1 Dữ liệu thực nghiệm Do yêu cầu bảo vệ tài liệu hồ sơ vụ án, nên liệu thực nghiệm thu thập từ trang web http://www.cand.com.vn Trang web chứa nhiều thông tin pháp luật vụ án, tình tiết việc vi phạm pháp luật cơng khai, gần với tài liệu hồ sơ vụ án cần khai thác Tiến hành thu thập 400 viết điều tra, ghi chép vụ án an ninh trật tự, an ninh kinh tế… Sau tiến hành bước tiền xử lý thu tập liệu huấn luyện training với 50.000 dòng tập liệu kiểm tra testing với 30000 dòng Tác giả xây dựng tập constraint với 800 ràng buộc xác suất có 4.1.2 Bộ công cụ Mallet Tác giả sử dụng công cụ Mallet 2.0.6 phiên Dữ liệu đầu vào cho công cụ bao gồm: - File huấn luyện (training) - File constraint - File kiểm tra (testing) 4.2 Thực nghiệm đánh giá 4.2.1 Môi trường thực nghiệm Phần cứng: Máy tính IBM T61, Core Duo, 4.00 GHz, RAM 2GB Phần mềm: Sử dụng tool Mallet viết Andrew McCallum đồng nghiệp Ngồi cịn sử dụng công cụ JvnSegmenter để tách từ; vnTagger để gán nhãn POS cho từ 4.2.2 Mơ tả quy trình thực nghiệm Tác giả tiến hành thực nghiệm Để đánh giá mức độ ảnh hưởng tập liệu huấn luyện đến kết gán nhãn, tác giả tiến hành chia tập liệu huấn luyện lớn (hơn 50.000 dòng) thành tập huấn luyện sau: - Tập liệu huấn luyện 10%: Lấy 10% liệu tập liệu huấn luyện gốc - Tập liệu huấn luyện 20%: Lấy 20% liệu tập liệu huấn luyện gốc 38 - 39 - - Tập liệu huấn luyện 40%: Lấy 40% liệu tập liệu huấn luyện gốc - Tập liệu huấn luyện 80%: Lấy 80% liệu tập liệu huấn luyện gốc - Tập liệu huấn luyện 100%: Lấy toàn tập liệu huấn luyện gốc Như vậy, tác giả tiến hành nhóm thực nghiệm, nhóm thực nghiệm sử dụng tập liệu huấn luyện phân chia tiến hành gán nhãn liệu theo mơ hình: Mơ hình CRFs đơn thuần; Mơ hình bán giám sát CRFs sử dụng Entropy Regularization Mơ hình học bán giám sát CRFs theo phương pháp tiêu chuẩn kỳ vọng tổng quát tập liệu huấn luyện tập liệu kiểm tra 4.2.3 Kết thực nghiệm Nhóm thực nghiệm 1: Tiến hành gán nhãn theo mơ hình sử dụng tập liệu huấn luyện 10% tập liệu kiểm tra CRF CRF.ER CRF.GE Precision Recall Fmeasure Precision Recall Fmeasure Precision Recall Fmeasure ORG 0.9883 0.9989 0.9936 0.9442 0.8089 0.8714 0.9330 0.9876 0.9596 PER 0.9205 0.9697 0.9444 0.9180 0.9247 0.9213 0.9116 0.9652 0.9376 LOC 0.9458 0.9751 0.9602 0.9447 0.9161 0.9302 0.9267 0.9789 0.9521 MISC 0.1408 1.0000 0.2469 0.0000 NaN 0.0000 0.0000 NaN 0.0000 OVERALL 0.7489 0.9859 0.7863 0.9290 0.8825 0.9051 0.9044 0.9756 0.9386 Bảng Kết nhóm thực nghiệm 39 - 40 - Hình Kết nhóm thực nghiệm Nhóm thực nghiệm 2: Tiến hành gán nhãn theo mơ hình sử dụng tập liệu huấn luyện 20% tập liệu kiểm tra CRFs CRFs.ER CRFs.GE Precision Recall Fmeasure Precision Recall Fmeasure Precision Recall Fmeasure ORG 0.9894 0.9852 0.9873 0.8931 0.9045 0.8987 0.97024 0.94027 0.95502 PER 0.9225 0.9875 0.9539 0.9199 0.9313 0.9255 0.91570 0.96532 0.93985 LOC 0.9742 0.9840 0.9791 0.9824 0.9986 0.9905 0.99917 0.99091 0.99502 MISC 0.5070 0.9000 0.6486 1.0000 0.7460 0.1389 0.05634 1.00000 0.10667 OVERALL 0.8483 0.9642 0.8922 0.9354 0.9245 0.9299 0.9403 0.9672 0.9536 Bảng Kết nhóm thực nghiệm Hình Kết nhóm thực nghiệm Nhóm thực nghiệm 3: Tiến hành gán nhãn theo mơ hình sử dụng tập liệu huấn luyện 40% tập liệu kiểm tra Trong nhóm thực nghiệm này, tác giả đưa kết việc gán nhãn theo mơ hình CRFs đơn mơ hình bán giám sát CRFs sử dụng Entropy Regularization Việc gán nhãn theo mơ hình học bán giám sát CRFs theo 40 - 41 - phương pháp tiêu chuẩn kỳ vọng tổng quát tác giả chưa thực việc sử dụng mơ hình cần nhớ lớn, vượt khả đáp ứng máy tính 32bit tác giả Nên nhóm thực nghiệm nhóm thực nghiệm sau tác giả báo cáo kết mơ hình CRFs đơn CRFs sử dụng Entropy Regularization CRF CRF.ER Precision Recall F-measure Precision Recall F-measure ORG 0.9989 0.9947 0.9968 0.9800 0.9363 0.9577 PER 0.9232 0.9912 0.9560 0.9232 0.9313 0.9272 LOC 0.9867 0.9867 0.9867 0.9918 1.0000 0.9959 MISC 0.8310 0.9833 0.9008 0.9815 0.7910 0.8760 OVERALL 0.9350 0.9890 0.9601 0.9518 0.9483 0.9500 Bảng Kết nhóm thực nghiệm Hình Kết nhóm thực nghiệm Nhóm thực nghiệm 4: Tiến hành gán nhãn theo mơ hình sử dụng tập liệu huấn luyện 80% tập liệu kiểm tra CRF CRF.ER Precision Recall F-measure Precision Recall F-measure ORG 0.9989 0.9958 0.9973 0.9873 0.9873 0.9873 PER 0.9232 0.9453 0.9341 0.9912 0.9912 0.9912 LOC 0.9867 0.9850 0.9858 0.9986 1.0000 0.9993 MISC 0.8310 0.9833 0.9008 0.9828 0.8507 0.9120 OVERALL 0.9350 0.9773 0.9545 0.9927 0.9895 0.9911 41 - 42 - Bảng Kết nhóm thực nghiệm Hình Kết nhóm thực nghiệm Nhóm thực nghiệm 5: Tiến hành gán nhãn theo mơ hình sử dụng tập liệu huấn luyện 100% tập liệu kiểm tra CRF CRF.ER Precision Recall F-measure Precision Recall F-measure ORG 0.9989 1.0000 0.9995 0.9777 0.9777 0.9777 PER 0.9931 0.9993 0.9962 0.9956 0.9927 0.9941 LOC 1.0000 1.0000 1.0000 0.9973 1.0000 0.9986 MISC 0.9155 0.9559 0.9353 1.0000 0.9254 0.9612 OVERALL 0.9769 0.9888 0.9827 0.9939 0.9911 0.9925 Bảng Kết nhóm thực nghiệm 42 - 43 - Hình 10 Kết nhóm thực nghiệm 4.2.4 Đánh giá Qua nhóm thực nghiệm ta thấy có số nhận xét sau: - Đối với mơ hình CRFs đơn thuần, tăng kích thước tập liệu huấn luyện độ xác cao hay hàm F-measure cao Điều phù hợp với mơ hình học máy có giám sát Thậm chí nhóm thực nghiệm thứ kết mơ hình CRFs đơn cịn nhỉnh so với kết mơ hình CRFs sử dụng Entropy Regularization - Kết mơ hình học máy bán giám sát (Mơ hình CRFs sử dụng Entropy Regularization Mơ hình CRFs theo phương pháp tiêu chuẩn kỳ vọng tổng quát) tốt so với kết mô hình học máy có giám sát (Mơ hình CRFs đơn thuần), đặc biệt với tập liệu huẫn luyện nhỏ - Mặc dù Mơ hình học máy bán giám sát CRFs theo phương pháp tiêu chuẩn kỳ vọng tổng quát thực tập liệu huấn luyện nhỏ (tập liệu huấn luyện 10% 20%), cho thấy mơ hình cho kết tốt mơ hình học máy bán giám sát CRFs sử dụng Entropy Regularization Các kết thực nghiệm chưa hồn thiện, kết bị ảnh hưởng thân liệu thu thập số trường hợp nhập nhằng tiếng Việt, góp phần phản ánh ưu điểm phương pháp học máy bán giám sát so với phương pháp học máy có giám sát nói chung, đồng thời cho thấy hiệu mơ hình học máy bán giám sát theo tiêu chuẩn kỳ vọng tổng quát 4.3 Kết luận chương Tiến hành thực nghiệm để phân tích đánh giá kết đạt Ở đây, tác giả tiến hành năm nhóm thực nghiệm, nhóm thực nghiệm sử dụng tập 43 - 44 - liệu huấn luyện phân chia khác tiến hành gán nhãn liệu theo mơ hình: Mơ hình CRFs đơn thuần; Mơ hình bán giám sát CRFs sử dụng Entropy Regularization Mơ hình học bán giám sát CRFs theo phương pháp tiêu chuẩn kỳ vọng tổng quát tập liệu huấn luyện tập liệu kiểm tra Qua đánh giá hiệu mơ hình nói riêng hiệu phương pháp học máy có giám sát bán giám sát nói chung 44 - 45 - KẾT LUẬN Sau thời gian tìm hiểu nghiên cứu tốn trích lọc thơng tin phương pháp học máy bán giám sát dựa mô hình CRFs theo tiêu chuẩn kỳ vọng tổng quát, luận văn đạt số kết sau - Giới thiệu mơ hình trường điều kiện ngẫu nhiên CRFs phương pháp học máy bán giám sát CRFs mơ hình dựa xác suất điều kiện, tích hợp thuộc tính đa dạng chuỗi liệu quan sát nhằm hỗ trợ cho q trình phân lớp CRFs có nhiều ưu điểm mơ hình xác suất khác đồng thời khắc phục nhược điểm mà mơ hình xác suất khác gặp phải tiêu biểu vấn đề “label bias” Phương pháp học máy bán giám sát kết hợp phương pháp truyền thống – học máy có giám sát học máy khơng có giám sát, cách học sử dụng thông tin chứa liệu chưa gán nhãn tập liệ gán nhãn nhằm mở rộng tập liệu gán nhãn ban đầu Trong trình học phương pháp tận dụng thông tin phong phú liệu chưa gán nhãn, mà yêu cầu số lượng nhỏ liệu gán nhãn - Giới thiệu tiêu chuẩn kỳ vọng tổng quát áp dụng vào mơ hình CRFs Tiêu chuẩn kỳ vọng tổng quát điều kiện hàm mục tiêu huấn luyện cho phép gán giá trị cho kỳ vọng mơ hình Luận văn đề cập đến cách xây dựng công thức, cách cách phân chia tiêu chuẩn kỳ vọng tổng qt, từ áp dụng vào mơ hình CRFs thiết lập thơng số cho mơ hình theo tiêu chuẩn kỳ vọng tổng quát - Đề xuất mơ hình cho tốn trích chọn thơng tin thực thể tập văn pháp luật dựa phương pháp học máy bán giám sát dựa mơ hình CRFs theo tiêu chuẩn kỳ vọng tổng quát Đồng thời sử dụng công cụ Mallet viết Andrew McCallum đồng nghiệp cho tập liệu tiếng Việt theo mơ hình đề xuất trích lọc loại thực thể: LOC, PER, ORG VÀ MISC Tuy nhiên, để có tập huấn luyện tốt địi hỏi nhiều thời gian công sức Trong thời gian có hạn, tác giả xây dựng tập liệu huấn luyện tập ràng buộc liệu vừa phải Với tập liệu này, đưa vào tập liệu kiểm tra kết thu cịn hạn chế Mặc dù, mơ hình thu kết khả quan tập ngôn ngữ tiếng Anh, lần mơ hình áp dụng cho ngôn ngữ tiếng Việt 45 - 46 - đặc điểm riêng biệt tiếng Việt nên luận văn tránh khỏi thiếu sót hạn chế định Tơi mong nhận ý kiến nhận xét góp ý để luận văn hồn thiện Xử lý ngơn ngữ tự nhiên vấn đề phức tạp Hiện có nhiều cơng cụ xử lý ngơn ngữ tự nhiên, nhiên hầu hết chúng áp dụng cho tiếng Anh tiếng Pháp Các đặc thù ngôn ngữ khác nên việc chuyển đổi ngơn ngữ gặp nhiều khó khăn đặc biệt ngôn ngữ phong phú đa dạng tiếng Việt Trong thời gian tới, tác giả tập trung xây dựng hoàn thiện liệu huấn luyện tập ràng buộc đặc trưng liệu nhằm cải thiện độ xác mơ hình 46 - 47 - TÀI LIỆU THAM KHẢO [AG05] [BC01] [BC09] [BLR04] [BM98] [BN04] [BNJ03] [BNS05] [BNS06] [BS06] [Car10] M R Amini and P Gallinari Semi-supervised learning with an imperfect supervisor Knowledge and Information Systems, 8(4):385–413, 2005 A Blum and S Chawla Learning from labeled and unlabeled data using graph mincuts In Proceedings of the 18th International Conference on Machine Learning, pages 19–26, Williamston, MA, 2001 Kedar Bellare, Andrew McCallum (2009) Generalized Expectation Criteria for Bootstrapping Extractors using Record-Text Alignment, The 2009 Conference on Empirical Methods in Natural Language Processing: 131– 140, 2009 A Blum, J Lafferty, M Rwebangira, and R Reddy Semi-supervised learning using ran-domized mincuts In Proceedings of the 21st International Conference on Machine Learning, pages 13–20, Ban, Canada, 2004 A Blum and T Mitchell Combining labeled and unlabeled data with cotraining In Proceedings of the 11th Annual Conference on Computational Learning Theory, pages 92–100, Madison, WI, 1998 M Belkin and P Niyogi Semi-supervised learning on Riemannian manifolds Machine Learning, 56(1-3):209–239, 2004 David M Blei, Andrew Y.Ng Michael I.Jordan Latent Dirichlet Allocation University of California, Berkeley, Berkeley, CA 94720 2003 M Belkin, P Niyogi, and V Sindhwani On manifold regularization In Proceedings of the 10th International Workshop on Artificial Intelligence and Statistics, pages 17–24, Savannah, Barbados, 2005 M Belkin, P Niyogi, and V Sindhwani Manifold regularization: A geometric framework for learning from labeled and unlabeled examples Journal of Machine Learning Research, 7:2399–2434, 2006 U Brefeld and T Scheffer Semi-supervised learning for structured output variables In Proceedings of the 23rd International Conference on Machine Learning, pages 145–152, Pittsburgh, PA, 2006 Andrew Carlson (2010) Coupled Semi-Supervised Learning, PhD Thesis (CMU-ML-10-104), Carnegie Mellon University, 2010 47 - 48 - [CMD07] [CZ05] [DLR77] [DMC07] [DMC08] [DMC09] [Erk10] [FUS05] [GB04] [GY05] [GZ00] [HC71] [HM07] Andrew McCallum, Gideon Mann, Gregory Druck (2007) Generalized Expectation Criteria, Technical Report UM-CS-2007-60, University of Massachusetts Amherst, August, 2007 O Chapelle and A Zien Semi-supervised learning by low density separation In proceedings of the 10th International Workshop on Artificial Intelligence and Statistics, pages 57–64 Savannah Hotel, Barbados, 2005 A P Dempster, N M Laird, and D B Rubin Maximum likelihood from incomplete data via the EM algorithm Journal of the Royal Statistical Society, Series B, 39(1):1–38, 1977 Gregory Druck, Gideon Mann, Andrew McCallum (2007) Leveraging Existing Resources using Generalized Expectation Criteria, NIPS WS, 2007 Gregory Druck, Gideon Mann and Andrew McCallum (2008) Learning from Labeled Features using Generalized Expectation Criteria, SIGIR 08, 2008 Gregory Druck, Gideon Mann, Andrew McCallum (2009) Semi-supervised Learning of Dependency Parsers using Generalized Expectation Criteria, The 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP: 360–368 Ayse Naz Erkan (2010) Semi-supervised Learning via Generalized Maximum Entropy, PhD Thesis, New York University, 2010 A Fujino, N Ueda, and K Saito A hybrid generative/discriminative approach to semi-supervised classifier design In Proceedings of the 20th National Conference on Artificial Intelligence, pages 764–769, Pittsburgh, PA, 2005 Y.Grandvaletand, Y.Bengio Semi-supervised learning by entropy minimization In Advances in Neural Information Processing Systems, 2004 Y Grandvalet and Y Bengio Semi-supervised learning by entropy minimization In L K Saul, Y.Weiss, and L Bottou, editors, Advances in Neural Information Processing Systems 17, pages 529–536 MIT Press, Cambridge, MA, 2005 S Goldman and Y Zhou Enhancing supervised learning with unlabeled data In Proceedings of the 17th International Conference on Machine Learning, pages 327–334, San Francisco, CA, 2000 J.Hammersley and P Clifford (1971) Markov fields on finite graphs and lattices Unpublished manuscript M Hein and M Maier Manifold denoising In B Schăolkopf, J C Platt, and T Ho man, editors, Advances in Neural Information Processing Systems 19, pages 561–568 MIT Press, Cambridge, MA, 2007 48 - 49 - [Joa99] [JWL06] [KL51] [KQ10] [Kul59] [LCP01] [LJ05] [Mal02] [MC08] [MC10] [MGZ04] [MMI02] [MU97] T Joachims Transductive inference for text classification using support vector machines In Proceedings of the 16th International Conference on Machine Learning, pages 200–209, Bled, Slovenia, 1999 Feng Jiao, Shaojun Wang, Chi-Hoon Lee, Russell Greiner, Dale Schuurmans (2006) Semi-supervised conditional random fields for improved sequence segmentation and labeling, The 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics: 209-216, 2006 S Kullback and R A Leibler On Information and Sufficiency Annuals of Mathematical Statistics 22 (1): pages 79–86, 1951 Pavel P Kuksa, Yanjun Qi (2010) Semi-Supervised Bio-Named Entity Recognition with Word-Codebook Learning, SDM 2010: 25-36, 2010 S Kullback Information theory and statistics John Wiley and Sons, NY, 1959 John Laferty, Andrew McCallum, Fernando Pereira Conditional Random Fields: Probabilistic Models for segmenting and labeling Sequence Data In Proc of the Eighteenth International Conference on Machine Learning (ICML-2001), 2001 N D Lawrence and M I Jordan Semi-supervised learning via Gaussian processes In L K Saul, Y Weiss, and L Bottou, editors, Advances in Neural Information Processing Systems 17, pages 753–760 MIT Press, Cambridge, MA, 2005 Robert Malouf “A comparison of algorithms for maximum entropy parameter estimation.” In Proceedings of the Sixth Conference on Natural Language Learning (CoNLL-2002) Pages 49–55 Gideon S Mann, Andrew McCallum (2008) Generalized Expectation Criteria for Semi-Supervised Learning of Conditional Random Fields, ACL08 (HLT): 870–878, 2008 Gideon S Mann, Andrew McCallum (2010) Generalized Expectation Criteria for Semi-Supervised Learning with Weakly Labeled Data, Journal of Machine Learning Research, 11 (2010): 955-984 Scott Miller, Jethran Guinness, Alex Zamanian (2004) Name Tagging with Word Clusters and Discriminative Training, ACL 04, 2004 Masaki Murata, Qing Ma, Hitoshi Isahara Comparison of Three MachineLearning Methods for Thai Part-of-Speech Tagging In Proc ACM Transactions on Asian Language Information Processing, Vol 1, No 2, June 2002, Pages 145-158 D J Miller and H S Uyar A mixture of experts classifier with learning based on both labelled and unlabelled data In M Mozer, M I Jordan, and 49 - 50 - [NCT00] T Petsche, editors, Advances in Neural Information Processing Systems 9, pages 571–577 MIT Press, Cambridge, MA, 1997 K.Nigam, A K McCallum, S Thrun, and T Mitchell Text classification from labeled and unlabeled documents using EM Machine Learning, 39(23):103–134, 2000 [NG00] K Nigam and R Ghani Analyzing the effectiveness and applicability of co- [QKC09] training In Proceedings of the 9th ACM International Conference on Information and Knowledge Management, pages 86–93, Washington, DC, 2000 Yanjun Qi, Pavel Kuksa, Ronan Collobert, Kunihiko Sadamasa, Koray Kavukcuoglu, and Jason Weston (2009) Semi-Supervised Sequence Labeling with Self-Learned Features, The 2009 Ninth IEEE International Conference on Data Mining: 428-437, 2009 [SL94] B Shahshahani and D Landgrebe The effect of unlabeled samples in [Spr07] [Wal02] [Wal04] [WHW09] [ZBL04] reducing the small sample size problem and mitigating the hughes phenomenon IEEE Transactions on Geo-science and Remote Sensing, 32(5):1087–1095, 1994 Richard Sproat Introduction to Speech Technology (Language Models, HMMs, Forward Algorithm, Viterbi Algorithm…) Slide Department of Electrical and Computer Engineering, University of Illinois at UrbanaChampaign ECE 398RS Courses, Fall 2007 Hanna M Wallach Efficient Training of Conditional Random Fields Technical Report, University of Edinburgh, 2002 Hanna M.Wallach Conditional Random Fields: An introduction Technical Report MS-CIS-04-21, Department of Computer and Information Science, University of Pennsylvania February 24, 2004 Yang Wang, Gholamreza Haffari, Shaojun Wang, Greg Mori (2009) A Rate Distortion Approach for Semi-Supervised Conditional Random Fields, NIPS2009, 2009 D Zhou, O Bousquet, T N Lal, J Weston, and B Schăolkopf Learning with local and global consistency In S Thrun, L Saul, and B Schăolkopf, 50 - 51 - [ZC06] editors, Advances in Neural Information Processing Systems 16 MIT Press, Cambridge, MA, 2004 Z.-H Zhou, K.-J Chen, and H.-B Dai Enhancing relevance feedback in image retrieval using unlabeled data ACM Transactions on Information Systems, 24(2):219–244, 2006 [ZGL03] X Zhu, Z Ghahramani, and J Lafferty Semi-supervised learning using [Zho08] [ZL05] [ZL07] [ZL07b] [ZL10] [ZZY07] Gaussian fields and harmonic functions In Proceedings of the 20th International Conference on Machine Learning, pages 912–919, Washington, DC, 2003 Z H Zhou Semi-supervised learning by disagreement In Proceedings of the 4th IEEE International Conference on Granular Computing, Hangzhou, China, 2008 Z H Zhou and M Li Tri-training: Exploiting unlabeled data using three classifiers IEEE Transactions on Knowledge and Data Engineering, 17(11):1529–1541, 2005 Z H Zhou and M Li Semi-supervised regression with co-training style algorithms IEEE Transactions on Knowledge and Data Engineering, 19(11):1479–1493, 2007 X Zhang and W S Lee Hyperparameter learning for graph based semisupervised learning algorithms In B Schăolkopf, J Platt, and T Hofmann, editors, Advances in Neural Information Processing Systems 19, pages 1585–1592 MIT Press, Cambridge, MA, 2007 Zhi-Hua Zhou and Ming Li Semi-supervised Learning by Disagreement National Key Laboratory for Novel Software Technology Nanjing University, Nanjing 210093, China 2010 Z.-H Zhou, D.-C Zhan, and Q Yang Semi-supervised learning with very few labeled training examples In Proceedings of the 22nd AAAI Conference on Artificial Intelligence, pages 675–680, Vancouver, Canada, 2007 51 ... mơ hình học máy bán giám sát CRFs sử dụng tiêu chuẩn kỳ vọng tổng qt; mơ hình giới thiệu phân tích chương luận văn 22 - 23 - CHƯƠNG HỌC MÁY BÁN GIÁM SÁT CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT... giải tốn dựa mơ hình CRFs theo tiêu chuẩn kỳ vọng tổng quát Chương 4: Trình bày thực nghiệm tập liệu sử dụng số mơ hình học máy có giám sát CRFs, mơ hình học máy bán giám sát CRFs theo chuẩn hóa... số thuật toán học máy bán giám sát 19 1.2.2 Sơ mơ hình học máy bán giám sát CRFs 21 1.3.Kết luận chương 22 CHƯƠNG 2: HỌC MÁY BÁN GIÁM SÁT CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT