(Luận văn thạc sĩ) trích chọn thông tin trên tập văn bản pháp luật dùng kỹ thuật học máy bán giám sát dựa trên mô hình CRFs theo tiêu chuẩn kỳ vọng tổng quát

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ NGÂN TRÍCH CHỌN THƠNG TIN TRÊN TẬP VĂN BẢN PHÁP LUẬT DÙNG KỸ THUẬT HỌC MÁY BÁN GIÁM SÁT DỰA TRÊN MƠ HÌNH CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT LUẬN VĂN THẠC SĨ Hà Nội - 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ PHẠM THỊ NGÂN TRÍCH CHỌN THƠNG TIN TRÊN TẬP VĂN BẢN PHÁP LUẬT DÙNG KỸ THUẬT HỌC MÁY BÁN GIÁM SÁT DỰA TRÊN MƠ HÌNH CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 604805 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TIẾN SĨ NGUYỄN LÊ MINH Hà Nội, 2011 -1MỤC LỤC LỜI CAM ĐOAN Error! Bookmark not defined MỤC LỤC DANH MỤC HÌNH VẼ DANH MỤC BẢNG BIỂU KÝ TỰ VIẾT TẮT LỜI CẢM ƠN LỜI MỞ ĐẦU CHƢƠNG 1: HỌC BÁN GIÁM SÁT THEO MƠ HÌNH TRƢỜNG NGẪU NHIÊN CÓ ĐIỀU KIỆN 1.1.Phƣơng pháp học máy Trƣờng ngẫu nhiên có điều kiện 1.1.1 Khái niệm trƣờng ngẫu nhiên có điều kiện 1.1.2 Học máy CRFs 10 1.1.2.1 Hàm tiềm mơ hình CRFs 10 1.1.2.2 Thuâ ̣t toán gán nhañ cho dƣ̃ liê ̣u da ̣ng chuỗi 11 1.1.2.3 Ƣớc lƣợng tham số cho mô hình CRFs 12 1.2.Học máy bán giám sát CRFs 12 1.2.1 Học máy bán giám sát 12 1.2.1.1 Học khơng có giám sát Học có giám sát 13 1.2.1.2 Học máy bán giám sát 15 1.2.1.3 Một số thuật toán học máy bán giám sát 16 1.2.2 Sơ mơ hình học máy bán giám sát CRFs 18 1.3.Kết luận chƣơng 19 CHƢƠNG 2: HỌC MÁY BÁN GIÁM SÁT CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT 20 2.1.Tiêu chuẩn kỳ vọng tổng quát 20 2.1.1 Giới thiệu sơ 20 2.1.2 Tiêu chuẩn kỳ vọng tổng quát 21 2.2.Mơ hình học máy bán giám sát CRFs theo tiêu chuẩn kỳ vọng tống quát 23 2.3.Kết luận chƣơng 25 -2- CHƢƠNG 3: MỘT MƠ HÌNH HỌC MÁY BÁN GIÁM SÁT CRFs TRÍCH CHỌN THƠNG TIN PHÁP LUẬT TIẾNG VIỆT 26 3.1 Trích chọn thơng tin từ văn pháp luật tiếng Việt 26 3.1.1 Một số đặc trƣng miền liệu văn pháp luật tiếng Việt 26 3.1.2 Bài tốn trích chọn thơng tin văn pháp luật tiếng Việt 28 3.2 Một mơ hình học máy bán giám sát CRFs trích chọn thơng tin pháp luật tiếng Việt 28 3.2.1 Một sớ phân tích 28 3.2.2 Mô hình đề nghị 29 3.2.3 Lựa chọn thuộc tính 33 3.2.4 Cách đánh giá 33 3.3.Kết luận chƣơng 34 CHƢƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 35 4.1 Mơ hình thực nghiệm 35 4.1.1 Dữ liệu thực nghiệm 35 4.1.2 Bộ công cụ Mallet 35 4.2 Thực nghiệm đánh giá 35 4.2.1 Môi trƣờng thực nghiệm 35 4.2.2 Mơ tả quy trình thực nghiệm 35 4.2.3 Kết thực nghiệm 36 4.2.4 Đánh giá 37 4.3 Kết luận chƣơng 40 KẾT LUẬN 42 TÀI LIỆU THAM KHẢO 44 -3- DANH MỤC HÌNH VẼ Hình Đờ thị vô hướng mô tả CRFs Hình Mợt bước thuật toán Viterbi cải tiế n 11 Hình 3/4 Mơ hình đề xuất giải tốn 30 Hình Tập ràng buộc (Constraint file) 32 Hình Kết quả nhóm thực nghiệm 36 Hình Kết quả nhóm thực nghiệm 37 Hình Kết quả nhóm thực nghiệm 38 Hình Kết quả nhóm thực nghiệm 39 Hình 10 Kết quả nhóm thực nghiệm 40 -4- DANH MỤC BẢNG BIỂU Bảng Mẫu ngữ cảnh từ vựng 33 Bảng Mẫu ngữ cảnh phát tên thực thể 33 Bảng Kết quả nhóm thực nghiệm 36 Bảng Kết quả nhóm thực nghiệm 37 Bảng Kết quả nhóm thực nghiệm 38 Bảng Kết quả nhóm thực nghiệm 38 Bảng Kết quả nhóm thực nghiệm 39 -5- KÝ TỰ VIẾT TẮT CRFs EM GE GEC GIS i.i.d IIS KL L-BFGS LOC MISC NER ORG PER Conditional Random Fields Entropy Maximum Generalized Expectation Generalized Expectation Criteria Generalized Iterative Scaling independently and identically Improved Iterative Scaling Kullback Leibler Limited memory Broyden–Fletcher–Goldfarb–Shanno LOCation MIScellaneous Named Entity Recognition ORGanization PERson -6- LỜI CẢM ƠN Để hoàn thành luận văn tác giả nhận đƣợc giúp đỡ từ nhiều quan, đồn thể cá nhân Trƣớc hết tơi xin chân thành cảm ơn thầy giáo, cô giáo Khoa Công nghệ Thông tin, trƣờng Đại học Công nghệ, Đại học Quốc gia Hà Nội tận tình giảng dạy, trang bị cho kiến thức quý báu suốt trình học tập trƣờng Tôi xin bày tỏ lòng biết ơn sâu sắc đến TS Nguyễn Lê Minh - ngƣời thầy trực tiếp hƣớng dẫn śt q trình xây dựng hồn thành luận văn Tơi xin bày tỏ lịng biết ơn chân thành đến thầy giáo PGS.TS Hà Quang Thụy bạn Phịng thí nghiệm cơng nghệ tri thức, Trƣờng Đại học Cơng nghệ giúp đỡ đóng góp nhiều ý kiến quý báu cho Cuối cùng, xin bày tỏ lòng biết ơn sâu sắc tới gia đình, bạn bè, ngƣời động viên, giúp đỡ tơi nhiệt tình để hồn thành luận văn Hà Nội, tháng 05 năm 2011 Học viên Phạm Thị Ngân -7- LỜI MỞ ĐẦU Trích chọn thơng tin khâu toán khai phá liệu Ngày nay, với phát triển công nghệ thông tin, Tin học dần đƣợc ứng dụng rộng rãi nhiều lĩnh vực nhƣ kinh tế, thƣơng mại, y tế, ngân hàng mang lại nhiều lợi ích to lớn Bản thân công tác Học viện Cảnh sát nhân dân, tơi có hiểu biết định cơng tác giữ gìn trật tự an toàn xã hội lực lƣợng cảnh sát nhân dân Tôi nhận thấy, hoạt động lực lƣợng cảnh sát có liên quan nhiều đến việc lƣu trữ hồ sơ liệu, tra cứu, phân tích tổng hợp liệu Tuy nhiên, công tác quản lý hồ sơ liệu hiệu hạn chế định Do tơi mạnh dạn chọn đề tài tập trung nghiên cứu vào việc trích lọc thơng tin tập văn pháp luật Trong nhiều thập kỷ qua, nhà khoa học quan tâm đến lĩnh vực xử lý ngôn ngữ tự nhiên nghiên cứu đề xuất đƣợc nhiều phƣơng pháp, mô hình xử lý ngôn ngữ với hiệu cao Nổi bật sớ phƣơng pháp học máy bán giám sát dựa mô hình trƣờng ngẫu nhiên có điều kiện theo tiêu chuẩn kỳ vọng tổng quát, phƣơng pháp đạt đƣợc kết khả quan tập liệu ngôn ngữ tiếng Anh chƣa đƣợc áp dụng cho tiếng Việt Đƣợc giúp đỡ đồng ý Thầy giáo hƣớng dẫn TS Nguyễn Lê Minh, tác giả định sử dụng mơ hình ứng dụng cho tập văn pháp luật Bố cục luận văn chia thành chương sau:  Chƣơng 1: Trình bày kiến thức mơ hình trƣờng ngẫu nhiên có điều kiện phƣơng pháp học máy bán giám sát  Chƣơng 2: Trình bày tiêu chuẩn kỳ vọng tổng quát áp dụng tiêu chuẩn kỳ vọng tổng quát vào mơ hình trƣờng ngẫu nhiên có điều kiện  Chƣơng 3: Trình bày tốn trích chọn thƣc thể tập văn pháp luật đề xuất mơ hình giải tốn dựa mơ hình CRFs theo tiêu chuẩn kỳ vọng tổng quát  Chƣơng 4: Trình bày thực nghiệm tập liệu sử dụng sớ mơ hình học máy có giám sát CRFs, mơ hình học máy bán giám sát CRFs theo chuẩn hóa entropy theo tiêu chuẩn kỳ vọng tổng quát; Từ đánh giá kết thu đƣợc Trong phần kết luận, luận văn tóm tắt lại công việc thực kết đạt đƣợc Đồng thời đề cập đến điểm hạn chế luận văn hƣớng nghiên cứu tƣơng lai -8- CHƢƠNG HỌC BÁN GIÁM SÁT THEO MƠ HÌNH TRƢỜNG NGẪU NHIÊN CĨ ĐIỀU KIỆN Phƣơng pháp học máy Trƣờng ngẫu nhiên có điều kiện Mơ hình trƣờng ngẫu nhiên có điều kiện (Conditional Random Fields, viết tắt CRFs) đƣợc Lafferty cộng sự, 2001 [LCP01] giới thiệu lần vào năm 2001 CRFs mơ hình dƣ̣a xác ś t có điều kiện, cho phép tích hợp đƣợc thuộc tính đa dạng chuỗi dƣ̃ liê ̣u quan sát nhằ m h ỗ trợ cho trình phân lớp Tuy nhiên, khác với mơ hình xác suất khác, CRFs mơ hình đồ thị vơ hƣớng Điều cho phép CRFs định nghĩa phân phới xác suất toàn chuỗi trạng thái với điề u kiê ̣n biế t chuỗi quan sát cho trƣ ớc thay phân phới trạng thái với điề u kiê ̣n bi ết trạng thái trƣớc quan sát nhƣ mô hình đồ thị có hƣớng khác Theo Lafferty cộng [LCP01], Hanna M Wallach, 2002 2004 [Wal02, Wal04], chất “phân phối điề u kiê ̣n” và “phân phố i toàn cu ̣c” của CRF s cho phép mô hiǹ h này khắ c phu ̣c đƣơ ̣c nhƣơ ̣c điể m của mô hiǹ h trƣ ớc việc gán nhãn phân đoa ̣n các dƣ̃ liê ̣u da ̣ng chuỗi mà tiêu biểu vấn đề „label bias‟ Khi đề cập đến trƣờng ngẫu nhiên có điều kiện, sử dụng sớ qui ƣớc kí hiệu:  Chữ viết hoa X, Y, Z…kí hiê ̣u biến ngẫu nhiên  Chữ thƣờng đậm x, y, t, s,…kí hiệu vector nhƣ vector biể u diễn chuỗi dƣ̃ liê ̣u quan sát, vector biể u diễn chuỗi nhãn …  Chƣ̃ vi ết thƣờng in đâ ̣m có chỉ số là kí hiê ̣u của mô ̣t thành phầ n mơ ̣t vector, ví dụ xi chỉ thành phần vị trí i vector x  Chữ viết thƣờng không đậm nhƣ x , y,… kí hiê ̣u giá tr ị đơn nhƣ dƣ̃ liê ̣u quan sát hay tra ̣ng thái  S: Tâ ̣p hƣ̃u ̣n các tra ̣ng thái của mô ̣t mô hiǹ h CRFs 1.1 1.1.1 Khái niệm trƣờng ngẫu nhiên có điều kiện Kí hiệu X biế n ngẫu nhiên nhâ ̣n giá tri ̣là chuỗi dƣ̃ liê ̣u cầ n phải gán nhañ Y biến ngẫu nhiên nhận giá trị chuỗi nhãn tƣơng ứng Mỗi thành phầ n Yi Y biến ngẫu nhiên n hâ ̣n g iá trị tập hữu hạn trạng thái S Trong bài toán gán nhãn t loại, X nhận giá trị câu ngôn ngữ tƣ̣ nhiên (gồm từ), Y chuỗi ngẫu nhiên nhãn tƣơng ứng với t - 34 - hồi tƣởng Nếu độ xác độ hồi tƣởng cao cân thì độ đo F1 lớn, cịn độ xác hồi tƣởng nhỏ không cân thì độ đo F1 nhỏ Mục tiêu ta xây dựng mô hình phân đoạn từ có chỉ sớ F1 cao Độ đo dựa theo từ đƣợc tính theo cơng thức sau: Pr ecision  Re call  a b (3.1) a c F  measure  (3.2) * Pr ecision * Re call (Pr ecision  Re call (3.3) Trong đó: a số thực thể gán b số thực thể mơ hình gán c sớ thực thể ngƣời gán 3.3 Kết luận chƣơng Chƣơng tập trung phân tích tốn trích chọn thơng tin tập văn pháp luật sở phân tích đặc trƣng miền liệu Từ đề xuất mơ hình giải tốn bao gồm giai đoạn: Giai đoạn tiền xử lý liệu Giai đoạn đƣa tập liệu ràng buộc tự thiết lập vào huấn luyện mơ hình theo tiêu chuẩn kỳ vọng tổng quát - 35 - CHƢƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Mô hình thực nghiệm 4.1.1 Dữ liệu thực nghiệm Do yêu cầu bảo vệ tài liệu hồ sơ vụ án, nên liệu thực nghiệm đƣợc thu thập từ trang web http://www.cand.com.vn Trang web chứa nhiều thông tin pháp luật vụ án, tình tiết việc vi phạm pháp luật đƣợc công khai, gần với tài liệu hồ sơ vụ án cần khai thác Tiến hành thu thập 400 viết điều tra, ghi chép vụ án an ninh trật tự, an ninh kinh tế… Sau tiến hành bƣớc tiền xử lý thu đƣợc tập liệu huấn luyện training với 50.000 dòng tập liệu kiểm tra testing với 30000 dòng Tác giả xây dựng tập constraint với 800 ràng buộc xác suất có 4.1.2 Bộ cơng cụ Mallet Tác giả sử dụng công cụ Mallet 2.0.6 phiên mới Dữ liệu đầu vào cho công cụ bao gồm: - File huấn luyện (training) - File constraint - File kiểm tra (testing) 4.2 Thực nghiệm đánh giá 4.2.1 Mơi trƣờng thực nghiệm Phần cứng: Máy tính IBM T61, Core Duo, 4.00 GHz, RAM 2GB Phần mềm: Sử dụng tool Mallet đƣợc viết Andrew McCallum đồng nghiệp Ngồi cịn sử dụng cơng cụ JvnSegmenter để tách từ; vnTagger để gán nhãn POS cho từ 4.2.2 Mơ tả quy trình thực nghiệm Tác giả tiến hành thực nghiệm Để đánh giá mức độ ảnh hƣởng tập liệu huấn luyện đến kết gán nhãn, tác giả tiến hành chia tập liệu huấn luyện lớn (hơn 50.000 dòng) thành tập huấn luyện nhƣ sau: - Tập liệu huấn luyện 10%: Lấy 10% liệu tập liệu huấn luyện gốc - Tập liệu huấn luyện 20%: Lấy 20% liệu tập liệu huấn luyện gốc - Tập liệu huấn luyện 40%: Lấy 40% liệu tập liệu huấn luyện gốc - 36 - - Tập liệu huấn luyện 80%: Lấy 80% liệu tập liệu huấn luyện gốc - Tập liệu huấn luyện 100%: Lấy toàn tập liệu huấn luyện gốc Nhƣ vậy, tác giả tiến hành nhóm thực nghiệm, nhóm thực nghiệm sử dụng tập liệu huấn luyện phân chia nhƣ tiến hành gán nhãn liệu theo mơ hình: Mơ hình CRFs đơn thuần; Mơ hình bán giám sát CRFs sử dụng Entropy Regularization Mô hình học bán giám sát CRFs theo phƣơng pháp tiêu chuẩn kỳ vọng tổng quát tập liệu huấn luyện tập liệu kiểm tra 4.2.3 Kết thực nghiệm Nhóm thực nghiệm 1: Tiến hành gán nhãn theo mơ hình sử dụng tập liệu huấn luyện 10% tập liệu kiểm tra CRF CRF.ER CRF.GE Precision Recall Fmeasure Precision Recall Fmeasure Precision Recall Fmeasure ORG 0.9883 0.9989 0.9936 0.9442 0.8089 0.8714 0.9330 0.9876 0.9596 PER 0.9205 0.9697 0.9444 0.9180 0.9247 0.9213 0.9116 0.9652 0.9376 LOC 0.9458 0.9751 0.9602 0.9447 0.9161 0.9302 0.9267 0.9789 0.9521 MISC 0.1408 1.0000 0.2469 0.0000 NaN 0.0000 0.0000 NaN 0.0000 OVERALL 0.7489 0.9859 0.7863 0.9290 0.8825 0.9051 0.9044 0.9756 0.9386 Bảng Kết quả nhóm thực nghiệm 1 0.9 0.8 0.7 0.6 Precision 0.5 Recall 0.4 F-measure 0.3 0.2 0.1 CRFs CRFs.ER CRFs.GE Hình Kết quả nhóm thực nghiệm - 37 - Nhóm thực nghiệm 2: Tiến hành gán nhãn theo mơ hình sử dụng tập liệu huấn luyện 20% tập liệu kiểm tra CRFs CRFs.ER CRFs.GE Precision Recall Fmeasure Precision Recall Fmeasure Precision Recall Fmeasure ORG 0.9894 0.9852 0.9873 0.8931 0.9045 0.8987 0.97024 0.94027 0.95502 PER 0.9225 0.9875 0.9539 0.9199 0.9313 0.9255 0.91570 0.96532 0.93985 LOC 0.9742 0.9840 0.9791 0.9824 0.9986 0.9905 0.99917 0.99091 0.99502 MISC 0.5070 0.9000 0.6486 1.0000 0.7460 0.1389 0.05634 1.00000 0.10667 OVERALL 0.8483 0.9642 0.8922 0.9354 0.9245 0.9299 0.9403 0.9672 0.9536 Bảng Kết quả nhóm thực nghiệm 0.9 0.8 0.7 0.6 Precision 0.5 Recall 0.4 F-measure 0.3 0.2 0.1 CRFs CRFs.ER CRFs.GE Hình Kết quả nhóm thực nghiệm Nhóm thực nghiệm 3: Tiến hành gán nhãn theo mơ hình sử dụng tập liệu huấn luyện 40% tập liệu kiểm tra Trong nhóm thực nghiệm này, tác giả mới chỉ đƣa đƣợc kết việc gán nhãn theo mô hình CRFs đơn mơ hình bán giám sát CRFs sử dụng Entropy Regularization Việc gán nhãn theo mơ hình học bán giám sát CRFs theo phƣơng pháp tiêu chuẩn kỳ vọng tổng quát tác giả chƣa thực đƣợc việc sử dụng mơ hình cần nhớ lớn, vƣợt khả đáp ứng máy tính - 38 - 32bit tác giả Nên nhóm thực nghiệm nhóm thực nghiệm sau tác giả chỉ báo cáo kết mơ hình CRFs đơn CRFs sử dụng Entropy Regularization CRF CRF.ER Precision Recall F-measure Precision Recall F-measure ORG 0.9989 0.9947 0.9968 0.9800 0.9363 0.9577 PER 0.9232 0.9912 0.9560 0.9232 0.9313 0.9272 LOC 0.9867 0.9867 0.9867 0.9918 1.0000 0.9959 MISC 0.8310 0.9833 0.9008 0.9815 0.7910 0.8760 OVERALL 0.9350 0.9890 0.9601 0.9518 0.9483 0.9500 Bảng Kết quả nhóm thực nghiệm 0.9 0.8 0.7 0.6 Precision 0.5 Recall 0.4 F-measure 0.3 0.2 0.1 CRFs CRFs.ER Hình Kết quả nhóm thực nghiệm Nhóm thực nghiệm 4: Tiến hành gán nhãn theo mơ hình sử dụng tập liệu huấn luyện 80% tập liệu kiểm tra CRF CRF.ER Precision Recall F-measure Precision Recall F-measure ORG 0.9989 0.9958 0.9973 0.9873 0.9873 0.9873 PER 0.9232 0.9453 0.9341 0.9912 0.9912 0.9912 LOC 0.9867 0.9850 0.9858 0.9986 1.0000 0.9993 MISC 0.8310 0.9833 0.9008 0.9828 0.8507 0.9120 OVERALL 0.9350 0.9773 0.9545 0.9927 0.9895 0.9911 Bảng Kết quả nhóm thực nghiệm - 39 - 0.9 0.8 0.7 0.6 Precision 0.5 Recall 0.4 F-measure 0.3 0.2 0.1 CRFs CRFs.ER Hình Kết quả nhóm thực nghiệm Nhóm thực nghiệm 5: Tiến hành gán nhãn theo mơ hình sử dụng tập liệu huấn luyện 100% tập liệu kiểm tra CRF CRF.ER Precision Recall F-measure Precision Recall F-measure ORG 0.9989 1.0000 0.9995 0.9777 0.9777 0.9777 PER 0.9931 0.9993 0.9962 0.9956 0.9927 0.9941 LOC 1.0000 1.0000 1.0000 0.9973 1.0000 0.9986 MISC 0.9155 0.9559 0.9353 1.0000 0.9254 0.9612 OVERALL 0.9769 0.9888 0.9827 0.9939 0.9911 0.9925 Bảng Kết quả nhóm thực nghiệm - 40 1.0000 0.9000 0.8000 0.7000 0.6000 Precision 0.5000 Recall 0.4000 F-measure 0.3000 0.2000 0.1000 0.0000 CRFs CRFs.ER Hình 10 Kết quả nhóm thực nghiệm 4.2.4 Đánh giá Qua nhóm thực nghiệm ta thấy có sớ nhận xét nhƣ sau: - Đối với mô hình CRFs đơn thuần, tăng kích thƣớc tập liệu huấn luyện thì độ xác cao hay hàm F-measure cao Điều phù hợp với mơ hình học máy có giám sát Thậm chí nhóm thực nghiệm thứ kết mơ hình CRFs đơn cịn nhỉnh so với kết mơ hình CRFs sử dụng Entropy Regularization - Kết mơ hình học máy bán giám sát (Mơ hình CRFs sử dụng Entropy Regularization Mô hình CRFs theo phƣơng pháp tiêu chuẩn kỳ vọng tổng quát) tốt so với kết mơ hình học máy có giám sát (Mơ hình CRFs đơn thuần), đặc biệt với tập liệu huẫn luyện nhỏ - Mặc dù Mơ hình học máy bán giám sát CRFs theo phƣơng pháp tiêu chuẩn kỳ vọng tổng quát mới chỉ thực đƣợc tập liệu huấn luyện nhỏ (tập liệu huấn luyện 10% 20%), nhƣng cho thấy mơ hình cho kết tốt mô hình học máy bán giám sát CRFs sử dụng Entropy Regularization Các kết thực nghiệm chƣa hồn thiện, kết bị ảnh hƣởng thân liệu thu thập số trƣờng hợp nhập nhằng tiếng Việt, nhƣng góp phần phản ánh ƣu điểm phƣơng pháp học máy bán giám sát so với phƣơng pháp học máy có giám sát nói chung, đồng thời cho thấy hiệu mô hình học máy bán giám sát theo tiêu chuẩn kỳ vọng tổng quát 4.3 Kết luận chƣơng Tiến hành thực nghiệm để phân tích đánh giá kết đạt đƣợc Ở đây, tác giả tiến hành năm nhóm thực nghiệm, nhóm thực nghiệm sử dụng tập - 41 - liệu huấn luyện đƣợc phân chia khác tiến hành gán nhãn liệu theo mơ hình: Mơ hình CRFs đơn thuần; Mơ hình bán giám sát CRFs sử dụng Entropy Regularization Mô hình học bán giám sát CRFs theo phƣơng pháp tiêu chuẩn kỳ vọng tổng quát tập liệu huấn luyện tập liệu kiểm tra Qua đánh giá hiệu mơ hình nói riêng hiệu phƣơng pháp học máy có giám sát bán giám sát nói chung - 42 - KẾT LUẬN Sau thời gian tìm hiểu nghiên cứu tốn trích lọc thơng tin phƣơng pháp học máy bán giám sát dựa mơ hình CRFs theo tiêu chuẩn kỳ vọng tổng qt, luận văn đạt đƣợc số kết sau - Giới thiệu mô hình trƣờng điều kiện ngẫu nhiên CRFs phƣơng pháp học máy bán giám sát CRFs mô hình dƣ̣a xác suấ t điều kiện , tích hợp đƣợc thuộc tính đa dạng chuỗi dƣ̃ liê ̣u quan sát nhằ m hỗ trợ cho trình phân lớp CRFs có nhiều ƣu điểm mơ hình xác suất khác đồng thời khắc phục đƣợc nhƣợc điểm mà mơ hình xác suất khác gặp phải tiêu biểu vấn đề “label bias” Phƣơng pháp học máy bán giám sát kết hợp phƣơng pháp truyền thớng – học máy có giám sát học máy khơng có giám sát, cách học sử dụng thơng tin chứa liệu chƣa gán nhãn tập liệ gán nhãn nhằm mở rộng tập liệu gán nhãn ban đầu Trong trình học nhƣ phƣơng pháp tận dụng đƣợc thông tin phong phú liệu chƣa gán nhãn, mà chỉ yêu cầu số lƣợng nhỏ liệu gán nhãn - Giới thiệu tiêu chuẩn kỳ vọng tổng qt áp dụng vào mơ hình CRFs Tiêu chuẩn kỳ vọng tổng quát điều kiện hàm mục tiêu huấn luyện cho phép gán giá trị cho kỳ vọng mơ hình Luận văn đề cập đến cách xây dựng công thức, cách cách phân chia tiêu chuẩn kỳ vọng tổng quát, từ áp dụng vào mơ hình CRFs thiết lập thơng sớ cho mơ hình theo tiêu chuẩn kỳ vọng tổng qt - Đề xuất mơ hình cho tốn trích chọn thơng tin thực thể tập văn pháp luật dựa phƣơng pháp học máy bán giám sát dựa mơ hình CRFs theo tiêu chuẩn kỳ vọng tổng quát Đồng thời sử dụng công cụ Mallet đƣợc viết Andrew McCallum đồng nghiệp cho tập liệu tiếng Việt theo mô hình đề xuất trích lọc loại thực thể: LOC, PER, ORG VÀ MISC Tuy nhiên, để có đƣợc tập huấn luyện tớt địi hỏi nhiều thời gian cơng sức Trong thời gian có hạn, tác giả mới chỉ xây dựng đƣợc tập liệu huấn luyện tập ràng buộc liệu vừa phải Với tập liệu này, đƣa vào tập liệu kiểm tra kết thu đƣợc hạn chế Mặc dù, mô hình thu đƣợc kết khả quan tập ngôn ngữ tiếng Anh, nhƣng lần mô hình đƣợc áp dụng cho ngôn ngữ tiếng Việt đặc điểm riêng biệt tiếng Việt nên luận văn tránh khỏi - 43 - thiếu sót hạn chế định Tôi mong nhận đƣợc ý kiến nhận xét góp ý để luận văn đƣợc hồn thiện Xử lý ngôn ngữ tự nhiên vấn đề phức tạp Hiện có nhiều cơng cụ xử lý ngôn ngữ tự nhiên, nhiên hầu hết chúng đƣợc áp dụng cho tiếng Anh tiếng Pháp Các đặc thù ngôn ngữ khác nên việc chuyển đổi ngôn ngữ gặp nhiều khó khăn đặc biệt đới với ngôn ngữ phong phú đa dạng nhƣ tiếng Việt Trong thời gian tới, tác giả tập trung xây dựng hoàn thiện liệu huấn luyện tập ràng buộc đặc trƣng liệu nhằm cải thiện độ xác mơ hình - 44 - TÀI LIỆU THAM KHẢO [AG05] [BC01] [BC09] [BLR04] [BM98] [BN04] [BNJ03] [BNS05] [BNS06] [BS06] [Car10] [CMD07] [CZ05] M R Amini and P Gallinari Semi-supervised learning with an imperfect supervisor Knowledge and Information Systems, 8(4):385–413, 2005 A Blum and S Chawla Learning from labeled and unlabeled data using graph mincuts In Proceedings of the 18th International Conference on Machine Learning, pages 19–26, Williamston, MA, 2001 Kedar Bellare, Andrew McCallum (2009) Generalized Expectation Criteria for Bootstrapping Extractors using Record-Text Alignment, The 2009 Conference on Empirical Methods in Natural Language Processing: 131– 140, 2009 A Blum, J Lafferty, M Rwebangira, and R Reddy Semi-supervised learning using ran-domized mincuts In Proceedings of the 21st International Conference on Machine Learning, pages 13–20, Ban, Canada, 2004 A Blum and T Mitchell Combining labeled and unlabeled data with cotraining In Proceedings of the 11th Annual Conference on Computational Learning Theory, pages 92–100, Madison, WI, 1998 M Belkin and P Niyogi Semi-supervised learning on Riemannian manifolds Machine Learning, 56(1-3):209–239, 2004 David M Blei, Andrew Y.Ng Michael I.Jordan Latent Dirichlet Allocation University of California, Berkeley, Berkeley, CA 94720 2003 M Belkin, P Niyogi, and V Sindhwani On manifold regularization In Proceedings of the 10th International Workshop on Artificial Intelligence and Statistics, pages 17–24, Savannah, Barbados, 2005 M Belkin, P Niyogi, and V Sindhwani Manifold regularization: A geometric framework for learning from labeled and unlabeled examples Journal of Machine Learning Research, 7:2399–2434, 2006 U Brefeld and T Scheffer Semi-supervised learning for structured output variables In Proceedings of the 23rd International Conference on Machine Learning, pages 145–152, Pittsburgh, PA, 2006 Andrew Carlson (2010) Coupled Semi-Supervised Learning, PhD Thesis (CMU-ML-10-104), Carnegie Mellon University, 2010 Andrew McCallum, Gideon Mann, Gregory Druck (2007) Generalized Expectation Criteria, Technical Report UM-CS-2007-60, University of Massachusetts Amherst, August, 2007 O Chapelle and A Zien Semi-supervised learning by low density separation In proceedings of the 10th International Workshop on Artificial Intelligence and Statistics, pages 57–64 Savannah Hotel, Barbados, 2005 - 45 - [DLR77] [DMC07] [DMC08] [DMC09] [Erk10] [FUS05] [GB04] [GY05] [GZ00] [HC71] [HM07] [Joa99] [JWL06] A P Dempster, N M Laird, and D B Rubin Maximum likelihood from incomplete data via the EM algorithm Journal of the Royal Statistical Society, Series B, 39(1):1–38, 1977 Gregory Druck, Gideon Mann, Andrew McCallum (2007) Leveraging Existing Resources using Generalized Expectation Criteria, NIPS WS, 2007 Gregory Druck, Gideon Mann and Andrew McCallum (2008) Learning from Labeled Features using Generalized Expectation Criteria, SIGIR 08, 2008 Gregory Druck, Gideon Mann, Andrew McCallum (2009) Semi-supervised Learning of Dependency Parsers using Generalized Expectation Criteria, The 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP: 360–368 Ayse Naz Erkan (2010) Semi-supervised Learning via Generalized Maximum Entropy, PhD Thesis, New York University, 2010 A Fujino, N Ueda, and K Saito A hybrid generative/discriminative approach to semi-supervised classifier design In Proceedings of the 20th National Conference on Artificial Intelligence, pages 764–769, Pittsburgh, PA, 2005 Y.Grandvaletand, Y.Bengio Semi-supervised learning by entropy minimization In Advances in Neural Information Processing Systems, 2004 Y Grandvalet and Y Bengio Semi-supervised learning by entropy minimization In L K Saul, Y.Weiss, and L Bottou, editors, Advances in Neural Information Processing Systems 17, pages 529–536 MIT Press, Cambridge, MA, 2005 S Goldman and Y Zhou Enhancing supervised learning with unlabeled data In Proceedings of the 17th International Conference on Machine Learning, pages 327–334, San Francisco, CA, 2000 J.Hammersley and P Clifford (1971) Markov fields on finite graphs and lattices Unpublished manuscript M Hein and M Maier Manifold denoising In B Schăolkopf, J C Platt, and T Ho man, editors, Advances in Neural Information Processing Systems 19, pages 561–568 MIT Press, Cambridge, MA, 2007 T Joachims Transductive inference for text classification using support vector machines In Proceedings of the 16th International Conference on Machine Learning, pages 200–209, Bled, Slovenia, 1999 Feng Jiao, Shaojun Wang, Chi-Hoon Lee, Russell Greiner, Dale Schuurmans (2006) Semi-supervised conditional random fields for improved sequence segmentation and labeling, The 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics: 209-216, 2006 - 46 - [KL51] [KQ10] [Kul59] [LCP01] [LJ05] [Mal02] [MC08] [MC10] [MGZ04] [MMI02] [MU97] [NCT00] [NG00] S Kullback and R A Leibler On Information and Sufficiency Annuals of Mathematical Statistics 22 (1): pages 79–86, 1951 Pavel P Kuksa, Yanjun Qi (2010) Semi-Supervised Bio-Named Entity Recognition with Word-Codebook Learning, SDM 2010: 25-36, 2010 S Kullback Information theory and statistics John Wiley and Sons, NY, 1959 John Laferty, Andrew McCallum, Fernando Pereira Conditional Random Fields: Probabilistic Models for segmenting and labeling Sequence Data In Proc of the Eighteenth International Conference on Machine Learning (ICML-2001), 2001 N D Lawrence and M I Jordan Semi-supervised learning via Gaussian processes In L K Saul, Y Weiss, and L Bottou, editors, Advances in Neural Information Processing Systems 17, pages 753–760 MIT Press, Cambridge, MA, 2005 Robert Malouf “A comparison of algorithms for maximum entropy parameter estimation.” In Proceedings of the Sixth Conference on Natural Language Learning (CoNLL-2002) Pages 49–55 Gideon S Mann, Andrew McCallum (2008) Generalized Expectation Criteria for Semi-Supervised Learning of Conditional Random Fields, ACL08 (HLT): 870–878, 2008 Gideon S Mann, Andrew McCallum (2010) Generalized Expectation Criteria for Semi-Supervised Learning with Weakly Labeled Data, Journal of Machine Learning Research, 11 (2010): 955-984 Scott Miller, Jethran Guinness, Alex Zamanian (2004) Name Tagging with Word Clusters and Discriminative Training, ACL 04, 2004 Masaki Murata, Qing Ma, Hitoshi Isahara Comparison of Three MachineLearning Methods for Thai Part-of-Speech Tagging In Proc ACM Transactions on Asian Language Information Processing, Vol 1, No 2, June 2002, Pages 145-158 D J Miller and H S Uyar A mixture of experts classifier with learning based on both labelled and unlabelled data In M Mozer, M I Jordan, and T Petsche, editors, Advances in Neural Information Processing Systems 9, pages 571–577 MIT Press, Cambridge, MA, 1997 K.Nigam, A K McCallum, S Thrun, and T Mitchell Text classification from labeled and unlabeled documents using EM Machine Learning, 39(23):103–134, 2000 K Nigam and R Ghani Analyzing the effectiveness and applicability of cotraining In Proceedings of the 9th ACM International Conference on Information and Knowledge Management, pages 86–93, Washington, DC, 2000 - 47 - [QKC09] [SL94] [Spr07] [Wal02] [Wal04] [WHW09] [ZBL04] [ZC06] [ZGL03] [Zho08] [ZL05] [ZL07] Yanjun Qi, Pavel Kuksa, Ronan Collobert, Kunihiko Sadamasa, Koray Kavukcuoglu, and Jason Weston (2009) Semi-Supervised Sequence Labeling with Self-Learned Features, The 2009 Ninth IEEE International Conference on Data Mining: 428-437, 2009 B Shahshahani and D Landgrebe The effect of unlabeled samples in reducing the small sample size problem and mitigating the hughes phenomenon IEEE Transactions on Geo-science and Remote Sensing, 32(5):1087–1095, 1994 Richard Sproat Introduction to Speech Technology (Language Models, HMMs, Forward Algorithm, Viterbi Algorithm…) Slide Department of Electrical and Computer Engineering, University of Illinois at UrbanaChampaign ECE 398RS Courses, Fall 2007 Hanna M Wallach Efficient Training of Conditional Random Fields Technical Report, University of Edinburgh, 2002 Hanna M.Wallach Conditional Random Fields: An introduction Technical Report MS-CIS-04-21, Department of Computer and Information Science, University of Pennsylvania February 24, 2004 Yang Wang, Gholamreza Haffari, Shaojun Wang, Greg Mori (2009) A Rate Distortion Approach for Semi-Supervised Conditional Random Fields, NIPS2009, 2009 D Zhou, O Bousquet, T N Lal, J Weston, and B Schăolkopf Learning with local and global consistency In S Thrun, L Saul, and B Schăolkopf, editors, Advances in Neural Information Processing Systems 16 MIT Press, Cambridge, MA, 2004 Z.-H Zhou, K.-J Chen, and H.-B Dai Enhancing relevance feedback in image retrieval using unlabeled data ACM Transactions on Information Systems, 24(2):219–244, 2006 X Zhu, Z Ghahramani, and J Lafferty Semi-supervised learning using Gaussian fields and harmonic functions In Proceedings of the 20th International Conference on Machine Learning, pages 912–919, Washington, DC, 2003 Z H Zhou Semi-supervised learning by disagreement In Proceedings of the 4th IEEE International Conference on Granular Computing, Hangzhou, China, 2008 Z H Zhou and M Li Tri-training: Exploiting unlabeled data using three classifiers IEEE Transactions on Knowledge and Data Engineering, 17(11):1529–1541, 2005 Z H Zhou and M Li Semi-supervised regression with co-training style algorithms IEEE Transactions on Knowledge and Data Engineering, 19(11):1479–1493, 2007 - 48 - [ZL07b] [ZL10] [ZZY07] X Zhang and W S Lee Hyperparameter learning for graph based semisupervised learning algorithms In B Schăolkopf, J Platt, and T Hofmann, editors, Advances in Neural Information Processing Systems 19, pages 1585–1592 MIT Press, Cambridge, MA, 2007 Zhi-Hua Zhou and Ming Li Semi-supervised Learning by Disagreement National Key Laboratory for Novel Software Technology Nanjing University, Nanjing 210093, China 2010 Z.-H Zhou, D.-C Zhan, and Q Yang Semi-supervised learning with very few labeled training examples In Proceedings of the 22nd AAAI Conference on Artificial Intelligence, pages 675–680, Vancouver, Canada, 2007 ... mơ hình theo tiêu chuẩn kỳ vọng tổng qt - Đề xuất mơ hình cho tốn trích chọn thông tin thực thể tập văn pháp luật dựa phƣơng pháp học máy bán giám sát dựa mơ hình CRFs theo tiêu chuẩn kỳ vọng tổng. ..ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ NGÂN TRÍCH CHỌN THƠNG TIN TRÊN TẬP VĂN BẢN PHÁP LUẬT DÙNG KỸ THUẬT HỌC MÁY BÁN GIÁM SÁT DỰA TRÊN MƠ HÌNH CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG... giải tốn dựa mơ hình CRFs theo tiêu chuẩn kỳ vọng tổng quát  Chƣơng 4: Trình bày thực nghiệm tập liệu sử dụng sớ mơ hình học máy có giám sát CRFs, mơ hình học máy bán giám sát CRFs theo chuẩn

(Luận văn thạc sĩ) trích chọn thông tin trên tập văn bản pháp luật dùng kỹ thuật học máy bán giám sát dựa trên mô hình CRFs theo tiêu chuẩn kỳ vọng tổng quát

Thông tin tài liệu

Từ khóa liên quan

Mục lục

MỤC LỤC

DANH MỤC HÌNH VẼ

DANH MỤC BẢNG BIỂU

KÝ TỰ VIẾT TẮT

LỜI MỞ ĐẦU

CHƯƠNG 1 HỌC BÁN GIÁM SÁT THEO MÔ HÌNH TRƯỜNG NGẪU NHIÊN CÓ ĐIỀU KIỆN

1.1. Phương pháp học máy Trường ngẫu nhiên có điều kiện

1.1.1. Khái niệm trường ngẫu nhiên có điều kiện

1.1.2. Học máy CRFs

1.2. Học máy bán giám sát CRFs

1.2.1. Học máy bán giám sát

1.2.2. Sơ bộ về mô hình học máy bán giám sát CRFs

1.3. Kết luận chƣơng 1

2.1. Tiêu chuẩn kỳ vọng tổng quát

2.1.1. Gíới thiệu sơ bộ

2.1.2. Tiêu chuẩn kỳ vọng tổng quát

2.3. Kết luận chương 2

3.1. Trích chọn thông tin từ văn bản pháp luật tiếng Việt

3.1.1. Một số đặc trưng về miền dữ liệu văn bản pháp luật tiếng Việt

3.1.2. Bài toán trích chọn thông tin văn bản pháp luật tiếng Việt

Trích đoạn

Tài liệu cùng người dùng

Tài liệu liên quan