(Luận văn thạc sĩ) trích chọn thông tin trên tập văn bản pháp luật dùng kỹ thuật học máy bán giám sát dựa trên mô hình CRFs theo tiêu chuẩn kỳ vọng tổng quát

50 23 0
(Luận văn thạc sĩ) trích chọn thông tin trên tập văn bản pháp luật dùng kỹ thuật học máy bán giám sát dựa trên mô hình CRFs theo tiêu chuẩn kỳ vọng tổng quát

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ NGÂN TRÍCH CHỌN THƠNG TIN TRÊN TẬP VĂN BẢN PHÁP LUẬT DÙNG KỸ THUẬT HỌC MÁY BÁN GIÁM SÁT DỰA TRÊN MƠ HÌNH CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT LUẬN VĂN THẠC SĨ Hà Nội - 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ PHẠM THỊ NGÂN TRÍCH CHỌN THƠNG TIN TRÊN TẬP VĂN BẢN PHÁP LUẬT DÙNG KỸ THUẬT HỌC MÁY BÁN GIÁM SÁT DỰA TRÊN MƠ HÌNH CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 604805 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TIẾN SĨ NGUYỄN LÊ MINH Hà Nội, 2011 -1MỤC LỤC LỜI CAM ĐOAN Error! Bookmark not defined MỤC LỤC DANH MỤC HÌNH VẼ DANH MỤC BẢNG BIỂU KÝ TỰ VIẾT TẮT LỜI CẢM ƠN LỜI MỞ ĐẦU CHƢƠNG 1: HỌC BÁN GIÁM SÁT THEO MƠ HÌNH TRƢỜNG NGẪU NHIÊN CÓ ĐIỀU KIỆN 1.1.Phƣơng pháp học máy Trƣờng ngẫu nhiên có điều kiện 1.1.1 Khái niệm trƣờng ngẫu nhiên có điều kiện 1.1.2 Học máy CRFs 10 1.1.2.1 Hàm tiềm mơ hình CRFs 10 1.1.2.2 Thuâ ̣t toán gán nhañ cho dƣ̃ liê ̣u da ̣ng chuỗi 11 1.1.2.3 Ƣớc lƣợng tham số cho mô hình CRFs 12 1.2.Học máy bán giám sát CRFs 12 1.2.1 Học máy bán giám sát 12 1.2.1.1 Học khơng có giám sát Học có giám sát 13 1.2.1.2 Học máy bán giám sát 15 1.2.1.3 Một số thuật toán học máy bán giám sát 16 1.2.2 Sơ mơ hình học máy bán giám sát CRFs 18 1.3.Kết luận chƣơng 19 CHƢƠNG 2: HỌC MÁY BÁN GIÁM SÁT CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG QUÁT 20 2.1.Tiêu chuẩn kỳ vọng tổng quát 20 2.1.1 Giới thiệu sơ 20 2.1.2 Tiêu chuẩn kỳ vọng tổng quát 21 2.2.Mơ hình học máy bán giám sát CRFs theo tiêu chuẩn kỳ vọng tống quát 23 2.3.Kết luận chƣơng 25 -2- CHƢƠNG 3: MỘT MƠ HÌNH HỌC MÁY BÁN GIÁM SÁT CRFs TRÍCH CHỌN THƠNG TIN PHÁP LUẬT TIẾNG VIỆT 26 3.1 Trích chọn thơng tin từ văn pháp luật tiếng Việt 26 3.1.1 Một số đặc trƣng miền liệu văn pháp luật tiếng Việt 26 3.1.2 Bài tốn trích chọn thơng tin văn pháp luật tiếng Việt 28 3.2 Một mơ hình học máy bán giám sát CRFs trích chọn thơng tin pháp luật tiếng Việt 28 3.2.1 Một sớ phân tích 28 3.2.2 Mô hình đề nghị 29 3.2.3 Lựa chọn thuộc tính 33 3.2.4 Cách đánh giá 33 3.3.Kết luận chƣơng 34 CHƢƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ 35 4.1 Mơ hình thực nghiệm 35 4.1.1 Dữ liệu thực nghiệm 35 4.1.2 Bộ công cụ Mallet 35 4.2 Thực nghiệm đánh giá 35 4.2.1 Môi trƣờng thực nghiệm 35 4.2.2 Mơ tả quy trình thực nghiệm 35 4.2.3 Kết thực nghiệm 36 4.2.4 Đánh giá 37 4.3 Kết luận chƣơng 40 KẾT LUẬN 42 TÀI LIỆU THAM KHẢO 44 -3- DANH MỤC HÌNH VẼ Hình Đờ thị vô hướng mô tả CRFs Hình Mợt bước thuật toán Viterbi cải tiế n 11 Hình 3/4 Mơ hình đề xuất giải tốn 30 Hình Tập ràng buộc (Constraint file) 32 Hình Kết quả nhóm thực nghiệm 36 Hình Kết quả nhóm thực nghiệm 37 Hình Kết quả nhóm thực nghiệm 38 Hình Kết quả nhóm thực nghiệm 39 Hình 10 Kết quả nhóm thực nghiệm 40 -4- DANH MỤC BẢNG BIỂU Bảng Mẫu ngữ cảnh từ vựng 33 Bảng Mẫu ngữ cảnh phát tên thực thể 33 Bảng Kết quả nhóm thực nghiệm 36 Bảng Kết quả nhóm thực nghiệm 37 Bảng Kết quả nhóm thực nghiệm 38 Bảng Kết quả nhóm thực nghiệm 38 Bảng Kết quả nhóm thực nghiệm 39 -5- KÝ TỰ VIẾT TẮT CRFs EM GE GEC GIS i.i.d IIS KL L-BFGS LOC MISC NER ORG PER Conditional Random Fields Entropy Maximum Generalized Expectation Generalized Expectation Criteria Generalized Iterative Scaling independently and identically Improved Iterative Scaling Kullback Leibler Limited memory Broyden–Fletcher–Goldfarb–Shanno LOCation MIScellaneous Named Entity Recognition ORGanization PERson -6- LỜI CẢM ƠN Để hoàn thành luận văn tác giả nhận đƣợc giúp đỡ từ nhiều quan, đồn thể cá nhân Trƣớc hết tơi xin chân thành cảm ơn thầy giáo, cô giáo Khoa Công nghệ Thông tin, trƣờng Đại học Công nghệ, Đại học Quốc gia Hà Nội tận tình giảng dạy, trang bị cho kiến thức quý báu suốt trình học tập trƣờng Tôi xin bày tỏ lòng biết ơn sâu sắc đến TS Nguyễn Lê Minh - ngƣời thầy trực tiếp hƣớng dẫn śt q trình xây dựng hồn thành luận văn Tơi xin bày tỏ lịng biết ơn chân thành đến thầy giáo PGS.TS Hà Quang Thụy bạn Phịng thí nghiệm cơng nghệ tri thức, Trƣờng Đại học Cơng nghệ giúp đỡ đóng góp nhiều ý kiến quý báu cho Cuối cùng, xin bày tỏ lòng biết ơn sâu sắc tới gia đình, bạn bè, ngƣời động viên, giúp đỡ tơi nhiệt tình để hồn thành luận văn Hà Nội, tháng 05 năm 2011 Học viên Phạm Thị Ngân -7- LỜI MỞ ĐẦU Trích chọn thơng tin khâu toán khai phá liệu Ngày nay, với phát triển công nghệ thông tin, Tin học dần đƣợc ứng dụng rộng rãi nhiều lĩnh vực nhƣ kinh tế, thƣơng mại, y tế, ngân hàng mang lại nhiều lợi ích to lớn Bản thân công tác Học viện Cảnh sát nhân dân, tơi có hiểu biết định cơng tác giữ gìn trật tự an toàn xã hội lực lƣợng cảnh sát nhân dân Tôi nhận thấy, hoạt động lực lƣợng cảnh sát có liên quan nhiều đến việc lƣu trữ hồ sơ liệu, tra cứu, phân tích tổng hợp liệu Tuy nhiên, công tác quản lý hồ sơ liệu hiệu hạn chế định Do tơi mạnh dạn chọn đề tài tập trung nghiên cứu vào việc trích lọc thơng tin tập văn pháp luật Trong nhiều thập kỷ qua, nhà khoa học quan tâm đến lĩnh vực xử lý ngôn ngữ tự nhiên nghiên cứu đề xuất đƣợc nhiều phƣơng pháp, mô hình xử lý ngôn ngữ với hiệu cao Nổi bật sớ phƣơng pháp học máy bán giám sát dựa mô hình trƣờng ngẫu nhiên có điều kiện theo tiêu chuẩn kỳ vọng tổng quát, phƣơng pháp đạt đƣợc kết khả quan tập liệu ngôn ngữ tiếng Anh chƣa đƣợc áp dụng cho tiếng Việt Đƣợc giúp đỡ đồng ý Thầy giáo hƣớng dẫn TS Nguyễn Lê Minh, tác giả định sử dụng mơ hình ứng dụng cho tập văn pháp luật Bố cục luận văn chia thành chương sau:  Chƣơng 1: Trình bày kiến thức mơ hình trƣờng ngẫu nhiên có điều kiện phƣơng pháp học máy bán giám sát  Chƣơng 2: Trình bày tiêu chuẩn kỳ vọng tổng quát áp dụng tiêu chuẩn kỳ vọng tổng quát vào mơ hình trƣờng ngẫu nhiên có điều kiện  Chƣơng 3: Trình bày tốn trích chọn thƣc thể tập văn pháp luật đề xuất mơ hình giải tốn dựa mơ hình CRFs theo tiêu chuẩn kỳ vọng tổng quát  Chƣơng 4: Trình bày thực nghiệm tập liệu sử dụng sớ mơ hình học máy có giám sát CRFs, mơ hình học máy bán giám sát CRFs theo chuẩn hóa entropy theo tiêu chuẩn kỳ vọng tổng quát; Từ đánh giá kết thu đƣợc Trong phần kết luận, luận văn tóm tắt lại công việc thực kết đạt đƣợc Đồng thời đề cập đến điểm hạn chế luận văn hƣớng nghiên cứu tƣơng lai -8- CHƢƠNG HỌC BÁN GIÁM SÁT THEO MƠ HÌNH TRƢỜNG NGẪU NHIÊN CĨ ĐIỀU KIỆN Phƣơng pháp học máy Trƣờng ngẫu nhiên có điều kiện Mơ hình trƣờng ngẫu nhiên có điều kiện (Conditional Random Fields, viết tắt CRFs) đƣợc Lafferty cộng sự, 2001 [LCP01] giới thiệu lần vào năm 2001 CRFs mơ hình dƣ̣a xác ś t có điều kiện, cho phép tích hợp đƣợc thuộc tính đa dạng chuỗi dƣ̃ liê ̣u quan sát nhằ m h ỗ trợ cho trình phân lớp Tuy nhiên, khác với mơ hình xác suất khác, CRFs mơ hình đồ thị vơ hƣớng Điều cho phép CRFs định nghĩa phân phới xác suất toàn chuỗi trạng thái với điề u kiê ̣n biế t chuỗi quan sát cho trƣ ớc thay phân phới trạng thái với điề u kiê ̣n bi ết trạng thái trƣớc quan sát nhƣ mô hình đồ thị có hƣớng khác Theo Lafferty cộng [LCP01], Hanna M Wallach, 2002 2004 [Wal02, Wal04], chất “phân phối điề u kiê ̣n” và “phân phố i toàn cu ̣c” của CRF s cho phép mô hiǹ h này khắ c phu ̣c đƣơ ̣c nhƣơ ̣c điể m của mô hiǹ h trƣ ớc việc gán nhãn phân đoa ̣n các dƣ̃ liê ̣u da ̣ng chuỗi mà tiêu biểu vấn đề „label bias‟ Khi đề cập đến trƣờng ngẫu nhiên có điều kiện, sử dụng sớ qui ƣớc kí hiệu:  Chữ viết hoa X, Y, Z…kí hiê ̣u biến ngẫu nhiên  Chữ thƣờng đậm x, y, t, s,…kí hiệu vector nhƣ vector biể u diễn chuỗi dƣ̃ liê ̣u quan sát, vector biể u diễn chuỗi nhãn …  Chƣ̃ vi ết thƣờng in đâ ̣m có chỉ số là kí hiê ̣u của mô ̣t thành phầ n mơ ̣t vector, ví dụ xi chỉ thành phần vị trí i vector x  Chữ viết thƣờng không đậm nhƣ x , y,… kí hiê ̣u giá tr ị đơn nhƣ dƣ̃ liê ̣u quan sát hay tra ̣ng thái  S: Tâ ̣p hƣ̃u ̣n các tra ̣ng thái của mô ̣t mô hiǹ h CRFs 1.1 1.1.1 Khái niệm trƣờng ngẫu nhiên có điều kiện Kí hiệu X biế n ngẫu nhiên nhâ ̣n giá tri ̣là chuỗi dƣ̃ liê ̣u cầ n phải gán nhañ Y biến ngẫu nhiên nhận giá trị chuỗi nhãn tƣơng ứng Mỗi thành phầ n Yi Y biến ngẫu nhiên n hâ ̣n g iá trị tập hữu hạn trạng thái S Trong bài toán gán nhãn t loại, X nhận giá trị câu ngôn ngữ tƣ̣ nhiên (gồm từ), Y chuỗi ngẫu nhiên nhãn tƣơng ứng với t - 34 - hồi tƣởng Nếu độ xác độ hồi tƣởng cao cân thì độ đo F1 lớn, cịn độ xác hồi tƣởng nhỏ không cân thì độ đo F1 nhỏ Mục tiêu ta xây dựng mô hình phân đoạn từ có chỉ sớ F1 cao Độ đo dựa theo từ đƣợc tính theo cơng thức sau: Pr ecision  Re call  a b (3.1) a c F  measure  (3.2) * Pr ecision * Re call (Pr ecision  Re call (3.3) Trong đó: a số thực thể gán b số thực thể mơ hình gán c sớ thực thể ngƣời gán 3.3 Kết luận chƣơng Chƣơng tập trung phân tích tốn trích chọn thơng tin tập văn pháp luật sở phân tích đặc trƣng miền liệu Từ đề xuất mơ hình giải tốn bao gồm giai đoạn: Giai đoạn tiền xử lý liệu Giai đoạn đƣa tập liệu ràng buộc tự thiết lập vào huấn luyện mơ hình theo tiêu chuẩn kỳ vọng tổng quát - 35 - CHƢƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1 Mô hình thực nghiệm 4.1.1 Dữ liệu thực nghiệm Do yêu cầu bảo vệ tài liệu hồ sơ vụ án, nên liệu thực nghiệm đƣợc thu thập từ trang web http://www.cand.com.vn Trang web chứa nhiều thông tin pháp luật vụ án, tình tiết việc vi phạm pháp luật đƣợc công khai, gần với tài liệu hồ sơ vụ án cần khai thác Tiến hành thu thập 400 viết điều tra, ghi chép vụ án an ninh trật tự, an ninh kinh tế… Sau tiến hành bƣớc tiền xử lý thu đƣợc tập liệu huấn luyện training với 50.000 dòng tập liệu kiểm tra testing với 30000 dòng Tác giả xây dựng tập constraint với 800 ràng buộc xác suất có 4.1.2 Bộ cơng cụ Mallet Tác giả sử dụng công cụ Mallet 2.0.6 phiên mới Dữ liệu đầu vào cho công cụ bao gồm: - File huấn luyện (training) - File constraint - File kiểm tra (testing) 4.2 Thực nghiệm đánh giá 4.2.1 Mơi trƣờng thực nghiệm Phần cứng: Máy tính IBM T61, Core Duo, 4.00 GHz, RAM 2GB Phần mềm: Sử dụng tool Mallet đƣợc viết Andrew McCallum đồng nghiệp Ngồi cịn sử dụng cơng cụ JvnSegmenter để tách từ; vnTagger để gán nhãn POS cho từ 4.2.2 Mơ tả quy trình thực nghiệm Tác giả tiến hành thực nghiệm Để đánh giá mức độ ảnh hƣởng tập liệu huấn luyện đến kết gán nhãn, tác giả tiến hành chia tập liệu huấn luyện lớn (hơn 50.000 dòng) thành tập huấn luyện nhƣ sau: - Tập liệu huấn luyện 10%: Lấy 10% liệu tập liệu huấn luyện gốc - Tập liệu huấn luyện 20%: Lấy 20% liệu tập liệu huấn luyện gốc - Tập liệu huấn luyện 40%: Lấy 40% liệu tập liệu huấn luyện gốc - 36 - - Tập liệu huấn luyện 80%: Lấy 80% liệu tập liệu huấn luyện gốc - Tập liệu huấn luyện 100%: Lấy toàn tập liệu huấn luyện gốc Nhƣ vậy, tác giả tiến hành nhóm thực nghiệm, nhóm thực nghiệm sử dụng tập liệu huấn luyện phân chia nhƣ tiến hành gán nhãn liệu theo mơ hình: Mơ hình CRFs đơn thuần; Mơ hình bán giám sát CRFs sử dụng Entropy Regularization Mô hình học bán giám sát CRFs theo phƣơng pháp tiêu chuẩn kỳ vọng tổng quát tập liệu huấn luyện tập liệu kiểm tra 4.2.3 Kết thực nghiệm Nhóm thực nghiệm 1: Tiến hành gán nhãn theo mơ hình sử dụng tập liệu huấn luyện 10% tập liệu kiểm tra CRF CRF.ER CRF.GE Precision Recall Fmeasure Precision Recall Fmeasure Precision Recall Fmeasure ORG 0.9883 0.9989 0.9936 0.9442 0.8089 0.8714 0.9330 0.9876 0.9596 PER 0.9205 0.9697 0.9444 0.9180 0.9247 0.9213 0.9116 0.9652 0.9376 LOC 0.9458 0.9751 0.9602 0.9447 0.9161 0.9302 0.9267 0.9789 0.9521 MISC 0.1408 1.0000 0.2469 0.0000 NaN 0.0000 0.0000 NaN 0.0000 OVERALL 0.7489 0.9859 0.7863 0.9290 0.8825 0.9051 0.9044 0.9756 0.9386 Bảng Kết quả nhóm thực nghiệm 1 0.9 0.8 0.7 0.6 Precision 0.5 Recall 0.4 F-measure 0.3 0.2 0.1 CRFs CRFs.ER CRFs.GE Hình Kết quả nhóm thực nghiệm - 37 - Nhóm thực nghiệm 2: Tiến hành gán nhãn theo mơ hình sử dụng tập liệu huấn luyện 20% tập liệu kiểm tra CRFs CRFs.ER CRFs.GE Precision Recall Fmeasure Precision Recall Fmeasure Precision Recall Fmeasure ORG 0.9894 0.9852 0.9873 0.8931 0.9045 0.8987 0.97024 0.94027 0.95502 PER 0.9225 0.9875 0.9539 0.9199 0.9313 0.9255 0.91570 0.96532 0.93985 LOC 0.9742 0.9840 0.9791 0.9824 0.9986 0.9905 0.99917 0.99091 0.99502 MISC 0.5070 0.9000 0.6486 1.0000 0.7460 0.1389 0.05634 1.00000 0.10667 OVERALL 0.8483 0.9642 0.8922 0.9354 0.9245 0.9299 0.9403 0.9672 0.9536 Bảng Kết quả nhóm thực nghiệm 0.9 0.8 0.7 0.6 Precision 0.5 Recall 0.4 F-measure 0.3 0.2 0.1 CRFs CRFs.ER CRFs.GE Hình Kết quả nhóm thực nghiệm Nhóm thực nghiệm 3: Tiến hành gán nhãn theo mơ hình sử dụng tập liệu huấn luyện 40% tập liệu kiểm tra Trong nhóm thực nghiệm này, tác giả mới chỉ đƣa đƣợc kết việc gán nhãn theo mô hình CRFs đơn mơ hình bán giám sát CRFs sử dụng Entropy Regularization Việc gán nhãn theo mơ hình học bán giám sát CRFs theo phƣơng pháp tiêu chuẩn kỳ vọng tổng quát tác giả chƣa thực đƣợc việc sử dụng mơ hình cần nhớ lớn, vƣợt khả đáp ứng máy tính - 38 - 32bit tác giả Nên nhóm thực nghiệm nhóm thực nghiệm sau tác giả chỉ báo cáo kết mơ hình CRFs đơn CRFs sử dụng Entropy Regularization CRF CRF.ER Precision Recall F-measure Precision Recall F-measure ORG 0.9989 0.9947 0.9968 0.9800 0.9363 0.9577 PER 0.9232 0.9912 0.9560 0.9232 0.9313 0.9272 LOC 0.9867 0.9867 0.9867 0.9918 1.0000 0.9959 MISC 0.8310 0.9833 0.9008 0.9815 0.7910 0.8760 OVERALL 0.9350 0.9890 0.9601 0.9518 0.9483 0.9500 Bảng Kết quả nhóm thực nghiệm 0.9 0.8 0.7 0.6 Precision 0.5 Recall 0.4 F-measure 0.3 0.2 0.1 CRFs CRFs.ER Hình Kết quả nhóm thực nghiệm Nhóm thực nghiệm 4: Tiến hành gán nhãn theo mơ hình sử dụng tập liệu huấn luyện 80% tập liệu kiểm tra CRF CRF.ER Precision Recall F-measure Precision Recall F-measure ORG 0.9989 0.9958 0.9973 0.9873 0.9873 0.9873 PER 0.9232 0.9453 0.9341 0.9912 0.9912 0.9912 LOC 0.9867 0.9850 0.9858 0.9986 1.0000 0.9993 MISC 0.8310 0.9833 0.9008 0.9828 0.8507 0.9120 OVERALL 0.9350 0.9773 0.9545 0.9927 0.9895 0.9911 Bảng Kết quả nhóm thực nghiệm - 39 - 0.9 0.8 0.7 0.6 Precision 0.5 Recall 0.4 F-measure 0.3 0.2 0.1 CRFs CRFs.ER Hình Kết quả nhóm thực nghiệm Nhóm thực nghiệm 5: Tiến hành gán nhãn theo mơ hình sử dụng tập liệu huấn luyện 100% tập liệu kiểm tra CRF CRF.ER Precision Recall F-measure Precision Recall F-measure ORG 0.9989 1.0000 0.9995 0.9777 0.9777 0.9777 PER 0.9931 0.9993 0.9962 0.9956 0.9927 0.9941 LOC 1.0000 1.0000 1.0000 0.9973 1.0000 0.9986 MISC 0.9155 0.9559 0.9353 1.0000 0.9254 0.9612 OVERALL 0.9769 0.9888 0.9827 0.9939 0.9911 0.9925 Bảng Kết quả nhóm thực nghiệm - 40 1.0000 0.9000 0.8000 0.7000 0.6000 Precision 0.5000 Recall 0.4000 F-measure 0.3000 0.2000 0.1000 0.0000 CRFs CRFs.ER Hình 10 Kết quả nhóm thực nghiệm 4.2.4 Đánh giá Qua nhóm thực nghiệm ta thấy có sớ nhận xét nhƣ sau: - Đối với mô hình CRFs đơn thuần, tăng kích thƣớc tập liệu huấn luyện thì độ xác cao hay hàm F-measure cao Điều phù hợp với mơ hình học máy có giám sát Thậm chí nhóm thực nghiệm thứ kết mơ hình CRFs đơn cịn nhỉnh so với kết mơ hình CRFs sử dụng Entropy Regularization - Kết mơ hình học máy bán giám sát (Mơ hình CRFs sử dụng Entropy Regularization Mô hình CRFs theo phƣơng pháp tiêu chuẩn kỳ vọng tổng quát) tốt so với kết mơ hình học máy có giám sát (Mơ hình CRFs đơn thuần), đặc biệt với tập liệu huẫn luyện nhỏ - Mặc dù Mơ hình học máy bán giám sát CRFs theo phƣơng pháp tiêu chuẩn kỳ vọng tổng quát mới chỉ thực đƣợc tập liệu huấn luyện nhỏ (tập liệu huấn luyện 10% 20%), nhƣng cho thấy mơ hình cho kết tốt mô hình học máy bán giám sát CRFs sử dụng Entropy Regularization Các kết thực nghiệm chƣa hồn thiện, kết bị ảnh hƣởng thân liệu thu thập số trƣờng hợp nhập nhằng tiếng Việt, nhƣng góp phần phản ánh ƣu điểm phƣơng pháp học máy bán giám sát so với phƣơng pháp học máy có giám sát nói chung, đồng thời cho thấy hiệu mô hình học máy bán giám sát theo tiêu chuẩn kỳ vọng tổng quát 4.3 Kết luận chƣơng Tiến hành thực nghiệm để phân tích đánh giá kết đạt đƣợc Ở đây, tác giả tiến hành năm nhóm thực nghiệm, nhóm thực nghiệm sử dụng tập - 41 - liệu huấn luyện đƣợc phân chia khác tiến hành gán nhãn liệu theo mơ hình: Mơ hình CRFs đơn thuần; Mơ hình bán giám sát CRFs sử dụng Entropy Regularization Mô hình học bán giám sát CRFs theo phƣơng pháp tiêu chuẩn kỳ vọng tổng quát tập liệu huấn luyện tập liệu kiểm tra Qua đánh giá hiệu mơ hình nói riêng hiệu phƣơng pháp học máy có giám sát bán giám sát nói chung - 42 - KẾT LUẬN Sau thời gian tìm hiểu nghiên cứu tốn trích lọc thơng tin phƣơng pháp học máy bán giám sát dựa mơ hình CRFs theo tiêu chuẩn kỳ vọng tổng qt, luận văn đạt đƣợc số kết sau - Giới thiệu mô hình trƣờng điều kiện ngẫu nhiên CRFs phƣơng pháp học máy bán giám sát CRFs mô hình dƣ̣a xác suấ t điều kiện , tích hợp đƣợc thuộc tính đa dạng chuỗi dƣ̃ liê ̣u quan sát nhằ m hỗ trợ cho trình phân lớp CRFs có nhiều ƣu điểm mơ hình xác suất khác đồng thời khắc phục đƣợc nhƣợc điểm mà mơ hình xác suất khác gặp phải tiêu biểu vấn đề “label bias” Phƣơng pháp học máy bán giám sát kết hợp phƣơng pháp truyền thớng – học máy có giám sát học máy khơng có giám sát, cách học sử dụng thơng tin chứa liệu chƣa gán nhãn tập liệ gán nhãn nhằm mở rộng tập liệu gán nhãn ban đầu Trong trình học nhƣ phƣơng pháp tận dụng đƣợc thông tin phong phú liệu chƣa gán nhãn, mà chỉ yêu cầu số lƣợng nhỏ liệu gán nhãn - Giới thiệu tiêu chuẩn kỳ vọng tổng qt áp dụng vào mơ hình CRFs Tiêu chuẩn kỳ vọng tổng quát điều kiện hàm mục tiêu huấn luyện cho phép gán giá trị cho kỳ vọng mơ hình Luận văn đề cập đến cách xây dựng công thức, cách cách phân chia tiêu chuẩn kỳ vọng tổng quát, từ áp dụng vào mơ hình CRFs thiết lập thơng sớ cho mơ hình theo tiêu chuẩn kỳ vọng tổng qt - Đề xuất mơ hình cho tốn trích chọn thơng tin thực thể tập văn pháp luật dựa phƣơng pháp học máy bán giám sát dựa mơ hình CRFs theo tiêu chuẩn kỳ vọng tổng quát Đồng thời sử dụng công cụ Mallet đƣợc viết Andrew McCallum đồng nghiệp cho tập liệu tiếng Việt theo mô hình đề xuất trích lọc loại thực thể: LOC, PER, ORG VÀ MISC Tuy nhiên, để có đƣợc tập huấn luyện tớt địi hỏi nhiều thời gian cơng sức Trong thời gian có hạn, tác giả mới chỉ xây dựng đƣợc tập liệu huấn luyện tập ràng buộc liệu vừa phải Với tập liệu này, đƣa vào tập liệu kiểm tra kết thu đƣợc hạn chế Mặc dù, mô hình thu đƣợc kết khả quan tập ngôn ngữ tiếng Anh, nhƣng lần mô hình đƣợc áp dụng cho ngôn ngữ tiếng Việt đặc điểm riêng biệt tiếng Việt nên luận văn tránh khỏi - 43 - thiếu sót hạn chế định Tôi mong nhận đƣợc ý kiến nhận xét góp ý để luận văn đƣợc hồn thiện Xử lý ngôn ngữ tự nhiên vấn đề phức tạp Hiện có nhiều cơng cụ xử lý ngôn ngữ tự nhiên, nhiên hầu hết chúng đƣợc áp dụng cho tiếng Anh tiếng Pháp Các đặc thù ngôn ngữ khác nên việc chuyển đổi ngôn ngữ gặp nhiều khó khăn đặc biệt đới với ngôn ngữ phong phú đa dạng nhƣ tiếng Việt Trong thời gian tới, tác giả tập trung xây dựng hoàn thiện liệu huấn luyện tập ràng buộc đặc trƣng liệu nhằm cải thiện độ xác mơ hình - 44 - TÀI LIỆU THAM KHẢO [AG05] [BC01] [BC09] [BLR04] [BM98] [BN04] [BNJ03] [BNS05] [BNS06] [BS06] [Car10] [CMD07] [CZ05] M R Amini and P Gallinari Semi-supervised learning with an imperfect supervisor Knowledge and Information Systems, 8(4):385–413, 2005 A Blum and S Chawla Learning from labeled and unlabeled data using graph mincuts In Proceedings of the 18th International Conference on Machine Learning, pages 19–26, Williamston, MA, 2001 Kedar Bellare, Andrew McCallum (2009) Generalized Expectation Criteria for Bootstrapping Extractors using Record-Text Alignment, The 2009 Conference on Empirical Methods in Natural Language Processing: 131– 140, 2009 A Blum, J Lafferty, M Rwebangira, and R Reddy Semi-supervised learning using ran-domized mincuts In Proceedings of the 21st International Conference on Machine Learning, pages 13–20, Ban, Canada, 2004 A Blum and T Mitchell Combining labeled and unlabeled data with cotraining In Proceedings of the 11th Annual Conference on Computational Learning Theory, pages 92–100, Madison, WI, 1998 M Belkin and P Niyogi Semi-supervised learning on Riemannian manifolds Machine Learning, 56(1-3):209–239, 2004 David M Blei, Andrew Y.Ng Michael I.Jordan Latent Dirichlet Allocation University of California, Berkeley, Berkeley, CA 94720 2003 M Belkin, P Niyogi, and V Sindhwani On manifold regularization In Proceedings of the 10th International Workshop on Artificial Intelligence and Statistics, pages 17–24, Savannah, Barbados, 2005 M Belkin, P Niyogi, and V Sindhwani Manifold regularization: A geometric framework for learning from labeled and unlabeled examples Journal of Machine Learning Research, 7:2399–2434, 2006 U Brefeld and T Scheffer Semi-supervised learning for structured output variables In Proceedings of the 23rd International Conference on Machine Learning, pages 145–152, Pittsburgh, PA, 2006 Andrew Carlson (2010) Coupled Semi-Supervised Learning, PhD Thesis (CMU-ML-10-104), Carnegie Mellon University, 2010 Andrew McCallum, Gideon Mann, Gregory Druck (2007) Generalized Expectation Criteria, Technical Report UM-CS-2007-60, University of Massachusetts Amherst, August, 2007 O Chapelle and A Zien Semi-supervised learning by low density separation In proceedings of the 10th International Workshop on Artificial Intelligence and Statistics, pages 57–64 Savannah Hotel, Barbados, 2005 - 45 - [DLR77] [DMC07] [DMC08] [DMC09] [Erk10] [FUS05] [GB04] [GY05] [GZ00] [HC71] [HM07] [Joa99] [JWL06] A P Dempster, N M Laird, and D B Rubin Maximum likelihood from incomplete data via the EM algorithm Journal of the Royal Statistical Society, Series B, 39(1):1–38, 1977 Gregory Druck, Gideon Mann, Andrew McCallum (2007) Leveraging Existing Resources using Generalized Expectation Criteria, NIPS WS, 2007 Gregory Druck, Gideon Mann and Andrew McCallum (2008) Learning from Labeled Features using Generalized Expectation Criteria, SIGIR 08, 2008 Gregory Druck, Gideon Mann, Andrew McCallum (2009) Semi-supervised Learning of Dependency Parsers using Generalized Expectation Criteria, The 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP: 360–368 Ayse Naz Erkan (2010) Semi-supervised Learning via Generalized Maximum Entropy, PhD Thesis, New York University, 2010 A Fujino, N Ueda, and K Saito A hybrid generative/discriminative approach to semi-supervised classifier design In Proceedings of the 20th National Conference on Artificial Intelligence, pages 764–769, Pittsburgh, PA, 2005 Y.Grandvaletand, Y.Bengio Semi-supervised learning by entropy minimization In Advances in Neural Information Processing Systems, 2004 Y Grandvalet and Y Bengio Semi-supervised learning by entropy minimization In L K Saul, Y.Weiss, and L Bottou, editors, Advances in Neural Information Processing Systems 17, pages 529–536 MIT Press, Cambridge, MA, 2005 S Goldman and Y Zhou Enhancing supervised learning with unlabeled data In Proceedings of the 17th International Conference on Machine Learning, pages 327–334, San Francisco, CA, 2000 J.Hammersley and P Clifford (1971) Markov fields on finite graphs and lattices Unpublished manuscript M Hein and M Maier Manifold denoising In B Schăolkopf, J C Platt, and T Ho man, editors, Advances in Neural Information Processing Systems 19, pages 561–568 MIT Press, Cambridge, MA, 2007 T Joachims Transductive inference for text classification using support vector machines In Proceedings of the 16th International Conference on Machine Learning, pages 200–209, Bled, Slovenia, 1999 Feng Jiao, Shaojun Wang, Chi-Hoon Lee, Russell Greiner, Dale Schuurmans (2006) Semi-supervised conditional random fields for improved sequence segmentation and labeling, The 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics: 209-216, 2006 - 46 - [KL51] [KQ10] [Kul59] [LCP01] [LJ05] [Mal02] [MC08] [MC10] [MGZ04] [MMI02] [MU97] [NCT00] [NG00] S Kullback and R A Leibler On Information and Sufficiency Annuals of Mathematical Statistics 22 (1): pages 79–86, 1951 Pavel P Kuksa, Yanjun Qi (2010) Semi-Supervised Bio-Named Entity Recognition with Word-Codebook Learning, SDM 2010: 25-36, 2010 S Kullback Information theory and statistics John Wiley and Sons, NY, 1959 John Laferty, Andrew McCallum, Fernando Pereira Conditional Random Fields: Probabilistic Models for segmenting and labeling Sequence Data In Proc of the Eighteenth International Conference on Machine Learning (ICML-2001), 2001 N D Lawrence and M I Jordan Semi-supervised learning via Gaussian processes In L K Saul, Y Weiss, and L Bottou, editors, Advances in Neural Information Processing Systems 17, pages 753–760 MIT Press, Cambridge, MA, 2005 Robert Malouf “A comparison of algorithms for maximum entropy parameter estimation.” In Proceedings of the Sixth Conference on Natural Language Learning (CoNLL-2002) Pages 49–55 Gideon S Mann, Andrew McCallum (2008) Generalized Expectation Criteria for Semi-Supervised Learning of Conditional Random Fields, ACL08 (HLT): 870–878, 2008 Gideon S Mann, Andrew McCallum (2010) Generalized Expectation Criteria for Semi-Supervised Learning with Weakly Labeled Data, Journal of Machine Learning Research, 11 (2010): 955-984 Scott Miller, Jethran Guinness, Alex Zamanian (2004) Name Tagging with Word Clusters and Discriminative Training, ACL 04, 2004 Masaki Murata, Qing Ma, Hitoshi Isahara Comparison of Three MachineLearning Methods for Thai Part-of-Speech Tagging In Proc ACM Transactions on Asian Language Information Processing, Vol 1, No 2, June 2002, Pages 145-158 D J Miller and H S Uyar A mixture of experts classifier with learning based on both labelled and unlabelled data In M Mozer, M I Jordan, and T Petsche, editors, Advances in Neural Information Processing Systems 9, pages 571–577 MIT Press, Cambridge, MA, 1997 K.Nigam, A K McCallum, S Thrun, and T Mitchell Text classification from labeled and unlabeled documents using EM Machine Learning, 39(23):103–134, 2000 K Nigam and R Ghani Analyzing the effectiveness and applicability of cotraining In Proceedings of the 9th ACM International Conference on Information and Knowledge Management, pages 86–93, Washington, DC, 2000 - 47 - [QKC09] [SL94] [Spr07] [Wal02] [Wal04] [WHW09] [ZBL04] [ZC06] [ZGL03] [Zho08] [ZL05] [ZL07] Yanjun Qi, Pavel Kuksa, Ronan Collobert, Kunihiko Sadamasa, Koray Kavukcuoglu, and Jason Weston (2009) Semi-Supervised Sequence Labeling with Self-Learned Features, The 2009 Ninth IEEE International Conference on Data Mining: 428-437, 2009 B Shahshahani and D Landgrebe The effect of unlabeled samples in reducing the small sample size problem and mitigating the hughes phenomenon IEEE Transactions on Geo-science and Remote Sensing, 32(5):1087–1095, 1994 Richard Sproat Introduction to Speech Technology (Language Models, HMMs, Forward Algorithm, Viterbi Algorithm…) Slide Department of Electrical and Computer Engineering, University of Illinois at UrbanaChampaign ECE 398RS Courses, Fall 2007 Hanna M Wallach Efficient Training of Conditional Random Fields Technical Report, University of Edinburgh, 2002 Hanna M.Wallach Conditional Random Fields: An introduction Technical Report MS-CIS-04-21, Department of Computer and Information Science, University of Pennsylvania February 24, 2004 Yang Wang, Gholamreza Haffari, Shaojun Wang, Greg Mori (2009) A Rate Distortion Approach for Semi-Supervised Conditional Random Fields, NIPS2009, 2009 D Zhou, O Bousquet, T N Lal, J Weston, and B Schăolkopf Learning with local and global consistency In S Thrun, L Saul, and B Schăolkopf, editors, Advances in Neural Information Processing Systems 16 MIT Press, Cambridge, MA, 2004 Z.-H Zhou, K.-J Chen, and H.-B Dai Enhancing relevance feedback in image retrieval using unlabeled data ACM Transactions on Information Systems, 24(2):219–244, 2006 X Zhu, Z Ghahramani, and J Lafferty Semi-supervised learning using Gaussian fields and harmonic functions In Proceedings of the 20th International Conference on Machine Learning, pages 912–919, Washington, DC, 2003 Z H Zhou Semi-supervised learning by disagreement In Proceedings of the 4th IEEE International Conference on Granular Computing, Hangzhou, China, 2008 Z H Zhou and M Li Tri-training: Exploiting unlabeled data using three classifiers IEEE Transactions on Knowledge and Data Engineering, 17(11):1529–1541, 2005 Z H Zhou and M Li Semi-supervised regression with co-training style algorithms IEEE Transactions on Knowledge and Data Engineering, 19(11):1479–1493, 2007 - 48 - [ZL07b] [ZL10] [ZZY07] X Zhang and W S Lee Hyperparameter learning for graph based semisupervised learning algorithms In B Schăolkopf, J Platt, and T Hofmann, editors, Advances in Neural Information Processing Systems 19, pages 1585–1592 MIT Press, Cambridge, MA, 2007 Zhi-Hua Zhou and Ming Li Semi-supervised Learning by Disagreement National Key Laboratory for Novel Software Technology Nanjing University, Nanjing 210093, China 2010 Z.-H Zhou, D.-C Zhan, and Q Yang Semi-supervised learning with very few labeled training examples In Proceedings of the 22nd AAAI Conference on Artificial Intelligence, pages 675–680, Vancouver, Canada, 2007 ... mơ hình theo tiêu chuẩn kỳ vọng tổng qt - Đề xuất mơ hình cho tốn trích chọn thông tin thực thể tập văn pháp luật dựa phƣơng pháp học máy bán giám sát dựa mơ hình CRFs theo tiêu chuẩn kỳ vọng tổng. ..ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ NGÂN TRÍCH CHỌN THƠNG TIN TRÊN TẬP VĂN BẢN PHÁP LUẬT DÙNG KỸ THUẬT HỌC MÁY BÁN GIÁM SÁT DỰA TRÊN MƠ HÌNH CRFs THEO TIÊU CHUẨN KỲ VỌNG TỔNG... giải tốn dựa mơ hình CRFs theo tiêu chuẩn kỳ vọng tổng quát  Chƣơng 4: Trình bày thực nghiệm tập liệu sử dụng sớ mơ hình học máy có giám sát CRFs, mơ hình học máy bán giám sát CRFs theo chuẩn

Ngày đăng: 05/12/2020, 11:46

Từ khóa liên quan

Mục lục

  • MỤC LỤC

  • DANH MỤC HÌNH VẼ

  • DANH MỤC BẢNG BIỂU

  • KÝ TỰ VIẾT TẮT

  • LỜI MỞ ĐẦU

  • CHƯƠNG 1 HỌC BÁN GIÁM SÁT THEO MÔ HÌNH TRƯỜNG NGẪU NHIÊN CÓ ĐIỀU KIỆN

  • 1.1. Phương pháp học máy Trường ngẫu nhiên có điều kiện

  • 1.1.1. Khái niệm trường ngẫu nhiên có điều kiện

  • 1.1.2. Học máy CRFs

  • 1.2. Học máy bán giám sát CRFs

  • 1.2.1. Học máy bán giám sát

  • 1.2.2. Sơ bộ về mô hình học máy bán giám sát CRFs

  • 1.3. Kết luận chƣơng 1

  • 2.1. Tiêu chuẩn kỳ vọng tổng quát

  • 2.1.1. Gíới thiệu sơ bộ

  • 2.1.2. Tiêu chuẩn kỳ vọng tổng quát

  • 2.3. Kết luận chương 2

  • 3.1. Trích chọn thông tin từ văn bản pháp luật tiếng Việt

  • 3.1.1. Một số đặc trưng về miền dữ liệu văn bản pháp luật tiếng Việt

  • 3.1.2. Bài toán trích chọn thông tin văn bản pháp luật tiếng Việt

Tài liệu cùng người dùng

Tài liệu liên quan