1. Trang chủ
  2. » Thể loại khác

235

121 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 121
Dung lượng 3,12 MB

Nội dung

B GIÁO D O Ộ ỤC VÀ ĐÀO TẠ TRƯỜNG ĐẠ Ọ ỘI H C BÁCH KHOA HÀ N I ***** SAM CHANRATHANY TRÍCH RÚT TH C TH CÓ TÊN VÀ QUAN H Ự Ể Ệ THỰ Ể TRONG VĂN BẢ Ế ỆC TH N TI NG VI T LUẬ ẾN SĨ ỆN ÁN TI CÔNG NGH THÔNG T[.]

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI -***** SAM CHANRATHANY TRÍCH RÚT THỰC THỂ CÓ TÊN VÀ QUAN HỆ THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2012 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - SAM CHANRATHANY TRÍCH RÚT THỰC THỂ CÓ TÊN VÀ QUAN HỆ THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT Chuyên ngành: Hệ thống Thông tin Mã số : 62.48.05.01 LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: GS.TS Nguyễn Thanh Thủy PGS.TS Lê Thanh Hương HÀ NỘI - 2012 Luận án hoàn thành trường Đại học Bách khoa Hà Nội Để hoàn thành luận án này, tác giả nhận bảo tận tình, yêu cầu nghiêm khắc GS TS Nguyễn Thanh Thủy, PGS.TS Lê Thanh Hương Thầy, Cô truyền đạt nhiều kiến thức quí báu kinh nghiệm nghiên cứu khoa học suốt thời gian tác giả làm nghiên cứu sinh Lời đầu tiên, tác giả xin bày tỏ lịng kính trọng biết ơn sâu sắc tới Thầy Cô Tác giả xin chân thành gửi lời biết ơn đến: Ban lãnh đạo Viện Công nghệ thông tin Truyền thông, Bộ môn Hệ thống Thông tin, Viện Đào tạo Sau đại học, Trung tâm Tính tốn Hiệu cao, thuộc trường Đại học Bách khoa Hà Nội tạo điều kiện thuận lợi q trình học tập, nghiên cứu hồn thành luận án Tác giả cảm ơn Thầy giáo, Cô giáo Bộ môn Hệ thống Thông tin-Viện Công nghệ Thông tin Truyền thông, trường Đại học Bách khoa Hà Nội động viên trao đổi kinh nghiệm để tác giả hồn thiện luận án Tác giả cảm ơn TS Nguyễn Hữu Đức cán anh chị em Trung tâm Tính tốn Hiệu cao, tạo điều kiện, nhiệt tình giúp đỡ trao đổi học hỏi trình làm luận án Sự quan tâm, mong mỏi thành viên gia đình động để tác giả nỗ lực học tập, nghiên cứu Luận án quà tinh thần, xin đáp lại niềm quan tâm, mong mỏi Cuối cùng, tác giả xin bày tỏ lòng biết ơn tới người thân bạn bè ưu ái, giúp đỡ, động viên, khích lệ để tác giả hồn thành luận án L Tôi xin cam đoan công trình nghiên cứu riêng tơi Các kết viết chung với tác giả khác đồng ý đồng tác giả trước đưa vào luận án Các kết luận án trung thực chưa công bố cơng trình khác Tác giả luận án Sam Chanrathany i ii iii v xi xii .1 1.1 Động nghiên cứu luận án 1.2 Mục tiêu phạm vi nghiên cứu luận án 1.2.1 Mục tiêu nghiên cứu 1.2.2 Phạm vi nghiên cứu 1.3 Đóng góp luận án 1.4 Cấu trúc luận án 1.5 Các thuật ngữ sử dụng luận án QUAN 10 2.1 Bài tốn trích rút thơng tin 10 2.2 Bài tốn trích rút thực thể 12 2.2.1 Các đặc trưng sử dụng tốn NER 13 2.2.2 Tình hình nghiên cứu ngồi nước tốn NER sử dụng học máy 14 2.2.3 Tình hình nghiên cứu nước toán NER 17 2.3 Bài tốn trích rút mối quan hệ thực thể (RE) 18 2.3.1 Các đặc trưng sử dụng tốn RE 18 2.3.2 Tình hình nghiên cứu ngồi nước tốn RE 19 2.3.3 Tình hình nghiên cứu nước toán RE 23 2.4 Một số phương pháp học bán giám sát khác 25 2.5 Các phương pháp đánh giá kết trích rút 26 2.5.1 Cách đánh giá dựa độ trùng khớp 27 2.5.2 Cách đánh giá MUC 28 2.6 Kết luận chương 28 29 3.1 Mô hình trường ngẫu nhiên có điều kiện 29 3.1.1 Khái niệm mơ hình trường ngẫu nhiên có điều kiện CRF 29 3.1.2 Huấn luyện CRF 31 3.1.3 Gán nhãn cho liệu dạng chuỗi 33 3.2 Mơ hình máy vectơ hỗ trợ 33 3.3 Mơ hình Dirichlet ẩn 37 3.4 Các phương pháp học bán giám sát 40 3.4.1 Phương pháp lan truyền nhãn 40 3.4.2 Phương pháp bootstrapping 42 3.5 Kết luận chương 43 45 4.1 Một số đặc điểm tiếng Việt ảnh hưởng đến việc trích rút thực thể 45 4.2 Trích rút thực thể sử dụng trường ngẫu nhiên có điều kiện 50 4.2.1 Mơ hình học bán giám sát dựa kết hợp luật đồng tham chiếu tên với CRF 50 4.2.2 Mơ hình học bán giám sát sử dụng CRF theo dạng Bagging 56 4.3 Trích rút thực thể sử dụng phương pháp lan truyền nhãn 57 4.3.1 Phương pháp đo mức độ tương đồng từ 58 4.3.2 Điểm yếu giải thuật lan truyền nhãn cách cải tiến 61 4.4 Thử nghiệm đánh giá 61 4.4.1 Tập liệu phương pháp thử nghiệm 61 4.4.2 Kết thực nghiệm 62 4.5 Kết luận chương 65 67 G5 5.1 Tính chất quan hệ thực thể văn tiếng Việt 67 5.2 Trích rút mối quan hệ dựa máy vectơ hỗ trợ SVM 69 5.2.1 Mơ hình học có giám sát dựa phương pháp ngơn ngữ mức nơng 70 5.2.2 Mơ hình học bán giám sát dựa phương pháp ngôn ngữ mức nông theo kiểu Bagging Bootstrapping 73 5.3 Trích rút mối quan hệ dựa phương pháp lan truyền nhãn 74 5.3.1 Đo độ tương đồng hai câu dựa phương pháp so trùng thuộc tính từ 75 5.3.2 Đo độ tương đồng hai câu dựa phương pháp LDA 79 5.4 Thử nghiệm đánh giá 80 5.4.1 Tập liệu phương pháp thử nghiệm 80 5.4.2 Kết thực nghiệm 82 5.5 Kết luận chương 84 86 6.1 Các kết đạt được…………………………………………………… 86 6.1.1 Kết thuật giải……………………………………………………….86 6.1.2 Kết thử nghiệm……………………………………………………… 87 6.2 Hướng phát triển…………………………………………………………… 88 90 .99 .100 ACE Automatic Context Extraction BIO Begin Inside Outside CRFs Conditional Random Fields CONLL Computational Natural Language Learning EM Expectation Maximization GLK Global Context Kernel HMM Hidden Markov Model IE Information Extraction JSRE Java Simple Relation Extraction MEMM Maximum Entropy Markov Model NP Noun Phrase LCK Local Context Kernel LDA Latent Direchlet Alocattion MUC Message Understanding Conference NER Named Entity Regconition RE Relaiton Extraction SLK Shallow Linguistic Kernel SVM Support Vector Machine Bảng 2.1 Định dạng từ 13 Bảng 2.2 Đặc trưng từ điển 14 Bảng 2.3 Bảng so sánh nhãn hệ thống so với nhãn gán tay, kèm theo mô tả lỗi tương ứng 27 Bảng 4.1 Định dạng tên thực thể 45 Bảng 4.2 Nhóm luật nhận dạng thực thể (Nhóm luật ) 47 Bảng 4.3 Kết thực nghiệm hệ thống NER sử dụng phương pháp học bán giám sát 63 Bảng 4.4 So sánh kết lần lặp thứ phương pháp nói 63 Bảng 4.5 So sánh kết trích rút thực thể CRF có giám sát với lan truyền nhãn 64 Bảng 5.1 So sánh hệ thống RE có giám sát hàm nhân ngữ cảnh tổng hợp .82 Bảng 5.2 So sánh kết hệ thống bán giám sát với hệ thống có giám sát .82 Bảng 5.3 So sánh kết chưa chuẩn hoá sau chuẩn hoá ma trận 83 Bảng 5.4 So sánh kết phương pháp so trùng thuộc tính từ với LDA 83 Bảng 5.5 So sánh độ đo F ba phương pháp lan truyền nhãn sử dụng so trùng thuộc tính từ, SVM, SVM kết hợp Bootstrapping………………………………………….84 96 Conference on Artificial Intelligence (AI2007); LNCS (LNAI), vol.4830, ISBN 9783-540-76926-2, Springer-Verlag, pp.619-624 [71] Nguyen, T.H & Cao, H.T (2008), Named Entity Disambiguation: A Hybrid Statistical and Rule-Based Incremental Approach, in: John Domingue and Chutiporn Anutariya Eds, The Semantic Web, 3rd Asian Semantic Web Conference, ASWC 2008 LNCS, Vol 5367, pp 420-433 [72] Nguyen, T.H & Cao, H.T (2010), Exploring Wikipedia and Text Features for Named Entity Disambiguation, In Proceedings of the 2nd Asian Conference on Intelligent Information and Database Systems (ACIIDS 2010); Lecture Notes in Computer Science (LNCS), Springer-Verlag Vol 5991, pp 11-20 [73] Nguyen, T.H and Cao, H.T (2010) Enriching Ontologies for Named Entity Disambiguation In Proc of The Fourth International Conference on Advances in Semantic Processing (SEMAPRO 2010), IARIA, pp 37-42 (Best Paper Award) [74] Nguyen, T.H &Cao, H.T (2007) VN-KIM IE: Automatic Extraction of Vietnamese Named-Entities on the Web Journal of new Generation Computing, 25(3):277-292 [75] NIST Automatic Content Extraction (ACE) program 1998 present [76] Nguyen, C.T., Tran, T.O., Phan, X.H., Ha, Q.T (2005) Named Entity Recognition in Vietnamese Free-Text and Web Documents Using Conditional Random Fields The 8th Conference on Some selection problems of Information Technology and Telecommunication, Hai Phong, Vietnam [77] Nguyen, Q.C., Phan, T.T., and Cao, H.T (2006) Vietnamese Proper Noun Recognition In Proceedings of the 4th International Conference on Research, Innovation and Vision for the Future, Ho Chi Minh City, Vietnam, pp.145-152 [78] Nguyen, T.H., and Cao, H.T (2008) Named Entity Disambiguation on an Ontology Enriched by Wikipedia In Proceedings of RIVF, pp 247-254 [79] Niu, C., Li, W., Ding, J., Rohini, K.S (2003) A Bootstrapping Approach to Named Entity Classification Using Successive Learner In Proceedings of the 41st Annual Meeting of the ACL, pages 335-342 [80] Accurate Informatio Research Papers Using Conditional Random Fields 336 HLT-NAACL, pp 329 97 [81] Razvan, C.B and Raymond J M (2005a) A Shortest Path Dependency Kernel for Relation Extraction In Proceedings of HLT/EMNLP [82] Rabiner L R 1989 A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition In Proc the IEEE, 77(2), pages 257-286 [83] Suzuki, J., Isozaki, H.Semi-Supervised Sequential Labeling and Segmentation Using Giga-word Scale Unlabeled Data Proceeding of ACL-08:HLT [84] Sogaard, A Semi-Supervised Condensed Nearest Neighbor for Part-of-Speech Tagging ACL (Short Papers)2011:48-53 [85] Stitson, M.O., Weston, J.A.E., Gammerman, A., Vovk, V., Vapnik.V (1996) Theory of Support Vector Machines, Technical Report CSD-TR-96-17 [86] Sarawagi, S (2008) Information extraction FnT Databases, 1(3):261-277 [87] Shan, H., and Daniel, G (2006) Self-training and Co-training for Semantic Role Labeling: Primary Report, Technical Report, 2006 [88] Tran, M.V., Nguyen, V.V., Pham, T.U., Tran, T.O., Ha, Q.T (2009) An Experimental Study of Vietnamese Question Answering System In Proceedings of the International Conference on Asian Language Processing, pp 152 155 [89] Tran, Q.T, Pham, T.X.T., Ngo, Q.H., Dinh, D and COLLIER, N (2007) Named Entity Recognition in Vietnamese Using Classifier Voting In ACM Transactions on Asian Language Information Processing (TALIP) [90] Tjong, K.S.E F., and De Meulder, F (2003) Introduction to the CoNLL-2003 Shared Task: Language-Independent Named Entity Recognition Proc Conference on Natural Language Learning [91] Tjong, K.S E.F (2002): Introduction to the CoNLL-2002 shared task: LanguageIndependent Named Entity Recognition In Proc Of Sixth Conference on Natural Language Learning (CoNLL-2002), pp.155-158 [92] Use of Support Vector Named Entity Recognition Proceedings of the 6th Conference on Natural Language Learning (CoNLL-2002), pp 119 125 [93] Vapnik, V.N (1998) Staticstical Learning Theory, the United States of America [94] Wallach, H (2002) Efficient Training of Conditional Random Fields Master Thesis, University of Edinburgh 98 [95] A Re-examination of Dependency Path Kernels for Relat Extraction [96] Proceedings of IJCNLP2008 Xiaojin, Z and Zoubin, G 2002 Learning from Labeled and Unlabeled Data with Label Propagation CMU CALD tech report CMU-CALD-02-107 [97] Yarowsky, D (1995) Unsupervised Word Sense Disambiguation rivaling Supervised Methods In Meeting of the Association for Computational Linguistics, pages 189 196 [98] Zhao, S and Grishman, R (2005) Extracting Relations with Integrated Information Using Kernel Methods In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL 2005), Ann Arbor, Michigan, June [99] Zhu, X Semi-Supervised Learning Literature Survey (2008) Technical Report 1530, University of Wisconsin Madison, 2008 [100] Zhang, Z (2004) Weakly Supervised Relation Classification for Information Extraction [101] Relations Between Entities with Both Flat and Structured Features Proceedings of the 21st International Conference on Computational Linguistics and 44 th Annual Meeting of the Association for Computational Linguistics, pp 825 832, Sydney, Australia: Association for Computational Linguistics, July 2006 [102] Zelenko, D., Aone, A., and Richardella, A (2003) Kernel Methods for Relation Extraction Journal of Machine Learning Research, 3:1083 1106 [103] Web site: http://www.cs.nyu.edu/cs/faculty/grishman/muc6.html Information about the sixth Message Understanding Conference [104] Website:http://www.itl.nist.gov/iaui/894.02/related_projects/muc/proceedings/muc_ 7_toc.html Information about the seventh Message Understanding Conference [105] http://vlsp.vietlp.org:8080/demo/?page=resources [106] http://hlt.fbk.eu/en/technology/jSRE 99 CÁC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN Rathany Chan Sam, Huong Thanh Le, Thuy Thanh Nguyen, The Minh Trinh 2010 Relation Extraction in Vietnamese Text using Conditional Random Fields.The Sixth Asia Information Retrieval Societies Conference (AIRS), Dec.1-3, 2010, Taipei, Taiwan Huong Thanh Le, Rathany Chan Sam and Phuc Trong Nguyen 2010 Extracting Phrases in Vietnamese Document for Summary Generation The International Conference on Asian Language Processing (IALP), Dec 28-30, 2010, Harbin, China Rathany Chan Sam, Huong Thanh Le, Thuy Thanh Nguyen, Thien Huu Nguyen 2011 Combining Proper Name-Coreference with Conditional Random Fields for Semi-supervised Named Entity Recognition in Vietnamese Text The 15th Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD), 2011, Shenchen, China, pp 512-525 Rathany Chan Sam, Huong Thanh Le, Thuy Thanh Nguyen, Dung Anh Le and Ngoc Minh Thi Nguyen 2011 Semi-Supervised Learning for Relation Extraction in Vietnamese Text In SoICT'2011, 2011, Hanoi, Vietnam Sam Chanrathany 100 PHỤ LỤC Phụ lục 1: TẬP DỮ LIỆU Cách xây dựng , ), ) , Ví dụ 1: - Vì câu Ví dụ 2: C (per) Trong Tập liệu huấn luyện toán NER Văn 1: - 101 - [trên] [Int Zidan án - án [Cambridge] [Anh] [khuyên] [ [ơng] [cị 102 [khơng gian] [vơ t - [ ] [là] [ 103 án [câu Văn 2: Nam] - , [Pháp] , [Canada] , [Ba Lan] ,

Ngày đăng: 12/04/2022, 23:42

HÌNH ẢNH LIÊN QUAN

Hình 1.1. - 235
Hình 1.1. (Trang 17)
Hình 2.1. Các bài toán trích rút thông tin - 235
Hình 2.1. Các bài toán trích rút thông tin (Trang 22)
Bảng 2.1. - 235
Bảng 2.1. (Trang 24)
Bảng 2.2. - 235
Bảng 2.2. (Trang 24)
2.2.2 Tình hình nghiên cứu ngoài nước về bài toán NER sử dụng học máy - 235
2.2.2 Tình hình nghiên cứu ngoài nước về bài toán NER sử dụng học máy (Trang 25)
Bảng 2.3: - 235
Bảng 2.3 (Trang 38)
Hình 3. 3: Mô hình sinh LDA - 235
Hình 3. 3: Mô hình sinh LDA (Trang 49)
Hình 43. : Bootstrapping Phương pháp Bagging Bootstrapping  - 235
Hình 43. Bootstrapping Phương pháp Bagging Bootstrapping (Trang 54)
Bảng 4.1 - 235
Bảng 4.1 (Trang 56)
Bảng 4.2 Nhóm 2) - 235
Bảng 4.2 Nhóm 2) (Trang 58)
Hình 4.1 - 235
Hình 4.1 (Trang 71)
Bảng 4.3 - 235
Bảng 4.3 (Trang 74)
Bảng 4.5 CRF có giám sát - 235
Bảng 4.5 CRF có giám sát (Trang 75)
Hình 5.1 - 235
Hình 5.1 (Trang 82)
Bảng 5.1 hàm h - 235
Bảng 5.1 hàm h (Trang 93)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w