Ứng dụng Adaboost cho bài toán gán nhãn ngữ nghĩa nông

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN QUANG HIỆP ỨNG DỤNG ADABOOST CHO BÀI TOÁN GÁN NHÃN NGỮ NGHĨA NÔNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI – 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN QUANG HIỆP ỨNG DỤNG ADABOOST CHO BÀI TOÁN GÁN NHÃN NGỮ NGHĨA NÔNG Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC : TS NGUYỄN VĂN VINH HÀ NỘI – 2015 LỜI CAM ĐOAN Tôi xin cam đoan: Những nội dung luận văn thực hướng dẫn TS Nguyễn Văn Vinh – Bộ môn Khoa học máy tính – Khoa Công nghệ thông tin – Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội Mọi tham khảo dùng luận văn trích dẫn rõ ràng tên tác giả, thời gian, địa điểm công bố Mọi chép không hợp lệ, vi phạm quy chế đào tạo, xin chịu hoàn toàn trách nhiệm trước Nhà trường Hà Nội, Ngày 01 tháng 09 năm 2015 Học viên Nguyễn Quang Hiệp LỜI CẢM ƠN Trước hết, xin bày tỏ lòng biết ơn sâu sắc chân thành đến giáo viên hướng dẫn TS Nguyễn Văn Vinh, người tận tình bảo định hướng nghiên cứu, đề xuất ý tưởng giúp đỡ mặt phương pháp luận việc kiểm tra cuối luận văn Tôi xin chân thành cảm ơn thày cô khoa Công nghệ Thông tin, trường Viện Đại học Mở Hà Nội, khoa Công nghệ Thông tin – Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội giúp đỡ nhiều trình học tập, nghiên cứu tạo điều kiện giúp công tác để có thời gian thực việc học tập hoàn thành luận văn Cuối cùng, xin bày tỏ lòng kính trọng biết ơn sâu sắc tới bố mẹ người động viên mặt tinh thần hỗ trợ nhiều mặt Hà Nội, Ngày 01 tháng 09 năm 2015 Học viên Nguyễn Quang Hiệp Mục lục CHƯƠNG 1.1 Giới thiệu 1.2 Các phương pháp tiếp cận toán gán nhãn vai trò ngữ nghĩa 10 1.2.1 Tiếp cận theo luật 10 1.2.2 Tiếp cận theo phương pháp thống kê 12 1.3 Tổng quan hệ thống gán nhãn vai trò ngữ nghĩa 14 1.3.1 Định nghĩa gán nhãn vai trò ngữ nghĩa nông 15 1.3.2 Kho ngữ liệu PropBank 15 1.3.3 Kiến trúc tổng quát hệ thống gán nhãn vai trò ngữ nghĩa 17 1.4 Ứng dụng gán nhãn vai trò ngữ nghĩa xử lý ngôn ngữ tự nhiên 20 1.4.1 Trích rút thông tin 20 1.4.2 Hệ thống hỏi đáp 21 1.4.3 Tóm tắt văn 21 1.5 Kết luận chương 23 Chương 24 2.1 Giới thiệu 24 2.1.1 Tổng quan toán phân loại 24 2.1.2 Bài toán phân loại 25 2.1.3 Một số phương pháp phân loại tiếng 22 2.2 Phương pháp mô hình AdaBoost 26 2.2.1 Phương pháp Boosting 26 2.2.2 Phương pháp Adaboost 26 2.3 Kết luận chương 31 CHƯƠNG 33 3.1 Mô tả toán gán nhãn vai trò ngữ nghĩa nông 33 3.2 Thu thập chuẩn bị liệu 34 3.3 Công cụ Swirl 41 3.3.1 Giới thiệu 41 3.3.2 Huấn luyện Kiểm tra 42 3.4 Kết thảo luận 47 3.5 Kết luận chương 51 KẾT LUẬN 52 Phụ lục 53 5.1 Danh sách nhãn sử dụng toán gán ngữ nghĩa tiếng Việt (dựa theo mô tả VietTreebank): 53 5.2 Nhãn từ loại: 53 5.3 Nhãn cú pháp 53 Tài liệu tham khảo 56 DANH MỤC CHỮ VIẾT TẮT Viết tắt CoNLL DS DUC Tiếng Anh Conference on Natural Language Learning Document Summarization Document Understanding Conference Tiếng Việt Hội nghị học ngôn ngữ tự nhiên Tóm tắt văn Hội nghị hiểu văn Danh sách câu hỏi thường FAQ Frequent Asked Question list HMMs Hidden Markov Models Mô hình Markov ẩn IE Information Extraction Trích rút thông tin IIS Improved Iterative Scaling Phương pháp lặp cải tiến L-BFGS Limited memory- Broyden– Fletcher–Goldfarb–Shanno gặp Phương pháp L-BFGS Maximum entropy Markov Maximum entropy Markov Models Models NER Named- Entity Recognition Nhận dạng thực thể NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên PAS Predicate-Argument Structure Cấu trúc tham tố- vị từ PoS tagging Part of Speech tagging Gán nhãn từ loại QA Question Answering Hệ thống hỏi đáp SRL Semantic Role Labelling Gán nhãn vai trò ngữ nghĩa MEMMs DANH MỤC HÌNH VẼ Hình 1.1 Kiến trúc tổng quát hệ thống SRL 17 Hình 2.1 Lược đồ AdaBoost 27 Hình 2.2 Thuật toán học AdaBoost 28 Hình 3.1 Tệp chứa từ huấn luyện 34 Hình 3.2 Tệp chứa cú pháp huấn luyện 35 Hình 3.3 Tệp chứa nhãn mệnh đề 36 Hình 3.4 Tệp chứa nhãn danh từ riêng 36 Hình 3.5 Mẫu liệu ban đầu 40 Hình 3.6 Mô hình hoạt động Swirl 42 Hình 3.7 Quá trình huấn luyện 44 Hình 3.8 Các file model sinh sau huấn luyện 45 Hình 3.9 Quá trình kiểm tra 46 Hình 3.10 Kết đánh giá nhãn A0, A1, A2 48 MỞ ĐẦU Xử lý ngôn ngữ tự nhiên (Natural Language Processing) làm cách để máy tính hiểu thao tác ngôn ngữ Trong đó, gán nhãn vai trò ngữ nghĩa toán quan tâm thu hút nhiều công trình nghiên cứu Nhiệm vụ toán gán nhãn vai trò ngữ nghĩa xác định cấu trúc đối- vị tố (hoặc tham tố- vị từ) (predicate- argument structures) gán nhãn quan hệ vị tố argument xuất câu Rõ ràng, để gán nhãn ngữ nghĩa cho từ, ta cần phải phân tích ngữ cảnh Vấn đề đặt lập trình cho máy tính hiểu ngữ cảnh Đây toán bản, đầy thử thách xử lý ngôn ngữ tự nhiên Bài toán có mặt nhiều ứng dụng bật liên quan đến ngôn ngữ tự nhiên nhắc đến như: Trích rút thông tin (IE): Yakushiji cộng (2005) [1]; Tóm tắt văn (DS): Melli cộng (2005) [1] Hướng tiếp cận nhằm xác định nhập nhằng gán nhãn ngữ nghĩa xây dựng dựa sở hệ luật Tuy nhiên, hệ thống gán nhãn ngữ nghĩa xây dựng dựa hệ luật tỏ hiệu mở rộng quy mô bao quát hết tượng ngôn ngữ Cải tiến từ hạn chế phương pháp tiếp cận dựa hệ luật, nghiên cứu tiếp sau dần chuyển sang phương pháp tiếp cận hướng ngữ liệu Sự chuyển hướng xuất phát từ việc đời kho ngữ liệu lớn giới với gia tăng sức mạnh (bộ nhớ, tốc độ, kỹ thuật) máy tính năm gần Điểm đặc biệt cách tiếp cận dựa sở lý thuyết ngôn ngữ học để học quy luật ngôn ngữ tự nhiên từ ngữ liệu Trong đó, mô hình học AdaBoost đánh giá cao thực phân đoạn gán nhãn chuỗi liệu, đó, chuỗi nhãn quan sát hình thành chuỗi tuyến tính Vì vậy, tiến hành nghiên cứu đề tài “Ứng dụng AdaBoost cho toán gán nhãn ngữ nghĩa nông” Dữ liệu dùng cho toán lấy từ kho ngữ liệu PropBank, bổ sung cho Penn Treebank với thích ngữ nghĩa, dựa liệu chuẩn CoNLL 2004 Bố cục luận văn gồm chương: Chương 1: Tổng quan gán nhãn vai trò ngữ nghĩa Nội dung chương giới thiệu toán gán nhãn vai trò ngữ nghĩa theo hướng tiếp cận khác nhau, đưa mô hình tổng quát hệ thống gán nhãn vai trò ngữ nghĩa ứng dụng hệ thống lĩnh vực xử lý ngôn ngữ tự nhiên Chương 2: Phương pháp học máy AdaBoost Nội dung chương giới thiệu phương pháp học máy AdaBoost, trình bày vấn đề mô hình AdaBoost ứng dụng gán nhãn liệu dạng chuỗi Chương 3: Ứng dụng phương pháp AdaBoost cho toán gán nhãn vai trò ngữ nghĩa Nội dung chương mô tả toán gán nhãn vai trò ngữ nghĩa theo hướng áp dụng mô hình học máy AdaBoost công cụ Swirl gán nhãn chuỗi liệu Đồng thời, chương trình bày kết thực nghiệm thu hướng nghiên cứu đề tài R-AM-MNR 25.00 33.33 28.57 R-AM-TMP 64.62 80.77 71.79 Trung bình 80.15 75.36 77.68 3.4.2 Với ngôn ngữ tiếng Việt: Trong thực nghiệm với ngôn ngữ tiếng Việt, sử dụng liệu huấn luyện khoảng 500 câu đầu vào – tạo từ kho liệu Viettreebank, huấn luyện gán nhãn với loại nhãn: A0, A1, A2, TMP, LOC Kết thử nghiệm sau: Precision đạt 7.91%, Recall đạt 15.71% F-score đạt 9.02% với test chứa 89 câu, 143 mệnh đề: Precision Recall F1-Score A0 18.06 22.41 20.00 A1 11.81 13.93 12.78 A2 - - - LOC 1.71 21.74 3.17 TMP 0.06 4.76 0.11 Trung bình 7.91 15.71 9.02 Công việc nâng cao độ xác tốc độ huấn luyện kiểm tra kỹ thuật trích rút đặc trưng phức tạp mục tiêu hướng nghiên cứu đề tài 3.5 Kết luận chương Nội dung chương mô tả toán gán nhãn vai trò ngữ nghĩa theo hướng áp dụng mô hình học máy AdaBoost công cụ Swirl gán nhãn chuỗi liệu Đồng thời, chương trình bày trình thu thập liệu, trích chọn đặc trưng kết thực nghiệm thu trình gán nhãn vai trò ngữ nghĩa CHƯƠNG 4: KẾT LUẬN Thông qua việc nghiên cứu tìm hiểu, thử nghiệm mô hình AdaBoost với toán gán nhãn vai trò ngữ nghĩa, luận văn thu đóng góp sau: - Luận văn cung cấp cách nhìn tổng quan toán gãn nhãn vai trò ngữ nghĩa tiếp cận theo mô hình học máy AdaBoost - Thử nghiệm gán nhãn vai trò ngữ nghĩa cho 426 câu tiếng Anh liệu chuẩn CoNLL 2004, với độ xác 70.89 % Hướng nghiên cứu luận văn: - Tập trung sâu vào giai đoạn trích chọn đặc trưng: với số lượng lớn đặc trưng phức tạp, điều có ý nghĩa quan trọng tới độ xác chi phí tính toán- yếu tố quan trọng ứng dụng tầm cỡ ứng dụng đòi hỏi đáp ứng với thời gian thực - Xây dựng tập liệu huấn luyện kiểm tra để phục vụ gán nhãn ngữ nghĩa tiếng Việt - Tìm hiểu kĩ thuật nâng cao để giúp tăng tốc độ huấn luyện cho mô hình AdaBoost - Tìm hiểu áp dụng phương pháp AdaBoost vào việc nhận dạng hình ảnh âm - Nghiên cứu phương pháp học sâu áp dụng gán nhãn vai trò ngữ nghĩa, đó, tiến hành tiền xử lý đặc trưng đầu vào, sau huấn luyện cách sử dụng cấu trúc mạng nơ ron nhiều tầng Các đặc trưng tính toán tầng sâu mạng, huấn luyện tự động thuật toán lan truyền ngược thích hợp với toán tương ứng Phụ lục Danh sách nhãn sử dụng toán gán ngữ nghĩa tiếng Việt (dựa theo mô tả VietTreebank): 1.1 Nhãn từ loại: TT Tên Chú thích N Danh từ Np Danh từ riêng Nc Danh từ loại Nu Danh từ đơn vị V Động từ A Tính từ P Đại từ L Lượng từ M Số từ 10 R Phụ từ 11 E Giới từ 12 C Liên từ 13 I Thán từ 14 T Trợ từ, tiểu từ, từ hình thái 15 U Từ đơn lẻ 16 Y Từ viết tắt 17 X Các từ không phân loại 1.2 Nhãn cú pháp Tập nhãn cụm từ TT Tên Chú thích NP Cụm danh từ VP Cụm động từ AP Cụm tính từ RP Cụm phụ từ PP Cụm giới từ QP Cụm từ số lượng MDP Cụm từ tình thái WHNP Cụm danh từ nghi vấn (ai, gì, …) WHAP Cụm tính từ nghi vấn (lạnh nào, đẹp sao…) 10 WHRP Cụm từ nghi vấn dùng hỏi thời gian, nơi chốn… 11 WHPP Cụm giới từ nghi vấn (với ai, cách nào…) Tập nhãn mệnh đề TT Tên Chú thích S Câu trần thuật (khẳng định phủ định) SQ Câu hỏi SBAR Mệnh đề phụ (bổ nghĩa cho danh từ, động từ, tính từ) Tập nhãn chức cú pháp TT Tên Chú thích SUB Danh từ DOB Danh từ riêng IOB Danh từ loại TPC Danh từ đơn vị PRD Động từ LGS Tính từ EXT Đại từ H Lượng từ 9-12 TC, CMD, EXC, SPL Nhãn phân loại câu: đề-thuyết, mệnh lệnh, cảm thán, đặc biệt 13 TTL Tít báo hay tiêu đề 14 VOC Thành phần than gọi Tập nhãn chức trạng ngữ TT Tên Chú thích TMP Nhãn chức trạng ngữ thời gian LOC Nhãn chức trạng ngữ nơi chốn DIR Nhãn chức trạng ngữ hướng MNR Nhãn chức trạng ngữ cách thức PRP Nhãn chức trạng ngữ mục đích hay lý ADV Nhãn chức trạng ngữ nói chung (dùng trạng ngữ không thuộc loại cụ thể trên) Tài liệu tham khảo Tiếng Việt [1] Hoàng Xuân Huấn, 2013, Giáo trình Nhận dạng mẫu, NXB Đại học Quốc gia Hà Nội, Hà Nội [2] Nhữ Văn Kiên, 2013, Luận văn Thạc sỹ Nghiên cứu phương pháp tự động phát lỗi kho ngữ liệu tiếng Việt giải từ loại, Học viện công nghệ bưu viễn thông, Hà Nội Tiếng Anh [3] Collin F Baker, Charles J Fillmore, John B Lowe, 1998, The berkeley framenet project, In Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics (COLING/ACL-1998) [4] Xavier Carreras and Lluís Màrquez, May 2004, Introduction to the CoNLL2004 Shared Task: Semantic Role Labeling, In Proceedings of the CoNLL-2004 Shared Task, Boston, MA USA [5] Xavier Carreras, Lluís Màrquez, and Grzegorz Chrupała, May 2004, Hierarchical Recognition of Propositional Arguments with Perceptrons, In Proceedings of the CoNLL-2004 Shared Task, Boston, MA USA [6] John Chen, Owen Rambow, 2003, Use of deep linguistic features for the recognition and labeling of semantic arguments, In Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing (EMNLP2003) [7] Wen-Chi Chou, Richard Tzong-Han Tsai, Ying-Shan Su, Wei Ku, TingYi Sung, Wen-Lian Hsu, 2006, A semi-automatic method for annotating a biomedical proposition bank, p5-12, In Proceedings of the Workshop on Frontiers in Linguistically Annotated Corpus [8] Trevor Cohn and Philip Blunsom, June 2005, Semantic Role Labelling with Tree Conditional Random Fields, In Proceedings of the Ninth Conference on Computational Natural Language Learning (CoNLL-2005), pages 169- 172, Ann Arbor, MI, USA [9] Michael Collins, 1997, Three generative, lexicalized models for statistical parsing, In Philip R Cohen and Wolfgang Wahlster, editors, Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics (ACL1997), pages 16–23, Somerset, New Jersey [10] Ann Copestake, Dan Flickinger, 2000, An open-source grammar development environment and broad-coverage english grammar using HPSG, In Proc of LREC, Athens, Greece, pp 591-598 [11] D.A Dahl, Palmer, M S., and Passonneau, R J., 1987, Nominalizations inpundit, In Proceedings of the 25th annual meeting on Association for Computational Linguistics, pages 131–139, Morristown, NJ, USA Association for Computational Linguistics [12] Hoa Trang Dang, Martha Palmer, June- 2005, The role of semantic roles in disambiguating verb senses, In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics, Ann Arbor, MI, USA [13] Richard Durbin, Sean R Eddy, Anders Krogh, Graeme Mitchison, 1998, "Biological sequence analysis Probabilistic models of proteins and nucleic acids", Cambridge University Press, p356 [14] Charles J Fillmore, 1968, The case for case, In Bach, E and Harms, R., editors, Universals in Linguistic Theory Holt, Rinehart, and Winston [15] Daniel Gildea, Daniel Jurafsky, September 2002, "Automatic Labeling of Semantic Roles", Journal Computational Linguistics, 28(3), p245-288 [16] Kadri Hacioglu, Sameer Pradhan, Wayne Ward, James H Martin, Daniel Jurafsky, 2004, Semantic role labeling by tagging syntactic chunks, In Proceedings of CoNLL 2004 Shared Task, p110-113, MA, USA [17] Graeme Hirst, 1987, Semantic interpretation and the resolution of ambiguity, Cambridge University Press [18] Yudong Liu, Fall 2009, The Doctor of Philosophy thesis, Semantic role labeling using lexicalized tree adjoining grammars, Simon Fraser university [19] John Lafferty, Andrew McCallum, Fernando Pereira, 2001, Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data, In Proceeding 18th International Conference on Machine Learning, pages 282–289, Morgan Kaufmann, San Francisco, CA [20] Beth Levin, 1993, "English Verb Classes and Alternations: A Preliminar Investigation", The University of Chicago Press,Pp xviii, 348 [21] Joon-Ho Lim, Young-Sook Hwang, So-Young Park, Hae-Chang Rim, 2004,Semantic Role Labeling using Maximum Entropy Model, In Proceedings of the CoNLL-2004 Shared Task, MA, USA [22] Yann LeCun, Léon Bottou, Yoshua Bengio, Patrick Haffner,1998, Gradientbased learning applied to document recognition In Proceedings of the IEEE, 86, 2278–2324 [23] Lluís Màrquez, Pere Comas, Jesús Giménez and Neus Català, June 2005, Semantic Role Labeling as Sequential Tagging, In Proceedings of the 9th Conference on Computational Natural Language Learning (CoNLL), pages 193–196, Ann Arbor [24] Andrew McCallum, Dayne Freitag, Fernando Pereira, 2000, Maximum entropy Markov models for information extraction and segmentation, Proc ICML 2000, pp 591–598, Stanford, California [25] Gabor Melli, Y Wang, Y Liu, M Kashani, Z Shi, B Gu, A Sarkar, and F Popowich, October 2005, Description of squash, the sfu question answering summary handler for the DUC-2005 Summarization task, In Proceedings of Document Understanding Conferences (DUC-2005), pages 103-110, Vancouver, Canada [26] Srini Narayanan and Sanda Harabagiu, August 23rd-27th, 2004, Question answering based on semantic structures In Proceedings of 20th International Conference on Computational Linguistics (COLING-2004), University of Geneva, Switzerland [27] Martha Palmer, Daniel Gildea, Paul Kingsbury, March 2005, “The Proposition Bank: An Annotated Corpus of Semantic Roles”, Journal of Computational Linguistics, Volume 31 Issue 1, pages 71- 206 [28] Sameer Pradhan, Wayne Ward, James H Martin, June 2008, "Towards robust semantic role labeling", Journal Computational Linguistics, Volume 34 Issue 2, p289-310, MIT Press Cambridge, MA, USA [29] Sameer Pradhan, Wayne Ward, Kadri Hacioglu, James H Martin, and Daniel Jurafsky, 2004, Shallow semantic parsing using support vector machines, In Proceedings of Human Language Technology Conference / North American chapter of the Association for Computational Linguistics annual meeting (HLTNAACL-2004) [30] James Pustejovsky, 1995, "The Generative Lexicon", The MIT Press, Cambridge, MA [31] Mihai Surdeanu, Sanda Harabagiu, John Williams, Paul Aarset, 2003, Using predicate-argument structures for information extraction, In Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics, volume 1, pages 8- 15 [32] Yuka Tateisi, Akane Yakushiji, Tomoko Ohta, Jun’ichi Tsujii, October 2005, Syntax annotation for the genia corpus, In Proceedings of the 2nd Interna – 43 tional Joint Conference on Natural Language Processing (IJCNLP-2005), Jeju Island, Korea, p11-13 [33] Nianwen Xue, Martha Palmer, 2004, Calibrating features for semantic role labeling, In Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing (EMNLP-2004) [34] Akane Yakushiji, Yusuke Miyao, Yuka Tateisi, and Junichi Tsujii, April 2005, Biomedical information extraction with predicate-argument structure patterns, In Proceedings of the first International Symposium on Semantic Mining in Biomedicine (SMBM), Hinxton, Cambridgeshire, UK [35] Mihai Surdeanu, Jordi Turmo, 2003, Semantic Role Labeling Using Complete Syntactic Analysis Website [35] http://nlp.stanford.edu/projects/shallow-parsing.shtml [36] http://www.cs.upc.edu/~srlconllirl/index.phpml [37] http://www.lsi.upc.edu/ srlconll/st04/st04.html [38] http://www.ling.upenn.edu/courses/Fall_2007/ling001/penn_treebank_pos.html [39] http://www.surdeanu.info/mihai/swirl/index.php [...]... học máy AdaBoost, trình bày những nguyên lý bản nhất về mô hình Boost và AdaBoost ứng dụng trong gán nhãn dữ liệu dạng chuỗi Trong chương tiếp theo, tôi xin giới thiệu về bài toán gán nhãn vai trò ngữ nghĩa theo hướng áp dụng mô hình AdaBoost và công cụ Swirl CHƯƠNG 3: ỨNG DỤNG ADABOOST CHO BÀI TOÁN GÁN NHÃN NGỮ NGHĨA NÔNG Nội dung chính của chương này là mô tả bài toán gán nhãn vai trò ngữ nghĩa theo... hướng áp dụng mô hình phân loại AdaBoost và công cụ Swirl trong gán nhãn chuỗi dữ liệu Đồng thời, chương này cũng trình bày các kết quả thực nghiệm thu được và hướng nghiên cứu tiếp theo của đề tài 3.1 Mô tả bài toán gán nhãn vai trò ngữ nghĩa nông Ta có thể quy bài toán gán nhãn vai trò ngữ nghĩa nông cho các thành phần trong câu về bài toán chunking áp dụng mô hình AdaBoost Dựa vào các nhãn đã qua... VỀ GÁN NHÃN VAI TRÒ NGỮ NGHĨA Nội dung chính của chương là giới thiệu bài toán gán nhãn vai trò ngữ nghĩa theo các hướng tiếp cận khác nhau, đưa ra mô hình tổng quát của hệ thống gán nhãn vai trò ngữ nghĩa, ứng dụng của hệ thống trong xử lý ngôn ngữ tự nhiên 1.1 Giới thiệu Thông thường, gán nhãn vai trò ngữ nghĩa là quá trình gán một cấu trúc đơn giản: WHO did WHAT to WHOM, WHEN, WHERE, WHY, HOW, cho. .. thuật tự động và chính xác cho vấn đề phân tích cú pháp lớp ngữ nghĩa, và đặt một bước tiến quan trọng hướng tới mục đích hiểu ngôn ngữ Gán nhãn vai trò ngữ nghĩa là một bài toán đã được định nghĩa tốt trong nhiều framework khác nhau, thu hút sự quan tâm của nhiều nhà nghiên cứu Gán nhãn vai trò ngữ nghĩa hướng tới việc xác định và gán nhãn tất cả argument (hoặc vai trò ngữ nghĩa) cho mỗi vị tố xuất hiện... phần này ta sẽ tìm hiểu kho ngữ liệu sử dụng cho bài toán gán nhãn vai trò ngữ nghĩa Dự án FrameNet Berkeley (Baker and Fillmore, 1998 [3]) và PropBank (Palmer, Gildea và Kingsbury, 2005 [27]) là hai kho ngữ liệu chú thích phổ biến, cung cấp các chú thích vai trò ngữ nghĩa Tuy nhiên, kho ngữ liệu PropBank vẫn được sử dụng rộng rãi hơn trong các bài toán gán nhãn vai trò ngữ nghĩa bởi tính đa dạng của... cung cấp nhiều ví dụ huấn luyện hơn FrameNet 1.3.1 Định nghĩa gán nhãn vai trò ngữ nghĩa nông Định nghĩa: gán nhãn vai trò ngữ nghĩa nông (Semantic Role Labeling with shallow parsing) là việc gán nhãn cụm từ của một câu với các vai trò ngữ nghĩa đối với một từ mục tiêu Ví dụ: Shaw Publishing offered Mr Smith a reimbursement last March Được gán nhãn là: • [AGENT Shaw Publishing] offered [RECEPIENT Mr... các cách kết hợp khác nhau của vai trò ngữ nghĩa Nghiên cứu này đã đặt nền móng cho các hệ thống gán nhãn vai trò ngữ nghĩa tự động hiện nay Gán nhãn ngữ nghĩa là một nhiệm vụ khá phức tạp, được phân tách thành các bài toán nhỏ hơn với các chiến lược gán nhãn khác nhau để có thể áp dụng được các phương pháp học máy Vấn đề đầu tiên phải kể đến đó là việc chú thích cho các mệnh đề trong câu Hầu hết các... vai trò ngữ nghĩa đối với một động từ cụ thể trong câu Các nhãn được tiền xử lý để có định dạng IOB2 - B-X : nhãn đánh dấu bắt đầu một cụm ngữ nghĩa - I- X : nhãn đánh dấu các thành phần bên trong cụm ngữ nghĩa - O : nhãn đánh dấu các thành phần bên ngoài tất cả các cụm ngữ nghĩa (dấu chấm) Trong đó: X là tập các nhãn ngữ nghĩa được quy định theo quy cách ký hiệu của kho ngữ liệu PropBank, gồm 5 nhãn. .. PropBank, gồm 5 nhãn chính A0- A5, 1 nhãn O chứa các từ không nằm trong cụm ngữ nghĩa nào và 13 nhãn chức năng biểu thị thời gian địa điểm, cách thức, (TMP, LOC, MNR, ) Như vậy bài toán gán nhãn vai trò ngữ nghĩa có thể được phát biểu như sau: "Hãy áp dụng mô hình AdaBoost để gán nhãn {B-X, I-X, O} cho các thành phần của một câu trong văn bản tiếng Anh." Việc áp dụng mô hình cần trải qua các bước thu... trò ngữ nghĩa Phân tích ngữ nghĩa là nhiệm vụ ánh xạ một câu trong ngôn ngữ tự nhiên tới một dạng biểu diễn hình thức, quy cách và hoàn chỉnh sử dụng một ngôn ngữ biểu diễn có nghĩa Nó tạo ra một phép phân tích ngữ nghĩa sâu mà sản phẩm là một dạng biểu diễn của câu trong logic vị tố hoặc các dạng ngôn ngữ hình thức khác, hỗ trợ các lập luận tự động Bên cạnh đó, mục tiêu của gán nhãn vai trò ngữ nghĩa, ... CHƯƠNG 3: ỨNG DỤNG ADABOOST CHO BÀI TOÁN GÁN NHÃN NGỮ NGHĨA NÔNG Nội dung chương mô tả toán gán nhãn vai trò ngữ nghĩa theo hướng áp dụng mô hình phân loại AdaBoost công cụ Swirl gán nhãn chuỗi... 3: Ứng dụng phương pháp AdaBoost cho toán gán nhãn vai trò ngữ nghĩa Nội dung chương mô tả toán gán nhãn vai trò ngữ nghĩa theo hướng áp dụng mô hình học máy AdaBoost công cụ Swirl gán nhãn chuỗi... Định nghĩa gán nhãn vai trò ngữ nghĩa nông 15 1.3.2 Kho ngữ liệu PropBank 15 1.3.3 Kiến trúc tổng quát hệ thống gán nhãn vai trò ngữ nghĩa 17 1.4 Ứng dụng gán nhãn vai trò ngữ nghĩa

Định dạng
Số trang	66
Dung lượng	4,16 MB