Phân tách cụm danh từ cơ sở tiếng Việt sử dụng mô hình CRFs Nguyễn Thị Hương Thảo Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 05 Người hướng dẫn: TS. Nguyễn Phương Thái Năm bảo vệ: 2010 Abstract: Khái quát về bài toán phân tách cụm danh từ và các nghiên cứu trước đó cũng như kết quả đã đạt được về bài toán này. Trình bày một số thuật toán điển hình phân tách cụm danh từ, từ đó chọn ra hướng tiếp cận với ngôn ngữ tiếng Việt. Giới thiệu một số phương pháp biểu diễn dữ liệu. Nghiên cứu về CRFs - mô hình học máy được đánh giá là một trong những phương pháp tốt nhất cho bài toán gán nhãn dữ liệu dạng chuỗi. Tìm hiểu đặc điểm cấu trúc của cụm danh từ tiếng Việt, từ đó đề xuất phương pháp thích hợp xây dựng tập dữ liệu tiếng Việt. Trình bày các kết quả thực nghiệm khi áp dụng mô hình CRFs để phân tách cụm danh từ tiếng Việt với bộ dữ liệu do luận văn xây dựng. Đưa ra một số nhận xét, đánh giá tổng quát về vấn đề cần nghiên cứu. Keywords: Công nghệ thông tin; Cụm danh từ tiếng Việt; Hệ thống thông tin; Mô hình CRFs Content Lời mở đầu Thế giới bước vào thế kỷ 21 với sự phát triển nhanh và đạt được nhiều thành tựu trong tất cả các lĩnh vực kinh tế, kỹ thuật, văn hóa, xã hội… Cùng với sự phát triển này, nhân loại đã tạo ra một lượng thông tin khổng lồ và phần lớn những thông tin đó chúng ta có thể tìm thấy thông qua hệ thống mạng Internet. World Wide Web (gọi tắt là Web) đã trở thành một môi trường chuyển tải thông tin không thể thiếu trong thời đại Công nghệ thông tin ngày nay. Sự phổ biến và bùng nổ thông tin trên Web cũng đặt ra một thách thức mới là làm thế nào để khai thác được thông tin trên Web một cách hiệu quả, mà cụ thể là làm sao để máy tính có thể trợ giúp xử lý tự động được chúng. Có thể nói xử lý ngôn ngữ tự động trên máy tính là một trong những vấn đề khó nhất của Công nghệ thông tin. Cái khó nằm ở chỗ làm sao cho máy được hiểu ngôn ngữ con người, từ việc hiểu nghĩa từng từ trong mỗi hoàn cảnh cụ thể, đến việc hiểu nghĩa một câu, rồi hiểu cả văn bản. 2 Trong nỗ lực xây dựng một cơ sở tri thức tiếng Việt thì các bài toán cơ bản như tách từ, gán nhãn từ loại, xác định cụm từ, phân tích cú pháp, … là những công việc không thể thiếu. Tùy từng ứng dụng sẽ cần phân tích thông tin ở các mức độ khác nhau. Nhiều ứng dụng của xử lý ngôn ngữ tự nhiên (như dịch máy) yêu cầu thông tin về cú pháp và các công cụ để phân tích cú pháp. Tuy nhiên với tiếng Việt, hầu hết các nhà nghiên cứu hiện tại mới chỉ tập trung vào bài toán tách từ và gán nhãn từ loại (theo [21]). Quá trình xây dựng bộ công cụ và dữ liệu đã gán nhãn cho các bài toán nền tảng như phân tách cụm từ và phân tích cú pháp hiện đang được nghiên cứu, phát triển. Đây là một bước quan trọng cho các ứng dụng phát triển ngôn ngữ tự nhiên yêu cầu hiểu sâu hơn về ngôn ngữ. Nhu cầu cần phải phát triển những công cụ như này là động lực thúc đẩy tôi nghiên cứu và tìm hiểu về bài toán phân tách cụm từ danh từ tiếng Việt, với mục tiêu phát triển được một công cụ cho bài toán này. Luận văn với đề tài “Phân tách cụm danh từ cơ sở tiếng Việt sử dụng mô hình CRFs” được tổ chức thành bốn chương mà nội dung chính của các chương được giới thiệu như dưới đây. Chương 1: Khái quát về bài toán phân tách cụm danh từ giới thiệu bài toán và các nghiên cứu trước đó cũng như kết quả đã đạt được về bài toán này. Chương này cũng trình bày một số thuật toán điển hình phân tách cụm danh từ, từ đó chọn ra hướng tiếp cận với ngôn ngữ tiếng Việt. Một số phương pháp biểu diễn dữ liệu cũng được giới thiệu trong chương này. Chương 2: Mô hình trường ngẫu nhiên có điều kiện trình bày cơ bản về CRFs - mô hình học máy được đánh giá là môt trong những phương pháp tốt nhất cho bài toán gán nhãn dữ liệu dạng chuỗi. Chương 3. Đặc điểm cụm danh từ tiếng Việt và phương pháp xây dựng tập dữ liệu trình bày cấu trúc của cụm danh từ tiếng Việt, từ đó đề xuất phương pháp thích hợp xây dựng tập dữ liệu tiếng Việt. Chương 4. Bài toán phân tách cụm danh từ tiếng Việt sử dụng mô hình CRFs trình bày các kết quả thực nghiệm khi áp dụng mô hình CRFs để phân tách cụm danh từ tiếng Việt với bộ dữ liệu do luận văn xây dựng. Một số nhận xét, đánh giá cũng được trình bày. References Tài liệu tham khảo tiếng Việt [1] Diệp Quang Ban và Hoàng Bân (2004), Ngữ pháp tiếng Việt, Nhà xuất bản Giáo dục, Hà Nội. 3 [2] Đồng Thị Bích Thủy, Hồ Bảo Quốc (2008), “Ứng dụng xử lý ngôn ngữ tự nhiên trong hệ tìm kiếm thông tin văn bản tiếng Việt”. [3] Lại Thị Hạnh (2002), “Trích cụm danh từ tiếng Việt nhằm phục vụ cho các hệ thống tra cứu thông tin đa ngôn ngữ”, Luận văn Thạc sĩ tại Đại học Khoa học Tự nhiên TP.HCM. [4] Nguyễn Tài Cẩn (1999), Ngữ pháp tiếng Việt, Nhà xuất bản Đại học Quốc gia Hà Nội. [5] Nguyễn Chí Hiếu, “Ứng dụng xử lý ngôn ngữ tự nhiên trong dịch máy”. [6] Trần Ngọc Tuấn, Phan Thị Tươi (2004), “Phân tích cụm danh từ tiếng Việt sử dụng văn phạm hợp nhất”, Tạp chí Bưu chính viễn thông. Tài liệu tham khảo tiếng Anh [7] Abney, Steven (1991), Parsing by chunks, In Berwick, Abney, and Tenny, editors, Principle-Based Parsing, Kluwer Academic Publishers. [8] Andrew McCallum, Freitag, and Pereia (2000), “Maximum entropy markov models for information extraction and segmentation”, Proc. Interational Conference on Machine Learning. [9] Andrew McCallum (2003), “Efficiently Inducing Features of Conditional Random Fields”, Conference on Uncertainty in Artificial Intelligence (UAI). [10] Akshar Bharathi, Prashanth R.Mannem (2007), “Introduction to the Shallow Parsing Contest for South Asia Languages”, Proceedings of the IJCAI-2007 Workshop on Shallow Parsing for South Asian languages. [11] Eric Brill (1993), A Corpus-Based Approach to Language Learning, phD thesis, University of Pennsylvania. [12] Erik F. Tjong Kim Sang, Sabine Buchholz (2000), “Introduction to the CoNLL-2000 Shared Task: Chunking”, Proceedings of CoNLL-2000 and LLL-2000, pp.127-132, Lisbon, Portugal. [13] Erik F. Tjong Kim Sang (2000), “Noun Phrase Representation by System Combination”, Proceedings of ANLP-NAACL 2000, Seattle, WA, USA. [14] Fabrizio Sebastiani (2002), “Machine Learning in Automated Text Categorization”, ACM Computing Survey, 34(1), pp.1-47. [15] Fang Xu, Chengqing Zong (2006), “A Hybrid Approach to Chinese Base Noun Phrase Chunking”, Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing, pp.87–93. 4 [16] Hanna M.Wallach (2004), “Conditional Random Fields: An Introduction”, University of Pennsylvania CIS Technical Report MS-CIS-04-21. [17] Hanna Wallach (2002), Efficient Training of Conditional Random Fields, Master of Science School of Cognitive Science Division of Informatics University of Edinburgh. [18] Hong Shen and Anoop Sarkar, “Voting between Multiple Data Representations for Text Chunking”, Proceedings of the 18th Conference of the Canadian Society for Computational Studies of Intelligence. [19] Lance A.Ramshaw, Mitchell P.Marcus (1995), “Text Chunking using Transformation-Based Learning”, Proceedings of the ACL 3rd Workshop on Very Large Corpora, pp. 82-94 . [20] Lafferty, John D.; McCallum, Andrew; Pereira, Fernando C. N.: Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. Proceedings of the Eighteenth International Conference on Machine Learning (ICML 2001), Morgan Kaufmann Publishers, 2001, pp. 282 [21] Le Minh Nguyen, Huong Thao Nguyen, Phuong Thai Nguyen, Tu Bao Ho, Akira Shimazu, “An empirical study of Vietnamese noun phrase chunking with discriminative sequence models”, Proceedings of the 7 th Workshop on Asian Language Resources, pp.9-16. [22] Michael I. Jordan (2004), Graphical Models, Statistical Science (Special Issue on Bayesian Statistics), 19, pp.140-155. [23] Michele Banko, Michael J Cafarella, Stephen Soderland, Matt Broadhead and Oren Etzioni (2007), “Open Information Extraction from the Web”, Proceedings of the International Joint Conference on Artificial Intelligence. [24] Nguyen Phuong Thai, Vu Xuan Luong, Nguyen Thi Minh Huyen, Nguyen Van Hiep, Le Hong Phuong, “Building a Large Syntactically-Annotated Corpus of Vietnamese”, Proceedings of the 3rd Linguistic Annotation Workshop (LAW) at ACL-IJCNLP 2009. [25] H.X. Phan, M.L. Nguyen, Y. Inoguchi, and S. Horiguchi (2007), “High-Performance Training Conditional Random Fields for Large-Scale Applications of Labeling Sequence Data”, IEICE Transactions on Information and Systems, Vol.E90-D, No.1, pp.13-21. [26] J. Lafferty, A. McCallum, and F. Pereia (2001), “Conditional ramdom fields: probabilistic models for segmenting and labeling sequence data”, In International Conference on Machine Learning. 5 [27] Philipp Koehn (2004), “Pharoh: A Beam Search Decoder for Phrase-Based Statistical Machine Translation Models”, 6th Conference of the Association for Machine Translation in the Americas, pp.115–124. [28] Rahul Gupta (2005), “Conditional Random Fields”, Technical Report. [29] Rie Kubota Ando, Tong Zhang (2005), “A High-Performance Semi-Supervised Learning Method for Text Chunking”, Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, pp.1-9. [30] Roman Klinger, Katrin Tomanek (2007), “Classical Probabilistic Methods and Conditional Random Fields”, Algorithm Engineering Report TR07-2-013, Department of Computer Science, Dortmund University of Technology. [31] Sha, Pereira (2003), “Shallow parsing with conditional random fields”, Technical Report MS-CIS-02-35, University of Pennsylvania. [32] Sutton, C., McCallum (2006), “An Introduction to Conditional Random Fields for Relational Learning”, In Introduction to Statistical Relational Learning, Edited by Lise Getoor and Ben Taskar. MIT Press. [33] Taku Kudo, Yuji Matsumoto (2000), “Use of Support Vector Learning for Chunk Identification”, Proceedings of CoNLL-2000 and LLL-2000, pp.142-144. [34] Taku Kudo, Yuji Matsumoto (2001), “Chunking with Support Vector Machines”, Proceedings of the NAACL 2001, pp.192-199. [35] Tjong Kim Sang, Jorn Veenstra (1999), “Representing text chunks”, Proceedings of EACL’99’, pp.173-179. [36] Wenliang Chen, Yujie Zhang, Hitoshi Isahara (2006), “Chinese Chunking based on Conditional Random Fields”, NLP2006, Yokohama, Japan, pp. 149-152. [37] Yoav Goldberg, Meni Adler, Michael Elhadad (2006), “Noun Phrase Chunking in Hebrew Influence of Lexical and Morphological Features”, Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the ACL, pp.689-696. [38] Yong-Hun Lee, Mi-Young Kim, and Jong-Hyeok Lee (2005), “Chunking Using Conditional Random Fields in Korean Texts”, Lecture Notes in Artificial Intelligence IJCNLP 2005. [39] Yongmei Tan, Tianshun Yao, Qing Chen and Jingbo Zhu (2005), “Applying Conditional Random Fields to Chinese Shallow Parsing”, The 6th International Conference on Intelligent Text Processing and Computational Linguistics. 6 [40] Wengliang Chen, Yujie Zhang, Hotoshi Isahara (2006), “An Empirical Study of Chinese chunking”, In Proceedings of the 44 th Annual Meeting of ACL, pp. 97-104. [41] CRF++: Yet Another CRF Toolkit, http://crfpp.sourceforge.net/ [42] http://staff.science.uva.nl/~erikt/research/np-chunking.html [43] http://www.cnts.ua.ac.be/conll2000/chunking/ [44] http://www.cnts.ua.ac.be/conll2000/chunking/output.html . bài toán phân tách cụm từ danh từ tiếng Việt, với mục tiêu phát triển được một công cụ cho bài toán này. Luận văn với đề tài Phân tách cụm danh từ cơ sở tiếng Việt sử dụng mô hình CRFs được. bày cấu trúc của cụm danh từ tiếng Việt, từ đó đề xuất phương pháp thích hợp xây dựng tập dữ liệu tiếng Việt. Chương 4. Bài toán phân tách cụm danh từ tiếng Việt sử dụng mô hình CRFs trình bày. của cụm danh từ tiếng Việt, từ đó đề xuất phương pháp thích hợp xây dựng tập dữ liệu tiếng Việt. Trình bày các kết quả thực nghiệm khi áp dụng mô hình CRFs để phân tách cụm danh từ tiếng Việt