Phân tách cụm danh từ cơ sở tiếng Việt sử dụng mô hình CRFs Nguyễn Thị Hương Thảo Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 05 Người hướng dẫn:
Trang 1Phân tách cụm danh từ cơ sở tiếng Việt sử
dụng mô hình CRFs Nguyễn Thị Hương Thảo
Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 05
Người hướng dẫn: TS Nguyễn Phương Thái
Năm bảo vệ: 2010
Abstract: Khái quát về bài toán phân tách cụm danh từ và các nghiên cứu trước đó
cũng như kết quả đã đạt được về bài toán này Trình bày một số thuật toán điển hình phân tách cụm danh từ, từ đó chọn ra hướng tiếp cận với ngôn ngữ tiếng Việt Giới thiệu một số phương pháp biểu diễn dữ liệu Nghiên cứu về CRFs - mô hình học máy được đánh giá là một trong những phương pháp tốt nhất cho bài toán gán nhãn dữ liệu dạng chuỗi Tìm hiểu đặc điểm cấu trúc của cụm danh từ tiếng Việt, từ đó đề xuất phương pháp thích hợp xây dựng tập dữ liệu tiếng Việt Trình bày các kết quả thực nghiệm khi áp dụng mô hình CRFs để phân tách cụm danh từ tiếng Việt với bộ dữ liệu
do luận văn xây dựng Đưa ra một số nhận xét, đánh giá tổng quát về vấn đề cần
nghiên cứu
Keywords: Công nghệ thông tin; Cụm danh từ tiếng Việt; Hệ thống thông tin; Mô
hình CRFs
Content
Lời mở đầu
Thế giới bước vào thế kỷ 21 với sự phát triển nhanh và đạt được nhiều thành tựu trong tất cả các lĩnh vực kinh tế, kỹ thuật, văn hóa, xã hội… Cùng với sự phát triển này, nhân loại
đã tạo ra một lượng thông tin khổng lồ và phần lớn những thông tin đó chúng ta có thể tìm thấy thông qua hệ thống mạng Internet World Wide Web (gọi tắt là Web) đã trở thành một môi trường chuyển tải thông tin không thể thiếu trong thời đại Công nghệ thông tin ngày nay
Sự phổ biến và bùng nổ thông tin trên Web cũng đặt ra một thách thức mới là làm thế nào để khai thác được thông tin trên Web một cách hiệu quả, mà cụ thể là làm sao để máy tính có thể trợ giúp xử lý tự động được chúng Có thể nói xử lý ngôn ngữ tự động trên máy tính là một trong những vấn đề khó nhất của Công nghệ thông tin Cái khó nằm ở chỗ làm sao cho máy được hiểu ngôn ngữ con người, từ việc hiểu nghĩa từng từ trong mỗi hoàn cảnh cụ thể, đến việc hiểu nghĩa một câu, rồi hiểu cả văn bản
Trang 2Trong nỗ lực xây dựng một cơ sở tri thức tiếng Việt thì các bài toán cơ bản như tách
từ, gán nhãn từ loại, xác định cụm từ, phân tích cú pháp, … là những công việc không thể thiếu Tùy từng ứng dụng sẽ cần phân tích thông tin ở các mức độ khác nhau Nhiều ứng dụng của xử lý ngôn ngữ tự nhiên (như dịch máy) yêu cầu thông tin về cú pháp và các công cụ để phân tích cú pháp Tuy nhiên với tiếng Việt, hầu hết các nhà nghiên cứu hiện tại mới chỉ tập trung vào bài toán tách từ và gán nhãn từ loại (theo [21])
Quá trình xây dựng bộ công cụ và dữ liệu đã gán nhãn cho các bài toán nền tảng như phân tách cụm từ và phân tích cú pháp hiện đang được nghiên cứu, phát triển Đây là một bước quan trọng cho các ứng dụng phát triển ngôn ngữ tự nhiên yêu cầu hiểu sâu hơn về ngôn ngữ Nhu cầu cần phải phát triển những công cụ như này là động lực thúc đẩy tôi nghiên cứu
và tìm hiểu về bài toán phân tách cụm từ danh từ tiếng Việt, với mục tiêu phát triển được một công cụ cho bài toán này
Luận văn với đề tài “Phân tách cụm danh từ cơ sở tiếng Việt sử dụng mô hình CRFs” được tổ chức thành bốn chương mà nội dung chính của các chương được giới thiệu như dưới đây
Chương 1: Khái quát về bài toán phân tách cụm danh từ giới thiệu bài toán và các
nghiên cứu trước đó cũng như kết quả đã đạt được về bài toán này Chương này cũng trình bày một số thuật toán điển hình phân tách cụm danh từ, từ đó chọn ra hướng tiếp cận với ngôn ngữ tiếng Việt Một số phương pháp biểu diễn dữ liệu cũng được giới thiệu trong chương này
Chương 2: Mô hình trường ngẫu nhiên có điều kiện trình bày cơ bản về CRFs - mô
hình học máy được đánh giá là môt trong những phương pháp tốt nhất cho bài toán gán nhãn
dữ liệu dạng chuỗi
Chương 3 Đặc điểm cụm danh từ tiếng Việt và phương pháp xây dựng tập dữ liệu
trình bày cấu trúc của cụm danh từ tiếng Việt, từ đó đề xuất phương pháp thích hợp xây dựng tập dữ liệu tiếng Việt
Chương 4 Bài toán phân tách cụm danh từ tiếng Việt sử dụng mô hình CRFs trình bày
các kết quả thực nghiệm khi áp dụng mô hình CRFs để phân tách cụm danh từ tiếng Việt với
bộ dữ liệu do luận văn xây dựng Một số nhận xét, đánh giá cũng được trình bày
References
Tài liệu tham khảo tiếng Việt
[1] Diệp Quang Ban và Hoàng Bân (2004), Ngữ pháp tiếng Việt, Nhà xuất bản Giáo dục,
Trang 3[2] Đồng Thị Bích Thủy, Hồ Bảo Quốc (2008), “Ứng dụng xử lý ngôn ngữ tự nhiên trong
hệ tìm kiếm thông tin văn bản tiếng Việt”
[3] Lại Thị Hạnh (2002), “Trích cụm danh từ tiếng Việt nhằm phục vụ cho các hệ thống
tra cứu thông tin đa ngôn ngữ”, Luận văn Thạc sĩ tại Đại học Khoa học Tự nhiên
TP.HCM
[4] Nguyễn Tài Cẩn (1999), Ngữ pháp tiếng Việt, Nhà xuất bản Đại học Quốc gia Hà Nội
[5] Nguyễn Chí Hiếu, “Ứng dụng xử lý ngôn ngữ tự nhiên trong dịch máy”
[6] Trần Ngọc Tuấn, Phan Thị Tươi (2004), “Phân tích cụm danh từ tiếng Việt sử dụng
văn phạm hợp nhất”, Tạp chí Bưu chính viễn thông
Tài liệu tham khảo tiếng Anh
[7] Abney, Steven (1991), Parsing by chunks, In Berwick, Abney, and Tenny, editors, Principle-Based Parsing, Kluwer Academic Publishers
[8] Andrew McCallum, Freitag, and Pereia (2000), “Maximum entropy markov models
for information extraction and segmentation”, Proc Interational Conference on
Machine Learning
[9] Andrew McCallum (2003), “Efficiently Inducing Features of Conditional Random
Fields”, Conference on Uncertainty in Artificial Intelligence (UAI)
[10] Akshar Bharathi, Prashanth R.Mannem (2007), “Introduction to the Shallow Parsing
Contest for South Asia Languages”, Proceedings of the IJCAI-2007 Workshop on
Shallow Parsing for South Asian languages
[11] Eric Brill (1993), A Corpus-Based Approach to Language Learning, phD thesis, University of Pennsylvania
[12] Erik F Tjong Kim Sang, Sabine Buchholz (2000), “Introduction to the CoNLL-2000
Shared Task: Chunking”, Proceedings of CoNLL-2000 and LLL-2000, pp.127-132,
Lisbon, Portugal
[13] Erik F Tjong Kim Sang (2000), “Noun Phrase Representation by System
Combination”, Proceedings of ANLP-NAACL 2000, Seattle, WA, USA
[14] Fabrizio Sebastiani (2002), “Machine Learning in Automated Text Categorization”,
ACM Computing Survey, 34(1), pp.1-47
[15] Fang Xu, Chengqing Zong (2006), “A Hybrid Approach to Chinese Base Noun
Phrase Chunking”, Proceedings of the Fifth SIGHAN Workshop on Chinese
Language Processing, pp.87–93
Trang 4[16] Hanna M.Wallach (2004), “Conditional Random Fields: An Introduction”,
University of Pennsylvania CIS Technical Report MS-CIS-04-21
[17] Hanna Wallach (2002), Efficient Training of Conditional Random Fields, Master of
Science School of Cognitive Science Division of Informatics University of
Edinburgh
[18] Hong Shen and Anoop Sarkar, “Voting between Multiple Data Representations for
Text Chunking”, Proceedings of the 18th Conference of the Canadian Society for
Computational Studies of Intelligence
[19] Lance A.Ramshaw, Mitchell P.Marcus (1995), “Text Chunking using
Transformation-Based Learning”, Proceedings of the ACL 3rd Workshop on Very
Large Corpora, pp 82-94
[20] Lafferty, John D.; McCallum, Andrew; Pereira, Fernando C N.: Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data
Proceedings of the Eighteenth International Conference on Machine Learning (ICML 2001), Morgan Kaufmann Publishers, 2001, pp 282
[21] Le Minh Nguyen, Huong Thao Nguyen, Phuong Thai Nguyen, Tu Bao Ho, Akira Shimazu, “An empirical study of Vietnamese noun phrase chunking with
discriminative sequence models”, Proceedings of the 7 th
Workshop on Asian Language Resources, pp.9-16
[22] Michael I Jordan (2004), Graphical Models, Statistical Science (Special Issue on
Bayesian Statistics), 19, pp.140-155
[23] Michele Banko, Michael J Cafarella, Stephen Soderland, Matt Broadhead and Oren
Etzioni (2007), “Open Information Extraction from the Web”, Proceedings of the
International Joint Conference on Artificial Intelligence
[24] Nguyen Phuong Thai, Vu Xuan Luong, Nguyen Thi Minh Huyen, Nguyen Van Hiep, Le Hong Phuong, “Building a Large Syntactically-Annotated Corpus of
Vietnamese”, Proceedings of the 3rd Linguistic Annotation Workshop (LAW) at
ACL-IJCNLP 2009
[25] H.X Phan, M.L Nguyen, Y Inoguchi, and S Horiguchi (2007), “High-Performance Training Conditional Random Fields for Large-Scale Applications of Labeling
Sequence Data”, IEICE Transactions on Information and Systems, Vol.E90-D,
No.1, pp.13-21
[26] J Lafferty, A McCallum, and F Pereia (2001), “Conditional ramdom fields:
probabilistic models for segmenting and labeling sequence data”, In International
Conference on Machine Learning
Trang 5[27] Philipp Koehn (2004), “Pharoh: A Beam Search Decoder for Phrase-Based
Statistical Machine Translation Models”, 6th Conference of the Association for
Machine Translation in the Americas, pp.115–124
[28] Rahul Gupta (2005), “Conditional Random Fields”, Technical Report
[29] Rie Kubota Ando, Tong Zhang (2005), “A High-Performance Semi-Supervised
Learning Method for Text Chunking”, Proceedings of the 43rd Annual Meeting on
Association for Computational Linguistics, pp.1-9
[30] Roman Klinger, Katrin Tomanek (2007), “Classical Probabilistic Methods and
Conditional Random Fields”, Algorithm Engineering Report TR07-2-013,
Department of Computer Science, Dortmund University of Technology
[31] Sha, Pereira (2003), “Shallow parsing with conditional random fields”, Technical
Report MS-CIS-02-35, University of Pennsylvania
[32] Sutton, C., McCallum (2006), “An Introduction to Conditional Random Fields for
Relational Learning”, In Introduction to Statistical Relational Learning, Edited by
Lise Getoor and Ben Taskar MIT Press
[33] Taku Kudo, Yuji Matsumoto (2000), “Use of Support Vector Learning for Chunk
Identification”, Proceedings of CoNLL-2000 and LLL-2000, pp.142-144
[34] Taku Kudo, Yuji Matsumoto (2001), “Chunking with Support Vector Machines”,
Proceedings of the NAACL 2001, pp.192-199
[35] Tjong Kim Sang, Jorn Veenstra (1999), “Representing text chunks”, Proceedings of
EACL’99’, pp.173-179
[36] Wenliang Chen, Yujie Zhang, Hitoshi Isahara (2006), “Chinese Chunking based on
Conditional Random Fields”, NLP2006, Yokohama, Japan, pp 149-152
[37] Yoav Goldberg, Meni Adler, Michael Elhadad (2006), “Noun Phrase Chunking in
Hebrew Influence of Lexical and Morphological Features”, Proceedings of the 21st
International Conference on Computational Linguistics and the 44th annual meeting
of the ACL, pp.689-696
[38] Yong-Hun Lee, Mi-Young Kim, and Jong-Hyeok Lee (2005), “Chunking Using
Conditional Random Fields in Korean Texts”, Lecture Notes in Artificial
Intelligence IJCNLP 2005
[39] Yongmei Tan, Tianshun Yao, Qing Chen and Jingbo Zhu (2005), “Applying
Conditional Random Fields to Chinese Shallow Parsing”, The 6th International
Conference on Intelligent Text Processing and Computational Linguistics
Trang 6[40] Wengliang Chen, Yujie Zhang, Hotoshi Isahara (2006), “An Empirical Study of
Chinese chunking”, In Proceedings of the 44 th Annual Meeting of ACL, pp 97-104
[41] CRF++: Yet Another CRF Toolkit, http://crfpp.sourceforge.net/
[42] http://staff.science.uva.nl/~erikt/research/np-chunking.html
[43] http://www.cnts.ua.ac.be/conll2000/chunking/
[44] http://www.cnts.ua.ac.be/conll2000/chunking/output.html