Phân tách cụm danh từ cơ sở tiếng việt sử dụng mô hình CRFs

Phân tách cụm danh từ cơ sở tiếng Việt sử dụng mô hình CRFs Nguyễn Thị Hương Thảo Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 05 Người hướng dẫn:

Trang 1

Phân tách cụm danh từ cơ sở tiếng Việt sử

dụng mô hình CRFs Nguyễn Thị Hương Thảo

Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 05

Người hướng dẫn: TS Nguyễn Phương Thái

Năm bảo vệ: 2010

Abstract: Khái quát về bài toán phân tách cụm danh từ và các nghiên cứu trước đó

cũng như kết quả đã đạt được về bài toán này Trình bày một số thuật toán điển hình phân tách cụm danh từ, từ đó chọn ra hướng tiếp cận với ngôn ngữ tiếng Việt Giới thiệu một số phương pháp biểu diễn dữ liệu Nghiên cứu về CRFs - mô hình học máy được đánh giá là một trong những phương pháp tốt nhất cho bài toán gán nhãn dữ liệu dạng chuỗi Tìm hiểu đặc điểm cấu trúc của cụm danh từ tiếng Việt, từ đó đề xuất phương pháp thích hợp xây dựng tập dữ liệu tiếng Việt Trình bày các kết quả thực nghiệm khi áp dụng mô hình CRFs để phân tách cụm danh từ tiếng Việt với bộ dữ liệu

do luận văn xây dựng Đưa ra một số nhận xét, đánh giá tổng quát về vấn đề cần

nghiên cứu

Keywords: Công nghệ thông tin; Cụm danh từ tiếng Việt; Hệ thống thông tin; Mô

hình CRFs

Content

Lời mở đầu

Thế giới bước vào thế kỷ 21 với sự phát triển nhanh và đạt được nhiều thành tựu trong tất cả các lĩnh vực kinh tế, kỹ thuật, văn hóa, xã hội… Cùng với sự phát triển này, nhân loại

đã tạo ra một lượng thông tin khổng lồ và phần lớn những thông tin đó chúng ta có thể tìm thấy thông qua hệ thống mạng Internet World Wide Web (gọi tắt là Web) đã trở thành một môi trường chuyển tải thông tin không thể thiếu trong thời đại Công nghệ thông tin ngày nay

Sự phổ biến và bùng nổ thông tin trên Web cũng đặt ra một thách thức mới là làm thế nào để khai thác được thông tin trên Web một cách hiệu quả, mà cụ thể là làm sao để máy tính có thể trợ giúp xử lý tự động được chúng Có thể nói xử lý ngôn ngữ tự động trên máy tính là một trong những vấn đề khó nhất của Công nghệ thông tin Cái khó nằm ở chỗ làm sao cho máy được hiểu ngôn ngữ con người, từ việc hiểu nghĩa từng từ trong mỗi hoàn cảnh cụ thể, đến việc hiểu nghĩa một câu, rồi hiểu cả văn bản

Trang 2

Trong nỗ lực xây dựng một cơ sở tri thức tiếng Việt thì các bài toán cơ bản như tách

từ, gán nhãn từ loại, xác định cụm từ, phân tích cú pháp, … là những công việc không thể thiếu Tùy từng ứng dụng sẽ cần phân tích thông tin ở các mức độ khác nhau Nhiều ứng dụng của xử lý ngôn ngữ tự nhiên (như dịch máy) yêu cầu thông tin về cú pháp và các công cụ để phân tích cú pháp Tuy nhiên với tiếng Việt, hầu hết các nhà nghiên cứu hiện tại mới chỉ tập trung vào bài toán tách từ và gán nhãn từ loại (theo [21])

Quá trình xây dựng bộ công cụ và dữ liệu đã gán nhãn cho các bài toán nền tảng như phân tách cụm từ và phân tích cú pháp hiện đang được nghiên cứu, phát triển Đây là một bước quan trọng cho các ứng dụng phát triển ngôn ngữ tự nhiên yêu cầu hiểu sâu hơn về ngôn ngữ Nhu cầu cần phải phát triển những công cụ như này là động lực thúc đẩy tôi nghiên cứu

và tìm hiểu về bài toán phân tách cụm từ danh từ tiếng Việt, với mục tiêu phát triển được một công cụ cho bài toán này

Luận văn với đề tài “Phân tách cụm danh từ cơ sở tiếng Việt sử dụng mô hình CRFs” được tổ chức thành bốn chương mà nội dung chính của các chương được giới thiệu như dưới đây

Chương 1: Khái quát về bài toán phân tách cụm danh từ giới thiệu bài toán và các

nghiên cứu trước đó cũng như kết quả đã đạt được về bài toán này Chương này cũng trình bày một số thuật toán điển hình phân tách cụm danh từ, từ đó chọn ra hướng tiếp cận với ngôn ngữ tiếng Việt Một số phương pháp biểu diễn dữ liệu cũng được giới thiệu trong chương này

Chương 2: Mô hình trường ngẫu nhiên có điều kiện trình bày cơ bản về CRFs - mô

hình học máy được đánh giá là môt trong những phương pháp tốt nhất cho bài toán gán nhãn

dữ liệu dạng chuỗi

Chương 3 Đặc điểm cụm danh từ tiếng Việt và phương pháp xây dựng tập dữ liệu

trình bày cấu trúc của cụm danh từ tiếng Việt, từ đó đề xuất phương pháp thích hợp xây dựng tập dữ liệu tiếng Việt

Chương 4 Bài toán phân tách cụm danh từ tiếng Việt sử dụng mô hình CRFs trình bày

các kết quả thực nghiệm khi áp dụng mô hình CRFs để phân tách cụm danh từ tiếng Việt với

bộ dữ liệu do luận văn xây dựng Một số nhận xét, đánh giá cũng được trình bày

References

Tài liệu tham khảo tiếng Việt

[1] Diệp Quang Ban và Hoàng Bân (2004), Ngữ pháp tiếng Việt, Nhà xuất bản Giáo dục,

Trang 3

[2] Đồng Thị Bích Thủy, Hồ Bảo Quốc (2008), “Ứng dụng xử lý ngôn ngữ tự nhiên trong

hệ tìm kiếm thông tin văn bản tiếng Việt”

[3] Lại Thị Hạnh (2002), “Trích cụm danh từ tiếng Việt nhằm phục vụ cho các hệ thống

tra cứu thông tin đa ngôn ngữ”, Luận văn Thạc sĩ tại Đại học Khoa học Tự nhiên

TP.HCM

[4] Nguyễn Tài Cẩn (1999), Ngữ pháp tiếng Việt, Nhà xuất bản Đại học Quốc gia Hà Nội

[5] Nguyễn Chí Hiếu, “Ứng dụng xử lý ngôn ngữ tự nhiên trong dịch máy”

[6] Trần Ngọc Tuấn, Phan Thị Tươi (2004), “Phân tích cụm danh từ tiếng Việt sử dụng

văn phạm hợp nhất”, Tạp chí Bưu chính viễn thông

Tài liệu tham khảo tiếng Anh

[7] Abney, Steven (1991), Parsing by chunks, In Berwick, Abney, and Tenny, editors, Principle-Based Parsing, Kluwer Academic Publishers

[8] Andrew McCallum, Freitag, and Pereia (2000), “Maximum entropy markov models

for information extraction and segmentation”, Proc Interational Conference on

Machine Learning

[9] Andrew McCallum (2003), “Efficiently Inducing Features of Conditional Random

Fields”, Conference on Uncertainty in Artificial Intelligence (UAI)

[10] Akshar Bharathi, Prashanth R.Mannem (2007), “Introduction to the Shallow Parsing

Contest for South Asia Languages”, Proceedings of the IJCAI-2007 Workshop on

Shallow Parsing for South Asian languages

[11] Eric Brill (1993), A Corpus-Based Approach to Language Learning, phD thesis, University of Pennsylvania

[12] Erik F Tjong Kim Sang, Sabine Buchholz (2000), “Introduction to the CoNLL-2000

Shared Task: Chunking”, Proceedings of CoNLL-2000 and LLL-2000, pp.127-132,

Lisbon, Portugal

[13] Erik F Tjong Kim Sang (2000), “Noun Phrase Representation by System

Combination”, Proceedings of ANLP-NAACL 2000, Seattle, WA, USA

[14] Fabrizio Sebastiani (2002), “Machine Learning in Automated Text Categorization”,

ACM Computing Survey, 34(1), pp.1-47

[15] Fang Xu, Chengqing Zong (2006), “A Hybrid Approach to Chinese Base Noun

Phrase Chunking”, Proceedings of the Fifth SIGHAN Workshop on Chinese

Language Processing, pp.87–93

Trang 4

[16] Hanna M.Wallach (2004), “Conditional Random Fields: An Introduction”,

University of Pennsylvania CIS Technical Report MS-CIS-04-21

[17] Hanna Wallach (2002), Efficient Training of Conditional Random Fields, Master of

Science School of Cognitive Science Division of Informatics University of

Edinburgh

[18] Hong Shen and Anoop Sarkar, “Voting between Multiple Data Representations for

Text Chunking”, Proceedings of the 18th Conference of the Canadian Society for

Computational Studies of Intelligence

[19] Lance A.Ramshaw, Mitchell P.Marcus (1995), “Text Chunking using

Transformation-Based Learning”, Proceedings of the ACL 3rd Workshop on Very

Large Corpora, pp 82-94

[20] Lafferty, John D.; McCallum, Andrew; Pereira, Fernando C N.: Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data

Proceedings of the Eighteenth International Conference on Machine Learning (ICML 2001), Morgan Kaufmann Publishers, 2001, pp 282

[21] Le Minh Nguyen, Huong Thao Nguyen, Phuong Thai Nguyen, Tu Bao Ho, Akira Shimazu, “An empirical study of Vietnamese noun phrase chunking with

discriminative sequence models”, Proceedings of the 7 th

Workshop on Asian Language Resources, pp.9-16

[22] Michael I Jordan (2004), Graphical Models, Statistical Science (Special Issue on

Bayesian Statistics), 19, pp.140-155

[23] Michele Banko, Michael J Cafarella, Stephen Soderland, Matt Broadhead and Oren

Etzioni (2007), “Open Information Extraction from the Web”, Proceedings of the

International Joint Conference on Artificial Intelligence

[24] Nguyen Phuong Thai, Vu Xuan Luong, Nguyen Thi Minh Huyen, Nguyen Van Hiep, Le Hong Phuong, “Building a Large Syntactically-Annotated Corpus of

Vietnamese”, Proceedings of the 3rd Linguistic Annotation Workshop (LAW) at

ACL-IJCNLP 2009

[25] H.X Phan, M.L Nguyen, Y Inoguchi, and S Horiguchi (2007), “High-Performance Training Conditional Random Fields for Large-Scale Applications of Labeling

Sequence Data”, IEICE Transactions on Information and Systems, Vol.E90-D,

No.1, pp.13-21

[26] J Lafferty, A McCallum, and F Pereia (2001), “Conditional ramdom fields:

probabilistic models for segmenting and labeling sequence data”, In International

Conference on Machine Learning

Trang 5

[27] Philipp Koehn (2004), “Pharoh: A Beam Search Decoder for Phrase-Based

Statistical Machine Translation Models”, 6th Conference of the Association for

Machine Translation in the Americas, pp.115–124

[28] Rahul Gupta (2005), “Conditional Random Fields”, Technical Report

[29] Rie Kubota Ando, Tong Zhang (2005), “A High-Performance Semi-Supervised

Learning Method for Text Chunking”, Proceedings of the 43rd Annual Meeting on

Association for Computational Linguistics, pp.1-9

[30] Roman Klinger, Katrin Tomanek (2007), “Classical Probabilistic Methods and

Conditional Random Fields”, Algorithm Engineering Report TR07-2-013,

Department of Computer Science, Dortmund University of Technology

[31] Sha, Pereira (2003), “Shallow parsing with conditional random fields”, Technical

Report MS-CIS-02-35, University of Pennsylvania

[32] Sutton, C., McCallum (2006), “An Introduction to Conditional Random Fields for

Relational Learning”, In Introduction to Statistical Relational Learning, Edited by

Lise Getoor and Ben Taskar MIT Press

[33] Taku Kudo, Yuji Matsumoto (2000), “Use of Support Vector Learning for Chunk

Identification”, Proceedings of CoNLL-2000 and LLL-2000, pp.142-144

[34] Taku Kudo, Yuji Matsumoto (2001), “Chunking with Support Vector Machines”,

Proceedings of the NAACL 2001, pp.192-199

[35] Tjong Kim Sang, Jorn Veenstra (1999), “Representing text chunks”, Proceedings of

EACL’99’, pp.173-179

[36] Wenliang Chen, Yujie Zhang, Hitoshi Isahara (2006), “Chinese Chunking based on

Conditional Random Fields”, NLP2006, Yokohama, Japan, pp 149-152

[37] Yoav Goldberg, Meni Adler, Michael Elhadad (2006), “Noun Phrase Chunking in

Hebrew Influence of Lexical and Morphological Features”, Proceedings of the 21st

International Conference on Computational Linguistics and the 44th annual meeting

of the ACL, pp.689-696

[38] Yong-Hun Lee, Mi-Young Kim, and Jong-Hyeok Lee (2005), “Chunking Using

Conditional Random Fields in Korean Texts”, Lecture Notes in Artificial

Intelligence IJCNLP 2005

[39] Yongmei Tan, Tianshun Yao, Qing Chen and Jingbo Zhu (2005), “Applying

Conditional Random Fields to Chinese Shallow Parsing”, The 6th International

Conference on Intelligent Text Processing and Computational Linguistics

Trang 6

[40] Wengliang Chen, Yujie Zhang, Hotoshi Isahara (2006), “An Empirical Study of

Chinese chunking”, In Proceedings of the 44 th Annual Meeting of ACL, pp 97-104

[41] CRF++: Yet Another CRF Toolkit, http://crfpp.sourceforge.net/

[42] http://staff.science.uva.nl/~erikt/research/np-chunking.html

[43] http://www.cnts.ua.ac.be/conll2000/chunking/

[44] http://www.cnts.ua.ac.be/conll2000/chunking/output.html

Định dạng
Số trang	6
Dung lượng	217,84 KB