Kết quả bộ phân tách cụm danh từ theo kích thước t- 123docz.net

Để đánh giá sự ảnh hưởng của kích thước tập dữ liệu huấn luyện đến độ chính xác của hệ thống, tôi lựa chọn ngẫu nhiên kích thước của tập dữ liệu học, lần lượt là 500, 1000, 2000, 3000, 4329 câu. Tập dữ liệu kiểm tra được cố định là 1000 câu. Sử dụng tập thuộc tính như thực nghiệm 7, kết quả thu được như hình 18, trong đó các số trên biểu đồ là độ đo F1 của mỗi trường hợp. Kết quả cho thấy, khi tăng kích thước tập dữ liệu huấn luyện thì bộ phân tách dự đoán chính xác hơn.

Hình 18: Kết quả bộ phân tách cụm danh từ theo kích thước tập dữ liệu huấn luyện luyện

4.2.2.3. Đánh giá và phân tích lỗi

Kết quả thu được cho thấy rất nhiều cụm danh từ có cấu trúc đệ quy được phân tách khá tốt. Ví dụ : “Ông Hoàng Tuấn Việt – chi cục trưởng Chi cục Hải quan cửa khẩu cảng sân bay Vũng Tàu” là một cụm danh từ đệ quy có cấu trúc tương đối phức tạp (hình 18):

Hình 18 : Cây phân tích cú pháp của một cụm từ tiếng Việt

Hệ thống đã phân tách thành ba cụm danh từ chính xác như sau:

Từ Từ loại Nhãn đúng Nhãn dự đoán

ông Nc-H B-NP B-NP

Hoàng_Tuấn_Việt Np I-NP I-NP

- - O O

chi_cục_trưởng N-H B-NP B-NP

Chi_cục N-H B-NP I-NP

Hải_quan N I-NP I-NP

cửa_khẩu N-H B-NP B-NP

cảng N-H I-NP I-NP

sân_bay N I-NP I-NP

Tuy nhiên, kết quả cũng cho thấy rằng thông tin từ loại trong tập dữ liệu huấn luyện ảnh hướng rất nhiều tới độ chính xác của hệ thống. Ví dụ, “nghề nuôi tôm sú” là một cụm danh từ được bộ phân tách gãn nhãn như sau:

Từ Từ loại Nhãn đúng Nhãn dự đoán

nghề N-H B-NP B-NP

Nuôi V-H I-NP O

tôm_sú N-H I-NP B-NP

Hầu hết các ví dụ trong tập dữ liệu học, động từ “nuôi ” nằm ngoài cụm danh từ, vì vậy ở ví dụ trên hệ thống cũng gán nhãn là O. Do đó, cụm “nghề nuôi tôm_sú” đã phân tách thành hai cụm danh từ là “nghề” và “tôm_sú”.

Một ví dụ khác “đại_diện viện_kiểm_sát”: là một cụm danh từ nhưng được hệ thống tách thành hai cụm danh từ. Một phần lý do là trong tập dữ liệu học, các từ được gán nhãn là Np-H thường là từ bắt đầu của một cụm danh từ.

Từ Từ loại Nhãn đúng Nhãn dự đoán

đại_diện N-H B-NP B-NP

Viện_Kiểm_sát Np-H I-NP B-NP

Tương tự ví dụ này, cụm danh từ “lọ thuốc Pennicillin” cũng được dự đoán thành hai cụm danh từ:

Từ Từ loại Nhãn đúng Nhãn dự đoán

lọ N-H B-NP B-NP

thuốc N I-NP I-NP

Penicillin Np-H I-NP B-NP

Những kết quả thực nghiệm trên cho thấy mô hình CRFs là một trong những phương pháp tiềm năng để giải quyết bài toán phân tách cụm danh từ tiếng Việt. Tôi cũng tin tưởng rằng, nếu lựa chọn tập thuộc tính phù hợp hơn và tập dữ liệu học lớn hơn, đa dạng hơn thì hệ thống sẽ đem lại kết quả cao hơn nữa.

KẾT LUẬN

Luận văn đã hệ thống hóa một số vấn đề về phân tách cụm danh từ tiếng Việt và đã đạt được những kết quả sau:

- Giới thiệu khái quát về bài toán phân tách cụm danh từ, khảo sát các nghiên cứu trước đó và các kết quả đã đạt được về phân tách cụm danh từ với các ngôn ngữ tiếng Anh, tiếng Trung, tiếng Hàn,… Luận văn nghiên cứu các phương pháp giải quyết bài toán, trong đó trình bày chi tiết hai thuật toán là thuật toán học dựa vào biến đổi và thuật toán máy vector hỗ trợ. Từ những khảo sát này, luận văn đề xuất phương án phân tách cụm danh từ tiếng Việt bằng phương pháp học máy sử dụng mô hình CRFs.

- Trình bày cơ bản về mô hình CRFs, gồm định nghĩa, cách ước lượng tham số cho CRFs và suy diễn CRFs. Các ưu điểm của CRFs so với các mô hình trước đó như HMMs, MEMMs cũng được tìm hiểu, phân tích.

- Nghiên cứu về cấu trúc và các đặc điểm của cụm danh từ tiếng Việt, từ đó chỉ ra những khó khăn mà mô hình phân tách cụm danh từ tiếng Việt gặp phải. Dựa vào cấu trúc này, luận văn đề xuất phương pháp xây dựng tập dữ liệu cho bài toán phân tách cụm danh từ tiếng Việt từ Viet treebank.

- Xây dựng tập dữ liệu cụm danh từ tiếng Việt gồm 5329 câu từ Viet treebank, biểu diễn theo định dạng IOB2.

- Áp dụng mô hình CRFs, kết quả thực nghiệm trên tập dữ liệu do luận văn xây dựng cho kết quả khả quan. Luận văn tiến hành thực nghiệm với các tập thuộc tính khác nhau, từ đó lựa chọn được tập thuộc tính cho kết quả cao nhất với độ đo F1 trung bình là 82.67%.

Bên cạnh đó, do thời gian và kiến thức có hạn, luận văn vẫn còn một vài hạn chế sau:

- Bộ dữ liệu được xây dựng tự động, mặc dù có rà soát thủ công nhưng do hạn chế về mặt thời gian và nguồn lực nên không tránh khỏi sai sót. Vì vậy đánh giá trên tập dữ liệu này có thể chưa mang tính khách quan.

- Luận văn sử dụng mô hình CRFs cho bài toán phân tách cụm danh từ tiếng Việt nên chưa có sự đối sánh kết quả với các phương pháp khác để chọn được phương án tốt nhất.

- Rà soát lại bộ dữ liệu, từ đó nghiên cứu và hiệu chỉnh bộ tiêu chí để xây dựng tập dữ liệu cho bài toán phân tách cụm danh từ tiếng Việt, mục tiêu là xây dựng được tập dữ liệu tiếng Việt chuẩn cho bài toán này.

- Áp dụng thêm một số thuật toán khác CRFs, từ đó tìm ra được phương pháp hiệu quả nhất đối với bài toán phân tách cụm danh từ tiếng Việt. Thử nghiệm trên nhiều bộ dữ liệu khác ngoài bộ dữ liệu do luận văn xây dựng (nếu có). - Trong các thử nghiệm trên, luận văn mới chỉ sử dụng các thuộc tính liên quan

tới từ vựng và từ loại. Các mẫu thuộc tính khác sẽ được nghiên cứu trong thời gian tới.

Tài liệu tham khảo Tài liệu tham khảo tiếng Việt

[1] Diệp Quang Ban và Hoàng Bân (2004), Ngữ pháp tiếng Việt, Nhà xuất bản Giáo dục, Hà Nội.

[2] Đồng Thị Bích Thủy, Hồ Bảo Quốc (2008), “Ứng dụng xử lý ngôn ngữ tự nhiên trong hệ tìm kiếm thông tin văn bản tiếng Việt”.

[3] Lại Thị Hạnh (2002), “Trích cụm danh từ tiếng Việt nhằm phục vụ cho các hệ thống tra cứu thông tin đa ngôn ngữ”, Luận văn Thạc sĩ tại Đại học Khoa học Tự nhiên TP.HCM.

[4] Nguyễn Tài Cẩn (1999), Ngữ pháp tiếng Việt, Nhà xuất bản Đại học Quốc gia Hà Nội.

[5] Nguyễn Chí Hiếu, “Ứng dụng xử lý ngôn ngữ tự nhiên trong dịch máy”. [6] Trần Ngọc Tuấn, Phan Thị Tươi (2004), “Phân tích cụm danh từ tiếng Việt sử

dụng văn phạm hợp nhất”, Tạp chí Bưu chính viễn thông.

Tài liệu tham khảo tiếng Anh

[7] Abney, Steven (1991), Parsing by chunks, In Berwick, Abney, and Tenny, editors, Principle-Based Parsing, Kluwer Academic Publishers.

[8] Andrew McCallum, Freitag, and Pereia (2000), “Maximum entropy markov models for information extraction and segmentation”, Proc. Interational Conference on Machine Learning.

[9] Andrew McCallum (2003), “Efficiently Inducing Features of Conditional Random Fields”, Conference on Uncertainty in Artificial Intelligence (UAI). [10] Akshar Bharathi, Prashanth R.Mannem (2007), “Introduction to the Shallow

Parsing Contest for South Asia Languages”, Proceedings of the IJCAI-2007 Workshop on Shallow Parsing for South Asian languages.

[11] Eric Brill (1993), A Corpus-Based Approach to Language Learning, phD thesis, University of Pennsylvania.

[12] Erik F. Tjong Kim Sang, Sabine Buchholz (2000), “Introduction to the CoNLL-2000 Shared Task: Chunking”, Proceedings of CoNLL-2000 and

[13] Erik F. Tjong Kim Sang (2000), “Noun Phrase Representation by System Combination”, Proceedings of ANLP-NAACL 2000, Seattle, WA, USA.

[14] Fabrizio Sebastiani (2002), “Machine Learning in Automated Text Categorization”, ACM Computing Survey, 34(1), pp.1-47.

[15] Fang Xu, Chengqing Zong (2006), “A Hybrid Approach to Chinese Base Noun Phrase Chunking”, Proceedings of the Fifth SIGHAN Workshop on

Chinese Language Processing, pp.87–93.

[16] Hanna M.Wallach (2004), “Conditional Random Fields: An Introduction”,

University of Pennsylvania CIS Technical Report MS-CIS-04-21.

[17] Hanna Wallach (2002), Efficient Training of Conditional Random Fields, Master of Science School of Cognitive Science Division of Informatics University of Edinburgh.

[18] Hong Shen and Anoop Sarkar, “Voting between Multiple Data Representations for Text Chunking”, Proceedings of the 18th Conference of the Canadian Society for Computational Studies of Intelligence.

[19] Lance A.Ramshaw, Mitchell P.Marcus (1995), “Text Chunking using Transformation-Based Learning”, Proceedings of the ACL 3rd Workshop on

Very Large Corpora, pp. 82-94 .

[20] Lafferty, John D.; McCallum, Andrew; Pereira, Fernando C. N.: Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. Proceedings of the Eighteenth International Conference on Machine Learning (ICML 2001), Morgan Kaufmann Publishers, 2001, pp. 282

[21] Le Minh Nguyen, Huong Thao Nguyen, Phuong Thai Nguyen, Tu Bao Ho, Akira Shimazu, “An empirical study of Vietnamese noun phrase chunking with discriminative sequence models”, Proceedings of the 7th Workshop on

Asian Language Resources, pp.9-16.

[22] Michael I. Jordan (2004), Graphical Models, Statistical Science (Special Issue on Bayesian Statistics), 19, pp.140-155.

[23] Michele Banko, Michael J Cafarella, Stephen Soderland, Matt Broadhead and Oren Etzioni (2007), “Open Information Extraction from the Web”, Proceedings

of the International Joint Conference on Artificial Intelligence.

[24] Nguyen Phuong Thai, Vu Xuan Luong, Nguyen Thi Minh Huyen, Nguyen Van Hiep, Le Hong Phuong, “Building a Large Syntactically-Annotated

Corpus of Vietnamese”, Proceedings of the 3rd Linguistic Annotation

Workshop (LAW) at ACL-IJCNLP 2009.

[25] H.X. Phan, M.L. Nguyen, Y. Inoguchi, and S. Horiguchi (2007), “High- Performance Training Conditional Random Fields for Large-Scale Applications of Labeling Sequence Data”, IEICE Transactions on

Information and Systems, Vol.E90-D, No.1, pp.13-21.

[26] J. Lafferty, A. McCallum, and F. Pereia (2001), “Conditional ramdom fields: probabilistic models for segmenting and labeling sequence data”, In International Conference on Machine Learning.

[27] Philipp Koehn (2004), “Pharoh: A Beam Search Decoder for Phrase-Based Statistical Machine Translation Models”, 6th Conference of the Association

for Machine Translation in the Americas, pp.115–124.

[28] Rahul Gupta (2005), “Conditional Random Fields”, Technical Report.

[29] Rie Kubota Ando, Tong Zhang (2005), “A High-Performance Semi- Supervised Learning Method for Text Chunking”, Proceedings of the 43rd

Annual Meeting on Association for Computational Linguistics, pp.1-9.

[30] Roman Klinger, Katrin Tomanek (2007), “Classical Probabilistic Methods and Conditional Random Fields”, Algorithm Engineering Report TR07-2-013, Department of Computer Science, Dortmund University of Technology.

[31] Sha, Pereira (2003), “Shallow parsing with conditional random fields”,

Technical Report MS-CIS-02-35, University of Pennsylvania.

[32] Sutton, C., McCallum (2006), “An Introduction to Conditional Random Fields for Relational Learning”, In Introduction to Statistical Relational

Learning, Edited by Lise Getoor and Ben Taskar. MIT Press.

[33] Taku Kudo, Yuji Matsumoto (2000), “Use of Support Vector Learning for Chunk Identification”, Proceedings of CoNLL-2000 and LLL-2000, pp.142- 144.

[34] Taku Kudo, Yuji Matsumoto (2001), “Chunking with Support Vector Machines”, Proceedings of the NAACL 2001, pp.192-199.

[35] Tjong Kim Sang, Jorn Veenstra (1999), “Representing text chunks”,

[36] Wenliang Chen, Yujie Zhang, Hitoshi Isahara (2006), “Chinese Chunking based on Conditional Random Fields”, NLP2006, Yokohama, Japan, pp. 149- 152.

[37] Yoav Goldberg, Meni Adler, Michael Elhadad (2006), “Noun Phrase Chunking in Hebrew Influence of Lexical and Morphological Features”,

Proceedings of the 21st International Conference on Computational

Linguistics and the 44th annual meeting of the ACL, pp.689-696.

[38] Yong-Hun Lee, Mi-Young Kim, and Jong-Hyeok Lee (2005), “Chunking Using Conditional Random Fields in Korean Texts”, Lecture Notes in Artificial Intelligence IJCNLP 2005.

[39] Yongmei Tan, Tianshun Yao, Qing Chen and Jingbo Zhu (2005), “Applying Conditional Random Fields to Chinese Shallow Parsing”, The 6th International Conference on Intelligent Text Processing and Computational Linguistics.

[40] Wengliang Chen, Yujie Zhang, Hotoshi Isahara (2006), “An Empirical Study of Chinese chunking”, In Proceedings of the 44th Annual Meeting of ACL, pp. 97-104.

[41] CRF++: Yet Another CRF Toolkit, http://crfpp.sourceforge.net/

[42] http://staff.science.uva.nl/~erikt/research/np-chunking.html

[43] http://www.cnts.ua.ac.be/conll2000/chunking/

Phụ lục: Tập nhãn từ loại và nhãn cú pháp trong Viet Treebank Tập nhãn từ loại: Tập nhãn từ loại: STT Tên Chú thích 1 N Danh từ 2 Np Danh từ riêng 3 Nc Danh từ chỉ loại 4 Nu Danh từ đơn vị 5 V Động từ 6 A Tính từ 7 P Đại từ 8 L Định từ 9 M Số từ 10 R Phụ từ 11 E Giới từ 12 C Liên từ 13 I Thán từ 14 T Trợ từ, tiểu từ, từ tình thái 15 U Từ đơn lẻ 16 Y Từ viết tắt

17 X Các từ không phân loại được

Tập nhãn cú pháp STT Tên Chú thích 1 NP Cụm danh từ 2 VP Cụm động từ 3 AP Cụm tính từ 4 RP Cụm phụ từ 5 PP Cụm giới từ 6 QP Cụm từ chỉ số lượng 7 MDP Cụm từ tình thái

9 WHAP Cụm tính từ nghi vấn (lạnh thế nào, đẹp ra sao, v.v.) 10 WHRP Cụm từ nghi vấn dùng khi hỏi về thời gian, nơi chốn, v.v. 11 WHPP Cụm giới từ nghi vấn (với ai, bằng cách nào, v.v.)

Tập nhãn mệnh đề:

STT Tên Chú thích

1 S Câu trần thuật (khẳng định hoặc phủ định)

2 SQ Câu hỏi

3 SBAR Mệnh đề phụ (bổ nghĩa cho danh từ, động từ, và tính từ)

Tập nhãn chức năng cú pháp:

STT Tên Chú thích

1 SUB Nhãn chức năng chủ ngữ

2 DOB Nhãn chức năng tân ngữ trực tiếp 3 IOB Nhãn chức năng tân ngữ gián tiếp

4 TPC Nhãn chức năng chủ đề

5 PRD Nhãn chức năng vị ngữ không phải cụm động từ 6 LGS Nhãn chức năng chủ ngữ logic của câu ở thể bị động 7 EXT Nhãn chức năng bổ ngữ chỉ phạm vi hay tần suất của

hành động

8 H Nhãn phần tử trung tâm (của cụm từ hoặc mệnh đề) 9-12 TC, MĐ,

EXC, SPL

Nhãn phân loại câu: đề-thuyết, mệnh lệnh, cảm thán, đặc biệt

13 TTL Tít báo hay tiêu đề

Kết quả bộ phân tách cụm danh từ theo kích thước tập dữ liệu huấn luyện

Một vài thống kê về tập dữ liệu