+ Câu bị ngắt khơng đúng; câu thừa Tag; câu bị liền,…
4.1.2. Phần cứng
Quá trình thực nghiệm được tiến hành trên máy tính cá nhân với thơng số cấu hình như sau:
+ CPU: Pentium Dual Core 2.8 GHZ; + RAM 2GB;
+ Hệ điều hành Windows 7 với JDK 1.8.011.
4.1.3. Phần mềm
Chúng tơi đã tiến hành quá trình thực nghiệm trên một số cơng cụ gán nhãn từ loại điển hình để làm cơ sở so sánh với mơ hình đã đề xuất, cụ thể như sau:
- Thực nghiệm gán nhãn từ loại Tiếng Việt với mơ hình cực đại hĩa Entropy bằng sử dụng cơng cụ mã nguồn mở vnTagger phiên bản 4.2.0 cập nhật ngày 05/08/2010 của tác giả Lê Hồng Phương và đồng nghiệp [54].
- Thực nghiệm gán nhãn từ loại Tiếng Anh với mơ hình cực đại hĩa Entropy bằng cơng cụ Standford Tagger phiên bản 3.3.0 cập nhật ngày 12/11/2012 của Kristina Toutanova và đồng nghiệp [58].
- Dựa trên cơ sở các cơng cụ gán nhãn trên, trong nghiên cứu này chúng tơi đã xây dựng cơng cụ gán nhãn từ loại dựa trên mơ hình kết hợp (COVTagger và COETagger).
Để tiến hành quá trình đánh giá kết quả thực nghiệm chúng tơi cũng đã xây dựng thêm các tiện ích trợ giúp bằng ngơn ngữ Java, bao gồm:
+ Chuyển ngữ liệu đã chú thích thành ngữ liệu thơ (LanguageTaggedToSentence); + Trích chọn đặc trưng về thơng tin từ vựng và từ loại trong từ điển từ loại (LanguageDicStatic);
+ So sánh và phân tích các nhãn từ loại bị sai trên ngữ liệu được gán nhãn bởi mơ hình cơ sở so với ngữ liệu chuẩn (LCompareAnalysesN) ;
+ Phát sinh luật chuyển đổi dựa trên mẫu luật và tập các vị trí bị sai nhãn từ loại (LGeneraltionRule);
+ Đánh giá các luật để tìm được tập luật tối ưu (KBestruler); + Áp dụng luật để cập nhật nhãn trên ngữ liệu (UpdateCorpus); + Đánh giá độ chính xác trên kết quả gán nhãn so với ngữ liệu chuẩn.
4.2. Phương pháp thực nghiệm
Để tiến hành quá trình thực nghiệm hệ thống, chúng tơi sử dụng cùng một tập ngữ liệu để thực nghiệm cho mơ hình cơ sở và mơ hình đề xuất. Các mơ hình được thực nghiệm bằng hai phương pháp độc lập holdout và k-fold cross-validation như sau:
+ Phương pháp Holdout:
Trước hết, kho ngữ liệu cĩ sẵn được chia theo tỉ lệ 19:1 thành hai phần MBcorpus
và Tcorpus. Ngữ liệu MBcorpus được sử dụng để huấn luyện mơ hình kết hợp, ngữ liệu
Tcorpus được sử dụng để kiểm tra mơ hình kết hợp đã đề xuất. Ngữ liệu MBcorpus được tiếp tục chia thành hai tập Mcorpus và Bcorpus theo tỉ lệ 3:1. Mcorpus được sử dụng để huấn luyện mơ hình cơ sở, ngữ liệu Bcorpus sử dụng để huấn luyện trong mơ hình TBL. Kết quả của quá trình huấn luyện ta thu được một tập luật cĩ điểm cao nhất đưa vào tập các luật Selected TBL Rules. Với phương pháp này, chúng tơi tiến hành quá trình thực nghiệm trên hai ngơn ngữ để rút ra đánh giá nhận xét tính hiệu quả của mơ hình đề xuất với hai loại ngơn ngữ cĩ những đặc trưng khác nhau.
+ Phương pháp K-Fold Cross-Validation:
Mục tiêu của phương pháp này là đánh giá mức độ ảnh hưởng của kích thước ngữ liệu huấn luyện đến độ chính xác của mơ hình kết hợp. Khi đĩ kho ngữ liệu cĩ sẵn cũng được chia thành K phần bằng nhau. K-1 phần sử dụng cho huấn luyện mơ hình, ký hiệu là MBcorpus và 1 phần sử dụng cho kiểm tra, ký hiệu là Tcorpus. Tại lần kiểm tra thứ i
ta lấy phần thứ i là ngữ liệu kiểm tra ký hiệu là Tcorpus_i và K-1 phần cịn lại được sử dụng làm ngữ liệu huấn luyện, ký hiệu là MBcorpus_i và. MBcorpus_i được tiếp tục chia thành hai tập Mcorpus_i và Bcorpus_i theo tỉ lệ 3:1. Mcorpus_i được sử dụng để huấn luyện mơ hình cơ sởvà Bcorpus_i được sử dụng để huấn luyện mơ hình TBL tương ứng với mơ hình cơ sở ở lần chia i. Độ chính xác của hệ thống sẽ được tính bằng tổng trung bình độ chính xác của K lần. Nghiên cứu của Ron Kohavi [59] đã chứng minh rằng khơng cĩ mơ hình lý thuyết nào hồn hảo để xác định giá trị của K. Bằng phương pháp thực nghiệm Ron Kohavi cũng đã chứng minh được K=10 được coi là giá trị đủ tốt để đánh giá các mơ hình thống kê.
4.3. Kết quả thực nghiệm
4.3.1. Các tham số đánh giá thực nghiệm
Độ chính xác của kết quả (tức là dữ liệu đầu ra của mơ hình). Đây là một trong những yếu tố quan trọng nhất cần phải xem xét để đánh giá độ tốt của một mơ hình. Đối với các thực nghiệm đã được tiến hành, độ chính xác của dữ liệu đầu ra được tính bằng cơng thức:
P = 𝑐𝑜𝑟𝑒𝑐𝑡𝑡𝑎𝑔
𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑡𝑎𝑔 + 𝑖𝑛𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑡𝑎𝑔
Thời gian xử lý của bộ gán nhãn. Thời gian này bao gồm: thời gian huấn luyện và thời gian gán nhãn (ở đây ta tính bằng thời gian kiểm thử trong các thực nghiệm). Ở đây ta ký hiệu thời gian huấn luyện là T (tính bằng đơn vị giây) và thời gian kiểm thử là t (tính bằng đơn vị giây); thời gian kiểm thử được tính bằng thời gian từ lúc mơ hình bắt đầu gán nhãn cho dữ liệu kiểm thử đến lúc đầu ra được in ra kết quả dữ liệu đã được gán nhãn một cách hồn chỉnh.
4.3.2. Kết quả
4.3.2.1. Phương pháp Holdout
+ Tiếng Việt
Method Accuracy (%) Tool T (Time(s)) t (Time(s))
ME 94.24129 vnTagger 7055.26362 155.78464
ME+ TBL 95.52747 COVTagger 11080.21568 225.41672
Bảng 4-7: Độ chính xác trên ngơn ngữ tiếng Việt với phương pháp Holdout
Method Accuracy (%) Tool T(Time(s)) t (Time(s))
ME 97.28132 Standford Tagger 14435.680 435.870
ME+ TBL 97.40542 COETagger 21725.580 655.780
Bảng 4-8: Độ chính xác trên ngơn ngữ tiếng Anh với phương pháp Holdout
4.3.2.2. Phương pháp K-Fold Cross-Validation
+ Tiếng Việt Accuracy (%) ME ME + TBL Fold 1 94,3787 95,60548 Fold 2 94,2905 95,42824 Fold 3 94,2472 95,45703 Fold 4 94,3299 95,51637 Fold 5 94,2221 95,41178 Fold 6 94,3881 95,13798 Fold 7 94,3591 95,6928 Fold 8 94,2322 95,60124 Fold 9 94,3473 95,44316 Fold 10 94,5227 95,72672 Trung bình 94,3318 95,50208
Bảng 4-9: Độ chính xác trên ngơn ngữ tiếng Việt với phương pháp K-Fold + Tiếng Anh Accuracy (%) ME ME + TBL Fold 1 97,2099 97,2561 Fold 2 97,47282849 97,57002739 Fold 3 97,34704 97,42482 Fold 4 97,08126 97,15224 Fold 5 97,14311 97,2058 Fold 6 97,29132 97,41524 Fold 7 97,27654 97,32119 Fold 8 97,34803 97,43413 Fold 9 97,38270308 97,4702381
Fold 10 97,30203 97,35459
Trung bình 97,28548 97,36044
Bảng 4-10: Độ chính xác trên ngơn ngữ tiếng Anh với phương pháp K-Fold
Quá trình thực nghiệm trên mơ hình cơ sở và mơ hình kết hợp cho bài tốn gán nhãn từ loại sử dụng 2 kho dữ liệu và 2 tập nhãn tương ứng khác nhau trên cùng một mơi trường thực nghiệm cĩ thể đưa ra một số nhận xét như sau:
- Kết quả thực nghiệm cho thấy tính khả quản của các hướng tiếp cận tích hợp cho bài tốn gãn nhãn từ loại, đặc biệt cho các ngơn ngữ mà kho ngữ liệu chưa “đầy đủ” như Tiếng Việt. Dù thời gian cho việc huấn luyện mơ hình lớn hơn so với các mơ hình cơ sở nhưng kết quả đem lại được cải thiện một cách đáng kể chất lượng gán nhãn.
- Ưu điểm của mơ hình kết hợp là kết hợp được rất nhiều đặc trưng phong phú đặc biệt các đặc trưng hiếm mà trong mơ hình cơ sở chưa giải quyết. Dù chưa cĩ nhiều thời gian để xây dựng tập đặc trưng đủ tốt cho bài tốn gãn nhãn từ loại nhưng kết quả đạt được là đáng ghi nhận.
- Thời gian huấn luyện của mơ hình cơ sở và mơ hình kết hợp phụ thuộc vào kích thước của ngữ liệu huấn luyện và ngữ liệu kiểm tra.
KẾT LUẬN
Kết quả đạt được
Trong các luận văn này chúng tơi đề xuất sử dụng mơ hình kết hợp để giải quyết bài tốn khử nhập nhằng. Với bài tốn gán nhãn từ loại, chúng tơi kết hợp mơ hình cực đại hĩa Entropy và mơ hình học luật chuyển đổi để giải quyết bài tốn gán nhãn từ loại với những kết quả đạt được tiếng Việt là khoảng 95.50% (tăng khoảng 1.18%) và tiếng Anh là 97.40% (tăng khoảng 0.12%) so với mơ hình cơ sở, cụ thể như sau:
- Tìm hiểu về các phương pháp học máy cực đại hĩa Entropy và luật chuyển đổi trong ngữ cảnh bài tốn gán nhãn từ loại. Đề xuất tập 30 mẫu luật chuyển đổi cho tiếng Việt phục vụ cho mơ hình học luật chuyển đổi.
- Đề xuất một cách kết hợp giữa mơ hình cực đại hĩa Entropy và mơ hình học luật chuyển đổi để giải quyết bài tốn gán nhãn từ loại. Phát triển và xây dựng hồn thành cơng cụ gán nhãn từ loại tiếng Việt dựa trên mơ hình kết hợp trên ngơn ngữ JAVA. - Tiến hành thực nghiệm trên hai kho ngữ liệu Penn TreeBank và Viet TreeBank và kết quả thực nghiệm đạt được tốt hơn so với mơ hình cơ sở cho thấy tính khả quản của các hướng tiếp cận kết hợp cho bài tốn gãn nhãn từ loại, đặc biệt cho các ngơn ngữ mà kho ngữ liệu chưa “đầy đủ” như Tiếng Việt.
- Phát hiện và chỉnh sửa trên gần 300 câu trong kho ngữ liệu với hơn 400 lỗi ngoại lệ. - Chúng tơi cũng đã trình bày kết quả nghiên cứu của chúng tơi với bài báo “Improving Part-Of-Tagging using Maximum Entropy Models with Transformation Based Learning Models” và cơng bố một bài báo với hướng mơ hình kết hợp đã đề xuất cho bài tốn xử lý nhập nhằng nghĩa của từ “Combining Statistical Machine Learning with Transformation Rule Learning for Vietnamese Word Sense Disambiguation” tại hội nghị RIVF năm 2012.
Hướng phát triển
- Tiếp tục nghiên cứu và xây dựng tập đặc trưng phong phú hơn cho từng ngơn ngữ. - Xây dựng bổ sung thêm dữ liệu cho từ điển từ loại tiếng Việt nhằm cải thiện thời gian huấn luyện trong mơ hình cực đại hĩa Entropy.
- Nghiên cứu áp dụng mơ hình kết hợp trên các bài tốn khác trong xử lý ngơn ngữ tự nhiên.
- Nghiên cứu phương pháp cân bằng ngữ liệu trước khi thực hiện các thao tác huấn luyện hệ thống nhằm cải thiện chất lượng mơ hình thống kê thu được sau quá trình huấn luyện.
DANH MỤC CÁC CƠNG TRÌNH LIÊN QUAN ĐẾN LUẬN VĂN
[1] Phu - Hung Dinh, Ngoc - Khuong Nguyen, Anh - Cuong Le. "Combining Statistical Machine Learning with Transformation Rule Learning for Vietnamese Word Sense Disambiguation". In Computing and Communication Technologies, Research, Innovation, and Vision for the Future (RIVF), 2012 IEEE RIVF International Conference on, pp. 62-67. IEEE, 2012.
TÀI LIỆU THAM KHẢO
[1] M. P. Lewis, Ethnologue: Languages of the World, 16th edition, Ethnologue, 2009.
[2] P. T. T. C. H. T. Nguyễn Quang Châu, “Gán nhãn từ loại cho Tiếng Việt dựa trên văn phong và tính tốn xác suất,” Tạp chí phát triển KH&CN, pp. Tập 9, số 2, 2006.
[3] Y. Halevi, "Part of Speech Tagging Slide," The Blavatnik School of Computer Science– Tel Aviv University, 25 April 2006.
[4] R. M. Paroubek P., "Etiquetage morpho-syntaxique," in Ingénierie des langues, Hermes Science Europe, 2000, p. Chapitre 5.
[5] B. E., "Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging," Computational Linguistics,
vol. 21, no. 4, pp. 543-565, December 199.
[6] K. G. Dermatas E., "Automatic Stochastic Tagging of Natural Language Texts,"
Computational Linguistics, vol. 21, no. 2, pp. 137 - 163, 1995.
[7] S. H., "Part-of-Speech Tagging with Neural networks," in International Conference on Computational Linguistics, Kyoto, Japan, 1994.
[8] S. T. El-Bèze M, "Etiquetage probabiliste et contraintes syntaxiques," in Actes de la conférence sur le Traitement Automatique du Langage Naturel (TALN95), Marseille, France, 14-16/6/1995.
[9] T. D., "Tiered Tagging and combined classifier," In Jelineck F. and Nưrth E. (Eds),Text, Speech and Dialogue, Lecture Notes in Artificial Intelligence 1692, Springer, 1999.
[10] H. L. S. H. M. Robert Dale, Handbook of Natural Language Processing, New York, NY, USA: Marcel Dekker, Inc, 2000.
[11] J. H. M. Daniel Jurafsky, Speech and Language Processing, Prentice-Hall, Inc, 2000.
[12] M. K. K. T. S. K. Nakamura M., "Neural network approach to word category prediction for English texts," in Proceedings of the 13th Conference on Computational Linguistics (COLING 90), Prentice-Hall, Inc, 1990.
[13] J. G. ,. Y. Z. ,. X. C. ,. A. W. Jie Yang, "An Automatic Sign Recognition and Translation System," in PUI '01 Proceedings of the 2001 workshop on Perceptive user interfaces , New York, NY, USA, 2001.
[14] S. B.-G. a. Z. Z. Dragomir Radev, "Experiments in single and multi-document summarization using MEAD," in First Document Understanding Conference, New Orleans, LA, September 2001.
[15] A. A. A. a. L. Asker, "An Amharic Stemmer : Reducing Words to their Citation Forms," in In proceedings of Computational Approaches to Semitic Languages: Common Issues and Resources, Prague, Czech Republic, June 2007.
[16] S. Dandapat, "Part-of-Speech Tagging for Bengali," Indian Institute of Technology, Kharagpur, 2011.
[17] Greene B. B. and Rubin G. M., "Automatic grammatical tagging of English," Technical Report, Department of Linguistics, Brown University., 1971.
[18] J. H. D. Jurafsky, Speech and Language Processing, Englewood Cliffs, New Jersey 07632: Prentice Hall, 1999.
[19] H. L. S. H. M. Robert Dale, Handbook of Natural Language, New York, NY, USA: Marcel Dekker, Inc, 2000.
[20] B. E., "A simple rule-based part-of-speech tagger," in In Proceedings of the 3rd Conference on Applied NLP, 1992.
[21] B. E., "Transformation-based error-driven learning and Natural Language Processing: A case study in part-of-speech tagging," Computational Linguistics,
vol. 21, no. 4, pp. 543-565, 1995a.
[22] B. E., "Unsupervised learning of disambiguation rules for part of speech tagging," in In Proceedings of 3rd Workshop on Very Large Corpora Workshop, Massachusetts, 1995b.
[23] L. H. Quỳnh, “So sánh một số phương pháp học máy cho bài tốn gán nhãn từ loại tiếng Việt,” Luận văn cao học, trường Đại học Cơng nghệ, Đại học Quốc gia Hà Nội, Hà Nội, 2009.
[24] T. T. Oanh, “Mơ hình tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng Việt,” Luận văn cao học, trường Đại học Cơng nghệ, Đại học Quốc gia Hà Nội, Hà Nội, 2008.
[25] A. M. F. P. John Laferty, "Conditional Random Fields: Probabilistic Models for segmenting and labeling Sequence Data," in Proc. of the Eighteenth International Conference on Machine Learning (ICML-2001), 2001.
[26] J. D. M. G. M. M.-S. J. R. M.-B. a. A. J. S. Emilio Soria Olivas, Handbook of Research on Machine Learning Applications and Trends: Algorithms, Methods, and Techniques, 2009.
[27] K. T. a. M. Y. Nakagawa T., "Unknown word guessing and part-of-speech tagging using support vector machines," In Proceedings of the Sixth Natural Language Processing Pacific Rim Symposium, pp. 325-331, 2001.
[28] G. J. a. M. L., "Fast and accurate part-of-speech tagging: The SVM approach revisited," in In Proceedings of RANLP, 2003.
[29] J. F. L. J. M. R. a. R. S. Black E., "Decision tree models applied to the labeling of text with parts-of-speech.," in In Proceedings of the DARPA workshop on Speech and Natural Language, Harriman, New York., 1992.
[30] E. M. a. G. B., "Tagging experiment using neural networks.," in In Proceeding of the 9th Nordic Conference of Computational Linguistic, Sweden, 1994.
[31] M. Q. a. I. H., "A multi-neuro tagger using variable lengths of contexts.," in In Proceedings of the 17th international conference on Computational linguistics, Montreal, Quebec, Canada, 1998.
[32] K. J. H. a. K. G. C., "Fuzzy network model for part-of-speech tagging under small training data," Natural Language Engineering, vol. 2, no. 2, pp. 95-110, 1996. [33] Y. Z. T. L. a. S. L. Jinshan M., "A Statistical Dependency Parser of Chinese under
Small Training Data," 2004.
[34] A. M. a. M. Y., "Extended models and tools for high- performance part-of-speech tagger," in Proceedings of the 18th conference on Computational linguistics, Saarbrücken, Germany, 2000.
[35] H. M. a. M. Y., "Mistake-driven mixture of hierarchical tag context trees," in In Proceedings of the eighth conference on European chapter of the Association for Computational Linguistics, Madrid, Spain, 1997.
[36] S. S. a. B. A. Dandapat S., " Automatic Part-of-Speech Tagging for Indian: An approach for Morphologically Rich Languages in a Poor Resource Scenario.," in
In Proceedings of the Association of Computational Linguistics (ACL ), Prague, Czech Re, 2007.
[37] B. C., "Unsupervised Natural Language Processing using Graph Models," in In Proceedings of the NAACL-HLT Doctoral Consortium, Rochester, 2007.
[38] D. S. a. N. V., "Unsupervised Part-of-Speech Acquisition from Resource-Scare Languages," in In Proceedings of the Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, Prague, 2007.
[39] M. R. S. S. G. K. a. B. P. Shrivastav M., "Conditional Random Field Based POS Tagger for Hindi," in In Proceedings of the MSPIL, Bombay, 2006.
[40] M. Y. a. T. J. Kazama J., "A maximum entropy tagger with unsupervised hidden markov models," in In Proceedings of the 6th NLPRS, 2001.
[41] S. G. a. P. F., "Aggregate and mixedorder Markov models for statistical language processing," in In Proceedings of the 2nd International Conference on Empirical Methods in Natural Language Processing., 1997.