Đối với ngôn ngữ tiếng Anh, hầu hết các nghiên cứu đã sử dụng các kho ngữ liệu nhƣ Senseval-1, Senseval-2, Senseval-3, v...v. Theo hiểu biết của chúng tôi, kho ngữ liệu chuẩn cho tiếng Việt không có nên cần thiết phải xây dựng một kho ngữ liệu phục vụ cho việc đánh giá hiệu quả của các phƣơng pháp khử nhập nhằng nghĩa của từ. Công việc thực hiện xây dựng kho ngữ liệu nhƣ sau:
Thứ nhất, chúng tôi lựa chọn 10 từ đa nghĩa trong tiếng Việt gồm có: Bạc - Danh từ, Bạc - Tính Từ, Cất - Động Từ, Câu - Danh Từ, Câu - Động Từ, Cầu - Danh Từ, Khai - Động Từ, Pha - Động Từ, Phát - Động Từ, Sắc - Danh Từ. Những từ đa nghĩa đã đƣợc lựa chọn này là các từ có nhiều nghĩa trong từ điển.
Thứ hai, chúng tôi thu thập 1.2 GB dữ liệu (khoảng 120.000 bài báo từ các trang tin của việt nam nhƣ vnexpress.net, dantri.com.vn, ...) bằng cách sử dụng phần mềm mã nguồn mở Vietspider. Sau đó chúng tôi tiến hành trích rút ngữ cảnh cho 10 từ nhập nhằng. Ngữ cảnh ở đây đƣợc chúng tôi chọn là một số câu quanh từ nhập nhằng. Ví dụ, ngữ cảnh cho từ nhập nhằng "bạc" nhƣ sau:
Trọng tâm của tháng là sự hòa hợp trong gia đình, khi các thành viên đồng thuận về con đƣờng sự nghiệp của bạn. Giữa tháng 3, tình hình tài chính của bạn cải thiện rất nhiều. Tiền "bạc" vẫn đổ dồn về, nhƣng phải luôn biết cách chi tiêu hợp lý. Đây cũng là khoảng thời gian thích hợp để bạn đầu tƣ vào các tài sản cố định. Nếu may mắn, bạn sẽ thu về một khoản tiền lớn.
Hình 4.3. Một ví dụ về ngữ cảnh của từ đa nghĩa "bạc"
Sau đó, những ngữ cảnh cho 10 từ nhập nhằng đƣợc tiến hành gán nhãn bằng
tay để tạo ra kho ngữ liệu labeled corpus. Bảng 4.1 mô tả chi tiết về số lƣợng mẫu và
Bảng 4.1. Bảng thống kê trên các dữ liệu đƣợc gán nhãn
No Word Part of speech Senses Examples
1 Bạc Noun 4 1224 2 Bạc Adj 4 552 3 Cất Verb 8 1203 4 Câu Noun 2 3142 5 Câu Verb 3 295 6 Cầu Noun 2 1174 7 Khai Verb 4 3459 8 Pha Verb 2 592 9 Phát Verb 8 2151 10 Sắc Noun 4 2000
Để tiến hành thực nghiệm hệ thống mà chúng tôi đề xuất, chúng tôi tiến hành xây dựng một số kho ngữ liệu nhƣ sau:
Thứ nhất, từ kho ngữ liệu đƣợc gán nhãn bằng tay labeled corpus, chúng tôi chia kho ngữ liệu này thành hai phần theo tỉ lệ 3:1, thu đƣợc hai kho ngữ liệu gọi là
data-corpus 1 và data-corpus 2 tƣơng ứng. Kho ngữ liệu data-corpus 1 đƣợc sử dụng
cho giai đoạn huấn luyện còn kho ngữ liệu data-corpus 2 đƣợc sử dụng cho giai đoạn
kiểm tra trong các mô hình phân lớp nhƣ NB, TBL, SVM và mô hình chúng tôi đề xuất.
Thứ hai, kho ngữ liệu data-corpus 1 đƣợc sử dụng cho mục đích xây dựng các
luật chuyển (TBL rules). Vì vậy, chúng tôi chia ngẫu nhiên kho ngữ liệu này N lần thành hai phần theo tỉ lệ 3:1. Kho ngữ liệu training-corpus-i đƣợc sử dụng cho giai
đoạn huấn luyện lên mô hình học máy Naive Bayes và kho ngữ liệu developing-
corpus-i đƣợc sử dụng cho việc sinh tập luật để xửa lỗi sai của mô hình học máy Naive
Bayes. Lý do chia kho ngữ liệu data-corpus 1 thành N lần nhƣ vậy là với mục đích thu
đƣợc một tập các luật chuyển có chất lƣợng nhiều nhất có thể. Số N này đƣợc chúng tôi xác định bằng thực nghiệm. Khi số lần chia kho ngữ liệu lớn hơn N mà tập luật chuyển sau khi kết hợp không làm tăng độ chính xác của hệ thống so với từng tập luật chuyển riêng lẻ và thậm chí còn làm giảm độ chính xác của hệ thống thì có thể chọn số lần chia kho ngữ liệu là N.
Để thấy đƣợc việc phân chia tập mẫu thành các phần, hãy xem Bảng 4.2 mô tả chi tiết số lƣợng các tập dùng cho huấn luyện, phát triển và kiểm tra tƣơng ứng.
Bảng 4.2. Thống kê trên tập mẫu đƣợc phân chia
No Word
Part of speech
Corpus 1 Corpus 2
Training Developing Test
1 Bạc Noun 687 230 307 2 Bạc Adj 308 105 139 3 Cất Verb 673 229 301 4 Câu Noun 1767 589 786 5 Câu Verb 163 57 75 6 Cầu Noun 659 220 295 7 Khai Verb 1944 650 865 8 Pha Verb 331 112 149 9 Phát Verb 1205 408 538 10 Sắc Noun 1124 376 500 4.2. Kết quả thực nghiệm
Trong phần này, chúng tôi sẽ trình bày kết quả thực nghiệm thu đƣợc trên 4 mô hình phân lớp khác nhau: Mô hình Naive Bayes, mô hình TBL, mô hình SVM, và mô hình chúng tôi đề xuất (nó là sự kết hợp của hai mô hình Naive Bayes và TBL). Từ những dữ liệu đã chuẩn bị ở trên, chúng tôi tiến hành đánh giá độ chính xác của các mô hình nhƣ sau:
Thứ nhất, chúng tôi tiến hành đánh giá độ chính xác đối với mô hình phân lớp Naive Bayes và thu đƣợc kết quả cho tiết trong bảng 4.3. Độ chính xác trung bình thu đƣợc là vào khoảng 86.5%.
Bảng 4.3. Kết quả của mô hình Naive Bayes
No Word POS Training Test Accuracy(%)
1 Bạc Noun 917 307 81.8 2 Bạc Adj 413 139 85.6 3 Cất Verb 902 301 84.4 4 Câu Noun 2356 786 97.6 5 Câu Verb 220 75 85.3 6 Cầu Noun 879 295 95.6 7 Khai Verb 2594 865 90.4 8 Pha Verb 443 149 79.2 9 Phát Verb 1613 538 73.6 10 Sắc Noun 1500 500 91.6 Trung bình 1328 444 86.5
Thứ hai, với mỗi từ nhập nhằng, sử dụng giải thuật huấn luyện đã đề xuất trong mục 3.1.1., chúng tôi thu đƣợc danh sách các luật chuyển. Nhƣ đã đê cập trong mục
4.1 về số N là số lần chia kho ngữ liệu data-corpus 1 thành hai kho ngữ liệu training-
corpus và developing-corpus, bằng thực nghiệm chúng tôi đã xác định đƣợc giá trị N=10. Bởi vì khi chúng tôi tăng giá trị N lớn hơn 10, danh sách các luật chuyển có thể thu đƣợc nhiều hơn nhƣng độ chính xác của hệ thống sẽ bị giảm.
Thực hiện quá trình huấn luyện theo mô hình mà chúng tôi đề xuất ứng với N = 10 cho từ đa nghĩa "bạc" (từ loại là tính từ), chúng tôi thu đƣợc 10 danh sách luật chuyển tƣơng ứng (Xem chi tiết trong Bảng 4.4). Ngoài ra một số luật chuyển đối với từ đa nghĩa "bạc" có thể xem trong hình 4.1.
4→2 word vàng @ [-1] 2→4 word sới@ [-1]
2→1word cao @ [1] & word cấp @[2] 2→3 word tiền@ [1]
2→3 word mấy@ [-2] & word triệu@[-1] 3→2 word tờ@ [-1]
4→1 word két @ [-1]
Hình 4.1. Một số luật chuyển cho từ bạc
Bảng 4.4. Kết quả của mô hình NB&TBL đối với từ nhập nhằng "Bạc"
No List of Rules Accuracy of NB& TBL(%) 1 List rules 1 89.2 2 List rules 2 89.9 3 List rules 3 89.2 4 List rules 4 89.9 5 List rules 5 89.9 6 List rules 6 89.9 7 List rules 7 89.2 8 List rules 8 90.6 9 List rules 9 92.1 10 List rules 10 89.2 11 Combined rules 92.8
Từ bảng kết quả trên, một lần nữa ta thấy đƣợc rằng, việc kết hợp danh sách các luật lại với nhau sẽ thu đƣợc một danh sách các luật tốt hơn so với từng bộ luật riêng rẽ. Chính điều này giúp nâng cao độ chính xác của hệ thống.
Cuối cùng, chúng tôi tiến hành áp dụng các mô hình phân lớp nhƣ NB, TBL, SVM và mô hình chúng tôi đề xuất (NB & TBL) đối với 10 từ đa nghĩa đã chọn ở trên. Riêng đối với mô hình SVM, chúng tôi sử dụng công cụ livsvm (công cụ này sẵn có tại địa chỉ: http://www.csie.ntu.edu.tw/~cjlin/libsvm/). Kết quả thực nghiệm đƣợc trình bày chi tiết trong bảng 4.5.
Bảng 4.5. Kết quả thực nghiệm trên các mô hình
No Word POS Training Test
Accur1 (%) Accur2 (%) Accur3 (%) Accur4 (%) 1 Bạc Noun 917 307 81.8 82.4 84.4 88.6 2 Bạc Adj 413 139 85.6 83.5 88.5 92.8 3 Cất Verb 902 301 84.4 79.7 86.4 89.7 4 Câu Noun 2356 786 97.6 97.3 97.8 98.3 5 Câu Verb 220 75 85.3 88.0 86.7 96.0 6 Cầu Noun 879 295 95.6 85.4 95.6 95.9 7 Khai Verb 2594 865 90.4 88.2 91.2 92.9 8 Pha Verb 443 149 79.2 76.5 81.2 83.9 9 Phát Verb 1613 538 73.6 75.2 77.1 80.9 10 Sắc Noun 1500 500 91.6 83.2 92.8 94.0 Trung Bình 86.5 83.9 88.1 91.3
Accur1: Accuracy of NB model
Accur2: Accuracy of TBL model
Accur3: Accuracy of SVM model
KẾT LUẬN
Trong luận văn này, chúng tôi đã nghiên cứu bài toán khử nhập nhằng nghĩa của từ, đặc biệt là bài toán khử nhập nhằng nghĩa của từ tiếng Việt mà theo hiểu biết của chúng tôi chƣa có nhiều các nghiên cứu về vấn đề này. Các công việc nghiên cứu của chúng tôi để giải quyết bài toán này gồm có:
Thứ nhất, chúng tôi tiến hành nghiên cứu một số phƣơng pháp tiếp cận cơ bản để giải quyết bài toán khử nhập nhằng nghĩa của từ nhƣ: phƣơng pháp Naive Bayes, phƣơng pháp TBL, phƣơng pháp SVM. Chính những phƣơng pháp này đã đƣợc chúng tôi sử dụng trong phần thực nghiệm, coi đó nhƣ là cơ sở để đánh giá hiệu năng của hệ thống khử nhập nhằng nghĩa của từ.
Thứ hai, chúng tôi tìm hiểu về cách biểu diễn ngữ cảnh của từ nhập nhằng và một số phƣơng pháp lựa chọn đặc trƣng, qua đó đề xuất việc lựa chọn đặc trƣng thích hợp với bài toán khử nhập nhằng nghĩa của từ tiếng Việt. Các đặc trƣng này đƣợc chúng tôi sử dụng trong các phƣơng pháp tiếp cơ bản. Ngoài ra, chúng tôi cũng đề xuất tập luật mẫu (trong phƣơng pháp học dựa trên luật chuyển) để thu đƣợc những luật chuyển có chất lƣợng.
Thứ ba, các nghiên cứu khử nhập nhằng nghĩa của từ cho tiếng Anh hay một số ngôn ngữ khác đều sử dụng các kho ngữ liệu chuẩn nhƣ Senseval-1, Senseval-2,
Senseval-3, v...v. Theo hiểu biết của chúng tôi, kho ngữ liệu chuẩn cho tiếng Việt chƣa có, chính vì vậy chúng tôi đã tiến hành xây dựng kho ngữ liệu đã gán nhãn đối với 10 từ nhập nhằng trong tiếng Việt.
Cuối cùng, trên cơ sở nhận thấy mô hình học máy thống kê chung vẫn còn
những hạn chế, chúng tôi đề xuất một mô hình mới cho việc khử nhập nhằng nghĩa của từ bằng cách sử dụng phƣơng pháp học dựa trên luật để sửa lỗi cho mô hình học máy thống kê. Chúng tôi đã tiến hành thực nghiệm hệ thống đối với 10 từ đa nghĩa trong tiếng Việt và thu đƣợc kết quả tốt nhất khi so sánh với kết quả của các phƣơng pháp tiếp cận cơ bản. Hệ thống chúng tôi đề xuất cho độ chính xác cao hơn lần lƣợt là 4.8%, 7.4% và 3.1% khi so sánh với kết quả của các mô hình phân lớp NB, TBL và SVM tƣơng ứng. Điều đó cho thấy mô hình mà chúng tôi đề xuất cũng có thể áp dụng khử nhập nhằng cho các ngôn ngữ khác và chúng tôi tin rằng phƣơng pháp này có thể đƣợc áp dụng để giải quyết các vấn đề khác của xử lý ngôn ngữ tự nhiên nhƣ gán nhãn từ vựng, phân tích cú pháp, v...v
DANH MỤC CÁC CÔNG TRÌNH LIÊN QUAN ĐẾN LUẬN VĂN
Phu - Hung Dinh, Ngoc - Khuong Nguyen, Anh - Cuong Le. "Combining Statistical Machine Learning with Transformation Rule Learning for Vietnamese Word Sense
Disambiguation". In Computing and Communication Technologies, Research,
Innovation, and Vision for the Future (RIVF), 2012 IEEE RIVF International Conference on, pp. 62-67. IEEE, 2012.
TÀI LIỆU THAM KHẢO
[1] Agirre E., Martinez D., (2001), "Decision lists for english and basque",
Proceedings of the SENSEVAL-2 Workshop, pp. 115-118.
[2] Artiles J., Gonzalo J., Sekine S. (2007), "The Semeval-2007 WEPS evaluation: Establishing a bench-mark for the Web people search task", Proceedings of the 4th International Workshop on Semantic Evaluations(SemEval, Prague, Czech Republic), pp. 64-69.
[3] Berger A.L., Pietra S.A.D., Pietra V.J.D. (1996), “A maximum entropy approach to natural language processing” Computational Linguistics, vol. 22, pp. 39-71. [4] Brill E. (1995), “Transformation-based error-driven learning and natural
language processing: a case study in part-of-speech tagging”, Journal
Computational Linguistic, vol. 21, pp. 543-565.
[5] Brody S., Navigli R., Lapata M. (2006), "Ensemble Methods for Unsupervised
WSD", Proceedings of the 44th Annual Meeting of the Association for
Computational Linguistics (COLING-ACL 2006), pp. 97-104.
[6] Brown P.F., Della Pietra S.A., Della Pietra V.J., Mercer R.L. (1991), "Word
Sense Disambiguation Using Statistical Methods", Proceedings of ACL, pp. 264-
270.
[7] Bruce R., Wiebe J. (1994), "Word Sense Disambiguation using Decomposable Models", Proceedings of ACL, pp. 139-145.
[8] Dill S., Eiron N., Gibson D., Gruhl D., Guha R., Jhingran A., Kanungo T., Rajagopalan S., Tomkins A., Tomline J.A., Zien J.Y. (2003), "Semtag and Seeker: Bootstrapping the semantic Web via automated semantic annotation",
Proceedings of the 20th International Conference on World Wide Web, pp.178– 186.
[9] Gale W.A., Church K.W., Yarowsky D. (1992), “A method for disambiguating
word senses in a large corpus”, Computers and the Humanities, vol. 26, pp. 415-
439.
[10] Ide N., Véronis J. (1998), “Introduction to the special issue on word sense disambiguation: the state of the art,” Comput. Linguist., vol. 24, pp.2-40.
[11] Jacquemin B., Brun C., Androux C. (2002), "Enriching a text by semantic disambiguation for information extraction". Proceedings of the Workshop on Using Semantics for Information Retrieval and Filtering in the 3rd International Conference on Language Resources and Evaluations, pp.1-10.
[12] Joachims T. (1999), "Transductive Inference for Text Classification Using Support Vector Machines", Proceedings of ICML, pp 200-209.
[13] Karen S.J., (1964), Synonymy and Semantic Classification, Ph.D. thesis, University of Cambridge, Cambridge, UK.
[14] Karov Y., Edelman S., (1998), "Similarity-Based Word Sense Disambiguation",
Computational Linguistics, Vol. 24(1), pp. 41-59.
[15] Leacock C., Chodorow M., Miller G. (1998), "Using Corpus Statistics and WordNet Relations for Sense Identification", Computational Linguistics, pp. 147-165.
[16] Le C.A. (2007), A study of classifier combination and semi-supervised learning for word sense disambiguation, Ph.D. Thesis, School of Information Science Japan Advanced Institute of Science and Technology.
[17] Le C.A., Shimazu A. (2004), “High word sense disambiguation using naive bayesian classifier with rich features”, The 18th Pacific Asia Conference on Language, Information and Computation (PACLIC), pp. 105-113.
[18] Lee Y.K., Ng H.T., Chia T.K. (2004), “Supervised word sense disambiguation
with support vector machines and multiple knowledge sources”, Third
International Workshop on the Evaluation of Systems for the Semantic Analysis of Text, pp. 137–140.
[19] Lee Y.K., Ng H.T. (2002), "An Empirical Evaluation of Knowledge Sources and
Learning Algorithms for Word Sense Disambiguation", Proceedings of EMNLP,
pp 41-48.
[20] Lesk M. (1986), “Automatic sense disambiguation using machine readable
dictionaries: how to tell a pine cone from an ice cream cone”, Proceedings of the
5th annual international conference on Systems documentation, ser. SIGDOC’86., pp. 24-26.
[21] Lesk M. (1986), "Automated Word Sense Disambiguation Using Machine Readable Dictionaries: How to Tell a Pine Cone from an Ice Cream Cone",
Proceedings of the ACM SIGDOC Conference, pp. 24-26.
[22] Malin B., Airoldi E., Andcarley K.M. (2005), "A network analysis model for disambiguation of names in lists", Journal Computational & Mathematical Organization Theory, pp. 119-139.
[23] Markert K., Nissim M. (2007), "SemEval-2007 Task 08: Metonymy resolution at Semeval-2007", Proceedings of the 4th International Workshop on Semantic Evaluations (SemEval, Prague, Czech Republic), pp. 36-41.
[24] Masterman M. (1957)s, "The thesaurus in syntax and semantics", Mechanical Translation 4, pp. 1-2.
[25] Mihalcea R.F. (2002), “Word sense disambiguation with pattern learning and
automatic feature selection”, Journal Natural Language Engineering, vol. 8, pp.
343–358.
[26] Mihalcea R. (2004), "Co-training and Self-training for Word Sense Disambiguation", In Proceedings of CoNLL, pp. 33-40.
[27] Milidiú R.L., Duarte J.C., Nogueira C., Santos D. (2007), Current Topics in Artificial Intelligence, Springer-Verlag, Berlin, Heidelberg, pp. 180-189.
[28] Navigli R., Velardi P. (2005), “Structural semantic interconnections: A
knowledge-based approach to word sense disambiguation”, IEEE Transactions
on Pattern Analysis and Machine Intelligence, vol. 27, pp. 1075–1086.
[29] Ng H.T (1997), "Exemplar-Based Word Sense Disambiguation: Some Recent Improvements", Proceedings of EMNLP, pp.
[30] Ng H.T., Lee H.B. (1996), "Integrating Multiple Knowledge Sources to
Disambiguate Word Sense: An Exemplar-Based Approach", Proceedings of
ACL, pp 40-47.
[31] Ngai G., Florian R. (2001), “Transformation-based learning in the fast lane”,
Proceedings of the second meeting of the North American Chapter of the Association for Computational Linguistics on Language technologies, ser. NAACL’01., pp. 1-8.
[32] Pedersen T. (2001), “A decision tree of bigrams is an accurate predictor of word
sense,” Proceedings of the second meeting of the North American Chapter of the
Association for Computational Linguistics on Language technologies, ser. NAACL ’01., pp. 1-8.
[33] Pedersen T. (2000), “A simple approach to building ensembles of naive bayesian
classifiers for word sense disambiguation”, Proceedings of the 1st North
American chapter of the Association for Computational Linguistics conference, pp. 63-69.
[34] Richardson S.D., Doaln W.B., Vanderwende L. (1998), "Mindnet: Acquiring and
structuring semantic information from text", Proceedings of the 17th
International Conference on Computational Linguistics (COLING, Montreal, P.Q., Canada). pp. 1098-1102.
[35] Schutze H. (1998), "Automatic word sense discrimination", Computational Linguistics 24, pp. 97-124.
[36] Sedelow S.Y, Sedelow W.A.Jr. (1969), "Categories and procedures for content analysis in the humanities", The Analysis of Communication Content, John Wiley & Sons, New York, pp. 487-499.
[37] Suárez A., Palomar M. (2002), “A maximum entropy-based word sense disambiguation system”, Proceedings of the 19th international conference on Computational linguistics, Volume 1, ser.COLING’02., pp. 1-7.
[38] Towell G.G., Voorhees E. M. (1998), "Disambiguating highly ambiguous words",
Computational Linguistics 24, pp.125-145.
[39] Yarowsky D. (1995), “Unsupervised word sense disambiguation rivaling
supervised methods,” Proceedings of the 33rd annual meeting on Association for