Qua thực nghiệm với các giá trị k = 5 cho đến k = 100, và thay đổi tập L(Labeled) và tập U(Unlabeled) cho thấy, với các tập dữ liệu số phần tử chưa được gán nhãn thấp Tri-train cải tiến cho kết quả đáng kể so với Tri-train gốc và các Tri-train cải tiến khác. Với tập dữ liệu được gán nhãn cao(4000 trong phạm vi nghiên cứu của luận văn) thì kết quả so với các cải tiến khác là vẫn thấp, tuy nhiên kết quả này vẫn rất đáng kể so với kết quả của Tri-train gốc.
Dưới đây tác giả xin đưa ra một số bảng so sánh kết quả của Tri -Train cải tiến và Tri-Train gốc cũng như các giải pháp Tri-Train cải tiến khác.
32
Bảng 4.3.1 Kết quảthực nghiệm tốt nhất của Tri-Train cải tiến.
So sánh với giải thuật Tri-training gốc và cải tiến khác
Đã gán nhãn(L)
1000 2000 3000 4000
Bảng 4.3.2 So sánh kết quả Tri-Train cải tiến, Tri-Train gốc và Tri-Train cảitiến khác
Từ các bảng so sánh trên dễ dàng nhận thấy rằng với việc cải tiến hàm BootStrap-Sampling đã cho kết quả đáng kể và đáng khích lệ so với kết quả của Tri-Train gốc, ta cũng cĩ thể thấy thuật tốn cải tiến cho kết quả khá tốt khi tập câu hỏi đã gán nhãn là ít, điều này mang một ý nghĩa khích lệ vì trong thực tế
việc cĩ một hệ thống hỏi đáp với tỉ lệ dữ liệu đã gán nhãn lớn là khơng nhiều, vì vậy Tri-Train cải tiến hồn tồn cĩ thể là một lựa chọn tốt cho các hệ thống hỏi đáp trong thực tế.
Dưới đây là bảng tổng hợp kết quả của bốn tập câu hỏi 1000, 2000, 3000, 4000 với các giá trị k từ 5 đến 100: K 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100
Bảng 4.3.3 Bảng tổng hợp kết quảthực hiện thuật tốn Tri-Train cải tiến
34
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN TƯƠNG LAI
Luận văn đã tìm hiểu các hướng giải quyết bài tốn phân lớp câu hỏi nhằm mục đích cải thiện chất lượng của hệ thống hỏi đáp. Dựa trên các phương pháp đã được tìm hiểu và nghiên cứu trong thời gian qua, nhất là từ hơn 10 năm trở lại đây, luận văn đã tập tru ng cải tiến một phương pháp trong hệ thống học bán giám sát. Cụ thể là nâng cao chất lượng thuật tốn Tri-Train cải tiến được Nguyễn Trí Thành và các cộng sự nghiên cứu và cơng bố vào năm 2008. Các kết quả nghiên cứu làm thực nghiệm của luận văn cho thấy: đề xuất cải tiến của tác giả cho hiệu quả tốt. Mặt khác các đặc trưng mà tác giả sử dụng để xây dựng các khung nhìn cho thuật tốn Tri-Train cũng chính là những cơ sở nhất định để cải thiện chất lượng phân lớp trong bài tốn học cĩ giám sát.
Phân lớp câu hỏi hiện nay vẫn là đề tài được quan tâm và chú ý nhiều do lượng thơng tin mà con người cần xử lý ngày càng nhiều và phong phú. Tuy nhiên trong lĩnh vực tiếng Việt cũng chưa cĩ nhiều nghiên cứu cho mảng này. Hướng phát triển của luận văn sẽ là nghiên cứu và thử nghiệm được các giải pháp đã xây dựng trong phạm vi luận văn vào ngơn ngữ tiếng Việt.
TÀI LIỆU THAM KHẢO Tiếng Anh
[1]. Mohan John Blooma, Dion Hoe-Lian Goh, Alton Yeow Kuan Chua, Question Classification in Social Media, The International Journal of Information Studies: Volume 1, Number 2, 2009, pp 101 – 109.
[2]. Ali Harb, Michel Beigbeder, Kristine Lund, Jean-Jacques Girardot,
Enhanced semantic expansion for question classification, International
Journal of Internet Technology and Secured Transactions 3, 2 (2011) Pages 134-148.
[3]. Baoli Li, Y. Liu and Eugene Agichtein, CoCQA: Co-Training Over
Questions and Answers with an Application to Predicting Question Subjectivity Orientation, Conference on Empirical Methods in Natural
Language Processing (EMNLP 2008).
[4]. David Tomás,José L. Vicedo, Minimally supervised question
classification on fine-grained taxonomies, Knowledge and
Information Systems August 2013, Volume 36, Issue 2, pp 303-334. [5]. Håkan Sundblad, Question Classification in Question
Answering Systems, Linkưping Studies in Science and Technology Thesis
No. 1320, 2007.
[6]. Jaime Carbonell, Donna Harman , Eduard Hovy, and Steve Maiorano, John Prange and Karen Sparck-Jones, Vision Statement to
Guide Research in Question & Answering (Q&A) and Text Summarization,
Final version 1. 2000.
[7]. Jinzhong Xu - Sch. of Comput. Sci., Zhongyuan Univ. of Technol., Zhengzhou, China - Yanan Zhou - Yuan Wang, A Classification of
Questions Using SVM and Semantic Similarity Analysis, Internet
Computing for Science and Engineering (ICICSE), 2012 Sixth International Conference on.
[8]. Kadri Hacioglu and Wayne Ward, Question Classification with
Support Vector Machines and Error Correcting Codes, In Proceedings of
HLT-NAACL, pp. 28-30, Edmonton, Canada, May, 2003.
[9]. Nguyen Thanh Tri, Minh Le Nguyen, Akira Shimazu, Improving
the Accuracy of Question Classification with Machine Learning, RIVF
2007: 234-241.
[10]. Tri Thanh Nguyen, Le Minh Nguyen, and Akira Shimazu , Using
36
Semi-supervised Learning for Question Classification, Journal of
Natural Language Processing, Vol. 15, No. 1, pp. 3-22, 2008. [11]. Xin Li, Dan Roth, Learning Question Classifiers, COLING'02, Aug., 2002.
[12]. Zhang D., Lee W.S, Question Classification using Support Vector
Machines, In Proceedings of the 26th ACM SIGIR Conference on Research and
Development in Information Retrieval (SIGIR), Toronto, Canada, 2003.
[13]. Zhi-Hua Zhou, Ming Li, Tri-Train: exploiting unlabeled data using
three classifiers, Knowledge and Data Engineering, IEEE Transactions on
(Volume:17 , Issue: 11 ), 2005.
Website
[14]. http://viet.jnlp.org/kien-thuc-co-ban-ve-xu-ly-ngon-ngu-tu- nhien/mo-hinh-ngon-ngu
[15]. http://vnlp.net/?p=46