Tương tự N-grams, Related mang lại chất lượng phân lớp khi sử dụng phương pháp SVM khơng thay đổi được nhiều, thậm chí cĩ trường hợp cịn làm giảm hiệu quả phân lớp so với dữ liệu ban đầu. Tuy nhiên Related đã mang lại những cải tiến chất lượng đáng kể (hình 4.13) khi tham gia vào Tri-Train, ví dụ: tham gia vào các tập dữ liệu cho kết quả phân lớp cao nhất (80.2% đối với phân lớp tinh).
KẾT LUẬN
Luận văn đã tìm hiểu các hướng giải quyết bài tốn phân lớp câu hỏi nhằm mục đích cải thiện chất lượng của hệ thống hỏi đáp. Dựa trên các phương pháp đã được tìm hiểu và nghiên cứu trong thời gian qua, nhất là từ hơn 10 năm trở lại đây, luận văn đã tập trung cải tiến một phương pháp trong hệ thống học bán giám sát. Cụ thể là nâng cao chất lượng thuật tốn Tri-Train cải tiến được Nguyễn Trí Thành và các cộng sự nghiên cứu và cơng bố vào năm 2008. Các kết quả nghiên cứu làm thực nghiệm của luận văn cho thấy: đề xuất cải tiến của tác giả cho hiệu quả tốt. Mặt khác các đặc trưng mà tác giả sử dụng để xây dựng các khung nhìn cho thuật tốn Tri-Train cũng chính là những cơ sở nhất định để cải thiện chất lượng phân lớp trong bài tốn học cĩ giám sát.
Phân lớp câu hỏi hiện nay vẫn là đề tài được quan tâm và chú ý nhiều do lượng thơng tin mà con người cần xử lý ngày càng nhiều và phong phú. Tuy nhiên trong lĩnh vực tiếng Việt cũng chưa cĩ nhiều nghiên cứu cho mảng này. Hướng phát triển của luận văn sẽ là nghiên cứu và thử nghiệm được các giải pháp đã xây dựng trong phạm vi luận văn vào ngơn ngữ tiếng Việt.
TÀI LIỆU THAM KHẢO Tiếng Anh
[1]. Mohan John Blooma, Dion Hoe-Lian Goh, Alton Yeow Kuan Chua, Question Classification in Social Media, The International Journal of Information Studies: Volume 1, Number 2, 2009, pp 101 – 109.
[2]. Ali Harb, Michel Beigbeder, Kristine Lund, Jean-Jacques Girardot,
Enhanced semantic expansion for question classification, International
Journal of Internet Technology and Secured Transactions 3, 2 (2011) Pages 134-148.
[3]. Baoli Li, Y. Liu and Eugene Agichtein, CoCQA: Co-Training Over
Questions and Answers with an Application to Predicting Question Subjectivity Orientation, Conference on Empirical Methods in Natural
Language Processing (EMNLP 2008).
[4]. David Tomás,José L. Vicedo, Minimally supervised question
classification on fine-grained taxonomies, Knowledge and Information
Systems August 2013, Volume 36, Issue 2, pp 303-334.
[5]. Håkan Sundblad, Question Classification in Question Answering
Systems, Linkưping Studies in Science and Technology Thesis No. 1320,
2007.
[6]. Jaime Carbonell, Donna Harman , Eduard Hovy, and Steve
Maiorano, John Prange and Karen Sparck-Jones, Vision Statement to Guide
Research in Question & Answering (Q&A) and Text Summarization, Final
version 1. 2000.
[7]. Jinzhong Xu - Sch. of Comput. Sci., Zhongyuan Univ. of Technol., Zhengzhou, China - Yanan Zhou - Yuan Wang, A Classification of
Questions Using SVM and Semantic Similarity Analysis, Internet Computing
for Science and Engineering (ICICSE), 2012 Sixth International Conference on.
[8]. Kadri Hacioglu and Wayne Ward, Question Classification with
Support Vector Machines and Error Correcting Codes, In Proceedings of
HLT-NAACL, pp. 28-30, Edmonton, Canada, May, 2003.
[9]. Nguyen Thanh Tri, Minh Le Nguyen, Akira Shimazu, Improving
the Accuracy of Question Classification with Machine Learning, RIVF
2007: 234-241.
Semi-supervised Learning for Question Classification, Journal of Natural
Language Processing, Vol. 15, No. 1, pp. 3-22, 2008.
[11]. Xin Li, Dan Roth, Learning Question Classifiers, COLING'02, Aug., 2002.
[12]. Zhang D., Lee W.S, Question Classification using Support Vector
Machines, In Proceedings of the 26th ACM SIGIR Conference on Research and
Development in Information Retrieval (SIGIR), Toronto, Canada, 2003.
[13]. Zhi-Hua Zhou, Ming Li, Tri-Train: exploiting unlabeled data using
three classifiers, Knowledge and Data Engineering, IEEE Transactions on
(Volume:17 , Issue: 11 ), 2005.
Website
[14]. http://viet.jnlp.org/kien-thuc-co-ban-ve-xu-ly-ngon-ngu-tu-
nhien/mo-hinh-ngon-ngu
PHỤ LỤC
Kết quả các phép thực nghiệm
Kết quả chất lượng SVM phân lớp thơ
STT Tên dữ liệu Kết quả chạy 4000
01 WordRoot_Pos_Valuefit 88.2 02 Origin_Valuefit 88 03 Origin_Related 87 04 WordRoot_Pos 86.8 05 WordRoot_Related 86.8 06 WordRoot 86.4 07 Origin 86 08 Pos 54.6 09 Origin_N-grams 87.4
STT Tên dữ liệu Kết quả chạy 5500
01 WordRoot_Pos_Valuefit 87.8 02 Origin_Valuefit 88 03 Origin_Related 87.4 04 WordRoot_Pos 87.6 05 WordRoot_Related 84.2 06 WordRoot 85.4 07 Origin 87.4 08 Pos 55.6 09 Origin_N-grams 87.8
Kết quả chất lượng SVM phân lớp tinh
STT Tên dữ liệu Kết quả chạy 4000
01 WordRoot_Pos 79.8 02 WordRoot_Related 79.4 03 WordRoot 78.8 04 Origin_Valuefit 78.6 05 WordRoot_Pos_Valuefit 78.4 06 Origin_Related 77.8 07 Origin 77.4 08 Pos 45.8 09 Origin_N-grams 78.2
STT Tên dữ liệu Kết quả chạy 5500 01 WordRoot_Pos 83.2 02 WordRoot_Related 81.8 03 WordRoot 83.2 04 Origin_Valuefit 81.6 05 WordRoot_Pos_Valuefit 80.6 06 Origin_Related 81.6 07 Origin 82 08 Pos 45.2 09 Origin_N-grams 81.6
Kết quả chất lượng Tri-Train phân lớp thơ
STT Dữ liệu 1 Dữ liệu 2 Dữ liệu 3 Kết quả
1 01_WordRoot_Pos_Valuefit 02_Origin_Valuefit 03_Origin_Related 88 2 01_WordRoot_Pos_Valuefit 02_Origin_Valuefit 04_WordRoot_Pos 89.2 3 01_WordRoot_Pos_Valuefit 02_Origin_Valuefit 05_WordRoot_Related 87.6 4 01_WordRoot_Pos_Valuefit 02_Origin_Valuefit 06_WordRoot 87.2 5 01_WordRoot_Pos_Valuefit 02_Origin_Valuefit 07_Origin 88 6 01_WordRoot_Pos_Valuefit 02_Origin_Valuefit 08_Pos 87.4 7 01_WordRoot_Pos_Valuefit 03_Origin_Related 04_WordRoot_Pos 87.4 8 01_WordRoot_Pos_Valuefit 03_Origin_Related 05_WordRoot_Related 87.8 9 01_WordRoot_Pos_Valuefit 03_Origin_Related 06_WordRoot 86.8 10 01_WordRoot_Pos_Valuefit 03_Origin_Related 07_Origin 86.8 11 01_WordRoot_Pos_Valuefit 03_Origin_Related 08_Pos 88 12 01_WordRoot_Pos_Valuefit 04_WordRoot_Pos 05_WordRoot_Related 88 13 01_WordRoot_Pos_Valuefit 04_WordRoot_Pos 06_WordRoot 87.6 14 01_WordRoot_Pos_Valuefit 04_WordRoot_Pos 07_Origin 88.2 15 01_WordRoot_Pos_Valuefit 04_WordRoot_Pos 08_Pos 87.4 16 01_WordRoot_Pos_Valuefit 05_WordRoot_Related 06_WordRoot 87.2 17 01_WordRoot_Pos_Valuefit 05_WordRoot_Related 07_Origin 87.2 18 01_WordRoot_Pos_Valuefit 05_WordRoot_Related 08_Pos 86.6 19 01_WordRoot_Pos_Valuefit 06_WordRoot 07_Origin 86.8 20 01_WordRoot_Pos_Valuefit 06_WordRoot 08_Pos 87 21 01_WordRoot_Pos_Valuefit 07_Origin 08_Pos 86.8 22 02_Origin_Valuefit 03_Origin_Related 04_WordRoot_Pos 87.2
23 02_Origin_Valuefit 03_Origin_Related 05_WordRoot_Related 87.2 24 02_Origin_Valuefit 03_Origin_Related 06_WordRoot 88 25 02_Origin_Valuefit 03_Origin_Related 07_Origin 86.8 26 02_Origin_Valuefit 03_Origin_Related 08_Pos 87.8 27 02_Origin_Valuefit 04_WordRoot_Pos 05_WordRoot_Related 87.4 28 02_Origin_Valuefit 04_WordRoot_Pos 06_WordRoot 86.6 29 02_Origin_Valuefit 04_WordRoot_Pos 07_Origin 87 30 02_Origin_Valuefit 04_WordRoot_Pos 08_Pos 87.6 31 02_Origin_Valuefit 05_WordRoot_Related 06_WordRoot 87.4 32 02_Origin_Valuefit 05_WordRoot_Related 07_Origin 87.2 33 02_Origin_Valuefit 05_WordRoot_Related 08_Pos 87.4 34 02_Origin_Valuefit 06_WordRoot 07_Origin 86.8 35 02_Origin_Valuefit 06_WordRoot 08_Pos 87.4 36 02_Origin_Valuefit 07_Origin 08_Pos 86.6 37 03_Origin_Related 04_WordRoot_Pos 05_WordRoot_Related 88.2 38 03_Origin_Related 04_WordRoot_Pos 06_WordRoot 87.6 39 03_Origin_Related 04_WordRoot_Pos 07_Origin 87.2 40 03_Origin_Related 04_WordRoot_Pos 08_Pos 86.8 41 03_Origin_Related 05_WordRoot_Related 06_WordRoot 88 42 03_Origin_Related 05_WordRoot_Related 07_Origin 87.6
43 01_WordRoot_Pos_Valuefit 02_Origin_Valuefit 09_Origin_Ngrams 90
Kết quả chất lượng Tri-Train phân lớp tinh
STT Dữ liệu 1 Dữ liệu 2 Dữ liệu 3 Kết quả
1 01_WordRoot_Pos 02_WordRoot_Related 03_WordRoot 79.6 2 01_WordRoot_Pos 02_WordRoot_Related 06_Origin_Related 79.2 3 01_WordRoot_Pos 02_WordRoot_Related 07_Origin 79.6 4 01_WordRoot_Pos 02_WordRoot_Related 08_Pos 79 5 01_WordRoot_Pos 03_WordRoot 06_Origin_Related 79.4 6 01_WordRoot_Pos 03_WordRoot 07_Origin 79.6 7 01_WordRoot_Pos 03_WordRoot 08_Pos 78.6 8 01_WordRoot_Pos 06_Origin_Related 07_Origin 79.8 9 01_WordRoot_Pos 06_Origin_Related 08_Pos 78.2 10 02_WordRoot_Related 06_Origin_Related 07_Origin 79.8 11 02_WordRoot_Related 06_Origin_Related 08_Pos 78 12 02_WordRoot_Related 07_Origin 08_Pos 79
13 03_WordRoot 06_Origin_Related 07_Origin 79.4 14 03_WordRoot 06_Origin_Related 08_Pos 77.8
15 03_WordRoot 07_Origin 08_Pos 78.8
16 06_Origin_Related 07_Origin 08_Pos 77.2
17 01_WordRoot_Pos 02_WordRoot_Related 09_Origin_Ngrams 80.2
18 01_WordRoot_Pos 06_Origin_Related 09_Origin_N-grams 79.8 19 01_WordRoot_Pos 07_Origin 09_Origin_N-grams 78.8
20 02_WordRoot_Related 06_Origin_Related 09_Origin_Ngrams 80.2
21 02_WordRoot_Related 07_Origin 09_Origin_N-grams 78.8 22 06_Origin_Related 07_Origin 09_Origin_N-grams 78.4