Đóng góp của đặc trưng “Related”

Một phần của tài liệu Nghiên cứu phương pháp làm tăng chất lượng phân lớp câu hỏi trong hệ thống hỏi đáp (Trang 47)

Tương tự N-grams, Related mang lại chất lượng phân lớp khi sử dụng phương pháp SVM không thay đổi được nhiều, thậm chí có trường hợp còn làm giảm hiệu quả phân lớp so với dữ liệu ban đầu. Tuy nhiên Related đã mang lại những cải tiến chất lượng đáng kể (hình 4.13) khi tham gia vào Tri-Train, ví dụ: tham gia vào các tập dữ liệu cho kết quả phân lớp cao nhất (80.2% đối với phân lớp tinh).

KẾT LUẬN

Luận văn đã tìm hiểu các hướng giải quyết bài toán phân lớp câu hỏi nhằm mục đích cải thiện chất lượng của hệ thống hỏi đáp. Dựa trên các phương pháp đã được tìm hiểu và nghiên cứu trong thời gian qua, nhất là từ hơn 10 năm trở lại đây, luận văn đã tập trung cải tiến một phương pháp trong hệ thống học bán giám sát. Cụ thể là nâng cao chất lượng thuật toán Tri-Train cải tiến được Nguyễn Trí Thành và các cộng sự nghiên cứu và công bố vào năm 2008. Các kết quả nghiên cứu làm thực nghiệm của luận văn cho thấy: đề xuất cải tiến của tác giả cho hiệu quả tốt. Mặt khác các đặc trưng mà tác giả sử dụng để xây dựng các khung nhìn cho thuật toán Tri-Train cũng chính là những cơ sở nhất định để cải thiện chất lượng phân lớp trong bài toán học có giám sát.

Phân lớp câu hỏi hiện nay vẫn là đề tài được quan tâm và chú ý nhiều do lượng thông tin mà con người cần xử lý ngày càng nhiều và phong phú. Tuy nhiên trong lĩnh vực tiếng Việt cũng chưa có nhiều nghiên cứu cho mảng này. Hướng phát triển của luận văn sẽ là nghiên cứu và thử nghiệm được các giải pháp đã xây dựng trong phạm vi luận văn vào ngôn ngữ tiếng Việt.

TÀI LIỆU THAM KHẢO Tiếng Anh

[1]. Mohan John Blooma, Dion Hoe-Lian Goh, Alton Yeow Kuan Chua, Question Classification in Social Media, The International Journal of Information Studies: Volume 1, Number 2, 2009, pp 101 – 109.

[2]. Ali Harb, Michel Beigbeder, Kristine Lund, Jean-Jacques Girardot,

Enhanced semantic expansion for question classification, International

Journal of Internet Technology and Secured Transactions 3, 2 (2011) Pages 134-148.

[3]. Baoli Li, Y. Liu and Eugene Agichtein, CoCQA: Co-Training Over

Questions and Answers with an Application to Predicting Question Subjectivity Orientation, Conference on Empirical Methods in Natural

Language Processing (EMNLP 2008).

[4]. David Tomás,José L. Vicedo, Minimally supervised question

classification on fine-grained taxonomies, Knowledge and Information

Systems August 2013, Volume 36, Issue 2, pp 303-334.

[5]. Håkan Sundblad, Question Classification in Question Answering

Systems, Linköping Studies in Science and Technology Thesis No. 1320,

2007.

[6]. Jaime Carbonell, Donna Harman , Eduard Hovy, and Steve

Maiorano, John Prange and Karen Sparck-Jones, Vision Statement to Guide

Research in Question & Answering (Q&A) and Text Summarization, Final

version 1. 2000.

[7]. Jinzhong Xu - Sch. of Comput. Sci., Zhongyuan Univ. of Technol., Zhengzhou, China - Yanan Zhou - Yuan Wang, A Classification of

Questions Using SVM and Semantic Similarity Analysis, Internet Computing

for Science and Engineering (ICICSE), 2012 Sixth International Conference on.

[8]. Kadri Hacioglu and Wayne Ward, Question Classification with

Support Vector Machines and Error Correcting Codes, In Proceedings of

HLT-NAACL, pp. 28-30, Edmonton, Canada, May, 2003.

[9]. Nguyen Thanh Tri, Minh Le Nguyen, Akira Shimazu, Improving

the Accuracy of Question Classification with Machine Learning, RIVF

2007: 234-241. (adsbygoogle = window.adsbygoogle || []).push({});

Semi-supervised Learning for Question Classification, Journal of Natural

Language Processing, Vol. 15, No. 1, pp. 3-22, 2008.

[11]. Xin Li, Dan Roth, Learning Question Classifiers, COLING'02, Aug., 2002.

[12]. Zhang D., Lee W.S, Question Classification using Support Vector

Machines, In Proceedings of the 26th ACM SIGIR Conference on Research and

Development in Information Retrieval (SIGIR), Toronto, Canada, 2003.

[13]. Zhi-Hua Zhou, Ming Li, Tri-Train: exploiting unlabeled data using

three classifiers, Knowledge and Data Engineering, IEEE Transactions on

(Volume:17 , Issue: 11 ), 2005.

Website

[14]. http://viet.jnlp.org/kien-thuc-co-ban-ve-xu-ly-ngon-ngu-tu-

nhien/mo-hinh-ngon-ngu

PHỤ LỤC

Kết quả các phép thực nghiệm

Kết quả chất lượng SVM phân lớp thô

STT Tên dữ liệu Kết quả chạy 4000

01 WordRoot_Pos_Valuefit 88.2 02 Origin_Valuefit 88 03 Origin_Related 87 04 WordRoot_Pos 86.8 05 WordRoot_Related 86.8 06 WordRoot 86.4 07 Origin 86 08 Pos 54.6 09 Origin_N-grams 87.4

STT Tên dữ liệu Kết quả chạy 5500

01 WordRoot_Pos_Valuefit 87.8 02 Origin_Valuefit 88 03 Origin_Related 87.4 04 WordRoot_Pos 87.6 05 WordRoot_Related 84.2 06 WordRoot 85.4 07 Origin 87.4 08 Pos 55.6 09 Origin_N-grams 87.8

Kết quả chất lượng SVM phân lớp tinh

STT Tên dữ liệu Kết quả chạy 4000

01 WordRoot_Pos 79.8 02 WordRoot_Related 79.4 03 WordRoot 78.8 04 Origin_Valuefit 78.6 05 WordRoot_Pos_Valuefit 78.4 06 Origin_Related 77.8 07 Origin 77.4 08 Pos 45.8 09 Origin_N-grams 78.2

STT Tên dữ liệu Kết quả chạy 5500 01 WordRoot_Pos 83.2 02 WordRoot_Related 81.8 03 WordRoot 83.2 04 Origin_Valuefit 81.6 05 WordRoot_Pos_Valuefit 80.6 06 Origin_Related 81.6 07 Origin 82 08 Pos 45.2 09 Origin_N-grams 81.6

Kết quả chất lượng Tri-Train phân lớp thô

STT Dữ liệu 1 Dữ liệu 2 Dữ liệu 3 Kết quả

1 01_WordRoot_Pos_Valuefit 02_Origin_Valuefit 03_Origin_Related 88 2 01_WordRoot_Pos_Valuefit 02_Origin_Valuefit 04_WordRoot_Pos 89.2 3 01_WordRoot_Pos_Valuefit 02_Origin_Valuefit 05_WordRoot_Related 87.6 4 01_WordRoot_Pos_Valuefit 02_Origin_Valuefit 06_WordRoot 87.2 5 01_WordRoot_Pos_Valuefit 02_Origin_Valuefit 07_Origin 88 6 01_WordRoot_Pos_Valuefit 02_Origin_Valuefit 08_Pos 87.4 7 01_WordRoot_Pos_Valuefit 03_Origin_Related 04_WordRoot_Pos 87.4 8 01_WordRoot_Pos_Valuefit 03_Origin_Related 05_WordRoot_Related 87.8 9 01_WordRoot_Pos_Valuefit 03_Origin_Related 06_WordRoot 86.8 10 01_WordRoot_Pos_Valuefit 03_Origin_Related 07_Origin 86.8 11 01_WordRoot_Pos_Valuefit 03_Origin_Related 08_Pos 88 12 01_WordRoot_Pos_Valuefit 04_WordRoot_Pos 05_WordRoot_Related 88 13 01_WordRoot_Pos_Valuefit 04_WordRoot_Pos 06_WordRoot 87.6 14 01_WordRoot_Pos_Valuefit 04_WordRoot_Pos 07_Origin 88.2 15 01_WordRoot_Pos_Valuefit 04_WordRoot_Pos 08_Pos 87.4 16 01_WordRoot_Pos_Valuefit 05_WordRoot_Related 06_WordRoot 87.2 17 01_WordRoot_Pos_Valuefit 05_WordRoot_Related 07_Origin 87.2 18 01_WordRoot_Pos_Valuefit 05_WordRoot_Related 08_Pos 86.6 19 01_WordRoot_Pos_Valuefit 06_WordRoot 07_Origin 86.8 20 01_WordRoot_Pos_Valuefit 06_WordRoot 08_Pos 87 21 01_WordRoot_Pos_Valuefit 07_Origin 08_Pos 86.8 22 02_Origin_Valuefit 03_Origin_Related 04_WordRoot_Pos 87.2

23 02_Origin_Valuefit 03_Origin_Related 05_WordRoot_Related 87.2 24 02_Origin_Valuefit 03_Origin_Related 06_WordRoot 88 25 02_Origin_Valuefit 03_Origin_Related 07_Origin 86.8 26 02_Origin_Valuefit 03_Origin_Related 08_Pos 87.8 27 02_Origin_Valuefit 04_WordRoot_Pos 05_WordRoot_Related 87.4 28 02_Origin_Valuefit 04_WordRoot_Pos 06_WordRoot 86.6 29 02_Origin_Valuefit 04_WordRoot_Pos 07_Origin 87 30 02_Origin_Valuefit 04_WordRoot_Pos 08_Pos 87.6 31 02_Origin_Valuefit 05_WordRoot_Related 06_WordRoot 87.4 32 02_Origin_Valuefit 05_WordRoot_Related 07_Origin 87.2 33 02_Origin_Valuefit 05_WordRoot_Related 08_Pos 87.4 34 02_Origin_Valuefit 06_WordRoot 07_Origin 86.8 35 02_Origin_Valuefit 06_WordRoot 08_Pos 87.4 36 02_Origin_Valuefit 07_Origin 08_Pos 86.6 37 03_Origin_Related 04_WordRoot_Pos 05_WordRoot_Related 88.2 38 03_Origin_Related 04_WordRoot_Pos 06_WordRoot 87.6 39 03_Origin_Related 04_WordRoot_Pos 07_Origin 87.2 40 03_Origin_Related 04_WordRoot_Pos 08_Pos 86.8 41 03_Origin_Related 05_WordRoot_Related 06_WordRoot 88 42 03_Origin_Related 05_WordRoot_Related 07_Origin 87.6

43 01_WordRoot_Pos_Valuefit 02_Origin_Valuefit 09_Origin_Ngrams 90

Kết quả chất lượng Tri-Train phân lớp tinh

STT Dữ liệu 1 Dữ liệu 2 Dữ liệu 3 Kết quả (adsbygoogle = window.adsbygoogle || []).push({});

1 01_WordRoot_Pos 02_WordRoot_Related 03_WordRoot 79.6 2 01_WordRoot_Pos 02_WordRoot_Related 06_Origin_Related 79.2 3 01_WordRoot_Pos 02_WordRoot_Related 07_Origin 79.6 4 01_WordRoot_Pos 02_WordRoot_Related 08_Pos 79 5 01_WordRoot_Pos 03_WordRoot 06_Origin_Related 79.4 6 01_WordRoot_Pos 03_WordRoot 07_Origin 79.6 7 01_WordRoot_Pos 03_WordRoot 08_Pos 78.6 8 01_WordRoot_Pos 06_Origin_Related 07_Origin 79.8 9 01_WordRoot_Pos 06_Origin_Related 08_Pos 78.2 10 02_WordRoot_Related 06_Origin_Related 07_Origin 79.8 11 02_WordRoot_Related 06_Origin_Related 08_Pos 78 12 02_WordRoot_Related 07_Origin 08_Pos 79

13 03_WordRoot 06_Origin_Related 07_Origin 79.4 14 03_WordRoot 06_Origin_Related 08_Pos 77.8

15 03_WordRoot 07_Origin 08_Pos 78.8

16 06_Origin_Related 07_Origin 08_Pos 77.2

17 01_WordRoot_Pos 02_WordRoot_Related 09_Origin_Ngrams 80.2

18 01_WordRoot_Pos 06_Origin_Related 09_Origin_N-grams 79.8 19 01_WordRoot_Pos 07_Origin 09_Origin_N-grams 78.8

20 02_WordRoot_Related 06_Origin_Related 09_Origin_Ngrams 80.2

21 02_WordRoot_Related 07_Origin 09_Origin_N-grams 78.8 22 06_Origin_Related 07_Origin 09_Origin_N-grams 78.4

Một phần của tài liệu Nghiên cứu phương pháp làm tăng chất lượng phân lớp câu hỏi trong hệ thống hỏi đáp (Trang 47)