MộtgiảithuậtTri-trainchỉnhsửaứngdụngvàotoánphânlớpcâuhỏi Nguyễn Minh Hải Trường Đại học Công nghệ Luận văn ThS Hệ thống thông tin; Mã số: 60 48 01 04 Người hướng dẫn: TS Nguyễn Trí Thành Năm bảo vệ: 2014 Abstract Các hệ thống hỏi đáp (Question Answering System) hướng quan trọng xử lý ngôn ngữ tự nhiên Một thành phần quan trọng hệ thống module phânlớpcâuhỏi Chất lượng module có ý nghĩa quan trọng xác định miền liệu phương pháp trích chọn câu trả lời cho câuhỏi đưa Luận văn tập trung tìm hiểu phương pháp nhằm làm tăng hiệu phânlớp module phânlớpcâuhỏiBàitoánphânlớpcâuhỏi đặt giải từ lâu với hai hướng chủ đạo: dựa luật dựa xác suất, nhiên toán nhiều người quan tâm Luận văn tập trung khảo sát phương pháp áp dụng cho phânlớpcâuhỏi Trên sở lựa chọn nghiên cứu giảithuật học bán giám sát Trong giảithuật học bán giám sát, tác giả lựa chọn nghiên cứu cách cải tiến giảithuậtTri-Train áp dụng cho toánphânlớpcâuhỏi Kế thừa đề xuất cải tiến Nguyễn Trí Thành cộng công bố vào năm 2008, luận văn đưa đề xuất cải tiến thực nhiều thử nghiệm minh họa sau thống kê phân tích thử nghiệm Keywords Hệ thống thơng tin; Giảithuật Tri-train; Bài tốn phânlớp Content Luận văn tổ chức sau: Chương 1: giới thiệu hệ thống hỏi đáp, tầm quan trọng module phânlớpcâuhỏi phát biểu toánphânlớpcâuhỏi Chương 2: khảo sát đề tài nghiên cứu liên quan đến phânlớpcâuhỏi thành tựu nghiên cứu giới đạt Chương 3: trình bày sơ lược học bán giám sát, giảithuật Tri-Train, đưa trình bày chi tiết đề xuất chỉnhsửa nhằm tăng hiệu cho toánphânlớpcâuhỏi Chương 4: trình bày trình làm thực nghiệm kết đạt Tác giả xin chân thành cảm ơn hướng dẫn bảo tận tình thầy Nguyễn Trí Thành, cảm ơn thầy giáo khoa Hệ Thống Thông Tin trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội tạo điều kiện giúp tác giả hoàn thành luận văn References Tiếng Anh [1] Mohan John Blooma, Dion Hoe-Lian Goh, Alton Yeow Kuan Chua, Question Classification in Social Media, The International Journal of Information Studies: Volume 1, Number 2, 2009, pp 101 – 109 [2] Ali Harb, Michel Beigbeder, Kristine Lund, Jean-Jacques Girardot, Enhanced semantic expansion for question classification, International Journal of Internet Technology and Secured Transactions 3, (2011) Pages 134-148 [3] Baoli Li, Y Liu and Eugene Agichtein, CoCQA: Co-Training Over Questions and Answers with an Application to Predicting Question Subjectivity Orientation, Conference on Empirical Methods in Natural Language Processing (EMNLP 2008) [4] David Tomás,José L Vicedo, Minimally supervised question classification on fine-grained taxonomies, Knowledge and Information Systems August 2013, Volume 36, Issue 2, pp 303-334 [5] Håkan Sundblad, Question Classification in Question Answering Systems, Linköping Studies in Science and Technology Thesis No 1320, 2007 [6] Jaime Carbonell, Donna Harman , Eduard Hovy, and Steve Maiorano, John Prange and Karen Sparck-Jones, Vision Statement to Guide Research in Question & Answering (Q&A) and Text Summarization, Final version 2000 [7] Jinzhong Xu - Sch of Comput Sci., Zhongyuan Univ of Technol., Zhengzhou, China - Yanan Zhou - Yuan Wang, A Classification of Questions Using SVM and Semantic Similarity Analysis, Internet Computing for Science and Engineering (ICICSE), 2012 Sixth International Conference on [8] Kadri Hacioglu and Wayne Ward, Question Classification with Support Vector Machines and Error Correcting Codes, In Proceedings of HLT-NAACL, pp 28-30, Edmonton, Canada, May, 2003 [9] Nguyen Thanh Tri, Minh Le Nguyen, Akira Shimazu, Improving the Accuracy of Question Classification with Machine Learning, RIVF 2007: 234-241 [10] Tri Thanh Nguyen, Le Minh Nguyen, and Akira Shimazu , Using Semi-supervised Learning for Question Classification, Journal of Natural Language Processing, Vol 15, No 1, pp 3-22, 2008 [11] Xin Li, Dan Roth, Learning Question Classifiers, COLING'02, Aug., 2002 [12] Zhang D., Lee W.S, Question Classification using Support Vector Machines, In Proceedings of the 26th ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), Toronto, Canada, 2003 [13] Zhi-Hua Zhou, Ming Li, Tri-Train: exploiting unlabeled data using three classifiers, Knowledge and Data Engineering, IEEE Transactions on (Volume:17 , Issue: 11 ), 2005 Website [14] http://viet.jnlp.org/kien-thuc-co-ban-ve-xu-ly-ngon-ngu-tunhien/mo-hinh-ngon-ngu [15] http://vnlp.net/?p=46 ... thơng tin; Giải thuật Tri-train; Bài tốn phân lớp Content Luận văn tổ chức sau: Chương 1: giới thiệu hệ thống hỏi đáp, tầm quan trọng module phân lớp câu hỏi phát biểu toán phân lớp câu hỏi Chương... đến phân lớp câu hỏi thành tựu nghiên cứu giới đạt Chương 3: trình bày sơ lược học bán giám sát, giải thuật Tri-Train, đưa trình bày chi tiết đề xuất chỉnh sửa nhằm tăng hiệu cho toán phân lớp câu. .. Blooma, Dion Hoe-Lian Goh, Alton Yeow Kuan Chua, Question Classification in Social Media, The International Journal of Information Studies: Volume 1, Number 2, 2009, pp 101 – 109 [2] Ali Harb,