Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 61 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
61
Dung lượng
1,72 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ TUYẾN MỘTSỐMÔHÌNHHỌCMÁYTRONGPHÂNLOẠICÂUHỎI LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội -2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ TUYẾN MỘTSỐMÔHÌNHHỌCMÁYTRONGPHÂNLOẠICÂUHỎI Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS LÊ HỒNG PHƢƠNG Hà Nội -2016 LỜI CẢM ƠN Trước tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc tới Thầy giáo, TS Lê Hồng Phương tận tình bảo, hướng dẫn, động viên giúp đỡ suốt trình thực luận văn tốt nghiệp Tôi xin gửi lời cảm ơn tới thầy cô trường Đại Học Công Nghệ - Đại Học Quốc Gia Hà Nội – người tận tình giúp đỡ, cổ vũ, góp ý cho suốt thời gian học tập nghiên cứu trường Tôi xin gửi lời cảm ơn tới anh chị, bạn học viên học tập nghiên cứu Trường Đại học Công nghệ hỗ trợ nhiều trình học tập thực luận văn Cuối cùng, muốn gửi lời cảm ơn tới gia đình bạn bè, người thân yêu bên cạnh, quan tâm, động viên suốt trình học tập thực luận văn tốt nghiệp Tôi xin chân thành cảm ơn! Hà Nội, tháng 10 năm 2016 Học viên Vũ Thị Tuyến LỜI CAM ĐOAN Tôi xin cam đoan nội dung trình bày luận văn “Một sốmôhìnhhọcmáyphânloạicâu hỏi” thực hướng dẫn TS Lê Hồng Phương Tôi trích dẫn đầy đủ tài liệu tham khảo, công trình nghiên cứu liên quan nước quốc tế Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận văn Hà Nội, tháng 10 năm 2016 Học viên Vũ Thị Tuyến MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT i DANH MỤC CÁC HÌNH ii DANH MỤC CÁC BẢNG iii LỜI MỞ ĐẦU Chương 1: TỔNG QUAN VỀ PHÂNLOẠICÂUHỎI 1.1 Tổng quan hệ thống hỏi đáp 1.1.1 Đặt vấn đề 1.1.2 Hệ thống hỏi đáp (Question Answering System) 1.2 Bài toán phânloạicâuhỏi 1.2.1 Định nghĩa phânloạicâuhỏi 1.2.2 Phát biểu toán phânloạicâuhỏi 1.3 Các cách tiếp cận toán phânloạicâuhỏi 1.3.1 Tiếp cận dựa luật 1.3.2 Tiếp cận dựa họcmáy 1.4 Biểu diễn câuhỏi 10 1.5 Taxonomy câuhỏi 11 1.5.1 Khái niệm Taxonomy 11 1.5.2 Các taxonomy theo kiểu câu trả lời 11 1.5.3 Phân lớp đa cấp 14 1.6 Các đặc trưng phânloại 15 1.6.1 Các đặc trưng từ vựng 15 1.6.2 Các đặc trưng cú pháp 17 1.6.3 Các đặc trưng ngữ nghĩa 23 Chương 2: MỘTSỐMÔHÌNHHỌCMÁYTRONGPHÂNLOẠICÂUHỎI 25 2.1 Kiến trúc hệ thống 25 2.2 Thuật toán Naïve Bayes 25 2.2.1 Định lý 25 2.2.2 Thuật toán 26 2.3 Thuật toán k-láng giềng gần (k- Nearst Neighbours) 29 2.4 Máy Vector hỗ trợ - SVM 30 2.5 Mộtsố thuật toán khác 34 2.6 Hiệu suất phânloạicâuhỏi 34 2.7 Mộtsố kết tác giả 35 Chương 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 38 3.1 Lựa chọn phânloại 38 3.2 Môi trường công cụ sử dụng thực nghiệm 38 3.3 Tập liệu thử nghiệm 38 3.4 Xử lý liệu 40 3.5 Huấn luyện kiểm thử với LibSVM 44 3.6 Kết thực nghiệm 45 3.7 Kết luận 45 TỔNG KẾT 46 TÀI LIỆU THAM KHẢO 47 PHỤ LỤC i DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT STT Ký hiệu, viết tắt Tiếng anh Chú giải QA Question Answering systems Hệ thống hỏi đáp IR Information Retrieval Truy hồi thông tin TREC Text REtrieval Conference UIUC University of Illinois UrbanaChampaign MUC Message Understanding Conference POS Part – Of - Speech WSD Word Sense Disambiguation NN Nearest Neighbors NB Naïve Bayes 10 DT Decision Tree Cây định 11 SNoW Sparse Network of Winnows Mạng lọc thưa 12 SVM Support Vector Machine Máy vector hỗ trợ 13 ME Maximum Entropy Entropy cực đại Láng giềng gần ii DANH MỤC CÁC HÌNHHình 1.1: Kiến trúc hệ thống hỏi đáp Hình 1.2: Môhình giai đoạn huấn luyện Hình 1.3: Chi tiết giai đoạn huấn luyện 10 Hình 1.4: Môhình giai đoạn phân lớp 10 Hình 1.6: Cây phân tích cú pháp sử dụng phân tích Berkeley 19 Hình 1.8: Cây phân tích cú pháp cho câuhỏi “What is the proper name for a female walrus” 22 Hình 2.1: Kiến trúc tổng quan hệ thống phânloạicâuhỏi có giám sát 25 Hình 2.2: Siêu phẳng với lề cực đại cho SVM phân tách liệu thuộc hai lớp 31 Hình 2.3: Sơ đồ phân lớp câuhỏi với SVM 34 Hình 3.1: File chứa 5500 câuhỏi ban đầu 39 Hình 3.2: File chứa 500 câuhỏi test 40 Hình 3.4: File chứa 5500 nhãn câuhỏi tập mịn 42 Hình 3.6: Nhãn tương ứng 5500 câuhỏi 43 Hình 3.7: File kết đưa định dạng đọc thư viện LIBSVM sử dụng đặc trưng bigram tập mịn tập train 43 Hình 3.8: File kết đưa định dạng đọc thư viện LIBSVM sử dụng đặc trưng bigram tập mịn tập test 44 iii DANH MỤC CÁC BẢNG Bảng 1.1: Taxonomy câuhỏi Li Roth 12 Bảng 2.1: Độ xác phânloạicâuhỏi sử dụng thuật toán họcmáy khác với đặc trưng bag-of-words lớp mịn 36 Bảng 2.2: Độ xác thực nghiệm với liệu ngôn ngữ Tiếng Việt 36 Bảng 3.1: Thông tin phần cứng 38 Bảng 3.2: Các công cụ phần mềm sử dụng 38 Bảng 3.3: Độ xác phânloại tập thô với đặc trưng unigram bigram 45 Bảng 3.4: Độ xác phânloại tập mịn với đặc trưng unigram bigram 45 LỜI MỞ ĐẦU Ngày nay, với phát triển mạnh mẽ Internet toàn cầu với nhu cầu tìm kiếm thông tin ngày cao người đòi hỏi hệ thống hỏi đáp ngày thông minh Những thắc mắc người dùng dạng truy vấn cần tìm kiếm trả cách ngắn gọn, súc tích xác mà họ mong muốn Một thành phần quan trọng ảnh hưởng trực tiếp đến kết tìm kiếm hệ thống hỏi đáp giai đoạn phânloạicâuhỏiMộtphânloại tốt giúp đưa câu trả lời xác Đã có nhiều phương pháp tiếp cận đưa cho toán phânloại này, nhiên phương pháp họcmáy áp dụng nhiều Chính lý mà tác giả chọn nghiên cứu đề tài “Một sốmôhìnhhọcmáyphânloạicâu hỏi” Luận văn bao gồm phần sau: Chƣơng 1: Tổng quan phânloạicâuhỏi Chương trình bày tổng quan phânloạicâu hỏi, giới thiệu hệ thống hỏi đáp, toán phânloạicâu hỏi, cách tiếp cận giải toán, tổng quan tiếp cận họcmáy như: biểu diễn câu hỏi, phân lớp câu hỏi, đặc trưng câuhỏi Chƣơng 2: Mộtsốmôhìnhhọcmáyphânloạicâuhỏi Chương tập trung trình bày phânloại thường sử dụng: Naïve Bayes, K-láng giềng gần, Máy vector hỗ trợ liệt kê sốphânloại khác So sánh hiệu suất phânloạiphânloại dựa kết tham khảo Chƣơng 3: Thực nghiệm đánh giá Áp dụng phânloại SVM thực thí nghiệm tập liệu UIUC, lựa chọn đặc trưng bag-of-word Nhận xét kết trả 38 Chƣơng 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 3.1 Lựa chọn phânloại Như trình bày phần 2.7, phânloại SVM chứng minh vượt trội so với phânloại khác Chính vậy, khóa luận định lựa chọn phânloại SVM để thực thực nghiệm đánh giá Để xây dựng phânloại SVM, thư viện LI SVM áp dụng trình huấn luyện kiểm thử Lựa chọn đặc trưng: Đã có nhiều đặc trưng giới thiệu Trongphần thực nghiệm này, trước mắt luận văn sử dụng đặc trưng unigram bigram để tiến hành phânloại 3.2 Môi trƣờng công cụ sử dụng thực nghiệm Cấuhìnhphần cứng, phần mềm gói kèm thực nghiệm sử dụng luận văn mô tả hai bảng sau đây: Bảng 3.1: Thông tin phần cứng STT Thành phần Chỉ số CPU Intel Core i3 1.8GHZ RAM 2GB Hệ điều hành Windows Bảng 3.2: Các công cụ phần mềm sử dụng STT Tên phần mềm Chức Nguồn LIBSVM 3.21 Phânloạicâuhỏi http://www.csie.ntu.edu.tw/ ~cjlin/libsvm/ Eclipse Java EE Tạo môi trường để viết chương trình xây dựng tập tin huấn luyện http://www.eclipse.org/dow nloads/index-helios.php Python 2.7.12 Tạo môi trường để kiểm thử với LibSVM https://www.python.org/dow nloads/release/python-2712/ 3.3 Tập liệu thử nghiệm Tập liệu sử dụng thực nghiệm tạo Li Roth Chúng cung cấp tập liệu câuhỏi sử dụng rộng rãi nghiên cứu 39 phânloạicâuhỏi biết tập liệu UIUC tập liệu TREC Đối với tập liệu TREC cung cấp loạicâuhỏi dạng tập tin theo định dạng giống XML Trên trang web UIUC cung cấp tập tin danh sách câuhỏi mà câuhỏi gán nhãn phânloại sẵn Các tập tin xếp theo thứ tự 1000, 2000, 3000, 4000 5500 câuhỏi gán nhãn Thêm vào đó, UIUC cung cấp tập tin để kiểm tra gồm 500 câuhỏi TREC 10 Từ đó, em định chọn tập huấn luyện dựa kho liệu câuhỏi UIUC cho trình thực nghiệm Hình 3.1: File chứa 5500 câuhỏi ban đầu 40 Hình 3.2: File chứa 500 câuhỏi test Ví dụ dòng liệu tập liệu UIUC: HUM:ind Who was The Pride of the Yankees ? Nguyên tắc phânloại sử dụng để gán nhãn cho câuhỏi nguyên tắc phânloại giải thích chương Nó bao gồm lớp thô 50 lớp mịn 3.4 Xử lý liệu Như giải thích phần 1.4, câuhỏi biểu diễn môhình không gian vector Các đặc trưng trích rút từ câuhỏi bổ sung vào vectơ đặc trưng với cặp (đặc trưng, giá trị) Nếu trích rút đặc trưng unigram, với câuhỏi “Who was the Pride of Yankees”, công thức (1.2) chuyển sang hình thức sau: {(Who, 1)(was, 1)(the, 2)(Pride, 1)(of, 1)(Yankees, 1)(?, 1)} Tuy nhiên thay sử dụng chuỗi, phần tử (đặc trưng) ánh xạ tới số nhất, số đặc trưng Hơn tên lớp ánh xạ tới số Mẫu định dạng tương tự liệu TREC, chuyển qua hình thức mà chấp nhận thư viện LIBSVM LIBSVM thư viện đơn giản dễ sử dụng hiệu dành cho phânloại SVM Đây mã nguồn mở cung cấp cho nhiều ngôn ngữ khác : Java, Python, Perl, Ruby Để bắt đầu sử dụng với thư viện này, ta cần phải xây dựng tập tin huấn luyện theo dịnh dạng Định dạng tập tin chứa liệu huấn luyện tập tin kiểm thử là: : : Trong đó: giá trị đích tập huấn luyện Đối với việc phân loại, số nguyên xác định lớp số nguyên Cụ thể toán phânloại đại diện cho đặc trưng số thực Giá trị thể mức độ liên quan đặc trưng phânloại nằm khoảng [-1,1] Do đặc trưng phânloạicâuhỏi đặc trưng nhị phân nên lúc huấn luyện giá trị Câuhỏi “Who was the Pride of Yankees” chuyển thành sau: 44 1:1 15:2 24:2 98:1 235:1 1934:1 4376:1 số (44) cho biết số lớp cặp lại (đặc trưng, giá trị) phân cách khoảng trốngtrong cặp phân cách dấu hai 41 chấm (:) Hơn cặp đặc trưng nên xếp theo thứ tự tăng dần số đặc trưng Khi tất tập liệu huấn luyện kiểm tra chuyển định dạng trên, sau thực huấn luyện phânloại với tập liệu huấn luyện kiểm tra lại tập liệu kiểm tra độc lập Ngôn ngữ Java sử dụng để chuyển đổi từ liệu ban đầu (Hình 3.1 3.2) sang thành định dạng đọc LIBSVM Đầu tiên, file liệu tải tách thành file: file chứa nhãn câuhỏi tập thô, file chứa nhãn câuhỏi tập mịn Hình 3.3 3.4 kết tách file tập chứa 5500 câuhỏi Thực tương tự với file chứa liệu test Hình 3.3: File chứa 5500 nhãn câuhỏi tập thô 42 Hình 3.4: File chứa 5500 nhãn câuhỏi tập mịn Sau đó, từ file (dữ liệu thô liệu mịn) tách thành file: file chứa câuhỏi file chứa nhãn đánh sốHình 3.5 3.6 kết tách file tập liệu huấn luyện Thực tương tự với tập liệu test Hình 3.5: File chứa 5500 câuhỏi huấn luyện 43 Hình 3.6: Nhãn tương ứng 5500 câuhỏi Từ đó, với file kết thu được, sử dụng đặc trưng bag of word thực đưa định dạng đọc thư viện LIBSVM Hình 3.7 3.8 file kết sử dụng đặc trưng bigram tập mịn tập liệu huấn luyện tập liệu test Hình 3.7: File kết đưa định dạng đọc thư viện LIBSVM sử dụng đặc trưng bigram tập mịn tập train 44 Hình 3.8: File kết đưa định dạng đọc thư viện LIBSVM sử dụng đặc trưng bigram tập mịn tập test 3.5 Huấn luyện kiểm thử với LibSVM Sau có file với định dạng chấp nhận thư viện LIBSVM, thực huấn luyện test Trong giai đoạn này, khóa luận sử dụng ngôn ngữ lập trình Python để thực tính đơn giản tiện lợi Cụ thể sau: - Load thư viện Libsvm : from svmutil import * - Đọc liệu: Load liệu huấn luyện: yTrain tập nhãn lớp, xTrain liệu để train yTrain, xTrain = svm_read_problem('train_5000_fine_unigram.txt') Load liệu test: yTest tập nhãn lớp, xTest liệu để test yTest, xTest = svm_read_problem('TREC_10_fine_unigram.txt') - Xây dựng môhìnhphân lớp: m = svm_train(yTrain, xTrain, '-t -h 0') Ở đây, tham số „-t 0‟ loại hàm nhân lựa chọn tuyến tính (Linear), tham số „-h 0‟ tức không dùng tính co lại khoảng cách lớp 45 - Phânloạicâuhỏi dựa liệu test môhình thu trên: p_label, p_acc, p_val = svm_predict(yTest, xTest, m) Kết thu p_label: danh sách nhãn dự đoán câu hỏi, p_acc độ xác phân lớp 3.6 Kết thực nghiệm Độ xác phânloại sau thử nghiệm với phânloại SVM, lựa chọn đặc trưng unigram, bigram, sử dụng cách tính trọngsố entropy sau: Bảng 3.3: Độ xác phânloại tập thô với đặc trưng unigram bigram Đặc trƣng Unigram Bigram Độ xác 88,2% 85,6% Bảng 3.4: Độ xác phânloại tập mịn với đặc trưng unigram bigram Đặc trƣng Unigram Độ xác 80,2% Bigram 73,8% 3.7 Kết luận Như vậy, sau thực nghiệm đánh giá phânloại SVM sử dụng đặc trưng unigram bigram, nhận thấy kết phânloại đạt với độ xác cao (80.2% tập mịn) Đặc trưng unigram cho kết phânloại cao đặc trưng bigram 46 TỔNG KẾT Phânloạicâuhỏi vấn đề khó Thực tế máy cần phải hiểu câuhỏiphânloại vào loại xác Điều thực loạt bước phức tạp Luận văn trình bày kiến thức toán phânloạicâuhỏi giới thiệu số thuật toán để giải toán phânloại Tuy nhiên, luận văn mang tính tìm hiểu ứng dụng có, đề xuất hay cải tiến để làm tăng độ xác phânloại Ngoài ra, luận văn thực nghiệm ngôn ngữ Tiếng Anh mà chưa mở rộng thực nghiệm sang ngôn ngữ Tiếng Việt Trong tương lai gần, hướng phát triển trước mắt luận văn cần tìm hiểu kết hợp đặc trưng khác để làm tăng độ xác phânloại Thực phânloại nhiều ngôn ngữ 47 TÀI LIỆU THAM KHẢO Tiếng Việt Nguyễn Minh Tuấn (2008), Phân lớp câuhỏi hướng tới tìm kiếm ngữ nghĩa Tiếng Việt lĩnh vực y tế, Khóa luận tốt nghiệp đại học, Trường Đại học Công Nghệ, Đại học Quốc gia Hà Nội Nguyễn Đức Vinh (2009), Phân tích câuhỏi hệ thống hỏi đáp Tiếng Việt, Khóa luận tốt nghiệp đại học, Trường Đại học Công Nghệ, Đại học Quốc gia Hà Nội Tiếng Anh Babak Loni (2011), Enhanced Question Classification with Optimal Combination of Features, Department of Media and Knowledge Engineering Delft University of Technology Caixian Chen, Huijian Han, Zheng Liu (2014), KNN question classification method based on Apriori algorithm, Donald Metzler and W Bruce Croft (2004), Analysis of Statistical Question Classification for Fact-based Questions, University of Massachusetts, Amherst Håkan Sundblad (2007), Question Classification in Question Answering Systems, Linköping Jo˜ao Silva, Lu´ısa Coheur, Ana Mendes, and Andreas Wichert From symbolic to subsymbolic information in question classification Articial Intelligence Review, 35(2):137–154, February 2011 LI Xin, HUANG Xuan-Jing, WU Li-de (2006), Question Classification by Ensemble Learning, Dep of Computer Science and Engineering, FUDAN Univ., Shanghai, PRC Marcin Skowron and Kenji Araki (2005), “Effectiveness of Combined features for machine learning based question classification”, Journal of Natural Language Processing, Vol.12, No.6 10 Phuong Le-Hong, Xuan-Hieu Phan, and Tien-Dung Nguyen (2014), Using Dependency Analysis to Improve Question Classification 48 11 Rishika Yadav, Megha Mishra (2013), “Question Classification Using Naïve ayes Machine Learning Approach”, International Journal of Engineering and Innovative Technology (IJEIT), Volume 2, Issue 12 V.Vapnik (1995), The Nature of Statistical Learning Theory, NewYork 13 Xin Li, Dan Roth (2002), Learning Question Classifiers, In Proceedings of the 19th international conference on Computational Linguistics, 1, Taipei, Taiwan, pp 1–7 Association for Computational Linguistics 14 Zhang, D & Lee, W.S (2003), Question Classification Using Support Vector Machines, In Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Toronto, Canada, pp 26-32 15 Zhiheng Huang, Marcus Thint, Zengchang Qin (2008), Question Classification Using Head Words and Their Hypernyms, In Proceedings of the Conference on Empirical Methods in Natural Language Processing, Honolulu, Hawaii, Association for Computational Linguistics, pp 927–936 49 PHỤ LỤC Danh sách nhãn từ loại hệ thống Penn Treebank (http://www.surdeanu.info/mihai/teaching/ista555spring15/readings/PennTreebankConstituents.html#Clause ) Clause Level STT Mệnh đề Giải thích S Simple declarative clause, i.e one that is not introduced by a (possible empty) subordinating conjunction or a wh-word and that does not exhibit subject-verb inversion SBAR Clause introduced by a (possibly empty) subordinating conjunction SBARQ Direct question introduced by a wh-word or a wh-phrase Indirect questions and relative clauses should be bracketed as SBAR, not SBARQ SINV Inverted declarative sentence, i.e one in which the subject follows the tensed verb or modal SQ Inverted yes/no question, or main clause of a wh-question, following the wh-phrase in SBARQ Phrase Level STT Mệnh đề Giải thích ADJP Adjective Phrase ADVP Adverb Phrase CONJP Conjunction Phrase FRAG Fragment INTJ Interjection Corresponds approximately to the part-of-speech tag UH LST List marker Includes surrounding punctuation NAC Not a Constituent; used to show the scope of certain prenominal modifiers within an NP NP Noun Phrase NX Used within certain complex NPs to mark the head of the NP Corresponds very roughly to N-bar level but used quite differently 10 PP Prepositional Phrase 11 PRN Parenthetical 12 PRT Particle Category for words that should be tagged RP 13 QP Quantifier Phrase (i.e complex measure/amount phrase); used within NP 14 RRC Reduced Relative Clause 15 UCP Unlike Coordinated Phrase 16 VP Vereb Phrase 17 WHADJP Wh-adjective Phrase Adjectival phrase containing a wh-adverb, as in how hot 18 WHAVP Wh-adverb Phrase Introduces a clause with an NP gap May be null (containing the complementizer) or lexical, containing a whadverb such as how or why 19 WHNP Wh-noun Phrase Introduces a clause with an NP gap May be null (containing the complementizer) or lexical, containing some whword, e.g who, which book, whose daughter, none of which, orhow many leopards Word Level STT Từ loại Giải thích CC Coordinating conjunction CD Cardinal number DT Determiner EX Existential there FW Foreign word IN Preposition or subordinating conjunction JJ Adjective JJR Adjective, comparative JJS Adjective, superlative 10 LS List item marker 11 MD Modal 12 NN Noun, singular or mass 13 NNS Noun, plural 14 NP Proper noun, singular 15 NPS Proper noun, plural 16 PDT Predeterminer 17 POS Possessive ending 18 PP Personal pronoun 19 PP$ Possessive pronoun 20 RB Adverb 21 RBR Adverb, comparative 22 RBS Adverb, superlative 23 RP Particle 24 SYM Symbol 25 TO to 26 UH Interjection 27 VB Verb, base form 28 VBD Verb, past tense 29 VBG Verb, gerund or present participle 30 VBN Verb, past participle 31 VBP Verb, non-3rd person singular present 32 VBZ Verb, 3rd person singular present 33 WDT Wh-determiner 34 WP Wh-pronoun 35 WP$ Possessive wh-pronoun 36 WRB Wh-adverb ... luyện, mô hình phân lớp áp dụng cho văn cần phân loại Mô hình phân lớp Câu hỏi cần phân loại Bộ phân loại Câu hỏi phân loại Hình 1.4: Mô hình giai đoạn phân lớp Đầu vào: vector đặc trưng câu hỏi mô. .. toán phân loại câu hỏi, cách tiếp cận giải toán, tổng quan tiếp cận học máy như: biểu diễn câu hỏi, phân lớp câu hỏi, đặc trưng câu hỏi Chƣơng 2: Một số mô hình học máy phân loại câu hỏi Chương... tài Một số mô hình học máy phân loại câu hỏi Luận văn bao gồm phần sau: Chƣơng 1: Tổng quan phân loại câu hỏi Chương trình bày tổng quan phân loại câu hỏi, giới thiệu hệ thống hỏi đáp, toán phân