Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 59 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
59
Dung lượng
1,27 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ TUYẾN MỘT SỐ MƠ HÌNH HỌC MÁY TRONG PHÂN LOẠI CÂU HỎI LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội -2016 i ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ TUYẾN MỘT SỐ MƠ HÌNH HỌC MÁY TRONG PHÂN LOẠI CÂU HỎI Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS LÊ HỒNG PHƢƠNG Hà Nội -2016 i LỜI CẢM ƠN Trước tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc tới Thầy giáo, TS.Lê Hồng Phương tận tình bảo, hướng dẫn, động viên giúp đỡ tơi suốt q trình thực luận văn tốt nghiệp Tôi xin gửi lời cảm ơn tới thầy cô trường Đại Học Công Nghệ - Đại Học Quốc Gia Hà Nội – người tận tình giúp đỡ, cổ vũ, góp ý cho suốt thời gian học tập nghiên cứu trường Tôi xin gửi lời cảm ơn tới anh chị, bạn học viên học tập nghiên cứu Trường Đại học Công nghệ hỗ trợ tơi nhiều q trình học tập thực luận văn Cuối cùng, muốn gửi lời cảm ơn tới gia đình bạn bè, người thân yêu bên cạnh, quan tâm, động viên tơi suốt q trình học tập thực luận văn tốt nghiệp Tôi xin chân thành cảm ơn! Hà Nội, tháng 10 năm 2016 Học viên Vũ Thị Tuyến ii LỜI CAM ĐOAN Tôi xin cam đoan nội dung trình bày luận văn “Một số mơ hình học máy phân loại câu hỏi” thực hướng dẫn TS Lê Hồng Phương Tơi trích dẫn đầy đủ tài liệu tham khảo, cơng trình nghiên cứu liên quan nước quốc tế Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận văn Hà Nội, tháng 10 năm 2016 Học viên Vũ Thị Tuyến MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH DANH MỤC CÁC BẢNG LỜI MỞ ĐẦU Chương 1: TỔNG QUAN VỀ PHÂN LOẠI CÂU HỎI 1.1 Tổng quan hệ thống hỏi đáp 1.1.1 Đặt vấn đề 1.1.2 Hệ thống hỏi đáp (Question Answering System) 1.1.2.1 Giới thiệu 1.1.2.2 Cấu trúc hệ thống hỏi đáp 1.1.2.3 Tại phải phân loại câu hỏi? 10 1.2 Bài toán phân loại câu hỏi 11 1.2.1 Định nghĩa phân loại câu hỏi 11 1.2.2 Phát biểu toán phân loại câu hỏi 11 1.3 Các cách tiếp cận toán phân loại câu hỏi 12 1.3.1 Tiếp cận dựa luật 12 1.3.2 Tiếp cận dựa học máy 13 1.4 Biểu diễn câu hỏi 15 1.5 Taxonomy câu hỏi 16 1.5.1 Khái niệm Taxonomy 16 1.5.2 Các taxonomy theo kiểu câu trả lời 16 1.5.3 Phân lớp đa cấp 19 1.6 Các đặc trưng phân loại 20 1.6.1 Các đặc trưng từ vựng 20 1.6.2 Các đặc trưng cú pháp 22 1.6.2.1 POS Tags Tagged Unigrams 22 1.6.2.2 Từ đầu (head word) 23 1.6.2.3 Biểu thức quy 27 1.6.3 Các đặc trưng ngữ nghĩa 28 Chương 2: MỘT SỐ MƠ HÌNH HỌC MÁY TRONG PHÂN LOẠI CÂU HỎI 30 2.1 Kiến trúc hệ thống 30 2.2 Thuật tốn Nạve Bayes 30 2.2.1 Định lý 30 2.2.2 Thuật toán 31 2.3 Thuật toán k-láng giềng gần (k- Nearst Neighbours) 34 2.4 Máy Vector hỗ trợ - SVM 35 2.5 Một số thuật toán khác 39 2.6 Hiệu suất phân loại câu hỏi 39 2.7 Một số kết tác giả 40 Chương 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 42 3.1 Lựa chọn phân loại 42 3.2 Môi trường công cụ sử dụng thực nghiệm 42 3.3 Tập liệu thử nghiệm 42 3.4 Xử lý liệu 44 3.5 Huấn luyện kiểm thử với LibSVM 48 3.6 Kết thực nghiệm 49 3.7 Kết luận 49 TỔNG KẾT 50 TÀI LIỆU THAM KHẢO 51 PHỤ LỤC 53 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT STT Ký hiệu, viết tắt Tiếng anh Chú giải QA Question Answering systems Hệ thống hỏi đáp IR Information Retrieval Truy hồi thông tin TREC Text REtrieval Conference UIUC University of Illinois UrbanaChampaign MUC Message Understanding Conference POS Part – Of - Speech WSD Word Sense Disambiguation NN Nearest Neighbors NB Naïve Bayes 10 DT Decision Tree Cây định 11 SNoW Sparse Network of Winnows Mạng lọc thưa 12 SVM Support Vector Machine Máy vector hỗ trợ 13 ME Maximum Entropy Entropy cực đại Láng giềng gần DANH MỤC CÁC HÌNH Hình 1.1: Kiến trúc hệ thống hỏi đáp 10 Hình 1.2: Mơ hình giai đoạn huấn luyện 14 Hình 1.3: Chi tiết giai đoạn huấn luyện 15 Hình 1.4: Mơ hình giai đoạn phân lớp 15 Hình 1.6: Cây phân tích cú pháp sử dụng phân tích Berkeley 24 Hình 1.8: Cây phân tích cú pháp cho câu hỏi “What is the proper name for a female walrus” 27 Hình 2.1: Kiến trúc tổng quan hệ thống phân loại câu hỏi có giám sát 30 Hình 2.2: Siêu phẳng với lề cực đại cho SVM phân tách liệu thuộc hai lớp 36 Hình 2.3: Sơ đồ phân lớp câu hỏi với SVM 39 Hình 3.1: File chứa 5500 câu hỏi ban đầu 43 Hình 3.2: File chứa 500 câu hỏi test 43 Hình 3.4: File chứa 5500 nhãn câu hỏi tập mịn 46 Hình 3.6: Nhãn tương ứng 5500 câu hỏi 47 Hình 3.7: File kết đưa định dạng đọc thư viện LIBSVM sử dụng đặc trưng bigram tập mịn tập train 47 Hình 3.8: File kết đưa định dạng đọc thư viện LIBSVM sử dụng đặc trưng bigram tập mịn tập test 48 DANH MỤC CÁC BẢNG Bảng 1.1: Taxonomy câu hỏi Li Roth 17 Bảng 2.1: Độ xác phân loại câu hỏi sử dụng thuật toán học máy khác với đặc trưng bag-of-words lớp mịn 40 Bảng 2.2: Độ xác thực nghiệm với liệu ngôn ngữ Tiếng Việt 41 Bảng 3.1: Thông tin phần cứng 42 Bảng 3.2: Các công cụ phần mềm sử dụng 42 Bảng 3.3: Độ xác phân loại tập thô với đặc trưng unigram bigram 49 Bảng 3.4: Độ xác phân loại tập mịn với đặc trưng unigram bigram 49 LỜI MỞ ĐẦU Ngày nay, với phát triển mạnh mẽ Internet toàn cầu với nhu cầu tìm kiếm thơng tin ngày cao người địi hỏi hệ thống hỏi đáp ngày thơng minh hơn.Những thắc mắc người dùng dướidạng truy vấn cần tìm kiếm trả cách ngắn gọn, súc tích xác mà họ mong muốn Một thành phần quan trọng ảnh hưởng trực tiếp đến kết tìm kiếm hệ thống hỏi đáp giai đoạn phân loại câu hỏi.Một phân loại tốt giúp đưa câu trả lời xác hơn.Đã có nhiều phương pháp tiếp cận đưa cho toán phân loại này, nhiên phương pháp học máy áp dụng nhiều Chính lý mà tác giả chọn nghiên cứu đề tài “Một số mơ hình học máy phân loại câu hỏi” Luận văn bao gồm phần sau: Chƣơng 1: Tổng quan phân loại câu hỏi Chương trình bày tổng quan phân loại câu hỏi, giới thiệu hệ thống hỏi đáp, toán phân loại câu hỏi, cách tiếp cận giải toán, tổng quan tiếp cận học máy như: biểu diễn câu hỏi, phân lớp câu hỏi, đặc trưng câu hỏi Chƣơng 2: Một số mơ hình học máy phân loại câu hỏi Chương tập trung trình bày phân loại thường sử dụng: Naïve Bayes, K-láng giềng gần, Máy vector hỗ trợ liệt kê số phân loại khác So sánh hiệu suất phân loại phân loại dựa kết tham khảo Chƣơng 3: Thực nghiệm đánh giá Áp dụng phân loại SVM thực thí nghiệm tập liệu UIUC, lựa chọn đặc trưng bag-of-word.Nhận xét kết trả 41 NN 57.4% 62.8% 65.2% 67.2% 68.4% NB 48.8% 52.8% 56.5% 56.2% 58.4% DT 67.0% 70.0% 73.6% 75.4% 77.0% SNoW 42.2% 66.2% 69.0% 66.6% 74.0% SVM 68.0% 75.0% 77.2% 77.4% 80.2% Từ kết thực nghiệm trên, ta nhận thấy rằng: Tập liệu huấn luyện lớn cho kết phân loại tốt Thuật tốn SVM mang lại độ xác cao so với phương pháp lại Đã có nhiều kết nghiên cứu phân loại câu hỏi ngôn ngữ Tiếng Anh hay Tiếng Pháp Tuy nhiên, nghiên cứu ngôn ngữ Tiếng Việt lại Nhóm tác giả Phuong Le-Hong, Xuan-Hieu Phan, Tien-Dung Nguyen [10] tiến hành thực nghiệm tập liệu gồm 1000 câu hỏi, câu hỏi chủ yếu hỏi Tập đoàn FPT phân vào 13 phân loại thô sau: ACTION (action), CONC (concept), DESC (description), DTIME (datetime), EVT (event), HUM (human), LOC (location), NET (internet), NUM (number), ORG (organization), OTHER (other), THG (thing), YESNO (yes/no) Thuật tốn mà nhóm tác giả sử dụng Naïve Bayes Maximum Entropy với lựa chọn sử dụng đặc trưng: unigrams, wh-words, typed dependencies Kết thí nghiệm trình bày bảng 2.2 Bảng 2.2: Độ xác thực nghiệm với liệu ngôn ngữ Tiếng Việt Đặc trƣng NB ME Wh-words 47.5% 51.5% Unigrams 57.6% 78.4% Wh-words + deps 59.7% 69.6% Unigrams + deps 58.8% 80.5% 42 Chƣơng 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 3.1 Lựa chọn phân loại Như trình bày phần 2.7, phân loại SVM chứng minh vượt trội so với phân loại khác.Chính vậy, khóa luận định lựa chọn phân loại SVM để thực thực nghiệm đánh giá Để xây dựng phân loại SVM, thư viện LI SVM áp dụng trình huấn luyện kiểm thử Lựa chọn đặc trưng: Đã có nhiều đặc trưng giới thiệu, phần thực nghiệm này, trước mắt luận văn sử dụng đặc trưng unigram bigram để tiến hành phân loại 3.2 Môi trƣờng công cụ sử dụng thực nghiệm Cấu hình phần cứng, phần mềm gói kèm thực nghiệm sử dụng luận văn mô tả hai bảng sau đây: Bảng 3.1: Thông tin phần cứng STT Thành phần Chỉ số CPU Intel Core i3 1.8GHZ RAM 2GB Hệ điều hành Windows Bảng 3.2: Các công cụ phần mềm sử dụng STT Tên phần mềm Chức Nguồn LIBSVM 3.21 Phân loại câu hỏi http://www.csie.ntu.edu.tw/ ~cjlin/libsvm/ Eclipse Java EE Tạo mơi trường để viết http://www.eclipse.org/dow chương trình xây dựng tập tin huấn luyện nloads/index-helios.php Tạo môi trường để kiểm thử với LibSVM https://www.python.org/dow nloads/release/python-2712/ Python 2.7.12 3.3 Tập liệu thử nghiệm Tập liệu sử dụng thực nghiệm tạo Li Roth.Chúng cung cấp tập liệu câu hỏi sử dụng rộng rãi nghiên cứu phân loại câu hỏi biết tập liệu UIUC tập liệu TREC.Đối với tập liệu TREC cung cấp loại câu hỏi dạng tập tin theo định dạng giống 43 XML Trên trang web UIUC cung cấp tập tin danh sách câu hỏi mà câu hỏi gán nhãn phân loại sẵn Các tập tin xếp theo thứ tự 1000,2000, 3000, 4000 5500 câu hỏi gán nhãn Thêm vào đó, UIUC cung cấp tập tin để kiểm tra gồm 500 câu hỏi TREC 10.Từ đó, em định chọn tập huấn luyện dựa kho liệu câu hỏi UIUC cho trình thực nghiệm Hình 3.1: File chứa 5500 câu hỏi ban đầu Hình 3.2: File chứa 500 câu hỏi test Ví dụ dòng liệu tập liệu UIUC: 44 HUM:ind Who was The Pride of the Yankees ? Nguyên tắc phân loại sử dụng để gán nhãn cho câu hỏi nguyên tắc phân loại giải thích chương 1.Nó bao gồm lớp thô 50 lớp mịn 3.4 Xử lý liệu Như giải thích phần 1.4, câu hỏi biểu diễn mơ hình khơng gian vector Các đặc trưng trích rút từ câu hỏi bổ sung vào vectơ đặc trưng với cặp (đặc trưng, giá trị) Nếu trích rút đặc trưng unigram, với câu hỏi “Who was the Pride of Yankees”, cơng thức (1.2) chuyển sang hình thức sau: {(Who, 1)(was, 1)(the, 2)(Pride, 1)(of, 1)(Yankees, 1)(?, 1)} Tuy nhiên thay sử dụng chuỗi, phần tử (đặc trưng) ánh xạ tới số nhất, số đặc trưng.Hơn tên lớp ánh xạ tới số Mẫu định dạng tương tự liệu TREC, chuyển qua hình thức mà chấp nhận thư viện LIBSVM LIBSVM thư viện đơn giản dễ sử dụng hiệu dành cho phân loại SVM Đây mã nguồn mở cung cấp cho nhiều ngôn ngữ khác : Java, Python, Perl, Ruby Để bắt đầu sử dụng với thư viện này, ta cần phải xây dựng tập tin huấn luyện theo dịnh dạng Định dạng tập tin chứa liệu huấn luyện tập tin kiểm thử là: :: Trong đó: giá trị đích tập huấn luyện Đối với việc phân loại, số nguyên xác định lớp số nguyên Cụ thể tốn phân loại đại diện cho đặc trưng số thực Giá trị thể mức độ liên quan đặc trưng phân loại nằm khoảng [-1,1] Do đặc trưng phân loại câu hỏi đặc trưng nhị phân nên lúc huấn luyện giá trị Câu hỏi “Who was the Pride of Yankees” chuyển thành sau: 44 1:1 15:2 24:2 98:1 235:1 1934:1 4376:1 số (44) cho biết số lớp cặp lại (đặc trưng, giá trị) phân cách khoảng trống trong cặp phân cách dấu hai chấm (:) Hơn cặp đặc trưng nên xếp theo thứ tự tăng dần số đặc trưng 45 Khi tất tập liệu huấn luyện kiểm tra chuyển định dạng trên, sau thực huấn luyện phân loại với tập liệu huấn luyện kiểm tra lại tập liệu kiểm tra độc lập Ngôn ngữ Java sử dụng để chuyển đổitừ liệu ban đầu (Hình 3.1 3.2) sang thành định dạng đọc LIBSVM Đầu tiên, file liệu tải tách thành file: file chứa nhãn câu hỏi tập thô, file chứa nhãn câu hỏi tập mịn Hình 3.3 3.4 kết tách file tập chứa 5500 câu hỏi Thực tương tự với file chứa liệu test Hình 3.3: File chứa 5500 nhãn câu hỏi tập thơ 46 Hình 3.4: File chứa 5500 nhãn câu hỏi tập mịn Sau đó, từ file (dữ liệu thô liệu mịn) tách thành file: file chứa câu hỏi file chứa nhãn đánh số Hình 3.5 3.6 kết tách file tập liệu huấn luyện Thực tương tự với tập liệu test Hình 3.5: File chứa 5500 câu hỏi huấn luyện 47 Hình 3.6: Nhãn tương ứng 5500 câu hỏi Từ đó, với file kết thu được, sử dụng đặc trưng bag of word thực đưa định dạng đọc thư viện LIBSVM Hình 3.7 3.8 file kết sử dụng đặc trưngbigram tập mịncủa tập liệu huấn luyện tập liệu test Hình 3.7: File kết đưa định dạng đọc thư viện LIBSVM sử dụng đặc trưng bigram tập mịn tập train 48 Hình 3.8: File kết đưa định dạng đọc thư viện LIBSVM sử dụng đặc trưng bigram tập mịn tập test 3.5 Huấn luyện kiểm thử với LibSVM Sau có file với định dạng chấp nhận thư viện LIBSVM, thực huấn luyện test Trong giai đoạn này, khóa luận sử dụng ngơn ngữ lập trình Python để thực tính đơn giản tiện lợi Cụ thể sau: - Load thư viện Libsvm : from svmutil import * - Đọc liệu: Load liệu huấn luyện: yTrain tập nhãn lớp, xTrain liệu để train yTrain, xTrain = svm_read_problem('train_5000_fine_unigram.txt') Load liệu test: yTest tập nhãn lớp, xTest liệu để test yTest, xTest = svm_read_problem('TREC_10_fine_unigram.txt') - Xây dựng mơ hình phân lớp: m = svm_train(yTrain, xTrain, '-t -h 0') Ở đây, tham số „-t 0‟ loại hàm nhân lựa chọn tuyến tính (Linear), tham số „-h 0‟ tức khơng dùng tính co lại khoảng cách lớp 49 - Phân loại câu hỏi dựa liệu test mơ hình thu trên: p_label, p_acc, p_val = svm_predict(yTest, xTest, m) Kết thu p_label: danh sách nhãn dự đoán câu hỏi, p_acc độ xác phân lớp 3.6 Kết thực nghiệm Độ xác phân loại sau thử nghiệm với phân loại SVM, lựa chọn đặc trưng unigram, bigram, sử dụng cách tính trọng số entropy sau: Bảng 3.3: Độ xác phân loại tập thô với đặc trưng unigram bigram Đặc trƣng Unigram Bigram Độ xác 88,2% 85,6% Bảng 3.4: Độ xác phân loại tập mịn với đặc trưng unigram bigram Đặc trƣng Unigram Độ xác 80,2% Bigram 73,8% 3.7 Kết luận Như vậy, sau thực nghiệm đánh giá phân loại SVM sử dụng đặc trưng unigram bigram, nhận thấy kết phân loại đạt với độ xác cao (80.2% tập mịn) Đặc trưng unigram cho kết phân loại cao đặc trưng bigram 50 TỔNG KẾT Phân loại câu hỏi vấn đề khó.Thực tế máy cần phải hiểu câu hỏi phân loại vào loại xác.Điều thực loạt bước phức tạp.Luận văn trình bày kiến thức toán phân loại câu hỏi giới thiệu số thuật toán để giải toán phân loại.Tuy nhiên, luận văn mang tính tìm hiểu ứng dụng có, khơng có đề xuất hay cải tiến để làm tăng độ xác phân loại Ngồi ra, luận văn thực nghiệm ngơn ngữ Tiếng Anh mà chưa mở rộng thực nghiệm sang ngôn ngữ Tiếng Việt Trong tương lai gần, hướng phát triển trước mắt luận văn cần tìm hiểu kết hợp đặc trưng khác để làm tăng độ xác phân loại.Thực phân loại nhiều ngôn ngữ 51 TÀI LIỆU THAM KHẢO Tiếng Việt Nguyễn Minh Tuấn (2008), Phân lớp câu hỏi hướng tới tìm kiếm ngữ nghĩa Tiếng Việt lĩnh vực y tế, Khóa luận tốt nghiệp đại học, Trường Đại học Công Nghệ, Đại học Quốc gia Hà Nội Nguyễn Đức Vinh (2009),Phân tích câu hỏi hệ thống hỏi đáp Tiếng Việt,Khóa luận tốt nghiệp đại học, Trường Đại học Công Nghệ, Đại học Quốc gia Hà Nội Tiếng Anh Babak Loni (2011),Enhanced Question Classification with Optimal Combination of Features,Department of Media and Knowledge Engineering Delft University of Technology Caixian Chen, Huijian Han, Zheng Liu (2014), KNN question classification method based on Apriori algorithm, Donald Metzler and W Bruce Croft (2004), Analysis of Statistical Question Classification for Fact-based Questions, University of Massachusetts, Amherst Håkan Sundblad (2007), Question Classification in Question Answering Systems, Linköping Jo˜ao Silva, Lu´ısa Coheur, Ana Mendes, and Andreas Wichert From symbolic to subsymbolic information in question classification.Articial Intelligence Review, 35(2):137–154, February 2011 LI Xin, HUANG Xuan-Jing, WU Li-de (2006), Question Classification by Ensemble Learning,Dep of Computer Science and Engineering, FUDAN Univ., Shanghai, PRC Marcin Skowron and Kenji Araki (2005), “Effectiveness of Combined features for machine learning based question classification”, Journal of Natural Language Processing, Vol.12, No.6 10 Phuong Le-Hong, Xuan-Hieu Phan, and Tien-Dung Nguyen (2014), Using Dependency Analysis to Improve Question Classification 11 Rishika Yadav, Megha Mishra (2013), “Question Classification Using Naïve ayes Machine Learning Approach”, International Journal of Engineering and Innovative Technology (IJEIT), Volume 2, Issue 52 12 V.Vapnik (1995),The Nature of Statistical Learning Theory,NewYork 13 Xin Li, Dan Roth (2002), Learning Question Classifiers, In Proceedings of the 19th international conference on Computational Linguistics, 1, Taipei, Taiwan, pp 1–7 Association for Computational Linguistics 14 Zhang, D & Lee, W.S (2003), Question Classification Using Support Vector Machines, In Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Toronto, Canada, pp 26-32 15 Zhiheng Huang, Marcus Thint, Zengchang Qin (2008), Question Classification Using Head Words and Their Hypernyms, In Proceedings of the Conference on Empirical Methods in Natural Language Processing, Honolulu, Hawaii, Association for Computational Linguistics, pp 927–936 53 PHỤ LỤC Danh sách nhãn từ loại hệ thống Penn Treebank (http://www.surdeanu.info/mihai/teaching/ista555spring15/readings/PennTreebankConstituents.html#Clause ) Clause Level STT Mệnh đề Giải thích S Simple declarative clause, i.e one that is not introduced by a (possible empty) subordinating conjunction or a wh-word and that does not exhibit subject-verb inversion SBAR Clause introduced by a (possibly empty) subordinating conjunction SBARQ Direct question introduced by a wh-word or a wh-phrase Indirect questions and relative clauses should be bracketed as SBAR, not SBARQ SINV Inverted declarative sentence, i.e one in which the subject follows the tensed verb or modal SQ Inverted yes/no question, or main clause of a wh-question, following the wh-phrase in SBARQ Phrase Level STT Mệnh đề Giải thích ADJP Adjective Phrase ADVP Adverb Phrase CONJP Conjunction Phrase FRAG Fragment INTJ Interjection Corresponds approximately to the part-of-speech tag UH LST List marker Includes surrounding punctuation NAC Not a Constituent; used to show the scope of certain prenominal modifiers within an NP NP Noun Phrase NX Used within certain complex NPs to mark the head of the NP Corresponds very roughly to N-bar level but used quite differently 10 PP Prepositional Phrase 11 PRN Parenthetical 12 PRT Particle Category for words that should be tagged RP 13 QP Quantifier Phrase (i.e complex measure/amount phrase); used 54 within NP 14 RRC Reduced Relative Clause 15 UCP Unlike Coordinated Phrase 16 VP Vereb Phrase 17 WHADJP Wh-adjective Phrase Adjectival phrase containing a wh-adverb, as in how hot 18 WHAVP Wh-adverb Phrase Introduces a clause with an NP gap May be null (containing the complementizer) or lexical, containing a whadverb such as how or why 19 WHNP Wh-noun Phrase Introduces a clause with an NP gap May be null (containing the complementizer) or lexical, containing some whword, e.g who, which book, whose daughter, none of which, orhow many leopards Word Level STT Từ loại Giải thích CC Coordinating conjunction CD Cardinal number DT Determiner EX Existential there FW Foreign word IN Preposition or subordinating conjunction JJ Adjective JJR Adjective, comparative JJS Adjective, superlative 10 LS List item marker 11 MD Modal 12 NN Noun, singular or mass 13 NNS Noun, plural 14 NP Proper noun, singular 15 NPS Proper noun, plural 16 PDT Predeterminer 17 POS Possessive ending 55 18 PP Personal pronoun 19 PP$ Possessive pronoun 20 RB Adverb 21 RBR Adverb, comparative 22 RBS Adverb, superlative 23 RP Particle 24 SYM Symbol 25 TO to 26 UH Interjection 27 VB Verb, base form 28 VBD Verb, past tense 29 VBG Verb, gerund or present participle 30 VBN Verb, past participle 31 VBP Verb, non-3rd person singular present 32 VBZ Verb, 3rd person singular present 33 WDT Wh-determiner 34 WP Wh-pronoun 35 WP$ Possessive wh-pronoun 36 WRB Wh-adverb ... mơ hình phân lớp áp dụng cho văn cần phân loại Mô hình phân lớp Câu hỏi cần phân loại Bộ phân loại Câu hỏi phân loại Hình 1.4: Mơ hình giai đoạn phân lớp Đầu vào: vector đặc trưng câu hỏi mơ hình. .. toán phân loại câu hỏi, cách tiếp cận giải toán, tổng quan tiếp cận học máy như: biểu diễn câu hỏi, phân lớp câu hỏi, đặc trưng câu hỏi Chƣơng 2: Một số mơ hình học máy phân loại câu hỏi Chương... tài ? ?Một số mơ hình học máy phân loại câu hỏi? ?? Luận văn bao gồm phần sau: Chƣơng 1: Tổng quan phân loại câu hỏi Chương trình bày tổng quan phân loại câu hỏi, giới thiệu hệ thống hỏi đáp, toán phân