Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 63 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
63
Dung lượng
1,24 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ TUYẾN MỘT SỐ MƠ HÌNH HỌC MÁY TRONG PHÂN LOẠI CÂU HỎI LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội -2016 i ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ TUYẾN MỘT SỐ MƠ HÌNH HỌC MÁY TRONG PHÂN LOẠI CÂU HỎI Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS LÊ HỒNG PHƢƠNG Hà Nội -2016 i LỜI CẢM ƠN Trước tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc tới Thầy giáo, TS.Lê Hồng Phương tận tình bảo, hướng dẫn, động viên giúp đỡ tơi suốt q trình thực luận văn tốt nghiệp Tôi xin gửi lời cảm ơn tới thầy cô trường Đại Học Công Nghệ - Đại Học Quốc Gia Hà Nội – người tận tình giúp đỡ, cổ vũ, góp ý cho suốt thời gian học tập nghiên cứu trường Tôi xin gửi lời cảm ơn tới anh chị, bạn học viên học tập nghiên cứu Trường Đại học Công nghệ hỗ trợ tơi nhiều q trình học tập thực luận văn Cuối cùng, muốn gửi lời cảm ơn tới gia đình bạn bè, người thân yêu bên cạnh, quan tâm, động viên tơi suốt q trình học tập thực luận văn tốt nghiệp Tôi xin chân thành cảm ơn! Hà Nội, tháng 10 năm 2016 Học viên Vũ Thị Tuyến i LỜI CAM ĐOAN Tôi xin cam đoan nội dung trình bày luận văn “Một số mơ hình học máy phân loại câu hỏi” thực hướng dẫn TS Lê Hồng Phương Tơi trích dẫn đầy đủ tài liệu tham khảo, cơng trình nghiên cứu liên quan nước quốc tế Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận văn Hà Nội, tháng 10 năm 2016 Học viên Vũ Thị Tuyến MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii MỤC LỤC .1 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH .4 DANH MỤC CÁC BẢNG LỜI MỞ ĐẦU .6 Chương 1: TỔNG QUAN VỀ PHÂN LOẠI CÂU HỎI .7 1.1 Tổng quan hệ thống hỏi đáp 1.1.1 Đặt vấn đề 1.1.2 Hệ thống hỏi đáp (Question Answering System) 1.1.2.1 Giới thiệu 1.1.2.2 Cấu trúc hệ thống hỏi đáp .9 1.1.2.3 Tại phải phân loại câu hỏi? 10 1.2 Bài toán phân loại câu hỏi 11 1.2.1 Định nghĩa phân loại câu hỏi .11 1.2.2 Phát biểu toán phân loại câu hỏi 11 1.3 Các cách tiếp cận toán phân loại câu hỏi 12 1.3.1 Tiếp cận dựa luật 12 1.3.2 Tiếp cận dựa học máy 13 1.4 Biểu diễn câu hỏi 15 1.5 Taxonomy câu hỏi 16 1.5.1 Khái niệm Taxonomy 16 1.5.2 Các taxonomy theo kiểu câu trả lời 16 1.5.3 Phân lớp đa cấp 19 1.6 Các đặc trưng phân loại 20 1.6.1 Các đặc trưng từ vựng 20 1.6.2 Các đặc trưng cú pháp 22 1.6.2.1 POS Tags Tagged Unigrams 22 1.6.2.2 Từ đầu (head word) 23 1.6.2.3 Biểu thức quy 27 1.6.3 Các đặc trưng ngữ nghĩa 28 Chương 2: MỘT SỐ MƠ HÌNH HỌC MÁY TRONG PHÂN LOẠI CÂU HỎI .30 2.1 Kiến trúc hệ thống 30 2.2 Thuật tốn Nạve Bayes 30 2.2.1 Định lý .30 2.2.2 Thuật toán 31 2.3 Thuật toán k-láng giềng gần (k- Nearst Neighbours) .34 2.4 Máy Vector hỗ trợ - SVM 35 2.5 Một số thuật toán khác .39 2.6 Hiệu suất phân loại câu hỏi .39 2.7 Một số kết tác giả 40 Chương 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 42 3.1 Lựa chọn phân loại 42 3.2 Môi trường công cụ sử dụng thực nghiệm 42 3.3 Tập liệu thử nghiệm 42 3.4 Xử lý liệu .44 3.5 Huấn luyện kiểm thử với LibSVM 48 3.6 Kết thực nghiệm 49 3.7 Kết luận 49 TỔNG KẾT 50 TÀI LIỆU THAM KHẢO 51 PHỤ LỤC 53 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT STT Ký hiệu, viết tắt Tiếng anh Chú giải QA Question Answering systems Hệ thống hỏi đáp IR Information Retrieval Truy hồi thông tin TREC Text REtrieval Conference UIUC University of Illinois UrbanaChampaign MUC Message Understanding Conference POS Part – Of - Speech WSD Word Sense Disambiguation NN Nearest Neighbors NB Naïve Bayes 10 DT Decision Tree Cây định 11 SNoW Sparse Network of Winnows Mạng lọc thưa 12 SVM Support Vector Machine Máy vector hỗ trợ 13 ME Maximum Entropy Entropy cực đại Láng giềng gần DANH MỤC CÁC HÌNH Hình 1.1: Kiến trúc hệ thống hỏi đáp 10 Hình 1.2: Mơ hình giai đoạn huấn luyện .14 Hình 1.3: Chi tiết giai đoạn huấn luyện .15 Hình 1.4: Mơ hình giai đoạn phân lớp 15 Hình 1.6: Cây phân tích cú pháp sử dụng phân tích Berkeley .24 Hình 1.8: Cây phân tích cú pháp cho câu hỏi “What is the proper name for a female walrus” 27 Hình 2.1: Kiến trúc tổng quan hệ thống phân loại câu hỏi có giám sát 30 Hình 2.2: Siêu phẳng với lề cực đại cho SVM phân tách liệu thuộc hai lớp 36 Hình 2.3: Sơ đồ phân lớp câu hỏi với SVM 39 Hình 3.1: File chứa 5500 câu hỏi ban đầu 43 Hình 3.2: File chứa 500 câu hỏi test 43 Hình 3.4: File chứa 5500 nhãn câu hỏi tập mịn .46 Hình 3.6: Nhãn tương ứng 5500 câu hỏi 47 Hình 3.7: File kết đưa định dạng đọc thư viện LIBSVM sử dụng đặc trưng bigram tập mịn tập train .47 Hình 3.8: File kết đưa định dạng đọc thư viện LIBSVM sử dụng đặc trưng bigram tập mịn tập test 48 DANH MỤC CÁC BẢNG Bảng 1.1: Taxonomy câu hỏi Li Roth 17 Bảng 2.1: Độ xác phân loại câu hỏi sử dụng thuật toán học máy khác với đặc trưng bag-of-words lớp mịn 40 Bảng 2.2: Độ xác thực nghiệm với liệu ngôn ngữ Tiếng Việt 41 Bảng 3.1: Thông tin phần cứng 42 Bảng 3.2: Các công cụ phần mềm sử dụng 42 Bảng 3.3: Độ xác phân loại tập thô với đặc trưng unigram bigram 49 Bảng 3.4: Độ xác phân loại tập mịn với đặc trưng unigram bigram .49 LỜI MỞ ĐẦU Ngày nay, với phát triển mạnh mẽ Internet tồn cầu với nhu cầu tìm kiếm thơng tin ngày cao người địi hỏi hệ thống hỏi đáp ngày thông minh hơn.Những thắc mắc người dùng dướidạng truy vấn cần tìm kiếm trả cách ngắn gọn, súc tích xác mà họ mong muốn Một thành phần quan trọng ảnh hưởng trực tiếp đến kết tìm kiếm hệ thống hỏi đáp giai đoạn phân loại câu hỏi.Một phân loại tốt giúp đưa câu trả lời xác hơn.Đã có nhiều phương pháp tiếp cận đưa cho toán phân loại này, nhiên phương pháp học máy áp dụng nhiều Chính lý mà tác giả chọn nghiên cứu đề tài “Một số mơ hình học máy phân loại câu hỏi” Luận văn bao gồm phần sau: Chƣơng 1: Tổng quan phân loại câu hỏi Chương trình bày tổng quan phân loại câu hỏi, giới thiệu hệ thống hỏi đáp, toán phân loại câu hỏi, cách tiếp cận giải toán, tổng quan tiếp cận học máy như: biểu diễn câu hỏi, phân lớp câu hỏi, đặc trưng câu hỏi Chƣơng 2: Một số mơ hình học máy phân loại câu hỏi Chương tập trung trình bày phân loại thường sử dụng: Naïve Bayes, K-láng giềng gần, Máy vector hỗ trợ liệt kê số phân loại khác So sánh hiệu suất phân loại phân loại dựa kết tham khảo Chƣơng 3: Thực nghiệm đánh giá Áp dụng phân loại SVM thực thí nghiệm tập liệu UIUC, lựa chọn đặc trưng bag-of-word.Nhận xét kết trả