1. Trang chủ
  2. » Luận Văn - Báo Cáo

(LUẬN văn THẠC sĩ) nghiên cứu phương pháp làm tăng chất lượng phân lớp câu hỏi trong hệ thống hỏi đáp

55 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ NGỌC ANH NGUYỄN THỊ NGỌC ANH NGHIÊN CỨU CỨU PHƢƠNG PHƢƠNG PHÁP PHÁP LÀM LÀM TĂNG TĂNG NGHIÊN CHẤT LƢỢNG LƢỢNG PHÂN PHÂN LỚP LỚP CÂU CÂU HỎI HỎI TRONG TRONG CHẤT HỆ THỐNG THỐNG HỎI HỎI ĐÁP ĐÁP HỆ Ngành: Công nghệ Thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Hà Nội - 2013 NGƢỜI HƢỚNG DẪN KHOA HỌC: TS.NGUYỄN TRÍ THÀNH Hà Nội - 2013 TIEU LUAN MOI download : skknchat@gmail.com MỤC LỤC MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ .6 MỞ ĐẦU Chƣơng Giới thiệu toán 1.1 Hệ thống hỏi đáp .8 1.2 Vị trí tốn phân lớp câu hỏi hệ thống hỏi đáp 10 1.3 Bài toán phân lớp câu hỏi .11 Chƣơng Các cơng trình nghiên cứu liên quan 13 2.1 Các đề tài nghiên cứu liên quan 13 2.2 Các hướng giải toán phân lớp câu hỏi .18 2.3 Lựa chọn định hướng giải toán luận văn 19 Chƣơng Mô hình giải tốn .20 3.1 Lựa chọn giải pháp mơ hình giải tốn .20 3.2 Cơ sở lý thuyết 20 3.2.1 Học bán giám sát 20 3.2.2 Các thuật toán học bán giám sát 21 3.2.3 Tri-Train .21 3.2.3.1 Tri-Train gốc .21 3.2.3.2 Tri-Train cải tiến 23 3.3 Giải pháp cải tiến 25 3.3.1 Đề xuất cải tiến 25 3.3.2 Công việc xử lý đặc trưng 26 3.3.2.1 Valuefit 26 3.3.2.2 Related 31 3.3.2.3 N-grams .34 Nghiên cứu phương pháp làm tăng chất lượng phân lớp câu hỏi hệ thống hỏi đáp TIEU LUAN MOI download : skknchat@gmail.com Chƣơng Thực nghiệm .36 4.1 Dữ liệu công cụ cho thực nghiệm 36 4.2 Kết xây dựng đặc trưng .37 4.2.1 Value Fit .37 4.2.1.1 Các bước thực 37 4.2.1.2 Kết 37 4.2.2 Related 38 4.2.2.1 Các bước thực 38 4.2.2.2 Kết 38 4.2.3 N-grams 39 4.2.3.1 Các bước thực 39 4.2.3.2 Kết 39 4.3 Kết thực nghiệm Tritrain 40 4.3.1 Các bước thực hiện: 40 4.3.2 Danh sách liệu sử dụng 41 4.3.3 Đánh giá hiệu việc sử dụng Tri-Train 42 4.3.3.1 Hiệu cải thiện chất lượng phân lớp thô 43 4.3.3.2 Hiệu cải thiện chất lượng phân lớp tinh .43 4.3.3.3 Ảnh hưởng khung nhìn chất lượng thấp đến hiệu phân lớp 44 4.4 Đánh giá chung .45 4.4.1 Kết cải tiến chất lượng phân lớp 45 4.4.2 Đóng góp đặc trưng “ValueFit” 46 4.4.3 Đóng góp đặc trưng “N-grams” 46 4.4.4 Đóng góp đặc trưng “Related” .47 KẾT LUẬN 49 TÀI LIỆU THAM KHẢO 50 PHỤ LỤC .52 Nghiên cứu phương pháp làm tăng chất lượng phân lớp câu hỏi hệ thống hỏi đáp TIEU LUAN MOI download : skknchat@gmail.com DANH MỤC CÁC TỪ VIẾT TẮT QA Question Answering System TREC Text Retrieval Conference NN Nearest Neighbors NB Naïve Bayes DT Decision Tree SNoW Sparse Network of Winnows SVM Support Vector Machines MEM Maximum Entropy Model Nghiên cứu phương pháp làm tăng chất lượng phân lớp câu hỏi hệ thống hỏi đáp TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap DANH MỤC CÁC BẢNG Bảng 2.1: Phân lớp mục thô 50 mục tinh đưa Li Roth (2002) Nghiên cứu phương pháp làm tăng chất lượng phân lớp câu hỏi hệ thống hỏi đáp (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1: Hệ thống hỏi đáp tự động Hình 1.2: Các module chức hệ thống hỏi đáp Hình 1.3: Bài tốn phân lớp câu hỏi Hình 2.1: Mơ hình tổng quan hệ thống phân lớp câu hỏi Kadri Hacioglu Wayne Ward Hình 2.2: Các hướng giải tốn phân lớp câu hỏi Hình 4.1: Hiệu phân lớp ValueFit với tập train 5500 câu hỏi Hình 4.2: Hiệu phân lớp Ralated với tập train 5500 câu hỏi Hình 4.3: Hiệu phân lớp Ralated với tập train 5500 câu hỏi Hình 4.4: Chất lượng liệu đặc trưng phân lớp thô 4000 câu hỏi Hình 4.5: Chất lượng liệu đặc trưng phân lớp tinh 4000 câu hỏi Hình 4.6: Biểu đồ đánh giá hiệu cải thiện chất lượng phân lớp thô Hình 4.7: Biểu đồ đánh giá hiệu cải thiện chất lượng phân lớp tinh Hình 4.8: Sự đóng góp đặc trưng Pos vào chất lượng phân lớp thô Tri-Train Hình 4.9: Sự đóng góp đặc trưng Pos vào chất lượng phân lớp tinhtrong Tri-Train Hình 4.10: Kết cải thiện chất lượng phân lớp Hình 4.11: Sự đóng góp đặc trưng ValueFit vào chất lượng phân lớp thơ Hình 4.12: Sự đóng góp đặc trưng N-grams vào chất lượng phân lớp tinh Hình 4.13: Sự đóng góp đặc trưng Related vào chất lượng phân lớp tinh Nghiên cứu phương pháp làm tăng chất lượng phân lớp câu hỏi hệ thống hỏi đáp (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap MỞ ĐẦU Các hệ thống hỏi đáp (Question Answering System) hướng quan trọng xử lý ngôn ngữ tự nhiên Một thành phần quan trọng hệ thống module phân lớp câu hỏi Chất lượng module có ý nghĩa quan trọng xác định miền liệu phương pháp trích chọn câu trả lời cho câu hỏi đưa Luận văn tập trung tìm hiểu phương pháp nhằm làm tăng hiệu phân lớp module phân lớp câu hỏi Bài toán phân lớp câu hỏi đặt giải từ lâu với hai hướng chủ đạo: dựa luật dựa xác suất, nhiên tốn nhiều người quan tâm Luận văn tập trung khảo sát phương pháp áp dụng cho phân lớp câu hỏi Trên sở lựa chọn nghiên cứu giải thuật học bán giám sát Trong giải thuật học bán giám sát, tác giả lựa chọn nghiên cứu cách cải tiến giải thuật Tri-Train áp dụng cho toán phân lớp câu hỏi Kế thừa đề xuất cải tiến Nguyễn Trí Thành cộng cơng bố vào năm 2008, luận văn đưa đề xuất cải tiến thực nhiều thử nghiệm minh họa sau thống kê phân tích đầy đủ thử nghiệm Luận văn tổ chức sau: Chương 1: giới thiệu hệ thống hỏi đáp, tầm quan trọng module phân lớp câu hỏi phát biểu toán phân lớp câu hỏi Chương 2: khảo sát đề tài nghiên cứu liên quan đến phân lớp câu hỏi thành tựu nghiên cứu giới đạt Chương 3: trình bày sơ lược học bán giám sát, giải thuật Tri-Train, đưa trình bày chi tiết đề xuất cải tiến nhằm tăng hiệu cho toán phân lớp câu hỏi Chương 4: trình bày trình làm thực nghiệm kết đạt Tác giả xin chân thành cảm ơn hướng dẫn bảo tận tình thầy Nguyễn Trí Thành, cảm ơn thầy giáo khoa Hệ Thống Thông Tin trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội tạo điều kiện giúp tác giả hoàn thành luận văn Cảm ơn gia đình, bạn bè người thân bên cạnh tác giả giúp tác giả vượt qua khó khăn sống Hà Nội, ngày 06 tháng 10 năm 2013 Nguyễn Thị Ngọc Anh Nghiên cứu phương pháp làm tăng chất lượng phân lớp câu hỏi hệ thống hỏi đáp (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap Chương Giới thiệu toán Mở đầu chương giới thiệu hệ thống hỏi đáp nói chung Sau vị trí, vai trị tốn phân lớp câu hỏi hệ thống hỏi đáp Cuối cùng, phát biểu dạng toán học toán phân lớp câu hỏi 1.1 Hệ thống hỏi đáp Hệ thống hỏi đáp xem bước trình tìm kiếm thông tin, cho phép người dùng đặt câu hỏi ngôn ngữ tự nhiên nhận câu trả lời ngắn gọn Để đáp ứng nhu cầu tìm kiếm hiệu cho yêu cầu người dùng cần có hệ thống đủ thơng minh, nhanh chóng trả lời xác cho câu hỏi Chính từ nhu cầu này, hệ thống hỏi đáp tự động QA (Question Answering System) đề xuất, nghiên cứu tìm hướng giải Hệ thống nhằm mục đích trả lời cho câu hỏi tự nhiên thời gian ngắn nhất, chi phí tối thiểu hiệu tối đa Năm 2000, Jaime Carbonell cộng sớm đưa tiêu chuẩn chung cho việc nghiên cứu QA [6] Theo đó, hệ thống hỏi đáp người dùng đánh giá hữu ích đáp ứng tiêu chuẩn: - Tính hợp lý thời gian: câu trả lời phải đưa thời gian ngắn, có hàng ngàn người dùng truy nhập hệ thống lúc Các nguồn liệu cần phải tích hợp vào hệ thống chúng sẵn sàng để cung cấp cho người dùng câu trả lời cho câu hỏi kiện có tính thời - Tính xác: thách thức quan trọng việc đưa câu trả lời sai cịn tai hại nhiều khơng đưa câu trả lời Nghiên cứu QA cần tập trung vào việc đánh giá tính đắn câu trả lời đưa ra, bao gồm phương thức để phát trường hợp mà liệu thời không chứa câu trả lời cho câu hỏi Các thông tin mâu thuẫn liệu cần tìm thông tin cần xử lý theo cách phù hợp, quán Để đạt xác, hệ thống QA cần tích hợp nguồn tri thức q trình học suy luận thơng thường - Tính khả dụng: hệ thống QA cần đáp ứng yêu cầu cụ thể người dùng Các ontology miền cụ thể ontology miền mở cần tích hợp hệ thống Hệ thống QA cần có khả khai phá câu trả lời từ dạng liệu (văn bản, web, sở liệu, …) đưa câu trả lời định dạng mà người dùng mong muốn, cho phép người dùng miêu tả ngữ cảnh câu hỏi cung cấp thông tin Nghiên cứu phương pháp làm tăng chất lượng phân lớp câu hỏi hệ thống hỏi đáp (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap giải thích, trích dẫn nguồn cho câu trả lời - Tính hồn chỉnh: câu trả lời hoàn chỉnh cho câu hỏi người dùng điều mà hệ thống QA hướng tới Trong nhiều trường hợp (câu hỏi danh sách, nguyên nhân, cách thức…), phần câu trả lời nằm rải rác văn bản, chí nhiều văn Vì cần phải hợp phần dựa thông tin liên kết để tạo câu trả lời hồn chỉnh - Tính thích hợp câu trả lời: ngôn ngữ tự nhiên, câu hỏi đưa ln gắn với ngữ cảnh câu trả lời nằm ngữ cảnh định Câu trả lời mà hệ thống QA đưa phải phù hợp ngữ cảnh với câu hỏi Một hệ thống QA có khả tương tác cần thiết nhiều trường hợp chuỗi câu hỏi liên quan đến vấn đề giúp làm sáng tỏ thông tin mà người dùng hỏi Việc đánh giá hệ thống QA cần hướng người dùng ý kiến người dùng đánh giá tốt cho tính thích hợp câu trả lời Hệ thống hỏi đáp tự động hệ thống xây dựng để thực việc tìm kiếm tự động câu trả lời từ tập lớn tài liệu cho câu hỏi đầu vào cách xác QA thu hút quan tâm nhiều nhà nghiên cứu từ trường đại học, viện nghiên cứu công ty lớn hàng đầu giới [15] Nhiều hội nghị lớn xử lý ngôn ngữ tự nhiên tổ chức hàng năm Coling, Text Retrieval Conference (Trec)… có phần dành riêng cho nghiên cứu liên quan đến hệ thống hỏi đáp Hình 1.1: Hệ thống hỏi đáp tự động Nghiên cứu phương pháp làm tăng chất lượng phân lớp câu hỏi hệ thống hỏi đáp (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap 10 Bên cạnh sản phẩm thương mại liên quan đến QA (hình 1.1) cơng ty phát triển như: Yahoo Answers Yahoo http://vn.answers.yahoo.com/, hệ thống hỏi đáp Google http://www.google.com.vn/giaidap/ (phiên tiếng Việt gọi “Hệ thống giải đáp”), Live QnA Microsoft http://qna.live.com/ … đặc biệt hai sản phẩm Anwsers.com http://www.answers.com/ Answers Corp doanh thu năm 9.5 triệu USD Ask http://www.ask.com/ InterActive Corp doanh thu năm 227 triệu USD 1.2 Vị trí toán phân lớp câu hỏi hệ thống hỏi đáp Hệ thống hỏi đáp ngày trở nên phổ biến phong phú nhiều lĩnh vực ứng dụng sống Phân lớp câu hỏi module quan trọng hệ thống (hình 1.2) Do toán phân lớp câu hỏi trở nên cần thiết quan trọng Chức phân câu hỏi vào lớp giúp giảm đáng kể khơng gian tìm kiếm câu trả lời, độ xác đóng vai trị quan trọng hiệu hệ thống hỏi đáp Giao diện Module phân lớp câu hỏi Nhập câu hỏi Xác định câu hỏi thuộc lĩnh vực/ miền/ phần Module tiền xử lý câu hỏi Biến đổi câu hỏi dạng chuẩn hệ thống Module tìm kiếm câu trả lời Tìm kiếm câu trả lời miền xác định Giao diện Hiển thị kết tìm kiếm Hình 1.2: Các module chức hệ thống hỏi đáp Nghiên cứu phương pháp làm tăng chất lượng phân lớp câu hỏi hệ thống hỏi đáp (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap 41 4.3.2 Danh sách liệu sử dụng ST Tên liệu T Ý nghĩa Origin Dữ liệu ban đầu Origin_N-grams Dữ liệu ban đầu kết hợp với N-grams Origin_Related Dữ liệu ban đầu kết hợp vớ từ liên quan Origin_Valuefit Dữ liệu ban đầu kết hợp với xử lý kết hợp với thông tin giá trị phù hợp câu hỏi với lớp Pos Dữ liệu có thơng tin Pos (từ loại) WordRoot Dữ liệu bao gồm từ gốc WordRoot_Pos Dữ liệu bao gồm từ gốc kết hợp với Pos WordRoot_Pos_Valuefit Dữ liệu bao gồm từ gốc kết hợp với Pos thông tin giá trị phù hợp câu hỏi với lớp WordRoot_Related Dữ liệu bao gồm từ gốc kết hợp với từ liên quan với Nguồn liệu sử dụng cho toàn thực nghiệm hệ thống câu hỏi Trec, tiếng nhiều nghiên cứu liên quan đến lĩnh vực phân lớp câu hỏi sử dụng để kiểm tra chất lượng nghiên cứu Tất thử nghiệm với Tri-Train ta sử dụng ngưỡng 4000 câu hỏi, để đánh giá chất lượng Tri-Train, ta cần phải đo chất lượng phân lớp liệu tập train 4000 câu hỏi Ở thử nghiệm đây, tác giả sử dụng tool cắt lấy 4000 câu hỏi cho câu hỏi tập train Đối với phân lớp thơ (hình 4.4), liệu ban đầu với liệu 4000 câu hỏi tập train 86%, đặc trưng tốt nâng kết phân lớp lên 88.2% (tăng 1.6%) Đây đấu hiệu tốt, tiền đề cho khả tăng đáng kể chất lượng phân lớp chung sử dụng giải thuật Tri-Train Nghiên cứu phương pháp làm tăng chất lượng phân lớp câu hỏi hệ thống hỏi đáp (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap 42 Hình 4.4: Chất lượng liệu đặc trưng phân lớp thô 4000 câu hỏi Đối với phân lớp tinh (hình 5.5), liệu ban đầu với liệu 4000 câu hỏi tập train 77.4%, đặc trưng tốt nâng kết phân lớp lên 79.8% (tăng 2.4%) Kết khả quan, mở hi vọng chất lượng phân lớp Tri-Train cải thiện đáng kể có tham gia khung nhìn liệu chuẩn bị tốt Hình 4.5: Chất lượng liệu đặc trưng phân lớp tinh 4000 câu hỏi 4.3.3 Đánh giá hiệu việc sử dụng Tri-Train Nghiên cứu phương pháp làm tăng chất lượng phân lớp câu hỏi hệ thống hỏi đáp (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap 43 4.3.3.1 Hiệu cải thiện chất lượng phân lớp thô Thực đo 43/84 liệu tổ hợp ba phần tử từ chín khung nhìn liệu cho kết phân lớp (hình 4.6) sử dụng phương pháp Tri-Train với việc kết hợp ba khung nhìn liệu khác cải thiện đáng kể so với chất lượng phân lớp SVM ban đầu Đây kết tốt, so với chất lượng phân lớp ban đầu sử dụng SVM đo đạc (86%), sử dụng Tri-Train cho kết tốt độ xác cao lên tới 90% Điều cho thấy, định hướng cải tiến tác giả đề xuất mang lại kết khả quan Hình 4.6: Biểu đồ đánh giá hiệu cải thiện chất lượng phân lớp thô 4.3.3.2 Hiệu cải thiện chất lượng phân lớp tinh Tương tự phân lớp thô thực đo 22/84 liệu tổ hợp ba phần tử từ chín khung nhìn liệu cho kết phân lớp (hình 4.7) sử dụng phương pháp Tri-Train với việc kết hợp ba khung nhìn liệu khác cải thiện đáng kể so với chất lượng phân lớp SVM ban đầu Phân lớp tinh ta thu kết đáng mừng đo đạc phân lớp thô, chất lượng phân lớp tăng từ 77.4% lên 80.2% (tăng 2.8%) Tuy nhiên xem xét kỹ tổng quan, ta nhận thấy đóng góp Tri-Train vào 2.8% chất lượng cải tiến không nhiều so với chất lượng đặc trưng tốt chưa cần sử dụng TriTrain (79.8%) Nghiên cứu phương pháp làm tăng chất lượng phân lớp câu hỏi hệ thống hỏi đáp (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap 44 Hình 4.7: Biểu đồ đánh giá hiệu cải thiện chất lượng phân lớp tinh 4.3.3.3 Ảnh hưởng khung nhìn chất lượng thấp đến hiệu phân lớp Ở tác giả chọn liệu có chất lượng phân lớp thấp tham gia vào phép thử nghiệm Tri-Train với liệu có chất lượng tốt khác Kết thu (hình 4.8) thú vị - chất lượng phân lớp chung không bị giảm so với mặt chung Cụ thể: Hình 4.8: Sự đóng góp đặc trưng Pos vào chất lượng phân lớp thô Tri-Train Đối với phân lớp thơ, độ xác phân lớp Pos theo phương pháp SVM 54.6% Tuy nhiên, phép thực nghiệm (hình 4.9) có sử dụng Pos làm ba thành phần input Tri-Train độ xác rơi vào khoảng [86.6,88], so với chất lượng phân lớp tốt đạt Tri-Train kết Nghiên cứu phương pháp làm tăng chất lượng phân lớp câu hỏi hệ thống hỏi đáp (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap 45 q tệ Hình 4.9: Sự đóng góp đặc trưng Pos vào chất lượng phân lớp tinhtrong Tri-Train Với phân lớp tinh, dựa vào kết thống kê phép thực nghiệm có sử dụng Pos ta có nhận xét tương tự với phân lớp thơ Có thể rút ưu Tri-Train từ nhận xét này: độ xác chung khơng chịu ảnh hưởng nhiều từ thành phần liệu đặc biệt (chất lượng phân lớp hẳn liệu thành phần khác) 4.4 Đánh giá chung 4.4.1 Kết cải tiến chất lượng phân lớp Hình 4.10: Kết cải thiện chất lượng phân lớp Hình 4.10 cung cấp cho ta khung nhìn tổng quát chất lượng cải thiện phân lớp giai đoạn: cải thiện chất lượng đặc trưng hiệu ý tưởng cải tiến Tri-Trai Đối với phân lớp thô, chất lượng đặc trưng không cải thiện nhiều tổ hợp lại sử dụng phương pháp Tri-Train cải tiến Nghiên cứu phương pháp làm tăng chất lượng phân lớp câu hỏi hệ thống hỏi đáp (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap 46 kết nhận tương đối khả quan Ngược lại, phân lớp tinh tỏ hiệu từ cải thiện chất lượng đặc trưng lại không cải thiện nhiều sử dụng Tri-Train cải tiến Tuy nhiên, xét toàn cục, đến ta hồn tồn đưa kết luận định hướng sử dụng ba khung nhìn khác định hướng cải thiện chất lượng đặc trưng mà tác giả đưa có ý nghĩa, giúp cải thiện chất lượng phân lớp câu hỏi 4.4.2 Đóng góp đặc trưng “ValueFit” Dựa vào bảng kết từ lần thực nghiệm, ValueFit tỏ hướng cho kết khả quan phân lớp thơ Hình 4.11 cho thấy từ việc nâng chất lượng phân lớp với 4000 câu hỏi tập luyện ban đầu từ 86% lên 88% sử dụng phương pháp SVM đến việc tham gia vào việc xây dựng nên liệu Tri-Train có chất lượng phân lớp tốt lên đến 90% Hình 4.11: Sự đóng góp đặc trưng ValueFit vào chất lượng phân lớp thô Đối với phân lớp tinh, tác giả chưa làm phép chạy liệu phương pháp Tri-Train cho với liệu liên quan đến ValueFit Tuy nhiên với đóng góp liên quan đến việc cải thiện chất lượng theo phương pháp SVM đưa chất lượng phân lớp phương pháp đạt đến kết thực nghiệm cao liệu 5500 câu hỏi (dữ liệu kết hợp WordRoot-PosValuefit cho kết độ xác phân lớp lên đến 83.2%) ta hồn tồn hi vọng kết liệu tham gia vào phân lớp theo phương pháp Tri-Train 4.4.3 Đóng góp đặc trưng “N-grams” Mặc dù chất lượng phân lớp thực phương pháp SVM thể phân lớp tinh phân lớp thơ N-grams có cải thiện so với chất lượng phân lớp ban đầu không đáng kể so với kết đặc trưng Nghiên cứu phương pháp làm tăng chất lượng phân lớp câu hỏi hệ thống hỏi đáp (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap 47 khác ValueFit, Related Tuy nhiên N-grams lại tỏ hiệu tham gia xây dựng liệu input cho phương pháp Tri-Train (hình 4.12) Thể rõ việc tham gia vào hai liệu cho kết phân lớp tinh TriTrain cao (80.2%) đưa chất lượng phân lớp tinh đạt đến mức 90% Hình 4.12: Sự đóng góp đặc trưng N-grams vào chất lượng phân lớp tinh 4.4.4 Đóng góp đặc trưng “Related” Tương tự N-grams, Related mang lại chất lượng phân lớp sử dụng phương pháp SVM không thay đổi nhiều, chí có trường hợp cịn làm giảm hiệu phân lớp so với liệu ban đầu Tuy nhiên Related mang lại cải tiến chất lượng đáng kể (hình 4.13) tham gia vào Tri-Train, ví dụ: tham gia vào tập liệu cho kết phân lớp cao (80.2% phân lớp tinh) Nghiên cứu phương pháp làm tăng chất lượng phân lớp câu hỏi hệ thống hỏi đáp (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap 48 Hình 4.13: Sự đóng góp đặc trưng Related vào chất lượng phân lớp tinh Nghiên cứu phương pháp làm tăng chất lượng phân lớp câu hỏi hệ thống hỏi đáp (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap 49 KẾT LUẬN Luận văn tìm hiểu hướng giải tốn phân lớp câu hỏi nhằm mục đích cải thiện chất lượng hệ thống hỏi đáp Dựa phương pháp tìm hiểu nghiên cứu thời gian qua, từ 10 năm trở lại đây, luận văn tập trung cải tiến phương pháp hệ thống học bán giám sát Cụ thể nâng cao chất lượng thuật toán Tri-Train cải tiến Nguyễn Trí Thành cộng nghiên cứu công bố vào năm 2008 Các kết nghiên cứu làm thực nghiệm luận văn cho thấy: đề xuất cải tiến tác giả cho hiệu tốt Mặt khác đặc trưng mà tác giả sử dụng để xây dựng khung nhìn cho thuật tốn Tri-Train sở định để cải thiện chất lượng phân lớp tốn học có giám sát Phân lớp câu hỏi đề tài quan tâm ý nhiều lượng thông tin mà người cần xử lý ngày nhiều phong phú Tuy nhiên lĩnh vực tiếng Việt chưa có nhiều nghiên cứu cho mảng Hướng phát triển luận văn nghiên cứu thử nghiệm giải pháp xây dựng phạm vi luận văn vào ngôn ngữ tiếng Việt Nghiên cứu phương pháp làm tăng chất lượng phân lớp câu hỏi hệ thống hỏi đáp (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap 50 TÀI LIỆU THAM KHẢO Tiếng Anh [1] Mohan John Blooma, Dion Hoe-Lian Goh, Alton Yeow Kuan Chua, Question Classification in Social Media, The International Journal of Information Studies: Volume 1, Number 2, 2009, pp 101 – 109 [2] Ali Harb, Michel Beigbeder, Kristine Lund, Jean-Jacques Girardot, Enhanced semantic expansion for question classification, International Journal of Internet Technology and Secured Transactions 3, (2011) Pages 134-148 [3] Baoli Li, Y Liu and Eugene Agichtein, CoCQA: Co-Training Over Questions and Answers with an Application to Predicting Question Subjectivity Orientation, Conference on Empirical Methods in Natural Language Processing (EMNLP 2008) [4] David Tomás,José L Vicedo, Minimally supervised question classification on fine-grained taxonomies, Knowledge and Information Systems August 2013, Volume 36, Issue 2, pp 303-334 [5] Håkan Sundblad, Question Classification in Question Answering Systems, Linköping Studies in Science and Technology Thesis No 1320, 2007 [6] Jaime Carbonell, Donna Harman , Eduard Hovy, and Steve Maiorano, John Prange and Karen Sparck-Jones, Vision Statement to Guide Research in Question & Answering (Q&A) and Text Summarization, Final version 2000 [7] Jinzhong Xu - Sch of Comput Sci., Zhongyuan Univ of Technol., Zhengzhou, China - Yanan Zhou - Yuan Wang, A Classification of Questions Using SVM and Semantic Similarity Analysis, Internet Computing for Science and Engineering (ICICSE), 2012 Sixth International Conference on [8] Kadri Hacioglu and Wayne Ward, Question Classification with Support Vector Machines and Error Correcting Codes, In Proceedings of HLT-NAACL, pp 28-30, Edmonton, Canada, May, 2003 [9] Nguyen Thanh Tri, Minh Le Nguyen, Akira Shimazu, Improving the Accuracy of Question Classification with Machine Learning, RIVF 2007: 234-241 [10] Tri Thanh Nguyen, Le Minh Nguyen, and Akira Shimazu , Using Nghiên cứu phương pháp làm tăng chất lượng phân lớp câu hỏi hệ thống hỏi đáp (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap 51 Semi-supervised Learning for Question Classification, Journal of Natural Language Processing, Vol 15, No 1, pp 3-22, 2008 [11] Xin Li, Dan Roth, Learning Question Classifiers, COLING'02, Aug., 2002 [12] Zhang D., Lee W.S, Question Classification using Support Vector Machines, In Proceedings of the 26th ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), Toronto, Canada, 2003 [13] Zhi-Hua Zhou, Ming Li, Tri-Train: exploiting unlabeled data using three classifiers, Knowledge and Data Engineering, IEEE Transactions on (Volume:17 , Issue: 11 ), 2005 Website [14] http://viet.jnlp.org/kien-thuc-co-ban-ve-xu-ly-ngon-ngu-tunhien/mo-hinh-ngon-ngu [15] http://vnlp.net/?p=46 Nghiên cứu phương pháp làm tăng chất lượng phân lớp câu hỏi hệ thống hỏi đáp (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap 52 PHỤ LỤC Kết phép thực nghiệm Kết chất lượng SVM phân lớp thô Tên liệu Kết chạy 4000 01 WordRoot_Pos_Valuefit 88.2 02 Origin_Valuefit 88 03 Origin_Related 87 04 WordRoot_Pos 86.8 05 WordRoot_Related 86.8 06 WordRoot 86.4 07 Origin 86 08 Pos 54.6 09 Origin_N-grams 87.4 Tên liệu Kết chạy 5500 01 WordRoot_Pos_Valuefit 87.8 02 Origin_Valuefit 88 03 Origin_Related 87.4 04 WordRoot_Pos 87.6 05 WordRoot_Related 84.2 06 WordRoot 85.4 07 Origin 87.4 08 Pos 55.6 09 Origin_N-grams 87.8 STT STT Kết chất lượng SVM phân lớp tinh Tên liệu Kết chạy 4000 01 WordRoot_Pos 79.8 02 WordRoot_Related 79.4 03 WordRoot 78.8 04 Origin_Valuefit 78.6 05 WordRoot_Pos_Valuefit 78.4 06 Origin_Related 77.8 07 Origin 77.4 08 Pos 45.8 09 Origin_N-grams 78.2 STT Nghiên cứu phương pháp làm tăng chất lượng phân lớp câu hỏi hệ thống hỏi đáp (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap 53 Tên liệu Kết chạy 5500 01 WordRoot_Pos 83.2 02 WordRoot_Related 81.8 03 WordRoot 83.2 04 Origin_Valuefit 81.6 05 WordRoot_Pos_Valuefit 80.6 06 Origin_Related 81.6 07 Origin 82 08 Pos 45.2 09 Origin_N-grams 81.6 STT Kết chất lượng Tri-Train phân lớp thô STT Dữ liệu Dữ liệu Dữ liệu Kết 01_WordRoot_Pos_Valuefit 02_Origin_Valuefit 03_Origin_Related 88 01_WordRoot_Pos_Valuefit 02_Origin_Valuefit 04_WordRoot_Pos 89.2 01_WordRoot_Pos_Valuefit 02_Origin_Valuefit 05_WordRoot_Related 87.6 01_WordRoot_Pos_Valuefit 02_Origin_Valuefit 06_WordRoot 87.2 01_WordRoot_Pos_Valuefit 02_Origin_Valuefit 07_Origin 88 01_WordRoot_Pos_Valuefit 02_Origin_Valuefit 08_Pos 87.4 01_WordRoot_Pos_Valuefit 03_Origin_Related 04_WordRoot_Pos 87.4 01_WordRoot_Pos_Valuefit 03_Origin_Related 05_WordRoot_Related 87.8 01_WordRoot_Pos_Valuefit 03_Origin_Related 06_WordRoot 86.8 10 01_WordRoot_Pos_Valuefit 03_Origin_Related 07_Origin 86.8 11 01_WordRoot_Pos_Valuefit 03_Origin_Related 08_Pos 88 12 01_WordRoot_Pos_Valuefit 04_WordRoot_Pos 05_WordRoot_Related 88 13 01_WordRoot_Pos_Valuefit 04_WordRoot_Pos 06_WordRoot 87.6 14 01_WordRoot_Pos_Valuefit 04_WordRoot_Pos 07_Origin 88.2 15 01_WordRoot_Pos_Valuefit 04_WordRoot_Pos 08_Pos 87.4 16 01_WordRoot_Pos_Valuefit 05_WordRoot_Related 06_WordRoot 87.2 17 01_WordRoot_Pos_Valuefit 05_WordRoot_Related 07_Origin 87.2 18 01_WordRoot_Pos_Valuefit 05_WordRoot_Related 08_Pos 86.6 19 01_WordRoot_Pos_Valuefit 06_WordRoot 07_Origin 86.8 20 01_WordRoot_Pos_Valuefit 06_WordRoot 08_Pos 87 21 01_WordRoot_Pos_Valuefit 07_Origin 08_Pos 86.8 22 02_Origin_Valuefit 03_Origin_Related 04_WordRoot_Pos 87.2 Nghiên cứu phương pháp làm tăng chất lượng phân lớp câu hỏi hệ thống hỏi đáp (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap 54 23 02_Origin_Valuefit 03_Origin_Related 05_WordRoot_Related 87.2 24 02_Origin_Valuefit 03_Origin_Related 06_WordRoot 88 25 02_Origin_Valuefit 03_Origin_Related 07_Origin 86.8 26 02_Origin_Valuefit 03_Origin_Related 08_Pos 87.8 27 02_Origin_Valuefit 04_WordRoot_Pos 05_WordRoot_Related 87.4 28 02_Origin_Valuefit 04_WordRoot_Pos 06_WordRoot 86.6 29 02_Origin_Valuefit 04_WordRoot_Pos 07_Origin 87 30 02_Origin_Valuefit 04_WordRoot_Pos 08_Pos 87.6 31 02_Origin_Valuefit 05_WordRoot_Related 06_WordRoot 87.4 32 02_Origin_Valuefit 05_WordRoot_Related 07_Origin 87.2 33 02_Origin_Valuefit 05_WordRoot_Related 08_Pos 87.4 34 02_Origin_Valuefit 06_WordRoot 07_Origin 86.8 35 02_Origin_Valuefit 06_WordRoot 08_Pos 87.4 36 02_Origin_Valuefit 07_Origin 08_Pos 86.6 37 03_Origin_Related 04_WordRoot_Pos 05_WordRoot_Related 88.2 38 03_Origin_Related 04_WordRoot_Pos 06_WordRoot 87.6 39 03_Origin_Related 04_WordRoot_Pos 07_Origin 87.2 40 03_Origin_Related 04_WordRoot_Pos 08_Pos 86.8 41 03_Origin_Related 05_WordRoot_Related 06_WordRoot 88 42 03_Origin_Related 05_WordRoot_Related 07_Origin 87.6 43 01_WordRoot_Pos_Valuefit 02_Origin_Valuefit 09_Origin_Ngrams 90 Kết chất lượng Tri-Train phân lớp tinh Dữ liệu Dữ liệu Dữ liệu Kết 01_WordRoot_Pos 02_WordRoot_Related 03_WordRoot 79.6 01_WordRoot_Pos 02_WordRoot_Related 06_Origin_Related 79.2 01_WordRoot_Pos 02_WordRoot_Related 07_Origin 79.6 01_WordRoot_Pos 02_WordRoot_Related 08_Pos 79 01_WordRoot_Pos 03_WordRoot 06_Origin_Related 79.4 01_WordRoot_Pos 03_WordRoot 07_Origin 79.6 01_WordRoot_Pos 03_WordRoot 08_Pos 78.6 01_WordRoot_Pos 06_Origin_Related 07_Origin 79.8 01_WordRoot_Pos 06_Origin_Related 08_Pos 78.2 10 02_WordRoot_Related 06_Origin_Related 07_Origin 79.8 11 02_WordRoot_Related 06_Origin_Related 08_Pos 78 12 02_WordRoot_Related 07_Origin 08_Pos 79 STT Nghiên cứu phương pháp làm tăng chất lượng phân lớp câu hỏi hệ thống hỏi đáp (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap (LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap(LUAN.van.THAC.si).nghien.cuu.phuong.phap.lam.tang.chat.luong.phan.lop.cau.hoi.trong.he.thong.hoi.dap

Ngày đăng: 17/12/2023, 01:55

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN