1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên cứu mô hình phân lớp câu hỏi và ứng dụng luận văn ths hệ thống thông tin

59 26 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 59
Dung lượng 530,67 KB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN ĐÌNH TƢỜNG NGHIÊN CỨU MƠ HÌNH PHÂN LỚP CÂU HỎI VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Hà Nội - 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ NGUYỄN ĐÌNH TƢỜNG NGHIÊN CỨU MƠ HÌNH PHÂN LỚP CÂU HỎI VÀ ỨNG DỤNG Ngành: Công Nghệ Thông Tin Chuyên ngành: Hệ thống Thông Tin Mã số chuyên ngành: 60480104 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS TS Nguyễn Trí Thành Hà Nội – 2016 i LỜI CAM ĐOAN Tác giả xin cam đoan kết đạt luận văn sản phẩm riêng cá nhân Tác giả hướng dẫn khoa học PGS TS Nguyễn Trí Thành, khơng chép lại người khác Trong toàn nội dung luận văn, điều trình bày cá nhân tổng hợp nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tác giả xin hoàn toàn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày tháng năm 2016 HỌC VIÊN Nguyễn Đình Tƣờng ii LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời cảm ơn chân thành sâu sắc tới PGS.TS Nguyễn Trí Thành, người thầy trực tiếp hướng dẫn tận tình đóng góp ý kiến quý báu cho em suốt trình thực luận văn tốt nghiệp Em xin gửi lời cảm ơn đến thầy cô trường Đại học Công nghệ - Đại học Quốc gia Hà Nội, tận tâm truyền đạt kiến thức quý báu làm tảng cho em công việc sống Qua đây, em xin gửi lời cảm ơn đến Trung tâm đào tạo E-Learning, Viện Đại học Mở Hà Nội tạo điều kiện giúp đỡ em trình làm thực nghiệm Cuối cùng, em xin cảm ơn cha mẹ, người thân, bạn bè đồng nghiệp em phận Công Nghệ Trung tâm đào tạo E-Learning, người bên em, khuyến khích động viên em sống học tập HỌC VIÊN Nguyễn Đình Tƣờng iii MỤC LỤC DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT v DANH MỤC CÁC BẢNG vi DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ vii MỞ ĐẦU Chƣơng 1: Giới thiệu phân lớp câu hỏi 1.1 Giới thiệu 1.2 Tìm hiểu loại câu hỏi 1.3 Taxonomy câu hỏi 1.4 Mục tiêu luận văn Chƣơng 2: Các phƣơng pháp tiếp cận toán phân lớp câu hỏi 2.1 Mơ hình phân lớp câu hỏi 2.1.1 Mơ hình phân lớp phẳng 2.1.2 Mơ hình phân lớp phân cấp 10 2.2 Giải thuật phân lớp câu hỏi 11 2.2.1 Giải thuật học máy có giám sát 12 2.2.2 Giải thuật học máy bán giám sát 13 Chƣơng 3: Đề xuất cải tiến mơ hình phân lớp 18 3.1 Thực trạng 18 3.2 Mơ hình đề xuất 18 3.3 Mơ hình xử lý liệu 19 3.3.1 Thu thập liệu 19 3.3.2 Xử lý liệu 21 Chƣơng 4: Ứng dụng vào hệ thống hỏi đáp thắc mắc Trung tâm đào tạo ELearning 25 4.1 Giới thiệu trung tâm E-Learning 25 4.2 Tình trạng hệ thống hỏi đáp 26 4.3 Chuẩn bị liệu thực nghiệm 27 4.3.1 Thu thập liệu 27 4.3.2 Xử lý liệu 30 4.3.3 Áp dụng mơ hình đề xuất 37 iv 4.4 Kết thực nghiệm 4.4.1 Cài đặt môi trường thực nghiệm 4.4.2 Thực nghiệm với liệu Li Roth 4.4.3 Thực nghiệm với liệu Trung tâm E 4.5 Kết luận Kết luận hƣớng phát triển tƣơng lai TÀI LIỆU THAM KHẢO v DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT Chữ viết tắt Tiếng Việt Tiếng Anh TREC SVM MEM SNoW vi DANH MỤC CÁC BẢNG Bảng 1.1 Taxonomy câu hỏi Li Roth Bảng 2.1 Bộ phân lớp câu hỏi Radev Bảng 4.1 Bộ phân lớp câu hỏi trung tâm E-Learning 31 Bảng 4.2 Thống kê kết tìm kiếm nhãn lớp có độ phân lớp xác cao với liệu chuẩn Li Roth 34 Bảng 4.3 Thống kê kết tìm kiếm nhãn lớp có độ phân lớp xác cao với liệu trung tâm E-Learning 36 Bảng 4.4 Cấu hình máy chủ thực nghiệm 37 Bảng 4.5 Kết thực nghiệm với liệu Li Roth 38 Bảng 4.6 Kết thực nghiệm với liệu Trung tâm E-Learning 39 vii DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 2.1 Mơ hình phân lớp Li Roth 11 Hình 2.2 Sơ đồ thực giải thuật Self-training 14 Hình 2.3 Sơ đồ giải thuật Co-training 15 Hình 2.4 Sơ đồ giải thuật Tri-training 16 Hình 3.1 Mơ hình phân lớp đề xuất 19 Hình 3.2 Mơ hình xử lý chương trình crawler 20 Hình 3.3 Sơ đồ giải thuật tham lam loại bỏ nhãn lớp có độ phân lớp xác cao .23 Hình 4.1 Mơ hình xử lý hệ thống H113 26 Hình 4.2 Cấu trúc HTML lưu trữ nội dung câu hỏi 28 Hình 4.3 Cấu trúc HTML phân trang liệu 29 Hình 4.4 Module xử lý xác thực crawler 29 Hình 4.5 Module xử lý liệu crawler 30 Hình 4.6 Câu hỏi gán nhãn từ loại 32 Hình 4.7 Module xử lý đưa nhãn, từ loại vào tập hợp 32 Hình 4.8 Module xuất liệu 33 Hình 4.9 Nội dung file theo định dạng SVM 33 MỞ ĐẦU Sự phát triển sở hạ tầng công nghệ đặc biệt công nghệ mạng thúc đẩy nhu cầu trao đổi, chia sẻ liệu người, đưa Internet trở thành kho liệu khổng lồ Những tri thức kho liệu lại cung cấp sở để giải đáp vấn đề, thắc mắc hàng ngày người Với mục đích phục vụ nhiều nhu cầu người, hệ thống hỏi đáp tự động đời Kiến trúc bên hệ thống hỏi đáp phức tạp Những câu hỏi người dùng hệ thống phân tích, xử lý Dựa vào thơng tin phân tích, hệ thống hỏi đáp tìm kiếm câu trả lời tiềm Cuối cùng, hệ thống trả cho người dùng kết ngắn gọn, súc tích xác Để tìm kiếm câu trả lời tiềm giai đoạn xử lý câu hỏi, hệ thống phải phân lớp xác câu hỏi Khi đó, khơng gian tìm kiếm câu trả lời giới hạn rõ ràng Vì vậy, giai đoạn xử lý câu hỏi hệ thống hỏi đáp, phân lớp câu hỏi nhiệm vụ quan trọng Tuy nhiên, việc nghiên cứu giải pháp cho nhiệm vụ phân lớp gặp khơng khó khăn Các mơ hình phân lớp, giải thuật phân lớp áp dụng có ưu điểm nhược điểm định Bên cạnh đó, vấn đề khác việc xử lý ngôn ngữ tự nhiên Trên giới, số ngơn ngữ có cấu tạo từ loại, ngữ nghĩa đa dạng phức tạp Hệ thống phải xác định đặc trưng đưa chiến lược xử lý phù hợp Do đó, vấn đề cần nhận quan tâm nghiên cứu nhiều Trong luận văn nghiên cứu này, tác giả trình bày chương với nội dung tóm tắt sau: Chương Giới thiệu phân lớp câu hỏi trình bày định nghĩa, mục tiêu nhiệm vụ phân lớp câu hỏi đôi nét khái niệm taxonomy câu hỏi Mục tiêu luận văn nêu phần cuối chương Chương Các phƣơng pháp tiếp cận toán phân lớp câu hỏi nghiên cứu mơ hình phân lớp câu hỏi sử dụng phổ biến mơ hình phân lớp phẳng, mơ hình phân lớp cấp bậc Chương trình bày số giải thuật phân lớp học máy có giám sát bán giám sát Chương Đề xuất cải tiến mơ hình phân lớp nêu lên vấn đề thực tế ảnh hướng đến kết phân lớp Dựa vào số nghiên cứu, tác giả đề xuất mơ hình phân lớp cải tiến trình bày bước xử lý liệu mơ hình Chương Ứng dụng vào hệ thống hỏi đáp thắc mắc Trung tâm đào tạo E-Learning giới thiệu Trung tâm đào tạo E-Learning thực trạng hệ thống hỏi đáp thắc mắc Sau đó, trình bày kết thực nghiệm áp dụng mơ hình đề 32 Lê Hồng Phương[10] phát triển ngôn ngữ java để xử lý ngôn ngữ tự nhiên, gán nhãn cho từ loại tiếng Việt Chương trình có độ xác cao khoảng 95% Để thuận tiện cho việc quản lý thống kê, câu hỏi xử lý lưu sở liệu Hình 4.6 Câu hỏi gán nhãn từ loại 4.3.2.4 Định dạng liệu theo chuẩn SVM Công việc cuối ánh xạ đặc trưng câu hỏi gán nhãn lớp, từ loại sang vector theo định dạng liệu đầu vào chuẩn cho SVM Để tạo liệu đầu vào này, tác giả xây dựng số công cụ chuyển đổi lớp nhãn, từ loại thành giá trị đặc trưng sử dụng ngơn ngữ java Hình 4.7 Module xử lý đưa nhãn, từ loại vào tập hợp 33 Hình 4.8 Module xuất liệu theo định dạng SVM Kết trình xử lý liệu file đầu vào có liệu Hình 4.9 Hình 4.9 Nội dung file theo định dạng SVM Sử dụng file liệu định dạng tạo để thực nghiệm với SVM Tác giả sử dụng libSVM[3] để tạo phân lớp từ liệu huấn luyện Các thông số sử dụng thực nghiệm để mặc định Khi chạy liệu huấn luyện, ta kết file mơ hình File phân lớp dùng để đánh giá liệu kiểm tra cho độ xác, số lượng câu hỏi gán nhãn 4.3.2.5 Tìm kiếm nhãn lớp có độ phân lớp xác cao Áp dụng mơ hình tìm kiếm nhãn lớp sử dụng giải thuật tham lam với tập liệu chuẩn Li Roth Tập liệu huấn luyện ban đầu gồm 5452 câu hỏi dùng làm tập liệu phát triển Tác giả chia tập liệu thành tập liệu huấn luyện gồm 4899 câu hỏi tập liệu kiểm tra gồm 553 câu hỏi Sau áp dụng giải thuật, kết nhãn lớp thể Bảng 4.2 34 Bảng 4.2 Thống kê kết tìm kiếm nhãn lớp có độ phân lớp xác cao với liệu chuẩn Li Roth STT Nhãn lớp ABBR:abb ABBR:exp DESC:def DESC:desc DESC:manner DESC:reason ENTY:animal ENTY:body ENTY:color 10 ENTY:cremat 11 ENTY:currency 12 ENTY:dismed 13 ENTY:event 14 ENTY:food 15 ENTY:instru 16 ENTY:lang 17 ENTY:letter 18 ENTY:other 19 ENTY:plant 20 ENTY:product 21 ENTY:religion 22 ENTY:sport 23 ENTY:substance 24 ENTY:symbol 25 ENTY:techmeth 26 ENTY:termeq 27 ENTY:veh 28 ENTY:word 29 HUM:desc 30 HUM:gr 31 HUM:ind 32 HUM:title 33 LOC:city 34 LOC:country 35 LOC:mount 36 LOC:other 37 LOC:state 38 NUM:code 39 NUM:count 40 NUM:date 41 NUM:dist 42 NUM:money 43 NUM:ord 44 NUM:other 45 NUM:perc 46 NUM:period 47 NUM:speed 48 NUM:temp 49 NUM:volsize 50 NUM:weight Tác giả xác định tập nhãn lớp có độ phân lớp xác cao liệu Li Roth gồm 17 nhãn lớp có độ xác 100% Bảng 4.2 Tương tự, tác giả áp dụng giải thuật tham lam để tìm nhãn lớp có độ phân lớp xác cao tập liệu phát triển trung tâm E-Learning Tập liệu huấn luyện ban đầu gồm 1359 câu hỏi chia thành tập liệu huấn luyện 36 gồm 1222 câu hỏi tập liệu kiểm tra gồm 137 câu hỏi Kết chi tiết thể Bảng 4.3 Bảng 4.3 Thống kê kết tìm kiếm nhãn lớp có độ phân lớp xác cao với liệu trung tâm E-Learning STT Nhãn lớp Tuyen_sinh The Dang_nhap VClass Mail Lich Tu_luan Mobile Mien_mon 10 H113 11 Hoc_phi 12 Ky_thuat 13 Dien_dan 14 He_thong 15 Nhom 16 Tot_nghiep 17 Thi 18 Dao_tao 19 Tai_lieu 20 Diem 21 CVHT 22 Trac_nghiem Theo thống kê trên, nhãn lớp có độ phân lớp xác cao xác định “Tuyển sinh”, “Thẻ”, “VClass”, “Tự luận”, “Miễn mơn”, “Học phí”, “Diễn đàn”, 37 “Nhóm”, “Tốt nghiệp” Các lớp bị loại khỏi tập liệu huấn luyện ban đầu để xây dựng phân lớp cấp hai 4.3.3 Áp dụng mô hình đề xuất Để áp dụng mơ hình để xuất, tác giả tạo hai phân lớp Bộ phân lớp cấp tạo từ toàn câu hỏi huấn luyện ban đầu Bộ phân lớp cấp hai tạo từ tập liệu câu hỏi huấn luyện loại bỏ câu hỏi gán nhãn lớp có độ phân lớp xác cao Các câu hỏi tập liệu kiểm tra qua hai phân lớp Nếu câu hỏi gán nhãn lớp thuộc lớp có độ phân lớp cao câu hỏi khơng cần phải phân lớp với phân lớp cấp hai Ngược lại, câu hỏi kiểm tra tiếp qua phân lớp cấp hai Kết áp dụng mơ hình đề xuất trình bày phần luận văn 4.4 Kết thực nghiệm 4.4.1 Cài đặt môi trƣờng thực nghiệm Thực nghiệm tiến hành máy chủ Linux có cấu hình trình bày Bảng 4.4 Bảng 4.4 Cấu hình máy chủ tron STT CPU RAM HDD Hệ điều hành Thư viện Gói hỗ trợ 4.4.2 Thực nghiệm với liệu Li Roth Trong liệu Li Roth, tập liệu bao gồm 5952 câu hỏi Hai phân lớp xây dựng theo mô hình đề xuất Kết phân lớp với phân lớp trình bày Bảng 4.5 Bảng 4.5 Kết thực nghiệm với liệu Li Roth 38 STT Bộ phân lớp Bộ phân lớp cấp Bộ phân lớp cấp hai Tổng Sau phân lớp câu hỏi qua phân lớp cấp một, tác giả nhận 39 câu hỏi xác 54 câu hỏi kiểm tra có độ xác cao Trong thực nghiệm tìm kiếm nhãn lớp có độ xác cao, tác giả tìm tập nhãn lớp yêu cầu với liệu Li Roth Bộ phân lớp cấp hai xây dựng cách loại bỏ câu hỏi gán nhãn lớp Cụ thể, số lượng câu hỏi tập liệu huấn luyện phải loại 810 câu hỏi Khi qua phân lớp cấp hai, số lượng câu xác nhận 373 câu hỏi Như tổng số 500 câu hỏi kiểm tra, có 412 câu hỏi gán xác nhãn lớp (gồm 39 câu hỏi kiểm tra thuộc nhãn lớp có độ phân lớp xác cao 373 câu hỏi xác phân lớp cấp hai) cho kết độ xác tăng lên 82.4% tập liệu 4.4.3 Thực nghiệm với liệu Trung tâm E-Learning 4.4.3.1 Phƣơng pháp K-Fold Cross Validation Cross validation phương pháp chia tập liệu gốc thành tập liệu huấn luyện để huấn luyện mơ hình tập liệu kiểm tra để đánh giá mơ hình Phương pháp thường áp dụng mà tập liệu gốc có kích thước vừa nhỏ Mục đích phương pháp cross validation đánh giá cơng vai trị liệu Tập liệu gốc chia ngẫu nhiên thành k tập liệu có kích thước K tập liệu cần đảm bảo không giao Trong k lần lặp, tập liệu làm nhiệm vụ kiểm tra mô hình tạo k-1 tập liệu cịn lại Độ phân lớp xác cuối trung bình cộng độ phân lớp xác k vịng lặp Tác giả chọn áp dụng với tập liệu 1509 câu hỏi trung tâm E-Learning Độ phân lớp xác trung bình nhận 79.32% (1197/1509) Kết dùng để so sánh với mô hình cải tiến thực nghiệm 4.4.3.2 Phƣơng pháp cải tiến Sau trình xử lý liệu câu hỏi, tập liệu huấn luyện liệu kiểm tra tạo Với 22 nhãn lớp bao phủ 1359 câu hỏi huấn luyện 150 câu hỏi kiểm tra Kết phân lớp không tổ chức theo mơ hình phân cấp đạt 80.7% Kết dùng để so sánh với kết thực nghiệm sử dụng mơ hình phân lớp cải tiến 39 Tác giả xây dựng phân lớp cấp dựa 1359 câu hỏi huấn luyện Tiếp theo, tác giả áp dụng giải thuật tham lam để tìm kiếm nhãn lớp có độ phân lớp xác cao loại bỏ nhãn lớp khỏi tập liệu huấn luyện Tổng số câu hỏi huấn luyện thuộc nhãn lớp có độ phân lớp xác cao 517 câu hỏi Để xây dựng phân lớp cấp hai, ta cần loại bỏ 517 câu hỏi Kết phân lớp phân lớp áp dụng vào tập liệu Trung tâm E-Learning liệt kê Bảng 4.6 Bảng 4.6 Kết thực nghiệm với liệu Trung tâm E-Learning STT Bộ phân lớp Bộ phân lớp cấp Bộ phân lớp cấp hai Tổng Số lượng câu hỏi kiểm tra gán nhãn lớp có độ phân lớp xác cao 78 câu hỏi Sau qua phân lớp cấp một, tác giả nhận 65/78 câu hỏi thực xác Kết phân lớp với phân lớp cấp hai, tổng số câu xác 59/72 câu hỏi Tổng số câu hỏi phân lớp xác qua hai phân lớp 124 câu hỏi, đạt độ xác 82.67% Như vậy, giải pháp đề xuất cải tiến hiệu phân lớp Cụ thể, kết phân lớp tăng 1.97% độ xác so sánh với việc khơng sử dụng hai tầng phân lớp tăng 3.35% so sánh với phương pháp K-fold Cross Validation 4.5 Kết luận Kết hai thực nghiệm cho thấy việc áp dụng mơ hình đề xuất làm tăng độ xác phân lớp câu hỏi Trong thực nghiệm thực với tập liệu Li Roth – tập liệu có số lượng lớn mang tính khách quan, mơ hình đề xuất áp dụng cho độ xác tăng 1% Đối với tập liệu trung tâm E-Learning, kết cho thấy độ xác tăng 1.97% Tuy cịn tồn nhiều vấn đề chưa thực giải hết độ xác phân lớp tăng lên động lực để thúc đẩy việc hồn thiện thiếu sót q trình chuẩn bị xử lý liệu Mơ hình đề xuất chứng tỏ hiệu suất phân lớp có liên quan tới khơng gian nhãn lớp câu hỏi Khơng gian nhãn lớp giảm làm tăng hiệu suất qua tăng thêm độ xác 40 Kết luận hƣớng phát triển tƣơng lai Phân lớp câu hỏi nhiệm vụ quan trọng hệ thống hỏi đáp Câu hỏi phân lớp xác tiền đề cho trình xử lý Nhiều đề xuất cải tiến thực nhằm tăng độ xác phân lớp, qua làm tăng hiệu suất chung hệ thống hỏi đáp Trong luận văn “Nghiên cứu mơ hình phân lớp câu hỏi ứng dụng”, tác giả đề xuất cải tiến mơ hình giúp tăng độ xác Bên cạnh đó, luận văn đạt số kết sau:     Khái quát vấn đề phân lớp câu hỏi, nêu lên vai trò ý nghĩa trình phân lớp hệ thống hỏi đáp Khảo sát thống kê dạng câu hỏi ngơn ngữ tự nhiên xuất phân lớp Nghiên cứu, tìm hiểu hướng để tiếp cận mơ hình phân lớp giải thuật áp dụng Xây dựng bước xử lý liệu phân lớp đề xuất mơ hình phân lớp có khả làm tăng độ xác Trong thực nghiệm, luận văn ứng dụng mơ hình phân lớp đề xuất với liệu câu hỏi trung tâm E-Learning Xây dựng module xử lý liệu câu hỏi từ nguồn liệu có trung tâm nguồn từ đơn vị liên kết Tuy nhiên, luận văn tồn số hạn chế:   Số lượng câu hỏi phục vụ cho nhiệm vụ phân lớp cịn nên độ xác phân lớp chưa cao Việc gán nhãn lớp cho câu hỏi chủ quan, dựa vào kiến thức cá nhân chủ yếu nên lớp nhãn chưa phù hợp Trong thời gian tới, tác giả tiếp tục nghiên cứu phân lớp câu hỏi cho việc ứng dụng vào tại, mở rộng số lượng câu hỏi huấn luyện tới mức chấp nhận (3000 câu) tiến hành làm giàu thêm đặc trưng cho câu hỏi liệu huấn luyện liệu kiểm tra Việc có ý nghĩa quan trọng việc nâng cao độ xác cho phân lớp câu hỏi Nhiều thuật toán khác sử dụng để đưa thuật toán phù hợp với ứng dụng phân lớp câu hỏi hệ thống hỏi đáp thắc mắc H113 Trung tâm E-Learning 41 TÀI LIỆU THAM KHẢO Tiếng Việt Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009), Giáo trình khai phá liệu Web, Nhà xuất Giáo dục Việt Nam Tiếng Anh Anders Søgaard (2010), Simple semi-supervised training of part-of-speech taggers, The 48th Annual Meeting of the Association for Computational Linguistics (ACL) Uppsala, Sweden Chih-Chung Chang and Chih-jen Lin (2013), LibSVM: A library for Support Vector Machine, Department of Computer Science National Taiwan University, Taipei, Taiwan David Tom, Claudio Giuliano (2009), A semi-supervised approach to question classification, European Symposium on Artificial Neural Networks - Advances in Computational Intelligence and Learning Dragomir Radev, Weiguo Fan, Hong Qi, Harris Wu, Amardeep Grewal (2002), Probabilistic question answering on the web, Journal of the American society for Information Science and Technology 2005 Hakan Sundblad (2007), Question Classification in Question Answering systems, Submitted to Linköping Institute of Technology at Linköping University John Burger, Claire Cardie, Vinay Chaudhri, Robert Gaizauskas, Sanda Harabagiu, David Israel, Christian Jacquemin, Chin-Yew Lin, Steve Maiorano, George Miller, Dan Moldovan , Bill Ogden,John Prager, Ellen Riloff, Amit Singhal, Rohini Shrihari, Tomek Strzalkowski, Ellen Voorhees, Ralph Weishedel (2002), Issues, Tasks and Program Structures to Roadmap Research in Question & Answering Q&A Roadmap Paper Oliver Chapelle, Bernhard Scholkopf, Alexander Zien (2006), Semi supervised learning, The MIT Press Cambridge, Massachusetts, London, England Pierre Baldi, Paolo Frasconi, Padhraic Smyth Modeling the Internet and the Web: Probabilistic Methods and Algorithms, Published by John Wiley & Sons Ltd, The Southern Gate, Chichester West Sussex PO19 8SQ, England - 2003 10 Le Hong Phuong (2010), An empirical study of maximum entropy approach for part-of-speech tagging of Vietnamese texts Actes du Traitement Automatique des Langues Naturelles (TALN-2010), Montreal, Canada 11 Nguyen Tri Thanh, Nguyen Le Minh and Akira Shimazu (2008) Using Semisupervised Learning for Question Classification, Journal of Natural Language Processing (15) 42 12 Nguyen Tri Thanh, Nguyen Le Minh and Akira Shimazu (2007), Improving the Accuracy of Question Classification with Machine Learning, Institute of Electrical and Electronics Engineers(IEEE) 13 Xin Li, Dan Roth (2002), Learning question classifiers, In Proceedings of the th 19 International Conference on Compuatational Linguistics (COLING), pp.556–562 14 Xin Li, Dan Roth (2004) Learning question classifiers: the role of semantic information, Cambridge University Press ... NGHỆ NGUYỄN ĐÌNH TƢỜNG NGHIÊN CỨU MƠ HÌNH PHÂN LỚP CÂU HỎI VÀ ỨNG DỤNG Ngành: Công Nghệ Thông Tin Chuyên ngành: Hệ thống Thông Tin Mã số chuyên ngành: 60480104 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN. .. văn ? ?Nghiên cứu mô hình phân lớp câu hỏi ứng dụng? ?? tác giả trình bày số nghiên cứu mơ hình phân lớp câu hỏi, đề xuất mơ hình phân lớp cải tiến ứng dụng với liệu cụ thể thực nghiệm để kiểm chứng... phải nhãn lớp có độ phân lớp xác cao hay khơng Nếu nhãn lớp câu hỏi không thuộc vào nhãn lớp tiến hành phân lớp câu hỏi phân lớp cấp hai Câu hỏi Đúng BPL2 Kết thúc Hình 3.1 Mơ hình phân lớp đề xuất

Ngày đăng: 11/11/2020, 21:59

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w