Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 51 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
51
Dung lượng
1,41 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN ĐÌNH TƯỜNG NGHIÊNCỨUMÔHÌNHPHÂNLỚPCÂUHỎIVÀỨNGDỤNG LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Hà Nội - 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN ĐÌNH TƯỜNG NGHIÊNCỨUMÔHÌNHPHÂNLỚPCÂUHỎIVÀỨNGDỤNG Ngành: Công Nghệ Thông Tin Chuyên ngành: Hệ thống Thông Tin Mã số chuyên ngành: 60480104 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Nguyễn Trí Thành Hà Nội – 2016 i LỜI CAM ĐOAN Tác giả xin cam đoan kết đạt luận văn sản phẩm riêng cá nhân Tác giả hướng dẫn khoa học PGS TS Nguyễn Trí Thành, không chép lại người khác Trong toàn nội dung luận văn, điều trình bày cá nhân tổng hợp nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tác giả xin hoàn toàn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày tháng năm 2016 HỌC VIÊN Nguyễn Đình Tường ii LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời cảm ơn chân thành sâu sắc tới PGS.TS Nguyễn Trí Thành, người thầy trực tiếp hướng dẫn tận tình đóng góp ý kiến quý báu cho em suốt trình thực luận văn tốt nghiệp Em xin gửi lời cảm ơn đến thầy cô trường Đại học Công nghệ - Đại học Quốc gia Hà Nội, tận tâm truyền đạt kiến thức quý báu làm tảng cho em công việc sống Qua đây, em xin gửi lời cảm ơn đến Trung tâm đào tạo ELearning, Viện Đại học Mở Hà Nội tạo điều kiện giúp đỡ em trình làm thực nghiệm Cuối cùng, em xin cảm ơn cha mẹ, người thân, bạn bè đồng nghiệp em phận Công Nghệ Trung tâm đào tạo E-Learning, người bên em, khuyến khích động viên em sống học tập HỌC VIÊN Nguyễn Đình Tường iii MỤC LỤC DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT v DANH MỤC CÁC BẢNG vi DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ vii MỞ ĐẦU Chương 1: Giới thiệu phânlớpcâuhỏi 1.1 Giới thiệu 1.2 Tìm hiểu loại câuhỏi 1.3 Taxonomy câuhỏi 1.4 Mục tiêu luận văn Chương 2: Các phương pháp tiếp cận toán phânlớpcâuhỏi 2.1 Môhìnhphânlớpcâuhỏi 2.1.1 Môhìnhphânlớp phẳng .9 2.1.2 Môhìnhphânlớpphân cấp .10 2.2 Giải thuật phânlớpcâuhỏi 11 2.2.1 Giải thuật học máy có giám sát 12 2.2.2 Giải thuật học máy bán giám sát .13 Chương 3: Đề xuất cải tiến môhìnhphânlớp 18 3.1 Thực trạng 18 3.2 Môhình đề xuất .18 3.3 Môhình xử lý liệu 19 3.3.1 Thu thập liệu 19 3.3.2 Xử lý liệu 21 Chương 4: Ứngdụng vào hệ thống hỏi đáp thắc mắc Trung tâm đào tạo ELearning 25 4.1 Giới thiệu trung tâm E-Learning 25 4.2 Tình trạng hệ thống hỏi đáp .26 4.3 Chuẩn bị liệu thực nghiệm 27 4.3.1 Thu thập liệu 27 4.3.2 Xử lý liệu 30 4.3.3 Áp dụngmôhình đề xuất 37 iv 4.4 Kết thực nghiệm 37 4.4.1 Cài đặt môi trường thực nghiệm .37 4.4.2 Thực nghiệm với liệu Li Roth 37 4.4.3 Thực nghiệm với liệu Trung tâm E-Learning 38 4.5 Kết luận 39 Kết luận hướng phát triển tương lai 40 TÀI LIỆU THAM KHẢO 41 v DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT Chữ viết tắt Ý nghĩa Tiếng Việt Tiếng Anh TREC Text Retrieval Conference SVM Support Vector Machine MEM Maximum Entropy Model SNoW Spare Network of Winnows vi DANH MỤC CÁC BẢNG Bảng 1.1 Taxonomy câuhỏi Li Roth Bảng 2.1 Bộ phânlớpcâuhỏi Radev .9 Bảng 4.1 Bộ phânlớpcâuhỏi trung tâm E-Learning 31 Bảng 4.2 Thống kê kết tìm kiếm nhãn lớp có độ phânlớp xác cao với liệu chuẩn Li Roth 34 Bảng 4.3 Thống kê kết tìm kiếm nhãn lớp có độ phânlớp xác cao với liệu trung tâm E-Learning 36 Bảng 4.4 Cấuhình máy chủ thực nghiệm 37 Bảng 4.5 Kết thực nghiệm với liệu Li Roth 38 Bảng 4.6 Kết thực nghiệm với liệu Trung tâm E-Learning .39 vii DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 2.1 Môhìnhphânlớp Li Roth 11 Hình 2.2 Sơ đồ thực giải thuật Self-training .14 Hình 2.3 Sơ đồ giải thuật Co-training 15 Hình 2.4 Sơ đồ giải thuật Tri-training 16 Hình 3.1 Môhìnhphânlớp đề xuất 19 Hình 3.2 Môhình xử lý chương trình crawler .20 Hình 3.3 Sơ đồ giải thuật tham lam loại bỏ nhãn lớp có độ phânlớp xác cao 23 Hình 4.1 Môhình xử lý hệ thống H113 26 Hình 4.2 Cấu trúc HTML lưu trữ nội dungcâuhỏi .28 Hình 4.3 Cấu trúc HTML phân trang liệu .29 Hình 4.4 Module xử lý xác thực crawler 29 Hình 4.5 Module xử lý liệu crawler 30 Hình 4.6 Câuhỏi gán nhãn từ loại 32 Hình 4.7 Module xử lý đưa nhãn, từ loại vào tập hợp 32 Hình 4.8 Module xuất liệu .33 Hình 4.9 Nội dung file theo định dạng SVM .33 MỞ ĐẦU Sự phát triển sở hạ tầng công nghệ đặc biệt công nghệ mạng thúc đẩy nhu cầu trao đổi, chia sẻ liệu người, đưa Internet trở thành kho liệu khổng lồ Những tri thức kho liệu lại cung cấp sở để giải đáp vấn đề, thắc mắc hàng ngày người Với mục đích phục vụ nhiều nhu cầu người, hệ thống hỏi đáp tự động đời Kiến trúc bên hệ thống hỏi đáp phức tạp Những câuhỏi người dùng hệ thống phân tích, xử lý Dựa vào thông tin phân tích, hệ thống hỏi đáp tìm kiếm câu trả lời tiềm Cuối cùng, hệ thống trả cho người dùng kết ngắn gọn, súc tích xác Để tìm kiếm câu trả lời tiềm giai đoạn xử lý câu hỏi, hệ thống phải phânlớp xác câuhỏi Khi đó, không gian tìm kiếm câu trả lời giới hạn rõ ràng Vì vậy, giai đoạn xử lý câuhỏi hệ thống hỏi đáp, phânlớpcâuhỏi nhiệm vụ quan trọng Tuy nhiên, việc nghiêncứu giải pháp cho nhiệm vụ phânlớp gặp không khó khăn Các môhìnhphân lớp, giải thuật phânlớp áp dụng có ưu điểm nhược điểm định Bên cạnh đó, vấn đề khác việc xử lý ngôn ngữ tự nhiên Trên giới, số ngôn ngữ có cấu tạo từ loại, ngữ nghĩa đa dạng phức tạp Hệ thống phải xác định đặc trưng đưa chiến lược xử lý phù hợp Do đó, vấn đề cần nhận quan tâm nghiêncứu nhiều Trong luận văn nghiêncứu này, tác giả trình bày chương với nội dung tóm tắt sau: Chương Giới thiệu phânlớpcâuhỏi trình bày định nghĩa, mục tiêu nhiệm vụ phânlớpcâuhỏi đôi nét khái niệm taxonomy câuhỏi Mục tiêu luận văn nêu phần cuối chương Chương Các phương pháp tiếp cận toán phânlớpcâuhỏinghiêncứumôhìnhphânlớpcâuhỏi sử dụng phổ biến môhìnhphânlớp phẳng, môhìnhphânlớp cấp bậc Chương trình bày số giải thuật phânlớp học máy có giám sát bán giám sát Chương Đề xuất cải tiến môhìnhphânlớp nêu lên vấn đề thực tế ảnh hướng đến kết phânlớp Dựa vào số nghiên cứu, tác giả đề xuất môhìnhphânlớp cải tiến trình bày bước xử lý liệu môhình Chương Ứngdụng vào hệ thống hỏi đáp thắc mắc Trung tâm đào tạo E-Learning giới thiệu Trung tâm đào tạo E-Learning thực trạng hệ thống hỏi đáp thắc mắc Sau đó, trình bày kết thực nghiệm áp dụngmôhình đề xuất 28 lưu trữ sở liệu chưa đủ để đáp ứng việc xây dựngphânlớp Vì vậy, để đảm bảo số lượng câuhỏi mức phù hợp cần thu thập liệu từ nguồn đơn vị liên kết với trung tâm HOU-Topica đơn vị liên kết Trung tâm E-Learning chung mục tiêu đào tạo sinh viên trực tuyến Đơn vị hoạt động thời gian trước chương trình đào tạo trực tuyến xây dựng Hiện Trung tâm E-Learning dừng tuyển sinh chương trình liên kết với HOU-Topica Trong thời kỳ liên kết, hai bên đưa số hệ thống hỏi đáp đóng vai trò phương tiện trao đổi sinh viên nhà trường có tên gọi H2472 Môhình hoạt động hệ thống dừng lại mức hỏi đáp thông thường mà hầu hết hệ thống hỏi đáp thắc mắc áp dụng là: Người dùng đưa câuhỏi lên hệ thống, chuyên gia đưa câu trả lời góp ý Sau đó, hệ thống báo lại cho người đặt câuhỏi biết câuhỏi trả lời Nếu không vấn đề cần hỏi lại từ phía người đặt câuhỏicâuhỏi đóng lại Trong hệ thống H113 H2472, người dùng đưa câuhỏi lên hệ thống sinh viên chuyên gia trả lời cán kỹ thuật, giảng viên, cố vấn học tập, … Dựa sở đó, liệu câuhỏi hai hệ thống tương đồng phù hợp để đưa vào làm liệu phânlớp thực nghiệm Do lượng câuhỏi hệ thống H2472 HOU –Topica lớn lưu trữ website http://elearning.hou.topica.vn/h2472 nên việc lấy liệu thủ công phương án không khả thi Sử dụng chương trình Crawler phương án khả thi để đạt kết mong muốn Các vấn đề cần xử lý tìm hiểu cấu trúc trang, bóc tách thẻ cấu trúc để tìm thẻ lưu trữ nội dungcâu hỏi, thẻ sử dụng để sang trang tiếp theo, xử lý xác thực, … Hình 4.2 Cấu trúc HTML lưu trữ nội dungcâuhỏi 29 Hình 4.3 Cấu trúc HTML phân trang liệu Hình 4.4 Module xử lý xác thực crawler 30 Hình 4.5 Module xử lý liệu crawler Sau áp dụng phương pháp chạy Crawler, kết đưa tập gồm 4000 câuhỏi dạng thô chưa xử lý Ở giai đoạn tiếp theo, tập câuhỏi xử lý để xây dựng tập liệu chuẩn dùngphânlớp 4.3.2 Xử lý liệu 4.3.2.1 Xử lý thô Với 4000 câuhỏi lấy từ website đơn vị liên kết, sau tiến hành xử lý sàng lọc, kiểm tra loại bỏ câu trùng lặp, vô nghĩa, hệ thống lại 1509 câuhỏi Số lượng câuhỏi mức trung bình để tạo phânlớp tốt 4.3.2.2 Xây dựng tập nhãn lớp gán nhãn lớpcâuhỏi Từ tập liệu xử lý thô, tác giả xây dựng tập nhãn lớp cách duyệt qua câu Sau số lần duyệt toàn tập liệu cách cẩn thận, tập nhãn lớphình thành với 22 nhãn lớp Công việc gán nhãn lớp cho tập liệu 1509 câuhỏi Chi tiết nhãn lớp số lượng câuhỏi gán cho nhãn lớp trình bày Bảng 4.1 31 Bảng 4.1 Bộ phânlớpcâuhỏi trung tâm E-Learning STT Nhãn lớp Ý nghĩa Số lượng câu CVHT Cố vấn học tập Dang_nhap Đăng nhập 15 Dao_tao Đào tạo 83 Diem Điểm Dien_dan Diễn đàn 61 H113 H113 43 He_thong Hệ thống 67 Hoc_phi Học phí 49 Ky_thuat Kỹ thuật 52 10 Lich Lịch 31 11 Mail Hòm thư cá nhân 28 12 Mien_mon 43 13 Mobile 14 Nhom Miễn môn Ứngdụng điện thoại Nhóm 15 Tai_lieu Tài liệu 16 The Thẻ 15 17 Thi Thi 83 18 Tot_nghiep Tốt nghiệp 71 19 Trac_nghiem Trắc nghiệm 20 Tu_luan Tự luận 21 Tuyen_sinh Tuyển sinh 22 VClass Lớp học Online 224 153 34 71 122 203 29 23 Cuối cùng, tác giả xây dựng tập liệu huấn luyện tập liệu kiểm tra từ tập 1509 câuhỏi gán nhãn Tỉ lệ cụ thể chia 90% câuhỏi huấn luyện 10% câuhỏi kiểm tra Như vậy, tập liệu huấn luyện có 1359 câuhỏi tập liệu kiểm tra có 150 câuhỏi 4.3.2.3 Gán nhãn từ loại tiếng Việt Với câuhỏi tập liệu huấn luyện tập liệu kiểm tra, tác giả tiến hành chuẩn hóa từ loại, ngữ nghĩa tiếng Việt Tác giả sử dụng chương trình vnTagger 32 Lê Hồng Phương[10] phát triển ngôn ngữ java để xử lý ngôn ngữ tự nhiên, gán nhãn cho từ loại tiếng Việt Chương trình có độ xác cao khoảng 95% Để thuận tiện cho việc quản lý thống kê, câuhỏi xử lý lưu sở liệu Hình 4.6 Câuhỏi gán nhãn từ loại 4.3.2.4 Định dạng liệu theo chuẩn SVM Công việc cuối ánh xạ đặc trưng câuhỏi gán nhãn lớp, từ loại sang vector theo định dạng liệu đầu vào chuẩn cho SVM Để tạo liệu đầu vào này, tác giả xây dựng số công cụ chuyển đổi lớp nhãn, từ loại thành giá trị đặc trưng sử dụng ngôn ngữ java Hình 4.7 Module xử lý đưa nhãn, từ loại vào tập hợp 33 Hình 4.8 Module xuất liệu theo định dạng SVM Kết trình xử lý liệu file đầu vào có liệu Hình 4.9 Hình 4.9 Nội dung file theo định dạng SVM Sử dụng file liệu định dạng tạo để thực nghiệm với SVM Tác giả sử dụng libSVM[3] để tạo phânlớp từ liệu huấn luyện Các thông số sử dụng thực nghiệm để mặc định Khi chạy liệu huấn luyện, ta kết file môhình File phânlớpdùng để đánh giá liệu kiểm tra cho độ xác, số lượng câuhỏi gán nhãn 4.3.2.5 Tìm kiếm nhãn lớp có độ phânlớp xác cao Áp dụngmôhình tìm kiếm nhãn lớp sử dụng giải thuật tham lam với tập liệu chuẩn Li Roth Tập liệu huấn luyện ban đầu gồm 5452 câuhỏidùng làm tập liệu phát triển Tác giả chia tập liệu thành tập liệu huấn luyện gồm 4899 câuhỏi tập liệu kiểm tra gồm 553 câuhỏi Sau áp dụng giải thuật, kết nhãn lớp thể Bảng 4.2 34 Bảng 4.2 Thống kê kết tìm kiếm nhãn lớp có độ phânlớp xác cao với liệu chuẩn Li Roth STT Nhãn lớp Số câuhỏi kiểm tra Độ xác (%) ABBR:abb 100 ABBR:exp 50 DESC:def 42 92.85 DESC:desc 26 50 DESC:manner 24 100 DESC:reason 22 81.81 ENTY:animal 50 ENTY:body ENTY:color 85.71 10 ENTY:cremat 27 62.96 11 ENTY:currency 100 12 ENTY:dismed 100 13 ENTY:event 100 14 ENTY:food 55.55 15 ENTY:instru 100 16 ENTY:lang 100 17 ENTY:letter 100 18 ENTY:other 21 38.09 19 ENTY:plant 20 ENTY:product 33.33 21 ENTY:religion 22 ENTY:sport 83.33 23 ENTY:substance 66.66 24 ENTY:symbol 100 25 ENTY:techmeth 40 11 45.45 26 ENTY:termeq 35 27 ENTY:veh 25 28 ENTY:word 50 29 HUM:desc 100 30 HUM:gr 19 52.63 31 HUM:ind 104 89.42 32 HUM:title 50 33 LOC:city 100 34 LOC:country 21 90.47 35 LOC:mount 100 36 LOC:other 42 83.33 37 LOC:state 71.42 38 NUM:code 100 39 NUM:count 40 95 40 NUM:date 22 86.36 41 NUM:dist 50 42 NUM:money 80 43 NUM:ord 100 44 NUM:other 80 45 NUM:perc 75 46 NUM:period 100 47 NUM:speed 100 48 NUM:temp 49 NUM:volsize 100 50 NUM:weight Tác giả xác định tập nhãn lớp có độ phânlớp xác cao liệu Li Roth gồm 17 nhãn lớp có độ xác 100% Bảng 4.2 Tương tự, tác giả áp dụng giải thuật tham lam để tìm nhãn lớp có độ phânlớp xác cao tập liệu phát triển trung tâm E-Learning Tập liệu huấn luyện ban đầu gồm 1359 câuhỏi chia thành tập liệu huấn luyện gồm 1222 36 câuhỏi tập liệu kiểm tra gồm 137 câuhỏi Kết chi tiết thể Bảng 4.3 Bảng 4.3 Thống kê kết tìm kiếm nhãn lớp có độ phânlớp xác cao với liệu trung tâm E-Learning STT Nhãn lớp Số câuhỏi kiểm tra Độ xác (%) Tuyen_sinh 100 The 100 Dang_nhap VClass 100 Mail 33.33 Lich 50 Tu_luan 100 Mobile Mien_mon 100 10 H113 87.5 11 Hoc_phi 100 12 Ky_thuat 33.33 13 Dien_dan 100 14 He_thong 71.42 15 Nhom 100 16 Tot_nghiep 100 17 Thi 85.7 18 Dao_tao 44.44 19 Tai_lieu 13 61.53 20 Diem 13 84.61 21 CVHT 16 93.75 22 Trac_nghiem 20 75 Theo thống kê trên, nhãn lớp có độ phânlớp xác cao xác định “Tuyển sinh”, “Thẻ”, “VClass”, “Tự luận”, “Miễn môn”, “Học phí”, “Diễn đàn”, 37 “Nhóm”, “Tốt nghiệp” Các lớp bị loại khỏi tập liệu huấn luyện ban đầu để xây dựngphânlớp cấp hai 4.3.3 Áp dụngmôhình đề xuất Để áp dụngmôhình để xuất, tác giả tạo hai phânlớp Bộ phânlớp cấp tạo từ toàn câuhỏi huấn luyện ban đầu Bộ phânlớp cấp hai tạo từ tập liệu câuhỏi huấn luyện loại bỏ câuhỏi gán nhãn lớp có độ phânlớp xác cao Các câuhỏi tập liệu kiểm tra qua hai phânlớp Nếu câuhỏi gán nhãn lớp thuộc lớp có độ phânlớp cao câuhỏi không cần phải phânlớp với phânlớp cấp hai Ngược lại, câuhỏi kiểm tra tiếp qua phânlớp cấp hai Kết áp dụngmôhình đề xuất trình bày phần luận văn 4.4 Kết thực nghiệm 4.4.1 Cài đặt môi trường thực nghiệm Thực nghiệm tiến hành máy chủ Linux có cấuhình trình bày Bảng 4.4 Bảng 4.4 Cấuhình máy chủ thực nghiệm Thông số phần cứng STT CPU Intel( R) Xeon( R) CPU E5-2620 @ 2.00GHz RAM 2Gb HDD 15Gb Thông số phần mềm Hệ điều hành CentOS 6.5 Thư viện libsvm v2.9 Gói hỗ trợ Các gói cần thiết trình chạy gcc, gcc-c+, gmp, libstdc-devel, glibc-devel 4.4.2 Thực nghiệm với liệu Li Roth Trong liệu Li Roth, tập liệu bao gồm 5952 câuhỏi Hai phânlớp xây dựng theo môhình đề xuất Kết phânlớp với phânlớp trình bày Bảng 4.5 Bảng 4.5 Kết thực nghiệm với liệu Li Roth 38 STT Bộ phânlớp Số lượng câuhỏi huấn luyện Số lượng câuhỏi kiểm tra Số lượng câu Độ xác(%) Bộ phânlớp cấp 5452 500 39/54 72.22 Bộ phânlớp cấp hai 4642 446 373/446 83.63 412/500 82.4 Tổng Sau phânlớpcâuhỏi qua phânlớp cấp một, tác giả nhận 39 câuhỏi xác 54 câuhỏi kiểm tra có độ xác cao Trong thực nghiệm tìm kiếm nhãn lớp có độ xác cao, tác giả tìm tập nhãn lớp yêu cầu với liệu Li Roth Bộ phânlớp cấp hai xây dựng cách loại bỏ câuhỏi gán nhãn lớp Cụ thể, số lượng câuhỏi tập liệu huấn luyện phải loại 810 câuhỏi Khi qua phânlớp cấp hai, số lượng câu xác nhận 373 câuhỏi Như tổng số 500 câuhỏi kiểm tra, có 412 câuhỏi gán xác nhãn lớp (gồm 39 câuhỏi kiểm tra thuộc nhãn lớp có độ phânlớp xác cao 373 câuhỏi xác phânlớp cấp hai) cho kết độ xác tăng lên 82.4% tập liệu 4.4.3 Thực nghiệm với liệu Trung tâm E-Learning 4.4.3.1 Phương pháp K-Fold Cross Validation Cross validation phương pháp chia tập liệu gốc thành tập liệu huấn luyện để huấn luyện môhình tập liệu kiểm tra để đánh giá môhình Phương pháp thường áp dụng mà tập liệu gốc có kích thước vừa nhỏ Mục đích phương pháp cross validation đánh giá công vai trò liệu Tập liệu gốc chia ngẫu nhiên thành k tập liệu có kích thước K tập liệu cần đảm bảo không giao Trong k lần lặp, tập liệu làm nhiệm vụ kiểm tra môhình tạo k-1 tập liệu lại Độ phânlớp xác cuối trung bình cộng độ phânlớp xác k vòng lặp Tác giả chọn 𝑘 = 10 áp dụng với tập liệu 1509 câuhỏi trung tâm ELearning Độ phânlớp xác trung bình nhận 79.32% (1197/1509) Kết dùng để so sánh với môhình cải tiến thực nghiệm 4.4.3.2 Phương pháp cải tiến Sau trình xử lý liệu câu hỏi, tập liệu huấn luyện liệu kiểm tra tạo Với 22 nhãn lớp bao phủ 1359 câuhỏi huấn luyện 150 câuhỏi kiểm tra Kết phânlớp không tổ chức theo môhìnhphân cấp đạt 80.7% Kết dùng để so sánh với kết thực nghiệm sử dụngmôhìnhphânlớp cải tiến 39 Tác giả xây dựngphânlớp cấp dựa 1359 câuhỏi huấn luyện Tiếp theo, tác giả áp dụng giải thuật tham lam để tìm kiếm nhãn lớp có độ phânlớp xác cao loại bỏ nhãn lớp khỏi tập liệu huấn luyện Tổng số câuhỏi huấn luyện thuộc nhãn lớp có độ phânlớp xác cao 517 câuhỏi Để xây dựngphânlớp cấp hai, ta cần loại bỏ 517 câuhỏi Kết phânlớpphânlớp áp dụng vào tập liệu Trung tâm E-Learning liệt kê Bảng 4.6 Bảng 4.6 Kết thực nghiệm với liệu Trung tâm E-Learning STT Bộ phânlớp Số lượng liệu huấn luyện Số lượng Số lượng liệu câu kiểm tra Độ xác(%) Bộ phânlớp cấp 1359 150 65/78 83.33 Bộ phânlớp cấp hai 842 72 59/72 81.94 124/150 82.67 Tổng Số lượng câuhỏi kiểm tra gán nhãn lớp có độ phânlớp xác cao 78 câuhỏi Sau qua phânlớp cấp một, tác giả nhận 65/78 câuhỏi thực xác Kết phânlớp với phânlớp cấp hai, tổng số câu xác 59/72 câuhỏi Tổng số câuhỏiphânlớp xác qua hai phânlớp 124 câu hỏi, đạt độ xác 82.67% Như vậy, giải pháp đề xuất cải tiến hiệu phânlớp Cụ thể, kết phânlớp tăng 1.97% độ xác so sánh với việc không sử dụng hai tầng phânlớp tăng 3.35% so sánh với phương pháp K-fold Cross Validation 4.5 Kết luận Kết hai thực nghiệm cho thấy việc áp dụngmôhình đề xuất làm tăng độ xác phânlớpcâuhỏi Trong thực nghiệm thực với tập liệu Li Roth – tập liệu có số lượng lớn mang tính khách quan, môhình đề xuất áp dụng cho độ xác tăng 1% Đối với tập liệu trung tâm ELearning, kết cho thấy độ xác tăng 1.97% Tuy tồn nhiều vấn đề chưa thực giải hết độ xác phânlớp tăng lên động lực để thúc đẩy việc hoàn thiện thiếu sót trình chuẩn bị xử lý liệu Môhình đề xuất chứng tỏ hiệu suất phânlớp có liên quan tới không gian nhãn lớpcâuhỏi Không gian nhãn lớp giảm làm tăng hiệu suất qua tăng thêm độ xác 40 Kết luận hướng phát triển tương lai Phânlớpcâuhỏi nhiệm vụ quan trọng hệ thống hỏi đáp Câuhỏiphânlớp xác tiền đề cho trình xử lý Nhiều đề xuất cải tiến thực nhằm tăng độ xác phân lớp, qua làm tăng hiệu suất chung hệ thống hỏi đáp Trong luận văn “Nghiên cứumôhìnhphânlớpcâuhỏiứng dụng”, tác giả đề xuất cải tiến môhình giúp tăng độ xác Bên cạnh đó, luận văn đạt số kết sau: Khái quát vấn đề phânlớpcâu hỏi, nêu lên vai trò ý nghĩa trình phânlớp hệ thống hỏi đáp Khảo sát thống kê dạng câuhỏi ngôn ngữ tự nhiên xuất phânlớpNghiên cứu, tìm hiểu hướng để tiếp cận môhìnhphânlớp giải thuật áp dụng Xây dựng bước xử lý liệu phânlớp đề xuất môhìnhphânlớp có khả làm tăng độ xác Trong thực nghiệm, luận văn ứngdụngmôhìnhphânlớp đề xuất với liệu câuhỏi trung tâm E-Learning Xây dựng module xử lý liệu câuhỏi từ nguồn liệu có trung tâm nguồn từ đơn vị liên kết Tuy nhiên, luận văn tồn số hạn chế: Số lượng câuhỏi phục vụ cho nhiệm vụ phânlớp nên độ xác phânlớp chưa cao Việc gán nhãn lớp cho câuhỏi chủ quan, dựa vào kiến thức cá nhân chủ yếu nên lớp nhãn chưa phù hợp Trong thời gian tới, tác giả tiếp tục nghiêncứuphânlớpcâuhỏi cho việc ứngdụng vào tại, mở rộng số lượng câuhỏi huấn luyện tới mức chấp nhận (3000 câu) tiến hành làm giàu thêm đặc trưng cho câuhỏi liệu huấn luyện liệu kiểm tra Việc có ý nghĩa quan trọng việc nâng cao độ xác cho phânlớpcâuhỏi Nhiều thuật toán khác sử dụng để đưa thuật toán phù hợp với ứngdụngphânlớpcâuhỏi hệ thống hỏi đáp thắc mắc H113 Trung tâm E-Learning 41 TÀI LIỆU THAM KHẢO Tiếng Việt Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009), Giáo trình khai phá liệu Web, Nhà xuất Giáo dục Việt Nam Tiếng Anh Anders Søgaard (2010), Simple semi-supervised training of part-of-speech taggers, The 48th Annual Meeting of the Association for Computational Linguistics (ACL) Uppsala, Sweden Chih-Chung Chang and Chih-jen Lin (2013), LibSVM: A library for Support Vector Machine, Department of Computer Science National Taiwan University, Taipei, Taiwan David Tom, Claudio Giuliano (2009), A semi-supervised approach to question classification, European Symposium on Artificial Neural Networks - Advances in Computational Intelligence and Learning Dragomir Radev, Weiguo Fan, Hong Qi, Harris Wu, Amardeep Grewal (2002), Probabilistic question answering on the web, Journal of the American society for Information Science and Technology 2005 Hakan Sundblad (2007), Question Classification in Question Answering systems, Submitted to Linköping Institute of Technology at Linköping University John Burger, Claire Cardie, Vinay Chaudhri, Robert Gaizauskas, Sanda Harabagiu, David Israel, Christian Jacquemin, Chin-Yew Lin, Steve Maiorano, George Miller, Dan Moldovan , Bill Ogden,John Prager, Ellen Riloff, Amit Singhal, Rohini Shrihari, Tomek Strzalkowski, Ellen Voorhees, Ralph Weishedel (2002), Issues, Tasks and Program Structures to Roadmap Research in Question & Answering Q&A Roadmap Paper Oliver Chapelle, Bernhard Scholkopf, Alexander Zien (2006), Semi supervised learning, The MIT Press Cambridge, Massachusetts, London, England Pierre Baldi, Paolo Frasconi, Padhraic Smyth Modeling the Internet and the Web: Probabilistic Methods and Algorithms, Published by John Wiley & Sons Ltd, The Southern Gate, Chichester West Sussex PO19 8SQ, England - 2003 10 Le Hong Phuong (2010), An empirical study of maximum entropy approach for part-of-speech tagging of Vietnamese texts Actes du Traitement Automatique des Langues Naturelles (TALN-2010), Montreal, Canada 11 Nguyen Tri Thanh, Nguyen Le Minh and Akira Shimazu (2008) Using Semisupervised Learning for Question Classification, Journal of Natural Language Processing (15) 42 12 Nguyen Tri Thanh, Nguyen Le Minh and Akira Shimazu (2007), Improving the Accuracy of Question Classification with Machine Learning, Institute of Electrical and Electronics Engineers(IEEE) 13 Xin Li, Dan Roth (2002), Learning question classifiers, In Proceedings of the 19th International Conference on Compuatational Linguistics (COLING), pp.556–562 14 Xin Li, Dan Roth (2004) Learning question classifiers: the role of semantic information, Cambridge University Press ... Nghiên cứu mô hình phân lớp câu hỏi ứng dụng tác giả trình bày số nghiên cứu mô hình phân lớp câu hỏi, đề xuất mô hình phân lớp cải tiến ứng dụng với liệu cụ thể thực nghiệm để kiểm chứng mô. .. taxonomy câu hỏi Mục tiêu luận văn nêu phần cuối chương Chương Các phương pháp tiếp cận toán phân lớp câu hỏi nghiên cứu mô hình phân lớp câu hỏi sử dụng phổ biến mô hình phân lớp phẳng, mô hình phân. .. mô hình 9 Chương 2: Các phương pháp tiếp cận toán phân lớp câu hỏi 2.1 Mô hình phân lớp câu hỏi 2.1.1 Mô hình phân lớp phẳng Mô hình phân lớp phẳng biết đến hướng tiếp cận đơn giản mô hình phân