Tóm tắt Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu mô hình phân lớp câu hỏi và ứng dụng

23 47 0
Tóm tắt Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu mô hình phân lớp câu hỏi và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nội dung luận văn Nghiên cứu mô hình phân lớp câu hỏi và ứng dụng được trình bày với kết cấu gồm 4 chương: Giới thiệu phân lớp câu hỏi trình bày định nghĩa, các phương pháp tiếp cận bài toán phân lớp câu hỏi; đề xuất cải tiến mô hình phân lớp và ứng dụng vào hệ thống hỏi đáp thắc mắc tại trung tâm đào tạo E-Learning.

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN ĐÌNH TƯỜNG NGHIÊN CỨU MƠ HÌNH PHÂN LỚP CÂU HỎI VÀ ỨNG DỤNG Ngành: Công Nghệ Thông Tin Chuyên ngành: Hệ thống Thông Tin Mã số chuyên ngành: 60480104 TĨM TẮT LUẬN VĂN THẠC SĨ CƠNG NGHỆ THƠNG TIN Hà Nội - 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ NGUYỄN ĐÌNH TƯỜNG NGHIÊN CỨU MƠ HÌNH PHÂN LỚP CÂU HỎI VÀ ỨNG DỤNG Ngành: Công Nghệ Thông Tin Chuyên ngành: Hệ thống Thông Tin Mã số chuyên ngành: 60480104 TÓM TẮT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2016 MỤC LỤC Chương 1: Giới thiệu phân lớp câu hỏi 1.1 Giới thiệu 1.2 Tìm hiểu loại câu hỏi 1.3 Taxonomy câu hỏi 1.4 Mục tiêu luận văn Chương 2: Các phương pháp tiếp cận cho tốn phân lớp câu hỏi 2.1 Mơ hình phân lớp câu hỏi 2.1.1 Mơ hình phân lớp phẳng 2.1.2 Mơ hình phân lớp phân cấp 2.2 Giải thuật phân lớp câu hỏi 2.1.3 Giải thuật học máy có giám sát 2.1.4 Giải thuật học máy bán giám sát Chương 3: Đề xuất cải tiến mơ hình phân lớp 3.1 Thực trạng 3.2 Mơ hình đề xuất 3.3 Mơ hình xử lý liệu 3.3.1 Thu thập liệu 3.3.2 Xử lý liệu Chương 4: Ứng dụng vào hệ thống giải đáp thắc mắc Trung tâm đào tạo trực tuyến Elearning 10 4.1 Giới thiệu trung tâm E-Learning 10 4.2 Tình trạng hệ thống hỏi đáp 10 4.3 Chuẩn bị liệu thực nghiệm 10 4.3.1 Thu thập liệu 10 4.3.2 Xử lý liệu 11 4.3.3 Áp dụng mơ hình đề xuất 12 4.4 Kết thực nghiệm 12 4.4.1 Cài đặt môi trường thực nghiệm 12 4.4.2 Thực nghiệm với liệu Li Roth 13 4.4.3 Thực nghiệm với liệu Trung tâm ELearning 14 Kết luận hướng phát triển tương lai 15 TÀI LIỆU THAM KHẢO 17 MỞ ĐẦU Ngày nay, với phát triển sở hạ tầng công nghệ đặc biệt công nghệ mạng thúc đẩy nhu cầu trao đổi, chia sẻ liệu người, làm cho Internet trở thành kho liệu khổng lồ Những tri thức kho liệu lại cung cấp sở để giải đáp vấn đề, thắc mắc hàng ngày người Với mục đích phục vụ nhiều nhu cầu người, hệ thống hỏi đáp tự động đời Kiến trúc bên hệ thống hỏi đáp phức tạp Những câu hỏi người dùng hệ thống phân tích, xử lý Dựa vào thơng tin phân tích, hệ thống tìm kiếm câu trả lời tiềm Cuối cùng, trả cho người dùng kết ngắn gọn, súc tích xác Để đưa tiêu chí tìm kiếm câu trả lời tiềm giai đoạn xử lý câu hỏi, hệ thống phải phân lớp xác câu hỏi Khi xác định lớp câu hỏi, khơng gian tìm kiếm câu trả lời giới hạn rõ ràng Vì vậy, giai đoạn xử lý câu hỏi hệ thống hỏi đáp, phân lớp câu hỏi nhiệm vụ quan trọng Tuy nhiên, việc nghiên cứu giải pháp cho nhiệm vụ phân lớp gặp khơng khó khăn Các mơ hình phân lớp, giải thuật phân lớp áp dụng có ưu điểm nhược điểm định Bên cạnh đó, vấn đề khác nảy sinh việc xử lý ngôn ngữ tự nhiên Một số ngơn ngữ có hệ thống từ loại đa dạng phức tạp Trong ngôn ngữ tiếng Việt, xác định đặc trưng ngữ nghĩa đưa chiến lược xử lý công việc tương đối vất vả, nhiều thời gian Do cần nhận quan tâm nghiên cứu nhiều 2 Trong luận văn nghiên cứu này, tác giả trình bày chương với nội dung tóm tắt sau: Chương Giới thiệu phân lớp câu hỏi trình bày định nghĩa, mục tiêu nhiệm vụ phân lớp câu hỏi đôi nét khái niệm taxonomy câu hỏi Mục tiêu luận văn nêu phần cuối chương Chương Các phương pháp tiếp cận toán phân lớp câu hỏi nghiên cứu mơ hình phân lớp câu hỏi sử dụng phổ biến mô hình phân lớp phẳng, mơ hình phân lớp thứ bậc Chương trình bày số giải thuật phân lớp học máy có giám sát bán giám sát Chương Đề xuất cải tiến mơ hình phân lớp nêu lên vấn đề thực tế ảnh hướng đến kết phân lớp Dựa vào số nghiên cứu, tác giả đề xuất mơ hình phân lớp cải tiến trình bày bước xử lý liệu mơ hình Chương Ứng dụng vào hệ thống hỏi đáp thắc mắc Trung tâm đào tạo E-Learning giới thiệu Trung tâm đào tạo E-Learning thực trạng hệ thống hỏi đáp thắc mắc Sau đó, trình bày kết thực nghiệm áp dụng mơ hình đề xuất với liệu câu hỏi trung tâm Cuối nhận xét, đánh giá mơ hình đề xuất Phần Kết luận hướng phát triển tương lai trình bày kết đạt hạn chế luận văn Các vấn đề hạn chế giải hướng phát triển tương lai luận văn 3 Chương 1: Giới thiệu phân lớp câu hỏi 1.1 Giới thiệu Phân lớp câu hỏi nhiệm vụ gán giá trị sai tới cặp (qj , ci ) ∈ Q × C, Q miền câu hỏi C = {C1 , C2 , … , C|C| } tập lớp định nghĩa trước Một câu hỏi ngôn ngữ tự nhiên liên quan ảnh hưởng nhiều lĩnh vực khác nên lượng câu trả lời liên quan lớn Việc phân lớp câu hỏi cung cấp ràng buộc loại câu trả lời, cung cấp thông tin xử lý để đưa nhiều chiến lược phân lớp nhằm làm giảm khơng gian tìm kiếm câu trả lời tiềm kho ngữ liệu khổng lồ Bên cạnh đó, xác định ngữ nghĩa rõ ràng câu hỏi mang lại lợi ích to lớn nhiên câu hỏi lúc đơn giản mà thường chúng phức tạp có nhiều ngữ nghĩa mập mờ, khơng xác định Cơng việc xác định xác ngữ nghĩa cho câu hỏi thách thức không nhỏ 1.2 Tìm hiểu loại câu hỏi Xác định loại câu hỏi mang ý nghĩa to lớn phân tích câu hỏi loại câu hỏi có đặc trưng cách tiếp cận khác Mỗi loại câu hỏi cần có chiến lược xử lý phù hợp 1.3 Taxonomy câu hỏi Taxonomy phân cấp khái niệm, nút (trừ nút gốc) biểu diễn khái niệm nút có quan hệ is-a-kind-of (là kiểu/loại nút cha) với nút cha Ví dụ nút khái niệm “number” có nút chứa khái niệm “code”, “count”, “date”, “distance”, “money”, “order” Một taxonomy mơ tả theo cấu trúc hình cây, đỉnh cấu trúc nút gốc nút con, tập nút nút cha không giao Khi duyệt từ nút cha đến nút con, thông tin nút chi tiết rõ ràng nút cha Khi xác định nút cha xác định nút Điều mang lại hiệu tìm kiếm, truy vấn liệu dựa vào nút cha, việc xác định miền thông tin cần tìm rõ ràng giới hạn 1.4 Mục tiêu luận văn Ban đầu, phân lớp câu hỏi tập trung vào phân lớp phẳng có nhiều vấn đề nảy sinh cần phải đáp ứng nên phân lớp phẳng khơng phù hợp mà thay vào mơ hình phân lớp cục (Local Classifier), phân lớp toàn cục (Global Classifier hay Big-Bang), phân lớp phân cấp (Hierarchical Classifier)… Sau số tìm hiểu, nghiên cứu miền câu hỏi cụ thể thấy kết phân lớp số lớp có tỉ lệ xác cao số khác lại Giả sử rằng, ta tính tốn, dự đốn lớp có độ xác cao loại bỏ liệu gán nhãn đó, ta tiến hành phân lớp với lớp có độ xác Kết phân lớp lớp có độ xác thấp làm tăng độ xác chung nhiệm vụ phân lớp 5 Chương 2: Các phương pháp tiếp cận cho toán phân lớp câu hỏi 2.1 2.1.1 Mơ hình phân lớp câu hỏi Mơ hình phân lớp phẳng Mơ hình phân lớp phẳng biết đến hướng tiếp cận đơn giản mơ hình phân lớp Với việc sử dụng phân lớp phẳng, mối quan hệ bên nhãn lớp bị bỏ qua, đặc biệt sử dụng toàn lớp nhãn thời điểm với liệu câu hỏi 2.1.2 Mơ hình phân lớp phân cấp Mơ hình phân lớp phân cấp có nhiều ưu điểm độ xác, cách tổ chức thơng tin, , xem bổ sung cải tiến số phương pháp phân lớp khác Ý tưởng mơ hình giảm số lượng lớp nhãn tập để cử cho câu hỏi theo bước Đầu phân lớp tập nhãn lớp sử dụng làm phân lớp lần phân lớp Khi phân lớp cấp câu hỏi phân vào lớp tổng thể, lớp bao quát nhiều so với lớp 2.2 Giải thuật phân lớp câu hỏi Về bản, phân lớp câu hỏi thường sử dụng hướng tiếp cận hướng tiếp cận dựa luật hướng tiếp cận dựa học máy Bên cạnh đó, kết hợp hướng tiếp cận dựa luật học máy đưa đến hướng tiếp cận 6 2.1.3 Giải thuật học máy có giám sát Trong học máy có giám sát, chương trình học cung cấp liệu, tập liệu huấn luyện tập liệu kiểm tra Ý tưởng phương pháp chương trình học “học” từ liệu gán nhãn lớp tập liệu huấn luyện nhận biết liệu chưa gán nhãn tập liệu kiểm tra với độ xác cao Hiện nay, số giải thuật phân lớp phổ biến sử dụng hướng tiếp cận học máy có giám sát kể tới Support Vector Machines (SVM), Maximum Entropy Model (MEM) Spare Network of Winnows (SNoW) 2.1.4 Giải thuật học máy bán giám sát Trong lịch sử học máy bán giám sát, có lẽ ý tưởng việc tận dụng đặc trưng có liệu chưa gán nhãn việc tự học hay gọi tự huấn luyện, tự gán nhãn Bên cạnh đó, để gán nhãn cho liệu huấn luyện cần nhiều thời gian, công sức có sai sót Với liệu huấn luyện, lỗi gây ảnh hưởng tới hiệu suất phân lớp Vì việc sử dụng liệu chưa gán nhãn kết hợp liệu gán nhãn học máy bán giám sát giúp khắc phục hạn chế phát sinh Các giải thuật điển hình hướng tiếp cận học máy bán giám sát kể đén Self-training, Co-training, Tritraining… Chương 3: Đề xuất cải tiến mơ hình phân lớp 3.1 Thực trạng Trên thực tế, phân lớp đạt kết tốt cần phải dựa vào nhiều yếu tố khác Và yếu tố quan trọng chất lượng số lượng nhãn lớp khác 3.2 Mơ hình đề xuất Dựa đặc điểm phân lớp miền câu hỏi khác nhau, kết trình phân lớp xuất nhãn lớp có độ xác khác Với mơ hình này, lớp có độ xác cao tách làm cấp nhãn lớp lại đưa vào cấp Câu hỏi BPL1: Bộ phân lớp huấn luyện từ toàn liệu huấn luyện BPL1 BPL2: Bộ phân lớp huấn luyện từ liệu lớp có chất lượng phân lớp thấp L1 C: Tập nhãn lớp có độ xác cao L1 , L : Là nhãn lớp gán cho câu hỏi L1  C Đúng Sai BPL2 Kết thúc L2 Hình 3.1: Mơ hình phân lớp đề xuất Việc xây dựng phân lớp thứ theo mơ hình đề xuất thực sau: Loại bỏ toàn câu hỏi liệu huấn luyện gán nhãn lớp mà nhãn lớp nằm tập nhãn lớp có độ xác cao đề xuất 3.3 Mơ hình xử lý liệu 3.3.1 Thu thập liệu Dữ liệu cần sử dụng để xây dựng huấn luyện khai thác tận dụng từ nhiều nguồn khác Điều phụ thuộc vào nhu cầu mục đích cần đạt tới hệ thống sử dụng Ngoài ra, số lượng câu hỏi cần thu thập từ nguồn nên đạt tới ngưỡng Nếu số lượng câu hỏi q chất lượng khơng đủ để tạo liệu huấn luyện tốt 3.3.2 3.3.2.1 Xử lý liệu Xử lý thô Là bước tiền xử lý sau thu thập liệu từ nguồn cung cấp Vì nguồn liệu ta khơng thể biết trước có liệu bị trùng lặp, vô nghĩa cần phải loại bỏ 3.3.2.2 Xây dựng tập nhãn lớp gán nhãn lớp câu hỏi Từ tập liệu gồm câu hỏi có ích giúp tạo phân lớp câu hỏi theo đặc trưng câu hỏi Cơng việc nhiều thời gian phải duyệt nhiều lần qua tồn câu hỏi cách cẩn thận để tìm đặc trưng riêng biệt Sau có phân lớp với số lượng lớp định rồi, bước gán nhãn lớp dựa theo phân lớp cho câu hỏi 3.3.2.3 Gán nhãn từ loại tiếng Việt Trong ngôn ngữ tự nhiên, đặc biệt Tiếng Việt số ngôn ngữ khác có hệ thống từ loại đa dạng phức tạp Có thể kể đến danh từ, động từ, tính từ, số từ, lượng từ, phó từ, thán từ… Trong số từ loại lại có nhóm từ loại nhỏ liên quan Bên cạnh cần ý cấu trúc từ từ đơn, từ ghép, từ láy Các từ đứng cạnh có nghĩa riêng ghép vào lại mang nghĩa khác 3.3.2.4 Định dạng liệu theo chuẩn SVM Bước tiếp theo, toàn câu hỏi ánh xạ sang ma trận vector Các nhãn lớp, từ loại câu ánh xạ vào tập hợp để lưu trữ trình chuyển đổi Đại diện cho nhãn lớp, từ loại giá trị số tương ứng tập hợp Các lớp nhãn, từ loại lưu tập hợp phải đảm bảo không trùng nhau, giá trị đại diện cho lớp nhãn, từ loại 3.3.2.5 Tìm kiếm nhãn lớp có độ phân lớp xác cao Trong bước xử lý này, trước hết cần phải xác định nhãn lớp có độ phân lớp xác cao Ta áp dụng giải thuật tham lam (Greedy Algorithms) việc tìm kiếm nhãn lớp yêu cầu Đây giải thuật có thiết kế đơn giản sử dụng để lựa chọn tối ưu cục với hy vọng chọn tối ưu toàn cục 10 Chương 4: Ứng dụng vào hệ thống giải đáp thắc mắc Trung tâm đào tạo trực tuyến Elearning 4.1 Giới thiệu trung tâm E-Learning Trung tâm đào tạo E-Learning đời năm 2009, nhằm thực nhiệm vụ đào tạo từ xa theo phương thức ELearning Viện Đại học Mở Hà Nội Qua thời gian triển khai tổ chức đào tạo, trung tâm có số thành tựu định đóng góp vào phát triển chung Viện Đại học Mở Hà Nội Hiện nay, trung tâm đào tạo ngành học: Quản trị kinh doanh, Kế tốn, Cơng nghệ Thơng tin, Tài Ngân hàng, Luật kinh tế Ngôn ngữ Anh với số lượng lớn học viên đăng ký theo học nhiều đơn vị liên kết nước 4.2 Tình trạng hệ thống hỏi đáp Hệ thống hỏi đáp phương thức hỗ trợ cho sinh viên tham gia học tập môi trường học tập trực tuyến Chức H113 hỗ trợ học tập cho sinh viên có vấn đề q trình học tập, sinh viên đặt câu hỏi cho phận quản lý Mỗi câu hỏi, thắc mắc sinh viên tiếp nhận trả lời nhiều phận liên quan Việc giải tốt vấn đề nảy sinh trình học giúp sinh viên có thoải mái để tham gia học tập 4.3 4.3.1 Chuẩn bị liệu thực nghiệm Thu thập liệu Sau áp dụng phương pháp chạy crawler kết đưa tập gồm 4000 câu hỏi dạng thô 11 chưa xử lý Ở giai đoạn tiếp theo, câu hỏi xử lý số cơng cụ có sẵn số cơng cụ tự viết theo mục đích sử dụng 4.3.2 4.3.2.1 Xử lý liệu Xử lý thô Với 4000 câu hỏi lấy từ website đơn vị liên kết, sau tiến hành xử lý sàng lọc, kiểm tra loại bỏ câu trùng lặp, vơ nghĩa, số lượng lại xác 1509 câu hỏi 4.3.2.2 Xây dựng phân lớp gán nhãn lớp câu hỏi Từ tập liệu xử lý thô, ta tiến hành xây dựng tập nhãn lớp cách duyệt qua câu Sau số lần duyệt toàn tập liệu cách cẩn thận tập nhãn lớp hình thành với 22 nhãn lớp Công việc gán nhãn lớp cho tập liệu 1509 câu hỏi Cuối ta xây dựng tập liệu huấn luyện tập liệu kiểm tra từ tập 1509 câu hỏi gán nhãn Tỉ lệ cụ thể chia 90% câu hỏi huấn luyện 10% câu hỏi kiểm tra Như vậy, tập liệu huấn luyện có 1359 câu hỏi tập liệu kiểm tra có 150 câu hỏi 4.3.2.3 Gán nhãn từ loại tiếng Việt Với câu hỏi gán nhãn, ta tiến hành chuẩn hóa đặc trưng câu hỏi công cụ VnTagger 12 4.3.2.4 Định dạng liệu theo chuẩn SVM Để tạo liệu đầu vào này, tác giả xây dựng số công cụ chuyển đổi lớp nhãn, từ loại thành giá trị đặc trưng sử dụng ngôn ngữ java 4.3.2.5 Tìm kiếm nhãn lớp có độ phân lớp xác cao Áp dụng mơ hình tìm kiếm nhãn lớp sử dụng giải thuật tham lam với tập liệu huấn luyện trung tâm E-Learning, có nhãn lớp có độ phân lớp xác cao Các lớp bị loại bỏ khỏi tập liệu huấn luyện để xây dựng phân lớp thứ Số lượng câu hỏi tập liệu huấn luyện sau loại bỏ câu hỏi nhãn lớp 842 câu hỏi 4.3.3 Áp dụng mơ hình đề xuất Để áp dụng mơ hình để xuất, tác giả tạo hai phân lớp Bộ phân lớp cấp tạo từ toàn câu hỏi huấn luyện ban đầu Bộ phân lớp cấp hai tạo từ tập liệu câu hỏi huấn luyện loại bỏ câu hỏi gán nhãn lớp có độ phân lớp xác cao Các câu hỏi tập liệu kiểm tra qua hai phân lớp Nếu câu hỏi gán nhãn lớp thuộc lớp có độ phân lớp cao câu hỏi không cần phải phân lớp với phân lớp cấp hai Ngược lại, câu hỏi kiểm tra tiếp qua phân lớp cấp hai Kết áp dụng mơ hình đề xuất trình bày phần luận 4.4 4.4.1 Kết thực nghiệm Cài đặt môi trường thực nghiệm Thực nghiệm tiến hành máy chủ Linux có cấu hình trình bày Bảng 4.2 13 Bảng 4.2 Cấu hình máy chủ thực nghiệm Thông số phần cứng STT CPU Intel( R) Xeon( R) CPU E5-2620 @ 2.00GHz RAM 2Gb HDD 15Gb Thông số phần mềm Hệ điều hành CentOS 6.5 Thư viện libsvm v2.9 Gói hỗ trợ Các gói cần thiết trình chạy gcc, gcc-c+, gmp, libstdcdevel, glibc-devel 4.4.2 Thực nghiệm với liệu Li Roth Với liệu Li Roth, thực nghiệm với 5952 câu hỏi, có 5452 câu hỏi huấn luyện 500 câu hỏi kiểm tra Áp dụng mô hình phân lớp đề xuất, loại bỏ lớp có độ xác cao đề xuất nêu chương trước Kết chi tiết trình bày bảng Bảng 4.5 Kết thực nghiệm với liệu Li Roth Bộ phân STT lớp Số lượng câu hỏi huấn luyện Số lượng câu hỏi kiểm tra Số lượng câu Độ xác(%) 14 Bộ phân lớp cấp Bộ phân lớp cấp hai 5452 500 39/54 72.22 4642 446 373/446 83.63 412/500 82.4 Tổng 4.4.3 Thực nghiệm với liệu Trung tâm E-Learning Kết thực dựa phân lớp gồm 22 lớp có liên quan đến vấn đề trung tâm đào tạo trực tuyến Chi tiết thể bảng Bảng 4.6 Kết thực nghiệm với liệu trung tâm ELearning Bộ phân STT lớp Bộ phân lớp cấp Bộ phân lớp cấp hai Tổng Số lượng liệu huấn luyện Số lượng liệu kiểm tra 1359 150 65/78 83.33 842 72 59/72 81.94 124/150 82.67 Số lượng câu Độ xác(%) 15 Kết luận hướng phát triển tương lai Phân lớp câu hỏi nhiệm vụ quan trọng hệ thống hỏi đáp Câu hỏi phân lớp xác tiền đề cho trình xử lý Nhiều đề xuất cải tiến thực nhằm tăng độ xác phân lớp, qua làm tăng hiệu suất chung hệ thống hỏi đáp Trong luận văn “Nghiên cứu mơ hình phân lớp câu hỏi ứng dụng”, tác giả đề xuất cải tiến mơ hình giúp tăng độ xác Bên cạnh đó, luận văn đạt số kết sau:     Khái quát vấn đề phân lớp câu hỏi, nêu lên vai trò ý nghĩa q trình phân lớp hệ thống hỏi đáp Khảo sát thống kê dạng câu hỏi ngôn ngữ tự nhiên xuất phân lớp Nghiên cứu, tìm hiểu hướng để tiếp cận mơ hình phân lớp giải thuật áp dụng Xây dựng bước xử lý liệu phân lớp đề xuất mô hình phân lớp có khả làm tăng độ xác Trong thực nghiệm, luận văn ứng dụng mơ hình phân lớp đề xuất với liệu câu hỏi trung tâm E-Learning Xây dựng module xử lý liệu câu hỏi từ nguồn liệu có trung tâm nguồn từ đơn vị liên kết Tuy nhiên, luận văn tồn số hạn chế:  Số lượng câu hỏi phục vụ cho nhiệm vụ phân lớp nên độ xác phân lớp chưa cao 16  Việc gán nhãn lớp cho câu hỏi chủ quan, dựa vào kiến thức cá nhân chủ yếu nên lớp nhãn chưa phù hợp Trong thời gian tới, tác giả tiếp tục nghiên cứu phân lớp câu hỏi cho việc ứng dụng vào tại, mở rộng số lượng câu hỏi huấn luyện tới mức chấp nhận (3000 câu) tiến hành làm giàu thêm đặc trưng cho câu hỏi liệu huấn luyện liệu kiểm tra Việc có ý nghĩa quan trọng việc nâng cao độ xác cho phân lớp câu hỏi Nhiều thuật toán khác sử dụng để đưa thuật tốn phù hợp với ứng dụng phân lớp câu hỏi hệ thống hỏi đáp thắc mắc H113 Trung tâm E-Learning 17 TÀI LIỆU THAM KHẢO Tiếng Việt Hà Quang Thụy, Phan Xn Hiếu, Đồn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009), Giáo trình khai phá liệu Web, Nhà xuất Giáo dục Việt Nam Tiếng Anh Anders Søgaard (2010), Simple semi-supervised training of part-of-speech taggers, The 48th Annual Meeting of the Association for Computational Linguistics (ACL) Uppsala, Sweden Chih-Chung Chang and Chih-jen Lin (2013), LibSVM: A library for Support Vector Machine, Department of Computer Science National Taiwan University, Taipei, Taiwan David Tom, Claudio Giuliano (2009), A semisupervised approach to question classification, European Symposium on Artificial Neural Networks - Advances in Computational Intelligence and Learning Dragomir Radev, Weiguo Fan, Hong Qi, Harris Wu, Amardeep Grewal (2002), Probabilistic question answering on the web, Journal of the American society for Information Science and Technology 2005 Hakan Sundblad (2007), Question Classification in Question Answering systems, Submitted to Linköping Institute of Technology at Linköping University 18 John Burger, Claire Cardie, Vinay Chaudhri, Robert Gaizauskas, Sanda Harabagiu, David Israel, Christian Jacquemin, Chin-Yew Lin, Steve Maiorano, George Miller, Dan Moldovan , Bill Ogden,John Prager, Ellen Riloff, Amit Singhal, Rohini Shrihari, Tomek Strzalkowski, Ellen Voorhees, Ralph Weishedel (2002), Issues, Tasks and Program Structures to Roadmap Research in Question & Answering Q&A Roadmap Paper Oliver Chapelle, Bernhard Scholkopf, Alexander Zien (2006), Semi supervised learning, The MIT Press Cambridge, Massachusetts, London, England Pierre Baldi, Paolo Frasconi, Padhraic Smyth Modeling the Internet and the Web: Probabilistic Methods and Algorithms, Published by John Wiley & Sons Ltd, The Southern Gate, Chichester West Sussex PO19 8SQ, England - 2003 10 Le Hong Phuong (2010), An empirical study of maximum entropy approach for part-of-speech tagging of Vietnamese texts Actes du Traitement Automatique des Langues Naturelles (TALN-2010), Montreal, Canada 11 Nguyen Tri Thanh, Nguyen Le Minh and Akira Shimazu (2008) Using Semi-supervised Learning for Question Classification, Journal of Natural Language Processing (15) 12 Nguyen Tri Thanh, Nguyen Le Minh and Akira Shimazu (2007), Improving the Accuracy of Question Classification with Machine Learning, Institute of Electrical and Electronics Engineers(IEEE) 19 13 Xin Li, Dan Roth (2002), Learning question classifiers, In Proceedings of the 19th International Conference on Compuatational Linguistics (COLING), pp.556–562 14 Xin Li, Dan Roth (2004) Learning question classifiers: the role of semantic information, Cambridge University Press ... NGHỆ NGUYỄN ĐÌNH TƯỜNG NGHIÊN CỨU MƠ HÌNH PHÂN LỚP CÂU HỎI VÀ ỨNG DỤNG Ngành: Công Nghệ Thông Tin Chuyên ngành: Hệ thống Thông Tin Mã số chuyên ngành: 60480104 TĨM TẮT LUẬN VĂN THẠC SĨ CƠNG NGHỆ... câu hỏi Mục tiêu luận văn nêu phần cuối chương Chương Các phương pháp tiếp cận tốn phân lớp câu hỏi nghiên cứu mơ hình phân lớp câu hỏi sử dụng phổ biến mơ hình phân lớp phẳng, mơ hình phân lớp. .. số lượng lớp nhãn tập để cử cho câu hỏi theo bước Đầu phân lớp tập nhãn lớp sử dụng làm phân lớp lần phân lớp Khi phân lớp cấp câu hỏi phân vào lớp tổng thể, lớp bao quát nhiều so với lớp 2.2

Ngày đăng: 18/01/2020, 02:41

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan