Đồ án thực hiện khảo sát, nghiên cứu các phương pháp xây dựng hệ thống hỏi đáp và phân loại câu hỏi đang được quan tâm hiện nay, từ đó đưa ra phương pháp phân loại câu hỏi phù hợp nhất cho hệ thống hỏi đáp tiếng Việt; những nghiên cứu trong đồ án có thể coi là tiền đề cho các nghiên cứu tiếp theo để xây dựng một hệ thống hỏi đáp hoàn thiện cho tiếng Việt. Mời các bạn cùng tham khảo.
HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG KHOA CƠNG NGHỆ THÔNG TIN ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC Đề tài: “Các đặc trƣng ngơn ngữ cho tốn phân loại câu hỏi tiếng Việt” Giảng viên hƣớng dẫn : TS NGÔ XUÂN BÁCH Sinh viên thực : NGUYỄN ĐÌNH NGHỊ Lớp : D11CNPM3 Khóa: : 2011 – 2016 Hệ đào tạo : ĐẠI HỌC CHÍNH QUY Hà Nội 12/2015 ĐỒ ÁN TỐT NGHIỆP TÓM TẮT Trong thời đại bùng nổ Công nghệ thông tin nay, phương thức sử dụng giấy tờ giao dịch dần số hóa chuyển sang dạng văn lưu trữ máy tính truyền tải mạng Bởi nhiều tính ưu việt tài liệu số như: cách lưu trữ gọn nhẹ, thời gian lưu trữ lâu dài, tiện dụng trao đổi, đặc biệt qua Internet, nên ngày nay, số lượng văn số tăng lên cách chóng mặt, đặc biệt World Wide Web Cùng với gia tăng số lượng văn bản, nhu cầu tìm kiếm văn tăng theo Với số lượng văn đồ sộ u cầu cần có hệ thống khai thác thông tin hiệu Các cơng cụ tìm kiếm thời trả cho người dùng tập tài liệu liên quan có chứa từ khóa câu truy vấn người dùng Tuy nhiên, người dùng mong muốn câu trả lời xác cụ thể hơn, dẫn đến yêu cầu cần phải có hệ thống hỏi đáp tự động Trong năm gần đây, hệ thống hỏi đáp tự động nhận quan tâm đặc biệt nhà nghiên cứu, công ty (Yahoo, Google, Mcrosoft, IBM, v.v.), hội nghị lớn trích chọn thơng tin, xử lý ngôn ngữ tự nhiên (TREC, CLEF, ACL, v.v.) đạt kết định Tuy nhiên nghiên cứu hệ thống hỏi đáp cho tiếng Việt hạn chế Điều phần thiếu công cụ đủ tốt để xử lý tiếng Việt nhận dạng thực thể tên, phân tích cú pháp, v.v Đồ án “Các đặc trưng ngơn ngữ cho tốn phân loại câu hỏi tiếng Việt” tập trung nghiên cứu vấn đề phân loại câu hỏi cho tiếng Việt, pha hệ thống hỏi đáp tiếng Việt, có ý nghĩa đặc biệt quan trọng với hoạt động hệ thống Khi câu hỏi phân loại giúp thu hẹp khơng gian tìm kiếm câu trả lời cho câu hỏi từ giúp hệ thống hỏi đáp đưa câu trả lời ngắn gọn xác Trên sở nghiên cứu có điều kiện thực tế công cụ xử lý ngôn ngữ tiếng Việt, tiến hành thực nghiệm việc phân loại câu hỏi tiếng Việt hai liệu: liệu gồm 3000 câu hỏi tiếng Việt, liệu hai gồm 3000 câu hỏi tiếng Việt kèm với câu hỏi câu truy vấn từ Google Chúng sử dụng số phương pháp học máy thống kê Máy véc tơ hỗ trợ (SVM), Naïve Bayes (NB), K-láng giềng gần tiến hành thực nghiệm đặc trưng ngôn ngữ tiếng Việt đặc trưng từ vựng, đặc trưng âm tiết, n-grams, đặc trưng nhãn từ loại đặc trưng cú pháp câu Các kết ban đầu đạt khả quan Bộ phân lớp câu hỏi đạt kết tốt 85.53% sử dụng thuật toán SVM cho đặc trưng âm tiết 1+2 grams kết hợp với đặc trưng nhãn từ loại đặc trưng cú pháp Từ khóa: Hệ thống hỏi đáp, phân loại câu hỏi, Máy véc tơ hỗ trợ, K-láng giềng gần nhất, Naïve Bayes, cú pháp, n-grams GVHD: TS Ngơ Xn Bách i SVTH: Nguyễn Đình Nghị – D11CNPM3 ĐỒ ÁN TỐT NGHIỆP LỜI CẢM ƠN Em xin chân thành cảm ơn TS Ngô Xuân Bách, mơn Khoa học máy tính, Khoa Cơng nghệ thơng tin tận tình dạy hướng dẫn cho em việc lựa chọn đề tài, thực đề tài viết báo cáo đồ án, giúp cho em hồn thành tốt đồ án Em xin cảm ơn thầy cô giáo Học viện Công nghệ Bưu Viễn thơng, đặc biệt thầy khoa Cơng nghệ thơng tin tận tình dạy dỗ bảo em suốt năm học Cuối em xin cảm ơn gia đình, bạn bè, đồng nghiệp, người bên cạnh động viên em lúc khó khăn, giúp đỡ em suốt thời gian học tập làm đồ án, tạo điều kiện tốt cho em để hồn thành tốt đồ án Em xin chân thành cảm ơn! Hà Nội, 12/2015 Sinh viên Nguyễn Đình Nghị GVHD: TS Ngơ Xn Bách ii SVTH: Nguyễn Đình Nghị – D11CNPM3 ĐỒ ÁN TỐT NGHIỆP NHẬN XÉT (Của giảng viên phản biện) ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… Hà Nội, 12/2015 Giảng viên phản biện GVHD: TS Ngơ Xn Bách iii SVTH: Nguyễn Đình Nghị – D11CNPM3 ĐỒ ÁN TỐT NGHIỆP NHẬN XÉT (Của giảng viên hƣớng dẫn) ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… Hà Nội, 12/2015 Giảng viên hướng dẫn GVHD: TS Ngô Xuân Bách iv SVTH: Nguyễn Đình Nghị – D11CNPM3 ĐỒ ÁN TỐT NGHIỆP MỤC LỤC TÓM TẮT i LỜI CẢM ƠN ii DANH MỤC HÌNH VẼ vii DANH MỤC BẢNG BIỂU viii BẢNG THUẬT NGỮ TIẾNG ANH ix LỜI NÓI ĐẦU CHƢƠNG 1: GIỚI THIỆU HỆ THỐNG HỎI ĐÁP VÀ BÀI TOÁN PHÂN LOẠI CÂU HỎI 1.1 Giới thiệu hệ thống hỏi đáp tự động 1.2 Bài toán phân loại câu hỏi 1.3 Các nghiên cứu liên quan 1.4 Đóng góp đồ án CHƢƠNG 2: HỆ THỐNG PHÂN LOẠI CÂU HỎI TIẾNG VIỆT 2.1 Vấn đề phân loại câu hỏi cho tiếng Việt 2.2 Trích chọn đặc trưng 10 2.2.1 Từ vựng 10 2.2.2 Âm tiết 11 2.2.3 N-grams 11 2.2.4 Nhãn từ loại 12 2.2.5 Cây cú pháp 14 2.3 Các thuật toán học máy 17 2.3.1 Máy véc tơ hỗ trợ (Support Vector Machine) 17 2.3.2 Naïve Bayes 20 2.3.3 K láng giềng gần (K-nearest neighbors) 22 CHƢƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 26 3.1 Dữ liệu thực nghiệm 26 3.1.1 Chuẩn bị liệu 26 3.1.2 Tiền xử lý liệu 27 3.2 Thiết lập thực nghiệm 32 3.2.1 Thực nghiệm với 3000 câu hỏi 32 GVHD: TS Ngô Xuân Bách v SVTH: Nguyễn Đình Nghị – D11CNPM3 ĐỒ ÁN TỐT NGHIỆP 3.2.2 Thực nghiệm bổ sung câu truy vấn 42 KẾT LUẬN 45 PHỤ LỤC 46 TÀI LIỆU THAM KHẢO 49 GVHD: TS Ngô Xuân Bách vi SVTH: Nguyễn Đình Nghị – D11CNPM3 ĐỒ ÁN TỐT NGHIỆP DANH MỤC HÌNH VẼ Hình 1-1: Kiến trúc hệ thống hỏi đáp [12] Hình 1-2: Mơ hình giai đoạn huấn luyện [14] Hình 1-3: Mơ hình giai đoạn phân lớp [14] Hình 2-1: Kiến trúc hệ thống phân loại câu hỏi tiếng Việt Hình 2-2: Phân tích phụ thuộc câu tiếng Việt [2] 16 Hình 2-3: Siêu phẳng phân chia liệu học thành lớp + – với khoảng cách biên lớn [17] 17 Hình 2-4: Minh họa tốn phân lớp phương pháp SVM [17] 18 Hình 3-1: File questions.txt 26 Hình 3-2: File labels.txt 27 Hình 3-3: File questions.tok 28 Hình 3-4: File questions.tagger 29 Hình 3-5: File questions.pos 30 Hình 3-6: File questions.DEP.CONLL 31 Hình 3-7: File questions.root 31 Hình 3-8: File questions.child 32 Hình 3-9: File từ điển 32 Hình 3-10: Định dạng liệu cho libsvm 33 Hình 3-11: Giao diện hình Weka 35 Hình 3-12: Định dạng liệu file arrff 36 Hình 3-13: So sánh độ xác đặc trưng âm tiết đặc trưng từ vựng 39 Hình 3-14: Độ xác cho nhãn (âm tiết 1+2 grams) 39 Hình 3-15: So sánh độ xác đặc trưng 41 Hình 3-16: Phương pháp thực nghiệm bổ sung câu truy vấn 42 Hình 3-17: File question_and_query.txt 43 Hình B-1: Giao diện nhập câu hỏi tay 47 Hình B-2: Giao diện nhập câu hỏi file 47 Hình B-3: Giao diện chạy chương trình 48 GVHD: TS Ngô Xuân Bách vii SVTH: Nguyễn Đình Nghị – D11CNPM3 ĐỒ ÁN TỐT NGHIỆP DANH MỤC BẢNG BIỂU Bảng 2-1: Tập nhãn từ loại [20] 13 Bảng 2-2: Nhãn thành phần cú pháp [13] 14 Bảng 2-3: Nhãn chức cú pháp [13] 15 Bảng 3-1: Số lượng câu hỏi nhãn 26 Bảng 3-2: Các tệp sau chuyển đổi 33 Bảng 3-3: Kết thực nghiệm SVM sử dụng n-grams, âm tiết từ vựng 37 Bảng 3-4: Kết phân lớp cho nhãn (âm tiết 1+2grams) 37 Bảng 3-5: Kết thực nghiệm bổ sung thêm đặc trưng 40 Bảng 3-6: Kết phân lớp cho nhãn (âm tiết 1+2grams + nhãn từ loại + root) 40 Bảng 3-7: Kết thực nghiệm thuật toán khác 41 Bảng 3-8: Kết thực nghiệm bổ sung câu truy vấn 43 Bảng A-1: Các công cụ sử dụng 46 GVHD: TS Ngơ Xn Bách viii SVTH: Nguyễn Đình Nghị – D11CNPM3 ĐỒ ÁN TỐT NGHIỆP BẢNG THUẬT NGỮ TIẾNG ANH Viết tắt Giải nghĩa Từ tiếng Anh ACL Association for Computational Linguistics CLEF The Cross-Language Evaluation Diễn đàn đánh giá ngôn ngữ Forum chéo KNN K-Nearest Neighbors Thuật toán K láng giềng gần MEM Maximum Entropy Model Mơ hình Entropy cực đại NB Naïve Bayes Phương pháp Bayes đơn giản POS Part Of Speech Nhãn từ loại QA Question Answering Hệ thống hỏi đáp SVM Support Vector Machine Máy véc tơ hỗ trợ TREC Text Retrieval Conference Hội nghị truy xuất văn GVHD: TS Ngô Xuân Bách ix Hiệp hội ngơn ngữ học tính tốn SVTH: Nguyễn Đình Nghị – D11CNPM3 ĐỒ ÁN TỐT NGHIỆP Chương 3: Thực nghiệm đánh giá Hình 3-12: Định dạng liệu file arrff Sau chuyển đổi định dạng liệu, tiến hành làm thực nghiệm sử dụng Weka với thuật tốn Nạve Bayes K-láng giềng gần c Cách thức đánh giá Sau thực nghiệm xong, việc cần phải đánh giá xem kết thực nghiệm có tốt khơng Để đánh giá kết phân loại câu hỏi, ta sử dụng số số đánh giá: Recall: độ xác dự đoán cho nhãn Recall = Precision: độ xác lần dự đốn Precision = Từ thực nghiệm có giá trị: Human, Model, Match Trong đó: - Human: Số câu hỏi thực tế - Model: Số câu hỏi mà máy dự đoán - Match: Số câu hỏi máy dự đoán Chúng ta có cơng thức: GVHD: TS Ngơ Xn Bách 36 SVTH: Nguyễn Đình Nghị – D11CNPM3 ĐỒ ÁN TỐT NGHIỆP Chương 3: Thực nghiệm đánh giá Rec = = Prec = = F1 Tiêu chí đánh giá F1 kết hợp tiêu chí đánh giá Precision Recall F1 = F1 giá trị trung bình điều hòa tiêu chí Precision Recall - F1 có xu hướng lấy giá trị gần với giá trị nhỏ giá trị Precision Recall - F1 có giá trị lớn giá trị Precision Recall lớn d Kết Kết chạy SVM cho đặc trưng từ vựng, âm tiết n-grams: Bảng 3-3: Kết thực nghiệm SVM sử dụng n-grams, âm tiết từ vựng Đặc trƣng Từ vựng Âm tiết n-grams Lần (%) Lần (%) Lần (%) Lần (%) Lần (%) TB (%) 1gram 84.50 85.00 82.83 84.00 83.83 84.03 1+2grams 82.83 85.50 81.83 83.00 83.17 83.27 1+2+3grams 83.17 83.83 82.00 81.67 82.67 82.67 1gram 83.00 83.83 83.33 81.83 81.50 82.70 1+2grams 84.83 87.67 84.67 84.00 85.33 85.30 1+2+3grams 84.17 87.00 83.83 82.50 84.83 84.47 Bảng 3-4: Kết phân lớp cho nhãn (âm tiết 1+2grams) STT Nhãn Human Model Match Precision (%) Recall (%) F1(%) Location 420 434 370 85.25 88.10 86.65 Count 265 281 251 89.32 94.72 91.94 Manner 266 285 259 90.88 97.37 94.01 Description 266 297 219 73.74 82.33 77.80 Reason 190 183 176 96.17 92.63 94.37 Food 103 90 74 82.22 71.84 76.68 Sport 62 58 48 82.76 77.42 80.00 Definition 266 289 241 83.39 90.60 86.85 GVHD: TS Ngô Xuân Bách 37 SVTH: Nguyễn Đình Nghị – D11CNPM3 ĐỒ ÁN TỐT NGHIỆP Chương 3: Thực nghiệm đánh giá Animal 112 99 95 95.96 84.82 90.05 10 Human 268 278 218 78.42 81.34 79.85 11 Money 71 64 58 90.63 81.69 85.93 12 Event 56 51 29 56.86 51.79 54.21 13 Date 218 211 195 92.42 89.45 90.91 14 Period 75 67 64 95.52 85.33 90.14 15 Vehicle 27 21 13 61.90 48.15 54.17 16 Product 42 42 29 69.05 69.05 69.05 17 Termeq 93 83 71 85.54 76.34 80.68 18 Substance 41 31 30 96.77 73.17 83.33 19 ABBR 72 62 52 83.87 72.22 77.61 20 Color 40 36 34 94.44 85.00 89.47 21 Distance 34 28 25 89.29 73.53 80.65 22 Plant 13 10 80.00 61.54 69.57 *** Total 3000 3000 2559 84.29 78.56 81.09 Recall tiêu chí đánh giá dựa số lần nhãn đoán Tuy nhiên, nhãn dự đốn số lần đó, số lượng lớn nhỏ số lượng thực tế Nếu nhãn dự đoán nhiều lần số lượng thực tế số lần dự đốn tăng lên Vì số câu hỏi dự đoán tăng lên mà số lần dự đốn tăng lên hiệu suất thuật tốn khơng thực tốt Cho nên chúng tơi sử dụng thêm tiêu chí Precision Tiêu chí ngồi việc quan tâm tới số lần dự đốn đúng, quan tâm tới số lần mà nhãn dự đốn Tuy nhiên hai tiêu chí chưa thể hiệu suất dự đoán Để giải vấn đề đó, chúng tơi sử dụng tiêu chí F1 kết hợp hài hòa hai tiêu chí Recall Precision: F1 = GVHD: TS Ngơ Xn Bách 38 SVTH: Nguyễn Đình Nghị – D11CNPM3 ĐỒ ÁN TỐT NGHIỆP Chương 3: Thực nghiệm đánh giá 85.3 85.5 85 84.47 84.5 84.03 84 83.5 83.27 83 Từ vựng 82.7 Âm tiết 82.67 82.5 82 81.5 81 gram 1+2 grams 1+2+3 grams Hình 3-13: So sánh độ xác đặc trưng âm tiết đặc trưng từ vựng Kết thực nghiệm cho thấy việc sử dụng đặc trưng âm tiết đạt hiệu cao đặc trưng từ vựng Nguyên nhân câu số lượng âm tiết nhiều số lượng từ vựng, số đặc trưng âm tiết nhiều giúp việc dự đoán tốt Kết cao đạt 85.30% sử dụng đặc trưng âm tiết 1+2 grams Vì vậy, liệu đặc trưng âm tiết 1+2grams sử dụng để bổ sung thêm đặc trưng khác F1 Total Plant Distance Color ABBR Substance Termeq Product Vehicle Period Date Event Money Human Animal Definition Sport Food Reason Description Manner Count Location 100 90 80 70 60 50 40 30 20 10 Hình 3-14: Độ xác cho nhãn (âm tiết 1+2 grams) Dựa vào bảng 3-4 hình 3-14 ta thấy có 11 nhãn đạt độ xác tốt, cao độ xác trung bình nhãn Location, Count, Manner, Reason, Definition, Animal, Money, Date, Period, Substance Color Các nhãn có giá trị GVHD: TS Ngơ Xuân Bách 39 SVTH: Nguyễn Đình Nghị – D11CNPM3 ĐỒ ÁN TỐT NGHIỆP Chương 3: Thực nghiệm đánh giá F1, precision recall cao giá trị trung bình tất nhãn chênh lệch precision recall không lớn Trong nhãn có giá trị F1 nhỏ giá trị trung bình giá trị precision recall thường có chênh lệch lớn Kết thực nghiệm SVM bổ sung đặc trưng: Bảng 3-5: Kết thực nghiệm bổ sung thêm đặc trưng Các đặc trƣng Độ xác Âm tiết 1+2 grams 85.30% Âm tiết 1+2 grams + nhãn từ loại 85.37% (+0.07%) Âm tiết 1+2 grams + nhãn từ loại + root 85.53% (+0.23%) Âm tiết 1+2 grams + nhãn từ loại + root + child 85.40% (+0.10%) Bảng 3-6: Kết phân lớp cho nhãn (âm tiết 1+2grams + nhãn từ loại + root) STT Nhãn Human Model Match Precision (%) Recall (%) F1(%) Location 420 423 365 86.29 86.90 86.59 Count 265 279 253 90.68 95.47 93.01 Manner 266 281 258 91.81 96.99 94.33 Description 266 303 220 72.61 82.71 77.33 Reason 190 184 175 95.11 92.11 93.59 Food 103 91 71 78.02 68.93 73.19 Sport 62 58 48 82.76 77.42 80.00 Definition 266 288 245 85.07 92.11 88.45 Animal 112 101 94 93.07 83.93 88.26 10 Human 268 279 222 79.57 82.84 81.17 11 Money 71 66 61 92.42 85.92 89.05 12 Event 56 50 30 60.00 53.57 56.60 13 Date 218 210 194 92.38 88.99 90.65 14 Period 75 67 65 97.01 86.67 91.55 15 Vehicle 27 19 12 63.16 44.44 52.17 16 Product 42 46 30 65.22 71.43 68.18 17 Termeq 93 83 71 85.54 76.34 80.68 GVHD: TS Ngơ Xn Bách 40 SVTH: Nguyễn Đình Nghị – D11CNPM3 ĐỒ ÁN TỐT NGHIỆP Chương 3: Thực nghiệm đánh giá 18 Substance 41 31 29 93.55 70.73 80.56 19 ABBR 72 65 55 84.62 76.39 80.29 20 Color 40 37 35 94.59 87.50 90.91 21 Distance 34 29 25 86.21 73.53 79.37 22 Plant 13 10 80.00 61.54 69.57 *** Total 3000 3000 2566 84.08 78.93 81.16 Độ xác đặc trƣng 85.55 85.5 85.45 85.4 85.35 85.3 85.25 85.2 85.15 âm tiết 1+2grams âm tiết 1+2grams + nhãn từ loại âm tiết 1+2grams + nhãn từ loại + root âm tiết 1+2grams + nhãn từ loại + root + child Hình 3-15: So sánh độ xác đặc trưng Kết tốt tất thực nghiệm 85.53% sử dụng thuật toán SVM kết hợp đặc trưng âm tiết 1+2grams, nhãn từ loại đặc trưng root cú pháp Độ xác thực nghiệm không lớn, chênh lệch lớn 85.53% – 85.3% = 0.23% Do đó, độ chênh lệch số F1 không lớn: 81.16% – 81.09% = 0.07% Kết thực nghiệm với thuật toán khác Bảng 3-7: Kết thực nghiệm thuật toán khác Thuật toán Độ xác SVM 85.53% Nạve Bayes 77.56% K láng giềng gần (k=1) 70.83% K láng giềng gần (k=5) 66.60% GVHD: TS Ngơ Xn Bách 41 SVTH: Nguyễn Đình Nghị – D11CNPM3 ĐỒ ÁN TỐT NGHIỆP Chương 3: Thực nghiệm đánh giá Kết thực nghiệm cho thấy thuật toán SVM lựa chọn tốt cho tốn phân loại câu hỏi Độ xác có chênh lệch lớn thuật toán SVM thuật toán khác Chênh lệch lớn thuật toán SVM thuật toán K-láng giềng gần ( ), độ chênh lệch 85.53% - 66.60% = 18.93% 3.2.2 Thực nghiệm bổ sung câu truy vấn a Phƣơng pháp thực nghiệm Question Máy tìm kiếm Kết truy vấn Huấn luyện Hình 3-16: Phương pháp thực nghiệm bổ sung câu truy vấn Trong thực nghiệm bổ sung câu truy vấn, câu hỏi liệu ban đầu đưa vào hệ thống máy tìm kiếm lấy kết truy vấn Sau câu truy vấn bổ sung vào tập câu hỏi ban đầu với mục đích tăng kích thước liệu huấn luyện Khi kích thước liệu huấn luyện tăng lên, hi vọng có thêm nhiều thơng tin cho q trình huấn luyện, từ xây dựng mơ hình huấn luyện tốt hơn, góp phần cải thiện kết phân loại Sau bổ sung kết truy vấn, chúng tơi tiến hành trích xuất đặc trưng áp dụng thuật toán học máy thống kê để tiến hành làm thực nghiệm b Dữ liệu thực nghiệm Với liệu 3000 câu hỏi ban đầu, chúng tơi đưa câu hỏi vào máy tìm kiếm Google, tiến hành thu thập kết máy tìm kiếm trả về, lưu kết vào tệp “question_and_query.txt”, dòng tệp có dạng: tab tab … GVHD: TS Ngô Xuân Bách 42 SVTH: Nguyễn Đình Nghị – D11CNPM3 ĐỒ ÁN TỐT NGHIỆP Chương 3: Thực nghiệm đánh giá Hình 3-17: File question_and_query.txt c Thiết lập thực nghiệm Trong thực nghiệm bổ cung câu truy vấn, tiến hành thực nghiệm sử dụng thuật tốn SVM với liệu có kết tốt thực nghiệm 3000 câu hỏi đặc trưng từ vựng, âm tiết n-grasm Do thực nghiệm với âm tiết 1+2grams đạt kết tốt nên câu truy vấn bổ sung vào liệu âm tiết 1+2grams - Các âm tiết câu truy vấn bổ sung vào từ điển 1+2grams, âm tiết viết thêm kí tự “q_” vào phía trước để phân biệt với âm tiết câu hỏi - Chuyển đổi định dạng câu truy vấn định dạng libsvm - Bổ sung câu truy vấn chuyển đổi định dạng vào tệp train test liệu âm tiết 1+2grams cho thứ tự câu - Chạy thực nghiệm với công cụ libsvm cho liệu d Kết thực nghiệm Bảng 3-8: Kết thực nghiệm bổ sung câu truy vấn Lần Lần Lần Lần (%) (%) (%) (%) Lần (%) TB (%) Âm tiết 1+2grams 84.83 87.67 84.67 84.00 85.33 85.30 Âm tiết 1+2grams + câu truy vấn 80.67 82.50 81.83 79.50 81.33 81.17 (-4.13) Đặc trƣng Như thực nghiệm với việc bổ sung câu truy vấn không cho kết tốt với việc sử dụng câu hỏi Điều cho thấy việc sử dụng thêm câu truy vấn từ máy tìm kiếm google khơng phù hợp với tốn phân loại câu hỏi Các câu truy vấn tạo nhiễu, làm cho mơ hình huấn luyện khơng đạt kết tốt Ví dụ câu hỏi: Con vật đặt chân vào không gian? GVHD: TS Ngơ Xn Bách 43 SVTH: Nguyễn Đình Nghị – D11CNPM3 ĐỒ ÁN TỐT NGHIỆP Chương 3: Thực nghiệm đánh giá kết tìm kiếm từ google: Chạy đua vào không gian – Wikipedia tiếng Việt Người đặt chân lên mặt trăng - Các viết - KhoaHoc.TV Động vật bay vào không gian - Các viết Ký ức người ngồi khơng gian - VnExpress Chân Không Vật Chất - Nơi Vật Chất Tạo Nên Khơng Gian (Michel Câu hỏi có nhãn Động vật, kết tìm kiếm trả từ máy tìm kiếm google lại cho kết không liên quan tới động vật, mà có kết liên quan tới động vật câu: Động vật bay vào không gian Điều tạo nhiễu cho mô hình huấn luyện, làm cho việc huấn luyện khơng xác, kết phân loại khơng tốt Yêu cầu đặt cần phải có thêm nghiên cứu với phương pháp khác để cải thiện tốt độ xác việc phân loại câu hỏi GVHD: TS Ngô Xuân Bách 44 SVTH: Nguyễn Đình Nghị – D11CNPM3 ĐỒ ÁN TỐT NGHIỆP KẾT LUẬN Phân loại câu hỏi tiếng Việt vấn đề mới, có ý nghĩa vô quan trọng Từ việc giải toán phân loại câu hỏi tiếng Việt, giúp cho tiến gần việc xây dựng hệ thống hỏi đáp dành riêng cho tiếng Việt, góp phần đem lại thuận tiện cho người dùng việc thu thập tìm kiếm thơng tin tiếng Việt Ngồi ra, dựa vào nghiên cứu để phát triển trí tuệ nhân tạo cho robot, giúp chúng hiểu trả lời câu hỏi tiếng Việt, từ giải cơng việc người, làm việc dựa mệnh lệnh mà người đưa Nhìn chung, đồ án đạt số thành tựu như: - Trình bày cách khái quát hệ thống hỏi đáp tự động nêu lên ý nghĩa, vai trò tốn phân loại câu hỏi tiếng Việt - Khảo sát, nghiên cứu loại đặc trưng tiếng Việt khác cho toán phân loại câu hỏi tiếng Việt - Nghiên cứu làm thực nghiệm với thuật toán học máy khác - So sánh phân tích kết thực nghiệm chúng tơi tìm trường hợp cho kết tốt - Từ kết thực nghiệm, xây dựng thành công ứng dụng demo giúp phân loại câu hỏi dựa đặc trưng khác Đồ án số hạn chế như: - Nghiên cứu đơn giản - Kết thực nghiệm đạt chưa thực tốt so với nghiên cứu trước Đặc biệt với việc bổ sung câu truy vấn làm cho kết thực nghiệm không tăng lên mà giảm - Phần mềm demo hạn chế, tốc độ xử lý chậm, đặc biệt dự đoán với đặc trưng nhãn từ loại cú pháp Về hướng phát triển tương lai, tiến hành phát triển tập liệu tiếng Việt lớn nghiên cứu sử dụng thêm nhiều đặc trưng tiếng Việt khác, góp phần cải thiện tốt khả phân loại Ngoài nghiên cứu thử nghiệm với số thuật tốn khác để tìm thuật toán phù hợp với toán phân loại câu hỏi tiếng Việt GVHD: TS Ngô Xuân Bách 45 SVTH: Nguyễn Đình Nghị – D11CNPM3 ĐỒ ÁN TỐT NGHIỆP PHỤ LỤC A Công cụ sử dụng Bảng A-1: Các công cụ sử dụng Công cụ Trang chủ Java SE JDK 7u21 http://www.java.sun.com Netbean 8.0.1 https://netbeans.org/ Notepad++ http://notepad-plus-plus.org/ vnTokenizer http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTokenizer vnTagger http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTagger VnDP: A Vietnamese dependency parsing toolkit http://vndp.sourceforge.net/ libSVM https://www.csie.ntu.edu.tw/~cjlin/libsvm/ Weka http://www.cs.waikato.ac.nz/ml/weka/ B Chƣơng trình demo Phần trình bày hệ thống phân loại câu hỏi Hệ thống nhận đầu vào câu hỏi người dùng dạng ngôn ngữ tự nhiên trả nhãn phân loại cho câu hỏi người dùng Người dùng nhập câu hỏi theo cách: - Cách 1: Nhập tay, người dùng tự gõ câu hỏi vào ô question - Cách 2: Nhập file, người dùng tự gõ đường dẫn file duyệt đến file chứa câu hỏi click nút import để nhập tất câu hỏi file vào ô question GVHD: TS Ngơ Xn Bách 46 SVTH: Nguyễn Đình Nghị – D11CNPM3 ĐỒ ÁN TỐT NGHIỆP Hình B-1: Giao diện nhập câu hỏi tay Hình B-2: Giao diện nhập câu hỏi file Sau nhập câu hỏi, người dùng lựa chọn ba tùy chọn trích xuất đặc trưng: - Syllables: sử dụng âm tiết câu hỏi Syllables and pos: sử dụng âm tiết câu hỏi nhãn từ loại Syllables and pos and dependency: sử dụng âm tiết câu hỏi, nhãn từ loại đặc trưng cú pháp câu Bước người dùng click vào nút predict chờ đợi, hệ thống xử lý câu hỏi, trích xuất đặc trưng đưa nhãn dự đoán cho câu hỏi Label GVHD: TS Ngơ Xn Bách 47 SVTH: Nguyễn Đình Nghị – D11CNPM3 ĐỒ ÁN TỐT NGHIỆP Sau chương trình thực xong, người dùng click vào nút Clear để xóa liệu hai ô Question ô Label tiếp tục chương trình với câu hỏi Hình B-3: Giao diện chạy chương trình GVHD: TS Ngơ Xn Bách 48 SVTH: Nguyễn Đình Nghị – D11CNPM3 ĐỒ ÁN TỐT NGHIỆP TÀI LIỆU THAM KHẢO Tài liệu tiếng Anh [1] I Fahmi (2009) Automatic term and relation extraction for medical question answering system PhD Thesis, the University of Groningen, The Netherlands [2] Phuong Le-Hong, Xuan-Hieu Pham and Tien-Dung Nguyen, Using dependency analysis to improve question classification, Knowledge and Systems Enginneering, Springer International Publishing, 2015, pages 653-655 [3] Zhiheng Huang, Marcus Thint and Zengchang Qin, Question Classification using Head Words and their Hypernyms, Proceedings of the 2008 Conference on Empirical Methods in Natural Languae Processing, pages 927-936, Honolulu, October 2008 [4] Boris Katz Annotating the World Wide Web Using Natural Language Proceedings of the 5th RIAO Conference on Computer Assisted Information Searching on the Internet (RIAO '97), 1997, pages 136-139 [5] Deepak Ravichandran, Abraham Ittycheriah, and Salim Roukos 2003 Automatic derivation of surface text patterns for a maximum entropy based question answering system In Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology: companion volume of the Proceedings of HLT-NAACL 2003 short papers - Volume (NAACL-Short '03), Vol Association for Computational Linguistics, Stroudsburg, PA, USA, 85-87 [6] Hakan Sundblad, Question Classification in Question Answering Systems, Linkuping Studies in Science and Technology, June 2007, ISBN 978-91-8583155-5 [7] Dang Hai Tran, Cuong Xuan Chu, Son Bao Pham and Minh Le Nguyen, Learning Based Approaches for Vietnamese Question Classification Using Keywords Extraction from the Web, International Joint Conference on Natural Language Processing, pages 740-746, Nagoya, Japan, 14-18 October 2013 [8] Vu Mai Tran, Vinh Duc Nguyen, Oanh Thi Tran, Uyen Thu Thi Pham and Thuy-Quang Ha An Experimental Study of Vietnamese Question Answering System International Conference on Asian Language Processing, {IALP} 2009, Singapore, December 7-9, 2009, pages 152-155 [9] Dell Zhang and Wee Sun Lee 2003 Question classification using support vector machines In Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval (SIGIR '03) ACM, New York, NY, USA, pages 26-32 GVHD: TS Ngô Xuân Bách 49 SVTH: Nguyễn Đình Nghị – D11CNPM3 ĐỒ ÁN TỐT NGHIỆP Tài liệu tiếng Việt [10] Trần Cao Đệ, Phạm Nguyên Khang, Phân loại văn với máy học vector hỗ trợ định, Tạp chí Khoa học 2012:21a 52-63, Trường Đại học Cần Thơ [11] Đỗ Bá Lâm, Lê Thanh Hương, Xây dựng hệ thống phân tích cú pháp tiếng Việt sử dụng văn phạm HPSG, Đại học Bách Khoa Hà Nội, 2008 ICT08VLSP-SP85-2 [12] Hà Thị Minh Lộc, Xây dựng mơ hình hệ thống hỏi đáp tự động hỗ trợ đào tạo trực tuyến, Luận văn thạc sĩ, Học viện Cơng nghệ Bưu Viễn thông, 2013 [13] Nguyễn Phương Thái, Vũ Xuân Lương, Nguyễn Thị Minh Huyền, Xây dựng treebank tiếng Việt, Viện Khoa học Công nghệ Tiên tiến Nhật Bản, 07/2008 [14] Nguyễn Minh Thành, Phân loại văn bản, Đồ án môn học Xử lý ngôn ngữ tự nhiên, Đại học quốc gia Thành phố Hồ Chí Minh, 01/2011 [15] Nguyễn Đức Vinh, Phân tích câu hỏi hệ thống hỏi đáp tiếng Việt, Khóa luận tốt nghiệp đại học, Đại học quốc gia Hà Nội, 2009 Danh mục Website tham khảo: [16] Google : https://www.google.com [17] Wikipedia: http://www.wikipedia.org [18] Natural Language Processing: http://viet.jnlp.org/ [19] Lê Hồng Phương, vnTokenizer - Vietnamese words segmentation , http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTokenizer, 2010 [20] Lê Hồng Phương, vnTagger - Vietnamese words segmentation , http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTagger, 2010 [21] http://www.csie.ntu.edu.tw/~cjlin/libsvm/ [22] http://www.cs.waikato.ac.nz/~ml/weka/ [23] http://vndp.sourceforge.net/ [24] http://trec.nist.gov/ [25] http://clef.isti.cnr.it/ [26] https://answers.yahoo.com/ [27] https://www.question.com/topic/google/ GVHD: TS Ngơ Xn Bách 50 SVTH: Nguyễn Đình Nghị – D11CNPM3 ... tên, phân tích cú pháp, v.v Đồ án Các đặc trưng ngơn ngữ cho tốn phân loại câu hỏi tiếng Việt tập trung nghiên cứu vấn đề phân loại câu hỏi cho tiếng Việt, pha hệ thống hỏi đáp tiếng Việt, ... D11CNPM3 ĐỒ ÁN TỐT NGHIỆP Chương 2: Hệ thống phân loại câu hỏi tiếng Việt CHƢƠNG 2: HỆ THỐNG PHÂN LOẠI CÂU HỎI TIẾNG VIỆT Trong chương 2, đồ án trình bày số phương pháp lấy đặc trưng cho phân loại câu. .. với câu hỏi gán nhãn tập huấn luyện Phân loại câu hỏi nhận đầu vào câu hỏi người dùng dạng ngôn ngữ tự nhiên, đầu nhãn phân loại câu hỏi Khi câu hỏi phân loại việc tìm câu trả lời cho câu hỏi