Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 71 trang
THÔNG TIN TÀI LIỆU
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI Figure TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Đức Vinh PHÂNTÍCHCÂUHỎITRONGHỆTHỐNGHỎIĐÁPTIẾNGVIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Đức Vinh PHÂNTÍCHCÂUHỎITRONGHỆTHỐNGHỎIĐÁPTIẾNGVIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán hướng dẫn: ThS Trần Thị Oanh Cán đồng hướng dẫn: ThS Nguyễn Cẩm Tú HÀ NỘI - 2009 Lời cảm ơn Trước tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc tới Phó Giáo sư Tiến sĩ Hà Quang Thụy, Thạc sĩ Trần Thị Oanh, Thạc sĩ Nguyễn Cẩm Tú Cử nhân Trần Mai Vũ – người tận tình bảo hướng dẫn trình thực khoá luận tốt nghiệp Tôi chân thành cảm ơn thầy, cô cán trường Đại Học Công Nghệ tạo cho điều kiện thuận lợi để học tập nghiên cứu Tôi xin gửi lời cảm ơn chân thành tới cử nhân Nguyễn Minh Tuấn tận tình hỗ trợ kiến thức chuyên môn, giúp đỡ hoàn thành khóa luận Tôi xin gửi lời cảm ơn tới anh chị bạn sinh viên phòng thí nghiệm Sislab giúp nhiều việc thu thập xử lý liệu Cuối cùng, muốn gửi lời cảm ơn tới gia đình bạn bè, người thân yêu bên cạnh, động viên suốt trình thực khóa luận tốt nghiệp Tôi xin chân thành cảm ơn ! Sinh viên Nguyễn Đức Vinh i Tóm tắt Trong mười năm gần đây, hệthốnghỏiđáp tự động nhận quan tâm đặc biệt nhà nghiên cứu, công ty (Yahoo, Google, Microsoft, IBM…), hội nghị lớn trích chọn thông tin, xử lý ngôn ngữ tự nhiên (TREC, CLEF, ACL, ) đạt kết định Tuy nhiên nghiên cứu hệthốnghỏiđáp cho tiếngViệt nhiều hạn chế Khóa luận PhântíchcâuhỏihệthốnghỏiđáptiếngViệt tập trung vào khảo sát phương pháp áp dụng cho xây dựng hệthốnghỏiđáp giới, đặc biệt tập trung nghiên cứu pha phântíchcâuhỏi – pha hệthốnghỏi đáp, có ý nghĩa đặc biệt quan trọng với hoạt động hệthống Trên sở nghiên cứu điều kiện thực tế công cụ xử lý ngôn ngữ tiếng Việt, khóa luận tiến hành thực nghiệm việc phântíchcâuhỏitiếngViệt sử dụng phương pháp học máy thống kê trích rút mẫu quan hệ Các kết ban đầu đạt khả quan Bộ phân lớp câuhỏi cho hệthốnghỏiđáp miền mở đạt độ xác 81.49% sử dụng thuật toán SVM, 81.14 % với mô hình Entropy cực đại Module phântíchcâuhỏi sử dụng mẫu quan hệ cho hệthốnghỏiđáp miền du lịch đạt độ xác 89.7 % ii Mục lục Tóm tắt i Mục lục iii Danh sách bảng v Danh sách hình vi Lời mở đầu Chương Giới thiệu hệthốnghỏiđáp tự động 1.1 Hệthốnghỏiđáp tự động 1.2 Phân loại hệthốnghỏiđáp tự động 1.2.1 Phân loại theo miền ứng dụng (domain) 1.2.2 Phân loại theo khả trả lời câuhỏi .6 1.2.3 Phân loại theo hướng tiếp cận: 1.3 Các bước chung hệthốnghỏiđáp tự động Chương Phântíchcâuhỏi 10 2.1 Nội dung phântíchcâuhỏi .10 2.2 Khó khăn phântíchcâuhỏi .10 2.3 Một số nội dung xử lý ngôn ngữ tự nhiên phântíchcâuhỏi 11 2.4 Taxonomy câuhỏi 14 2.4.1 Khái niệm taxonomy 14 2.4.2 Taxonomy câuhỏi 15 2.5 Khảo sát phương pháp phântíchcâuhỏi cho loại câuhỏi khác 19 2.5.1 Câuhỏi đơn giản (factual-base) 19 2.5.2 Câuhỏi định nghĩa (definition question) 21 2.5.3 Câuhỏi phức tạp, có ràng buộc thời gian 22 iii Chương Các phương pháp xác định loại câuhỏi 24 3.1 Phương pháp phân lớp sử dụng học máy thống kê 24 3.1.2 Các thuật toán học máy thống kê cho việc phân lớp 28 3.1.3 Xây dựng phân lớp câuhỏi theo học máy thống kê 37 3.2 Phương pháp xác định loại câuhỏi sử dụng kĩ thuật xử lý ngôn ngữ tự nhiên .42 3.3 Phương pháp xác định loại câuhỏi sử dụng mẫu quan hệ 45 Chương Thực nghiệm phântíchcâuhỏitiếngViệt 47 4.1 Thực nghiệm với phân lớp câuhỏi sử dụng học máy thống kê .47 4.1.1 Dữ liệu công cụ cho thực nghiệm 47 4.1.2 Kết phân lớp sử dụng SVM MEM 49 4.2 Thực nghiệm với xác định loại câuhỏi sử dụng mẫu quan hệ 51 4.2.1 Mô hình thực nghiệm phântíchcâuhỏi sử dụng mẫu quan hệ 51 4.2.2 Kết phântíchcâuhỏi sử dụng mẫu quan hệ 55 Kết luận .58 Tài liệu tham khảo 60 iv Danh sách bảng Bảng Taxonomy câuhỏi Li Roth đưa 17 Bảng Biểu diễn TP, TN, FP, FN đánh giá phân lớp .27 Bảng Số lượng câuhỏi theo lớp cha 48 Bảng Kết phân lớp MEM sử dụng unigram 49 Bảng Kết phân lớp MEM sử dụng tách từ 49 Bảng Kết phân lớp SVM sử dụng đặc trưng khác .50 Bảng Danh sách từ hỏi .50 Bảng Tập seed tìm với mối quan hệ tương ứng 53 Bảng Tập quan hệ mẫu tương ứng 54 Bảng 10 Các quan hệ thực nghiệm hệthống 55 Bảng 11 Các công cụ sử dụng 55 Bảng 12 Các thành phầnhệthống Q&A miền du lịch 56 Bảng 13 Kết phântíchcâuhỏihệthốnghỏiđáp miền du lịch 56 v Danh sách hình Hình Xu hướng nghiên cứu Q&A Hình Các bước chung hệthống Q&A Hình Kiến trúc cho xử lý câuhỏi factual-base .19 Hình Mối quan hệ siêu phẳng phân cách 30 Hình Siêu phẳng tối ưu biên 31 Hình Biến nới lỏng cho soft margin .33 Hình Mô hình phân lớp đa cấp Li Roth 39 Hình Xác định loại câuhỏi sử dụng kĩ thuật xử lý ngôn ngữ tự nhiên 43 Hình Ánh xạ từ trọng tâm vào Wordnet .44 Hình 10 Mô hình Snowball .46 Hình 11 Mô hình hệthốnghỏiđáptiếngViệt sử dụng trích xuất mẫu quan hệ .52 Hình 12 Mô hình xử lý cho pha phântíchcâuhỏi trích xuất câu trả lời 53 vi Lời mở đầu Nghiên cứu hệthốnghỏiđáp tự động (Q&A) quan tâm từ lâu giới Ngay từ năm 1960, hệthốnghỏiđáp sử dụng sở liệu đời Đến năm 1970-1980, nhiều dự án lớn hướng đến việc “hiểu văn bản” xây dựng hệthốnghỏiđáp dựa mô hình ngôn ngữ thống kê Cuối năm 1990, World Wide Web đời phát triển nhanh chóng trở thành kho ngữ liệu khổng lồ Các nhà nghiên cứu hệthốnghỏiđáp bắt đầu khai thác web nguồn liệu cho việc tìm kiếm câu trả lời Các kĩ thuật đòi hỏi tốc độ cao, khả xử lý lượng liệu web lớn quan tâm Tuy nhiên nghiên cứu xây dựng hệthốnghỏiđáp cho tiếngViệt nhiều hạn chế Một lý thiếu công cụ xử lý tiếng Việt, tài nguyên ngôn ngữ học (Wordnet [28], ontology [30]…) Phântíchcâuhỏi pha kiến trúc chung hệthốnghỏi đáp, có nhiệm vụ tìm thông tin cần thiết làm đầu vào cho trình xử lý pha sau (trích chọn tài liệu, trích xuất câu trả lời, …) Vì phântíchcâuhỏi có vai trò quan trọng, ảnh hưởng trực tiếp đến hoạt động toàn hệthống Nếu phântíchcâuhỏi không tốt tìm câu trả lời Khóa luận PhântíchcâuhỏihệthốnghỏiđáptiếngViệt thực khảo sát, nghiên cứu phương pháp xây dựng hệthốnghỏiđápphântíchcâuhỏi quan tâm nay, từ đưa phương pháp phântíchcâuhỏi phù hợp (trên sở nguồn tài nguyên ngôn ngữ sẵn có) cho hệthốnghỏiđáptiếngViệt Những nghiên cứu khóa luận coi tiền đề cho nghiên cứu để xây dựng hệthốnghỏiđáp hoàn thiện cho tiếngViệt Khóa luận trình bày thành bốn chương, nội dung trình bày sơ dây: Chương Giới thiệu hệthốnghỏiđáp tự động trình bày nội dụng hệthốnghỏiđáp đặt vấn đề cho phântíchcâuhỏi Chương Phântíchcâuhỏi trình bày cách tổng quan vấn đề xung quanh việc phântíchcâuhỏi như: nội dung phântíchcâu hỏi, khó khăn phântíchcâu hỏi, nội dung xử lý ngôn ngữ tự nhiên phântíchcâu hỏi, đồng thời khảo sát phương pháp phântíchcâuhỏi cho số loại câuhỏi khác Trong chương tầm quan trọng xác định loại câuhỏiphântíchcâuhỏi Chương Các phương pháp xác định loại câuhỏi trình bày ba phương pháp để xác định loại câu hỏi, phântích chọn lựa hai phương pháp sử dụng cho phântíchcâuhỏitiếngViệt Chương Thực nghiệm phântíchcâuhỏitiếngViệt áp dụng nghiên cứu chương để phântíchcâuhỏihệthốnghỏiđáptiếngViệtPhần kết luận tổng kết, tóm lược nội dung kết đạt khóa luận 4.1.2 Kết phân lớp sử dụng SVM MEM Do số lượng câuhỏi gán nhãn hạn chế nên ban đầu tiến hành thực nghiệm xây dựng phân lớp cho lớp cha 4.1.2.1 Với MEM Kết thu khả quan, đạt độ xác cao 81.14 % sử dụng đặc trưng bag-of-word có sử dụng tách từ Kết chi tiết cho lớp liệt kê Bảng Bảng Bảng Kết phân lớp MEM sử dụng unigram Class human model match Pre Rec F1 ENTY 112 104 71 68.27 63.39 65.74 DESC 127 133 107 80.45 84.25 82.31 ABBR 10 11 72.73 80.00 76.19 HUM 131 132 112 84.85 85.50 85.17 NUM 97 101 90 89.11 92.78 90.91 LOC 85 81 66 81.48 77.65 79.52 79.48 80.60 80.03 80.78 80.78 80.78 Avg.1 Avg.2 562 562 454 Bảng Kết phân lớp MEM sử dụng tách từ class human model match Pre Rec F1 ENTY 112 109 72 66.06 64.29 65.16 DESC 127 137 107 78.10 84.25 81.06 ABBR 10 87.50 70.00 77.78 HUM 131 116 104 89.66 79.39 84.21 NUM 97 104 92 88.46 94.85 91.54 LOC 85 88 74 84.09 87.06 85.55 82.31 79.97 81.12 81.14 81.14 81.14 Avg.1 Avg.2 562 562 456 49 4.1.2.2 Với SVM Thiết lập tham số: Sau thử nghiệm với nhiều giá trị khác nhau, đặt giá trị c = 10000 (c tham số trade off tỉ lệ sai liệu học kích thước biên phân lớp SVM).Kết tốt với SVM sử dụng đặc trưng unigram kết hợp từ để hỏi với độ xác 81.49% Kết chi tiết liệt kê Bảng Bảng Kết phân lớp SVM sử dụng đặc trưng khác Đặc trưng Độ xác Tỉ lệ lỗi Unigram 80.78% 108/562 = 19.22% Tách từ 79.72% 121/562 = 20.28% Unigram + từ hỏi 81.49% 104/562 = 18.51% Tách từ + từ hỏi 80.60% 109/562 = 19.40% Bảng Danh sách từ hỏi định nghĩa có cách cách chỗ nghĩ nơi đâu lúc đâu thấy lý nơi đâu nguyên nhân từ đâu đâu thời gian có phải bao người có nguyên nhân thật không lý phải không 50 Nhận xét: - Hai thuật toán SVM MEM có kết xấp xỉ phân lớp câuhỏitiếngViệt Kết tốt với SVM 81.49% với MEM 81.14% - Đặc trưng từ để hỏi có tác dụng nâng cao độ xác phân lớp câuhỏi Khi áp dụng với SVM, đặc trưng từ để hỏi giúp tăng độ xác 0.71% 0.88% tương ứng kết hợp với đặc trưng unigram tách từ Độ tăng không lớn giải thích sau: Trong đặc trưng bag-of-unigram bag-of-word xét đến từ hỏi với vai trò giống với từ khác câuhỏi Việc xuất từ hỏi với tần suất lớn theo loại câuhỏi khác giúp SVM ngầm nhận diện từ từ quan trọngphân lớp - Ảnh hưởng tách từ phân lớp câu hỏi: Với MEM, tách từ giúp tăng độ xác phân lớp, với SVM đặc trưng tách từ lại không tốt việc dùng unigram Có thể giải thích sau: theo nguyên lý cực đại Entropy, mô hình tự tìm liệu (tập câuhỏi mẫu) ràng buộc đặc trưng riêng cho phân lớp Với SVM, liệu biểu diễn dạng điểm không gian đặc trưng, SVM cố gắng tìm siêu phẳng ngăn cách liệu lớp câuhỏi Việc tách từ ảnh hưởng tích cực với việc tìm ràng buộc mô hình MEM, lại ảnh hưởng tiêu cực đến phân bố liệu không gian, dẫn đến siêu phẳng phân cách lớp không tốt siêu phẳng tìm dùng unigram 4.2 Thực nghiệm với xác định loại câuhỏi sử dụng mẫu quan hệ 4.2.1 Mô hình thực nghiệm phântíchcâuhỏi sử dụng mẫu quan hệTrong [6], xây dựng hệthốnghỏiđáp dựa việc trích rút mẫu quan hệ ngữ nghĩa, áp dụng cho lĩnh vực du lịch Mục tiêu hệthống trả lời câuhỏi dạng đơn giản, liên quan đến quan hệ ngữ nghĩa hai ngôi, ví dụ “Hội lim tổ chức đâu?” (quan hệ LỄ HỘI – tổ chức - ĐỊA ĐIỂM), “Hà tây có chùa ?” (quan hệ CHÙA- - ĐỊA ĐIỂM),… Dựa vào việc khảo sát liệu thực tế, liệt kê 85 mối quan hệ quan tâm nhiều ngành du lịch, ví dụ: lễ hội – địa điểm, bãi biển – địa điểm, đặc sản – địa điểm, núi – chiều cao,… Bước đầu tiến hành thực nghiệm 10 mối quan hệ Mô hình hệthống mô tả hình 11 51 CâuhỏiPhântíchcâuhỏi trích xuất câu trả lời Câu trả lời Data Trích xuất mẫu tổng quát seed Hình 11 Mô hình hệthốnghỏiđáptiếngViệt sử dụng trích xuất mẫu quan hệHệthống gồm hai pha chính: Trích rút mẫu tổng quát sinh seed mới: Pha tiến hành offline, mục đích tạo sở liệu mẫu seed phục vụ cho pha phântíchcâuhỏi trích xuất câu trả lời sau Phương pháp sử dụng Snowball kết hợp với việc sử dụng máy tìm kiếm Google để khai thác thông tin sẵn có Internet (xem chi tiết [6]) Pha phântíchcâuhỏi trích xuất câu trả lời (Hình 12): Pha sử dụng sở liệu mẫu seed sinh pha trước để phântíchcâuhỏi trích xuất câu trả lời Bước phântíchcâuhỏi có nhiệm vụ xác định tên thực thể quan hệ mà câuhỏi hướng tới Bước trích xuất câu trả lời đơn giản truy vấn sở liệu (dựa đầu bước phântíchcâu hỏi) 52 Cơ sở liệu mẫu seed CâuhỏiPhântíchcâuhỏi Tên thực thể quan hệ Trích rút câu trả lời Câu trả lời Hình 12 Mô hình xử lý cho pha phântíchcâuhỏi trích xuất câu trả lời Pha phântíchcâuhỏi bao gồm bước sau đây: Ví dụ với câu hỏi: Nam Định có bãi biển gì? Bước 1: Nhận dạng thực thể câuhỏi dựa sở liệu Sử dụng phương pháp so khớp tất chuỗi câuhỏi với thành phần tập seed (tập liệu quan hệ) để tìm tập S seed có chứa thực thể câuhỏi Dựa vào seed này, xác định tập R quan hệ tương ứng tập P mẫu trả lời tiềm Ví dụ với câuhỏi trên, thực thể nhận dạng Nam Định với nhãn TỈNHTHANH PHỐ Từ hệthống xác định tập seed S có chứa thành phần Nam Định (Bảng 8) Bảng Tập seed tìm với mối quan hệ tương ứng Mối quan hệ Thành phần thứ seed Thành phần thứ hai seed Bãi biển – Địa điểm Quất Lâm Nam Định Bãi biển – Địa điểm Hải Thịnh Nam Định Lễ hội – Địa điểm Hội phủ giầy Nam Định 53 Tập mối quan hệ {Bãi biển-Địa điểm, Lễ hội-Địa điểm} (Bảng 9) Bảng Tập quan hệ mẫu tương ứng Mối quan hệ Mẫu tổng quát Bãi biển – Địa điểm bãi_biển thuộc Bãi biển – Địa điểm có bãi_biển Bãi biển – Địa điểm … Lễ hội – Địa điểm khai_mạc Lễ hội – Địa điểm Hằng năm tổ_chức lễ_hội Lễ hội – Địa điểm … … … Bước 2: Biểu diễn câuhỏi (đã loại bỏ từ dừng tách từ công cụ JVnTextPro) dạng vector từ có trọng số Vector câuhỏi có dạng: Bước 3: Tính độ tương đồng vector câuhỏi với mẫu tiềm P sử dụng độ đo Cosin Chọn mẫu p có độ tương đồng Simp cao với câuhỏiHệthống sử dụng ngưỡng µ- độ tương đồng thấp câuhỏi mẫu Nếu Simp < µ hệthống không đưa câu trả lời (do độ tin cậy thấp) Nếu Simp > µ quan hệ r mà mẫu p thuộc vào quan hệ mà câuhỏi hướng tới Độ đo cosin hai vector s1và s2 là: Ss = s1 s2 || s1 || || s2 || Trong ví dụ mẫu có độ tương đồng cao với vector câuhỏi là: có bãi_biển Như vậy, qua ba bước trên, pha phântíchcâuhỏi tìm tên thực thể TỈNH-THÀNH PHỐ Nam Định mối quan hệ Lễ hội-Địa điểm Từ hai thông tin biết câuhỏihỏi Lễ hội Việc lại pha trích xuất câu trả lời truy vấn sở liệu để đưa Lễ hội Nam Định 54 4.2.2 Kết phântíchcâuhỏi sử dụng mẫu quan hệ Tập liệu test: Chúng xây dựng câuhỏi gồm 1000 câuhỏi đơn giản liên quan đến 10 mối quan hệ chọn (Bảng 10) Bảng 10 Các quan hệ thực nghiệm hệthống Lễ hội-địa điểm Nhà hàng – địa điểm Bãi biển – địa điểm Khách sạn – địa điểm Chùa chiền – địa điểm Siêu thị - địa điểm Sông – địa điểm Công viên – địa điểm Quán cafe – địa điểm Chợ - địa điểm Công cụ phần mềm (Bảng 11): Bảng 11 Các công cụ sử dụng Java SE JDK http://java.sun.com/ eclipse-SDK-3.4.1-win32 http://www.eclipse.org/downloads/ MySql 5.0 http://www.mysql.com/ JvnTextPro [37] 55 Các thành phầnhệthống (Bảng 12): Bảng 12 Các thành phầnhệthống Q&A miền du lịch Tên package, class Chức package vqa.Datalayer.dao Kết nối với sở liệu MySql package vqa.Datalayer.data Cài đặt lớp RefinedPattern, RoughPattern, Seed,… thành phần việc trích rút mẫu seed package vqa.util Các hàm tiện ích package vqa SearchEngineIE Thu thập liệu cho việc tạo mẫu seed thông qua Google package vqa CharsetDetector Phát sửa lỗi font chữ tài liệu lấy từ Google class PatternGenerator SeedGenerator Thực trình sinh mẫu seed class QuestionProcessor Phântíchcâuhỏi đưa câu trả lời Lựa chọn ngưỡng µ-độ tương đồng thấp nhất: Hệthống sử dụng ngưỡng µ độ tương đồng thấp câuhỏi mẫu Hệthống đưa câu trả lời độ tương đồng câuhỏi mẫu vượt qua ngưỡng µ Khi lựa chọn giá trị µ cần cân nhắc đến cân khả trả lời câuhỏi xác khả trả lời nhiều câuhỏi Nếu µ lớn, độ tương đồng câuhỏi mẫu cao độ xác tăng, số lượng câu trả hỏi trả lời giảm Bảng 13 thể độ tương quan độ xác khả trả lời phụ thuộc vào ngưỡng µ Bảng 13 Kết phântíchcâuhỏihệthốnghỏiđáp miền du lịch µ Độ xác Khả đưa câu trả lời 0.4 85.5% 95,3% 0.5 89,7 % 91,4% 0.6 92,6% 80,3% 56 Kết đạt tốt chọn µ = 0.5, độ xác 89.7% khả trả lời 91,4% Nhận xét: Một hệthốnghỏiđáp tốt hệthống có khả đưa câu trả lời xác trả lời nhiều câuhỏi Theo thực nghiệm nhận thấy, độ xác (số lượng câu trả lời số câu trả lời hệthống đưa ra) khả đưa câu trả lời (số lượng câu trả lời tổng số câuhỏi đưa vào) hệthống có quan hệ tỉ lệ nghịch với Chúng chọn giá trị µ = 0.5 để đảm bảo độ cân tính chất hệthốngHệthống hoạt động tốt với câuhỏi đơn giản hỏi quan hệ ngữ nghĩa hai xung quanh quan hệ quan tâm, đưa câu trả lời có độ tin cậy cao Việc học mẫu tốt, xác, thể đặc trưng quan hệ quan trọng, ảnh hưởng lớn đến độ xác hệthống Chúng đánh giá hệthống có khả mở rộng dễ dàng Chỉ cần làm tay số seed ban đầu cho quan hệ quan tâm hệthống tự học mẫu để trả lời cho câuhỏi liên quan Tuy nhiên hạn chế hệthống trả lời câuhỏi liên quan đến quan hệ có hệthống Để đáp ứng nhu cầu thực người dùng, hệthống cần phải mở rộng thêm nhiều quan hệ khác 57 Kết luận Hệthốnghỏiđáp tự động nhận quan tâm đặc biệt nhà nghiên cứu doanh nghiệp ngành công nghệ thông tin Nhu cầuhệthốnghỏiđáptiếngViệt lớn Phântíchcâuhỏi có vai trò đặc biệt quan trọnghệthốnghỏiđáp tự động Khóa luận khảo sát phương pháp phântíchcâuhỏi quan tâm, phântích tìm phương pháp phù hợp cho phântíchcâuhỏitiếngViệt Khóa luận đạt kết sau: • Trình bày cách khái quát hệthốnghỏiđáp tự động nêu lên ý nghĩa, vai trò pha phântíchcâuhỏihệthốnghỏiđáp • Khảo sát, nghiên cứu vấn đề xung quanh việc phântíchcâuhỏi trình bày phương pháp quan tâm phântíchcâuhỏi Khóa luận việc phân lớp câuhỏi theo loại ngữ nghĩa câu trả lời đặc biệt quan trọng với hệthốnghỏiđáp tự động • Xây dựng phân lớp câuhỏi cho hệthốnghỏiđáptiếngViệt miền mở sử dụng hai thuật toán SVM MEM đạt độ xác cao • Xây dựng module phântíchcâuhỏi cho hệthốnghỏiđáptiếngViệt miền du lịch dựa vào trích rút mẫu quan hệ Bên cạnh đó, khóa luận số hạn chế: • Khóa luận mong muốn xây dựng phân lớp hai cấp với lớp cha 50 lớp con, nhiên số lượng câuhỏi gán nhãn nên phân lớp cho lớp cha Độ xác phân lớp chưa thực cao • HệthốnghỏiđáptiếngViệt cho miền du lịch hạn chế số lượng quan hệ Các hướng nghiên cứu phát triển là: Với phầnphântíchcâuhỏi cho hệthốnghỏiđáp miền mở • Thu thập gán nhãn thêm liệu câuhỏi Mỗi lớp câuhỏi cần trung bình 100 câuhỏi mẫu, để tiến hành phân lớp cho 50 lớp khóa luận cần tiếp tục thu thập liệu (cần khoảng 5000 câu hỏi) 58 • Đưa thêm đặc trưng ngữ nghĩa nhằm nâng cao độ xác cho phân lớp câuhỏi • Tiến hành thực nghiệm với nhiều thuật toán học khác để tìm thuật toán phù hợp với phân lớp câuhỏitiếngViệt Có thể áp dụng phương pháp học bán giám sát để tận dụng nguồn câuhỏi chưa gán nhãn • Thực nghiệm phần tạo truy vấn mở rộng cho hệthống trích chọn thông tin Với phầnphântíchcâuhỏi cho hệthốnghỏiđáptiếngViệt cho miền du lịch • Tiến hành sinh mẫu seed cho nhiều quan hệ khác tích hợp vào hệthống để đánh giá độ xác phântíchcâuhỏi số quan hệ tăng lên Đồng thời hoàn thiện hệthống để đáp ứng nhu cầu thực tế người dùng 59 Tài liệu tham khảo Tài liệu tiếngViệt [1] Hồ Tú Bảo, Lương Chi Mai Về xử lý tiếngViệt công nghệ thông tin Viện Công nghệ Thông tin, Viện Khoa học Công nghệ Tiên tiến Nhật [2] Nguyễn Thị Hương Thảo Phân lớp phân cấp Taxonomy văn Web ứng dụng Khóa luận tốt nghiệp đại học, Đại học Công nghệ, 2006 [3] Hà Quang Thụy & nhóm khai phá liệu ứng dụng Bài giảng khai phá liệu 2007 [4] Nguyễn Minh Tuấn Phân lớp câuhỏi hướng tới tìm kiếm ngữ nghĩa tiếngviệt lĩnh vực y tế Khóa luận tốt nghiệp đại học, Đại học Công nghệ, 2008 [5] Nguyễn Cẩm Tú Máy Vector Hỗ trợ (SVMs) Phương pháp Nhân.2007 [6] Phạm Thu Uyên, Nguyễn Đức Vinh, Nguyễn Đạo Thái Hệthốnghỏiđáp tự động sử dụng trích rút quan hệ ngữ nghĩa kho văn tiếngViệt Nghiên cứu khoa học sinh viên cấp trường Đại học Công Nghệ, 2009 Tài liệu tiếng Anh [7] Eugene Agichtein, Luis Gravano Snowball: Extracting Relations from Large Plain-Text Collections In Proceedings of the Fifth ACM International Conference on Digital Libraries, 2000 [8] Michele Banko, Eric Brill, Susan Dumais, Jimmy Lin AskMSR: Question Answering Using the Worldwide Web Microsoft Research In Preceedings of 2002 AAAI Spring Symposium on Mining Answers from Texts and Knowledge bases, Palo Alto, California, March 2002 [9] Matthew W Bilotti, Boris Katz, and Jimmy Lin What Works Better for Question Answering: Stemming or Morphological Query Expansion? ACM SIGIR'04 Workshop Information Retrieval for QA, (Jul 2004) [10] John Burger, Claire Cardie, Vinay Chaudhri, Robert Gaizauskas, Sanda Harabagiu, David Israel, Christian Jacquemin, Chin-Yew Lin, Steve Maiorano, 60 George Miller, Dan Moldovan , Bill Ogden, John Prager, Ellen Riloff, Amit Singhal, Rohini Shrihari, Tomek Strzalkowski, Ellen Voorhees, Ralph Weishedel Issues, Tasks and Program Structures to Roadmap Research in Question & Answering (Q&A) 2002 [11] Sergey Brin (Computer Science Department, Stanford University) Extracting Patterns and Relations from the World Wide Web In WebDB Workshop at 6th International Conference on Extending Database Technology, EDBT’98, 1998 [12] Eric Brill, Jimmy Lin, Michele Banko, Susan Dumais and Andrew Ng (Microsoft Research One Microsoft Way Redmond) Data-Intensive Question Answering In Proceedings of the Tenth Text REtrieval Conference (TREC 2001), 2001 [13] Jaime Carbonell, Donna Harman , Eduard Hovy, and Steve Maiorano, John Prange and Karen Sparck-Jones Vision Statement to Guide Research in Question & Answering (Q&A) and Text Summarization Final version 2000 [14] Kadri Hacioglu, Wayne Ward 2003 Question Classification with Support Vector Machines and Error Correcting Codes The Association for Computational Linguistics on Human Language Technology, vol 2, tr.28–30 [15] Sanda M Harabagiu, Marius A Paşca, Steven J Maiorano Experiments with open-domain textual Question Answering International Conference On Computational Linguistics Proceedings of the 18th conference on Computational linguistics - Volume 1, 2000, tr 292 - 298 [16] Phan Xuan Hieu JTextPro: A Java-based Text Processing Toolkit jtextpro.sourceforge.net/ [17] Wesley Hildebr, Boris Katz, Jimmy Lin Answering Definition Questions Using Web Knowledge Bases Book: Natural Language Processing – IJCNLP, 2005 [18] Eduard Hovy, Ulf Hermjakob and Lin, C.-Y The Use of External Knowledge in Factoid QA Paper presented at the Tenth Text REtrieval Conference (TREC 10), Gaithersburg, MD, 2001, November 13-16 [19] Eduard Hovy, Ulf Hermjakob, and DeepakRavichandran A Question/Answer Typology with Surface Text Patterns In Proceedings of the second international conference on Human Language Technology Research 2002 61 [20] Zhiheng Huang, Marcus Thint, Zengchang Qin Question Classification using Head Words and their Hypernyms ACL 2008 [21] Thorsten Joachims Text Categorization with Support Vector Machines: Learning with Many Relevant Features Proceedings of ECML-98, the 10th European Conference on Machine Learning, 1998, tr 137-142 [22] Thorsten Joachims Learning to Classify Text using Support Vector Machines Kluwer 2002 [23] Thorsten Joachims SVM multiclass Multi-Class Support Vector Machine Cornell University Department of Computer Science [24] Vijay Krishnan and Sujatha Das and Soumen Chakrabarti Enhanced Answer Type Inference from Questions using Sequential Models The conference on Human Language Technology and Empirical Methods in Natural Language Processing, 2005 [25] Xin Li, Dan Roth Learning Question Classifiers COLING'02, Aug, 2002 [26] Xin Li, Dan Roth Learning question classifiers: the role of semantic information Natural Language Engineering, Volume 12 , Issue , September 2006, tr 229 – 249 [27] Bernardo Magnini Open Domain Question Answering: Techniques, Resources and Systems RANLP 2005 [28] George A Miller, Richard Beckwith, Christiane Fellbaum,Derek Gross, and Katherine Miller Introduction to WordNet: An On-line Lexical Database 1998 [29] Dan Moldovan, Sanda Harabagiu, Marius Pasca, Rada Mihalcea, Richard Goodrum, Roxana Girju and Vasile Rus The Structure and Performance of an OpenDomain Question Answering System In Proceedings of the 38th Annual Meeting of the Association for Comoutational Linguistics (ACL-2000), 2000 [30] N.F Noy and McGuinness, D.L Ontology Development 101: A Guide to Creating Your First Ontology SMI Technical report SMI-2001-0880 , Stanford University, 2001 [31] Robinson, W P., Rackstraw, S J A Question of Answers (Vol I) Boston: Routledge & Kegan Paul 1972 62 [32] Robinson, W P., Rackstraw, S J A Question of Answers (Vol II) Boston: Routledge & Kegan Paul, 1972 [33] E Saquete, P Martınez-Barco, R Mu˜noz, J.L Vicedo Splitting Complex Temporal Questions for Question Answering Systems ACL 2004 [34] Luís Sarmento, Jorge Filipe Teixeira, Eugénio Oliveira Experiments with Query Expansion in the RAPOSA (FOX) Question Answering System In The CrossLanguage Evaluation Forum (CLEF), 2008 [35] Mihai Surdeanu Question Answering Techniques and Systems TALP Research Center Dep Llenguatges i Sistemes Informàtics Universitat Politècnica de Catalunya [36] Nguyen Tri Thanh Study on Acquiring and Using Linguistic Semantic Information for Search System Doctor thesis, Japan Advanced Institute of Science anf Technology, 2008 [37] Nguyen Cam Tu JVnTextpro: A Java-based Vietnamese Text Processing Toolkit SISLab Software Utility College of Technology, Vietnam National University, Hanoi [38] Ellen M Voorhees The TREC-8 Question Answering Track Report Paper presented at the Eighth Text REtrieval Conference (TREC 8) Gaithersburg, MD, 1999 November 16-19 http://trec.nist.gov/pubs/trec8/papers/qa_report.pdf [39] Hui Yang and Tat-Seng Chua.The Integration of Lexical Knowledge and External Resources for Question Answering School of Computing, National University of Singapore [40] Liu Yi, Zheng Y F One-against-all multi-Class SVM classification using reliability measures Proceedings of the 2005 International Joint Conference on Neural Networks Montreal,Canada, 2005 [41] Dell Zhang, Wee Sun Lee Question Classification using Support Vector Machines The ACM SIGIR conference in informaion retrieval, 2003, tr 26–32 63