Xây dựng hệ thống hỏi đáp tự động dựa trên ánh xạ câu hỏi

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH CƠNG TRÌNH NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG XÂY DỰNG HỆ THỐNG HỎI ÐÁP TỰ ÐỘNG DỰA TRÊN ÁNH XẠ CÂU HỎI MÃ SỐ:T2013 – 21TÐ S K C0 Tp Hồ Chí Minh, 2013 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC SƢ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ĐỀ TÀI KH&CN CẤP TRƢỜNG TRỌNG ĐIỂM XÂY DỰNG HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG DỰA TRÊN ÁNH XẠ CÂU HỎI Mã số: T2013 – 21TĐ Chủ nhiệm đề tài: TS Đặng Trƣờng Sơn TP HCM, 11/2013 TRƢỜNG ĐẠI HỌC SƢ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH KHOA CƠNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KH&CN CẤP TRƢỜNG TRỌNG ĐIỂM XÂY DỰNG HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG DỰA TRÊN ÁNH XẠ CÂU HỎI Mã số: T2013 – 21TĐ Chủ nhiệm đề tài: TS Đặng Trƣờng Sơn Thành viên đề tài: ThS Đào Tiến Dũng TP HCM, 11/2013 DANH SÁCH NHỮNG THÀNH VIÊN THAM GIA NGHIÊN CỨU ĐỀ TÀI VÀ ĐƠN VỊ PHỐI HỢP CHÍNH TS Đặng Trƣờng Sơn ThS Đào Tiến Dũng MỤC LỤC MỤC LỤC DANH MỤC BẢNG BIỂU, HÌNH VẼ DANH MỤC CÁC CHỮ VIẾT TẮT THÔNG TIN KẾT QUẢ NGHIÊN CỨU MỞ ĐẦU TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGỒI NƢỚC MỤC TIÊU, CÁCH TIẾP CẬN 15 PHƢƠNG PHÁP, ĐỐI TƢỢNG VÀ PHẠM VI NGHIÊN CỨU 15 NỘI DUNG NGHIÊN CỨU 15 CHƢƠNG 1: CÁC KIẾN THỨC LIÊN QUAN 16 1.1 Xử lý ngôn ngữ tự nhiên (Natural Language Processing) 16 1.2 Mơ hình ngơn ngữ (language model) 20 1.3 Truy vấn thông tin (Information Retrieval) 25 CHƢƠNG 2: XÂY DỰNG HỆ THỐNG 30 2.1 Mơ hình xử lý 30 2.2 Phân tích câu hỏi 37 2.3 Truy vấn thông tin 42 CHƢƠNG 3: KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 48 3.1 Hiện thực hệ thống 48 3.2 Thực nghiệm 53 3.3 Kết - Đánh giá 55 KẾT LUẬN VÀ KIẾN NGHỊ 59 TÀI LIỆU THAM KHẢO 61 PHỤ LỤC 64 DANH MỤC BẢNG BIỂU, HÌNH VẼ Bảng 1.1 : Tần suất từ tài liệu 20 Bảng 1.2 : Tần suất từ tài liệu khác 21 Bảng 1.3 : Ví dụ mục tài liệu 26 Bảng 1.4 : Chỉ số idf số từ tập Reuters gồm 806,791 tài liệu 29 Bảng 2.1 : Một số từ thƣờng xuất nhƣng khơng có ý nghĩa 32 Bảng 2.2 : Một số thuộc tính mơ hình ngơn ngữ hệ thống 35 Bảng 2.3 : Bảng từ loại JVnTagger 38 Bảng 2.4 : Trọng số loại từ câu 42 Bảng 3.1 : Ví dụ độ đo MRR 54 Bảng 3.2 : Hiệu phân loại 55 Bảng 3.3 : Hiệu gom nhóm + phân loại 55 Bảng 3.4 : Kết thay đổi ngƣỡng sT pT 56 Bảng 3.5 : Hiệu tìm kiếm 57 Hình 1.1 : Kiến trúc hệ thống hỏi-đáp 11 Hình 2.1 : Lƣợc đồ trình hỏi – đáp tự động 31 Hình 2.2 : Thơng tin mẫu kho liệu hệ thống 31 Hình 2.3 : Các bƣớc tiền xử lý 34 Hình 2.5 : Các bƣớc phân tích truy vấn 37 Hình 2.6 : Một số bƣớc trình mở rộng cắt tỉa 41 Hình 2.7 : Các bƣớc truy vấn thơng tin 43 Hình 3.1 : Giao diện 48 Hình 3.2 : Giao diện web 49 Hình 3.3 : Giao diện tìm kiếm 50 Hình 3.4 : Giao diện tìm kiếm web – câu trả lời 50 Hình 3.5 : Giao diện tìm kiếm web – câu hỏi khác 51 Hình 3.6 : Đánh giá kết thử nghiệm 52 DANH MỤC CÁC CHỮ VIẾT TẮT AI Artificial Intelligence IE Information Extraction IR Information Retrieval MRR Mean Reciprocal Rank NLP Natural Language Processing QA Question Answering Tf-idf term frequency - inverse document frequency TRƢỜNG ĐẠI HỌC SƢ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH KHOA CƠNG NGHỆ THƠNG TIN CỘNG HỒ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc Tp HCM, Ngày 25 tháng 11 năm 2013 THƠNG TIN KẾT QUẢ NGHIÊN CỨU Thơng tin chung:  Tên đề tài: Xây dựng hệ thống hỏi đáp tự động dựa ánh xạ câu hỏi  Mã số: T2013-21TĐ  Chủ nhiệm: TS Đặng Trƣờng Sơn  Cơ quan chủ trì: Trƣờng ĐH Sƣ Phạm Kỹ Thuật TP HCM  Thời gian thực hiện: 1/2013 – 12/2013 Mục tiêu:  Nghiên cứu vấn đề liên quan đến việc xây dựng hệ thống hỏi đáp Xây dựng thử nghiệm hệ thống hỏi đáp làm minh hoạ Tính sáng tạo:  Đề xuất hƣớng tiếp cận ánh xạ câu hỏi xây dựng hệ thống hỏi đáp xây dựng hệ thống thử nghiệm làm minh chứng Kết nghiên cứu:  Phân tích chi tiết việc sử dụng phƣơng pháp ánh xạ câu hỏi xây dựng hệ thống hỏi đáp tiếng Việt Sản phẩm:  Báo cáo tổng kết phân tích phƣơng pháp đề xuất; mơ hình hệ thống chƣơng trình mơ hệ thống hỏi đáp Có báo khoa học đƣợc đăng Hiệu quả, phƣơng thức chuyển giao kết nghiên cứu khả áp dụng:  Có thể làm tài liệu tham khảo cho sinh viên ngành CNTT cán nghiên cứu liên quan Trƣởng Đơn vị (ký, họ tên) Chủ nhiệm đề tài (ký, họ tên) INFORMATION ON RESEARCH RESULTS General information: Project title: Developing QA Systems based on mapping questions approach Code number: T2013-21TĐ Coordinator: Dr Dang Truong Son Implementing institution: University of Technical Education Ho Chi Minh City Duration: from January 2013 to December 2013 Objective(s):  Research issues related to creating question answering systems Develop an experimental question answering system Creativeness and innovativeness:  Propose a mapping questions approach on building question answering systems and create a question-answering system for testing Research results:  A detailed analysis of the mapping question method used in the construction of a Vietnamese question-answering system Products:  A report on analysing the proposed method; a model of a question-answering system and a demo program for the system There is a scientific paper was published http://www.engh.kuas.edu.tw/files/ne/vwxatu5gxe.pdf Effects, transfer alternatives of reserach results and applicability:  The results may be useful for IT students and related researchers MỞ ĐẦU Trả lời câu hỏi tự động (Question Answering – QA) lĩnh vực nghiên cứu thú vị phát triển Không nhƣ hệ thống truy vấn thông tin (Information Retrieval System – IR Sys) thực việc tìm kiếm tài liệu, QA System tìm câu trả lời cho câu hỏi ngƣời dùng Điều có nghĩa hệ thống trả lời câu hỏi hệ cơng cụ tìm kiếm (search engine) Do địi hỏi câu trả lời đƣợc đƣa QA System phải có độ xác cao Nội dung đề tài liên quan đến hƣớng tiếp cận dựa vào việc ánh xạ câu hỏi Hƣớng tiếp cận bao gồm việc chuyển đổi câu truy vấn cách mở rộng câu với từ đồng nghĩa cắt tỉa danh sách câu mở rộng mơ hình ngơn ngữ, từ đó, chuyển câu hỏi ngƣời dùng cho phù hợp với kho liệu câu hỏi có Q trình xử lý để trả câu trả lời tƣơng ứng với câu hỏi liên quan đƣợc thực kết hợp kỹ thuật xử lý ngôn ngữ tự nhiên truy vấn thông tin Những nghiên cứu đề tài xem nhƣ bƣớc ban đầu cho nghiên cứu sâu để xây dựng hoàn chỉnh hệ thống hỏi đáp tiếng Việt TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGỒI NƢỚC Vấn đề mà hệ thống QA xem xét tìm tập tài liệu cho trƣớc câu trả lời cho câu hỏi ngƣời dùng Thông thƣờng, nhiệm vụ thƣờng đƣợc thực ngƣời cách lập mục cho tập tài liệu với hệ thống IR Một hệ thống IR tiêu chuẩn thƣờng yêu cầu ngƣời dùng nhập vào từ khóa để làm đầu vào cho search engine Tuy nhiên, tự nhiên đầy đủ cho phép ngƣời dùng trực tiếp nhập câu hỏi Các hệ thống IR thành công việc xuất kết từ tập tài liệu dựa truy vấn Sau đó, câu hỏi cần phải đƣợc trả lời, truy vấn đƣợc tạo để lấy tài liệu có liên quan đến câu hỏi Cuối cùng, tài liệu lấy đƣợc đƣợc ngƣời dùng đọc tìm thấy câu trả lời cho câu hỏi, khơng tìm thấy câu trả lời sau tất tài liệu 3.2 Thực nghiệm 3.2.1 Cấu hình Hệ thống đƣợc xây dựng chạy máy Intel(R) Core2 Duo 2.0 GHz, 32-bit, hệ điều hành Win Vista, với phần mềm lập trình Netbean ngơn ngữ Java 3.2.2 Mục tiêu thử nghiệm Đánh giá phƣơng pháp xây dựng hệ thống hỏi đáp kho liệu cụ thể Dữ liệu đƣợc chọn cho thử nghiệm thuộc dịch vụ phổ biến nhằm thể đƣợc tính tổng quát liệu Thử nghiệm nhằm xác minh hệ thống đƣợc xây dựng theo hƣớng đề xuất hiệu so với tìm kiếm đơn từ khóa (Yahoo search) Kết bƣớc thử nghiệm làm tảng cho thử nghiệm sâu nhằm tiến tới hoàn thiện hệ thống hỏi đáp để đáp ứng cho nhiều lĩnh vực khác với kết chấp nhận đƣợc 3.2.3 Kế hoạch thử nghiệm Thực số bƣớc nhằm đánh giá kết thực trình việc xây dựng hệ thống hỏi đáp Các vấn đề đƣợc tiến hành nhƣ sau :  Hiệu gom nhóm câu hỏi  Hiệu phân loại câu hỏi  Thay đổi ngƣỡng  Thay đổi độ đo tƣơng đồng: thêm trọng số cho từ theo vị trí câu đặc biệt noun, điều chỉnh trọng số idf 3.2.4 Dữ liệu thử nghiệm Mỗi lần thử nghiệm với 50 câu hỏi mở đƣợc lấy ngẫu nhiên từ trang Yahoo Answer Những câu hỏi mở đƣợc chọn câu chƣa có câu trả lời Danh sách câu hỏi thử nghiệm đƣợc liệt kê phần phụ lục 53 3.2.5 Đánh giá kết Pi độ xác câu hỏi thứ i Nếu i câu hỏi kho liệu Pi = câu hỏi xác nằm vị trí câu trả về, ngƣợc lại, Pi = Nếu i ngồi kho liệu thì: số câu liên quan số câu trả Pi = tổng số câu hệ thống trả Giá trị cuối cùng:  P N Pi Với N tổng số câu thử nghiệm N Sử dụng độ đo Mean Reciprocal Rank câu hỏi liên quan kho liệu Với câu hỏi thử nghiệm, ngƣời dùng chọn lựa câu hỏi mà cảm thấy liên quan số câu hỏi mà hệ thống trả về, thứ tự lựa chọn làm sở để tính độ đo MRR: MRR = Q Q å rank i i=1 Ví dụ : Bảng 3.1 : Ví dụ độ đo MRR Query Result Correct response Rank Reciprocal rank cat catten, cati, cats cats 1/3 torus torii, tori, toruses tori 1/2 virus viruses, virii, viri viruses 1/1 MRR = (1/3 + 1/2 + 1)/3 = 11/18  0.61 Độ đo MRR độ đo chủ yếu để xác định hiệu hệ thống dựa lựa chọn ngƣời dùng Với độ đo này, hệ thống cung cấp số câu hỏi tập câu hỏi liên quan để ngƣời tham gia thử nghiệm lựa chọn Sự lựa chọn họ hỗ trợ đánh giá hệ thống 54 Kết - Đánh giá 3.3 3.3.1 Hiệu gom nhóm – phân loại câu hỏi Đối với việc gom nhóm câu hỏi kho liệu Việc thử nghiệm nhằm tìm số lƣợng nhóm tối ƣu Tiêu chuẩn việc lựa chọn số lƣợng nhóm dựa độ xác với thời gian thực trình tìm kiếm Bên cạnh vệc gom nhóm, kho liệu gồm nhiều chủ đề, việc phân loại câu hỏi vào chủ đề nhằm rút ngắn thời gian tìm kiếm Bảng 3.2 : Hiệu phân loại Độ xác Số câu khơng Thời gian chạy trung bình xác định (milisecond) 50% 5/50 969 Không phân loại 38% 7/50 3947 Phân loại Việc phân loại câu hỏi trƣớc tìm kiếm theo thử nghiệm khơng giảm đáng kể thời gian tìm kiếm mà cịn tăng khả tìm đƣợc nhiều câu hỏi liên quan Tuy nhiên hiệu việc phân loại câu hỏi vào chủ đề thực chƣa cao Điều tập huấn luyện bị nhiễu Để tăng khả tìm linh hoạt tìm kiếm, hệ thống đƣợc thiết kế cho phép ngƣời dùng tự lựa chọn chủ đề mà họ quan tâm phù hợp với câu hỏi họ Bảng 3.3 : Hiệu gom nhóm + phân loại Số nhóm/số câu Độ xác hỏi Số câu không Thời gian chạy xác định trung bình (milisecond) 1/2000 42% 932 1/1000 50% 969 1/500 42% 1038 55 Số lƣợng nhóm thƣờng tỉ lệ nghịch với thời gian tìm kiếm Nếu số lƣợng nhóm ít, thời gian tìm kiếm nhiều ngƣợc lại Tuy nhiên, ngồi thời gian tìm kiếm nhóm, phải xem xét đến thời gian xác định nhóm tìm kiếm Với số nhóm q lớn, cần nhiều thời gian xác định câu hỏi đầu vào thuộc nhóm nào, tổng thời gian thực khơng tối ƣu 3.3.2 Thay đổi ngưỡng Trong trình xử lý hệ thống, có hai tham số thay đổi giá trị Chúng đƣợc xem nhu ngƣỡng có ảnh hƣởng đến kết hệ thống:  pT : ngƣỡng xác định mức độ câu đƣợc mở rộng có gần với ngữ liệu câu hỏi kho hay không;  sT : ngƣỡng xác định mức độ câu hỏi kho có tƣơng tự với câu hỏi đầu vào hay không Việc thực nghiệm xác định giá trị tốt ngƣỡng cho hệ thống Bảng 3.4 : Kết thay đổi ngƣỡng sT pT Ngƣỡng sT Ngƣỡng pT Thời gian chạy Độ xác trung bình (milisecond) (với câu hỏi thử nghiệm) 0.25 0.001 831 34% 0.5 0.01 969 50% 0.75 0.01 1040 38% Theo thực nghiệm, ngƣỡng pT làm thay đổi kết Kết chịu ảnh hƣởng nhiều giá trị tham số sT Điều hiểu đƣợc câu hỏi đầu vào lúc đƣợc mở rộng thành công với từ đồng nghĩa Trong trƣờng hợp bình thƣờng, đa số đặc trƣng đƣợc rút trích để tiến hành so khớp đến từ câu hỏi ban đầu Trong tham số sT xác định mức độ tƣơng đồng câu hỏi, số cao tƣơng đồng, dẫn đến số câu hỏi liên quan giảm 56 3.3.3 Hiệu tìm kiếm Với 50 câu hỏi thử nghiệm, Yahoo Answers cho độ đo MRR 0.158 Google Answers cho độ đo 0.336 so với hệ thống sở 0.48 Chúng đề nghị cải tiến nhằm tăng hiệu hệ thống nhƣ dƣới Ta nhận thấy số câu chứa cấu trúc từ phổ biến nhƣ nhƣng khác hay vài từ phổ biến hơn, nhƣng, chúng đƣợc xem tƣơng tự Chẳng hạn nhƣ “Có phải Ghost cách khơi phục máy tính, xài hệ điều hành win sp2” “cách khơi phục mật yahoo máy tính, xài hệ hành win xp sp2” Điền xảy „có phải Ghost‟ „mật yahoo‟ có trọng số idf lớn nhƣng không đủ bù đắp cho số từ chung Để cải thiện, đề nghị điều chỉnh trọng số idf=log(N/d) thành idf = log(N/d) + square_root(N/d) Điều chỉnh giúp bigram phổ biến câu chiếm điểm số cao Khi rút trích bigram từ câu hỏi, số bigram chứa số từ vô dụng (các từ stopword, từ số lƣợng,…) Do vậy, hầu nhƣ chúng trở nên quan trọng nhƣng chiếm số điểm định tính tốn độ đo Để giải vấn đề này, gán trọng số cho chúng thấp bigram lại Bảng 3.5 : Hiệu tìm kiếm Baseline System Yahoo Answers Yahoo Search Google Answers Google Search 0.48 Điều chỉnh idf 0.50 Điều chỉnh idf + bigram quan trọng 0.52 0.158 0.575 0.336 0.589 Việc tính tốn kết độ đo MRR phụ thuộc vào lựa chọn kết liên quan số tất kết mà hệ thống trả Theo bảng trên, kết hệ 57 thống đề xuất tƣơng đối tốt so với hai dịch vụ hỏi-đáp phổ biến Yahoo Google Chúng thử nghiệm dịch vụ hỏi đáp khác (hoidaptructuyen.net) nhƣng cho kết (~ 0) Các dịch vụ hỏi đáp (Yahoo Answers, Google Answers) hoạt động hiệu câu hỏi ngắn đơn giản Điều dễ hiểu chúng chủ yếu đƣợc thiết kế để tìm kiếm dựa từ khóa Đối với câu hỏi dài chúng hầu nhƣ không cho kết Thực nghiệm cho thấy kết hệ thống đề xuất chƣa vƣợt qua đƣợc cơng cụ tìm kiếm phổ biến Yahoo Google Lý nằm khác biệt hệ thống đề tài dịch vụ tìm kiếm Thứ tính chất, hệ thống chúng tơi phân tích tồn văn để tìm kiếm câu hỏi gần so với việc sử dụng từ khóa nhập vào để tìm kiếm tài liệu liên quan Thứ hai quy mô, liệu chúng tơi phần nhỏ so với liệu khổng lồ mà dịch vụ sử dụng 58 KẾT LUẬN VÀ KIẾN NGHỊ Đề tài trình bày tiếp cận việc xây dựng mơ hình trả lời tự động Đây đề xuất dựa mơ hình xây dựng hệ thống hỏi đáp tự động dựa câu hỏi trả lời có sẵn Thực nghiệm cho thấy đề xuất cho kết cải thiện so với việc tìm kiếm đơn theo từ khóa thể chấp nhận đƣợc Hệ thống đƣợc xây dựng cho hầu hết kho liệu văn thuộc lĩnh vực khác Tuy nhiên, hiệu hệ thống phụ thuộc nhiều vào chất lƣợng liệu Một số thành phần hệ thống đƣợc thay theo mục đích sử dụng : Kho liệu Mơ hình ngơn ngữ Tần suất từ hay cụm từ Tập từ đồng nghĩa Các thành phần sau (2-4) đƣợc tạo thành từ kho liệu hệ thống qua module hệ thống hay đƣợc thay từ nguồn có sẵn Một số hạn chế hệ thống đề xuất cần đƣợc khắc phục tƣơng lai:  Hệ thống sử dụng bigram phân tích cấu trúc câu hỏi Rõ ràng, bigram bắt ngữ cảnh câu hỏi tốt unigram Tuy nhiên, bigram chƣa đủ để nắm bắt tất thông tin câu hỏi Do cần cấu trúc ngữ nghĩa sâu  Hệ thống xem xét đến câu hỏi kho liệu Sử dụng thêm câu trả lời cung cấp thêm nhiều thơng tin Chúng ta sử dụng kỹ thuật truy vấn thông tin cho câu trả lời sử dụng kết nhƣ yếu tố thứ hai để xác định cặp câu hỏi-trả lời tốt 59  Chúng ta chọn sử dụng Yahoo Answers để làm nguồn thông tin thử thực tế câu hỏi đƣợc u cầu ngƣời sử dụng thông thƣờng Tuy nhiên, nhƣợc điểm có nhiều câu hỏi khơng theo chuẩn tiếng Việt dẫn đến việc gán nhãn từ loại bị sai lệch Một số hƣớng đƣợc phát triển tƣơng lai nhƣ sau:  Sử dụng thêm độ đo tf-idf đơn giản IR cho unigram Điều nhằm giải trƣờng hợp chuyển đổi nhiều mà không liên quan đến câu hỏi kho  Tăng độ xác hệ thống cách khai thác thơng tin câu trả lời Ví dụ, áp dụng độ đo tƣơng đồng câu trả lời  Thay hay tăng cƣờng tập từ đồng nghĩa để có hiệu cao Cần tìm kiếm nguồn liệu phong phú nhƣ web ngữ nghĩa  Áp dụng hay kết hợp thêm kỹ thuật xử lý ngôn ngữ tự nhiên trình xử lý câu hỏi để tăng độ xác nhƣ tốc độ tính tốn Một số kỹ thuật áp dụng nhƣ tách câu, xác định danh tính, khử nhập nhằng ý nghĩa từ,…  Nghiên cứu cấu trúc quản lý lƣu trữ liệu có khả truy cập liệu nhanh để rút ngắn thời gian xử lý  Tự động cập nhật thêm liệu nhƣ mở rộng phạm vi lĩnh vực mà hệ thống phục vụ Phát triển ứng dụng web trả lời câu hỏi phục vụ cộng đồng ngƣời dùng 60 TÀI LIỆU THAM KHẢO [1] http://www.askjeeves.com [2] Kim, H et al (2001) Maya: A fast question-answering system based on a predictive answer indexer In Proceedings of the Association for Computational Linguistics 39th Annual Meeting and 10th Conference of the European Chapter Workshop on Open-Domain Question Answering, Toulouse, France, pp 9-16 [3] Katz, B., et al (2003) Integrating web-based and corpus-based techniques for question answering In Proceedings of the Twelfth Text REtreival Conference (TREC 2003), Gaithersburg, Maryland , pp 426-435 [4] Clifton, T and W Teahan (2004) Bangor at TREC 2004: Question answering track In Proceedings of the Thirteenth Text REtreival Conference (TREC 2004), Gaithersburg, Maryland [5] Teahan, W.J (2003) Knowing about knowledge: Towards a framework for knowledgeable agents and knowledge grids Technical report, Artificial Intelligence and Intelligent Agents Tech Report AHA 03.2, School of Informatics, University of Wales, Bangor [6] Cannataro, M and D Talia (2003) The knowledge grid Communications of the ACM , vol 46, n 1, January 2003, pp 89-93 [7] Moldovan, D., et al (2004) Experiments and analysis of LCC's two QA systems over TREC2004 In Proceedings of the 13th Text REtrevial Conference (TREC 2004), Gaithersburg, Maryland [8] Voorhees, E M (2003) Overview of the TREC 2003 question answering track In Proceedings of the 12th Text REtreival Conference (TREC 2003), Gaithersburg, Maryland , pp 54-68 61 [9] Xu, J., A Licuanan, J May, S Miller, and R Weischedel (2002) TREC2002 QA at BBN: Answer selection and confidence estimation In Proceedings of the Eleventh Text REtreival Conf (TREC 2002), Gaithersburg, Maryland, pp 96-101 [10] Wu, M., et al (2003) Question answering by pattern matching, web-proofing, semantic form proofing In Proceedings of the Twelfth Text REtreival Conference (TREC 2003), Gaithersburg, Maryland, pp 578-585 [11] Lin, J., et al (2003) Extracting answers from the web using knowledge annotation and knowledge mining techniques In Proceedings of the Eleventh Text REtreival Conference (TREC 2002, Gaithersburg, Maryland ), pp 447 [12] Wu, L., X Huang, L You, Z Zhang, X Li, and Y Zhou (2004) FDUQA on TREC2004 QA track In Proceedings of the 13th Text REtreival Conference (TREC 2004), Gaithersburg, Maryland [13] Chen, J., G He, Y Wu, and S Jiang (2004) Unt at TREC 2004: Question answering combining multiple evidences In Proceedings of the 13th Text REtreival Conference (TREC 2004), Gaithersburg, Maryland [14] Molla, D and M Gardiner (2004) Answerfinder at TREC 2004 In Proceedings of the 13th Text REtreival Conference (TREC 2004), Gaithersburg, Maryland [15] Chu-Carroll, J., K Czuba, J Prager, A Ittycheriah, and S Blair-Goldensohn (2004) IBM's PIQUANT II in TREC2004 In Proceedings of the 13th Text REtreival Conference (TREC 2004), Gaithersburg, Maryland [16] Echihabi, A., et al (2003) Multiple-engine question answering in Textmap In Proceedings of the Twelfth Text REtreival Conference (TREC 2003), Gaithersburg, Maryland , pp 772-781 [17] Paijmans, Hans, "SMART Tutorial for beginners.", www.tcnj.edu/~mmmartin/CSC485IMME321/Papers/SMART/SmartCourse.html [18] E Alfonseca et al., A prototype Question Answering system using syntactic and semantic information for answer retrieval, Proceedings of the 10th Text Retrieval Conference (TREC-10), 2002, pp 680-686 62 [19] Hartigan, J A.; Wong, M A (1979) "Algorithm AS 136: A K-Means Clustering Algorithm" Journal of the Royal Statistical Society, Series C (Applied Statistics) 28 (1): pp.100–108 [20] A.K Jain and R.C Dubes Algorithms for Clustering Data, Prentice Hall, Englewood Cliffs NJ, U.S.A., 1998 [21] Eduard Hovy, Ulf Hermjakob and Lin, C.-Y The Use of External Knowledge in Factoid QA Paper presented at the Tenth Text REtrieval Conference (TREC 10), Gaithersburg, MD, 2001, November, pp 13-16 [22] Nguyen Tri Thanh Study on Acquiring and Using Linguistic Semantic Information for Search System Doctor thesis, Japan Advanced Institute of Science anf Technology, 2008 [23] Dinh Dien, Hoang Kiem, Nguyen Van Toan Vietnamese Word Segmentation In Proceedings of NLPRS'2001, pp.749-756 [24] Cam-Tu Nguyen, at al "JVnTextPro: A Java-based Vietnamese Text Processing Tool", http://jvntextpro.sourceforge.net/, 2010 [25] Lingpipe, http://alias-i.com/lingpipe/ [26] Fellbaum, C (1998) Wordnet - an electronic lexical database Cambridge, MA MIT Press pp.423 [27] Java API for WordNet Searching (JAWS) : http://lyle.smu.edu/~tspell/jaws/ [28] FlexCRFs: http://flexcrfs.sourceforge.net/ [29] Lafferty, J., McCallum, A., Pereira, F.: Conditional random fields: Probabilistic models for segmenting and labeling sequence data In: Proc 18th International Conf on Machine Learning, Morgan Kaufmann, San Francisco, CA (2001) pp 282–289 [30] Kamal Nigam, John Lafferty, Andrew Mccallum Using Maximum Entropy for Text Classification In IJCAI‐99 Workshop on Machine Learning for Information Filtering (1999), pp 61‐67 63 PHỤ LỤC 50 câu hỏi thử nghiệm: Cần cách cài Win Win XP USB? tƣ vấn giúp phần cứng máy tính? Làm vừa cài Microsoft Office 2007 vừa cài Microsoft Office 2010? có biết cách tải photoshop khơng, vào google nhƣng khơng tải đƣợc? Mình cần gấp.? Màn hình desktop khơng hiển thị khởi động? tốc độ đƣờng truyền nhanh nhất? cách kẻ dòng chấm table cách cách dòng cho phù hợp? để viết lênh select câu lệnh insert into ? vd:? Cho minh hoi ve thiet ke web bang frontpage 2003? giúp tập visual basic 6.0? Chƣơng trình làm đĩa audio/mp3/vcd khơng finallize disk? sửa lỗi hình, biết với? Cách sử dụng cài đặt Microphone laptop win 7? sửa giúp lỗi pascal? lựa chọn card hình gigabyte 512mb? Giúp skin cho forum phpBB zới ? lam the nao de go phan mem 321 Video Converter 1.2 mot cach triet de? tai mjnh download game đế chế mà k mở duoc hic.co ban nao giup mjnh voi? Vấn đề card hình rời ? Chỉ giùm em cách cài flash player cho win7 với? cho em hỏi nấng cấp win Xp Sp2 lên win vista? 64 bạn cho biết làm để chuyển độ phân giải chuyển độ phân giải 180x240 thành 240x320 không? Phần mềm download tốt, uy tín nhất? chuột cảm ứng HP 430 ko hoạt động? lam the nao de hien thi anh avata? Tải tất comment facebook máy tính? CHo hỏi pc với?!? bạn giải dùm với: viết chƣơng trình nhập số a từ bàn phím.và xét xem có phải số ngun tố k? dùng phần mềm diệt virut avira diệt có hiệu ko ngƣời? Sao vào đƣợc Facebook mà k đăng kí đƣợc?Cứ đến lúc nhập xong thơng tin click vào ĐK đứng n.? làm vào đƣợc facebook ? Cần tƣ vấn mua máy tính để bàn? pro máy tính cho hỏi với? Có bạn bít phần mềm ghép nhìu ảnh thành k?Chỉ giúp với.Thanks nhìu lắm!!!? Cần tƣ vấn laptop? Adobe flash player 10 ActiveX Adobe flash player Plugin khác nhƣ vậy? Làm để download phim Rado99.com? cho minh hoi lam de cai dat IDM vinh vien? Cho hỏi laptop khơng gỡ đƣợc chƣơng trình cài cài trc phải làm nhƣ nào?mình dùng win7? Xin chào yahoo ! Hỏi Đáp , tôp không rành tin học nên muốn hỏi : muốn tải clip từ yotube? xóa status yahoo 11 win ? 65 lúc trƣớc gửi mail Yahoo thông báo gửi xong, ngƣời nhận lại khơng nhận đƣợc Sau tơi? tơi dùng excel nhƣng hơm khơng chạy báo lỗi cài lại liệu trƣớc có cịn khơng khơi phục? soạn thƣ máy tính khơng đính kèm tệp đƣợc? giúp với? Màn hình laptop bị nhiễu? cao thủ vào cách diệt win32:malware-gen nào? Phần mềm cắt nhạc chuông đơn giản nhất.? Không gõ đƣợc Tiếng Việt Ola PC? Muốn đặt chạy google (firefox) nhanh toolbar hình máy tính làm nào? firefox hoạt động tốt nhƣng chrome internet explorer lại không hoạt động đƣợc? 66 ... quan đến việc xây dựng hệ thống hỏi đáp Xây dựng thử nghiệm hệ thống hỏi đáp làm minh hoạ Tính sáng tạo:  Đề xuất hƣớng tiếp cận ánh xạ câu hỏi xây dựng hệ thống hỏi đáp xây dựng hệ thống thử nghiệm... 2: XÂY DỰNG HỆ THỐNG 2.1 Mơ hình xử lý Hệ thống tiếp nhận câu hỏi đầu vào ngƣời dùng dƣới dạng ngôn ngữ tự nhiên Tiếp theo, hệ thống ánh xạ câu hỏi đến câu hỏi trả lời kho liệu có Cuối cùng, hệ. .. dụng phƣơng pháp ánh xạ câu hỏi xây dựng hệ thống hỏi đáp tiếng Việt Sản phẩm:  Báo cáo tổng kết phân tích phƣơng pháp đề xuất; mơ hình hệ thống chƣơng trình mơ hệ thống hỏi đáp Có báo khoa học

Tiêu đề	Xây Dựng Hệ Thống Hỏi Đáp Tự Động Dựa Trên Ánh Xạ Câu Hỏi
Tác giả	Ts. Đặng Trường Sơn, ThS. Đào Tiến Dũng
Trường học	Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	Báo Cáo Tổng Kết
Năm xuất bản	2013
Thành phố	Tp. Hồ Chí Minh

Định dạng
Số trang	68
Dung lượng	3,38 MB