Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 11 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
11
Dung lượng
305,81 KB
File đính kèm
he thong hoi dap tu dong.rar
(3 MB)
Nội dung
Trang Chương TỔNG QUAN VỀ HỆ THỐNG HỎI-ĐÁP TỰ ĐỘNG Với nhu cầu trao đổi thông tin người ngày cao, thông tin tràn ngập phương tiện truyền thông, đặc biệt phát triển rộng rãi mạng toàn cầu Internet, ngày người phải xử lý lượng thông tin khổng lồ Những thắc mắc người dùng dạng truy vấn tìm kiếm trả cách ngắn gọn, súc tích, xác mà họ mong muốn Đó mục tiêu hệ thống hỏi-đáp tự động Rất nhiều hệ thống hỏi đáp thông tin qua mạng đời nhằm đáp ứng nhu cầu Chương trình bày vấn đề sau: Giới thiệu hệ thống hỏi-đáp tự động (QA) Sơ lược lịch sử phát triển Kiến trúc hệ thống hỏi-đáp Một số vấn đề quan tâm xây dựng hệ thống hỏi-đáp Hệ thống hỏi-đáp tiếng Việt 1.1 Hệ thống hỏi-đáp tự động Hệ thống hỏi-đáp tự động (Question Answering-QA) hệ thống xây dựng để thực việc tìm kiếm câu trả lời cho câu hỏi người dùng Hệ thống hỏi-đáp tự động liên quan đến lĩnh vực lớn xử lý ngôn ngữ tự nhiên (Natural Language Processing), tìm kiếm thông tin (Information Retrieval) rút trích thông tin (Information Extraction) Trang Hình 1-1: Lĩnh vực hỏi-đáp tự động Có hai loại hệ thống hỏi-đáp: • Hệ thống hỏi-đáp lĩnh vực hẹp (Closed-domain Question Answering): hệ thống liên quan đến câu hỏi lĩnh vực cụ thể, chẳng hạn lĩnh vực y học • Hệ thống hỏi-đáp lĩnh vực rộng (Open-domain Question Answering): hệ thống liên quan đến câu hỏi gần tất thứ 1.2 Sơ lược lịch sử phát triển Thiết kế hệ thống hỏi-đáp khái niệm Một số hệ thống đời từ năm 1960 Một ví dụ hệ thống hệ thống BASEBALL phát triển năm 1961 nhóm tác giả Green, Chomsky, Laughery [9] Hệ thống thiết kế để cung cấp thông tin số liệu thống kê liên đoàn bóng chày Mỹ Một hệ thống khác tương tự BASEBALL phát triển Woods (1973) [32] đặt tên LUNAR LUNAR trả lời câu hỏi liên quan đến mẫu đá trở từ tàu thăm dò mặt trăng Apollo Hệ thống dịch câu hỏi thành hay nhiều truy vấn Trang sở liệu Hệ thống TEAM phát triển Grosz (1983) [10] có đặc điểm chuỗi biểu diễn ngữ nghĩa lược đồ phiên dịch làm cho tốt hệ thống trước Điểm tương đồng ba hệ thống tất sử dụng sở liệu để lưu trữ sở tri thức Việc thiết kế sở liệu liệu có cấu trúc xây dựng cách thủ công tất chuyên gia lĩnh vực tương ứng Xử lý ngôn ngữ tự nhiên trình thực nhận nhiều quan tâm năm 1970 Một hệ thống Margie (Schank, Goldman, Riesbeck, & Rieger, 1975) [25] Hệ thống xử lý tài liệu mà sau trả lời câu hỏi Điều thực cách phân tích tổ chức tài liệu thông tin mô hình tương tự nhớ người Điều cải thiện Lenhert, Dyer, Johnson, Yang, Harley (1983) [17] hệ thống Boris Boris Margie hệ thống gần giống với hệ thống hỏi-đáp lĩnh vực rộng (open-domain) hoạt động ngày Hệ thống hỏi-đáp nhận nhiều mối quan tâm cộng đồng nhà nghiên cứu Điều bắt nguồn từ việc lượng tài liệu lớn có gắn mục sẵn có Internet, với thành tựu lĩnh vực rút trích thông tin gia tăng nhu cầu thương mại cho sản phẩm QA toàn cầu Một lợi nữa, dễ dàng cho việc phát triển hệ thống QA phức tạp hơn, nguồn tài nguyên WordNet (Fellbaum, 1998) [8] OpenCyc (Curtis, Matthews, & Baxter, 2005) [4] WordNet cung cấp truy cập tới thông tin ngữ nghĩa mối liên hệ ngữ nghĩa cụm từ OpenCyC cung cấp truy cập tới thông tin ontology tri thức thông dụng Cả hệ thống cung cấp miễn phí Hội thảo TREC (Text Retrieval and Evaluation Conference) [29] lĩnh vực QA năm 1999 đóng góp phần to lớn cho phát triển lĩnh vực QA với 20 thành viên tham gia Sự kiện thúc đẩy nhà nghiên cứu chia sẻ kinh nghiệm so sánh kết họ sử dụng độ đo chung Trang Rất nhiều phương pháp tiếp cận khác sử dụng hệ thống hỏi-đáp gần phương pháp thống kê, phương pháp dựa luật, phương pháp tổng hợp Hầu hết hệ thống hỏi-đáp ngày trở nên phức tạp, thường sử dụng nhiều mô-đun khác nhau, chẳng hạn tìm kiếm thông tin, phân tích cú pháp câu, phân tích loại câu hỏi, phân tích ngữ nghĩa, chí dùng phương pháp suy luận (Moldovan et al., 2002) [21] để đánh giá, xếp hạng câu trả lời Với gia tăng tính phức tạp hệ thống hỏi-đáp, khó khăn để xác định hiệu hệ thống đến từ hiệu giai đoạn 1.3 Kiến trúc hệ thống hỏi-đáp Hệ thống hỏi-đáp phát triển từ lĩnh vực tìm kiếm thông tin (IR) IR truyền thống thực tìm kiếm thông tin dựa từ khóa câu truy vấn Trong trình tìm kiếm, từ khóa so khớp (matching) với mục tài liệu tham khảo cho tài liệu khác Mô hình hệ thống IR [20] có kiến trúc sau: Trang Tài liệu Giao diện văn Từ khóa truy vấn Các tài liệu xếp hạng Viết lại Lập mục truy vấn tài liệu Truy vấn tinh chế Xếp hạng Yêu cầu Từ khóa Tài liệu Lập mục Tìm ki ếm Cơ sở liệu truy vấn Tập tài liệu Tài liệu Hình 1-2: Hệ thống tìm kiếm thông tin Các hệ thống IR thường không giúp người sử dụng tìm xác thông tin mà người dùng cần, tổng hợp thông tin tồn hệ thống tìm văn có liên quan đến yêu cầu người sử dụng Tính bước tiến gần để xây dựng hệ thống hỏi-đáp Kiến trúc chung hệ thống hỏi-đáp [20] thường có dạng sau: Trang Câu trả lời Xác minh câu trả ngôn ngữ tự nhiên Giao diện người lời dùng Câu hỏi ngôn Câu trả lời ngữ tự nhiên xếp hạng Tài Xếp hạng Cơ sở tri thức Phân tích câu hỏi Các tài liệu Web Internet nguyên hỏi-đáp Câu trả lời Truy vấn tinh chế Truy vấn Rút trích câu trả Tìm kiếm liệu Cơ sở Các tài liệu liệu văn lời Dữ liệu dạng văn Hình 1-3: Kiến trúc hệ thống hỏi-đáp [20] 1.3.1 Giao diện người dùng (User Interface) Hầu hết hệ thống hỏi-đáp triển khai thực thời gian gần cung cấp cho người dùng giao diện web mà người dùng nhập câu hỏi vào ([1],[26],[27]…) Các câu hỏi sau gửi đi, hệ thống xử lý trả cho người dùng câu trả lời định dạng tương tự Giao diện người dùng phần quan trọng hệ thống hỏi-đáp nhiều nghiên cứu dành cho Nhiều giao diện mô giao diện máy tìm kiếm Hệ thống đưa câu trả lời mà đưa câu trả lời khác gần với nội dung câu hỏi người dùng nhập vào 1.3.2 Phân tích câu hỏi (Question Analyzer) Phân tích câu hỏi đóng vai trò quan trọng loại hình hệ thống hỏiđáp Trong giai đoạn này, câu hỏi phân tích xử lý để trích lọc nhiều thông tin tốt mà sử dụng sau giai đoạn tìm kiếm liệu Kết bước khác tùy theo việc phân tích câu hỏi nông hay Trang 10 sâu Ví dụ, việc phân tích tách từ vựng câu hỏi sử dụng tất thứ loại bỏ hư từ (stopword) để nhằm phân tích cú pháp câu [26] Hư từ tiếng Anh từ is, he, which,… Trong hệ thống mở, thông thường phần câu hỏi thường nhắc lại câu trả lời Ví dụ: • Tháp Eiffel nằm đâu? (câu hỏi ban đầu) • Tháp Eiffel nằm (một phần câu trả lời) • Tháp Eiffel nằm gần (một phần câu trả lời) • Tháp Eiffel tìm thấy (một phần câu trả lời) Bằng cách vài phần câu trả lời sử dụng tìm kiếm thông qua tập tài liệu Mở rộng câu hỏi cách khác làm tăng khả tìm thấy tài liệu có chứa câu trả lời Từ để hỏi mở rộng với nhiều cụm từ khác cách sử dụng từ đồng nghĩa [16] Các đặc trưng khác câu hỏi sử dụng đến, ví dụ loại câu hỏi [3] 1.3.3 Tìm kiếm liệu (Data Retrieval) Một số thông tin trích xuất giai đoạn phân tích câu hỏi sử dụng để tìm kiếm thông tin sở tri thức Điều thực nhiều phương pháp khác Một hệ thống hỏi-đáp lĩnh vực rộng (opendomain) sử dụng máy tìm kiếm (search engine) để tìm kiếm tài liệu phân phối qua internet Một hệ thống lĩnh vực hẹp (closed-domain) tìm kiếm nguồn liệu cấu trúc, bán cấu trúc, có cấu trúc ví dụ sở liệu Trong phần này, thông tin tiền xử lý nhiều lần để tăng hiệu hệ thống Tìm kiếm liệu hệ thống hỏi-đáp tương tự với giai đoạn tìm kiếm liệu hệ thống IR, sử dụng phương pháp tìm kiếm phương pháp tìm kiếm từ khóa dạng Boolean phương pháp đánh trọng số từ khóa [16] Trong giai đoạn tìm kiếm liệu hệ thống hỏi-đáp, điều quan trọng lấy nhiều thông tin có liên quan đến câu hỏi tốt Chất lượng việc tìm kiếm tài liệu quan trọng kết không cần thiết phải Trang 11 hiển thị giao diện cho người dùng Điều quan trọng thông tin người dùng yêu cầu tìm thấy 1.3.4 Rút trích câu trả lời (Answer Extraction) Rút trích câu trả lời thuộc lĩnh vực rút trích thông tin Thông tin trả giai đoạn tài liệu văn từ việc truy vấn sở liệu Những thông tin sử dụng để rút trích đoạn (passage) có liên quan ngữ nghĩa đến câu hỏi mà người dùng đưa Có nhiều phương pháp đưa việc rút trích đoạn văn chứa câu trả lời, ví dụ phương pháp phân đoạn tài liệu dựa chủ đề so khớp với câu hỏi người dùng đưa vào để chọn phân đoạn tài liệu tương tự với câu hỏi người dùng đưa vào [13]… Một hệ thống QA lĩnh vực rộng khác một hệ thống QA lĩnh vực hẹp bước Một hệ thống lĩnh vực rộng luôn có tập tài liệu tập hợp đoạn văn tóm tắt trả từ máy tìm kiếm Phương pháp để phát sinh câu trả lời rút trích phần thông tin có liên quan ngữ nghĩa với câu hỏi Các phần thông tin tổng hợp để tạo thành câu trả lời nhiều câu trả lời 1.3.5 Chiến lược xếp hạng (Ranking) Nếu kết giai đoạn rút trích câu trả lời có nhiều câu trả lời câu trả lời xếp hạng dựa mức độ liên quan mặt ngôn ngữ với câu hỏi người dùng Có nhiều cách tiếp cận khác để xác định mức độ liên quan câu trả lời điều liên quan mật thiết với cách xác định câu trả lời giai đoạn rút trích thông tin từ tài liệu bước trước Ví dụ [3], tác giả đề xuất chiến lược xếp hạng nhiều pha dựa kết hợp độ đo tương tự câu hỏi người dùng đưa vào với câu hỏi câu trả lời kho liệu xác định từ giai đoạn trước Trong [16] tác giả đề xuất chiến lược xếp hạng dựa độ đo tương tự kết hợp độ đo tương tự từ khóa miền (domain keywords semilarity) độ đo tương tự ngữ nghĩa từ phổ biến (common words semantic similarity) Trang 12 1.3.6 Xác minh câu trả lời (Answer Verification) Một số hệ thống QA cải thiện thêm tính xác cách phân tích câu trả lời thu được, qua việc sử dụng phương pháp xử lý ngôn ngữ tự nhiên cách phân tích sâu để xác minh lại câu hỏi Các câu hỏi câu trả lời phân tích cú pháp chuyển đổi sang hình thức logic Các câu hỏi câu trả lời sau so sánh với để xác minh tính hợp lý câu trả lời 1.4 Một số vấn đề quan tâm xây dựng hệ thống hỏi đáp Năm 2002, nhóm nhà nghiên cứu đưa số vấn đề cần quan tâm sau [2]: • Loại câu hỏi: Câu hỏi ngôn ngữ tự nhiên đa dạng, ẩn ý, nhập nhằng phụ thuộc vào ngữ cảnh Một số loại câu hỏi quan tâm hệ thống hỏi đáp câu hỏi vật, kiện, định nghĩa, danh sách, trình, cách thức, lý do… Mỗi loại câu hỏi có đặc trưng khó khăn riêng, đòi hỏi phải có chiến lược riêng để trả lời chúng • Xử lý câu hỏi: Cùng loại câu hỏi diễn đạt qua nhiều cách khác Một mô hình ngữ nghĩa cần xây dựng có khả xác định câu hỏi tương tự, quan hệ ngữ pháp, đồng thời chuyển câu hỏi phức tạp thành chuỗi câu hỏi đơn giản • Ngữ cảnh hệ thống hỏi đáp: Câu hỏi thường gắn với ngữ cảnh câu trả lời đưa ngữ cảnh xác định Việc sử dụng thông tin ngữ cảnh giúp hệ thống hỏi đáp hiểu câu hỏi cách rõ ràng, loại bỏ nhập nhằng tăng tính xác câu trả lời tìm người dùng hỏi loạt câu hỏi liên quan đến ngữ cảnh • Nguồn liệu cho hệ thống hỏi đáp: Nguồn liệu cho hệ thống hỏi đáp tập nhỏ tài liệu tổ chức, liệu thu thập từ nguồn sách, báo chí hay trang web Tuy nhiên cần đảm bảo nguồn liệu có độ tin cậy cao Trang 13 • Trích xuất câu trả lời: Việc trích xuất câu trả lời phụ thuộc vào nhiều yếu tố: độ phức tạp câu hỏi, loại câu hỏi có từ trình xử lý câu hỏi, liệu chứa câu trả lời, phương pháp tìm kiếm ngữ cảnh,… đảm bảo yêu cầu câu trả lời cho người dùng phải xác 1.5 Hệ thống hỏi-đáp tiếng Việt Lĩnh vực hỏi-đáp tiếng Việt mẻ quan tâm vài năm gần Trong luận văn [30] năm 2001, tác giả luận văn đề cập đến vấn đề hỏi-đáp tự động, nhiên tác giả xây dựng hệ hỗ trợ cho hệ thống hỏi-đáp, hoàn toàn chưa nghĩa hệ thống hỏi-đáp tự động Ý tưởng luận văn câu hỏi gởi lên diễn đàn phân loại phân phối tự động đến chuyên gia có chuyên môn tương ứng Quá trình phân loại dựa luật phân lớp rút trích tự động từ tập liệu học câu hỏi gán nhãn Các câu hỏi trả lời thủ công chuyên gia Nhóm nghiên cứu khác thuộc trường Đại học Khoa học tự nhiên Tp HCM [24] nghiên cứu xây dựng hệ thống hỏi-đáp tiếng Việt dựa kỹ thuật rút trích quan hệ không giám sát Ý tưởng nghiên cứu sử dụng phương pháp học mẫu rút trích không giám sát Snowball [6] vào hệ thống hỏi-đáp tiếng Việt trả lời cho câu hỏi hỏi thủ đô quốc gia Ngoài ra, nhóm nghiên cứu xử lý ngôn ngữ tự nhiên trường Đại học công nghệ, Đại học quốc gia Hà Nội [23] nghiên cứu xây dựng hệ thống hỏi-đáp tiếng Việt sử dụng kỹ thuật rút trích quan hệ hai cách kết hợp hai phương pháp rút trích mẫu Snowball [6] phương pháp sử dụng máy tìm kiếm Ravichandran, Hovy [5] Hai nghiên cứu tập trung vào việc ứng dụng kỹ thuật rút trích quan hệ nhằm xây dựng hệ thống hỏi-đáp áp dụng cho tiếng Việt Trang 14 Kết luận Trong chương này, trình bày tổng quan hệ thống hỏi-đáp trạng hệ thống hỏi-đáp tiếng Việt với số vấn đề cần quan tâm xây dựng hệ thống hỏi-đáp Hệ thống hỏi-đáp tự động công cụ hữu hiệu phục vụ cho nhu cầu tìm kiếm thông tin ngày cao người, hệ thống hỏiđáp tiếng Việt lại quan tâm vài năm gần Như vậy, việc xây dựng hệ thống hỏi-đáp tiếng Việt nhu cầu cần thiết Hướng tới mục tiêu này, xây dựng hệ thống hỏi-đáp tự động tiếng Việt nhằm phục vụ cho lĩnh vực cụ thể diễn dàn tư vấn ghi danh trực tuyến [...]... tổng quan về hệ thống hỏi- đáp và hiện trạng hệ thống hỏi- đáp tiếng Việt cùng với một số vấn đề cần quan tâm khi xây dựng hệ thống hỏi- đáp Hệ thống hỏi- đáp tự động là một công cụ hữu hiệu phục vụ cho nhu cầu tìm kiếm thông tin ngày càng cao của con người, nhưng hệ thống hỏi áp tiếng Việt lại mới chỉ được quan tâm trong vài năm gần đây Như vậy, việc xây dựng một hệ thống hỏi- đáp tiếng Việt là một nhu cầu... quan tâm trong vài năm gần đây Như vậy, việc xây dựng một hệ thống hỏi- đáp tiếng Việt là một nhu cầu cần thiết Hướng tới mục tiêu này, chúng tôi xây dựng một hệ thống hỏi- đáp tự động tiếng Việt nhằm phục vụ cho một lĩnh vực cụ thể là diễn dàn tư vấn ghi danh trực tuyến