1.1. Giới thiệu về hệ thống hỏi đáp tự động
1.1.4. Thách thức của hệ thống hỏi đáp tự động
Mặc dù hỏi đáp tự động là một bước tiến trong tìm kiếm thông tin nhưng vẫn có nhiều thách thức cần giải quyết:
• Thách thức lớn nhất của hệ thống hỏi đáp là xác định câu trả lời đúng khi mà lượng dữ liệu trên internet ngày càng tăng với lượng rất lớn và đa dạng. Từ đó dẫn tới thách thức là làm thế nào để biểu diễn cơ sở tri thức một cách hiệu quả để có thể truy cập và tìm kiếm câu trả lời được nhanh hơn và chính xác hơn.
chính xác và đưa ra câu trả lời chính xác. Để làm được điều này phải giải quyết thách thức liên quan tới thách thức về khoảng cách từ vựng giữa biểu diễn câu hỏi bằng ngôn ngữ tự nhiên và ngữ nghĩa của cơ sở tri thức (knowledge base) có cấu trúc. Khoảng cách từ vựng là sự khác biệt trong việc biểu diễn câu giữa câu hỏi được biểu diễn qua ngôn ngữ tự nhiên không có cấu trúc với cơ sở tri thức có cấu trúc.
• Thách thức về vấn đề nhập nhằng: tức là liên quan tới việc cùng sử dụng cụm từ giống nhau nhưng có nghĩa khác nhau.
• Xác định thực thể và liên kết. Đây cũng là một thách thức quan trọng của hệ thống hỏi đáp. Xác định thực thể và liên kết liên quan tới khả năng hệ thống xác định chính xác thực thể trong câu hỏi và liên kết tới cơ sở tri thức. Nếu câu hỏi có nhiều thực thể, nó cũng là thách thức liên quan tới việc xác định thực thể nào liên kết với cơ sở tri thức liên quan.
• Đoạn hỏi đáp: câu trả lời của những câu hỏi non-factoid (thường là câu hỏi tại sao, như thế nào) thường là một đoạn. Việc tìm câu trả lời cho câu hỏi dạng này nó đòi hỏi phải có biểu diễn hiệu quả mà biểu diễn được mối quan hệ ngữ nghĩa phức tạp giữa câu hỏi và câu trả lời, đặc biệt là khi câu hỏi phức tạp nhập nhằng và tri thức phân tán.