1.3.1. Xác định chất lượng của câu trả lời
Hệ thống hỏi đáp cộng đồng là hệ thống cho phép người dùng trả lời câu hỏi mà họ quan tâm và muốn chia sẻ kiến thức. Do đó, một câu hỏi khi được đăng
lên có thể có nhiều câu trả lời ứng viên. Đây là hệ thống mở, dễ dàng chia sẻ và trao đổi thông tin dẫn tới sự tăng trưởng mạnh mẽ của các loại hệ thống này. Tuy nhiên hệ thống cũng có những điểm hạn chế. Hạn chế thứ nhất đó là nội dung đa dạng về chủ đề nhưng lại thiếu cấu trúc phù hợp với từng loại. Điểm thứ hai liên quan tới những câu trả lời kém chất lượng được tạo ra bởi một số lý do như nhận thức của người dùng về một số lĩnh vực còn hạn chế, thiếu tập trung và không chuẩn bị kĩ càng khi trả lời. Do là người dùng khác nhau nên các câu trả lời có sự khác biệt lớn về chất lượng, cấu trúc và phạm vi câu trả lời. Do đó, hệ thống CQA cần có phương pháp toàn diện khai thác câu trả lời để đưa ra câu trả lời tốt nhất của câu hỏi hoặc gợi ý câu trả lời tốt nhất cho câu hỏi mới.
Hệ thống CQA hiện tại có hai bài toán giúp người dùng tổng hợp câu trả lời tốt nhất một cách tự động đó là bài toán xếp hạng các câu trả lời ứng viên theo mức độ liên quan tới câu hỏi[16] và bài toán tóm tắt câu trả lời giúp người dùng có câu trả lời đầy đủ nhất[17]. Hai bài toán này góp phần đáp ứng tiêu chí giảm thời gian cho người dùng khi phải tìm và tổng hợp câu trả lời.
Bài toán tìm câu trả lời tốt nhất trong hệ thống hỏi đáp
Forum hỏi đáp cộng đồng ngày càng phổ biến tuy nhiên những website này hầu như không được kiểm soát. Do đó, hệ thống này có điểm hạn chế vì lý do bất kì ai cũng có thể đăng câu hỏi và trả lời câu hỏi. Ưu điểm của việc làm này đó là mọi người có thể tự do hỏi bất kì câu hỏi gì mà mình muốn và mong đợi rằng nhận được câu trả lời tốt và trung thực. Như vậy khi một câu hỏi được đăng lên sẽ có nhiều người dùng vào trả lời cho câu hỏi đó. Người hỏi sẽ phải rất nỗ lực và mất thời gian để đọc tất cả các câu trả lời đó (có những câu hỏi có đến hàng trăm câu trả lời do người dùng khác tham gia trả lời) và hiểu được chúng. Vì vậy việc đề xuất bài toán tự động tìm những câu trả lời tốt nhất trong số các câu trả lời của người dùng đã trả lời cho câu hỏi đó sẽ hỗ trợ cho người dùng có thể đánh giá và tìm được câu trả lời mong muốn một cách nhanh nhất.
Bài toán tóm tắt câu trả lời
Bài toán thứ hai nằm trong nội dung đánh giá chất lượng câu trả lời đó là bài toán tóm tắt câu trả lời. Các forum hỏi đáp là nguồn dữ liệu giàu tri thức. Nó thường chứa những thông tin về các chủ đề mà khó tìm qua máy tìm kiếm. Các câu trả lời có thể không được chuẩn bị kĩ lưỡng, chứa spam hoặc thậm chí
là những câu đùa cợt hoặc quảng cáo. Đặc biệt, một số câu hỏi dạng giải thích, quan điểm hoặc liệt kê (câu hỏi non-factoid) thì câu trả lời nhận được thường không đầy đủ kể cả những câu trả lời tốt nhất. Đây cũng là khó khăn cho người đọc khi phải đọc qua tất cả các câu trả lời này để tổng hợp câu trả lời tốt nhất. Vì lý do này mà bài toán tóm tắt câu trả lời được đặt ra hỗ trợ người dùng tổng hợp câu trả lời một cách tự động.
1.3.2. Bài toán tìm câu hỏi tương đồng
Cùng với sự phát triển của các web-forum, ngày càng có nhiều người sử dụng hệ thống này để tìm kiếm câu trả lời cho câu hỏi mà họ cần. Để hệ thống hoạt động tốt hơn và đáp ứng yêu cầu của người dùng, các hệ thống này cũng hướng tới giải quyết thách thức về độ trễ khi chờ câu trả lời từ người dùng. Thực tế cho thấy rằng có những câu hỏi khi đăng lên vài ngày sau mới nhận được câu trả lời, thậm chí là không có ai trả lời. Vấn đề này được giải quyết dựa vào ý tưởng sử dụng các câu trả lời đã có của các câu hỏi trước đó của hệ thống thông qua các câu hỏi tương đồng với câu hỏi mới. Cụ thể là thông qua việc tìm câu hỏi tương đồng của câu hỏi mới và tận dụng câu trả lời có sẵn của những câu hỏi tương đồng này để tìm ra câu trả lời cho câu hỏi mới. Điều này giúp cho hệ thống giảm thời gian chờ như đã đề cập ở phần trên.Do đó bài toán tìm câu hỏi tương đồng được đặt ra để giải quyết[18].