Với các phân tích ở phần trên, thách thức lớn nhất của hệ thống hỏi đáp cộng đồng là vấn đề khoảng cách từ vựng (lexical gap) bao gồm:
• Khoảng cách từ vựng giữa các câu hỏi: đây là thách thức quan trọng trong hệ thống hỏi đáp nói chung. Nó liên quan tới sự sai khác trong cách dùng ngôn ngữ tự nhiên khi diễn tả giữa các câu hỏi khác nhau. Trong hệ thống cộng đồng có nhiều người dùng cho nên cách diễn đạt câu hỏi khác nhau (dùng từ vựng khác nhau) nhưng cùng diễn đạt một ý như nhau. Hơn nữa, đây lại là dữ liệu cộng đồng. Các câu hỏi được đặt ra trong hệ thống hỏi đáp cộng đồng sử dụng ngôn ngữ tự nhiên, chứa nhiều ý hỏi và phức tạp, trong câu chứa nhiều nội dung không liên quan trực tiếp tới câu hỏi và câu trả lời (ví dụ như lời chào hỏi, câu đùa cợt,...). Do vậy, việc xác định tính tương đồng của hai câu hỏi càng khó khăn.
• Khoảng cách từ vựng giữa câu hỏi và câu trả lời: giống như thách thức trên về ngôn ngữ giữa các câu hỏi, trong cặp câu hỏi-câu trả lời còn có thêm sự sai khác rất lớn do thông tin của câu hỏi và câu trả lời không đối xứng. Ngoài tiêu chí về độ chính xác của các hệ thống dự đoán còn có tiêu chí quan trọng không kém đó là tiêu chí về thời gian phản hồi thông tin của người dùng. Khi tập dữ liệu CQA ngày càng lớn thì việc xác định độ tương đồng ngữ nghĩa của câu hỏi mới với các câu hỏi trong kho dữ liệu CQA gặp thách thức về mặt thời gian. Vì vậy việc nghiên cứu bài toán tìm câu hỏi tương đồng càng có ý nghĩa.
Tóm lại, luận án giải quyết hai thách thức lớn nhất là thách thức về khoảng cách từ vựng giữa câu hỏi với câu hỏi và câu hỏi với câu trả lời. Đồng thời luận án cũng đề cập tới giải quyết thách thức về thời gian tìm kiếm trong bài toán tìm câu hỏi tương đồng. Qua đó với việc giải quyết bài toán tìm câu hỏi tương đồng cũng khắc phục độ trễ của hệ thống hỏi đáp cộng đồng như đã đề cập ở trên. Để giải quyết các thách thức trên các mô hình học sâu kết hợp với cơ chế chú ý được đề xuất để nâng cao hiệu quả của các mô hình dự đoán. Các mô hình học sâu là mô hình end-to-end mà từ dữ liệu thô đầu vào đi qua các các lớp ẩn trong mạng nơ ron và đưa ra kết quả đầu ra. Trong mô hình này, việc học đặc trưng ngữ nghĩa của văn bản và lớp dữ đoán được tích hợp và học một cách đồng thời thay vì thực hiện một cách tuần tự. Các mô hình này đã được chứng minh phù hợp với dữ liệu cộng đồng trong các bài toán hỏi của hệ thống hỏi đáp CQA.