thực hiện nối subject+body của câu hỏi
Models SemEval CQA 2017 SemEval CQA 2016
MAP MRR MAP MRR
match-LSTM (body) 86,51 92,12 77,70 83,76
math-LSTM (subject+body) 86,59 91,68 77,71 83,45
Enhanced match-LSTM (body) 87,87 92,28 78,10 84,21
Enhance match-LSTM (subject+body) 87,81 91,21 78,00 84,20
Enhanced match-LSTM + sup. att.(body) 88,38 93,13 78,62 84,56
Enhanced match-LSTM + sup. att.(sub.+body) 87,89 92,20 78,55 84,45
tốt hơn khi đưa câu hỏi đầu vào. Mỗi đầu ra của mô hình LSTM trên câu trả lời tại bước thứ t được cập nhật qua các tham số của biểu diễn của câu hỏi và các trọng số chú ý.
• Mô hìnhEnhance-LSTM [85]: Mô hình này lúc đầu được đề xuất cho bài
toán suy diễn ngôn ngữ bằng cách xem xét các kiến trúc đệ quy kết hợp với mô hình suy diễn cục bộ và suy diễn kết hợp.
Các mô hình trong bảng 2.3 từ dòng (A) đến dòng (G) được cài đặt và thực thi trực tiếp trên Tensorflow. Kết quả của các mô hình trong các dòng (H-J) được thống kê lại trong bài báo gốc trên tập dữ liệu SemEval.
Bảng 2.3 cho thấy mô hình match-LSTM gốc lúc đầu cho hiệu năng tương đương với các mô hình LSTM và CNN khác ở dòng (A-D). Khi thêm một số mở rộng vào mô hình này như trình bày ở phần 2.3.2, độ đo MAP và MRR của mô hình này đều tăng một cách ổn định trên cả hai tập SemEval 2016 và SemEval 2017. Đặc biệt mô hình Enhanced match-LSTM tại dòng (F) cao hơn các mô hình LSTM ở dòng (A) tới (D) ở cả hai tập SemEval CQA 2016 và SemEval CQA 2017.
Khi thêm cơ chế chú ý có giám sát (trình bày tại phần 2.3.3) hiệu năng của mô hình tăng đáng kể trên cả hai tập dữ liệu này. Mô hình đề xuất đạt MRR cao nhất trên tập SemEval CQA 2017 là 93,13% ở dòng (G) so với tất cả các mô hình còn lại. Còn MAP và MRR trên tập SemEval CQA 2016 thấp hơn so với mô hình đứng đầu KELP. Điều này chứng tỏ rằng cơ chế chú ý có giám sát có khả năng học được ngữ nghĩa câu hỏi và câu trả lời tốt hơn so với các mô hình LSTM trước đó. Đặc biệt là cơ chế chú ý có giám sát không những học được nhiều ngữ nghĩa hơn trong việc gióng từ (thảo luận phần 2.4.4 bên dưới) mà còn giúp cho mô hình dự đoán câu trả lời tốt hơn. Cụ thể là mô hình tích hợp đã vượt qua đội KELP với độ đo MRR trên tập SemEval CQA 2017, còn lại độ đo MAP ngang bằng với các kết quả đứng đầu trong hai tập dữ liệu này.
Để thăm dò sự ảnh hưởng của phần chủ đề (subject) trong câu hỏi, phần chủ đề được nối với thân của câu hỏi (subject+body) tạo thành nội dung của câu hỏi. Kết quả tại bảng 2.4 cho thấy rằng chủ đề của câu hỏi không ảnh hưởng đến kết quả của mô hình đề xuất mà thậm chí kết quả còn thấp hơn trên cả hai mô hình Enhanced match-LSTM và mô hình tích hợp cơ chế chú ý có giám sát [40]. Điều đó chứng tỏ rằng mô hình có khả năng tổng hợp ngữ nghĩa của câu hỏi và câu trả lời tốt hơn các mô hình LSTM trước đó mà không cần phải tích hợp thêm chủ đề của câu hỏi.
Cuối cùng, các phương pháp biểu diễn từ bằng mô hình fastText, Word2vec và Glove được sử dụng để tính trọng số chú ý gkj để hướng dẫn mô hình học. Độ tương tự cosin được sử dụng để tínhgkj từ hai véc tơ biểu diễn từ. Véc tơ từ được học từ các mô hình khác nhau như fastText, Glove và Word2vec được thử nghiệm. Các mô hình này được huấn luyện trên tập dữ liệu cộng đồng không gán nhãn SemEval 2017 CQA. Bảng 2.5 chỉ ra kết quả khi thực hiện trên các biểu diễn này. Kết quả cho thấy rằng, với cách biểu diễn sử dụng fastText cho kết quả tốt nhất, cao hơn hẳn với mô hình Word2Vec và Glove. Nguyên nhân của việc dùng Word2vec và Glove cho kết quả thấp là do bộ từ điển của tập dữ liệu SemEval không nhãn lớn chứa nhiều từ hiếm trong khi fastText hoạt động tốt trên tập dữ liệu CQA do biểu diễn từ được tổng hợp từ các n-gram từ mô hình Word2vec [35]. fastText phù hợp với tập dữ liệu có bộ từ điển lớn (dữ liệu trình bày tại mục 2.4.1), học được ngữ nghĩa tốt hơn do đưa vào hình thái của từ qua n-gram.
Bảng 2.5: Bảng so sánh độ đo MAP với trọng số chú ýgkj được tính từ các biểu diễn từ khác nhauđể hướng dẫn mô hình Enhanced match-LSTM + supervised attention học trọng số chú ý trên tập