lời. Sau đó, mô hình được mở rộng như sau ( hình 2.4):
• Đầu tiên, mô hình biLSTM (Bidirectional LSTM) được sử dụng để học ra
biểu diễn của từ ở mức độ kí tự. Sau đó, véc tơ này được nối với véc tơ từ nhúng Glove làm đầu vào của mô hình. Từ nhúng được học ở mức độ kí tự đã được chứng minh là học ra được biểu diễn từ nhúng có ý nghĩa cho cả ngôn ngữ hình thức và không hình thức [81, 82]. Trong CQA, ngôn ngữ sử dụng thông thường là ngôn ngữ theo kiểu văn nói, không hình thức. Trong đó, câu có thể chứa các từ viết tắt, lỗi chính tả, biểu tượng cảm xúc, và lỗi cú pháp. Sử dụng thêm từ nhúng ở mức kí tự có thể giúp làm giảm ảnh hưởng của hiện tượng OOV (Out of Vocabulary, trong tập test có thể có những từ không có trong bộ từ vựng của tập huấn luyện). Biểu diễn này mang lại hiệu quả với những tập dữ liệu nhỏ mà số lượng từ không có trong tập từ điển lớn như tập SemEval. Để đạt được ngữ cảnh theo trình tự xuôi và ngược của từ, mô hình biLSTM được sử dụng để học ra biểu diễn của từ. Các nghiên cứu [81, 82] cũng chỉ ra rằng sử dụng từ nhúng ở mức độ kí tự cũng làm tăng hiệu năng của mô hình.
• Thứ hai, thay vì chỉ sử dụng véc tơ ẩn cuối cùng của đường mLSTM để dự đoán, hai phép toán lấy Max-pooling và Average-pooling của tất cả các véc tơ ẩn của mLSTM được sử dụng để tổng hợp thông tin của mô hình. Tiếp theo, véc tơ Max-pooling và Average-pooling được nối với nhau để đưa vào
dự đoán.
Hàm loss−f unction của mô hình gốc và mô hình nâng cao sử dụng hàm cross-entropy như sau:
Lmodel =−1 S
X
(ylogby+ (1−y)log(1−by)) + γ
2S||W||22, (2.6) trong đóSlà số lượng các cặp câu hỏi và câu trả lời của tập huấn luyện, γ là
tham số điều chỉnh,W là ma trận các tham số của mô hình match-LSTM.
• Cuối cùng, cơ chế chú ý có giám sát được tích hợp vào mô hình mở rộng với mục đích học ra gióng các từ trong câu trả lời với các từ trong câu hỏi mang nhiều ý nghĩa hơn. Mô tả chi tiết được trình bày mục 2.3.3 dưới đây.
2.3.3. Cơ chế chú ý có giám sát
gkj là kí hiệu trọng số chú ý đích để hướng dẫn mô hình học theo. gkj là tri thức từ bên ngoài. Giá trị này là trọng số chú ý của từ thứk của câu trả lời với
từ thứ j của câu hỏi mà mô hình mong muốn đạt tới, trong đó P
jgkj = 1. Sự sai khác giữa trọng số chú ý mà mô hình mở rộng hướng tớigkj với trọng số αkj
của mô hình học được theo trong công thức 2.2 như sau:
Lsupervised = 1 S S X 1 ( N X k=1 M X j=1 (gkj −αkj)2) (2.7)
Sau đó, hàm mất mát (2.6) và (2.7) được kết hợp vào mô hình mở rộng như sau:
L=Lmodel+λLsupervised, (2.8) trong đó S là số cặp câu hỏi và câu trả lời,λ là hệ số được điều chỉnh để điều khiển sự ảnh hưởng của các mô hình khác khau.
Một cách trực giác, chúng ta mong muốn các từ gần nhau về mặt ngữ nghĩa sẽ được gióng phù hợp với nhau trong mô hình đề xuất.
Để tính trọng số gkj, hàm tính độ tương tự cosin được sử dụng. Véc tơ biểu diễn từ được học từ mô hình fastText [35] trên tập dữ liệu hỏi đáp cộng đồng SemEval 2016 và SemEval 2017 ngôn ngữ tiếng Anh không gán nhãn. fastText là mô hình học biểu diễn từ qua việc tổng hợp từ các véc tơ n-gram kí tự, trong đó mỗi từ được biểu diễn qua túi n-gram kí tự (ví dụ từ ’where’ biểu diễn qua
Bảng 2.1: Bảng thống kê số cặp câu hỏi-câu trả lời trong tập dữ liệu SemEval CQA.
SemEval 2016 SemEval 2017
Train 36.198 39.468
Dev 2.440 3.270
Test 3.270 2.930
Độ dài trung bình của phần nội dung câu hỏi 49.4 45.8 Độ dài trung bình của câu trả lời 38.8 38.0
Kích thước từ điển 61.271 63.758
3-gram là ’<wh’, ’whe’, ’her’, ’ere’, ’re>’). Phương pháp biểu diễn này là biểu diễn hiệu quả với tập dữ liệu có nhiều từ không có trong tập từ vựng.
Sau đó, trọng số tf.idf được thêm vào công thức tính gkj để nhấn mạnh các từ chứa nội dung trong câu. Công thức cụ thể như sau:
g0kj =tf.idf(wqj)cosine(wtk,wqj), (2.9) trong đó wt
k và wqj là các véc tơ từ học từ mô hình fastText. Để tính trọng số
tf.idf, mỗi văn bản là câu hỏi hoặc câu trả lời trên tập dữ liệu không gán nhãn. Từ đặc biệt < eos > được thêm vào cuối câu hỏi và câu trả lời với mục đích để các từ không chứa nội dung quan trọng trong câu sẽ ánh xạ vào từ đặc biệt này.
Cuối cùng trọng số gkj được chuẩn hóa sử dụng hàm softmax:
gkj = exp(gkj)
PM
i=1exp(gki0 )
, (2.10)
trong đók = 1..N, j = 1..M, M là số từ của câu hỏi, N là số từ trong câu trả lời.
2.4. Các thử nghiệm và kết quả 2.4.1. Tập dữ liệu
Tập dữ liệu SemEval có nhãn [21, 20] được sử dụng để đánh giá mô hình. Dữ liệu trên tập này được lấy từ forum Qatar Living về các chủ đề dành cho những người nước ngoài đã và sẽ tới Qatar. Tập dữ liệu này được chia thành 3 tập: tập huấn luyện, tập phát triển và tập kiểm thử. Bảng 2.1 là dữ liệu thống kê trên tập dữ liệu này.
Ngoài ra tập dữ liệu không có nhãn được cung cấp bởi cuộc thi Sememval 20171 bao gồm 189.941 câu hỏi và 1.894.456 câu trả lời với kích thước từ điển là
1https://alt.qcri.org/semeval2017/task3/index.php?id=data-and-tools
63.758 từ được dùng để huấn luyện các từ nhúng Word2vec, Glove và fastText sử dụng thử nghiệm trong mô hình.
Độ đo MAP(Mean Average Precision) và MRR (Mean Reciprocal Rank) được sử dụng để đánh giá hiệu năng của mô hình với kịch bản được cung cấp bởi cuộc thi SemEval2.
MRR được tính theo công thức sau:
M RR= 1 |Q| |Q| X i=1 1 ranki , (2.11)
trong đóranki là vị trí của câu trả lời đúng đầu tiên tương ứng với câu hỏi thứ
i. Trong khi độ đo MRR đo thứ hạng của câu trả lời đúng đầu tiên thì MAP lại xem xét tất cả thứ hạng của câu trả lời đúng. MAP được tính như sau:
M AP = 1 |Q| |Q| X j=1 1 mj |mj| X k=1 P recision(Rjk), (2.12)
trong đó Rjk là tập kết quả tìm kiếm được xếp hạng từ kết quả tốt nhất cho đến khi tìm thấy câu trả lời thứ k, mj là số câu trả lời đúng cho câu hỏi thứ j
trong số Q câu hỏi.
2.4.2. Chọn các tham số trong các mô hình
Mô hình Glove [31] được sử dụng với số chiều là 300 cho lớp đầu vào cho tất cả các mô hình. Những từ không có trong từ điển được khởi tạo một cách ngẫu nhiên. Số chiều của biểu diễn từ ở mức độ kí tự được chọn là 50 trong các mô hình match-LSTM và mô hình mở rộng được học qua mô hình biLSTM. Số chiều của véc tơ ẩn của các đường LSTM trong tất cả các mô hình được thiết lập là 300. Số chiều véc tơ ẩn của đường mLSTM trong mô hình match-LSTM và mô hình mở rộng là 600. Véc tơ từ được học qua mô hình fastText [35] để tính toán độ tương tự trong phần cơ chế chú ý có giám sát là 100.
Các tham số của các mô hình được cài đặt để so sánh với mô hình đề xuất được thống kê trong bảng 2.2.
Thuật toán tối ưu Adam được sử dụng với tốc độ học η= 0,0001 và hai tham số β1= 0,9và β2 = 0,999. Hệ số điều chỉnh λ và γ được thiết lập là 0,0001, kích thước lô - batch size là 64. Để tránh hiện tượng quá khớp, các kỹ thuật drop-out được sử dụng với tỉ lệ là 30% của tất cả các lớp ẩn và dừng sớm trên tập phát triển tại epoch thứ 32.
2https://alt.qcri.org/semeval2017/task3/
Bảng 2.2: Các tham số của các mô hình thực nghiệm
Mô hình Thiết lập các tham số
QA-LSTM Kích thước véc tơ ẩn LSTM : 300 QA-LSTM-CNN
Kích thước véc tơ ẩn LSTM : 300,
Sử dụng kết hợp các kích thước nhân của kernel CNN là 2 *300, 3*300, 4*300, 5*300.
QA-LSTM-attention Kích thước véc tơ ẩn LSTM : 300 Enhanced LSTM Kích thước vector ẩn LSTM : 300 Match LSTM Kích thước véc tơ ẩn LSTM : 300,
Kích thước vector ẩn mLSTM: 600 Enhenced match LSTM
Kích thước véc tơ ẩn LSTM : 300, Kích thước véc tơ ẩn mLSTM : 600,
Kích thước của véc tơ từ mức kí tự biLSTM:50
Enhanced match-LSTM +Sup.att
Kích thước véc tơ ẩn LSTM : 300, Kích thước véc tơ ẩn mLSTM : 600,
Kích thước của véc tơ từ học ở mức kí tự biLSTM: 50, Số chiều của mô hình fastText: 100
Bảng 2.3: Kết quả so sánh mô hình đề xuất với các mô hình khác trên tập dữ liệu SemEval 2016 và2017 2017
Models SemEval 2017 SemEval 2016
MAP MRR MAP MRR (A) QA-LSTM 86,68 91,01 74,36 83,4 (B) QA-LSTM-CNN 87,17 92,59 74,97 83,56 (C) QA-LSTM-attention 87,39 91,50 75,87 82,88 (D) Enhanced LSTM 87,23 93,04 76,46 83,51 (E) match-LSTM 86,51 92,12 77,70 83,76 — (E) + Max-pooling 86,90 92,13 78,00 83,90
— (E) + Max-pooling + CharRNN 87,10 92,26 78,01 84,11 (F) Enhanced match-LSTM 87,87 92,28 78,10 84,21
(G) Enhanced match-LSTM + sup. att. 88,38 93,13 78,62 84,56
(H) QCN 88,51 - - -
(I) KELP 88,43 92,82 79,19 86,42
(J) ECNU 86,72 91,45 77,28 84,09
Các mô hình được thử nghiệm trên Tensorflow và cài đặt bằng ngôn ngữ Python 3.6 và tất cả thử nghiệm này được thực hiện trên GPU Nvidia Tesla p100 16Gb. Tập phát triển được sử dụng để lựa chọn siêu tham số tốt nhất để thiết lập trên tập kiểm thử.
2.4.3. Kết quả và các thảo luận
Phần này diễn tả chi tiết các kết quả thử nghiệm trên tập dữ liệu SemEval (bảng 2.3). Bảng kết quả bao gồm ba phần: từ dòng (A-D) mô tả kết quả thực hiện trên một số mô hình LSTM và CNN đã được đề xuất cho bài toán lựa chọn câu trả lời, từ dòng (E) đến dòng (F) là kết quả mô tả quá trình phát triển từ mô hình match-LSTM đến mô hình đề xuất. Dòng (H-J) là kết quả mới nhất công bố trên tập SemEval tính tới thời điểm mô hình mà mô hình match-LSTM
tích hợp cơ chế chú ý có giám sát được đề xuất.
Mô hình đề xuất được so sánh so sánh với các mô hình sau:
• Mô hìnhQCN [40]: xem xét phần chủ đề (subject) của câu hỏi như là phần chính của câu hỏi đồng thời tổng hợp với phần nội dung (body) của câu hỏi kết hợp với cơ chế chú ý để khai thác sự tương tác giữa câu hỏi và câu trả lời. Cuối cùng mô hình đi qua lớp mạng CNN để biểu diễn câu hỏi và câu trả lời.
• Mô hìnhKELP[83]: Mô hình này sử dụng nhân cú pháp (Syntactic Kernel) kết hợp với độ tương tự ngữ nghĩa, độ tương đồng từ vựng, độ tương đồng về ngữ pháp và một số đặc trưng đặc biệt khác đưa vào mô hình SVM để dự đoán. Đây là mô hình có kết quả đứng đầu trong cuộc thi SemEval 2017 với bài toán lựa chọn câu trả lời.
• Mô hình ECNU[84]: Mô hình này kết hợp hai mô hình bao gồm mô hình
có giám sát với các đặc trưng cơ bản và mô hình CNN để biểu diễn câu hỏi và câu trả lời.
• Các mô hình QA-LSTM, QA-LSTM-CNN, QA-LSTM attention [7]:
Các mô hình này thực hiện so khớp câu trả lời với câu hỏi liên quan về mặt ngữ nghĩa phức tạp trong câu. Trong đó mô hình QA-LSTM-CNN là mô hình lai giữa LSTM và CNN dùng cho bài toán QA. Sau đó cơ chế chú ý được kết hợp sử dụng vào mô hình QA-LSTM để học biểu diễn câu trả lời tốt hơn khi đưa câu hỏi đầu vào. Mỗi đầu ra của mô hình LSTM trên câu trả lời tại bước thứ t được cập nhật qua các tham số của biểu diễn của câu hỏi và các trọng số chú ý.
• Mô hìnhEnhance-LSTM [85]: Mô hình này lúc đầu được đề xuất cho bài
toán suy diễn ngôn ngữ bằng cách xem xét các kiến trúc đệ quy kết hợp với mô hình suy diễn cục bộ và suy diễn kết hợp.
Các mô hình trong bảng 2.3 từ dòng (A) đến dòng (G) được cài đặt và thực thi trực tiếp trên Tensorflow. Kết quả của các mô hình trong các dòng (H-J) được thống kê lại trong bài báo gốc trên tập dữ liệu SemEval.
Bảng 2.3 cho thấy mô hình match-LSTM gốc lúc đầu cho hiệu năng tương đương với các mô hình LSTM và CNN khác ở dòng (A-D). Khi thêm một số mở rộng vào mô hình này như trình bày ở phần 2.3.2, độ đo MAP và MRR của mô hình này đều tăng một cách ổn định trên cả hai tập SemEval 2016 và SemEval
Bảng 2.4: Bảng kết quả so sánh mô hình math-LSTM và các mô hình mở rộng từ mô hình này khithực hiện nối subject+body của câu hỏi thực hiện nối subject+body của câu hỏi
Models SemEval CQA 2017 SemEval CQA 2016
MAP MRR MAP MRR
match-LSTM (body) 86,51 92,12 77,70 83,76
math-LSTM (subject+body) 86,59 91,68 77,71 83,45
Enhanced match-LSTM (body) 87,87 92,28 78,10 84,21
Enhance match-LSTM (subject+body) 87,81 91,21 78,00 84,20
Enhanced match-LSTM + sup. att.(body) 88,38 93,13 78,62 84,56
Enhanced match-LSTM + sup. att.(sub.+body) 87,89 92,20 78,55 84,45
2017. Đặc biệt mô hình Enhanced match-LSTM tại dòng (F) cao hơn các mô hình LSTM ở dòng (A) tới (D) ở cả hai tập SemEval CQA 2016 và SemEval CQA 2017.
Khi thêm cơ chế chú ý có giám sát (trình bày tại phần 2.3.3) hiệu năng của mô hình tăng đáng kể trên cả hai tập dữ liệu này. Mô hình đề xuất đạt MRR cao nhất trên tập SemEval CQA 2017 là 93,13% ở dòng (G) so với tất cả các mô hình còn lại. Còn MAP và MRR trên tập SemEval CQA 2016 thấp hơn so với mô hình đứng đầu KELP. Điều này chứng tỏ rằng cơ chế chú ý có giám sát có khả năng học được ngữ nghĩa câu hỏi và câu trả lời tốt hơn so với các mô hình LSTM trước đó. Đặc biệt là cơ chế chú ý có giám sát không những học được nhiều ngữ nghĩa hơn trong việc gióng từ (thảo luận phần 2.4.4 bên dưới) mà còn giúp cho mô hình dự đoán câu trả lời tốt hơn. Cụ thể là mô hình tích hợp đã vượt qua đội KELP với độ đo MRR trên tập SemEval CQA 2017, còn lại độ đo MAP ngang bằng với các kết quả đứng đầu trong hai tập dữ liệu này. Để thăm dò sự ảnh hưởng của phần chủ đề (subject) trong câu hỏi, phần chủ đề được nối với thân của câu hỏi (subject+body) tạo thành nội dung của câu hỏi. Kết quả tại bảng 2.4 cho thấy rằng chủ đề của câu hỏi không ảnh hưởng đến kết quả của mô hình đề xuất mà thậm chí kết quả còn thấp hơn trên cả hai mô hình Enhanced match-LSTM và mô hình tích hợp cơ chế chú ý có giám sát [40]. Điều đó chứng tỏ rằng mô hình có khả năng tổng hợp ngữ nghĩa của câu hỏi và câu trả lời tốt hơn các mô hình LSTM trước đó mà không cần phải tích hợp thêm chủ đề của câu hỏi.
Cuối cùng, các phương pháp biểu diễn từ bằng mô hình fastText, Word2vec và Glove được sử dụng để tính trọng số chú ý gkj để hướng dẫn mô hình học. Độ tương tự cosin được sử dụng để tínhgkj từ hai véc tơ biểu diễn từ. Véc tơ từ được học từ các mô hình khác nhau như fastText, Glove và Word2vec được thử nghiệm. Các mô hình này được huấn luyện trên tập dữ liệu cộng đồng không
gán nhãn SemEval 2017 CQA. Bảng 2.5 chỉ ra kết quả khi thực hiện trên các biểu diễn này. Kết quả cho thấy rằng, với cách biểu diễn sử dụng fastText cho kết quả tốt nhất, cao hơn hẳn với mô hình Word2Vec và Glove. Nguyên nhân của việc dùng Word2vec và Glove cho kết quả thấp là do bộ từ điển của tập dữ liệu SemEval không nhãn lớn chứa nhiều từ hiếm trong khi fastText hoạt động tốt trên tập dữ liệu CQA do biểu diễn từ được tổng hợp từ các n-gram từ mô hình Word2vec [35]. fastText phù hợp với tập dữ liệu có bộ từ điển lớn (dữ liệu trình bày tại mục 2.4.1), học được ngữ nghĩa tốt hơn do đưa vào hình thái của