Phần này diễn tả chi tiết các kết quả thử nghiệm trên tập dữ liệu SemEval (bảng 2.3). Bảng kết quả bao gồm ba phần: từ dòng (A-D) mô tả kết quả thực hiện trên một số mô hình LSTM và CNN đã được đề xuất cho bài toán lựa chọn câu trả lời, từ dòng (E) đến dòng (F) là kết quả mô tả quá trình phát triển từ mô hình match-LSTM đến mô hình đề xuất. Dòng (H-J) là kết quả mới nhất công bố trên tập SemEval tính tới thời điểm mô hình mà mô hình match-LSTM
tích hợp cơ chế chú ý có giám sát được đề xuất.
Mô hình đề xuất được so sánh so sánh với các mô hình sau:
• Mô hìnhQCN [40]: xem xét phần chủ đề (subject) của câu hỏi như là phần chính của câu hỏi đồng thời tổng hợp với phần nội dung (body) của câu hỏi kết hợp với cơ chế chú ý để khai thác sự tương tác giữa câu hỏi và câu trả lời. Cuối cùng mô hình đi qua lớp mạng CNN để biểu diễn câu hỏi và câu trả lời.
• Mô hìnhKELP[83]: Mô hình này sử dụng nhân cú pháp (Syntactic Kernel) kết hợp với độ tương tự ngữ nghĩa, độ tương đồng từ vựng, độ tương đồng về ngữ pháp và một số đặc trưng đặc biệt khác đưa vào mô hình SVM để dự đoán. Đây là mô hình có kết quả đứng đầu trong cuộc thi SemEval 2017 với bài toán lựa chọn câu trả lời.
• Mô hình ECNU[84]: Mô hình này kết hợp hai mô hình bao gồm mô hình
có giám sát với các đặc trưng cơ bản và mô hình CNN để biểu diễn câu hỏi và câu trả lời.
• Các mô hình QA-LSTM, QA-LSTM-CNN, QA-LSTM attention [7]:
Các mô hình này thực hiện so khớp câu trả lời với câu hỏi liên quan về mặt ngữ nghĩa phức tạp trong câu. Trong đó mô hình QA-LSTM-CNN là mô hình lai giữa LSTM và CNN dùng cho bài toán QA. Sau đó cơ chế chú ý được kết hợp sử dụng vào mô hình QA-LSTM để học biểu diễn câu trả lời tốt hơn khi đưa câu hỏi đầu vào. Mỗi đầu ra của mô hình LSTM trên câu trả lời tại bước thứ t được cập nhật qua các tham số của biểu diễn của câu hỏi và các trọng số chú ý.
• Mô hìnhEnhance-LSTM [85]: Mô hình này lúc đầu được đề xuất cho bài
toán suy diễn ngôn ngữ bằng cách xem xét các kiến trúc đệ quy kết hợp với mô hình suy diễn cục bộ và suy diễn kết hợp.
Các mô hình trong bảng 2.3 từ dòng (A) đến dòng (G) được cài đặt và thực thi trực tiếp trên Tensorflow. Kết quả của các mô hình trong các dòng (H-J) được thống kê lại trong bài báo gốc trên tập dữ liệu SemEval.
Bảng 2.3 cho thấy mô hình match-LSTM gốc lúc đầu cho hiệu năng tương đương với các mô hình LSTM và CNN khác ở dòng (A-D). Khi thêm một số mở rộng vào mô hình này như trình bày ở phần 2.3.2, độ đo MAP và MRR của mô hình này đều tăng một cách ổn định trên cả hai tập SemEval 2016 và SemEval
Bảng 2.4: Bảng kết quả so sánh mô hình math-LSTM và các mô hình mở rộng từ mô hình này khithực hiện nối subject+body của câu hỏi thực hiện nối subject+body của câu hỏi
Models SemEval CQA 2017 SemEval CQA 2016
MAP MRR MAP MRR
match-LSTM (body) 86,51 92,12 77,70 83,76
math-LSTM (subject+body) 86,59 91,68 77,71 83,45
Enhanced match-LSTM (body) 87,87 92,28 78,10 84,21
Enhance match-LSTM (subject+body) 87,81 91,21 78,00 84,20
Enhanced match-LSTM + sup. att.(body) 88,38 93,13 78,62 84,56
Enhanced match-LSTM + sup. att.(sub.+body) 87,89 92,20 78,55 84,45
2017. Đặc biệt mô hình Enhanced match-LSTM tại dòng (F) cao hơn các mô hình LSTM ở dòng (A) tới (D) ở cả hai tập SemEval CQA 2016 và SemEval CQA 2017.
Khi thêm cơ chế chú ý có giám sát (trình bày tại phần 2.3.3) hiệu năng của mô hình tăng đáng kể trên cả hai tập dữ liệu này. Mô hình đề xuất đạt MRR cao nhất trên tập SemEval CQA 2017 là 93,13% ở dòng (G) so với tất cả các mô hình còn lại. Còn MAP và MRR trên tập SemEval CQA 2016 thấp hơn so với mô hình đứng đầu KELP. Điều này chứng tỏ rằng cơ chế chú ý có giám sát có khả năng học được ngữ nghĩa câu hỏi và câu trả lời tốt hơn so với các mô hình LSTM trước đó. Đặc biệt là cơ chế chú ý có giám sát không những học được nhiều ngữ nghĩa hơn trong việc gióng từ (thảo luận phần 2.4.4 bên dưới) mà còn giúp cho mô hình dự đoán câu trả lời tốt hơn. Cụ thể là mô hình tích hợp đã vượt qua đội KELP với độ đo MRR trên tập SemEval CQA 2017, còn lại độ đo MAP ngang bằng với các kết quả đứng đầu trong hai tập dữ liệu này. Để thăm dò sự ảnh hưởng của phần chủ đề (subject) trong câu hỏi, phần chủ đề được nối với thân của câu hỏi (subject+body) tạo thành nội dung của câu hỏi. Kết quả tại bảng 2.4 cho thấy rằng chủ đề của câu hỏi không ảnh hưởng đến kết quả của mô hình đề xuất mà thậm chí kết quả còn thấp hơn trên cả hai mô hình Enhanced match-LSTM và mô hình tích hợp cơ chế chú ý có giám sát [40]. Điều đó chứng tỏ rằng mô hình có khả năng tổng hợp ngữ nghĩa của câu hỏi và câu trả lời tốt hơn các mô hình LSTM trước đó mà không cần phải tích hợp thêm chủ đề của câu hỏi.
Cuối cùng, các phương pháp biểu diễn từ bằng mô hình fastText, Word2vec và Glove được sử dụng để tính trọng số chú ý gkj để hướng dẫn mô hình học. Độ tương tự cosin được sử dụng để tínhgkj từ hai véc tơ biểu diễn từ. Véc tơ từ được học từ các mô hình khác nhau như fastText, Glove và Word2vec được thử nghiệm. Các mô hình này được huấn luyện trên tập dữ liệu cộng đồng không
gán nhãn SemEval 2017 CQA. Bảng 2.5 chỉ ra kết quả khi thực hiện trên các biểu diễn này. Kết quả cho thấy rằng, với cách biểu diễn sử dụng fastText cho kết quả tốt nhất, cao hơn hẳn với mô hình Word2Vec và Glove. Nguyên nhân của việc dùng Word2vec và Glove cho kết quả thấp là do bộ từ điển của tập dữ liệu SemEval không nhãn lớn chứa nhiều từ hiếm trong khi fastText hoạt động tốt trên tập dữ liệu CQA do biểu diễn từ được tổng hợp từ các n-gram từ mô hình Word2vec [35]. fastText phù hợp với tập dữ liệu có bộ từ điển lớn (dữ liệu trình bày tại mục 2.4.1), học được ngữ nghĩa tốt hơn do đưa vào hình thái của từ qua n-gram.
Bảng 2.5: Bảng so sánh độ đo MAP với trọng số chú ýgkj được tính từ các biểu diễn từ khác nhauđể hướng dẫn mô hình Enhanced match-LSTM + supervised attention học trọng số chú ý trên tập để hướng dẫn mô hình Enhanced match-LSTM + supervised attention học trọng số chú ý trên tập SemEval 2017. Mô hình MAP fastText 88,38 Word2vec 85,51 Glove 85,00 2.4.4. Trực quan hóa các trọng số chú ý
(a) Cơ chế chú ý có giám sát với độ tương tự từ (b) Cơ chế chú ý có giám sát với độ tương tự từ vàtfidf
Hình 2.5: Một ví dụ minh họa trọng số chú ý được học bởi mô hình match-LSTM kết hợp với cơ chếchú ý có giám sát với cặp câu hỏi và câu trả lời tốt của nó. chú ý có giám sát với cặp câu hỏi và câu trả lời tốt của nó.
Hình 2.5 và hình 2.6 được sử dụng để trực quan hóa trọng số chú ý giữa từ với từ của câu trả lời (tương ứng với trục tung) và câu hỏi (tương ứng với trục hoành). Qua việc trực quan hóa trọng số chú ý cũng giải thích về tính hiệu quả của mô hình đề xuất. Mỗi hình vuông nhỏ là mô tả trọng số chú ýαkj giữa một từ của câu trả lời với một từ trong câu hỏi. Hình vuông có màu đậm hơn mô tả trọng số chú ý αkj lớn hơn. Nhìn chung, mô hình match-LSTM kết hợp cơ chế
(a) Cơ chế chú ý có giám sát với độ tương tự từ (b) Cơ chế chú ý có giám sát với độ tương tự từ vàtfidf
Hình 2.6: Một ví dụ về trọng số chú ý được học bởi mô hình match-LSTM kết hợp với cơ chế chú ýcó giám sát với cặp câu hỏi và câu trả lời không tốt của nó. có giám sát với cặp câu hỏi và câu trả lời không tốt của nó.
chú ý có giám sát học ra trọng số chú ý của từ trong câu trả lời với các từ trong câu hỏi tốt hơn so với mô hình match-LSTM gốc ban đầu (so với hình 2.2 của mô hình gốc).
Xem xét chi tiết hơn, ở hình 2.5 các từ chứa nội dung của trả lời như ‘Pak- istanis’, ‘ban’, và ‘get’ và các từ chứa nội dung của câu hỏi như ‘nationalities’, ‘banned’, và‘apply’ được ánh xạ rất chính xác. Từ’ban’ và ’banned’ về bản chất có cùng từ gốc giống nhau. Mô hình đề xuất cũng dự đoán được các từ tương đồng ngữ nghĩa như‘Pakistanis’ và‘nationalities’, từ’get’ và ’apply’. Cuối cùng khi quan sát kĩ hơn trong hình 2.5(a), các từ dừng và dấu ngắt câu vẫn được ánh xạ tới các từ khác. Trong khi đó ở hình 2.5(b) nhờ vào trọng số tf.idf trong công thức 2.9 mà các từ dừng và dấu ngắt câu học được ánh xạ vào các từ đặc biệt <eos> được thêm vào cuối câu hỏi. Điều này thể hiện qua cột ô vuông ở cuối của hình 2.5(b) chứa nhiều các ô vuông màu xanh đậm. Hơn nữa, trong hình vẽ này cho thấy rằng các từ dừng và dấu ngắt câu trong câu hỏi không chú ý tới các từ trong câu trả lời nữa. Do đó, đoạn văn bản dư thừa không mang nội dung như lời chào hỏi hay những đoạn không mang ý nghĩa đều có trọng số chú ý thấp với các từ trong câu còn lại.
Tương tự với hình 2.6 đối với cặp câu hỏi và câu trả lời có nhãn là 0. Từ mang nội dung như ’your nationality’ được ánh xạ tới từ ’nationalities’ ở hình 2.6(b). Cũng do câu hỏi và câu trả lời về cơ bản không liên quan về ngữ nghĩa tới nhau cho nên phần ánh xạ giữa các từ trong hai câu này không rõ ràng.
Tất cả những lý giải trên chứng tỏ rằng mô hình đề xuất học được những phần quan trọng mang nội dung của câu trả lời và ánh xạ với nội dung liên quan của câu hỏi tốt hơn so với mô hình gốc.
2.5. Kết luận chương 2
Tóm lại, chương 2 của luận án thực hiện các công việc như sau:
• Các mô hình LSTM cơ bản như QA-LSTM, QA-LSTM-CNN, QA-LSTM- attention và Enhance-LSTM được cài đặt thử nghiệm lại trên bài toán lựa chọn câu trả lời.
• Mô hình match-LSTM được đề xuất sử dụng trên bài toán lựa chọn câu trả lời. Sau đó, mô hình này được mở rộng để phù hợp hơn với dữ liệu mạng xã hội. Cụ thể như kết hợp biểu diễn từ ở mức kí tự. Mô hình biLSTM được kết hợp với biểu diễn từ sử dụng mô hình Glove làm đầu vào của mô hình. Cách kết hợp này giúp khắc phục tình trạng OOV trong dữ liệu mạng xã hội.
• Đặc biệt, cơ chế chú ý có giám sát được tích hợp vào mô hình mở rộng để hướng dẫn mô hình học theo chú ý xác định trước. Thực nghiệm cho thấy mô hình học ra trọng số chú ý tốt hơn với mô hình gốc.
• Để giải thích hiệu quả của mô hình đề xuất, các trọng số chú ý của từng từ trong câu trả lời với các từ trong câu hỏi được trực quan hóa đối với cặp câu hỏi và câu trả lời tốt, câu hỏi với câu trả lời không tốt.
Các kết quả được trình bày trong chương 2 được công bố trong bài báo "Supervised Attention for Answer Selection in Community Question Answering" tại tạp chí IAES International Journal of Artificial Intelligence (IJ-AI)3 của Indonesia trong danh mục Scopus.
3http://ijai.iaescore.com/index.php/IJAI/article/view/20375
Bảng 4.1: Bảng thống kê tập dữ liệu có nhãn trên miền thương mại điện tử tiếng Việt
Số lượng cặp câu hỏi Số câu hỏi gốc
Train 5.996 615
Dev 847 86
Test 1.068 110
Số lượng cặp câu negative 5.177
Số lượng cặp câu positive 2.734
Độ dài trung bình (syllable) 27
Số câu hỏi có 1 câu (sentence) 5.294 Số câu hỏi có từ hai câu trở lên 2.539 Số từ trong từ điển (syllable) 5.821 Số từ trong từ điển (tách từ tiếng Việt) 6.337
Bảng 4.2: Bảng thống kê tập dữ liệu không gán nhãn được thu thập trên website Thế giới di động. Kích thước tập dữ liệu không gán nhãn 1.1M
Kích thước của từ điển (syllable) 151.735 Độ dài trung bình (syllable) 31
giống nhau được tiến hành rà soát lại và thống nhất kết quả gán nhãn cuối cùng.
• Cuối cùng, các câu hỏi gốc mà không có câu hỏi nào tương đồng cũng bị loại khỏi tập dữ liệu. Để làm tăng độ khó của tập dữ liệu, các cặp câu hỏi dễ (là những câu dễ dàng tìm được qua máy tìm kiếm, thường có ít thách thức về khoảng cách từ vựng) cũng được rà soát lại và đưa ra quyết định có bị loại khỏi tập dữ liệu hay không.
Sau khi có tập dữ liệu các cặp câu được gán nhãn, tập dữ liệu này được chia tập dữ liệu thành 3 tập: tập huấn luyện, tập phát triển và tập kiểm thử (cụ thể trong bảng 4.1). Tập dữ liệu thu được có 30% dữ liệu có nhãn1 có liên quan tới câu hỏi gốc.
Đồng thời trong quá trình thu thập dữ liệu, bộ dữ liệu không gán nhãn (bảng 4.2) được giữ lại để huấn luyện các mô hình ngôn ngữ. Tập này dùng để học biểu diễn của từ trong giai đoạn huấn luyện BERT.
Trong quá trình làm dữ liệu, máy tìm kiếm Elastic phiên bản 6.6.1 được sử dụng4. Đây là máy tìm kiếm được xây dựng trên thư viện Lucence. Máy tìm kiếm Elastic tìm kiếm và trả lại kết quả là danh sách các câu hỏi liên quan với
4https://www.elastic.co/downloads/past-releases/elasticsearch-6-6-1
câu hỏi gốc theo độ đo5 được tính như sau:
score(q, d) =queryN orm(q)∗coord(q, d)∗X(tf(t)∗idf(t)2∗t.getBoost()∗norm(t, d)),
(4.1) trong đó: t là từ trong văn bản d, score(q, d) là độ đo mức độ liên quan của văn bảnd với truy vấn q, queryN orm(q) là hệ số chuẩn hóa truy vấn để các truy vấn này có thể so sánh được với các truy vấn khác, coord(q, d) là hệ số ngang hàng, thông thường những văn bản chứa nhiều từ trong truy vấn q sẽ có điểm số cao hơn, t.getBoost() là hệ số tăng cường truy vấn, norm(t, d) chuẩn hóa trường độ dài
4.4. Mô hình BERT cho bài toán tìm kiếm câu hỏi tương đồng4.4.1. Mô hình BERT 4.4.1. Mô hình BERT
Mô hình học sâu được nghiên cứu với mục đích hiểu ngôn ngữ [36]. Các nghiên cứu này sử dụng rất nhiều phương pháp khác nhau như dự đoán từ tiếp theo, dự đoán câu kế tiếp hoặc là dự đoán từ được giấu đề xuất ra mô hình với mục đích học được ngữ nghĩa và cú pháp của câu [5]. Một trong những mô hình mà đạt hiệu năng vượt trội hơn các mô hình ngôn ngữ trước đó là mô hình BERT [5]. Mô hình BERT bao gồm nhiều tầng mã hóa của Transformer [2] xếp chồng lên
nhau. BERT gồm hai loại BERTBASE và BERTLARGE với số lượng các lớp mã
hóa của Transformer, kích thước của lớp ẩn và số lượng các Self-attention head
khác nhau. BERTBASE bao gồm 12 lớp mã hóa của Transformer, kích thước
của lớp ẩn là 768, 12 lớp Self-attention và số lượng tham số cần học là 110M.
BERTLARGE bao gồm 24 lớp mã hóa của Transformer, số chiều của lớp ẩn là 1024, 16 lớp Self-attention và số tham số 340M.BERTBASE được sử dụng trong luận án do nó phù hợp với dữ liệu nhỏ. Mô hình này có đầu vào là từ nhúng kết hợp với vị trí nhúng (position-embedding). Sau đó, đầu vào được đưa qua 12 lớp mã hóa của Transformer. Lớp Multi-headed attention tính các lớp biểu diễn mới của từ qua các lớp trước (mô hình Transformer được trình bày ở chương 1). Như vậy mô hình sẽ sinh ra 12 biểu diễn trung gian của từ có số chiều như nhau. Mô hình này được điều chỉnh cả bài toán ở mức câu và mức từ mà đều cho kết quả tốt. Mô hình BERT sinh ra biểu diễn của câu qua việc học hai nhiệm vụ: mô hình ngôn ngữ được mang mặt nạ (masked language model) và dự đoán câu tiếp theo (next sentence prediction).
5https://www.elastic.co/guide/en/elasticsearch/guide/current/practical-scoring-function.html