4.4. Mơ hình BERT cho bài tốn tìm kiếm câu hỏi tương đồng
4.4.3. Các kết quả thực nghiệm và thảo luận
Các mơ hình học sâu được cài đặt bằng Tensorflow và chạy trên GPU Nvidia Tesla P100 16Gb. Độ đo MAP vẫn được sử dụng để đánh giá các mơ hình (đã được trình bày ở mục 2.4.1). Các siêu tham số được chọn qua tập phát triển.
Bảng 4.3: Độ đo MAP của một số mơ hình trên tập dữ liệu tiếng Anh - Semeval 2017 với cả hai bài tốn tìm câu hỏi tương đồng (task B) và lựa chọn câu trả lời (task A)
Mơ hình task B task A
KELP 49,00 88,43 SimBow 47,87
BERT 56.03 90.65
RoBERTa 54,16 90,30 XLnet 50,03 89,97
như BERT, RoBERTa, XLnet được thử nghiệm cho bài tốn tìm câu hỏi tương đồng (task A) và bài toán lựa chọn câu trả lời (task B) trên tập dữ liệu tiếng Anh - Semeval 2017 [21]. Bảng 4.3 mô tả kết quả khi điều chỉnh các mơ hình BERT [5], mơ hình XLnet [124] và RoBERTa [113] trên hai bài tốn tìm câu hỏi tương đồng và lựa chọn câu trả lời. Kết quả của các mơ hình được so sánh với kết quả của hai đội đứng đầu là KELP và SimBow trong cuộc thi Semeval 2017 trên bài tốn này. Mơ hình XLNet là mơ hình biến thể của mơ hình Transformer. XLnet được tạo ra nhờ sự kết hợp của RNN và Transformer, được huấn luyện trên 126GB dữ liệu văn bản tiếng Anh. XLnet cũng làm việc tốt trên các bài toán ở mức từ và mức câu. Tuy nhiên tốc độ học chậm hơn BERT do xử lý trình tự ở đầu vào. Mơ hình RoBERTa là mơ hình biến thể của mơ hình BERT. Mơ hình RoBERTa sử dụng mơ hình BERT nhưng khơng sử dụng cơ chế dự đoán câu kế tiếp mà sử dụng cơ chế mặt nạ động (dynamic masking) với dữ liệu huấn luyện lớn hơn BERT 10 lần (mơ hình BERT sử dụng khoảng 3.3GB text huấn luyện mơ hình). Kết quả tại bảng 4.3 cho thấy mơ hình BERT, RoBERTa và XLnet tốt hơn hẳn so với các đội cao nhất tại Semeval 2017. Các mơ hình này đã được chứng minh tính hiệu quả vượt trội so với các mơ hình học sâu trước đó trên các bài toán NLP dựa vào cơ chế tự chú ý của mơ hình Transformer. Trong đó BERT cho kết quả MAP cao nhất là 56.03%, cao hơn cả so với XLnet và RoBERTa. Đây là lý do mơ hình BERT được chọn sử dụng trên tập dữ liệu tiếng Việt.
Bảng 4.4 trình bày kết quả của các mơ hình trên tập dữ liệu tiếng Việt. Bảng này bao gồm ba phần: Các kết quả trên các mơ hình LSTM/CNN; Mơ hình BERT với các tiền huấn luyện trên các tập dữ liệu khác nhau và mơ hình BOW cơ sở.
Hình 4.3 mơ tả đường cong ROC (Receiver Operating Characteristic) với độ độ đo AUC (Area Under the Curve) của các mơ hình. Diện tích AUC vùng ở dưới đường cong ROC càng lớn thì mơ hình càng hiệu quả.
Bảng 4.4: Độ đo MAP của các mơ hình trên tập dữ liệu tiếng Việt. Mơ hình MAP LSTM 52,60 CNN 53,10 ABCNN 51,52 LSTM attention 55,50 BERT-multilingual 61,06 BERT4Vn 63,75 PhOBERT 65,50 BERT4ECOMMERCE 70,50 ElasticSearch 52,00 SVM 49,75
LSTM/CNN cho kết quả MAP cao hơn mơ hình cơ sở BOW của ElasticSearch và SVM. Nguyên nhân là do giữa hai câu hỏi có chứa ít từ trùng nhau làm cho các phương pháp so sánh từ trong ElasticSearch hoạt động không hiệu quả bằng các mơ hình học sâu. Trong khi những câu hỏi tương tự thường chứa từ và cụm từ khác nhau nhưng có nghĩa giống nhau. Trong khi đó mơ hình BERT với tiền huấn luyện trên tập dữ liệu khác tăng mạnh, đặc biệt là mơ hình BERT được tiền huấn luyện trên cùng tập dữ liệu thương mại điện tử đạt kết quả cao nhất là 70,50%. Mơ hình BERT-multilingual, BERT4Vn và BERT4ECOMMERCE được thực hiện trên bộ dữ liệu tách tiếng (syllabus), chỉ có PhOBERT được thực hiện trên dữ liệu tách từ tiếng Việt.
Việc thực thi chi tiết các mơ hình được mơ tả ở phần dưới đây:
Các mơ hình LSTM/CNN
Hình 4.4 mơ tả kiến trúc của các mơ hình học sâu vào bài tốn tìm kiếm câu hỏi tương đồng. Dưới đây là mơ tả cụ thể mơ hình đã cài đặt:
• Mơ hình LSTM (hình 4.4(a)): Cặp câu hỏi được mã hóa bởi hai mơ hình
LSTM và hai mơ hình được sử dụng cùng bộ tham số. Lớp ẩn cuối cùng của LSTM được sử dụng làm biểu diễn của câu hỏi. Cuối cùng, hai biểu diễn của hai câu hỏi được nối lại và cho qua lớp MLP để dự đốn.
• Mơ hình CNN (hình 4.4(c)): Kiến trúc của mơ hình này tương tự như mơ hình LSTM nhưng mơ hình LSTM được thay bằng mơ hình CNN.
• Mơ hình ABCNN [125] (hình 4.4(d)): Các từ của câu hỏi được biểu diễn bằng từ nhúng để thu được biểu diễn đặc trưng (represention feature map - màu đỏ, mỗi từ là một cột của ma trận). Sau đó ma trận chú ý A được tính qua việc so khớp từng từ qua biểu diễn của hai câu. Ma trận chú ý A
Hình 4.3: Đường cong ROC của các mơ hình dự đốn.
có nghĩa như sau: Dịng thứ icủa ma trận A thể hiện độ quan trọng của từ thứ i trong câu hỏi thứ nhất với toàn bộ các từ trong câu hỏi thứ 2. Còn cột thứ j của ma trận A là độ quan trọng của từ thứ j của câu thứ 2 với các từ còn lại trong câu thứ nhất. Sau đó ma trận A được phân tích thành hai ma trận đặc trưng chú ý (màu xanh - attention feature map) và hai ma trận này được sử dụng làm đầu vào của lớp tiếp theo.
• Mơ hình LSTM/CNN-attention (hình 4.4(b)): Trong mơ hình này, đầu ra
của hai câu hỏi sau khi qua mơ hình LSTM và CNN sẽ được sử dụng để tính ma trận trọng số chú ý từ với từ. Sau đó biểu diễn từ của câu thứ hai sẽ được cập nhật lại qua trọng số chú ý. Cuối cùng phép toán tổng hợp lớn nhất (max pooling) được sử dụng để thu thập các đặc trưng quan trọng trước khi đưa vào lớp dự đoán. Mơ hình này gần giống với mơ hình của Tan và cộng sự [7].
Các mơ hình này đều sử dụng biểu diễn từ nhúng word2vec được huấn luyện trước theo tiếng (từ tách theo dấu cách) trên tập dữ liệu không gán nhãn của Thế giới di động (bảng 4.2). Các lớp từ nhúng ban đầu được khởi tạo bởi véc tơ Word2vec được huấn luyện trước. Thuật toán Adam được sử dụng để giải hàm
x1(1) h1(1) x2(2) x2(1) h2(n) …. h2(1) h1(2) h2(2) h1(m) …. x1(2) x1(m) h h2(0) h1(0) x2(n) Predict Question 1 Question 2 (a) Mơ hình LSTM ---- Question 1 Pooling ---- Question 2 BiLSTM concate(sum,multiply) MLP Predict CNN CNN Pooling (b) Mơ hình LSTM/CNN-attention Question 1 Question 2 W or d em bedd ing CNN Ma x pool ing Predict (c) Mơ hình CNN Question 1 Question 2 Max pooling concatenate predict (d) Mơ hình ABCNN
Bảng 4.5: Bảng chọn siêu tham số cho các mơ hình LSTM/CNN
Emb-size Hid/filter-size L-rate Pdrop Batch size epochs Params (x105)
LSTM 300 300 0,0001 0,2 64 25 21
LSTM/CNN-att 300 300 0,0001 0,2 64 25 27
CNN 300 3 0,003 0,5 64 25 33
ABCNN 300 3 0,001 0,2 32 25 34
tối ưu [102]. Các siêu tham số của các mơ hình được chọn theo bảng 4.5 :
Tiền huấn luyện và điều chỉnh BERT
Ở bước tiền huấn luyện: Đầu tiên, biểu diễn từ được huấn luyện từ mơ hình multilingua-BERTBASE (kí hiệu mBERT)6 được sử dụng. Từ nhúng từ mơ hình mBERT được huấn luyện từ bộ dữ liệu Wikipedia với 104 ngôn ngữ với bộ từ vựng chung cho tất cả các ngơn ngữ trong đó có tiếng Việt.
Để các từ nhúng học được từ mơ hình phù hợp với ngữ cảnh trong miền dữ liệu thương mại điện tử, mơ hình mBERT được điều chỉnh trên tập dữ liệu không gán nhãn (bảng 4.2). Các từ nhúng này được sử dụng là đầu vào để điều chỉnh mơ hình BERT trên bài tốn tìm kiếm câu hỏi với dữ liệu có nhãn. Để so sánh hiệu quả của việc dùng biểu diễn từ mà được huấn luyện trên miền dữ liệu thương mại điện với từ nhúng được huấn luyện trên các tập dữ liệu tiếng Việt với nguồn khác nhau, các mơ hình sau được sử dụng để so sánh:
• BERT-Multilingual [123]: với kích thước từ vựng 110K được huấn luyện trên tập Wikipedia của 104 ngơn ngữ trong đó có tiếng Việt.
• BERT4VN7: Được huấn luyện trên tập dữ liệu khoảng 20GB từ các báo
và Wikipedia tiếng Việt. Cũng giống như mBERT, BERT4VN cũng được huấn luyện theo subtoken của từ theo âm tiết.
Các tham số trong giai đoạn huấn luyện BERT trên tập dữ liệu không gán nhãn với miền dữ liệu thương mại điện tử tiếng Việt như sau: số chiều của từ nhúng là 768, kích thước lơ là 32, tốc độ học là 2e−5 và dừng ở số bước là 2000, thời gian huấn luyện khoảng 2 ngày trên trên GPU Tesla V100. Mơ hình BERT mà sử dụng tiền huấn luyện trên tập dữ liệu thương mại điện tử tiếng Việt được gọi là BERT4ECOMMERCE
Sau đó, mơ hình BERT được điều chỉnh trên bài tốn tìm kiếm câu hỏi trên tập dữ liệu thương mại điện tử tiếng Việt có nhãn (bảng 4.1).
6
https://github.com/google-research/bert
7
Bảng 4.6: Bảng chọn các siêu tham số của mơ hình BERT khi điều chỉnh trên bài tốn tìm kiếm câu hỏi trên tập dữ liệu thương mại điện tử có nhãn tiếng Việt
chiều dài tối đa tốc độ học Số bước đạt lớn nhất
BERT-multilingual 200 2e−5 650
BERT4Vn 200 2e−5 1.600
PhOBERT 200 2e−5 1000
BERT4ECOMMERCE 200 2e−5 900
Bảng 4.6 mô tả các siêu tham số được chọn trong khi điều chỉnh mơ hình BERT trên bài tốn tìm câu trả lời sử dụng các từ nhúng mà được huấn luyện trên dữ liệu tiếng Việt với các nguồn khác nhau. Kết quả bảng 4.4 và hình 4.3 cho thấy rằng các mơ hình BERT cải thiện đáng kể hiệu năng của bài tốn, đặc biệt là mơ hình BERT4ECOMMERCE (MAP đạt 70,50%, AUC đạt 77,4%). Kết quả cho thấy rằng khi nguồn dữ liệu trong bước huấn luyện và dữ liệu của bài tốn đích cùng miền dữ liệu thì sẽ có ảnh hưởng tốt tới kết quả cuối cùng. Từ vựng thuộc miền thương mại điện tử bao gồm một lượng lớn các từ vựng đặc trưng liên quan tới các thiết bị cơng nghệ như Iphone, Samsung, mua trả góp, .... Hơn nữa dữ liệu trong mạng xã hội thường không đảm bảo về vấn đề ngữ pháp, chính tả và cách sử dụng từ. Ví dụ như từ "thoong bao", "mk"(mật
khẩu), "ss" (Samsung), "f" (bàn phím) là những từ viết tắt, viết sai chính tả
mà thường hay thấy trong tập dữ liệu thu thập được trên forum hỏi đáp của website Thế giới di động. Do đó, việc huấn luyện lại từ nhúng trên miền dữ liệu thương mại là cần thiết và việc này giúp hiệu năng về độ chính xác của bài tốn tốt hơn so với sử dụng các nhúng được huấn luyện từ tập dữ liệu Wikipedia hay dữ liệu tin tức trên báo.
BERT với dữ liệu tách từ tiếng Việt
Ở phần trên, mơ hình BERT được thực hiện trên dữ liệu tách tiếng. Để thử nghiệm trên dữ liệu tách từ, mơ hình PHOBERT [126] được sử dụng điều chỉnh trên bài tốn tìm câu hỏi tương đồng. Mơ hình này dựa vào mơ hình RoBERTa [113] và được huấn luyện trên 20GB dữ liệu từ nguồn Wikipedia tiếng Việt và dữ liệu báo điện tử tiếng Việt với tách từ tiếng Việt. Mơ hình PHOBERT sử dụng thuật tốn RDRsegmenter cho tách từ tiếng Việt [127] từ thư viện VncoreNLP [128] và thu được bộ từ vựng có kích thước 145M. Mơ hình PhOBERT được điều chỉnh trên bài tốn tìm kiếm câu hỏi với dữ liệu gán nhãn tiếng Việt được xây dựng trên miền thương mại điện tử. Kết quả cho thấy rằng mơ hình PHOBERT cho kết quả MAP và AUC tốt hơn so với BERT-multilingual và BERT4Vn. Điều
này cũng chỉ ra rằng tách từ tiếng Việt mang lại hiệu quả tốt trên bài tốn tìm câu hỏi trên dữ liệu mạng xã hội. Tuy nhiên, không sử dụng tách từ tiếng Việt, BERT4ECOMMERCE vẫn đạt kết quả cao nhất và kết quả lớn hơn PHOBERT 5%.
Trực quan hóa trọng số chú ý
Theo Wiegreff cùng các cộng sự [129] cho rằng các trọng số chú ý có thể dùng để giải thích mơ hình dự đốn. Do đó, trực quan hóa ma trận trọng số của mơ hình BERT và mơ hình ABCNN được thực hiện để so sánh hiệu quả của các mơ hình này. Trọng số tự chú ý của mơ hình BERT cho thấy mối quan hệ ngữ nghĩa của cặp câu hỏi tốt hơn so với cơ chế chú ý thơng thường của mơ hình ABCNN. Ma trận tự chú ý ở lớp chú ý đầu tiên trong số 12 lớp chú ý của mơ hình BERT được lựa chọn để mơ tả phần trực quan. Hình 4.5 thể hiện trọng số chú ý của từng từ trong câu hỏi truy vấn (trục tung) với từng từ trong câu hỏi ứng viên (trục hồnh), ơ vng màu càng đậm tương ứng với trọng số chú ý càng lớn.
(a) ABCNN (b) BERT-multilingual
(c) BERT4Vn (d) BERT4ECOMMERCE
Hình 4.5: Trực quan hóa ma trận trọng số chú ý của các mơ hình BERT với mơ hình ABCNN
Hình 4.5 chỉ ra rằng các mơ hình BERT có phân phối trọng số chú ý thưa hơn mơ hình ABCNN. Điều này dẫn tới mơ hình BERT có sự tương tác mạnh hơn giữa các từ quan trọng, ví dụ như từ "slide" với từ "màn hình", từ "lock"
và "tắt phím" với "khóa máy". Một nghiên cứu của Cui và cộng sự [130] cũng đã chứng minh rằng ma trận chú ý của BERT mà thưa thì biểu diễn văn bản đầu vào càng tốt và dễ giải thích.