4.4. Mô hình BERT cho bài toán tìm kiếm câu hỏi tương đồng
4.4.2. BERT cho bài toán tìm kiếm câu hỏi tương đồng
Trong phần này, mô hình mBERTBASE (BERT Multilingual) [123] được áp
dụng vào bài toán tìm kiếm câu hỏi tương đồng. mBERT bản chất chính là mô hình BERT nhưng thay vì huấn luyện chỉ trên tập dữ liệu tiếng Anh [5] thì mBERT huấn luyện trên tập wikipedia với 104 ngôn ngữ khác nhau với bộ từ vựng chung cho cả 104 ngôn ngữ. Mô hình này đã làm việc hiệu quả trên tập dữ liệu nhỏ và nó có khả năng tổng quát đa ngôn ngữ tốt qua biểu diễn đa ngôn ngữ mà không cần phải huấn luyện lại từ đầu.
Mô hình BERT được sử dụng qua hai phần: phần huấn luyện và phần điều chỉnh. Phần tiền huấn luyện được thực hiện để lấy biểu diễn của từ trên tập dữ liệu không gán nhãn của tập dữ liệu tiếng Việt với miền thương mại điện tử có kích thước 1.1M dữ liệu văn bản (bảng 4.2). Phần điều chỉnh được thực hiện với mục đích để huấn luyện mô hình trên một bài toán cụ thể. Phần điều chỉnh với mục đích tận dụng tri thức học được từ mô hình mới mà những tri thức này cần
[CLS] X’ M X1 X’ 1 [SEP] XN …. …. Question 1 Question 2 E[CLS] E’ M E1 E’ 1 E[SEP] EN …. …. C T’ M T1 T’ 1 T[SEP] TN …. …. BERTBASE Predict
Hình 4.2: Mô hình BERT [5] cho bài toán tìm câu hỏi tương đồng
thiết cho bài toán mới. Mô hình mới được tạo ra bằng cách tận dụng một hoặc tất cả các lớp hoặc thêm/xóa/sửa một vài lớp từ mô hình ban đầu. Mô hình BERT được điều chỉnh cho bài toán tìm câu hỏi trên tập dữ liệu thương mại điện tử tiếng Việt được gán nhãn. Các tham số tại tất cả các lớp được điều chỉnh một lần. Các từ <CLS> và <SEP> được thêm vào mô hình (hình 4.2). Cụ thể đầu vào của mô hình như sau: BERT −Input(q1, q2) = [CLS]q1[SEP]q2[SEP], trong đó q1, q2 là cặp câu hỏi. Trạng thái ẩn lớp cuối cùng của từ <CLS> được xem như là biễu diễn cuối cùng tổng hợp mối quan hệ ngữ nghĩa giữa hai câu. Hàm kích hoạt Sof tmax được thêm vào lớp cuối cùng để dự đoán nhãn của hai câu hỏi. Hàm Sof tmax là hàm xác suất dự đoán xác suất 2 lớp đầu ra (đầu ra trả về0 là hai câu hỏi không tương đồng, 1 là hai câu hỏi tương đồng).
c=sof tmax(WT. < CLS >), (4.2) trong đó P2
1ci = 1, Wlà ma trận trọng số với số chiều (d+ 1).2, d là kích thước của từ nhúng.