BERT cho bài tốn tìm kiếm câu hỏi tương đồng

Một phần của tài liệu Luận văn thạc sĩ nghiên cứu một số bài toán trong hỏi đáp cộng đồng (Trang 93 - 94)

4.4. Mơ hình BERT cho bài tốn tìm kiếm câu hỏi tương đồng

4.4.2. BERT cho bài tốn tìm kiếm câu hỏi tương đồng

Trong phần này, mơ hình mBERTBASE (BERT Multilingual) [123] được áp

dụng vào bài tốn tìm kiếm câu hỏi tương đồng. mBERT bản chất chính là mơ hình BERT nhưng thay vì huấn luyện chỉ trên tập dữ liệu tiếng Anh [5] thì mBERT huấn luyện trên tập wikipedia với 104 ngơn ngữ khác nhau với bộ từ vựng chung cho cả 104 ngơn ngữ. Mơ hình này đã làm việc hiệu quả trên tập dữ liệu nhỏ và nó có khả năng tổng quát đa ngôn ngữ tốt qua biểu diễn đa ngôn ngữ mà khơng cần phải huấn luyện lại từ đầu.

Mơ hình BERT được sử dụng qua hai phần: phần huấn luyện và phần điều chỉnh. Phần tiền huấn luyện được thực hiện để lấy biểu diễn của từ trên tập dữ liệu không gán nhãn của tập dữ liệu tiếng Việt với miền thương mại điện tử có kích thước 1.1M dữ liệu văn bản (bảng 4.2). Phần điều chỉnh được thực hiện với mục đích để huấn luyện mơ hình trên một bài tốn cụ thể. Phần điều chỉnh với mục đích tận dụng tri thức học được từ mơ hình mới mà những tri thức này cần

[CLS] X1 …. XN [SEP] X1 …. XM Question 1 Question 2 E[CLS] E1 …. EN E[SEP] E1 …. EM C T1 …. TN T[SEP] T1 …. TM BERT BASE Predict

Hình 4.2: Mơ hình BERT [5] cho bài tốn tìm câu hỏi tương đồng

thiết cho bài tốn mới. Mơ hình mới được tạo ra bằng cách tận dụng một hoặc tất cả các lớp hoặc thêm/xóa/sửa một vài lớp từ mơ hình ban đầu. Mơ hình BERT được điều chỉnh cho bài tốn tìm câu hỏi trên tập dữ liệu thương mại điện tử tiếng Việt được gán nhãn. Các tham số tại tất cả các lớp được điều chỉnh một lần. Các từ <CLS> và <SEP> được thêm vào mơ hình (hình 4.2). Cụ thể đầu vào của mơ hình như sau: BERT −Input(q1, q2) = [CLS]q1[SEP]q2[SEP], trong đó q1, q2 là cặp câu hỏi. Trạng thái ẩn lớp cuối cùng của từ <CLS> được xem như là biễu diễn cuối cùng tổng hợp mối quan hệ ngữ nghĩa giữa hai câu. Hàm kích hoạt Sof tmax được thêm vào lớp cuối cùng để dự đoán nhãn của hai câu hỏi. Hàm Sof tmax là hàm xác suất dự đoán xác suất 2 lớp đầu ra (đầu ra trả về0 là hai câu hỏi không tương đồng, 1 là hai câu hỏi tương đồng).

c=sof tmax(WT

. < CLS >), (4.2)

trong đó P21ci = 1, Wlà ma trận trọng số với số chiều (d+ 1).2, d là kích thước của từ nhúng.

Một phần của tài liệu Luận văn thạc sĩ nghiên cứu một số bài toán trong hỏi đáp cộng đồng (Trang 93 - 94)

Tải bản đầy đủ (PDF)

(128 trang)