Chương 6 KẾT LUẬN
3.2 Biểu diễn đầu vào của mơ hình BERT
Có hai kỹ thuật được sử dụng khi huấn luyện BERT:
− Masked LM (MLM)
Trước khi chuỗi các từ được đưa vào BERT, 15% số từ được thay thế bằng token [MASK]. Sau đó mơ hình BERT sẽ cố gắng phán đốn từ
ban đầu của các token [MASK] dựa vào ngữ cảnh được cung cấp bởi các từ khác trong chuỗi.
Hàm lỗi của BERT chỉ quan tâm đến dự đoán về các từ bị thay thế bởi token [MASK].
− Next Sentence Prediction (NSP)
Trong q trình huấn luyện BERT, mơ hình nhận vào một cặp câu và học các dự đoán xem liệu rằng câu thứ hai trong cặp có phải là câu kế tiếp của câu đầu tiên trong văn bản gốc. Trong quá trình huấn luyện, 50% các đầu vào là một cặp câu với câu thứ hai là câu tiếp theo của câu thứ nhất trong văn bản gốc,50%còn lại là các cặp câu ngẫu nhiên được lựa chọn từ kho văn bản.
Để giúp mơ hình phân biệt được hai câu trong quá trình huấn luyện, đầu vào được xử lý như sau trước khi đưa vào mơ hình:
+ Một token [CLS] được thêm vào đầu câu thứ nhất và một token [SEP] được thêm và cuối mỗi câu.
+ Một sentence embedding nhằm chỉ ra câu thứ nhất và câu thứ hai được thêm vào mỗi token.
+ Một embedding vị trí được thêm vào mỗi token để chỉ ra vị trí của token trong câu.
Để dự đốn câu thứ hai có phải là câu tiếp theo của câu thứ nhất trong văn bản gốc không, các bước sau đây được thực hiện:
+ Đưa tồn bộ chuỗi token đầu vào qua mơ hình Transformer + Kết quả đầu ra của token [CLS] được biến đổi thành vectơ2×1