2.2.4.1. Mụ hỡnh BERT dó ngụn ngữ
Cỏc mụ hỡnh pre-trained BERT [102] dó cụng bố chỉ hỗ trợ cho cỏc nhiệm vụ xử lý don ngụn ngữ tiếng Anh trong xử lý ngụn ngữ tự nhiờn. Dựa trờn cỏc mụ hỡnh
pre-trained BERT, cỏc mụ hỡnh BERT da ngụn ngữ (mBERT - BERT multilingual) [105] tuong ứng dó duợc phỏt triển trong dú cú tiếng Việt. Kiến trỳc của cỏc mụ hỡnh mBERT dựa trờn kiến trỳc của cỏc mụ hỡnh pre-trained BERT tuong ứng. Cú
hai mụ hỡnh mBERT dựa trờn cỏc mụ hỡnh BERT-Base là BERT-Base, Multilingual Cased (104 ngụn ngữ, 12 lớp, 768 chiều, 12 dầu attention, 110 triệu tham số) và BERT-Base, Multilingual Uncased (102 ngụn ngữ, 12 lớp, 768 chiều, 12 dầu attention, 110 triệu tham số). Cỏc mụ hỡnh mBERT duợc huấn luyện trờn trang Wikipedia gồm 104 ngụn ngữ với bộ từ vựng tuong ứng thay vỡ chỉ duợc huấn
luyện trờn bộ dữ liệu don ngữ tiếng Anh với bộ từ vựng tiếng Anh tuong ứng nhu cỏc mụ hỡnh BERT.
2.2.4.2. Mụ hỡnh RoBERTa
Liu và cộng sự [106] dó dề xuất cỏc mụ hỡnh tối uu của mụ hỡnh pre-trained BERT [102] tuong ứng là RoBERTa (Robustly optimized BERT approach) và dạt duợc kết quả tốt hon mụ hỡnh pre-trained BERT dó cụng bố. Mụ hỡnh RoBERTa cú kiến trỳc giống mụ hỡnh pre-trained BERT tuong ứng. Những diểm thay dổi chủ
yếu của mụ hỡnh RoBERTa duợc túm tắt nhu sau: RoBERTa duợc huấn luyện trờn nhiều dữ liệu hon so với pre-trained BERT (tổng cộng 160GB van bản là sự kết hợp của cỏc bộ dữ liệu: BOOKCORPUS [103] plus English WIKIPEDIA, CC-NEWS1, OPENWEBTEXT2, STORIES [107], thời gian huấn luyện mụ hỡnh lõu hon với 500.000 buớc. Phuong phỏp huấn luyện RoBERTa cung duợc thay dổi so với mụ hỡnh BERT là loại bỏ nhiệm vụ dự doỏn cõu tiếp theo (NSP - Next Sentence Prediction) nờn khụng bị mất mỏt NSP, RoBERTa duợc huấn luyện sử dụng co chế che dộng (Dynamic Masking) nờn cỏc từ bị che (masked token) sẽ duợc sinh ra khi cõu duợc dua vào mụ hỡnh (mụ hỡnh BERT sử dụng co chế che tinh (Static Masking)), mụ hỡnh RoBERTa duợc huấn luyện với kớch thuớc lụ dữ liệu (batch
size) lớn hon giỳp chống nhiễu tốt hon trong quỏ trỡnh huấn luyện, và sử dụng thuật toỏn BPE mức byte (byte-level BPE) lớn hon [108]. Độ dài tối da của vộc to cõu sau khi mó húa là 512. Mụ hỡnh RoBERTa duợc huấn luyện theo kiến trỳc của mụ hỡnh BERTLARGE (L = 24; H = 1024; A = 16; 355 triệu tham số). Mụ hỡnh duợc tối uu với bộ tối uu Adam [109].
2.2.4.3. Mụ hỡnh PhoBERT
PhoBERT [110] là mụ hỡnh tối uu của mụ hỡnh BERT duợc huấn luyện truớc dành riờng cho tiếng Việt, dó dạt duợc hiệu quả cao trong cỏc nhiệm vụ xử lý ngụn ngữ
3 https://github.com/binhvq/news-corpus
dụng cỏc kiến trỳc giống nhu cỏc kiến trỳc của mụ hỡnh BERTBASE và BERTLARGE tuong ứng. Phuong phỏp huấn luyện truớc của PhoBERT dựa trờn mụ hỡnh RoBERTa dể tối uu phuong phỏp huấn luyện truớc BERT. PhoBERT duợc huấn
luyện truớc trờn bộ dữ liệu gồm 20GB van bản khụng nộn sau khi làm sạch (bộ dữ liệu này là sự kết hợp của hai kho van bản là kho van bản Wikipedia tiếng Việt (~1Gb) và kho van bản (~19Gb) của kho tin tức tiếng Việt 40Gb sau khi lọc cỏc tin
tức trựng lặp3). Đối với mụ hỡnh PhoBERT, bộ dữ liệu huấn luyện truớc duợc xử lý tỏch từ truớc khi mó húa bằng thuật toỏn BPE [108] (do tiếng Việt cú từ ghộp mà
BPE khụng nhận biết duợc). Độ dài tối da của vộc to cõu sau khi mó húa là 256 nhỏ hon so với mụ hỡnh RoBERTa. Mụ hỡnh cung duợc tối uu với bộ tối uu Adam
[109].
2.2.4.4. Cỏc mụ hỡnh BERT thu nhỏ
Cỏc mụ hỡnh BERT thu nhỏ [111] là cỏc mụ hỡnh BERT cú kớch thuớc nhỏ
hon, thời gian xử lý tớnh toỏn nhanh hon, tốn ớt bộ nhớ hon và hiệu quả dạt duợc
xấp xỉ cỏc mụ hỡnh pre-trained BERT duợc phỏt triển dể dỏp ứng cỏc yờu cầu ràng buộc về tài nguyờn. Dựa trờn cỏc mụ hỡnh pre-trained BERT [102], cỏc mụ hỡnh BERT thu nhỏ duợc phỏt triển theo mụ hỡnh “mạng dạy” - “mạng học” (“teacher” –
“student”), trong dú mạng học là mụ hỡnh BERT thu nhỏ (BERT “học”) duợc huấn
luyện truớc dể tỏi tạo lại hành vi và nhận chuyển giao tri thức từ mạng dạy lớn hon (BERT “dạy”) là cỏc mụ hỡnh BERTBASE, BERTLARGE duợc tinh chỉnh trờn dữ liệu duợc gỏn nhón của nhiệm vụ cụ thể thụng qua kỹ thuật chung cất tri thức (KD - Knowledge Distillation) [112,113]. Cỏc mụ hỡnh BERT thu nhỏ duợc huấn luyện qua ba buớc: Huấn luyện truớc trờn dữ liệu mụ hỡnh ngụn ngữ khụng gỏn nhón dể
nắm bắt cỏc dặc trung ngụn ngữ từ kho ngữ liệu van bản lớn; chung cất trờn dữ liệu chuyển giao khụng gỏn nhón dể tận dụng tối da tri thức và duợc huấn luyện trờn cỏc nhón mềm (phõn phối dự doỏn) duợc sinh bởi BERT “dạy”; tinh chỉnh trờn dữ liệu
duợc gỏn nhón của tỏc vụ cụ thể nếu cần dể xử lý vấn dề khụng tuong thớch giữa tập dữ liệu chuyển giao và tập dữ liệu gỏn nhón của tỏc vụ cụ thể (Hỡnh 2.19). Cú 24
mụ hỡnh BERT thu nhỏ dó duợc phỏt triển nhu BERT-Tiny (với 2 lớp, 128 chiều, 4 triệu tham số), BERT-Mini (với 4 lớp, 256 chiều, 11 triệu tham số), BERT-Small
(với 4 lớp, 512 chiều, 29 triệu tham số), BERT-Medium (với 8 lớp, 512 chiều, 41 triệu tham số), BERT-Base (với 12 lớp, 768 chiều, 110 triệu tham số),...v...v ....
Hỡnh 2.19. Mụ hỡnh biểu diễn cỏc buớc chung cất duợc huấn luyện truớc của cỏc mụ hỡnh BERT thu nhỏ [111]