2.2.4.1. Mụ hỡnh BERT đó ngụn ngữ
Cỏc mụ hỡnh pre-trained BERT [102] đó cụng bố chỉ hỗ trợ cho cỏc nhiệm vụ xử lý đơn ngụn ngữ tiếng Anh trong xử lý ngụn ngữ tự nhiờn. Dựa trờn cỏc mụ hỡnh pre-trained BERT, cỏc mụ hỡnh BERT đa ngụn ngữ (mBERT - BERT multilingual) [105] tương ứng đó được phỏt triển trong đú cú tiếng Việt. Kiến trỳc của cỏc mụ hỡnh mBERT dựa trờn kiến trỳc của cỏc mụ hỡnh pre-trained BERT tương ứng. Cú hai mụ hỡnh mBERT dựa trờn cỏc mụ hỡnh BERT-Base là BERT-Base, Multilingual Cased (104 ngụn ngữ, 12 lớp, 768 chiều, 12 đầu attention, 110 triệu tham số) và BERT-Base, Multilingual Uncased (102 ngụn ngữ, 12 lớp, 768 chiều, 12 đầu attention, 110 triệu tham số). Cỏc mụ hỡnh mBERT được huấn luyện trờn trang Wikipedia gồm 104 ngụn ngữ với bộ từ vựng tương ứng thay vỡ chỉ được huấn luyện trờn bộ dữ liệu đơn ngữ tiếng Anh với bộ từ vựng tiếng Anh tương ứng như cỏc mụ hỡnh BERT.
2.2.4.2. Mụ hỡnh RoBERTa
Liu và cộng sự [106] đó đề xuất cỏc mụ hỡnh tối ưu của mụ hỡnh pre-trained BERT [102] tương ứng là RoBERTa (Robustly optimized BERT approach) và đạt được kết quả tốt hơn mụ hỡnh pre-trained BERT đó cụng bố. Mụ hỡnh RoBERTa cú kiến trỳc giống mụ hỡnh pre-trained BERT tương ứng. Những điểm thay đổi chủ yếu của mụ hỡnh RoBERTa được túm tắt như sau: RoBERTa được huấn luyện trờn nhiều dữ liệu hơn so với pre-trained BERT (tổng cộng 160GB văn bản là sự kết hợp của cỏc bộ dữ liệu: BOOKCORPUS [103] plus English WIKIPEDIA, CC-NEWS1
, OPENWEBTEXT2, STORIES [107], thời gian huấn luyện mụ hỡnh lõu hơn với 500.000 bước. Phương phỏp huấn luyện RoBERTa cũng được thay đổi so với mụ hỡnh BERT là loại bỏ nhiệm vụ dự đoỏn cõu tiếp theo (NSP - Next Sentence Prediction) nờn khụng bị mất mỏt NSP, RoBERTa được huấn luyện sử dụng cơ chế
che động (Dynamic Masking) nờn cỏc từ bị che (masked token) sẽ được sinh ra khi cõu được đưa vào mụ hỡnh (mụ hỡnh BERT sử dụng cơ chế che tĩnh (Static Masking)), mụ hỡnh RoBERTa được huấn luyện với kớch thước lụ dữ liệu (batch size) lớn hơn giỳp chống nhiễu tốt hơn trong quỏ trỡnh huấn luyện, và sử dụng thuật toỏn BPE mức byte (byte-level BPE) lớn hơn [108]. Độ dài tối đa của vộc tơ cõu sau khi mó húa là 512. Mụ hỡnh RoBERTa được huấn luyện theo kiến trỳc của mụ hỡnh BERTLARGE (L = 24; H = 1024; A = 16; 355 triệu tham số). Mụ hỡnh được tối ưu với bộ tối ưu Adam [109].
2.2.4.3. Mụ hỡnh PhoBERT
PhoBERT [110] là mụ hỡnh tối ưu của mụ hỡnh BERT được huấn luyện trước dành riờng cho tiếng Việt, đó đạt được hiệu quả cao trong cỏc nhiệm vụ xử lý ngụn ngữ tiếng Việt. Túm tắt những điểm thay đổi chớnh của PhoBERT như sau: PhoBERT được phỏt triển với hai phiờn bản PhoBERTBASE và PhoBERTLARGE, sử
1 https: //commoncrawl.org/2016/10/newsdataset-available
48
dụng cỏc kiến trỳc giống như cỏc kiến trỳc của mụ hỡnh BERTBASE và BERTLARGE tương ứng. Phương phỏp huấn luyện trước của PhoBERT dựa trờn mụ hỡnh RoBERTa để tối ưu phương phỏp huấn luyện trước BERT. PhoBERT được huấn luyện trước trờn bộ dữ liệu gồm 20GB văn bản khụng nộn sau khi làm sạch (bộ dữ liệu này là sự kết hợp của hai kho văn bản là kho văn bản Wikipedia tiếng Việt (~1Gb) và kho văn bản (~19Gb) của kho tin tức tiếng Việt 40Gb sau khi lọc cỏc tin tức trựng lặp3). Đối với mụ hỡnh PhoBERT, bộ dữ liệu huấn luyện trước được xử lý tỏch từ trước khi mó húa bằng thuật toỏn BPE [108] (do tiếng Việt cú từ ghộp mà BPE khụng nhận biết được). Độ dài tối đa của vộc tơ cõu sau khi mó húa là 256 nhỏ hơn so với mụ hỡnh RoBERTa. Mụ hỡnh cũng được tối ưu với bộ tối ưu Adam [109].
2.2.4.4. Cỏc mụ hỡnh BERT thu nhỏ
Cỏc mụ hỡnh BERT thu nhỏ [111] là cỏc mụ hỡnh BERT cú kớch thước nhỏ hơn, thời gian xử lý tớnh toỏn nhanh hơn, tốn ớt bộ nhớ hơn và hiệu quả đạt được xấp xỉ cỏc mụ hỡnh pre-trained BERT được phỏt triển để đỏp ứng cỏc yờu cầu ràng buộc về tài nguyờn. Dựa trờn cỏc mụ hỡnh pre-trained BERT [102], cỏc mụ hỡnh BERT thu nhỏ được phỏt triển theo mụ hỡnh “mạng dạy” - “mạng học” (“teacher” – “student”), trong đú mạng học là mụ hỡnh BERT thu nhỏ (BERT “học”) được huấn luyện trước để tỏi tạo lại hành vi và nhận chuyển giao tri thức từ mạng dạy lớn hơn (BERT “dạy”) là cỏc mụ hỡnh BERTBASE, BERTLARGE được tinh chỉnh trờn dữ liệu được gỏn nhón của nhiệm vụ cụ thể thụng qua kỹ thuật chưng cất tri thức (KD - Knowledge Distillation) [112,113]. Cỏc mụ hỡnh BERT thu nhỏ được huấn luyện qua ba bước: Huấn luyện trước trờn dữ liệu mụ hỡnh ngụn ngữ khụng gỏn nhón để nắm bắt cỏc đặc trưng ngụn ngữ từ kho ngữ liệu văn bản lớn; chưng cất trờn dữ liệu chuyển giao khụng gỏn nhón để tận dụng tối đa tri thức và được huấn luyện trờn cỏc nhón mềm (phõn phối dự đoỏn) được sinh bởi BERT “dạy”; tinh chỉnh trờn dữ liệu được gỏn nhón của tỏc vụ cụ thể nếu cần để xử lý vấn đề khụng tương thớch giữa tập dữ liệu chuyển giao và tập dữ liệu gỏn nhón của tỏc vụ cụ thể (Hỡnh 2.19). Cú 24 mụ hỡnh BERT thu nhỏ đó được phỏt triển như BERT-Tiny (với 2 lớp, 128 chiều, 4 triệu tham số), BERT-Mini (với 4 lớp, 256 chiều, 11 triệu tham số), BERT-Small (với 4 lớp, 512 chiều, 29 triệu tham số), BERT-Medium (với 8 lớp, 512 chiều, 41 triệu tham số), BERT-Base (với 12 lớp, 768 chiều, 110 triệu tham số),...v...v....
49
Hỡnh 2.19. Mụ hỡnh biểu diễn cỏc bước chưng cất được huấn luyện trước của cỏc mụ hỡnh BERT thu nhỏ [111]