Mụ hỡnh BERT

2.2.3.1. Giới thiệu

Mụ hỡnh BERT [102] là mụ hỡnh biểu diễn mó húa hai chiều dựa trờn Transformer, được thiết kế cho lớp bài toỏn biểu diễn ngụn ngữ trong NLP của Google. Mụ hỡnh BERT được phỏt triển để huấn luyện cỏc vộc tơ biểu diễn văn bản thụng qua ngữ cảnh 2 chiều. Vộc tơ biểu diễn sinh ra từ mụ hỡnh BERT được kết hợp với cỏc lớp bổ sung đó tạo ra cỏc mụ hỡnh hiệu quả cho cỏc nhiệm vụ trong xử lý ngụn ngữ tự nhiờn như: Đưa điểm đỏnh giỏ hiểu ngụn ngữ chung (GLUE - General Language Understanding Evaluation) đạt 80,5% (tăng 7,7%), bộ dữ liệu hỏi đỏp SQuAD v2.0 (SQuAD - Stanford Question Answering Dataset) với điểm F1 (F1 - score) đạt 83,1% (tăng 5,1%),...v...v... Mụ hỡnh BERT khắc phục được cỏc nhược điểm của cỏc phương phỏp trước đõy bằng cỏch tạo cỏc biểu diễn theo ngữ cảnh dựa trờn cỏc từ phớa trước và phớa sau để tạo ra một mụ hỡnh ngụn ngữ với ngữ nghĩa phong phỳ hơn.

Mụ hỡnh BERT được huấn luyện trước trờn một kho ngữ liệu văn bản lớn khụng gỏn nhón là sự kết hợp của BooksCorpus (800 triệu từ) [103] và Wikipedia tiếng Anh (2.500 triệu từ), tổng cộng ~16GB văn bản khụng nộn và được tinh chỉnh bằng cỏch sử dụng dữ liệu được gỏn nhón của cỏc nhiệm vụ phớa sau.

2.2.3.2. Kiến trỳc BERT

Hỡnh 2.17. Kiến trỳc mụ hỡnh BERT [102]

BERT sử dụng Transformer [97] được biểu diễn trong Hỡnh 2.17 (với: Ei là biểu diễn cỏc mó húa từ (word embedding), Trm là cỏc vộc tơ biểu diễn trung gian cho mỗi từ tại mỗi tầng Transformer tương ứng, Ti là vộc tơ biểu diễn cho mỗi từ đầu ra cuối cựng).Trong kiến trỳc của BERT, L là số lớp Transformer, H là kớch thước của

CLS x x, ,1 2,...,xM,SEP y y, ,1 2,...,xN,EOS

lớp ẩn và A là số đầu ở lớp chỳ ý (heads attention). Cú 2 kớch thước mụ hỡnh BERT là:

- BERTBASE (L = 12, H = 768, A = 12, với 110 triệu tham số (110M)). - BERTLARGE (L = 24, H = 1.024, A = 16, với 340 triệu tham số (340M)).

Mỗi lớp thực hiện tớnh toỏn multi-head attention trờn biểu diễn từ của lớp trước để tạo ra một biểu diễn trung gian mới. Tất cả cỏc biểu diễn trung gian này cú cựng kớch thước.

2.2.3.3. Biểu diễn đầu vào

Hỡnh 2.18. Biểu diễn đầu vào của mụ hỡnh BERT [102]

Đầu vào (Input): Cú thể là một cõu hoặc một cặp 2 cõu ghộp nối thành một chuỗi cỏc từ (token). Hai cõu này được biểu diễn là một chuỗi đầu vào duy nhất với cỏc token đặc biệt được thờm vào để phõn biệt chỳng như sau:

trong đú: x1, x2,…, xN; y1, y2,..., yM là 2 cõu cú M từ và N từ tương ứng; CLS, SEP

là cỏc token được thờm vào đầu cõu, cuối cõu thứ nhất tương ứng; EOS là token thờm vào kết thỳc chuỗi và thỏa món điều kiện M + N < T (với T là độ dài lớn nhất của chuỗi (512 token)). Một vớ dụ minh họa biểu diễn đầu vào của BERT như trong Hỡnh 2.18 ở trờn.

Mó húa từ vựng (Token Embeddings): Vai trũ của lớp này là chuyển đổi cỏc từ thành vộc tơ biểu diễn cú kớch thước cố định là 768 chiều.

Mó húa phõn đoạn (Segment Embeddings): BERT cú thể lấy cỏc cặp cõu làm đầu vào cho cỏc tỏc vụ nờn nú học cỏc mó húa khỏc nhau cho cõu thứ nhất và cõu thứ hai để mụ hỡnh phõn biệt chỳng. Vớ dụ: cỏc tokens đỏnh dấu “EA” thuộc về cõu A và tương tự “EB” thuộc về cõu B.

Mó húa vị trớ của từ (Position Embeddings): BERT học và sử dụng mó húa vị trớ để chỉ ra vị trớ của cỏc từ trong cõu. Mó húa vị trớ (position embedding) được thờm vào để khắc phục hạn chế của Transformer.

Với mỗi từ, vộc tơ biểu diễn đầu vào được tớnh bằng tổng của 3 thành phần: mó húa từ, mó húa loại cõu và mó húa vị trớ của từ trong cõu tương ứng.

BERT sử dụng cỏc mó húa từ WordPiece [104] với bộ từ vựng cú 30.000 từ và sử dụng ký hiệu “##” làm dấu phõn tỏch để lấy từ gốc (vớ dụ: từ “playing” được phõn tỏch thành “play” và “##ing”).

2.2.3.4. Biểu diễn đầu ra

Với mỗi từ thứ i (i1 N, ) của chuỗi đầu vào, đầu ra là vộc tơ Ti biểu diễn cho từ đầu vào tương ứng.

2.2.3.5. BERT được huấn luyện trước

BERT được huấn luyện trước (pre-trained BERT) với 2 nhiệm vụ dự đoỏn khụng giỏm sỏt là: Mụ hỡnh dự đoỏn từ bị che (Masked LM - Masked Language Model) và dự đoỏn cõu tiếp theo (NSP - Next Sentence Prediction). Khi huấn luyện mụ hỡnh BERT, Masked LM và NSP được huấn luyện cựng nhau để giảm thiểu giỏ trị hàm lỗi.

Mụ hỡnh dự đoỏn từ bị che (Masked LM): Một tập cỏc token ngẫu nhiờn trong chuỗi đầu vào được thay thế bằng token đặc biệt gọi là token bị che [MASK]. Nhiệm vụ của Masked LM là dự đoỏn cỏc token bị che dựa trờn ngữ cảnh của cỏc từ khụng bị che trong chuỗi. BERT chọn 15% token trong mỗi chuỗi đầu vào để thay thế bằng token [MASK], 80% cỏc tokens đó chọn này được thay thế bằng [MASK], 10% giữ nguyờn và 10% được thay thế bằng cỏc token trong từ vựng. Dự đoỏn cỏc từ đầu ra yờu cầu:

- Thờm một lớp phõn loại trờn đầu ra của bộ mó húa.

- Nhõn cỏc vộc tơ đầu ra với ma trận mó húa, chuyển chỳng thành kớch thước từ vựng.

- Tớnh xỏc suất của mỗi từ trong từ vựng với hàm softmax.

Dự đoỏn cõu tiếp theo (NSP): Nhiệm vụ này sẽ tạo ra hai nhón “Position” và

“Negative”. Mụ hỡnh nhận cỏc cặp cõu làm đầu vào và học cỏch dự đoỏn nếu cõu thứ hai trong cặp là cõu tiếp theo trong văn bản nguồn thỡ nhón “Position” được tạo ra. Nhón “Negative” được tạo ra nếu cõu thứ hai là một cõu ngẫu nhiờn từ kho ngữ liệu văn bản.

Vớ dụ: Giả sử cần huấn luyện trước mụ hỡnh BERT sử dụng kho ngữ liệu văn bản cú 100.000 cõu. Như vậy, ta cú 50.000 mẫu huấn luyện (mỗi mẫu là cặp 2 cõu) làm dữ liệu huấn luyện.

- Với 50% cặp cõu này, cõu thứ 2 là cõu tiếp theo của cõu thứ nhất trong văn bản, cỏc nhón được tạo ra là “Position”.

- Với 50% cặp cõu cũn lại, cõu thứ 2 là một cõu ngẫu nhiờn từ bộ dữ liệu, cỏc nhón này ký hiệu là “Negative”.

2.2.3.6. Tinh chỉnh BERT

Tựy thuộc vào hiệm vụ phớa sau của cỏc bài toỏn, BERT sẽ được tinh chỉnh (fine-tuning) với cỏc bộ dữ liệu huấn luyện của cỏc nhiệm vụ phớa sau để tạo ra mụ hỡnh ngữ nghĩa phự hợp hơn cho cỏc nhiệm vụ đú. Mụ hỡnh sử dụng hai chiến lược tinh chỉnh:

(i) Đúng băng một vài lớp trước đú để đúng băng cỏc trọng số đó học được từ mụ hỡnh được huấn luyện trước (chỉ cập nhật trọng số ở một số lớp cao hơn) để tăng tốc độ huấn luyện của mụ hỡnh;

Cỏc bộ dữ liệu văn bản tiếng Việt

Cỏc biến thể của RNN