3. MỘT SỐ PHƯƠNG PHÁP ÁP DUNG CHO VAN ĐỀ NHAN DANG VĂN BẢN NGOÀI TẬP TỪ VỰNG 47
3.2.4.1. Cách nhìn tổng quan về mô hình ABINet
Nhìn chung, ABINet tập trung vào đặc trưng ngôn ngữ để cải thiện kết qua của thuật toán. Tác giả của ABINet đã đề cập đến các hạn chế của các mô hình
trước đó như sau:
1. Các mô hình trước đó thường kết hợp mô hình thị giác và mô hình ngôn
ngữ, ảnh hưởng đáng kể đến kết quả cuối cùng. Tác giả đề xuất sự độc lập giữa hai mô hình này, gọi là "Autonomous", để mỗi mô hình hoạt động độc lập và không phụ thuộc lẫn nhau.
2. Tiếp theo, một điều phải công nhận là thông tin theo hai hướng Bidirec-
tional sẽ mang nhiều ngữ nghĩa hơn thông tin đến chỉ từ một hướng (Uni- directional). Đã có rất nhiều công trình chứng minh điều này, nổi tiếng nhất đó chính là BERT[7].
3. Hầu hết các thuật toán trước đó thường chỉ thực hiện dự đoán một lần duy
nhất. ABINet giải quyết van đề này bằng cách thực hiện điều này nhiều lần
(Iterative), giúp tận dụng đặc trưng thị giác và giảm ảnh hưởng tích tụ của
lôi.Ke
Để khắc phục những hạn chế này, tác giả đã đề xuất các giải pháp:
1. Tách mô hình ngôn ngữ khỏi mô hình thị giác để tránh ảnh hưởng của việc
tinh chỉnh chính tả lên mô hình thị giác.
2. Thiết kế lại mô hình ngôn ngữ, gọi là BCN (bidirectional cloze network),
được thiết kế để dự đoán kí tự và tận dụng thông tin từ cả hai hướng.
3. Sử dụng cơ chế Iterative Correction để điều chỉnh kết quả dự đoán nhiều
lần và tận dụng thông tin từ cả mô hình thị giác và ngôn ngữ.
63
Vision Prediction
Position Attention
| Ground Truth
SHOWING
|
|
LỄ
sn 5
Autonomous
Vison Model h :
ằ ee Ị Feature
Fusion Prediction @1
Linear & Softmax
I l
I a 5 Ì Probabili
I Bidirectional Nx | ty —> Current time step
I |
Z:
Language Model Language prediction „ ‡ Parallel time step
VỆ %i0teslie we xệXeets SOs Clee Fee Ter sv CoiVSe 5ý — Iterative % $ Blocking gracient fow
Hình 3.12: Hình tổng quan thuật toán ABINet (Nguồn: Bai báo [11])
Vision Transformer Model
Trong phần mô hình thị giác này (Vision Model viết tắt là VM), gồm có
backbone và một mô đun Positional Attention. Backbone để rút trích đặc trưng
bao gồm một mạng ResNet [14] và các đơn vị Transformer, chúng đóng vai trò như là mô hình trích xuất đặc trưng (feature extraction) và mô hình hóa chuỗi
(sequence modeling).
Language Model
Phần Language Model (LM) của ABINet được thực hiện dựa trên ba đặc điểm chính như sau:
1. Độc lập với Vision model (VM) - Autonomous: Các kết quả dự đoán
(Fusion Prediction) là sự kết hợp giữa VM và LM. Điều quan trọng là tránh
sự ảnh hưởng của gradient VM đến LM, và ngược lại. Để đảm bảo điều này,
ta chặn gradient của Fusion Prediction trong quá trình back-propagation
(hình 3.12). Khác biệt với BERT, VM dự đoán kí tự thay vì từ tại vị trí
được che (mask), tạo ra một vector phân phối xác suất cho kí tự dự đoán.
64
—> Current time step
Vision Prediction
ằ Parallel time step
SHDVING
Linear & Softmax
1
ResNet+Transformer k Position Attention
Hình 3.13: Tổng quan phan Vision Model (VM) của ABINet (Nguồn: Bài báo [11])
Huấn luyện VM có thể được thực hiện độc lập với LM trên dữ liệu text từ cỏc nguồn như tập MJ[16], ST[13], và WiKùText-103[21].
2. Tận dụng đặc trưng từ cả hai phía - Bidirectional: Công thức biểu diễn
đầu ra tại mỗi vị trí bao gồm kết quả dự đoán bidirectional và unidirec- tional. Sự kết hợp này giúp khắc phục hạn chế của cả hai phương pháp truyền thống, unidirectional chỉ sử dụng thông tin từ một hướng, trong khi bidirectional kết hợp giữa hai mô hình unidirectional (hình ?? - e). Điều này giúp tối ưu hóa quá trình dự đoán với độ chính xác cao hơn.
3. Tỉnh chỉnh nhiều lần kết quả dự đoán - Iterative: Quá trình tinh chỉnh
này bao gồm bước dự đoán đầu tiên (Vision Prediction) và n lần tinh chỉnh tiếp theo (Fusion Prediction). Tác giả đã thực nghiệm và đề xuất rằng số
lần tinh chỉnh tối ưu là 3 lần trong quá trình huấn luyện và cũng 3 lần khi chạy test để đảm bảo độ chính xác ổn định sau khi đã đạt mức bão hòa
65
(Fig. 6, [11]).
(Linear á Softmax }>s HOVIN 6] Probability
Multi-Head
LD Allow to attend Rl Prevent from attending
Hình 3.14: Tổng quan phan Language Model (LM) của ABINet - Kiến trúc BCN (Nguồn: Bài báo [1 1])
Hình 3.12 minh họa kiến trúc tổng quan của ABINet, trong đó quá trình độc lập giữa LM và VM được thể hiện thông qua việc chặn gradient của Fusion Prediction. Hình ?? (e) so sánh giữa mô hình bidirectional của ABINet và sự kết
hợp của hai mô hình unidirectional.
Hình 3.14 minh họa kiến trúc BCN (Bidirectional Cloze Network) trong phan LM, với su kết hợp linh hoạt giữa đặc điểm Autonomous, Bidirectional và Iterative. Cơ chế attention trong BCN sử dụng attention-mask để đảm bảo rằng mỗi kí tự không tự thấy chính nó, và điều này giúp cải thiện khả năng dự đoán
và tinh chỉnh của mô hình.
3.2.5 Mô hình PARSeq
Giống như ABINet [11], PARSeq [4] cũng áp dụng một phương pháp tích
hợp mô hình ngôn ngữ vào thuật toán của họ. Tuy nhiên, PARSeq đã chỉ ra
66