Cách nhìn tổng quan về mô hình ABINet

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học máy tính: Nâng cao độ chính xác cho bài toán nhận dạng văn bản ngoài tập từ vựng (Trang 78 - 82)

3. MỘT SỐ PHƯƠNG PHÁP ÁP DUNG CHO VAN ĐỀ NHAN DANG VĂN BẢN NGOÀI TẬP TỪ VỰNG 47

3.2.4.1. Cách nhìn tổng quan về mô hình ABINet

Nhìn chung, ABINet tập trung vào đặc trưng ngôn ngữ để cải thiện kết qua của thuật toán. Tác giả của ABINet đã đề cập đến các hạn chế của các mô hình

trước đó như sau:

1. Các mô hình trước đó thường kết hợp mô hình thị giác và mô hình ngôn

ngữ, ảnh hưởng đáng kể đến kết quả cuối cùng. Tác giả đề xuất sự độc lập giữa hai mô hình này, gọi là "Autonomous", để mỗi mô hình hoạt động độc lập và không phụ thuộc lẫn nhau.

2. Tiếp theo, một điều phải công nhận là thông tin theo hai hướng Bidirec-

tional sẽ mang nhiều ngữ nghĩa hơn thông tin đến chỉ từ một hướng (Uni- directional). Đã có rất nhiều công trình chứng minh điều này, nổi tiếng nhất đó chính là BERT[7].

3. Hầu hết các thuật toán trước đó thường chỉ thực hiện dự đoán một lần duy

nhất. ABINet giải quyết van đề này bằng cách thực hiện điều này nhiều lần

(Iterative), giúp tận dụng đặc trưng thị giác và giảm ảnh hưởng tích tụ của

lôi.Ke

Để khắc phục những hạn chế này, tác giả đã đề xuất các giải pháp:

1. Tách mô hình ngôn ngữ khỏi mô hình thị giác để tránh ảnh hưởng của việc

tinh chỉnh chính tả lên mô hình thị giác.

2. Thiết kế lại mô hình ngôn ngữ, gọi là BCN (bidirectional cloze network),

được thiết kế để dự đoán kí tự và tận dụng thông tin từ cả hai hướng.

3. Sử dụng cơ chế Iterative Correction để điều chỉnh kết quả dự đoán nhiều

lần và tận dụng thông tin từ cả mô hình thị giác và ngôn ngữ.

63

Vision Prediction

Position Attention

| Ground Truth

SHOWING

|

|

LỄ

sn 5

Autonomous

Vison Model h :

ằ ee Ị Feature

Fusion Prediction @1

Linear & Softmax

I l

I a 5 Ì Probabili

I Bidirectional Nx | ty —> Current time step

I |

Z:

Language Model Language prediction „ ‡ Parallel time step

VỆ %i0teslie we xệXeets SOs Clee Fee Ter sv CoiVSe 5ý — Iterative % $ Blocking gracient fow

Hình 3.12: Hình tổng quan thuật toán ABINet (Nguồn: Bai báo [11])

Vision Transformer Model

Trong phần mô hình thị giác này (Vision Model viết tắt là VM), gồm có

backbone và một mô đun Positional Attention. Backbone để rút trích đặc trưng

bao gồm một mạng ResNet [14] và các đơn vị Transformer, chúng đóng vai trò như là mô hình trích xuất đặc trưng (feature extraction) và mô hình hóa chuỗi

(sequence modeling).

Language Model

Phần Language Model (LM) của ABINet được thực hiện dựa trên ba đặc điểm chính như sau:

1. Độc lập với Vision model (VM) - Autonomous: Các kết quả dự đoán

(Fusion Prediction) là sự kết hợp giữa VM và LM. Điều quan trọng là tránh

sự ảnh hưởng của gradient VM đến LM, và ngược lại. Để đảm bảo điều này,

ta chặn gradient của Fusion Prediction trong quá trình back-propagation

(hình 3.12). Khác biệt với BERT, VM dự đoán kí tự thay vì từ tại vị trí

được che (mask), tạo ra một vector phân phối xác suất cho kí tự dự đoán.

64

—> Current time step

Vision Prediction

ằ Parallel time step

SHDVING

Linear & Softmax

1

ResNet+Transformer k Position Attention

Hình 3.13: Tổng quan phan Vision Model (VM) của ABINet (Nguồn: Bài báo [11])

Huấn luyện VM có thể được thực hiện độc lập với LM trên dữ liệu text từ cỏc nguồn như tập MJ[16], ST[13], và WiKùText-103[21].

2. Tận dụng đặc trưng từ cả hai phía - Bidirectional: Công thức biểu diễn

đầu ra tại mỗi vị trí bao gồm kết quả dự đoán bidirectional và unidirec- tional. Sự kết hợp này giúp khắc phục hạn chế của cả hai phương pháp truyền thống, unidirectional chỉ sử dụng thông tin từ một hướng, trong khi bidirectional kết hợp giữa hai mô hình unidirectional (hình ?? - e). Điều này giúp tối ưu hóa quá trình dự đoán với độ chính xác cao hơn.

3. Tỉnh chỉnh nhiều lần kết quả dự đoán - Iterative: Quá trình tinh chỉnh

này bao gồm bước dự đoán đầu tiên (Vision Prediction) và n lần tinh chỉnh tiếp theo (Fusion Prediction). Tác giả đã thực nghiệm và đề xuất rằng số

lần tinh chỉnh tối ưu là 3 lần trong quá trình huấn luyện và cũng 3 lần khi chạy test để đảm bảo độ chính xác ổn định sau khi đã đạt mức bão hòa

65

(Fig. 6, [11]).

(Linear á Softmax }>s HOVIN 6] Probability

Multi-Head

LD Allow to attend Rl Prevent from attending

Hình 3.14: Tổng quan phan Language Model (LM) của ABINet - Kiến trúc BCN (Nguồn: Bài báo [1 1])

Hình 3.12 minh họa kiến trúc tổng quan của ABINet, trong đó quá trình độc lập giữa LM và VM được thể hiện thông qua việc chặn gradient của Fusion Prediction. Hình ?? (e) so sánh giữa mô hình bidirectional của ABINet và sự kết

hợp của hai mô hình unidirectional.

Hình 3.14 minh họa kiến trúc BCN (Bidirectional Cloze Network) trong phan LM, với su kết hợp linh hoạt giữa đặc điểm Autonomous, Bidirectional và Iterative. Cơ chế attention trong BCN sử dụng attention-mask để đảm bảo rằng mỗi kí tự không tự thấy chính nó, và điều này giúp cải thiện khả năng dự đoán

và tinh chỉnh của mô hình.

3.2.5 Mô hình PARSeq

Giống như ABINet [11], PARSeq [4] cũng áp dụng một phương pháp tích

hợp mô hình ngôn ngữ vào thuật toán của họ. Tuy nhiên, PARSeq đã chỉ ra

66

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học máy tính: Nâng cao độ chính xác cho bài toán nhận dạng văn bản ngoài tập từ vựng (Trang 78 - 82)

Tải bản đầy đủ (PDF)

(118 trang)