; w TH.)
Input: Hews Ặ anu _ Cr 1xx,
# `
!¡ CCc j (hxwxd,, hwxd,; `
1
l( 2x2) 1}
! if Reshape 1
¡| [EMl |j¡ CC h
' it '
1' Input |
\ AN ¿
® Position Embedding @® Element-wise Add (@ Character Component © Activation Function
Hình 28. Tổng quan về mô hình SVTR
Đây là một mạng lưới ba tầng giảm chiều cao dần dần được thiết kế dành riêng cho nhận dạng văn bản. Đối với một hình ảnh văn bản có kích thước H x W x 3, nó đầu tiên được chuyên đổi thành các mảnh vá kích thước H/4 x W/4 với chiều DO thông qua nhúng mảnh vá chồng lấp dần dần. Các mảnh vá này được gọi là các thành phan ký tự, mỗi thành phan liên kết với một phan của ký tự văn bản trong hình anh.
Sau đó, ba tầng, mỗi tầng bao gồm một loạt các khối trộn theo sau là một hoạt động
hợp nhất hoặc kết hợp, được thực hiện ở các thang bậc khác nhau dé trích xuất đặc trưng. Các khối trộn cục bộ và toàn cục được thiết kế để trích xuất các mẫu cục bộ giống nét chữ và nắm bắt sự phụ thuộc giữa các thành phần. Với khung xương này, đặc trưng thành phần và sự phụ thuộc của các khoảng cách khác nhau và ở nhiều thang bậc được đặc trưng, tạo ra một biểu diễn được gọi là C với kích thước 1 x W/4
x D3, nhận biết các đặc trưng ký tự đa dạng. Cuối cùng, một dự đoán tuyến tính song song với việc loại bỏ trùng lặp được thực hiện dé lay chuỗi ký tự.
Progressive Overlapping Patch Embedding: Đối với ảnh văn bản, nhiệm vụ đầu tiên là thu được các mảng đặc trưng (feature patches) đại điện cho các thành phần
52
ký tự từ X € RHxWx3 đến CC0 € RH/4 x W/4 xD0. Có hai cách chiếu một bước phé biến cho mục dich này, đó là chiếu tuyến tính rời rac 4x4 (xem Hình 29(a)) và
tích chập 7 x 7 với sải bước 4. Ngoài ra, nhóm nghiên cứu thực hiện việc nhúng mảng
bằng cách sử dụng hai phép tích chập 3 x 3 liên tiếp với sai bước 2 và chuẩn hóa theo batch, như thê hiện trong Hình 29(b). Mặc dù làm tăng chi phí tính toán một ít, nhưng phương án này bồ sung chiều đặc trưng dan dan, điều này có lợi cho việc kết hợp đặc trưng. Nghiên cứu cắt bỏ (ablation study) trong Phần 3.3 cho thấy hiệu quả của nó.
3.3.2. Mixing Block
Vì hai ký tự có thé hơi khác nhau, nhận dạng văn bản phụ thuộc nhiều vào các đặc trưng ở cấp độ thành phần ký tự. Tuy nhiên, các nghiên cứu hiện có chủ yếu sử dụng chuỗi đặc trưng dé biểu diễn văn bản trong ảnh. Mỗi đặc trưng tương ứng với một vùng hình ảnh mỏng, thường bị nhiễu, đặc biệt là đối với văn bản không đều. Điều này không tối ưu cho việc mô tả ký tự.
Sự phát triển gần đây của vision transformer đã giới thiệu biểu diễn đặc trưng 2D, nhưng cách tận dụng biéu diễn này trong ngữ cảnh nhận dạng văn bản vẫn còn đáng
được nghiên cứu.
Cu thé, với các thành phần được nhúng, nhóm tác giả lập luận rằng nhận dạng văn bản yêu cầu hai loại đặc trưng. Loại thứ nhất là các mẫu thành phần cục bộ như đặc trưng dạng nét. Nó mã hóa đặc trưng hình thái và mối tương quan giữa các bộ phận khác nhau của ký tự. Loại thứ hai là phụ thuộc giữa các ký tự như mối tương quan giữa các ký tự khác nhau hoặc giữa văn bản và các thành phần không phải văn bản. Do đó, nhóm tác giả đề xuất hai khối trộn để nhận thức mối tương quan bằng cách sử dụng self-attention với các trường tiếp nhận khác nhau.
53
099999999999 See 0000000000006) AAA ỉỉỉỉỉ8ỉ8ỉ@6@88888 SSS ỉWWWWWWWWW80727 COO
9999998898888 888 WW@W@WWWW@W@800 C00
99999999999 SSS (0090060666464 (“J(J 000
Đ ỉ ỉ 8 8 8 8 8 8 8 8 8 ỉ.. S88 110888888 @9101...111
Đ9ỉỉỉỉ998889888W SSS ỉ7WWWWW&WW680€Œ) CAD
ỉ ỉ ỉ ỉ ỉ ỉ ỉ ỉ ỉ ỉ6 SOO 900000069583882000
LÍ | || | | | || N see Ni si nninininininininininiAninin.
(a) (b)
Hình 29. Global Mixing (a) và Local Mixing (b)
e Global Mixing: Như thê hiện trong Hình 26(a), trộn toàn cục đánh giá sự phụ
thuộc giữa tất cả các thành phần ký tự. Vì văn bản và không phải văn bản là hai thành phần chính trong ảnh, nên việc trộn đa năng như vậy có thé thiết lập
sự phụ thuộc dài hạn giữa các thành phần từ các ký tự khác nhau. Bên cạnh
đó, nó cũng có khả năng làm suy yếu ảnh hưởng của các thành phần không phải văn bản, đồng thời nâng cao tầm quan trọng của các thành phần văn bản. Về mặt toán học, đối với các thành phần ký tự CCi-1 từ giai đoạn trước, chúng được định hình lại thành một chuỗi đặc trưng. Khi đưa vào khối trộn, một chuẩn hóa lớp (layer norm) được áp dụng, sau đó là một multi-head self- attention để mô hình hóa sự phụ thuộc. Tiếp theo, một chuẩn hóa lớp và một MLP được áp dụng tuần tự dé kết hợp các đặc trưng. Cùng với các kết nối shortcut, khối trộn toàn cục được hình thành.
e Local Mixing: Trộn cục bộ (Local Mixing). Như thê hiện trong Hình 26(b),
trộn cục bộ đánh giá sự tương quan giữa các thành phần trong một cửa số được xác định trước. Mục tiêu của nó là mã hóa đặc trưng hình thái ký tự và thiết lập các mối liên kết giữa các thành phần bên trong một ký tự, mô phỏng đặc trưng dạng nét rất quan trọng dé nhận dang ký tự.Khác với trộn toàn cục, trộn cục bộ xem xét vùng lân cận cho từng thành phần. Tương tự như phép tích chập, việc trộn được thực hiện theo cách thức cửa số trượt. Kích thước cửa số được đặt theo kinh nghiệm là 7 x 11. So với trộn toàn cục, nó triển khai cơ chế
self-attention đê năm bắt các mâu cục bộ.
54
Hai khối trộn nhằm mục đích trích xuất các đặc trưng khác nhau và bố sung cho nhau. Trong SVTR, các khối được áp dụng lặp lại nhiều lần trong mỗi giai đoạn
dé trích xuất đặc trưng toàn diện.
3.4. Mô hình ABI-Net
Vision Prediction
oO =| sHDvine
Position Attention
Probability
Ì Ground Truth
|| [SHOWING
!
|
SHOVING
Fusion Prediction @1
Bidirection : —> Current time step
Language Model “ft Parallel time step
# % Blocking gradient flow
Hình 30. Tổng quan về mô hình ABINet
Trong những năm gần đây, xử lý ngôn ngữ tự nhiên (NLP) đã có nhiều bước tiến đáng kế nhờ sự phát triển của các mô hình học máy lớn, chăng hạn như Transformer và BERT. Các mô hình này ngày càng "hiểu" rõ hơn về thông tin kiến thức ngôn ngữ. Vậy nếu chúng ta có thé tận dụng kiến thức này dé cải thiện khả năng
nhận dạng văn bản trong ảnh thì sao?
Đó là lý do mô hình ABINet (tên đầy đủ là Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition) được đề xuất. Mô hình này kết hợp thông tin thị giác và ngôn ngữ học đề đưa ra dự đoán chính
xác hơn. Thay vì chỉ dựa vào thông tin thị giác như các phương pháp nhận dạng văn
bản khác, ABINet sử dụng cả thông tin ngôn ngữ học dé hiểu bối cảnh của văn bản trong ảnh. Điều này giúp mô hình có thê dự đoán chính xác hơn, ngay cả khi văn bản trong ảnh bị mờ, nghiêng hoặc bị cắt xén.
55
Các tác giả đã chỉ ra răng ABINet vượt trội hơn các mô hình truyền thống nhờ hai yếu tô chính:
e Sự kết hợp giữa thông tin thị giác và ngôn ngữ hoc: ABINet sử dung ca
thông tin thị giác và ngôn ngữ học dé đưa ra dự đoán, do đó có khả năng
dự đoán chính xác hơn trong các trường hợp văn bản trong ảnh bị mờ,
nghiêng hoặc bị cắt xén.
e Kiến trúc mô hình tiên tiến: ABINet sử dụng một kiến trúc mô hình tiên
tiền, bao gồm các thành phần như mô hình thị giác, mô hình ngôn ngữ
và mô hình dự đoán. Kiến tric này giúp ABINet có khả năng học hỏi
và thích ứng tot hơn với các điêu kiện dau vào khác nhau.
Mô hình ABINet gồm 2 thành phần quan trọng là mô hình thị giác (vision
model) và mô hình ngôn ngữ (language model). Trong đó Mô hình thị giác sử dụng
mang CNN dé trích xuất các đặc trưng từ anh đầu vào. Các đặc trưng này được biéu diễn dưới dang các patch nhỏ, được gọi là "character components". Mô hình ngôn ngữ sử dụng một mô hình ngôn ngữ lớn, chăng hạn như BERT, dé hiểu bối cảnh của
văn bản trong ảnh. Mô hình ngôn ngữ được đảo tạo trên một tập dữ liệu văn bản
khống 16, bao gồm cả văn bản trong ảnh.
56
3.4.1. Mô hình thị giác (Vision Model)
Vision Prediction) SHDVING Nám ranh,
—ằ Parallel time step
ResNet+Transformer +“ Position Attention
Hình 31. Mô hình thi giác (Vision Model)
Mô hình thị giác bao gồm một backbone và một module position attention
(Hình 3). Theo các phương pháp trước đó, ResNetl [36, 44] và các đơn vi
Transformer [49, 25] được sử dụng làm mạng trích xuất đặc trưng và mạng mô hình hóa chuỗi. Đối với ảnh x ta có:
F, = T(R()) € Rea
Tiếp theo, đặc trưng F, được biến đổi thành keys - K va values - V cho cơ chế attention theo công thức dưới đây, với T lần lượt là độ dài của transcript, H là ma trận
identity và G phiên bản mini cua mang U-Net [40]:
AW vụ
V=H(F,) € R16
HW yc
K = G(F,) € R16
57
Sau bước nay ta được:
ly, = softmax (<) Ve RTE
3.4.2. Mô hình ngôn ngữ (Language Model)
Cách hoạt động của ABINet được mô tả theo các bước dưới đây
1. Đầu vào
Đầu vào của Language Model trong ABINet là một feature map từ backbone network. Feature map này đại diện cho hình ảnh đầu vào ở một dạng trừu tượng hơn.
2. Encoder
Encoder là thành phần chịu trách nhiệm biến đôi feature map thành một biểu
diễn ngôn ngữ. Encoder thường được xây dựng dựa trên các mô hình transformer.
Cụ thê, encoder sẽ thực hiện các bước sau:
e Self-attention: Self -attention sẽ giúp mô hình chú ý đến các đặc điểm quan
trọng trong feature map.
e Feed-forward network: Được sử dung dé chuyền đổi dau ra của self-attention
thành một biểu diễn ngôn ngữ.
3. Decoder
Decoder là thành phan chịu trách nhiệm giải mã biéu diễn ngôn ngữ thành văn
bản. Decoder cũng thường được xây dựng dựa trên các mô hình transformer.
Cu thé, decoder sẽ thực hiện các bước sau:
e_ Self-attention: Self-attention sẽ giúp mô hình chú ý đến các từ trong biểu diễn
ngôn ngữ.
58
e Feed-forward network: Feed-forward network sẽ được sử dụng dé chuyền đồi
đầu ra của self-attention thành văn bản.
4. Đầu ra
Đầu ra của Language Model trong ABINet là văn bản mô tả hình ảnh đầu vào.
SHOVIN G| Probability
( " 1 Ị 1 1 | i 1 1
M