3. MỘT SỐ PHƯƠNG PHÁP ÁP DUNG CHO VAN ĐỀ NHAN DANG VĂN BẢN NGOÀI TẬP TỪ VỰNG 47
3.1.2.1 Tổng quan về kiến trúc
SVTR là một mạng gồm ba giai đoạn có chiều cao giảm dần, được thiết kế đặc biệt để nhận diện văn bản. Ban đầu, hình ảnh văn bản kích thước H x W x 3
được chuyển đổi thành các patch kích thước “4 x © thông qua quá trình nhúng patch trùng lắp, với mỗi patch được gọi là thành phan ký tự.
Hình 3.3: Tổng quan kiến trúc mô hình SVTR (Nguồn: Bài báo [10]).
Sau đó, một chuỗi các giai đoạn thực hiện các khối trộn và hoạt động kết hợp
ở các quy mô khác nhau để trích xuất đặc trưng cục bộ và toàn cục. Các khối trộn cục bộ và toàn cục (Local and global mixing blocks) được tạo ra để nắm bắt
50
các mẫu cục bộ giống như nét vẽ và sự phụ thuộc giữa các thành phần. Với sự hỗ trợ của backbone, đặc trưng và sự phụ thuộc của các thành phần ở các khoảng cách và quy mô khác nhau được trích xuất đặc trưng, tạo ra biểu diễn C kích thước | x T x D3, nhận diện đặc trưng ký tự đa cấp.
Cuối cùng, một dự đoán tuyến tính song song được thực hiện để tạo ra chuỗi
ký tự, loại bỏ trùng lặp và mang lại khả năng nhận diện văn bản chính xác và nhanh chóng.
3.1.2.2 Patch Embedding
(a) Linear Patch Embedding (bo) Ours POPE
Hình 3.4: Kiến trúc module Patch embedding (Nguồn: Bai báo [10]
Module Patch Embedding nhận đầu vào là ma trận ảnh có kích thước H x
W x3 và chuyển đổi nó thành ma trận 4H x 4W với độ sâu Do phan tử. Mỗi phần tử trong ma trận kết quả đóng vai trò như các "ký tự" trong các bài toán xử
lý ngôn ngữ. Cấu trúc Patch Embedding bao gồm 2 lớp convolution với kernel
3 x 3, bước nhảy 2, và theo sau là một lớp Batch Normalization. Theo nghiên
cứu của tác giả, các chiến thuật nhúng Patch khác nhau sẽ ảnh hưởng đến hiệu
suât của mô hình.
51
Embedding IC13 ICI5 |
Linear 97.5 720
Overlap 93.0 73.9
Ours 93.5 74.8
Hình 3.5: So sánh module embedding (Nguồn: Bài báo [10]
Như ảnh trên ta có thể thay, Patch Embedding được dé xuất trong mô hình
giúp outperform 0.75% và 2.8% so với các phương pháp còn lại.
3.1.2.3 Mixing Block
Mixing Blocks bao gồm hai loại chính:
1. Local Mixing Block (Khối Tron Cục Bộ)
2. Global Mixing Block (Khối Trộn Toàn Cau)
Động lực của hai khối này xuất phát từ hai ý tưởng chính. Thứ nhất, dé mô hình có khả năng nhận diện văn bản tốt ngoài việc biểu diễn mối liên hệ giữa các chữ, cần phải biểu diễn thông tin toàn cục. Điều này giống như các phương
pháp như CRNN+Attention hiện đang được thực hiện. Thứ hai, mô hình cũng
cần biểu diễn tốt sự tương quan giữa các chỉ tiết trong cùng một ký tự. Sự khác biệt giữa các nét cham, phẩy có thé tạo ra sự khác biệt giữa các chữ cái, vi dụ như chữ "o", "g", "ô", "6", ...
Global Mixing được sử dụng để biểu diễn mối quan hệ giữa các phần tử không phải văn bản và văn bản. Qua đó, nó giúp biểu diễn sự phụ thuộc xa
52
LTD L1 11) ) Ă Ă) NC See COCCI o ỉữữ
See Z088“j6 6 aaa ose 308888 6 saa
888 20608686686 a ỉgứỉ . B8 208088688 EI...ỉỉ
| | | Mele? TT j-/) 6 fủứữữ
Gee 20110106166148£1+00 eee ỉỉ3đđđđđửdd BAA
(a) (b)
Figure 4: Illustration of (a) global mixing and (b) local mixing.
Hinh 3.6: (Anh minh hoa (a) global mixing va (b) local mixing. (Nguồn: Bài báo [10]).
giữa các ký tự. Để biểu diễn sự phụ thuộc xa này, tác giả sử dung kiến trúc self-attention, kết hợp với các lớp như LayerNorm và MLP.
Local Mixing được sử dụng để biểu diễn mối quan hệ giữa các nét trong cùng một ký tự. Điều này có ý nghĩa quan trọng đặc biệt đối với các chữ cái có
ký tự phức tạp, như trong tiếng Nhật. Như được thấy trong hình ảnh, thậm chí
sự khác biệt nhỏ về độ dài giữa các nét cũng đủ để tạo ra một chữ cái khác biệt. Local Mixing còn sử dung cơ chế cửa sổ trượt (sliding window) trên các vùng kích thước 7 x 11 và tính toán mối liên hệ giữa các phan tử trong vùng cửa sổ
đó. Chú ý rằng ở đây, các phần tử được thảo luận là các phần tử đã được chia
qua lớp Patch Embedding được trình bày trước đó.
Kiến trúc này có thể biểu diễn tốt sự khác biệt giữa các chữ cái, từng chỉ tiết nhỏ sẽ hỗ trợ quá trình phân biệt thông qua việc sử dụng CTC Loss trong giai
đoạn sau.