Trong công thức nay, sj; biéu thị độ tương đồng cosine giữa hình ảnh thứ i và
3.4. Tang cường dữ liệu với STRAug
Trong nghiên cứu này, chúng tôi đã đề xuất sử dụng STRAug (Data
Augmentation for Scene Text Recognition), một thư viện tăng cường dữ liệu toàn
diện dành riêng cho nhiệm vụ nhận dạng văn bản trong cảnh. Tuy nhiên, ở đây, chúng
tôi đã triển khai hệ thống tương tự dé đánh giá hiệu quả của STRAug trong việc phát
hiện văn bản trong cảnh.
3.4.1. Khái quát các phép biến déi của STRAug
STRAug cung cấp 36 phép biến đồi tăng cường dữ liệu độc đáo, mỗi chức
năng tập trung vào các khía cạnh khác nhau của diện mạo văn bản dé đối phó với các
thách thức trong việc nhận dạng văn bản trong cảnh thực tế. Chúng tôi đã chia các
chức năng này thành tám nhóm riêng biệt, gồm: Warp, Geometry, Noise, Blur,
Weather, Camera, Pattern va Process.
Warp (Biến dang). Nhóm này bao gồm các chức năng biến đổi hình dạng của ký tự văn bản trong hình anh, bao gồm biến đổi theo chiều ngang, chiều doc và biến đổi
cục bộ.
Curve Distort Stretch
⁄⁄/aì\\ BR czz/on lô Education
Hình 3.5 Minh họa văn bản khi biến đổi theo nhóm kiểu Warp
35
Geometry (Hình học). Các chức năng trong nhóm này áp dụng các biến đổi hình học lên văn bản, như xoay, thay đổi phối cảnh và biến đổi affine, giúp mô hình học được
đa dạng với các biên dạng và hướng của văn bản.
Perspective Rotation Shrink
Hình 3.6 Minh họa văn bản khi biến đổi theo nhóm kiểu Geometry
Noise (Nhiều). Nhóm này giới thiệu nhiêu vào hình ảnh, bao gôm nhiễu Gaussian, nhiễu mudi và tiêu, và nhiêu speckle. Điêu này giúp mô hình nhận biệt văn bản dưới nhiêu điêu kiện nhiêu khác nhau.
GaussianNoise ShotNoise Imp ulseNoise Sp eckleNoise
Education imum Education Mim education BE Education
Hình 3.7 Minh họa văn bản khi biến đồi theo nhóm kiểu Noise
Blur (M6). Các chức năng trong nhóm này áp dụng các hiệu ứng mờ khác nhau lên
hình ảnh, bao gồm mờ Gaussian, mờ chuyền động va mờ lạc, mô phỏng hiệu ứng
rung ảnh, chuyên động và mờ.
GaussianBlur DefocusBlur MotionBlur GlassBlur ZoomBlur
Education
Hình 3.8 Minh hoa văn bản khi biến đổi theo nhóm kiểu Blur
Weather (Thời tiết). Nhóm này mô phỏng các điều kiện thời tiết có thể ảnh hưởng
đên việc nhận dạng văn ban trong cảnh, ví dụ như mưa, sương mù và tuyét.
Fo
Hình 3.9 Minh họa văn bản khi biến đổi theo nhóm kiểu Weather
Camera (Máy ảnh). Các chức năng trong nhóm này tái tạo hiệu ứng của các cài đặt
máy ảnh khác nhau, bao gồm độ phơi sáng, độ sáng, độ tương phản và độ bão hòa,
tât cả đêu có thê ảnh hưởng đên diện mạo của văn bản trong hình ảnh.
36
Contrast Brightness JpegCompression Pixelate
ict oil Education mg Education lm Education
Hình 3.10 Minh họa văn bản khi biến đổi theo nhóm kiểu Camera
Pattern (Mẫu). Nhóm này giới thiệu các mẫu vào hình ảnh, bao gồm sọc, bảng 6 vuông và hạt điểm bán vỡ, thách thức khả năng nhận dạng văn bản trên các nền tảng
có câu trúc.
RectG rid
Hình 3.11 Minh hoa văn bản khi biến đổi theo nhóm kiểu Pattern
Process (Xử lý). Nhóm này mô phỏng các thao tác xử lý hình ảnh, như thay đồi kích thước, cắt ghép và làm sắc nét, có thể được áp dụng lên hình ảnh trước khi đưa vào
mô hình.
Posterize Solarize Invert Equalize
Education Fuoion Education
AutoContrast ducatio Color
Hinh 3.12 Minh hoa van ban khi biến đổi theo nhóm kiểu Process 3.4.2. Chiến lược tăng cường dữ liệu dựa trên STRAug
Để tận dụng tối đa lợi ích của STRAug, chúng tôi áp dụng chiến lược RandAugment. Ý tưởng chính của RandAugment là áp dụng ngẫu nhiên một số phép biến đổi vào hình ảnh gốc dé tạo ra các phiên bản khác nhau. Các phép biến đổi này
có thé bao gồm xoay, thu phóng, cắt tia, lật ngang, lật doc và nhiều phép biến đổi khác. Bằng cách áp dụng các phép biến đổi này một cách ngẫu nhiên và tuỳ chọn, RandAugment giúp tăng cường tinh da dang và phức tạp của dữ liệu huấn luyện.
37
Cho một hình ảnh J, tập hợp các chức năng tăng cường A = Aj, 4;,..., A, với
n là số lượng loại tăng cường và các xác suất tương ứng P = py, Po, .., Đạ. quá trình tăng cường có thể được biểu diễn như sau:
Tug = Tex Ay"? (Lm, pi) @)
Trong đó, !„„„ là hình ảnh đã được tăng cường, Liêu là chức năng tăng cường ngẫu
nhiên được chọn từ loại thứ i, m là mức độ ngẫu nhiên chọn từ một khoảng đã xác
định và p; là xác suất áp dụng loại tăng cường í. Việc chọn Liêu và m được thực hiện
thông qua phân phối ngẫu nhiên đồng nhất.
Chúng tôi đã tiền hành một loạt các thí nghiệm dé đánh giá hiệu quả của chiến
lược RandAugment. So sánh hiệu suất giữa mô hình được huấn luyện với chiến lược
RandAugment và các mô hình không sử dụng tăng cường dữ liệu, cũng như các kỹ thuật tăng cường thông thường.
38