2.2. Cơ sở lý thuyết
2.3.1. Các bộ dữ liệu chuẩn
Đối với bài toán nhận dạng văn bản trong ảnh ngoại ảnh, có 2 bộ dữ liệu nhân tao (synthetic) nổi tiếng, thường được dùng để huấn luyện có các mô hình đó là
MJ[16] và ST[17].
e MJ (Multitask Junctions) là một bộ dữ liệu được tao ra bởi Google AI, bao
gồm 130.000 hình ảnh với 65.000 hình ảnh huấn luyện và 65.000 hình ảnh kiểm tra. Các hình anh trong bộ dit liệu này được tạo ra bằng cách kết hợp các văn bản thực với các hình ảnh nền tong hợp. Các văn bản trong bộ dữ liệu này
có nhiều kiểu dáng và kích cỡ khác nhau, bao gồm chữ viết tay, chữ in và các
ký hiệu. MJ được thiết kế dé dao tạo các mô hình nhận dạng văn bản trong các
33
điều kiện đa dạng, bao gồm văn ban bị bién dạng, bị che khuất và xuất hiện
trong các môi trường phức tạp.
ST (Synthetic Text) cũng là một bộ dữ liệu tổng hợp, bao gồm 130.000 hình ảnh với 65.000 hình ảnh huấn luyện và 65.000 hình ảnh kiểm tra. Các hình ảnh trong bộ đữ liệu này được tạo ra bằng cách kết hợp các văn bản thực với các hình ảnh nền tổng hợp. Các văn bản trong bộ dữ liệu này có nhiều kiểu dang và kích cỡ khác nhau, bao gồm chữ viết tay, chữ in và các ký hiệu. ST được thiết kế để đào tạo các mô hình nhận dạng văn bản trong các điều kiện
đa dạng, bao gồm văn bản bị biến dạng, bị che khuất và xuất hiện trong các
môi trường phức tạp.
Cả MJ và ST đều là những bộ dữ liệu tông hợp chất lượng cao, cung cấp cho các mô hình nhận dạng văn bản trong ảnh ngoại ảnh các ví dụ đa dạng và nhiều thách thức. Các bộ dữ liệu này đã được sử dụng rộng rãi trong các nghiên cứu và phát triển
vê nhận dạng văn bản trong ảnh ngoại ảnh, giúp cải thiện đáng kê hiệu suat của các
mô hình.
Đối với các bộ dữ liệu được chụp thực tế, ICDAR2015, SVT và IIIT5K thường được dùng dé đánh giá các mô hình. Trong đó:
ICDAR2015 được tạo ra cho các cuộc thi Robust Reading ICDAR 2015, bao
gồm 4.468 hình ảnh dé huấn luyện và 2.077 hình anh để đánh giá. Các hình
ảnh này được chụp bởi Google Glasses trong khi người đeo đang cử động. Do
đó, nhiều hình ảnh bị nhiễu, mờ, xoay và một số có độ phân giải thấp. Một lần nữa, các nhà nghiên cứu đã sử dụng hai phiên bản khác nhau để đánh giá:
1.811 và 2.077 hình ảnh. Các bài báo trước đây [18, 19] chỉ sử dụng 1.811
hình ảnh, loại bỏ các hình ảnh không phải là ký tự chữ và số, cũng như một số hình ảnh có xoay cực đoan, dịch chuyền theo phối cảnh và cong cho việc đánh giá. Một số hộp từ đã loại bỏ có thể được tim thấy trong tài liệu bố sung.
34
e Street View Text (SVT) chứa các hình ảnh đường phố ngoài trời được thu thập
từ Google Street View. Một số hình ảnh này có nhiễu, mờ hoặc có độ phân giải thấp. SVT bao gồm 257 hình anh dé huấn luyện và 647 hình anh dé đánh
.
giá.
e IIT5K-Words (IIIT) là bộ dit liệu được thu thập từ các truy van tìm kiếm hình
ảnh trên Google, với các từ khóa có khả năng trả về hình ảnh văn bản, như
"biên quảng cao", "bảng hiệu", "sô nha", "tâm biên tên nha", và "poster phim”.
IIIT bao gồm 2,000 hình anh dé huấn luyện và 3,000 hình anh dé đánh giá.
Những tập dữ liệu trên là những tập dữ liệu nối tiếng cho bài toán chung Nhận dạng văn bản trong ảnh ngoại cảnh. Tuy nhiên, đối với trường hợp chữ được chụp
trong ảnh ngoại cảnh được chụp với độ phân giải thấp, van chưa có bộ dữ liệu nào
tập trung giải quyết thách thức này. Theo khảo sát của chúng tôi, hiện nay chỉ có bộ
dữ liệu TextZoom có mối liên hệ gần nhất với đề tài. TextZoom là bộ dữ liệu nhằm giải quyết bài toán nâng cấp độ phân giải ảnh (Super Resolution), bao gồm các cặp hình ảnh (low resolution - high resolution) được chụp bằng các máy ảnh kỹ thuật số.
35
Hình 15. Một mẫu ảnh trong tập dir liệu TextZoom
2.3.2. Các phương pháp liên quan
Từ trước đến nay, đã có rất nhiều phương pháp được thực hiện dé giải quyết
bài toán Scene Text Recognition. Nhìn chung, theo bài báo [1] các phương pháp sẽ trải qua bon giai đoạn, tong quan như sau:
1. Phat hiện văn bản: Giai đoạn nay nhăm xác định vi trí và kích thước của các
vùng văn bản trong hình ảnh.
2. Điều chỉnh lại hình ảnh: Giai đoạn này nhằm cải thiện chất lượng hình ảnh của
các vùng văn bản, chang hạn như loại bỏ nhiễu, thay đổi độ tương phản và
kích thước.
3. Trích xuất đặc trưng: Giai đoạn nay nhằm trích xuất các đặc trưng từ các vùng
văn bản dé phục vụ cho quá trình nhận dạng ký tự.
36
4. Nhận dang ký tự: Giai đoạn này nhằm xác định các ký tự trong các vùng văn
bản.
2.3.2.1. Giai đoạn điều chỉnh lại hình ảnh
Trong giai đoạn này, nhiệm vụ chính là biến đổi hình ảnh đầu vao X thành hình ảnh bình thường hóa X. .Văn bản trong ngoại cảnh có nhiều hình dang khác nhau, chang hạn như văn bản cong và văn bản nghiêng. Nếu những hình anh đầu vào này được đưa vào mà không được điều chỉnh, giai đoạn trích xuất đặc trưng tiếp theo
sẽ cần phải học một biểu diễn bat biến đối với những dạng hình học như vậy.
Do đó, dé giảm bớt gánh nặng này, một biến thé của mạng biến đôi không gian (STN) [20] có tên là biến đổi thin-plate spline (TPS) sẽ được áp dung do tính linh hoạt của nó đối với các tỷ lệ khung hình khác nhau của các dòng văn bản. TPS sử
dụng phép nội suy spline mượt mà (smooth spline interpolation) giữa một tập hợp
các điểm chuẩn (fiducial points). Cụ thể hơn, TPS tìm nhiều điểm chuẩn (được đánh dấu '+' trong Hình 3) tại các điểm bao bọc trên và dưới, đồng thời bình thường hóa
vùng ký tự thành một hình chữ nhật được xác định trước.
37
STN được cấu tạo từ hai phần chính:
Bộ chuyên đổi không gian: Bộ chuyền đồi không gian là một mô hình học máy
có thé thay đôi định dang của đầu vào của nó. Bộ chuyên đổi không gian bao gom một mang nơ-ron tích chap (CNN) và một mang nơ-ron tái tạo (RNN). CNN được sử dụng dé trích xuất các đặc trưng từ đầu vào, sau đó RNN được
sử dụng dé tạo ra một ma trận biến đồi. Ma trận biến đổi này được sử dụng dé biến đổi đầu vào thành định dang mong muốn.
Ma trận biến đổi là một ma trận 2D hoặc 3D có kích thước bằng với kích thước của đầu vào. Ma trận biến đồi này chứa thông tin về cách biến đổi đầu vào.
Ma trận biến đồi có thé được biéu diễn dưới dạng sau: