Chương 2. CÁC NGHIÊN CỨU LIÊN QUAN
2.2. Hướng tiép cận dựa trên cap độ của văn bản
2.2.1. Phát hiện trên từng ký tự trong văn bản
Phương pháp phát hiện văn bản dựa trên ký tự trong bài phát hiện văn bản
trong ảnh có bối cảnh là phương pháp phát hiện và trích xuất thông tin trên từng ký
tự có trong hình ảnh hoặc video. Mục tiêu của phương pháp là tìm kiếm và xác định
vị trí của các ky tự có trong cảnh được chụp hoặc quay.
15
4
“
Hình 2.4 Minh họa văn bản được phát hiện theo cấp độ ký tự. Mỗi đối tượng văn
bản trong ảnh được xác định vị trí trên cấp độ ký tự.
Phương pháp này thường có bộ trích xuất các ứng cử viên phức tạp, như mô hình SWT với việc sử dụng quá trình biến đổi chiều rộng nét chữ trong ảnh dé phát
hiện các vùng chứa ký tự. Kỹ thuật này phân tích độ dày của nét chữ và giúp xác định
vùng ký tự dựa trên sự khác biệt giữa độ dày nét và nên ảnh. Bên cạnh đó, với việc tìm kiếm các khu vực cục bộ ôn định cực đại trong ảnh cùng với đặc điểm đặc biệt của các ký tự thường với kích thước tương đối nhỏ và hình dạng độc đáo, mô hình MSER được sử dụng nhằm dé phát hiện các khu vực đề xuất có chứa ký tự. Các vùng ứng cử viên này sau đó được lọc bởi một bộ phân loại ký tự và không ký tự để loại
bỏ các ứng cử viên sai. Cuối cùng, các ký tự còn lại được nhóm thành từ dựa trên
kiến thức trước hoặc một số mô hình gom cụm [10]-[12].
Nhìn chung, hầu hết các phương pháp dựa trên ký tự đòi hỏi thiết kế mô hình
tỉ mỉ và xử lý qua nhiều giai đoạn, điều này góp phần khiến mô hình trở nên phức tạp, không tối ưu và tiêu tốn nhiều chi phí thời gian.
16
2.2.2. Phát hiện trên từng từ trong văn bản
Thay vì trích xuất các ký tự riêng lẻ như phương pháp dựa trên ký tự, phương pháp dựa trên từ trong bài toán phát hiện văn bản trong ảnh có bối cảnh là phương pháp trực tiếp phát hiện và trích xuất các từ của văn bản từ hình ảnh hoặc video.
Các phương pháp dựa trên từ phát hiện trực tiếp các từ, chủ yếu được lấy cảm hứng từ các phương pháp phát hiện đối tượng tổng quát. Năm 2016, tác giả Zhi Tian cùng những đồng nghiệp [13] đã đề xuất một Mạng Kiến Trúc Đề Xuất Văn Bản Kết Nối (Connectionist Text Proposal Network) bao gồm CNN và RNN để phát hiện toàn
bộ dòng văn bản bằng cách liên kết một loạt các hộp văn bản nhỏ. Năm 2017, dựa theo hướng tiếp cận phát hiện theo từ của văn bản, SegLink [14] được đề xuất bằng cách sử dụng Mạng Convolutional toàn phần (FCN) đề phát hiện các đoạn văn bản
và mối quan hệ liên kết của chúng. Các đoạn văn bản được liên kết đề tạo thành kết
Hình 2.5 Minh họa văn bản được phát hiện theo cấp độ từ. Mỗi đối tượng văn bản
trong ảnh được xác định vị trí trên cấp độ từ.
17
Tuy nhiên, một cách tổng quan, những phương pháp được nêu trên đều có chung
thách thức đó là chỉ phù hợp cho văn bản ngang hoặc đa hướng, hay nói cách khác
đó là phương pháp dựa trên phát hiện theo từ của văn bản gặp khó khăn trong việc xử
lý các biến thể hình học của văn bản. Mặc dù có những trở ngại vậy, nhưng hướng tiếp cận phát hiện văn bản dựa trên từ giúp giảm thiểu độ phức tạp trong tính toán cũng như đơn giản hóa quá trình huấn luyện và triển khai mô hình hơn so với cách tiếp cận phát hiện văn bản dưa trên ký tự.
2.3. Các hướng tiếp cận khác
2.3.1. Hướng tiếp cận dựa theo bài toán phát hiện đối tưởng tổng quát
Nhìn một cách khái quát, bài toán phát hiện văn bản cũng có thể được xem như một đề nhánh đề tài nằm trong khối bài toán phát hiện đối tượng nói chung. Vì vậy, các mô hình hiện đại trong bài toán phát hiện đối tượng cũng có thể được ứng dụng cho việc phát hiện văn bản trong ảnh có bối cảnh. Một trong những phương pháp tiêu biểu cho hướng tiếp cận này không thé không nhắc đến phương pháp Mask RCNN [15], một trong những phương pháp phát triển từ họ RCNN. Phương pháp nay kết hợp giữa hai nhiệm vụ quan trọng trong thị giác máy tính, đó là phát hiện vùng đối tượng và dự đoán các mặt nạ của các vùng đối tượng đó. Với cách kết hợp này,
Mask RCNN đã chứng minh khả năng mạnh mẽ trong việc phát hiện văn bản trong
ảnh thực tế [16]-[18]. Với mục tiêu chính là tăng cường độ chính xác và giảm số lượng dự đoán sai sót, mô hình Cascade RCNN được đề xuất nhằm giải quyết vẫn đề
về tỷ lệ dự đoán sai sót trong quá trình phát hiện đối tượng bằng cách áp dụng một chuỗi các mô hình phân lớp dựa trên R-CNN và đã đạt được những kết quả khả quan [19]-[21] khi được ứng dụng vào bài toán phát hiện văn bản trong ảnh có bối cảnh.
Ngoài ra, trong những bài toán phát hiện đối tượng nói chung, nhằm cải thiện
hai nhiệm vụ phân loại và hồi quy, mô hình Double Head [22] được ra đời bằng cách
tách riêng việc xử lý nhiệm vụ phân loại cho lớp kết nối đầy đủ trong khi lớp tích chập hỗ trợ cho xử lý hồi quy. Mặc dù đã đạt được những thành công nổi trội trong các mô hình cho bài toán phát hiện đối tượng nói chung, phương pháp trên vẫn chưa
18
được áp dụng phô biến trong các kiến trúc mô hình cho bài toán phát hiện văn bản trong ảnh có bối cảnh. Vì thế trong báo cáo này, chúng tôi xem xét tận dụng cách tiếp cận này vào bài toán phát hiện văn bản trong ảnh có bối cảnh.
2.3.2. Hướng tiếp cận tiền huấn luyện đối chiếu Hình ảnh-Ngôn ngữ
Lấy cảm hứng từ các kỹ thuật tiền huấn luyện Transformer [23] tiên tiến dựa trên NLP (Xử lý Ngôn ngữ Tự nhiên) phổ biến trong cộng đồng NLP, ta đã chứng kiến một sự quan tâm đáng kẻ đối với các phương pháp tiền huấn luyện hình ảnh- ngôn ngữ trong những năm gan đây. Điều này đã day mạnh tiễn bộ đáng kể trong
nhiều tác vụ đa dạng trong cộng đồng thị giác máy tính. ViLBERT [24] và LXMERT
[25] đã giới thiệu một khung việc hai ludng, két hợp mô-đun chú ý hình ảnh-ngôn
ngữ để hợp nhất các đặc trưng chéo.
Trái ngược với đó, VisualBERT [26], Unicoder-VL [27], VL-BERT [28] va
UNITER [29] đã áp dụng một khung việc một luồng (tương tự cấu trúc BERT gốc), tập trung vào các nhiệm vụ chung hình ảnh-ngôn ngữ, bao gồm Suy luận Giản lược Hình ảnh (VCR) và Trả lời Câu hỏi Hình ảnh (VQA). Ngoài ra, đã đề xuất nhiều phương pháp tiền huấn luyện hình ảnh-ngôn ngữ cho các tác vụ cụ thể. Ví dụ, RVL-
BERT [30] được phát triển cho phát hiện mối quan hệ hình ảnh, PERVALENT [31]
và VLN-BERT [32] cho điều hướng hình ảnh, và VisualID [33] và VD-BERT [34] cho trò chuyện hình ảnh, và nhiều phương pháp khác.
Những tiến bộ trên là minh chứng cho tiềm năng của việc kết hợp các kỹ thuật tiền huấn luyện hình ảnh và ngôn ngữ trong việc cải thiện hiệu suất của các tác vụ đa dạng trong lĩnh vực thị giác máy tính. Gần đây, đã trình bảy một phương pháp tiền
huấn luyện được giám sát yếu, oCLIP [35], có thé đạt được biểu diễn hiệu quả cho
văn bản trong cảnh bằng cách học và cân chỉnh thông tin hình ảnh và văn bản cùng nhau. Với việc học các đặc trưng văn bản, mô hình đã được tiền huấn luyện có thể chú ý tốt đến văn bản trong ảnh với ý thức về các ký tự.
19
2.3.3. Các phương pháp tăng cường dữ liệu
Sử dụng kỹ thuật tăng cường ảnh đã trở thành một phương pháp phổ biến dé ngăn chặn vấn dé quá khớp trong thị giác máy tính. Tăng cường bao gồm việc xoay, cắt, dịch chuyển, tỷ lệ và lật ảnh dé tạo ra những ảnh mới trong khi vẫn giữ nguyên ngữ cảnh dữ liệu gốc. Ngoài các kỹ thuật tăng cường truyền thống, đã đề xuất một số phương pháp mới đề cải thiện hiệu suất của mô hình. Một phương pháp như vậy liên quan đến việc tích hợp nhiều ảnh vào một ảnh duy nhất như Mosaic [36] hoặc MixUp [37], trong khi phương pháp khác liên quan đến việc ngẫu nhiên xóa một số pixel trong ảnh [38]. Những phương pháp này là một số trong số các cơ chế tăng cường độc đáo khác nhằm nâng cao hiệu suất của các mô hình.
Ngoài ra, trong bài toán về nhận dạng văn bản từ ảnh có bối cảnh (Scene-text recognition), hầu hết các mô hình dựa trên các tập dữ liệu tổng hợp dé huấn luyện vì không có tập dữ liệu thực sự đủ lớn và công khai có nhãn sẵn khiến cho các mô hình khi được đánh giá bằng dữ liệu thực tế thường gặp vấn đề về sự không khớp giữa phân phối dữ liệu huấn luyện và kiểm tra dẫn đến hiệu suất kém, đặc biệt là trên các văn bản khó khăn bị ảnh hưởng bởi nhiễu, hiện tượng nhân tạo, hình học hay cấu trúc.
Tác giả Rowel Atienza đã giới thiệu một phương pháp học tăng cường tổng hợp 36 hàm tăng cường ảnh gọi là STRAug [39]. Mỗi hàm tăng cường mô phỏng các thuộc tính hình ảnh văn bản cụ thể có thể được tìm thấy trong các cảnh tự nhiên, do cảm biến máy ảnh gây ra hoặc do các hoạt động xử lý tín hiệu nhưng không được đại diện tốt trong tập dữ liệu huấn luyện.
20