Khóa luận tốt nghiệp Khoa học máy tính: Phát hiện chữ trong ảnh ngoại cảnh sử dụng phương pháp phân đoạn

Sử dụng phương pháp phân đoạn, việc phát hiệnvà trích xuất văn bản sẽ được thực hiện trên các vùng chứa văn bản đã được xác định, giúp tăng độ chính xác và hiệu quả của bài toán phát hiệ

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

ĐINH NHẬT MINH - 20521597

TRAN NGUYÊN BẢO - 20520142

KHÓA LUẬN TÓT NGHIỆP

PHÁT HIEN CHỮ TRONG ANH NGOẠI CANH SỬ

DỤNG PHƯƠNG PHÁP PHAN DOAN

Scene-Text Detection Using A Segmentation Method

CU NHÂN NGANH KHOA HỌC MAY TÍNH

GIANG VIEN HUONG DAN ThS VO DUY NGUYEN

TP HO CHi MINH, 2023

Trang 2

LỜI CẢM ƠN

Lời mở đầu, nhóm chúng tôi xin bày tỏ lòng biết ơn sâu sắc đến hai thầy TS.Nguyễn Tắn Trần Minh Khang và thầy ThS Võ Duy Nguyên về tình cảm, sự quan

tâm và hướng dẫn tận tình đã dành cho nhóm trong suốt quá trình thực hiện khóa

luận Bên cạnh đó, nhờ sự đồng hành của hai thầy, chúng tôi không chỉ thu thập đượckiến thức chuyên môn sâu sắc mà còn nắm vững nhiều kỹ năng và hiểu rõ hơn về tam

quan trọng của nghiên cứu khoa học và cách truyền tải hiệu quả những kiến thức đó

Cuối cùng, chúng tôi cũng không quên việc bày tỏ lòng biết ơn đến gia đình,bạn bè và toàn bộ tập thể lớp KHMT2020 Họ đã luôn ở bên cạnh, chia sẻ những khó

khăn và niềm vui trong quá trình học tập và cuộc sống, tạo điều kiện thuận lợi chochúng tôi để tiến xa hơn trên con đường đạt được ước mơ

Tổng kết, chúng tôi xin chân thành cảm ơn và gửi tới mọi người những lờichúc tốt đẹp nhất Hy vọng chúng ta sẽ tiếp tục gắn bó và cùng nhau chia sẻ nhữngthành công và hạnh phúc trong tương lai Cảm ơn mọi người vì những điều tốt đẹp

và vui vẻ trong suốt thời gian chúng ta gắn bó

Trang 3

ĐẠI HỌC QUOC GIA TP HO CHÍ CONG HÒA XÃ HỘI CHỦ NGHĨA

MINH VIỆT NAM

TRƯỜNG ĐẠI HỌC ` Độc Lập - Tự Do - Hạnh Phúc

` CONG NGHỆ THONG TIN

DE CUONG CHI TIET

TEN DE TAI: PHAT HIỆN CHỮ TRONG ANH NGOẠI CANH SỬ DUNG

PHUONG PHAP PHAN DOAN

TEN DE TAI TIENG ANH: SCENE-TEXT DETECTION USING A

SEGMENTATION METHOD

Cán bộ hướng dẫn: ThS VO DUY NGUYEN

Thời gian thực hiện: Từ ngày 26/02/2023 đến ngày 26/06/2023

Sinh viên thực hiện:

ĐINH NHẬT MINH - 20521597 Lớp: KHMT2020

Email: 20521597 @gm.uit.edu.vn Dién thoai: 0833570068

TRAN NGUYEN BAO - 20520142 Lớp: KHMT2020

Email: 20520142 @gm.uit.edu.vn Dién thoai: 0934021940

Nội dung đề tai:

1 Giới thiệu

Bài toán phát hiện văn bản trong ảnh chụp bối cảnh thế giới thực là một trong những vấn

đề quan trọng trong lĩnh vực thị giác máy tính Được đặc biệt quan tâm bởi ảnh hưởng của

nó trong lĩnh vực xử lý ngôn ngữ tự nhiên và những ứng dụng rộng rãi của nó trong thực

Trang 4

tế như phân tích nội dung ảnh hoặc video cho truyền thông xã hội, hỗ trợ số hoá dữ liệu

hay ứng dụng tìm kiếm bằng nội dung hình ảnh Mục tiêu của bài toán là xác định vị trícủa văn bản trong không gian có bối cảnh và biểu diễn chúng dưới dạng một hộp giới hạn

tối tiéu hoặc một vùng đối tượng

Trong những năm gan đây, các phương pháp sử dụng học sâu đã được áp dụng dé giảiquyết bài toán phát hiện văn bản trong ảnh chụp bối cảnh thế giới thực Các mô hình học

sâu đã được áp dụng hiệu quả đề xây dựng các hệ thống phát hiện văn bản, các mô hìnhnày có khả năng xử lý được các định dạng văn bản đa dạng, nhận diện được các kiểu chữ

khác nhau, xử lý được các văn bản có kích thước và độ phân giải khác nhau Các phương

pháp sử dụng học sâu đang trở thành xu hướng mới trong giải quyết bài toán phát hiện văn

bản trong bối cảnh Một trong những mô hình học sâu phổ biến được sử dụng trong giải

quyết bài toán phát hiện văn bản trong bối cảnh là mạng nơ-ron tích chập (CNN) Mô hìnhCNN có thé xử lý và trích xuất thông tin từ các ảnh với độ phân giải khác nhau Trong bài

toán phát hiện văn bản, các đặc trưng của vùng chứa văn bản sẽ được trích xuất bằng cách

sử dụng các lớp tích chập Sau đó, các đặc trưng được đưa vào các lớp kết nối đầy đủ để

phân loại vùng chứa đó có chứa văn bản hay không.

Mặc dù các kiến trúc áp dụng trong bài toán phát hiện đối tượng đang có sự phát triển

mạnh mẽ, song bài toán phát hiện văn bản vẫn đối diện với nhiều thách thức Trong đó,

việc phát hiện văn bản trên các hình ảnh có kích thước và hình dạng khác nhau đối mặtvới sự phức tạp về hình dáng của văn bản: văn bản ngang, văn bản nhiều hướng hay vănbản cong, kiểu chữ đa dạng và các đối tượng khác trên nền là các thách thức chính Ngoài

ra, việc xử lý các văn bản viết bằng nhiều ngôn ngữ và phát hiện văn bản trong các hình

ảnh phức tạp cũng đòi hỏi các phương pháp xử ly ngôn ngữ tự nhiên và thị giác may tính

nâng cao Dé giải quyết các thách thức này, các mô hình phát hiện văn ban cần được cải

tiến dé dam bảo tính ồn định và độ tin cậy trong quá trình phát hiện và trích xuất văn bản.Nhằm phát hiện văn bản ở nhiều kích cỡ hay hình dáng khác nhau, những nghiên cứu gần

đây đặc biệt chú trọng vào các phương pháp phân đoạn Phương pháp này nhằm mục đích

phân tách vùng chứa văn bản và vùng không chứa văn bản trong hình ảnh nhờ đầu ra của

Trang 5

dự đoán được mô tả ở cấp độ điểm ảnh Sử dụng phương pháp phân đoạn, việc phát hiện

và trích xuất văn bản sẽ được thực hiện trên các vùng chứa văn bản đã được xác định, giúp

tăng độ chính xác và hiệu quả của bài toán phát hiện văn bản Bên cạnh đó, phương pháp

phân đoạn cũng giúp giảm thiêu các ảnh hưởng của nhiễu và các đối tượng khác trên nền

tảng, giúp đảm bảo tính ồn định và độ tin cậy cho các mô hình phát hiện văn bản

Trong các mô hình được dùng để giải quyết bài toán, mô hình Mask RCNN [1] cho thấy

độ hiệu quả trong việc phát hiện văn bản trong ảnh chụp bối cảnh thế giới thật Ngoài ra,

sự phát triển mạnh mẽ của các mô hình cho phép đạt được phát hiện đối tượng chất lượng

cao như Cascade RCNN [3] hay Dynamic RCNN [4] cũng đóng góp quan trọng trong việc

giải quyết vấn đề này Ngoài các phương pháp truyền thống, phương pháp Double-Head

[5] cũng mang lại nhiều tiềm năng trong việc phát hiện văn bản Thay vì chỉ dựa trên mô

hình phát hiện đối tượng, Double-Head sử dụng cả mô hình phân loại để đánh giá chínhxác loại văn bản, giúp tăng độ chính xác và giảm sai số trong quá trình phát hiện Ngoài

ra, phương pháp Double-Head còn cho phép mở rộng và tùy chỉnh để áp dụng cho các ứngdụng khác nhau Việc kết hợp giữa các mô hình khác nhau cũng tạo ra một cơ chế linh

hoạt trong quá trình huấn luyện và kiểm tra

Tiềm năng hiện tại của bài toán là động lực để tôi quyết định lựa chọn bài toán này choviệc tìm hiểu, nghiên cứu và thực hiện khóa luận tốt nghiệp Mục tiêu đề xuất một mô

hình phát hiện văn bản trong bối cảnh dựa trên sự kết hợp lần lượt cơ chế Cascade RCNN

va Dynamic RCNN với dau Double Head vào kiến trúc Mask RCNN hướng tới việc cải

thiện hiệu suất phát hiện văn bản

2 Phát biểu bài toán

Bài toán phát hiện văn bản bối cảnh biêu diễn từng văn bản xuất hiện trong hình ảnh

Đâu vào và đâu ra của bài toán có thê được mô tả như sau:

e Đầu vào: Hình ảnh có chứa văn bản được chụp từ môi trường thực.

e Đầu ra: Vị trí của văn bản trong hình ảnh được thé hiện bởi vùng phân đoạn riêng

biệt và hộp giới hạn tối tiểu

Trang 6

Hình 1.1 Đầu vào và dau ra của bai toánMục tiêu của đề tài

Nghiên cứu và đánh giá các phương pháp state-of-the-art hiện tại của bài toán phát

hiện văn bản trong bối cảnh

Đề xuất mô hình kết hợp lần lượt phương pháp Cascade RCNN và Dynamic RCNN

với phương pháp Double-Head vào mô hình Mask RCNN nhằm cải thiện khả năng

phát hiện văn bản.

Tiến hành thực nghiệm và đánh giá hiệu suất mô hình mà chúng tôi sẽ thực hiện

trên hai bộ dữ liệu ICDAR-15 và CTW1500.

Phát triển chương trình ứng dụng minh hoạ cho mô hình kết hợp

Nội dung nghiên cứu của đề tài

Nội dung nghiên cứu của đề tài chia làm 6 phần:

Tim hiểu tổng quan về hướng tiếp cận của các mô hình phát hiện văn bản trong bối

cảnh state-of-the-art hiện nay.

Nghiên cứu các phương pháp phân đoạn ngữ nghĩa và đánh giá hiệu suất cho bàitoán phát hiện văn bản trong bối cảnh

Nghiên cứu sâu về hai cách kết hợp: Cascade RCNN và Double Head; DynamicRCNN và Double Head đã có sẵn trên bài toán phát hiện văn ban trong bối cảnh.Nghiên cứu về các kỹ thuật tiền xử lý (pre-processing), hậu xử ly (post-processing)

và các kỹ thuật gán nhãn đối tượng (label assignment) đã được ứng dụng hiệu quả

trong bài toán phát hiện ảnh.

Nghiên cứu kỹ thuật hợp nhất và thực hiện tích hợp vào mô hình Mask RCNN

Tìm hiểu về hai bộ dữ liệu thực nghiệm: ICDAR-15 và CTW

Trang 7

5 Phương pháp thực hiện

- Khảo sát và đánh giá các hướng tiếp cận state-of-the-art cho bài toán phát hiện văn

bản Phân tích chuyên sâu các kiến trúc rời rạc (backbone, neck, head) bên trongmỗi mô hình

- Thực nghiệm các phương pháp đã khảo sát và tổng hợp kết quả

— Triển khai và thử nghiệm các kỹ thuật tiền xử lý (pre-processing) trên bộ đữ liệu

thực nghiệm.

- Xây dung pipeline của mô hình đề xuất và thiết kế kiến trúc bằng cách kết hợp lần

lượt phương pháp Cascade RCNN và Dynamic RCNN với đầu Double Head vào

kiến trúc Mask RCNN sử dụng framework MMOCR

- Thực nghiệm mô hình thiết kế trên bộ dir liệu ICDAR-15 và CTW1500 Tổng hợp

kế quả chỉ tiết và so sánh với các phương pháp tiền nhiệm trên bài toán phát hiện

văn bản.

- Triển khai mô hình thực nghiệm bằng ứng dụng trên nền tang di động cho phép

người dùng xác định văn bản từ camera di động.

6 Kết quả dự kiến

- Báo cáo kết quả thực nghiệm của mô hình đề xuất, so sánh với các phương pháp

tiền nhiệm thực hiện trên bài toán phát hiện văn bản trong ảnh chụp bối cảnh thế

giới thực.

- Đánh giá độ hiệu qua của các kỹ thuật xử lý dữ liệu và gán nhãn đối tượng

- Chương trình ứng dụng di động minh hoạ phát hiện văn bản trong ảnh chụp bối

cảnh thế giới thực

Tài liệu tham khảo

[1] He, K., Gkioxari, G., Dollár, P., & Girshick, R (2017) Mask r-cnn In Proceedings of the IEEE international conference on computer vision (pp 2961-2969).

[2] Qin, X., Zhou, Y., Guo, Y., Wu, D., Tian, Z., Jiang, N., & Wang, W (2021, October) Mask is all you need: Rethinking mask R-CNN for dense and arbitrary-shaped

Trang 8

scene text detection In Proceedings of the 29th ACM International Conference on Multimedia (pp 414-423).

[3] Cai, Z., & Vasconcelos, N (2018) Cascade r-cnn: Delving into high quality object detection In Proceedings of the IEEE conference on computer vision and pattern

recognition (pp 6154-6162).

[4] Zhang, H., Chang, H., Ma, B., Wang, N., & Chen, X (2020) Dynamic R-CNN: Towards high quality object detection via dynamic training In Computer Vision-ECCV

2020: 16th European Conference, Glasgow, UK, August 23-28, 2020, Proceedings, Part

XV 16 (pp 260-275) Springer International Publishing.

[5] Wu, Y., Chen, Y., Yuan, L., Liu, Z., Wang, L., Li, H., & Fu, Y (2020) Rethinking classification and localization for object detection In Proceedings of the IEEE/CVF

conference on computer vision and pattern recognition (pp 10186-10195).

Kế hoạch thực hiện:

+ Tuần 1 — 3: Khảo sát các nghiên cứu cho bài toán mô tả văn ban trong ảnh chụp bối

cảnh thé giới thực

+ Tuần 4 — 6: Thực nghiệm các phương pháp state-of-the-art khảo sát của bai toán trên

dit liệu ICDAR-15 và CTW1500.

+ Tuan 6 — 8: Cài đặt được lần lượt phương pháp Cascade RCNN va phương pháp

Dynamic RCNN vào mô hình Mask RCNN và sử dụng đầu Double Head

+ Tuần 9 — 10: Cài đặt các kỹ thuật xử lý và gan nhãn dữ liệu vào mô hình đề xuất

+ Tuần 11-— 13: Tiến thành thực nghiệm phương pháp đề xuất trên hai bộ dé liệu

ICDAR-15 và CTW1500.

+ Tuần 14— 16: Phân tích, đánh giá và thực nghiệm thêm dé lựa chọn đề xuất kết hợp

tốt nhất

Trang 9

+ Tuần 17 - Phần còn lại: Tông kết, xây dựng ứng dụng di động, hoàn thiện báo cáo,

hoàn thiện kết quả nghiên cứu dé thực hiện công bố khoa học

Xác nhận của CBHD TP HCM, ngày 03 tháng 3 năm 2022

(Ký tên và ghi rõ họ tên) Sinh viên

(Ký tên và ghi rõ họ tên)

Võ Duy Nguyên Dinh Nhật Minh

Trần Nguyên Bảo

Trang 10

MỤC LỤC

DE CƯƠNG CHI TIẾT

TOM TAT KHÓA LUẬN

1.4 Mục tiêu và phạm vi của luận văn

1.5 Đóng góp của nghiên cứu

1.6 Bế cục của luận văn

Chương 2 CÁC NGHIÊN CỨU LIÊN QUAN

2.1 Hướng tiếp cận dựa trên biéu diễn vị trí của đối tượng

2.1.1 Hướng tiếp cận dựa trên hồi quy

2.1.2 Hướng tiếp cận dựa trên phân đoạn

2.2 Hướng tiếp cận dựa trên cấp độ của văn bản

2.2.1 _ Phát hiện trên từng ký tự trong văn bản

2.2.2 Phát hiện trên từng từ trong văn bản

2.3 Các hướng tiếp cận khác

2.3.1 Hướng tiếp cận dựa theo bài toán phát hiện đối tưởng tổng quát

2.3.2 Hướng tiếp cận tiền huấn luyện đối chiếu Hình ảnh-Ngôn ngữ

2.3.3 Các phương pháp tăng cường dữ liệu

19

20

Trang 11

Chương 3. PHƯƠNG PHÁP ĐÈ XUÁT

3.1 Tổng quan phương pháp đề xuất

Khái quát các phép biến đôi của STRAug

Chiến lược tăng cường dữ liệu dựa trên STRAug

Intersection over Union (IoU)

TP (True Positive), FP (False Positive) va FN (False Negative)

Precision Recall

Hmean

FPS

4.3 Cài dat chỉ tiết

21 21

22 26 26 26

27 29 32 35

Trang 12

4.3.1 CLIPResNet backbone

4.3.2 Huấn luyện và triển khai mô hình

44 Kết quả thực nghiệm, đánh giá và bàn luận

4.5 Nghiên cứu tác động cua từng mô-đun

45 49

51 55 55

57 62

63

64

Trang 13

DANH MỤC HÌNH

Hình 1.1 Đầu vào và đầu ra của bài foán ccccccccciiiiirrrrrrrtrriiiiiiiiie 3

Hình 1.2 Minh họa ảnh văn bản có bối cảnh phức tạp do sự có sự trùng về màu sắc

và độ tương phản Trong đó, đối tượng văn bản được đánh dấu bằng hình chữ nhật

màu xanh lá nam lẫn vào nên 4

Hình 1.3 Minh họa ảnh văn bản bị che khuất và nh Đối tượng văn bản được

khoanh bằng hình chữ nhật màu xanh lá bị nhiễu đường nét, đối tượng văn bản

được khoanh bằng hình chữ nhật màu đỏ bị vật che khuất một phan.

Hình 1.4 Minh họa ảnh văn bản có góc chụp xiên so với văn bản Đối tượng văn

bản được khoanh bằng hình chữ nhật màu xanh lá bị mắt một phan thông tin do gócchụp, đối tượng văn bản được khoanh bằng hình chữ nhật màu xanh lá bị mắt thông

tin do Vi tri CHỤP QUA XQ SE HT TH hàn 6

Hình 1.5 Minh họa ảnh văn có hình dang da dạng và kích thước khác nhau Trong

ảnh ta thấy rằng bảng hiệu có chữ “smrt” khá kiểu cách

Hình 2.1 Minh họa văn bản được phát hiện theo hôi quy Mỗi đối tượng văn ban

trong ảnh được xác định bằng một hộp giới hạn tối tiểu 1

Hình 2.2 Minh họa văn bản được phát hiện theo phân đoạn ngữ nghĩa Các đối

tượng văn bản trong ảnh déu được tô trong cùng một vùng . - - 3

Hình 2.3 Minh họa văn bản được phát hiện theo phân đoạn đối tượng Các đối

tượng van ban trong ảnh được xác định thành từng vùng riêng biệt 4

Hình 2.4 Minh họa văn bản được phát hiện theo cấp độ ký tự Mỗi đối tượng văn

bản trong ảnh được xác định vị trí trên cấp độ ký tự 6Hình 2.5 Minh họa văn bản được phát hiện theo cấp độ từ Mỗi đối tượng văn bản

trong ảnh được xác định vị trí trên cấp LẺ 7Hình 3.1: Tổng quan phương pháp dé xuất -cc¿c22cccccscccvercccseecrrrree 21

Hình 3.2 So sánh giữa Standard Cascade Head va Cascade Double Head trên một

nhánh của Cascade Rol Head Ta nhận thấy rằng ở ddi don, hai tác vụ phân loại

(classification) và hồi quy hộp giới han (Bounding Box) déu được xử lý với Shared

Trang 14

Convs và Shared FC, trong khi ở đầu đôi hai tác vụ này được tách ra với Share

Convs cho tác vụ hồi quy hộp giới hạn trong khi Shared FC cho tác vụ

CÏA1SSSÄ[ÏC[ÏOH SE EEEkESỀĐEỰkH TT TH HH TT TH TH HT HH hệ 23

Hình 3.3 CLIP được tiền huấn luyện với một bộ mã hóa hình ảnh và một bộ mã hóa

văn bản dé dự đoán hình ảnh nào được ghép cùng với văn bản trong tập dữ liệu 27

Hình 3.4 CLIP được sử dụng như một bộ phân loại zero-shot (không can huấn

luyện lại) Bằng cách chuyển đổi tắt cả các lớp của tập dữ liệu thành các chú thích

như "một bức ảnh cua một " và dự đoán lớp của chú thích ma CLIP ước tính phù

hợp nhất với một hình ảnh cụ ANE crcccccscssssssvsssessssssssssvsssesssssseesesssseesssssssesssseeseessseeees 28

Hình 3.5 Minh họa văn bản khi biến đổi theo nhóm kiểu Warp - 35Hình 3.6 Minh họa văn bản khi biến đổi theo nhóm kiểu Œeometry - 36

Hình 3.7 Minh họa văn bản khi biến đổi theo nhóm kiểu Noise 36Hình 3.8 Minh họa văn bản khi biến đổi theo nhóm kiểu Blur „36

Hình 3.9 Minh họa văn bản khi biến đổi theo nhóm kiểu Weather 36Hình 3.10 Minh họa văn bản khi biến đổi theo nhóm kiểu Camera „37

Hình 3.11 Minh họa văn bản khi biến đổi theo nhóm kiểu Pattern

Hình 3.12 Minh họa văn bản khi biến đổi theo nhóm kiểu Process

Hình 4.1 Minh họa văn bản và nhãn thực của văn bản trong bộ dữ liệu

ICDAR-Hình 4.4 Minh họa giao diện của ng dỤNg cà S«Sssvsseeererereksrekeevree 51

Hinh 4.5 Minh hoa giao dién chon siéu tham số cho mô hình và màu của hộp giới

Hình 4.6 Minh họa kết quả dự đoán của mô hình trên ứng dụng . 54

Trang 15

DANH MỤC BANG

Bảng 4-1 So sánh hiệu suất của các phương pháp phát hiện văn bản trong bối cảnh

„45 Bảng 4-2 Đánh giá hiệu quả mô-đun DoubleHead 49 Bảng 4-3 Đánh giá hiệu quả của phương pháp STRAUG và backbone CLIPResNet

Trang 16

DANH MỤC TỪ VIET TAT

Từ viết tắt Từ nguyên gốc

Cas - Dou Cascade RCNN Double Head

CNN Convolutional Neural Network

RNN Recruitment Neural Network

STRAug, STRAUG Scene-text Recognition

Augmentation

CLIP Language Image Pretraining

oCLIP OCR Language Image Pretraining

SOTA State — of — the — art

Convs Convolutional Layers

FC Fully-connected layers

Rol Region of Interest

FPS Frames Per Second

Trang 17

TÓM TẮT KHÓA LUẬN

Khóa luận này tập trung giải quyết bài toán phát hiện văn bản trong ảnh có bốicảnh (Scene-text Detection), đây là một bài toán mới và rất thú vị và dành được rất

nhiều sự quan tâm đến từ các nhà nghiên cứu trong cả lĩnh vực thị giác máy tính và

xử lý ngôn ngữ tự nhiên nhờ tính ứng dụng rộng rãi của nó trong thực tế như phântích nội dung ảnh hoặc video cho truyền thông xã hội, hỗ trợ số hoá dữ liệu hay ứngdụng tìm kiếm bằng nội dung hình ảnh Mục tiêu của bài toán là xác định vị trí củavăn bản trong không gian có bối cảnh và biểu diễn chúng dưới dạng một hộp giới hạn

tối tiểu hoặc một vùng đối tượng

Thách thức lớn nhất của bài toán đó là sự khó khăn trong việc phát hiện văn

ban ở sự tác động của những yếu tố đến từ môi trường hay con người tác động đếnđối tượng văn bản cũng như các yếu tố đến từ sự đa dạng về đặc điểm hay cấu trúc

của văn bản Đặc biệt, sự tương tác và ảnh hưởng lẫn nhau giữa các yếu tố này đòi

hỏi việc giải quyết thành công bài toán phát hiện văn bản trong cảnh phải được xem

xét trên nhiều khía cạnh khác nhau

Khóa luận này tập trung vào việc cải thiện đó chính xác trên bài toán dựa thoehướng tiếp cận của tận dụng các mô hình SOTA trong bài toán phát hiện đối tượng

nói chung, cụ thé là dựa trên phương pháp cơ sở Cascade Mask RCNN Chúng tôi

ết hợp phương pháp cơ sở này với đầu Double Head nhằm cải thiện và nâng cao khảnăng phát hiện văn bản có trong ảnh có bối cảnh Bên cạnh đó, khảo sát khả năng của

mô hình rút trích đặc trưng ResNet50 đã được tinh chỉnh và tiền huấn luyện trước với

mô hình oCLIP cho việc cải thiện khả năng rút trích các đặc trưng từ hình ảnh đầu

vào Cuối cùng, tỉnh chỉnh phương pháp tăng cường dữ liệu STRAug vốn dành riêngcho bài toán nhận dạng văn bản trong ảnh có bối cảnh (Scene-text Recognition) vào

mô hình nhằm mục tiêu cải thiện khả năng phát hiện những đối tượng văn bản có cấu

trúc hay hình dáng đa dạng.

Các kết quả thu được của khóa luận chứng tỏ sự vượt trội và cạnh tranh so với

các phương pháp đã có hiện nay.

Trang 18

Chuong 1 MỞ ĐÀU

1.1 Động lực nghiên cứu

Bài toán phát hiện văn bản trong ảnh chụp bối cảnh thế giới thực là một trongnhững van đề quan trọng trong lĩnh vực thị giác máy tính Đặc biệt, bài toán này càng

được quan tâm bởi những ảnh hưởng của nó trong lĩnh vực xử lý ngôn ngữ tự nhiên.

Bên cạnh đó, từ bài toán, những ứng dụng thực tế được phát triển một cách rộng rãi

như phân tích nội dung ảnh hoặc video cho truyền thông xã hội, hỗ trợ số hoá đữ liệu

hay ứng dụng tìm kiếm bằng nội dung hình ảnh Mục tiêu của bài toán là xác định vịtrí của văn bản trong không gian có bối cảnh và biểu diễn chúng dưới dạng một

hộp giới hạn tối tiéu hoặc một vùng đối tượng

Trong những năm gần đây, các phương pháp sử dụng học sâu đang trở thành xuhướng mới trong giải quyết bài toán phát hiện văn bản trong bối cảnh Các mô hìnhnày đã được áp dụng một cách hiệu quả dé xây dựng các hệ thống phát hiện văn bản

Chúng thé hiện kha nang xu ly nhiéu loai dinh dang van ban, nhan dién da dang kiéu

chữ, cũng như các van ban có kích thước va độ phan giải khác nhau Những mô hình

học sâu phố biến được sử dụng trong giải quyết bài toán phát hiện văn bản trong bối

cảnh là mạng nơ-ron tích chập (CNN) Mô hình CNN có thé xử lý và trích xuất thông

tin từ các ảnh với độ phân giải khác nhau Trong bài toán phát hiện văn bản, các đặc

trưng của vùng chứa văn bản sẽ được trích xuất bằng cách sử dụng các lớp tích chập

Sau đó, các đặc trưng được đưa vào các lớp kết nói day đủ dé phân loại vùng chứa đó

có chứa văn bản hay không.

Mặc dù các kiến trúc áp dụng trong bài toán phát hiện đối tượng đang có sự pháttriển mạnh mẽ, song bài toán phát hiện văn bản vẫn đối diện với nhiều thách thức

Trong đó, việc phát hiện văn bản trên các hình ảnh có kích thước và hình dạng khác

nhau đối mặt với sự phức tạp về hình dáng của văn bản: văn bản ngang, văn bản nhiềuhướng hay văn bản cong, kiểu chữ đa dang và các đối tượng khác trên nền là các

thách thức chính Ngoài ra, việc xử lý các văn bản viết bằng nhiều ngôn ngữ và phát

Trang 19

hiện văn bản trong các hình ảnh phức tạp cũng đòi hỏi các phương pháp xử lý ngôn ngữ tự nhiên và thị giác máy tính nâng cao.

Dé giải quyết các thách thức này, các mô hình phát hiện văn bản cần được cái tiến

để đảm bảo tính 6n định và độ tin cậy trong quá trình phát hiện và trích xuất văn bản

Nhằm phát hiện văn bản ở nhiều kích cỡ hay hình dáng khác nhau, những nghiên cứugần đây đặc biệt chú trọng vào các phương pháp phân đoạn Phương pháp này hướng

tới mục đích phân tách vùng chứa văn bản và vùng không chứa văn bản trong hình

ảnh nhờ đầu ra của dự đoán được mô tả ở cấp độ điểm ảnh Với phương pháp phân

đoạn, việc phát hiện và trích xuất văn bản sẽ được thực hiện trên các vùng chứa văn

bản đã được xác định, giúp tăng độ chính xác và hiệu quả của bài toán phát hiện văn

bản Bên cạnh đó, phương pháp phân đoạn cũng giúp giảm thiểu các ảnh hưởng củanhiễu và các đối tượng khác trên nền tảng, giúp đảm bảo tính ồn định và độ tin cậy

cho các mô hình phát hiện văn bản.

Trong các mô hình được dùng dé giải quyết bài toán, mô hình Mask RCNN [1]

cho thay độ hiệu quả trong việc phát hiện văn bản trong ảnh chụp bối cảnh thế giớithật Ngoài ra, sự phát triển mạnh mẽ của các mô hình cho phép đạt được phát hiện

đối tượng chat lượng cao như Cascade RCNN [3] hay Dynamic RCNN [4] cũng đóng

góp quan trọng trong việc giải quyết vấn đề này Ngoài các phương pháp truyền

thống, phương pháp Double-Head [5] cũng mang lại nhiều tiềm năng trong việc phát

hiện văn bản Thay vì chỉ dựa trên mô hình phát hiện đối tượng, Double-Head sử

dụng cả mô hình phân loại dé đánh giá chính xác loại văn bản, giúp tăng độ chính xác

và giảm sai số trong quá trình phát hiện Bên cạnh đó, phương pháp Double-Headcòn cho phép mở rộng va tùy chỉnh dé áp dụng cho các ứng dụng khác nhau Việc

kết hợp giữa các mô hình khác nhau cũng tạo ra một cơ chế linh hoạt trong quá trình

huấn luyện và kiểm tra

Sự phát triển mạnh mẽ của các mô hình phát hiện đối tượng đi cùng những thách

thức khó khăn trong bài toán phát hiện văn bản từ ảnh có bối cảnh đã tạo nên tiềmnăng hiện tại cho bài toán Chính tiềm năng này đã tạo nên động lực để chúng tôi

Trang 20

quyết định lựa chọn bài toán này cho việc tìm hiểu, nghiên cứu và thực hiện khóaluận tốt nghiệp Mục tiêu đề xuất một mô hình phát hiện văn bản trong bối cảnh dựatrên sự kết hợp lần lượt cơ chế Cascade RCNN va Dynamic RCNN với đầu DoubleHead vào kiến trúc Mask RCNN hướng tới việc cải thiện hiệu suất phát hiện văn bản.

1.2 Phát biểu bài toán

Bài toán phát hiện văn bản bối cảnh biểu diễn từng văn bản xuất hiện trong hìnhảnh Đầu vào và đầu ra của bài toán có thể được mô tả như sau:

e Đầu vào: Hình ảnh có chứa văn bản được chụp từ môi trường thực

e Đầu ra: VỊ trí của văn bản trong hình ảnh được thể hiện bởi vùng phân đoạn

riêng biệt và hộp giới hạn tối tiểu

(a) Đầu vào (b) Đầu ra

Hình 1.1 Đâu vào và dau ra cua bài toán

1.3 Cac thach thire

Trong bài toán phát hiện văn ban trong ảnh có bối anh, những thách thức của bài

toán đã được dé ra rất nhiều Các thách thức này đến từ các yếu tố ngoại cảnh và cácyếu tô đến từ bản chất bài toán và đối tượng

1.3.1 Các yếu tố đến từ ngoại cảnh

Các yếu tô ngoại cảnh có thê được giải thích một cách trực quan là những yếu

tố đến từ môi trường hay con người tác động đến đối tượng Cũng như các bài toán

phát hiện đối tượng khác trong môi trường tự nhiên, trong bài toán “phát hiện chữtrong ảnh có bối cảnh”, các yếu tố này tác động một cách rõ rệt đến hiệu năng phát

hiện của các mô hình học máy.

Trang 21

Yếu tô ngoại cảnh đầu tiên có thé ké đến đó là đồ phức tạp cua nên Vì đượcchụp trong môi trường thực tế, đối tượng văn bản thường được đặt trong bối cảnh

phức tạp như ảnh có bối cảnh đường phó, ảnh có bối cảnh thiên nhiên hay ảnh có bồi

cảnh phường chợ Điểm chung của những bối cảnh này là có nhiều đối tượng cũngnhư đa dạng về loại chỉ phối đến khả năng phát hiện văn bản Bên cạnh đó, sự phức

tap trong bối cảnh còn đến từ sự chênh lệch về độ sáng, màu sắc và độ tương phảncủa nền làm cho việc phát hiện văn bản trở nên thách thức hơn

và độ tương phản Trong đó, đối tượng văn bản được đánh dấu bằng hình chữ nhật

màu xanh: lá năm lan vào nền.

Tiếp đến, một trong những thách thức mà đa số các bài toán phát hiện đối

tượng trong ảnh chụp từ môi trường tự nhiên khác đều gặp phải đó là vấn đề về bjche khuất và nhiễu Trong môi trường tự nhiên, không khó đề bắt gặp việc các đối

tượng bị che khuất do các đối tượng khác có thể liệt kê như cây cối, xe cộ, các tòa

nhà hay bóng đen của các đối tượng khác có kích thước lớn Điều này khiến các đốitượng quan tâm dé phát hiện, cụ thé ở đây là đối tượng chữ bị mất đi một phan thông

Trang 22

tin hay nội dung khiến cho việc phát hiện trở nên khó khăn dé phát hiện Yếu tô vềnhiễu như nhiễu màu, nhiễu đường viền hay nhiễu sáng thường thấy ở những bảnghiệu cũ, những tam áp phích quảng cáo bị hư hại do thời tiết hoặc con người, cũngkhiến văn bản trong đó bị biến dạng, gây trở ngại trong việc phát hiện đối tượng đó.

khoanh bằng hình chữ nhật màu xanh lá bị nhiễu đường nét, đối tượng văn bản được

khoanh bằng hình chữ nhật màu đỏ bị vật che khuất một phan.

Bên cạnh đó, yếu tô mát mát thông tin từ giai đoạn thu thập dữ liệu ảnh thông

qua chụp lại hoặc quay phim có thé xét đến như chất lượng hình ảnh, góc chụp hoặc

quay và vị trí thu thập dữ liệu cũng ảnh hưởng không nhỏ đến khả năng phát hiện chữcủa mô hình Khi đối tượng văn bản được thu thập trong ảnh mờ hoặc nằm ở khoảng

cách xa, có thé xảy ra hiện tượng mat mát thông tin do sự nhòe đối tượng đến từ ảnh

mờ hoặc bị tiêu biến do khoảng cách quá xa Điều này trực tiếp dẫn đến việc phát

hiện văn bản không chính xác hoặc bỏ sót các đối tượng văn bản, đặc biệt là ở văn bỏ

có kích thước nhỏ.

Trang 23

được khoanh bằng hình chữ nhật màu xanh lá bị mat một phan thông tin do góc chụp,

đối tượng văn bản được khoanh bằng hình chữ nhật màu xanh lá bị mắt thông tin do

vị trí chụp quá xa.

1.3.2 Các yếu tố đến từ bên trong

Các yếu tố đến từ bên trong, hay các yếu tố đến từ bản chất của văn bản lànhững yếu t6 đến từ đặc điểm hay cau trúc của văn bản

Văn bản xuất hiện trong thực tế thường có da dang về định dạng về kiểu chữ

và phông chữ cùng với kích thước khác nhau đã làm cho sự đa dạng đó càng trở nên

phong phú hơn bao giờ hết Sự đa dạng này gây nên nhiều mâu thuẫn, nhằm lẫn và

khó khăn trong việc phát hiện các đối tượng văn bản với nhau Bên cạnh đó, yếu tố

về kích thước chữ cũng tạo nên thách thức không nhỏ cho các mô hình phát hiện đối

tượng văn bản, đặc biệt là trong môi trường thực tế Đặc biệt, những đối tượng chữ

có kích thước quá nhỏ cộng với kiểu chữ và phông chữ quá cầu kỳ khiến những đối

tượng này thường bị phát hiện sai hoặc bị bỏ qua trong quá trình phát hiện văn bản.

Trang 24

anh ta thấy rằng bảng hiệu có chữ “smrt” khá kiểu cách.

Theo cách nhìn tổng quan khác, ngoài yêu tố đến từ bản chat của đối tượng,

cụ thé ở đây là văn bản, yếu tố về ứng dụng của bài toán cũng có thể được suy xét lànhững yếu tó đến từ bên trong Những mô hình giải quyết cho bài toán phát hiện văn

bản trong môi trường thực tế khi được ứng dụng vào các tình huống cụ thé trong đờisống như ứng dụng phát hiện biên số xe, nhận dạng thông tin địa chỉ hay ứng dụng

chụp và dich văn bản đòi hỏi thêm về yếu t6 hiệu suất và tốc độ xử lý Yêu tố này liên

quan đến khả năng xử lý ảnh và phát hiện văn bản trong thời gian thực, đặc biệt quantrọng đối với các ứng dụng trong thực tế

1.3.3 Tổng quát về các thách thức

Sự phân biệt giữa yếu tố môi trường bên ngoài và van dé bên trong không hoàn

toàn tách rời Thường có sự tương tác và ảnh hưởng lẫn nhau giữa các yếu tố này, vàviệc giải quyết thành công bài toán phát hiện văn bản trong cảnh đòi hỏi phải xem xét

cả hai khía cạnh này Các phương pháp phát hiện văn bản trong cảnh thường kết hợpcác kỹ thuật xử lý ảnh, học máy va trí tuệ nhân tạo để xử lý đa dang các tình huéng

và tăng cường khả năng phát hiện văn bản.

Trang 25

1.4 Mục tiêu và phạm vi của luận văn

Trong phạm vi của một dé tài khóa luận tốt nghiệp, mục tiêu chính của khóa luận

này là:

1 Tim hiểu tổng quan về bài toán phát hiện văn bản trong bối cảnh

2 Nắm vững và hệ thống lại các kiến thức và kỹ thuật liên quan đến bài toán

phát hiện văn bản.

3 Tổng hợp các phương pháp phát hiện văn bản dựa trên học sâu tiên tiến hiện

tại.

4, Tiến hành thực nghiệm đánh giá các phương pháp phát hiện văn bản trong ảnh

bối cảnh Đánh giá hiệu suất của các mô hình dựa trên các tiêu chí đánh giá

tiêu chuẩn như Precision, Recall, Hmean, va FPS

5 Từ quá trình thực nghiệm, đưa ra kết quả hữu ích để cải thiện hiệu suất phát

hiện văn bản và đánh giá kết quả cải tiến Đề xuất một số kỹ thuật nhằm nângcao độ chính xác của phát hiện văn ban và đánh giá kết quả cải tiến

1.5 Đóng góp của nghiên cứu

Trong nội dung của báo cáo này, các cách tiếp cận trước dây cho bài toán pháthiện văn bản trong ảnh có bối cảnh (Scene-Text Detection) sẽ được trình bày một

cách chỉ tiết về ý tưởng, nội dung cũng như phân tích ưu nhược điểm của các phương

pháp tiền nhiệm Bên cạnh đó, cũng cho cái nhìn tổng quan về quá trình phát triểncủa các phương pháp trong quá trình giải quyết bài toán này

Bên cạnh đó, nội dung trong báo cáo này cũng dé cập đến các bộ dữ liệu phổ biếnhiện có cho bài toán phát hiện văn bản trong ảnh có bối cảnh Trong đó, các dữ liệu

sẽ được mô tả một cách chỉ tiết về số lượng cũng như các thách thức có trong dit liệu

Cuối cùng, trong khóa luận này, hướng tiếp cận khác hướng tới cải thiện kết quả

trên phương pháp Mask RCNN cũng được dé xuất và trình bày chỉ tiết về ý tưởngcũng như giải thích về kết quả thực nghiệm

Trang 26

1.6 Bố cục của luận văn

Phan còn lại của khóa luận được trình bày theo bố cục như sau:

CHƯƠNG 2 - CÁC NGHIÊN CỨU LIÊN QUAN: trình bày một khảo sát về các

cách tiếp cận ở các công trình trước đây trên bài toán phát hiện văn bản trong ảnh cóbối cảnh

CHƯƠNG 3 —- PHƯƠNG PHÁP ĐÈ XUẤT: trình bày cải tiến dựa trên phương

pháp cơ sở Mask RCNN giúp cải thiện độ chính xác, nội dung của Chương này đã

được công bố trong công trình số

CHƯƠNG 4- KET QUA THỰC NGHIỆM: trình bày về bộ dữ liệu ICDAR2015

cho bài toán mô tả ảnh dựa trên văn bản và kết quả các thử nghiệm khác nhau trong

quá trình nghiên cứu.

CHƯƠNG 5~ KET LUẬN VA HƯỚNG PHAT TRIEN: tổng quát lại một số nội

dung chính trong toàn bộ nội dung nghiên cứu và hướng phát triển trong tương lai

Trang 27

Chương 2 CÁC NGHIÊN CỨU LIÊN QUAN

Trong những năm gần day, các phương pháp phát hiện văn bản đã phát triển khôngngừng và đã đạt được nhiều kết quả khả quan Các hướng tiếp cận hiện nay có thể

phân thành hai hướng như sau: hướng tiếp cận dựa trên biéu diễn vị trí của đối tượng

và hướng tiếp cận dựa trên cấp độ của văn bản Việc chia hướng tiếp cận thành hai

hướng gồm hướng tiếp cận biểu diễn VỊ trí của đối tượng và hướng tiếp cận dựa trên

cấp độ văn bản nhằm mục đích có thé giải thích rõ ràng về sự khác nhau tương ứngtrong từng hướng tiếp cận Trong thực tế, cả hai hướng tiếp cận này dường tồn tại

song song ở mỗi phương pháp phát hiện văn bản tiên tiến hiện nay

2.1 Hướng tiếp cận dựa trên biểu diễn vị trí của đối tượng

2.1.1 Hướng tiếp cận dựa trên hồi quy

Phương pháp phát hiện văn bản dựa trên phương pháp hồi quy Based Methods) trong bài phát hiện văn bản trong ảnh có bồi cảnh tập trung vào việc

(Regression-dự đoán trực tiếp các thông số và hình dạng của văn bản trong cảnh Các phương

pháp hồi quy tạo ra dự đoán hồi quy cho các tham sé của hình dang văn bản, ching

hạn như tọa độ, kích thước và góc xoay Mục tiêu của phương pháp này là dự đoán

trực tiếp các thuộc tính của vùng văn bản trên ảnh, thường là các hình chữ nhật xoay(rotated rectangles) hoặc các hình tứ giác cấp pixel, từ đó xác định vị trí và hình dạng

của văn bản trong cảnh.

10

Trang 28

trong ảnh được xác định bằng một hộp giới hạn tối tiểu.

Có nhiều phương pháp phát hiện văn bản trong ảnh có bối cảnh dựa trên

phương pháp hồi quy và cho kết quả khả quan, một trong những phương pháp ấy đó

là RDD [1] Phương pháp này tỉnh chỉnh tỷ lệ mỏ neo của mạng SSD [2| để phù hợp

với biến thể tỷ lệ khía cạnh trong các hình dạng không đều Bên cạnh đó, nhằm pháthiện cung cấp khả năng phát hiện các hình dạng văn bản không đều và khái quát hơn,

phương pháp Textboxes++ [3] được ra đời Textboxes++ có thể coi là một phươngpháp cải tiền của SSD với việc sửa đổi các nhân té tích chập và hộp neo dé thu thập

các hình dạng văn bản khác nhau một cách hiệu quả Một trong những phương pháp

dựa trên phương pháp hồi quy đề phát hiện đối tượng văn bản từ ảnh chụp môi trườngthực tế tiếp theo có thé kể tên đó là EAST [4] Nhóm tác giả của mô hình EAST đã

đề xuất một quy trình đơn giản nhưng mạnh mẽ, mang lại khả năng phát hiện văn bảnnhanh chóng và chính xác trong các cảnh tự nhiên nhờ vào việc cắt giảm cơ chế mỏ

neo và giai đoạn đề xuất vùng đối tượng, trực tiếp sử dụng mạng tích chập đầy đủ désuy luận các hình tứ giác cấp pixel của từng ứng viên từ văn bản trong cảnh

11

Trang 29

Các phương pháp dựa trên hồi quy thường tập trung vào việc dự đoán hình

dạng chính xác của văn bản trong cảnh, để xử lý các biến thể hình học phức tạp.

Chúng thường có khả năng huấn luyện đơn giản hơn so với các phương pháp khác

như phân đoạn Tuy nhiên, các phương pháp này có thể gặp hạn chế trong việc xử lý

văn bản có hình dạng phức tạp.

2.1.2 Hướng tiếp cận dựa trên phân đoạn

Phương pháp phát hiện văn bản dựa trên phân đoạn (Segmentation-based

methods) là một trong những phương pháp tiên tiễn trong bài toán phát hiện văn bản trong ảnh có bối cảnh Phương pháp này nhắm vào việc phân đoạn văn bản từ hình

ảnh thành các phần tử cơ bản, như các pixel hoặc đoạn, dé thu được thông tin chi tiét

vé vi tri va hinh dang cua từng đối tượng văn bản Chúng ta có thể phân loại các

phương pháp dựa trên phân đoạn thành hai nhóm chính: phương pháp phân đoạn theo

ngữ nghĩa (Semantic segmentation — based method) và phương pháp phân đoạn theo

đối tượng (Instnace segmentation — based methods).

Phương pháp phân đoạn theo ngữ nghĩa là những phương pháp định danh

các khu vực chứa văn bản trong hình ảnh bằng cách gán nhãn cho từng pixel Mục

tiêu của phương pháp này tập trung vào việc xác định vùng chứa văn bản trên toàn

bộ hình ảnh Trong bài toán phát hiện văn bản trong ảnh có bối cảnh, khi nhắc đến cách tiếp cận phân đoạn theo ngữ nghĩa, không thê không nói về phương pháp Fully

Convolution Networks (FCN) [5], phương pháp có thể coi là truyền cảm hứng cho

tất cả các phương pháp phát hiện văn bản theo cách tiếp cận phân đoạn ngữ nghĩa sau này Nhằm thay đổi cách tiếp cận truyền thống của việc sử dụng các lớp kết nối đầy

đủ cho phân đoạn hình ảnh, FCN trực tiếp dự đoán nhãn từng pixel cho phân đoạn

thông qua việc thay đôi các lớp kết nối đầy đủ bằng các lớp lớp tích chập và áp dụng

các phép tích chập trên toàn bộ hình ảnh Việc này không những giúp cho quá trình

phân đoạn trở nên chỉ tiết hơn mà tăng độ chính xác Tiếp nối thành công trong hướng

tiếp cận phân đoạn ngữ nghĩa mà FCN tạo ra, phương pháp Textsnake [6] được đề

12

Trang 30

xuất bằng cách Kết hợp phân đoạn ngữ nghĩa cùng với việc xác định các hình dạng

Hình 2.2 Minh họa văn bản được phát hiện theo phân đoạn ngữ nghĩa Các đối

tượng văn bản trong ảnh đều được tô trong cùng một vùng.

Phương pháp phân đoạn theo đối tượng là phân đoạn từng đối tượng văn

bản riêng lẻ trong hình ảnh Mục tiêu của chúng là phát hiện và phân đoạn từng từ,

từng ký tự hoặc từng đoạn văn bản một cách riêng lẻ Các phương pháp dựa trên phân

đoạn theo đối tượng đã nổi lên như là một trong những cách tiếp cận đầy hứa hẹn trong việc phát hiện văn bản trong ảnh có bối cảnh PixelLink [7], sử dụng mô hình

dự đoán cấp pixel dé phát hiện và phân đoạn văn bản trong cảnh quan tự nhiên, sử dụng mạng tích chập hoàn toàn đề dự đoán bản đồ nhiệt cho khu vực văn bản và bản

đồ liên kết dé kết nối từng ký tự hoặc từ Văn bản đã được phân đoạn sau đó được nhận dạng bằng mô hình nhận dang dựa trên CNN Trong bài báo “Learning Shape- Aware Embedding for Scene Text Detection” [8], để giải quyết thách thức phát hiện các trường hợp văn bản có tỷ lệ cạnh thay đổi, một phương pháp được đề xuất dựa trên việc ánh xạ các pixel của một hình ảnh vào không gian nhúng Đồng thời, nhóm tác giả cũng giới thiệu một hàm mat mát mới nhằm điều chỉnh hình dạng trong quá

13

Trang 31

trình huấn luyện, giúp mô hình thích ứng tốt hơn với các tỷ lệ cạnh khác nhau của

Hình 2.3 Minh họa văn bản được phát hiện theo phân đoạn doi tượng Các doi

tượng văn bản trong ảnh được xác định thành từng vùng riêng biệt.

Mặc dù các phương pháp dựa trên phân đoạn nhìn chung đã cho thấy hiệu suất

an tượng cho bài toán phát hiện văn bản trong ảnh có bối cảnh, tuy nhiên, vẫn còn

tồn đọng nhiều thách thức đáng kể Một trong những hạn chế có thé nhắc đến đó là

van dé thông tin hình ảnh không đủ, dẫn đến kết qua phát hiện không chính xác Thách thức này chủ yếu đến từ việc các phương pháp hiện nay chỉ tập trung phát hiện văn bản từ một khu vực quan tâm (Rol) duy nhất, mà bỏ qua việc xem xét bối cảnh

rộng hơn trong hình ảnh Hơn nữa, các phương pháp hiện nay chưa đánh giá đúng

mức độ ngữ nghĩa của từ khác nhau, dẫn đến nguy cơ cao gây ra những kết quả đương tính sai trong quá trình phát hiện văn ban Dé vượt qua những hạn chế này, phương pháp TextFuseNet [9] đã được đề xuất như là một phương pháp day triển vọng bang cách tích hợp nhiều đặc trưng hình ảnh, bao gồm phân đoạn ngữ nghĩa và phân đoạn theo đối tượng, nhằm cải thiện độ chính xác trong việc phát hiện văn bản trong ảnh

có bôi cảnh Câu trúc của mô hình TextFuseNet được thiêt kê như một câu trúc đa

14

Trang 32

giai đoạn, trong đó với mỗi giai đoạn, mô hình tập trung vào giải quyết một khía cạnh

cụ thé trong nhiệm vụ phát hiện văn bản Mô-đun trích xuất đặc trưng thu thập các

đặc trưng từ hình anh đầu vào, sau đó đưa vào mô-đun phân đoạn ngữ nghĩa dé tạo

ra một mặt na thô cho các khu vực van bản trong hình ảnh Sau đó, mô-đun phân đoạn

theo đối tượng tạo ra các mặt nạ phân cấp đối tượng cho từng trường hợp văn bản

riêng lẻ trong các khu vực văn bản được xác định.

Một cách tông quan, phương pháp phân đoạn có khả năng định vị văn bản chính xác bằng cách xác định các đường viền hoặc mask cho từng từ hoặc đoạn văn bản trong ảnh Điều này giúp tạo ra các kết qua phát hiện chi tiết và chính xác về vị trí

của văn bản trong cảnh Tuy nhiên, phương pháp phân đoạn thường yêu cầu tính toán

phức tạp hơn so với các phương pháp khác Việc phải phân loại từng pixel hoặc xác

định các đường vién chỉ tiết đòi hỏi một lượng lớn tính toán và tài nguyên tính toán,

đặc biệt đôi với ảnh có độ phân giải cao.

2.2 Hướng tiép cận dựa trên cap độ của văn bản

Cấp độ của văn bản có thê hiéu là tang cau trúc thành phan cấu thành nên một văn

bản Một câu của văn bản sẽ được tạo từ nhiều từ ghép lại, và từng từ là kết quả của một hoặc nhiều ký tự khác nhau ghép lại Hướng tiếp cận dựa trên cấp độ của văn bản trong bài toán phát hiện văn bản có bối cảnh là hướng tiếp cận phát hiện văn bản

theo cấp độ ký tự hay chữ cái của văn bản hoặc theo cấp độ từ của văn bản.

2.2.1 Phát hiện trên từng ký tự trong văn bản

Phương pháp phát hiện văn bản dựa trên ký tự trong bài phát hiện văn bản

trong ảnh có bối cảnh là phương pháp phát hiện và trích xuất thông tin trên từng ký

tự có trong hình ảnh hoặc video Mục tiêu của phương pháp là tìm kiếm và xác định

vị trí của các ky tự có trong cảnh được chụp hoặc quay.

15

Trang 33

Hình 2.4 Minh họa văn bản được phát hiện theo cấp độ ký tự Mỗi đối tượng văn

bản trong ảnh được xác định vị trí trên cấp độ ký tự.

Phương pháp này thường có bộ trích xuất các ứng cử viên phức tạp, như mô hình SWT với việc sử dụng quá trình biến đổi chiều rộng nét chữ trong ảnh dé phát

hiện các vùng chứa ký tự Kỹ thuật này phân tích độ dày của nét chữ và giúp xác định

vùng ký tự dựa trên sự khác biệt giữa độ dày nét và nên ảnh Bên cạnh đó, với việc

tìm kiếm các khu vực cục bộ ôn định cực đại trong ảnh cùng với đặc điểm đặc biệt

của các ký tự thường với kích thước tương đối nhỏ và hình dạng độc đáo, mô hình

MSER được sử dụng nhằm dé phát hiện các khu vực đề xuất có chứa ký tự Các vùng ứng cử viên này sau đó được lọc bởi một bộ phân loại ký tự và không ký tự để loại

bỏ các ứng cử viên sai Cuối cùng, các ký tự còn lại được nhóm thành từ dựa trên

kiến thức trước hoặc một số mô hình gom cụm [10]-[12].

Nhìn chung, hầu hết các phương pháp dựa trên ký tự đòi hỏi thiết kế mô hình

tỉ mỉ và xử lý qua nhiều giai đoạn, điều này góp phần khiến mô hình trở nên phức tạp, không tối ưu và tiêu tốn nhiều chi phí thời gian.

16

Trang 34

2.2.2 Phát hiện trên từng từ trong văn bản

Thay vì trích xuất các ký tự riêng lẻ như phương pháp dựa trên ký tự, phương

pháp dựa trên từ trong bài toán phát hiện văn bản trong ảnh có bối cảnh là phươngpháp trực tiếp phát hiện và trích xuất các từ của văn bản từ hình ảnh hoặc video

Các phương pháp dựa trên từ phát hiện trực tiếp các từ, chủ yếu được lấy cảm

hứng từ các phương pháp phát hiện đối tượng tổng quát Năm 2016, tác giả Zhi Tian

cùng những đồng nghiệp [13] đã đề xuất một Mạng Kiến Trúc Đề Xuất Văn Bản KếtNối (Connectionist Text Proposal Network) bao gồm CNN và RNN để phát hiện toàn

bộ dòng văn bản bằng cách liên kết một loạt các hộp văn bản nhỏ Năm 2017, dựa

theo hướng tiếp cận phát hiện theo từ của văn bản, SegLink [14] được đề xuất bằng

cách sử dụng Mạng Convolutional toàn phần (FCN) đề phát hiện các đoạn văn bản

và mối quan hệ liên kết của chúng Các đoạn văn bản được liên kết đề tạo thành kết

Hình 2.5 Minh họa văn bản được phát hiện theo cấp độ từ Mỗi đối tượng văn bản

trong ảnh được xác định vị trí trên cấp độ từ

17

Trang 35

Tuy nhiên, một cách tổng quan, những phương pháp được nêu trên đều có chung

thách thức đó là chỉ phù hợp cho văn bản ngang hoặc đa hướng, hay nói cách khác

đó là phương pháp dựa trên phát hiện theo từ của văn bản gặp khó khăn trong việc xử

lý các biến thể hình học của văn bản Mặc dù có những trở ngại vậy, nhưng hướngtiếp cận phát hiện văn bản dựa trên từ giúp giảm thiểu độ phức tạp trong tính toán

cũng như đơn giản hóa quá trình huấn luyện và triển khai mô hình hơn so với cáchtiếp cận phát hiện văn bản dưa trên ký tự

2.3 Các hướng tiếp cận khác

2.3.1 Hướng tiếp cận dựa theo bài toán phát hiện đối tưởng tổng quát

Nhìn một cách khái quát, bài toán phát hiện văn bản cũng có thể được xemnhư một đề nhánh đề tài nằm trong khối bài toán phát hiện đối tượng nói chung Vìvậy, các mô hình hiện đại trong bài toán phát hiện đối tượng cũng có thể được ứngdụng cho việc phát hiện văn bản trong ảnh có bối cảnh Một trong những phươngpháp tiêu biểu cho hướng tiếp cận này không thé không nhắc đến phương pháp MaskRCNN [15], một trong những phương pháp phát triển từ họ RCNN Phương pháp nay

kết hợp giữa hai nhiệm vụ quan trọng trong thị giác máy tính, đó là phát hiện vùngđối tượng và dự đoán các mặt nạ của các vùng đối tượng đó Với cách kết hợp này,

Mask RCNN đã chứng minh khả năng mạnh mẽ trong việc phát hiện văn bản trong

ảnh thực tế [16]-[18] Với mục tiêu chính là tăng cường độ chính xác và giảm số

lượng dự đoán sai sót, mô hình Cascade RCNN được đề xuất nhằm giải quyết vẫn đề

về tỷ lệ dự đoán sai sót trong quá trình phát hiện đối tượng bằng cách áp dụng mộtchuỗi các mô hình phân lớp dựa trên R-CNN và đã đạt được những kết quả khả quan

[19]-[21] khi được ứng dụng vào bài toán phát hiện văn bản trong ảnh có bối cảnh

Ngoài ra, trong những bài toán phát hiện đối tượng nói chung, nhằm cải thiện

hai nhiệm vụ phân loại và hồi quy, mô hình Double Head [22] được ra đời bằng cáchtách riêng việc xử lý nhiệm vụ phân loại cho lớp kết nối đầy đủ trong khi lớp tích

chập hỗ trợ cho xử lý hồi quy Mặc dù đã đạt được những thành công nổi trội trong

các mô hình cho bài toán phát hiện đối tượng nói chung, phương pháp trên vẫn chưa

18

Trang 36

được áp dụng phô biến trong các kiến trúc mô hình cho bài toán phát hiện văn bảntrong ảnh có bối cảnh Vì thế trong báo cáo này, chúng tôi xem xét tận dụng cách tiếpcận này vào bài toán phát hiện văn bản trong ảnh có bối cảnh.

2.3.2 Hướng tiếp cận tiền huấn luyện đối chiếu Hình ảnh-Ngôn ngữ

Lấy cảm hứng từ các kỹ thuật tiền huấn luyện Transformer [23] tiên tiến dựa

trên NLP (Xử lý Ngôn ngữ Tự nhiên) phổ biến trong cộng đồng NLP, ta đã chứngkiến một sự quan tâm đáng kẻ đối với các phương pháp tiền huấn luyện hình ảnh-

ngôn ngữ trong những năm gan đây Điều này đã day mạnh tiễn bộ đáng kể trong

nhiều tác vụ đa dạng trong cộng đồng thị giác máy tính ViLBERT [24] và LXMERT

[25] đã giới thiệu một khung việc hai ludng, két hợp mô-đun chú ý hình ảnh-ngôn

ngữ để hợp nhất các đặc trưng chéo

Trái ngược với đó, VisualBERT [26], Unicoder-VL [27], VL-BERT [28] va

UNITER [29] đã áp dụng một khung việc một luồng (tương tự cấu trúc BERT gốc),tập trung vào các nhiệm vụ chung hình ảnh-ngôn ngữ, bao gồm Suy luận Giản lược

Hình ảnh (VCR) và Trả lời Câu hỏi Hình ảnh (VQA) Ngoài ra, đã đề xuất nhiều

phương pháp tiền huấn luyện hình ảnh-ngôn ngữ cho các tác vụ cụ thể Ví dụ,

RVL-BERT [30] được phát triển cho phát hiện mối quan hệ hình ảnh, PERVALENT [31]

và VLN-BERT [32] cho điều hướng hình ảnh, và VisualID [33] và VD-BERT [34]

cho trò chuyện hình ảnh, và nhiều phương pháp khác

Những tiến bộ trên là minh chứng cho tiềm năng của việc kết hợp các kỹ thuật

tiền huấn luyện hình ảnh và ngôn ngữ trong việc cải thiện hiệu suất của các tác vụ đadạng trong lĩnh vực thị giác máy tính Gần đây, đã trình bảy một phương pháp tiền

huấn luyện được giám sát yếu, oCLIP [35], có thé đạt được biểu diễn hiệu quả cho

văn bản trong cảnh bằng cách học và cân chỉnh thông tin hình ảnh và văn bản cùng

nhau Với việc học các đặc trưng văn bản, mô hình đã được tiền huấn luyện có thểchú ý tốt đến văn bản trong ảnh với ý thức về các ký tự

19

Trang 37

2.3.3 Các phương pháp tăng cường dữ liệu

Sử dụng kỹ thuật tăng cường ảnh đã trở thành một phương pháp phổ biến dé

ngăn chặn vấn dé quá khớp trong thị giác máy tính Tăng cường bao gồm việc xoay,cắt, dịch chuyển, tỷ lệ và lật ảnh dé tạo ra những ảnh mới trong khi vẫn giữ nguyên

ngữ cảnh dữ liệu gốc Ngoài các kỹ thuật tăng cường truyền thống, đã đề xuất một sốphương pháp mới đề cải thiện hiệu suất của mô hình Một phương pháp như vậy liênquan đến việc tích hợp nhiều ảnh vào một ảnh duy nhất như Mosaic [36] hoặc MixUp

[37], trong khi phương pháp khác liên quan đến việc ngẫu nhiên xóa một số pixel

trong ảnh [38] Những phương pháp này là một số trong số các cơ chế tăng cườngđộc đáo khác nhằm nâng cao hiệu suất của các mô hình

Ngoài ra, trong bài toán về nhận dạng văn bản từ ảnh có bối cảnh (Scene-textrecognition), hầu hết các mô hình dựa trên các tập dữ liệu tổng hợp dé huấn luyện vì

không có tập dữ liệu thực sự đủ lớn và công khai có nhãn sẵn khiến cho các mô hình

khi được đánh giá bằng dữ liệu thực tế thường gặp vấn đề về sự không khớp giữaphân phối dữ liệu huấn luyện và kiểm tra dẫn đến hiệu suất kém, đặc biệt là trên cácvăn bản khó khăn bị ảnh hưởng bởi nhiễu, hiện tượng nhân tạo, hình học hay cấu trúc

Tác giả Rowel Atienza đã giới thiệu một phương pháp học tăng cường tổnghợp 36 hàm tăng cường ảnh gọi là STRAug [39] Mỗi hàm tăng cường mô phỏng cácthuộc tính hình ảnh văn bản cụ thể có thể được tìm thấy trong các cảnh tự nhiên, docảm biến máy ảnh gây ra hoặc do các hoạt động xử lý tín hiệu nhưng không được đạidiện tốt trong tập dữ liệu huấn luyện

20

Trang 38

Chương 3 PHƯƠNG PHÁP ĐÈ XUẤT

Dựa trên cơ sở các khảo sát được trình bày ở Chương 2, chúng tôi nhận thấy

tiềm năng khai thác ở hướng tiếp cận dựa theo các mô hình đã giải quyết rất thànhcông trong bài toán phát hiện đối tượng, đặc biệt ở nhóm phương pháp cải thiện khảnăng phát hiện đối tượng chất lượng cao như Cascade RCNN Ngoài ra ở hướng tiếpcận phân đoạn theo đối tượng, mô hình Mask RCNN cũng cho thấy sự hiệu quả củamình trong cả bài toán phát hiện đối tượng nói chung và bài toán phát hiện văn bảntrong ảnh có bối cảnh nói riêng

Trong chương này, sẽ trình bày phương pháp đề xuất được phát triển dựa trênphương pháp cơ sở là mô hình Cascade Mask RCNN — một mô hình kết hợp Cascade

RCNN với khả năng phân đoạn đối tượng của đầu Mask Head trong Mask RCNN.Phương pháp đề xuất này đã đạt được hiệu quả có tính cạnh tranh với các phương

pháp SOTA hiện nay trên bài toán này.

3.1 Tổng quan phương pháp đề xuất

Classification Bounding Box

Feature Pyramid Network

Classification

Mask

Hinh 3.1: Tong quan phuong phap đề xuất

21

Trang 39

Phương pháp đề xuất của chúng tôi dựa trên việc cải tiến mô hình Cascade

Double Head Mask RCNN thông qua việc tích hợp bộ rút trích đặc trưng ResNet50

đã được tiền huấn luyện bằng mô hình oCLIP Việc tiền huấn luyện ResNet50 thôngqua oCLIP là một phần quan trọng trong chiến lược của chúng tôi Điều này giúp cho

mô hình hiểu một cách sâu sắc sự tương quan giữa các yếu tô hình ảnh và ngôn ngữ,

từ đó cho phép mô hình có khả năng diễn giải văn bản trong hình ảnh một cách phức

tạp hơn.

Trong mô hình mà chúng tôi đề xuất, mô hình ResNet50 đã được tỉnh chỉnh

và tiền huấn luyện trước với mô hình oCLIP sẽ thực hiện việc trích xuất các đặc trưng

nổi bat từ hình ảnh đầu vào Các đặc trưng này sau đó sẽ trải qua quá trình tỉnh chỉnh,

phân loại và hồi quy khung giới hạn trong các lớp tiếp theo của mô hình Cascade

Double Head Mask RCNN.

Ngoài việc tích hop oCLIP với ResNet50, phương pháp của chúng tôi còn giới

thiệu một chiến lược tăng cường dữ liệu STRAug được tùy chỉnh đặc biệt cho việcphát hiện văn bản trong cảnh Chiến lược này nâng cao tính đa dạng của dữ liệu huấnluyện thông qua các biến đổi khác nhau như xoay, dịch chuyển và điều chỉnh độ sáng.Điều này không chi tăng cường tính ổn định của mô hình đối với các yếu tô môitrường mà còn tăng cường khả năng tổng quát hóa của mô hình trong các tình huéng

khác nhau.

Trong phần tiếp theo, chúng tôi sẽ đi vào chỉ tiết các thành phần, đem đến mộtcái nhìn toàn điện về cơ chế phức tạp của phương pháp đột pha mà tôi đang đề xuất

3.2 Cas-Dou Mask-RCNN

Trong hệ thống phương pháp mà chúng tôi dé xuất, mô hình Cas-Dou Mask

RCNN đóng một vai trò quan trọng, được điều chỉnh tỉ mi để giải quyết hiệu quả cácthách thức độc đáo liên quan đến việc phát hiện văn bản trong cảnh Điểm đặc biệtcủa mô hình này chính là thiết kế "double head" (đầu kép) Như được mô tả trong

Hình 3.2, (a) mô tả một nhánh của standard cascade head, sử dụng một đường đi

thống nhất thông qua một convolutional head chia sẻ và một fully connected head

22

Trang 40

cho việc dự đoán đồng thời cả phân loại và hộp giới hạn (b) miêu tả một nhánh của

cascade double head, phân biệt các nhiệm vụ phân loại và định vị Nó sử dụng một

fully connected head chung cho phân loại và một convolutional head chung cho định

vị, đảm bảo tối ưu hóa theo nhiệm vụ cụ thé

Thiết kế gồm hai nhánh song song này cho phép mô hình thực hiện đồng thờicác nhiệm vụ phân loại và hồi quy và tạo ra biểu diễn đặc trưng phong phú và quản

lý hiệu quả các đối tượng có kích thước đa dạng, qua đó tối ưu hóa việc phát hiện văn

bản trong khung cảnh phức tạp.

Classification

Rol Pool

Bounding Box

Shared Convs Shared FC

(a) Một nhánh Đầu đơn

Shared FC Bounding Box Classification

Classification

Bounding Box Bounding Box Shared Convs

(b) Một nhánh Đầu đôi

Hình 3.2 So sánh giữa Standard Cascade Head và Cascade Double Head trên một

nhánh của Cascade Rol Head Ta nhận thấy rằng ở dai đơn, hai tác vụ phân loại

(classification) và hôi quy hộp giới han (Bounding Box) đều được xử lý với Shared

23

Tiêu đề	Phát hiện chữ trong ảnh ngoại cảnh sử dụng phương pháp phân đoạn
Tác giả	Đinh Nhật Minh, Tran Nguyên Bảo
Người hướng dẫn	ThS. Võ Duy Nguyên
Trường học	Trường Đại Học Công Nghệ Thông Tin
Chuyên ngành	Khoa học máy tính
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2023
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	99
Dung lượng	50,85 MB

Khóa luận tốt nghiệp Khoa học máy tính: Phát hiện chữ trong ảnh ngoại cảnh sử dụng phương pháp phân đoạn

Hướng tiếp cận dựa trên phân đoạn

Tang cường dữ liệu với STRAug