Sử dụng phương pháp phân đoạn, việc phát hiệnvà trích xuất văn bản sẽ được thực hiện trên các vùng chứa văn bản đã được xác định, giúp tăng độ chính xác và hiệu quả của bài toán phát hiệ
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
ĐINH NHẬT MINH - 20521597
TRAN NGUYÊN BẢO - 20520142
KHÓA LUẬN TÓT NGHIỆP
PHÁT HIEN CHỮ TRONG ANH NGOẠI CANH SỬ
DỤNG PHƯƠNG PHÁP PHAN DOAN
Scene-Text Detection Using A Segmentation Method
CU NHÂN NGANH KHOA HỌC MAY TÍNH
GIANG VIEN HUONG DAN ThS VO DUY NGUYEN
TP HO CHi MINH, 2023
Trang 2LỜI CẢM ƠN
Lời mở đầu, nhóm chúng tôi xin bày tỏ lòng biết ơn sâu sắc đến hai thầy TS.Nguyễn Tắn Trần Minh Khang và thầy ThS Võ Duy Nguyên về tình cảm, sự quan
tâm và hướng dẫn tận tình đã dành cho nhóm trong suốt quá trình thực hiện khóa
luận Bên cạnh đó, nhờ sự đồng hành của hai thầy, chúng tôi không chỉ thu thập đượckiến thức chuyên môn sâu sắc mà còn nắm vững nhiều kỹ năng và hiểu rõ hơn về tam
quan trọng của nghiên cứu khoa học và cách truyền tải hiệu quả những kiến thức đó
Cuối cùng, chúng tôi cũng không quên việc bày tỏ lòng biết ơn đến gia đình,bạn bè và toàn bộ tập thể lớp KHMT2020 Họ đã luôn ở bên cạnh, chia sẻ những khó
khăn và niềm vui trong quá trình học tập và cuộc sống, tạo điều kiện thuận lợi chochúng tôi để tiến xa hơn trên con đường đạt được ước mơ
Tổng kết, chúng tôi xin chân thành cảm ơn và gửi tới mọi người những lờichúc tốt đẹp nhất Hy vọng chúng ta sẽ tiếp tục gắn bó và cùng nhau chia sẻ nhữngthành công và hạnh phúc trong tương lai Cảm ơn mọi người vì những điều tốt đẹp
và vui vẻ trong suốt thời gian chúng ta gắn bó
Trang 3ĐẠI HỌC QUOC GIA TP HO CHÍ CONG HÒA XÃ HỘI CHỦ NGHĨA
MINH VIỆT NAM
TRƯỜNG ĐẠI HỌC ` Độc Lập - Tự Do - Hạnh Phúc
` CONG NGHỆ THONG TIN
DE CUONG CHI TIET
TEN DE TAI: PHAT HIỆN CHỮ TRONG ANH NGOẠI CANH SỬ DUNG
PHUONG PHAP PHAN DOAN
TEN DE TAI TIENG ANH: SCENE-TEXT DETECTION USING A
SEGMENTATION METHOD
Cán bộ hướng dẫn: ThS VO DUY NGUYEN
Thời gian thực hiện: Từ ngày 26/02/2023 đến ngày 26/06/2023
Sinh viên thực hiện:
ĐINH NHẬT MINH - 20521597 Lớp: KHMT2020
Email: 20521597 @gm.uit.edu.vn Dién thoai: 0833570068
TRAN NGUYEN BAO - 20520142 Lớp: KHMT2020
Email: 20520142 @gm.uit.edu.vn Dién thoai: 0934021940
Nội dung đề tai:
1 Giới thiệu
Bài toán phát hiện văn bản trong ảnh chụp bối cảnh thế giới thực là một trong những vấn
đề quan trọng trong lĩnh vực thị giác máy tính Được đặc biệt quan tâm bởi ảnh hưởng của
nó trong lĩnh vực xử lý ngôn ngữ tự nhiên và những ứng dụng rộng rãi của nó trong thực
Trang 4tế như phân tích nội dung ảnh hoặc video cho truyền thông xã hội, hỗ trợ số hoá dữ liệu
hay ứng dụng tìm kiếm bằng nội dung hình ảnh Mục tiêu của bài toán là xác định vị trícủa văn bản trong không gian có bối cảnh và biểu diễn chúng dưới dạng một hộp giới hạn
tối tiéu hoặc một vùng đối tượng
Trong những năm gan đây, các phương pháp sử dụng học sâu đã được áp dụng dé giảiquyết bài toán phát hiện văn bản trong ảnh chụp bối cảnh thế giới thực Các mô hình học
sâu đã được áp dụng hiệu quả đề xây dựng các hệ thống phát hiện văn bản, các mô hìnhnày có khả năng xử lý được các định dạng văn bản đa dạng, nhận diện được các kiểu chữ
khác nhau, xử lý được các văn bản có kích thước và độ phân giải khác nhau Các phương
pháp sử dụng học sâu đang trở thành xu hướng mới trong giải quyết bài toán phát hiện văn
bản trong bối cảnh Một trong những mô hình học sâu phổ biến được sử dụng trong giải
quyết bài toán phát hiện văn bản trong bối cảnh là mạng nơ-ron tích chập (CNN) Mô hìnhCNN có thé xử lý và trích xuất thông tin từ các ảnh với độ phân giải khác nhau Trong bài
toán phát hiện văn bản, các đặc trưng của vùng chứa văn bản sẽ được trích xuất bằng cách
sử dụng các lớp tích chập Sau đó, các đặc trưng được đưa vào các lớp kết nối đầy đủ để
phân loại vùng chứa đó có chứa văn bản hay không.
Mặc dù các kiến trúc áp dụng trong bài toán phát hiện đối tượng đang có sự phát triển
mạnh mẽ, song bài toán phát hiện văn bản vẫn đối diện với nhiều thách thức Trong đó,
việc phát hiện văn bản trên các hình ảnh có kích thước và hình dạng khác nhau đối mặtvới sự phức tạp về hình dáng của văn bản: văn bản ngang, văn bản nhiều hướng hay vănbản cong, kiểu chữ đa dạng và các đối tượng khác trên nền là các thách thức chính Ngoài
ra, việc xử lý các văn bản viết bằng nhiều ngôn ngữ và phát hiện văn bản trong các hình
ảnh phức tạp cũng đòi hỏi các phương pháp xử ly ngôn ngữ tự nhiên và thị giác may tính
nâng cao Dé giải quyết các thách thức này, các mô hình phát hiện văn ban cần được cải
tiến dé dam bảo tính ồn định và độ tin cậy trong quá trình phát hiện và trích xuất văn bản.Nhằm phát hiện văn bản ở nhiều kích cỡ hay hình dáng khác nhau, những nghiên cứu gần
đây đặc biệt chú trọng vào các phương pháp phân đoạn Phương pháp này nhằm mục đích
phân tách vùng chứa văn bản và vùng không chứa văn bản trong hình ảnh nhờ đầu ra của
Trang 5dự đoán được mô tả ở cấp độ điểm ảnh Sử dụng phương pháp phân đoạn, việc phát hiện
và trích xuất văn bản sẽ được thực hiện trên các vùng chứa văn bản đã được xác định, giúp
tăng độ chính xác và hiệu quả của bài toán phát hiện văn bản Bên cạnh đó, phương pháp
phân đoạn cũng giúp giảm thiêu các ảnh hưởng của nhiễu và các đối tượng khác trên nền
tảng, giúp đảm bảo tính ồn định và độ tin cậy cho các mô hình phát hiện văn bản
Trong các mô hình được dùng để giải quyết bài toán, mô hình Mask RCNN [1] cho thấy
độ hiệu quả trong việc phát hiện văn bản trong ảnh chụp bối cảnh thế giới thật Ngoài ra,
sự phát triển mạnh mẽ của các mô hình cho phép đạt được phát hiện đối tượng chất lượng
cao như Cascade RCNN [3] hay Dynamic RCNN [4] cũng đóng góp quan trọng trong việc
giải quyết vấn đề này Ngoài các phương pháp truyền thống, phương pháp Double-Head
[5] cũng mang lại nhiều tiềm năng trong việc phát hiện văn bản Thay vì chỉ dựa trên mô
hình phát hiện đối tượng, Double-Head sử dụng cả mô hình phân loại để đánh giá chínhxác loại văn bản, giúp tăng độ chính xác và giảm sai số trong quá trình phát hiện Ngoài
ra, phương pháp Double-Head còn cho phép mở rộng và tùy chỉnh để áp dụng cho các ứngdụng khác nhau Việc kết hợp giữa các mô hình khác nhau cũng tạo ra một cơ chế linh
hoạt trong quá trình huấn luyện và kiểm tra
Tiềm năng hiện tại của bài toán là động lực để tôi quyết định lựa chọn bài toán này choviệc tìm hiểu, nghiên cứu và thực hiện khóa luận tốt nghiệp Mục tiêu đề xuất một mô
hình phát hiện văn bản trong bối cảnh dựa trên sự kết hợp lần lượt cơ chế Cascade RCNN
va Dynamic RCNN với dau Double Head vào kiến trúc Mask RCNN hướng tới việc cải
thiện hiệu suất phát hiện văn bản
2 Phát biểu bài toán
Bài toán phát hiện văn bản bối cảnh biêu diễn từng văn bản xuất hiện trong hình ảnh
Đâu vào và đâu ra của bài toán có thê được mô tả như sau:
e Đầu vào: Hình ảnh có chứa văn bản được chụp từ môi trường thực.
e Đầu ra: Vị trí của văn bản trong hình ảnh được thé hiện bởi vùng phân đoạn riêng
biệt và hộp giới hạn tối tiểu
Trang 6Hình 1.1 Đầu vào và dau ra của bai toánMục tiêu của đề tài
Nghiên cứu và đánh giá các phương pháp state-of-the-art hiện tại của bài toán phát
hiện văn bản trong bối cảnh
Đề xuất mô hình kết hợp lần lượt phương pháp Cascade RCNN và Dynamic RCNN
với phương pháp Double-Head vào mô hình Mask RCNN nhằm cải thiện khả năng
phát hiện văn bản.
Tiến hành thực nghiệm và đánh giá hiệu suất mô hình mà chúng tôi sẽ thực hiện
trên hai bộ dữ liệu ICDAR-15 và CTW1500.
Phát triển chương trình ứng dụng minh hoạ cho mô hình kết hợp
Nội dung nghiên cứu của đề tài
Nội dung nghiên cứu của đề tài chia làm 6 phần:
Tim hiểu tổng quan về hướng tiếp cận của các mô hình phát hiện văn bản trong bối
cảnh state-of-the-art hiện nay.
Nghiên cứu các phương pháp phân đoạn ngữ nghĩa và đánh giá hiệu suất cho bàitoán phát hiện văn bản trong bối cảnh
Nghiên cứu sâu về hai cách kết hợp: Cascade RCNN và Double Head; DynamicRCNN và Double Head đã có sẵn trên bài toán phát hiện văn ban trong bối cảnh.Nghiên cứu về các kỹ thuật tiền xử lý (pre-processing), hậu xử ly (post-processing)
và các kỹ thuật gán nhãn đối tượng (label assignment) đã được ứng dụng hiệu quả
trong bài toán phát hiện ảnh.
Nghiên cứu kỹ thuật hợp nhất và thực hiện tích hợp vào mô hình Mask RCNN
Tìm hiểu về hai bộ dữ liệu thực nghiệm: ICDAR-15 và CTW
Trang 75 Phương pháp thực hiện
- Khảo sát và đánh giá các hướng tiếp cận state-of-the-art cho bài toán phát hiện văn
bản Phân tích chuyên sâu các kiến trúc rời rạc (backbone, neck, head) bên trongmỗi mô hình
- Thực nghiệm các phương pháp đã khảo sát và tổng hợp kết quả
— Triển khai và thử nghiệm các kỹ thuật tiền xử lý (pre-processing) trên bộ đữ liệu
thực nghiệm.
- Xây dung pipeline của mô hình đề xuất và thiết kế kiến trúc bằng cách kết hợp lần
lượt phương pháp Cascade RCNN và Dynamic RCNN với đầu Double Head vào
kiến trúc Mask RCNN sử dụng framework MMOCR
- Thực nghiệm mô hình thiết kế trên bộ dir liệu ICDAR-15 và CTW1500 Tổng hợp
kế quả chỉ tiết và so sánh với các phương pháp tiền nhiệm trên bài toán phát hiện
văn bản.
- Triển khai mô hình thực nghiệm bằng ứng dụng trên nền tang di động cho phép
người dùng xác định văn bản từ camera di động.
6 Kết quả dự kiến
- Báo cáo kết quả thực nghiệm của mô hình đề xuất, so sánh với các phương pháp
tiền nhiệm thực hiện trên bài toán phát hiện văn bản trong ảnh chụp bối cảnh thế
giới thực.
- Đánh giá độ hiệu qua của các kỹ thuật xử lý dữ liệu và gán nhãn đối tượng
- Chương trình ứng dụng di động minh hoạ phát hiện văn bản trong ảnh chụp bối
cảnh thế giới thực
Tài liệu tham khảo
[1] He, K., Gkioxari, G., Dollár, P., & Girshick, R (2017) Mask r-cnn In Proceedings of the IEEE international conference on computer vision (pp 2961-2969).
[2] Qin, X., Zhou, Y., Guo, Y., Wu, D., Tian, Z., Jiang, N., & Wang, W (2021, October) Mask is all you need: Rethinking mask R-CNN for dense and arbitrary-shaped
Trang 8scene text detection In Proceedings of the 29th ACM International Conference on Multimedia (pp 414-423).
[3] Cai, Z., & Vasconcelos, N (2018) Cascade r-cnn: Delving into high quality object detection In Proceedings of the IEEE conference on computer vision and pattern
recognition (pp 6154-6162).
[4] Zhang, H., Chang, H., Ma, B., Wang, N., & Chen, X (2020) Dynamic R-CNN: Towards high quality object detection via dynamic training In Computer Vision-ECCV
2020: 16th European Conference, Glasgow, UK, August 23-28, 2020, Proceedings, Part
XV 16 (pp 260-275) Springer International Publishing.
[5] Wu, Y., Chen, Y., Yuan, L., Liu, Z., Wang, L., Li, H., & Fu, Y (2020) Rethinking classification and localization for object detection In Proceedings of the IEEE/CVF
conference on computer vision and pattern recognition (pp 10186-10195).
Kế hoạch thực hiện:
+ Tuần 1 — 3: Khảo sát các nghiên cứu cho bài toán mô tả văn ban trong ảnh chụp bối
cảnh thé giới thực
+ Tuần 4 — 6: Thực nghiệm các phương pháp state-of-the-art khảo sát của bai toán trên
dit liệu ICDAR-15 và CTW1500.
+ Tuan 6 — 8: Cài đặt được lần lượt phương pháp Cascade RCNN va phương pháp
Dynamic RCNN vào mô hình Mask RCNN và sử dụng đầu Double Head
+ Tuần 9 — 10: Cài đặt các kỹ thuật xử lý và gan nhãn dữ liệu vào mô hình đề xuất
+ Tuần 11-— 13: Tiến thành thực nghiệm phương pháp đề xuất trên hai bộ dé liệu
ICDAR-15 và CTW1500.
+ Tuần 14— 16: Phân tích, đánh giá và thực nghiệm thêm dé lựa chọn đề xuất kết hợp
tốt nhất
Trang 9+ Tuần 17 - Phần còn lại: Tông kết, xây dựng ứng dụng di động, hoàn thiện báo cáo,
hoàn thiện kết quả nghiên cứu dé thực hiện công bố khoa học
Xác nhận của CBHD TP HCM, ngày 03 tháng 3 năm 2022
(Ký tên và ghi rõ họ tên) Sinh viên
(Ký tên và ghi rõ họ tên)
Võ Duy Nguyên Dinh Nhật Minh
Trần Nguyên Bảo
Trang 10MỤC LỤC
DE CƯƠNG CHI TIẾT
TOM TAT KHÓA LUẬN
1.4 Mục tiêu và phạm vi của luận văn
1.5 Đóng góp của nghiên cứu
1.6 Bế cục của luận văn
Chương 2 CÁC NGHIÊN CỨU LIÊN QUAN
2.1 Hướng tiếp cận dựa trên biéu diễn vị trí của đối tượng
2.1.1 Hướng tiếp cận dựa trên hồi quy
2.1.2 Hướng tiếp cận dựa trên phân đoạn
2.2 Hướng tiếp cận dựa trên cấp độ của văn bản
2.2.1 _ Phát hiện trên từng ký tự trong văn bản
2.2.2 Phát hiện trên từng từ trong văn bản
2.3 Các hướng tiếp cận khác
2.3.1 Hướng tiếp cận dựa theo bài toán phát hiện đối tưởng tổng quát
2.3.2 Hướng tiếp cận tiền huấn luyện đối chiếu Hình ảnh-Ngôn ngữ
2.3.3 Các phương pháp tăng cường dữ liệu
19
20
Trang 11Chương 3. PHƯƠNG PHÁP ĐÈ XUÁT
3.1 Tổng quan phương pháp đề xuất
Khái quát các phép biến đôi của STRAug
Chiến lược tăng cường dữ liệu dựa trên STRAug
Intersection over Union (IoU)
TP (True Positive), FP (False Positive) va FN (False Negative)
Precision Recall
Hmean
FPS
4.3 Cài dat chỉ tiết
21 21
22 26 26 26
27 29 32 35
Trang 124.3.1 CLIPResNet backbone
4.3.2 Huấn luyện và triển khai mô hình
44 Kết quả thực nghiệm, đánh giá và bàn luận
4.5 Nghiên cứu tác động cua từng mô-đun
45 49
51 55 55
57 62
63
64
Trang 13DANH MỤC HÌNH
Hình 1.1 Đầu vào và đầu ra của bài foán ccccccccciiiiirrrrrrrtrriiiiiiiiie 3
Hình 1.2 Minh họa ảnh văn bản có bối cảnh phức tạp do sự có sự trùng về màu sắc
và độ tương phản Trong đó, đối tượng văn bản được đánh dấu bằng hình chữ nhật
màu xanh lá nam lẫn vào nên 4
Hình 1.3 Minh họa ảnh văn bản bị che khuất và nh Đối tượng văn bản được
khoanh bằng hình chữ nhật màu xanh lá bị nhiễu đường nét, đối tượng văn bản
được khoanh bằng hình chữ nhật màu đỏ bị vật che khuất một phan.
Hình 1.4 Minh họa ảnh văn bản có góc chụp xiên so với văn bản Đối tượng văn
bản được khoanh bằng hình chữ nhật màu xanh lá bị mắt một phan thông tin do gócchụp, đối tượng văn bản được khoanh bằng hình chữ nhật màu xanh lá bị mắt thông
tin do Vi tri CHỤP QUA XQ SE HT TH hàn 6
Hình 1.5 Minh họa ảnh văn có hình dang da dạng và kích thước khác nhau Trong
ảnh ta thấy rằng bảng hiệu có chữ “smrt” khá kiểu cách
Hình 2.1 Minh họa văn bản được phát hiện theo hôi quy Mỗi đối tượng văn ban
trong ảnh được xác định bằng một hộp giới hạn tối tiểu 1
Hình 2.2 Minh họa văn bản được phát hiện theo phân đoạn ngữ nghĩa Các đối
tượng văn bản trong ảnh déu được tô trong cùng một vùng . - - 3
Hình 2.3 Minh họa văn bản được phát hiện theo phân đoạn đối tượng Các đối
tượng van ban trong ảnh được xác định thành từng vùng riêng biệt 4
Hình 2.4 Minh họa văn bản được phát hiện theo cấp độ ký tự Mỗi đối tượng văn
bản trong ảnh được xác định vị trí trên cấp độ ký tự 6Hình 2.5 Minh họa văn bản được phát hiện theo cấp độ từ Mỗi đối tượng văn bản
trong ảnh được xác định vị trí trên cấp LẺ 7Hình 3.1: Tổng quan phương pháp dé xuất -cc¿c22cccccscccvercccseecrrrree 21
Hình 3.2 So sánh giữa Standard Cascade Head va Cascade Double Head trên một
nhánh của Cascade Rol Head Ta nhận thấy rằng ở ddi don, hai tác vụ phân loại
(classification) và hồi quy hộp giới han (Bounding Box) déu được xử lý với Shared
Trang 14Convs và Shared FC, trong khi ở đầu đôi hai tác vụ này được tách ra với Share
Convs cho tác vụ hồi quy hộp giới hạn trong khi Shared FC cho tác vụ
CÏA1SSSÄ[ÏC[ÏOH SE EEEkESỀĐEỰkH TT TH HH TT TH TH HT HH hệ 23
Hình 3.3 CLIP được tiền huấn luyện với một bộ mã hóa hình ảnh và một bộ mã hóa
văn bản dé dự đoán hình ảnh nào được ghép cùng với văn bản trong tập dữ liệu 27
Hình 3.4 CLIP được sử dụng như một bộ phân loại zero-shot (không can huấn
luyện lại) Bằng cách chuyển đổi tắt cả các lớp của tập dữ liệu thành các chú thích
như "một bức ảnh cua một " và dự đoán lớp của chú thích ma CLIP ước tính phù
hợp nhất với một hình ảnh cụ ANE crcccccscssssssvsssessssssssssvsssesssssseesesssseesssssssesssseeseessseeees 28
Hình 3.5 Minh họa văn bản khi biến đổi theo nhóm kiểu Warp - 35Hình 3.6 Minh họa văn bản khi biến đổi theo nhóm kiểu Œeometry - 36
Hình 3.7 Minh họa văn bản khi biến đổi theo nhóm kiểu Noise 36Hình 3.8 Minh họa văn bản khi biến đổi theo nhóm kiểu Blur „36
Hình 3.9 Minh họa văn bản khi biến đổi theo nhóm kiểu Weather 36Hình 3.10 Minh họa văn bản khi biến đổi theo nhóm kiểu Camera „37
Hình 3.11 Minh họa văn bản khi biến đổi theo nhóm kiểu Pattern
Hình 3.12 Minh họa văn bản khi biến đổi theo nhóm kiểu Process
Hình 4.1 Minh họa văn bản và nhãn thực của văn bản trong bộ dữ liệu
ICDAR-Hình 4.4 Minh họa giao diện của ng dỤNg cà S«Sssvsseeererereksrekeevree 51
Hinh 4.5 Minh hoa giao dién chon siéu tham số cho mô hình và màu của hộp giới
Hình 4.6 Minh họa kết quả dự đoán của mô hình trên ứng dụng . 54
Trang 15DANH MỤC BANG
Bảng 4-1 So sánh hiệu suất của các phương pháp phát hiện văn bản trong bối cảnh
„45 Bảng 4-2 Đánh giá hiệu quả mô-đun DoubleHead 49 Bảng 4-3 Đánh giá hiệu quả của phương pháp STRAUG và backbone CLIPResNet
Trang 16DANH MỤC TỪ VIET TAT
Từ viết tắt Từ nguyên gốc
Cas - Dou Cascade RCNN Double Head
CNN Convolutional Neural Network
RNN Recruitment Neural Network
STRAug, STRAUG Scene-text Recognition
Augmentation
CLIP Language Image Pretraining
oCLIP OCR Language Image Pretraining
SOTA State — of — the — art
Convs Convolutional Layers
FC Fully-connected layers
Rol Region of Interest
FPS Frames Per Second
Trang 17TÓM TẮT KHÓA LUẬN
Khóa luận này tập trung giải quyết bài toán phát hiện văn bản trong ảnh có bốicảnh (Scene-text Detection), đây là một bài toán mới và rất thú vị và dành được rất
nhiều sự quan tâm đến từ các nhà nghiên cứu trong cả lĩnh vực thị giác máy tính và
xử lý ngôn ngữ tự nhiên nhờ tính ứng dụng rộng rãi của nó trong thực tế như phântích nội dung ảnh hoặc video cho truyền thông xã hội, hỗ trợ số hoá dữ liệu hay ứngdụng tìm kiếm bằng nội dung hình ảnh Mục tiêu của bài toán là xác định vị trí củavăn bản trong không gian có bối cảnh và biểu diễn chúng dưới dạng một hộp giới hạn
tối tiểu hoặc một vùng đối tượng
Thách thức lớn nhất của bài toán đó là sự khó khăn trong việc phát hiện văn
ban ở sự tác động của những yếu tố đến từ môi trường hay con người tác động đếnđối tượng văn bản cũng như các yếu tố đến từ sự đa dạng về đặc điểm hay cấu trúc
của văn bản Đặc biệt, sự tương tác và ảnh hưởng lẫn nhau giữa các yếu tố này đòi
hỏi việc giải quyết thành công bài toán phát hiện văn bản trong cảnh phải được xem
xét trên nhiều khía cạnh khác nhau
Khóa luận này tập trung vào việc cải thiện đó chính xác trên bài toán dựa thoehướng tiếp cận của tận dụng các mô hình SOTA trong bài toán phát hiện đối tượng
nói chung, cụ thé là dựa trên phương pháp cơ sở Cascade Mask RCNN Chúng tôi
ết hợp phương pháp cơ sở này với đầu Double Head nhằm cải thiện và nâng cao khảnăng phát hiện văn bản có trong ảnh có bối cảnh Bên cạnh đó, khảo sát khả năng của
mô hình rút trích đặc trưng ResNet50 đã được tinh chỉnh và tiền huấn luyện trước với
mô hình oCLIP cho việc cải thiện khả năng rút trích các đặc trưng từ hình ảnh đầu
vào Cuối cùng, tỉnh chỉnh phương pháp tăng cường dữ liệu STRAug vốn dành riêngcho bài toán nhận dạng văn bản trong ảnh có bối cảnh (Scene-text Recognition) vào
mô hình nhằm mục tiêu cải thiện khả năng phát hiện những đối tượng văn bản có cấu
trúc hay hình dáng đa dạng.
Các kết quả thu được của khóa luận chứng tỏ sự vượt trội và cạnh tranh so với
các phương pháp đã có hiện nay.
Trang 18Chuong 1 MỞ ĐÀU
1.1 Động lực nghiên cứu
Bài toán phát hiện văn bản trong ảnh chụp bối cảnh thế giới thực là một trongnhững van đề quan trọng trong lĩnh vực thị giác máy tính Đặc biệt, bài toán này càng
được quan tâm bởi những ảnh hưởng của nó trong lĩnh vực xử lý ngôn ngữ tự nhiên.
Bên cạnh đó, từ bài toán, những ứng dụng thực tế được phát triển một cách rộng rãi
như phân tích nội dung ảnh hoặc video cho truyền thông xã hội, hỗ trợ số hoá đữ liệu
hay ứng dụng tìm kiếm bằng nội dung hình ảnh Mục tiêu của bài toán là xác định vịtrí của văn bản trong không gian có bối cảnh và biểu diễn chúng dưới dạng một
hộp giới hạn tối tiéu hoặc một vùng đối tượng
Trong những năm gần đây, các phương pháp sử dụng học sâu đang trở thành xuhướng mới trong giải quyết bài toán phát hiện văn bản trong bối cảnh Các mô hìnhnày đã được áp dụng một cách hiệu quả dé xây dựng các hệ thống phát hiện văn bản
Chúng thé hiện kha nang xu ly nhiéu loai dinh dang van ban, nhan dién da dang kiéu
chữ, cũng như các van ban có kích thước va độ phan giải khác nhau Những mô hình
học sâu phố biến được sử dụng trong giải quyết bài toán phát hiện văn bản trong bối
cảnh là mạng nơ-ron tích chập (CNN) Mô hình CNN có thé xử lý và trích xuất thông
tin từ các ảnh với độ phân giải khác nhau Trong bài toán phát hiện văn bản, các đặc
trưng của vùng chứa văn bản sẽ được trích xuất bằng cách sử dụng các lớp tích chập
Sau đó, các đặc trưng được đưa vào các lớp kết nói day đủ dé phân loại vùng chứa đó
có chứa văn bản hay không.
Mặc dù các kiến trúc áp dụng trong bài toán phát hiện đối tượng đang có sự pháttriển mạnh mẽ, song bài toán phát hiện văn bản vẫn đối diện với nhiều thách thức
Trong đó, việc phát hiện văn bản trên các hình ảnh có kích thước và hình dạng khác
nhau đối mặt với sự phức tạp về hình dáng của văn bản: văn bản ngang, văn bản nhiềuhướng hay văn bản cong, kiểu chữ đa dang và các đối tượng khác trên nền là các
thách thức chính Ngoài ra, việc xử lý các văn bản viết bằng nhiều ngôn ngữ và phát
Trang 19hiện văn bản trong các hình ảnh phức tạp cũng đòi hỏi các phương pháp xử lý ngôn ngữ tự nhiên và thị giác máy tính nâng cao.
Dé giải quyết các thách thức này, các mô hình phát hiện văn bản cần được cái tiến
để đảm bảo tính 6n định và độ tin cậy trong quá trình phát hiện và trích xuất văn bản
Nhằm phát hiện văn bản ở nhiều kích cỡ hay hình dáng khác nhau, những nghiên cứugần đây đặc biệt chú trọng vào các phương pháp phân đoạn Phương pháp này hướng
tới mục đích phân tách vùng chứa văn bản và vùng không chứa văn bản trong hình
ảnh nhờ đầu ra của dự đoán được mô tả ở cấp độ điểm ảnh Với phương pháp phân
đoạn, việc phát hiện và trích xuất văn bản sẽ được thực hiện trên các vùng chứa văn
bản đã được xác định, giúp tăng độ chính xác và hiệu quả của bài toán phát hiện văn
bản Bên cạnh đó, phương pháp phân đoạn cũng giúp giảm thiểu các ảnh hưởng củanhiễu và các đối tượng khác trên nền tảng, giúp đảm bảo tính ồn định và độ tin cậy
cho các mô hình phát hiện văn bản.
Trong các mô hình được dùng dé giải quyết bài toán, mô hình Mask RCNN [1]
cho thay độ hiệu quả trong việc phát hiện văn bản trong ảnh chụp bối cảnh thế giớithật Ngoài ra, sự phát triển mạnh mẽ của các mô hình cho phép đạt được phát hiện
đối tượng chat lượng cao như Cascade RCNN [3] hay Dynamic RCNN [4] cũng đóng
góp quan trọng trong việc giải quyết vấn đề này Ngoài các phương pháp truyền
thống, phương pháp Double-Head [5] cũng mang lại nhiều tiềm năng trong việc phát
hiện văn bản Thay vì chỉ dựa trên mô hình phát hiện đối tượng, Double-Head sử
dụng cả mô hình phân loại dé đánh giá chính xác loại văn bản, giúp tăng độ chính xác
và giảm sai số trong quá trình phát hiện Bên cạnh đó, phương pháp Double-Headcòn cho phép mở rộng va tùy chỉnh dé áp dụng cho các ứng dụng khác nhau Việc
kết hợp giữa các mô hình khác nhau cũng tạo ra một cơ chế linh hoạt trong quá trình
huấn luyện và kiểm tra
Sự phát triển mạnh mẽ của các mô hình phát hiện đối tượng đi cùng những thách
thức khó khăn trong bài toán phát hiện văn bản từ ảnh có bối cảnh đã tạo nên tiềmnăng hiện tại cho bài toán Chính tiềm năng này đã tạo nên động lực để chúng tôi
Trang 20quyết định lựa chọn bài toán này cho việc tìm hiểu, nghiên cứu và thực hiện khóaluận tốt nghiệp Mục tiêu đề xuất một mô hình phát hiện văn bản trong bối cảnh dựatrên sự kết hợp lần lượt cơ chế Cascade RCNN va Dynamic RCNN với đầu DoubleHead vào kiến trúc Mask RCNN hướng tới việc cải thiện hiệu suất phát hiện văn bản.
1.2 Phát biểu bài toán
Bài toán phát hiện văn bản bối cảnh biểu diễn từng văn bản xuất hiện trong hìnhảnh Đầu vào và đầu ra của bài toán có thể được mô tả như sau:
e Đầu vào: Hình ảnh có chứa văn bản được chụp từ môi trường thực
e Đầu ra: VỊ trí của văn bản trong hình ảnh được thể hiện bởi vùng phân đoạn
riêng biệt và hộp giới hạn tối tiểu
(a) Đầu vào (b) Đầu ra
Hình 1.1 Đâu vào và dau ra cua bài toán
1.3 Cac thach thire
Trong bài toán phát hiện văn ban trong ảnh có bối anh, những thách thức của bài
toán đã được dé ra rất nhiều Các thách thức này đến từ các yếu tố ngoại cảnh và cácyếu tô đến từ bản chất bài toán và đối tượng
1.3.1 Các yếu tố đến từ ngoại cảnh
Các yếu tô ngoại cảnh có thê được giải thích một cách trực quan là những yếu
tố đến từ môi trường hay con người tác động đến đối tượng Cũng như các bài toán
phát hiện đối tượng khác trong môi trường tự nhiên, trong bài toán “phát hiện chữtrong ảnh có bối cảnh”, các yếu tố này tác động một cách rõ rệt đến hiệu năng phát
hiện của các mô hình học máy.
Trang 21Yếu tô ngoại cảnh đầu tiên có thé ké đến đó là đồ phức tạp cua nên Vì đượcchụp trong môi trường thực tế, đối tượng văn bản thường được đặt trong bối cảnh
phức tạp như ảnh có bối cảnh đường phó, ảnh có bối cảnh thiên nhiên hay ảnh có bồi
cảnh phường chợ Điểm chung của những bối cảnh này là có nhiều đối tượng cũngnhư đa dạng về loại chỉ phối đến khả năng phát hiện văn bản Bên cạnh đó, sự phức
tap trong bối cảnh còn đến từ sự chênh lệch về độ sáng, màu sắc và độ tương phảncủa nền làm cho việc phát hiện văn bản trở nên thách thức hơn
và độ tương phản Trong đó, đối tượng văn bản được đánh dấu bằng hình chữ nhật
màu xanh: lá năm lan vào nền.
Tiếp đến, một trong những thách thức mà đa số các bài toán phát hiện đối
tượng trong ảnh chụp từ môi trường tự nhiên khác đều gặp phải đó là vấn đề về bjche khuất và nhiễu Trong môi trường tự nhiên, không khó đề bắt gặp việc các đối
tượng bị che khuất do các đối tượng khác có thể liệt kê như cây cối, xe cộ, các tòa
nhà hay bóng đen của các đối tượng khác có kích thước lớn Điều này khiến các đốitượng quan tâm dé phát hiện, cụ thé ở đây là đối tượng chữ bị mất đi một phan thông
Trang 22tin hay nội dung khiến cho việc phát hiện trở nên khó khăn dé phát hiện Yếu tô vềnhiễu như nhiễu màu, nhiễu đường viền hay nhiễu sáng thường thấy ở những bảnghiệu cũ, những tam áp phích quảng cáo bị hư hại do thời tiết hoặc con người, cũngkhiến văn bản trong đó bị biến dạng, gây trở ngại trong việc phát hiện đối tượng đó.
khoanh bằng hình chữ nhật màu xanh lá bị nhiễu đường nét, đối tượng văn bản được
khoanh bằng hình chữ nhật màu đỏ bị vật che khuất một phan.
Bên cạnh đó, yếu tô mát mát thông tin từ giai đoạn thu thập dữ liệu ảnh thông
qua chụp lại hoặc quay phim có thé xét đến như chất lượng hình ảnh, góc chụp hoặc
quay và vị trí thu thập dữ liệu cũng ảnh hưởng không nhỏ đến khả năng phát hiện chữcủa mô hình Khi đối tượng văn bản được thu thập trong ảnh mờ hoặc nằm ở khoảng
cách xa, có thé xảy ra hiện tượng mat mát thông tin do sự nhòe đối tượng đến từ ảnh
mờ hoặc bị tiêu biến do khoảng cách quá xa Điều này trực tiếp dẫn đến việc phát
hiện văn bản không chính xác hoặc bỏ sót các đối tượng văn bản, đặc biệt là ở văn bỏ
có kích thước nhỏ.
Trang 23được khoanh bằng hình chữ nhật màu xanh lá bị mat một phan thông tin do góc chụp,
đối tượng văn bản được khoanh bằng hình chữ nhật màu xanh lá bị mắt thông tin do
vị trí chụp quá xa.
1.3.2 Các yếu tố đến từ bên trong
Các yếu tố đến từ bên trong, hay các yếu tố đến từ bản chất của văn bản lànhững yếu t6 đến từ đặc điểm hay cau trúc của văn bản
Văn bản xuất hiện trong thực tế thường có da dang về định dạng về kiểu chữ
và phông chữ cùng với kích thước khác nhau đã làm cho sự đa dạng đó càng trở nên
phong phú hơn bao giờ hết Sự đa dạng này gây nên nhiều mâu thuẫn, nhằm lẫn và
khó khăn trong việc phát hiện các đối tượng văn bản với nhau Bên cạnh đó, yếu tố
về kích thước chữ cũng tạo nên thách thức không nhỏ cho các mô hình phát hiện đối
tượng văn bản, đặc biệt là trong môi trường thực tế Đặc biệt, những đối tượng chữ
có kích thước quá nhỏ cộng với kiểu chữ và phông chữ quá cầu kỳ khiến những đối
tượng này thường bị phát hiện sai hoặc bị bỏ qua trong quá trình phát hiện văn bản.
Trang 24anh ta thấy rằng bảng hiệu có chữ “smrt” khá kiểu cách.
Theo cách nhìn tổng quan khác, ngoài yêu tố đến từ bản chat của đối tượng,
cụ thé ở đây là văn bản, yếu tố về ứng dụng của bài toán cũng có thể được suy xét lànhững yếu tó đến từ bên trong Những mô hình giải quyết cho bài toán phát hiện văn
bản trong môi trường thực tế khi được ứng dụng vào các tình huống cụ thé trong đờisống như ứng dụng phát hiện biên số xe, nhận dạng thông tin địa chỉ hay ứng dụng
chụp và dich văn bản đòi hỏi thêm về yếu t6 hiệu suất và tốc độ xử lý Yêu tố này liên
quan đến khả năng xử lý ảnh và phát hiện văn bản trong thời gian thực, đặc biệt quantrọng đối với các ứng dụng trong thực tế
1.3.3 Tổng quát về các thách thức
Sự phân biệt giữa yếu tố môi trường bên ngoài và van dé bên trong không hoàn
toàn tách rời Thường có sự tương tác và ảnh hưởng lẫn nhau giữa các yếu tố này, vàviệc giải quyết thành công bài toán phát hiện văn bản trong cảnh đòi hỏi phải xem xét
cả hai khía cạnh này Các phương pháp phát hiện văn bản trong cảnh thường kết hợpcác kỹ thuật xử lý ảnh, học máy va trí tuệ nhân tạo để xử lý đa dang các tình huéng
và tăng cường khả năng phát hiện văn bản.
Trang 251.4 Mục tiêu và phạm vi của luận văn
Trong phạm vi của một dé tài khóa luận tốt nghiệp, mục tiêu chính của khóa luận
này là:
1 Tim hiểu tổng quan về bài toán phát hiện văn bản trong bối cảnh
2 Nắm vững và hệ thống lại các kiến thức và kỹ thuật liên quan đến bài toán
phát hiện văn bản.
3 Tổng hợp các phương pháp phát hiện văn bản dựa trên học sâu tiên tiến hiện
tại.
4, Tiến hành thực nghiệm đánh giá các phương pháp phát hiện văn bản trong ảnh
bối cảnh Đánh giá hiệu suất của các mô hình dựa trên các tiêu chí đánh giá
tiêu chuẩn như Precision, Recall, Hmean, va FPS
5 Từ quá trình thực nghiệm, đưa ra kết quả hữu ích để cải thiện hiệu suất phát
hiện văn bản và đánh giá kết quả cải tiến Đề xuất một số kỹ thuật nhằm nângcao độ chính xác của phát hiện văn ban và đánh giá kết quả cải tiến
1.5 Đóng góp của nghiên cứu
Trong nội dung của báo cáo này, các cách tiếp cận trước dây cho bài toán pháthiện văn bản trong ảnh có bối cảnh (Scene-Text Detection) sẽ được trình bày một
cách chỉ tiết về ý tưởng, nội dung cũng như phân tích ưu nhược điểm của các phương
pháp tiền nhiệm Bên cạnh đó, cũng cho cái nhìn tổng quan về quá trình phát triểncủa các phương pháp trong quá trình giải quyết bài toán này
Bên cạnh đó, nội dung trong báo cáo này cũng dé cập đến các bộ dữ liệu phổ biếnhiện có cho bài toán phát hiện văn bản trong ảnh có bối cảnh Trong đó, các dữ liệu
sẽ được mô tả một cách chỉ tiết về số lượng cũng như các thách thức có trong dit liệu
Cuối cùng, trong khóa luận này, hướng tiếp cận khác hướng tới cải thiện kết quả
trên phương pháp Mask RCNN cũng được dé xuất và trình bày chỉ tiết về ý tưởngcũng như giải thích về kết quả thực nghiệm
Trang 261.6 Bố cục của luận văn
Phan còn lại của khóa luận được trình bày theo bố cục như sau:
CHƯƠNG 2 - CÁC NGHIÊN CỨU LIÊN QUAN: trình bày một khảo sát về các
cách tiếp cận ở các công trình trước đây trên bài toán phát hiện văn bản trong ảnh cóbối cảnh
CHƯƠNG 3 —- PHƯƠNG PHÁP ĐÈ XUẤT: trình bày cải tiến dựa trên phương
pháp cơ sở Mask RCNN giúp cải thiện độ chính xác, nội dung của Chương này đã
được công bố trong công trình số
CHƯƠNG 4- KET QUA THỰC NGHIỆM: trình bày về bộ dữ liệu ICDAR2015
cho bài toán mô tả ảnh dựa trên văn bản và kết quả các thử nghiệm khác nhau trong
quá trình nghiên cứu.
CHƯƠNG 5~ KET LUẬN VA HƯỚNG PHAT TRIEN: tổng quát lại một số nội
dung chính trong toàn bộ nội dung nghiên cứu và hướng phát triển trong tương lai
Trang 27Chương 2 CÁC NGHIÊN CỨU LIÊN QUAN
Trong những năm gần day, các phương pháp phát hiện văn bản đã phát triển khôngngừng và đã đạt được nhiều kết quả khả quan Các hướng tiếp cận hiện nay có thể
phân thành hai hướng như sau: hướng tiếp cận dựa trên biéu diễn vị trí của đối tượng
và hướng tiếp cận dựa trên cấp độ của văn bản Việc chia hướng tiếp cận thành hai
hướng gồm hướng tiếp cận biểu diễn VỊ trí của đối tượng và hướng tiếp cận dựa trên
cấp độ văn bản nhằm mục đích có thé giải thích rõ ràng về sự khác nhau tương ứngtrong từng hướng tiếp cận Trong thực tế, cả hai hướng tiếp cận này dường tồn tại
song song ở mỗi phương pháp phát hiện văn bản tiên tiến hiện nay
2.1 Hướng tiếp cận dựa trên biểu diễn vị trí của đối tượng
2.1.1 Hướng tiếp cận dựa trên hồi quy
Phương pháp phát hiện văn bản dựa trên phương pháp hồi quy Based Methods) trong bài phát hiện văn bản trong ảnh có bồi cảnh tập trung vào việc
(Regression-dự đoán trực tiếp các thông số và hình dạng của văn bản trong cảnh Các phương
pháp hồi quy tạo ra dự đoán hồi quy cho các tham sé của hình dang văn bản, ching
hạn như tọa độ, kích thước và góc xoay Mục tiêu của phương pháp này là dự đoán
trực tiếp các thuộc tính của vùng văn bản trên ảnh, thường là các hình chữ nhật xoay(rotated rectangles) hoặc các hình tứ giác cấp pixel, từ đó xác định vị trí và hình dạng
của văn bản trong cảnh.
10
Trang 28trong ảnh được xác định bằng một hộp giới hạn tối tiểu.
Có nhiều phương pháp phát hiện văn bản trong ảnh có bối cảnh dựa trên
phương pháp hồi quy và cho kết quả khả quan, một trong những phương pháp ấy đó
là RDD [1] Phương pháp này tỉnh chỉnh tỷ lệ mỏ neo của mạng SSD [2| để phù hợp
với biến thể tỷ lệ khía cạnh trong các hình dạng không đều Bên cạnh đó, nhằm pháthiện cung cấp khả năng phát hiện các hình dạng văn bản không đều và khái quát hơn,
phương pháp Textboxes++ [3] được ra đời Textboxes++ có thể coi là một phươngpháp cải tiền của SSD với việc sửa đổi các nhân té tích chập và hộp neo dé thu thập
các hình dạng văn bản khác nhau một cách hiệu quả Một trong những phương pháp
dựa trên phương pháp hồi quy đề phát hiện đối tượng văn bản từ ảnh chụp môi trườngthực tế tiếp theo có thé kể tên đó là EAST [4] Nhóm tác giả của mô hình EAST đã
đề xuất một quy trình đơn giản nhưng mạnh mẽ, mang lại khả năng phát hiện văn bảnnhanh chóng và chính xác trong các cảnh tự nhiên nhờ vào việc cắt giảm cơ chế mỏ
neo và giai đoạn đề xuất vùng đối tượng, trực tiếp sử dụng mạng tích chập đầy đủ désuy luận các hình tứ giác cấp pixel của từng ứng viên từ văn bản trong cảnh
11
Trang 29Các phương pháp dựa trên hồi quy thường tập trung vào việc dự đoán hình
dạng chính xác của văn bản trong cảnh, để xử lý các biến thể hình học phức tạp.
Chúng thường có khả năng huấn luyện đơn giản hơn so với các phương pháp khác
như phân đoạn Tuy nhiên, các phương pháp này có thể gặp hạn chế trong việc xử lý
văn bản có hình dạng phức tạp.
2.1.2 Hướng tiếp cận dựa trên phân đoạn
Phương pháp phát hiện văn bản dựa trên phân đoạn (Segmentation-based
methods) là một trong những phương pháp tiên tiễn trong bài toán phát hiện văn bản trong ảnh có bối cảnh Phương pháp này nhắm vào việc phân đoạn văn bản từ hình
ảnh thành các phần tử cơ bản, như các pixel hoặc đoạn, dé thu được thông tin chi tiét
vé vi tri va hinh dang cua từng đối tượng văn bản Chúng ta có thể phân loại các
phương pháp dựa trên phân đoạn thành hai nhóm chính: phương pháp phân đoạn theo
ngữ nghĩa (Semantic segmentation — based method) và phương pháp phân đoạn theo
đối tượng (Instnace segmentation — based methods).
Phương pháp phân đoạn theo ngữ nghĩa là những phương pháp định danh
các khu vực chứa văn bản trong hình ảnh bằng cách gán nhãn cho từng pixel Mục
tiêu của phương pháp này tập trung vào việc xác định vùng chứa văn bản trên toàn
bộ hình ảnh Trong bài toán phát hiện văn bản trong ảnh có bối cảnh, khi nhắc đến cách tiếp cận phân đoạn theo ngữ nghĩa, không thê không nói về phương pháp Fully
Convolution Networks (FCN) [5], phương pháp có thể coi là truyền cảm hứng cho
tất cả các phương pháp phát hiện văn bản theo cách tiếp cận phân đoạn ngữ nghĩa sau này Nhằm thay đổi cách tiếp cận truyền thống của việc sử dụng các lớp kết nối đầy
đủ cho phân đoạn hình ảnh, FCN trực tiếp dự đoán nhãn từng pixel cho phân đoạn
thông qua việc thay đôi các lớp kết nối đầy đủ bằng các lớp lớp tích chập và áp dụng
các phép tích chập trên toàn bộ hình ảnh Việc này không những giúp cho quá trình
phân đoạn trở nên chỉ tiết hơn mà tăng độ chính xác Tiếp nối thành công trong hướng
tiếp cận phân đoạn ngữ nghĩa mà FCN tạo ra, phương pháp Textsnake [6] được đề
12
Trang 30xuất bằng cách Kết hợp phân đoạn ngữ nghĩa cùng với việc xác định các hình dạng
Hình 2.2 Minh họa văn bản được phát hiện theo phân đoạn ngữ nghĩa Các đối
tượng văn bản trong ảnh đều được tô trong cùng một vùng.
Phương pháp phân đoạn theo đối tượng là phân đoạn từng đối tượng văn
bản riêng lẻ trong hình ảnh Mục tiêu của chúng là phát hiện và phân đoạn từng từ,
từng ký tự hoặc từng đoạn văn bản một cách riêng lẻ Các phương pháp dựa trên phân
đoạn theo đối tượng đã nổi lên như là một trong những cách tiếp cận đầy hứa hẹn trong việc phát hiện văn bản trong ảnh có bối cảnh PixelLink [7], sử dụng mô hình
dự đoán cấp pixel dé phát hiện và phân đoạn văn bản trong cảnh quan tự nhiên, sử dụng mạng tích chập hoàn toàn đề dự đoán bản đồ nhiệt cho khu vực văn bản và bản
đồ liên kết dé kết nối từng ký tự hoặc từ Văn bản đã được phân đoạn sau đó được nhận dạng bằng mô hình nhận dang dựa trên CNN Trong bài báo “Learning Shape- Aware Embedding for Scene Text Detection” [8], để giải quyết thách thức phát hiện các trường hợp văn bản có tỷ lệ cạnh thay đổi, một phương pháp được đề xuất dựa trên việc ánh xạ các pixel của một hình ảnh vào không gian nhúng Đồng thời, nhóm tác giả cũng giới thiệu một hàm mat mát mới nhằm điều chỉnh hình dạng trong quá
13
Trang 31trình huấn luyện, giúp mô hình thích ứng tốt hơn với các tỷ lệ cạnh khác nhau của
Hình 2.3 Minh họa văn bản được phát hiện theo phân đoạn doi tượng Các doi
tượng văn bản trong ảnh được xác định thành từng vùng riêng biệt.
Mặc dù các phương pháp dựa trên phân đoạn nhìn chung đã cho thấy hiệu suất
an tượng cho bài toán phát hiện văn bản trong ảnh có bối cảnh, tuy nhiên, vẫn còn
tồn đọng nhiều thách thức đáng kể Một trong những hạn chế có thé nhắc đến đó là
van dé thông tin hình ảnh không đủ, dẫn đến kết qua phát hiện không chính xác Thách thức này chủ yếu đến từ việc các phương pháp hiện nay chỉ tập trung phát hiện văn bản từ một khu vực quan tâm (Rol) duy nhất, mà bỏ qua việc xem xét bối cảnh
rộng hơn trong hình ảnh Hơn nữa, các phương pháp hiện nay chưa đánh giá đúng
mức độ ngữ nghĩa của từ khác nhau, dẫn đến nguy cơ cao gây ra những kết quả đương tính sai trong quá trình phát hiện văn ban Dé vượt qua những hạn chế này, phương pháp TextFuseNet [9] đã được đề xuất như là một phương pháp day triển vọng bang cách tích hợp nhiều đặc trưng hình ảnh, bao gồm phân đoạn ngữ nghĩa và phân đoạn theo đối tượng, nhằm cải thiện độ chính xác trong việc phát hiện văn bản trong ảnh
có bôi cảnh Câu trúc của mô hình TextFuseNet được thiêt kê như một câu trúc đa
14
Trang 32giai đoạn, trong đó với mỗi giai đoạn, mô hình tập trung vào giải quyết một khía cạnh
cụ thé trong nhiệm vụ phát hiện văn bản Mô-đun trích xuất đặc trưng thu thập các
đặc trưng từ hình anh đầu vào, sau đó đưa vào mô-đun phân đoạn ngữ nghĩa dé tạo
ra một mặt na thô cho các khu vực van bản trong hình ảnh Sau đó, mô-đun phân đoạn
theo đối tượng tạo ra các mặt nạ phân cấp đối tượng cho từng trường hợp văn bản
riêng lẻ trong các khu vực văn bản được xác định.
Một cách tông quan, phương pháp phân đoạn có khả năng định vị văn bản chính xác bằng cách xác định các đường viền hoặc mask cho từng từ hoặc đoạn văn bản trong ảnh Điều này giúp tạo ra các kết qua phát hiện chi tiết và chính xác về vị trí
của văn bản trong cảnh Tuy nhiên, phương pháp phân đoạn thường yêu cầu tính toán
phức tạp hơn so với các phương pháp khác Việc phải phân loại từng pixel hoặc xác
định các đường vién chỉ tiết đòi hỏi một lượng lớn tính toán và tài nguyên tính toán,
đặc biệt đôi với ảnh có độ phân giải cao.
2.2 Hướng tiép cận dựa trên cap độ của văn bản
Cấp độ của văn bản có thê hiéu là tang cau trúc thành phan cấu thành nên một văn
bản Một câu của văn bản sẽ được tạo từ nhiều từ ghép lại, và từng từ là kết quả của một hoặc nhiều ký tự khác nhau ghép lại Hướng tiếp cận dựa trên cấp độ của văn bản trong bài toán phát hiện văn bản có bối cảnh là hướng tiếp cận phát hiện văn bản
theo cấp độ ký tự hay chữ cái của văn bản hoặc theo cấp độ từ của văn bản.
2.2.1 Phát hiện trên từng ký tự trong văn bản
Phương pháp phát hiện văn bản dựa trên ký tự trong bài phát hiện văn bản
trong ảnh có bối cảnh là phương pháp phát hiện và trích xuất thông tin trên từng ký
tự có trong hình ảnh hoặc video Mục tiêu của phương pháp là tìm kiếm và xác định
vị trí của các ky tự có trong cảnh được chụp hoặc quay.
15
Trang 33Hình 2.4 Minh họa văn bản được phát hiện theo cấp độ ký tự Mỗi đối tượng văn
bản trong ảnh được xác định vị trí trên cấp độ ký tự.
Phương pháp này thường có bộ trích xuất các ứng cử viên phức tạp, như mô hình SWT với việc sử dụng quá trình biến đổi chiều rộng nét chữ trong ảnh dé phát
hiện các vùng chứa ký tự Kỹ thuật này phân tích độ dày của nét chữ và giúp xác định
vùng ký tự dựa trên sự khác biệt giữa độ dày nét và nên ảnh Bên cạnh đó, với việc
tìm kiếm các khu vực cục bộ ôn định cực đại trong ảnh cùng với đặc điểm đặc biệt
của các ký tự thường với kích thước tương đối nhỏ và hình dạng độc đáo, mô hình
MSER được sử dụng nhằm dé phát hiện các khu vực đề xuất có chứa ký tự Các vùng ứng cử viên này sau đó được lọc bởi một bộ phân loại ký tự và không ký tự để loại
bỏ các ứng cử viên sai Cuối cùng, các ký tự còn lại được nhóm thành từ dựa trên
kiến thức trước hoặc một số mô hình gom cụm [10]-[12].
Nhìn chung, hầu hết các phương pháp dựa trên ký tự đòi hỏi thiết kế mô hình
tỉ mỉ và xử lý qua nhiều giai đoạn, điều này góp phần khiến mô hình trở nên phức tạp, không tối ưu và tiêu tốn nhiều chi phí thời gian.
16
Trang 342.2.2 Phát hiện trên từng từ trong văn bản
Thay vì trích xuất các ký tự riêng lẻ như phương pháp dựa trên ký tự, phương
pháp dựa trên từ trong bài toán phát hiện văn bản trong ảnh có bối cảnh là phươngpháp trực tiếp phát hiện và trích xuất các từ của văn bản từ hình ảnh hoặc video
Các phương pháp dựa trên từ phát hiện trực tiếp các từ, chủ yếu được lấy cảm
hứng từ các phương pháp phát hiện đối tượng tổng quát Năm 2016, tác giả Zhi Tian
cùng những đồng nghiệp [13] đã đề xuất một Mạng Kiến Trúc Đề Xuất Văn Bản KếtNối (Connectionist Text Proposal Network) bao gồm CNN và RNN để phát hiện toàn
bộ dòng văn bản bằng cách liên kết một loạt các hộp văn bản nhỏ Năm 2017, dựa
theo hướng tiếp cận phát hiện theo từ của văn bản, SegLink [14] được đề xuất bằng
cách sử dụng Mạng Convolutional toàn phần (FCN) đề phát hiện các đoạn văn bản
và mối quan hệ liên kết của chúng Các đoạn văn bản được liên kết đề tạo thành kết
Hình 2.5 Minh họa văn bản được phát hiện theo cấp độ từ Mỗi đối tượng văn bản
trong ảnh được xác định vị trí trên cấp độ từ
17
Trang 35Tuy nhiên, một cách tổng quan, những phương pháp được nêu trên đều có chung
thách thức đó là chỉ phù hợp cho văn bản ngang hoặc đa hướng, hay nói cách khác
đó là phương pháp dựa trên phát hiện theo từ của văn bản gặp khó khăn trong việc xử
lý các biến thể hình học của văn bản Mặc dù có những trở ngại vậy, nhưng hướngtiếp cận phát hiện văn bản dựa trên từ giúp giảm thiểu độ phức tạp trong tính toán
cũng như đơn giản hóa quá trình huấn luyện và triển khai mô hình hơn so với cáchtiếp cận phát hiện văn bản dưa trên ký tự
2.3 Các hướng tiếp cận khác
2.3.1 Hướng tiếp cận dựa theo bài toán phát hiện đối tưởng tổng quát
Nhìn một cách khái quát, bài toán phát hiện văn bản cũng có thể được xemnhư một đề nhánh đề tài nằm trong khối bài toán phát hiện đối tượng nói chung Vìvậy, các mô hình hiện đại trong bài toán phát hiện đối tượng cũng có thể được ứngdụng cho việc phát hiện văn bản trong ảnh có bối cảnh Một trong những phươngpháp tiêu biểu cho hướng tiếp cận này không thé không nhắc đến phương pháp MaskRCNN [15], một trong những phương pháp phát triển từ họ RCNN Phương pháp nay
kết hợp giữa hai nhiệm vụ quan trọng trong thị giác máy tính, đó là phát hiện vùngđối tượng và dự đoán các mặt nạ của các vùng đối tượng đó Với cách kết hợp này,
Mask RCNN đã chứng minh khả năng mạnh mẽ trong việc phát hiện văn bản trong
ảnh thực tế [16]-[18] Với mục tiêu chính là tăng cường độ chính xác và giảm số
lượng dự đoán sai sót, mô hình Cascade RCNN được đề xuất nhằm giải quyết vẫn đề
về tỷ lệ dự đoán sai sót trong quá trình phát hiện đối tượng bằng cách áp dụng mộtchuỗi các mô hình phân lớp dựa trên R-CNN và đã đạt được những kết quả khả quan
[19]-[21] khi được ứng dụng vào bài toán phát hiện văn bản trong ảnh có bối cảnh
Ngoài ra, trong những bài toán phát hiện đối tượng nói chung, nhằm cải thiện
hai nhiệm vụ phân loại và hồi quy, mô hình Double Head [22] được ra đời bằng cáchtách riêng việc xử lý nhiệm vụ phân loại cho lớp kết nối đầy đủ trong khi lớp tích
chập hỗ trợ cho xử lý hồi quy Mặc dù đã đạt được những thành công nổi trội trong
các mô hình cho bài toán phát hiện đối tượng nói chung, phương pháp trên vẫn chưa
18
Trang 36được áp dụng phô biến trong các kiến trúc mô hình cho bài toán phát hiện văn bảntrong ảnh có bối cảnh Vì thế trong báo cáo này, chúng tôi xem xét tận dụng cách tiếpcận này vào bài toán phát hiện văn bản trong ảnh có bối cảnh.
2.3.2 Hướng tiếp cận tiền huấn luyện đối chiếu Hình ảnh-Ngôn ngữ
Lấy cảm hứng từ các kỹ thuật tiền huấn luyện Transformer [23] tiên tiến dựa
trên NLP (Xử lý Ngôn ngữ Tự nhiên) phổ biến trong cộng đồng NLP, ta đã chứngkiến một sự quan tâm đáng kẻ đối với các phương pháp tiền huấn luyện hình ảnh-
ngôn ngữ trong những năm gan đây Điều này đã day mạnh tiễn bộ đáng kể trong
nhiều tác vụ đa dạng trong cộng đồng thị giác máy tính ViLBERT [24] và LXMERT
[25] đã giới thiệu một khung việc hai ludng, két hợp mô-đun chú ý hình ảnh-ngôn
ngữ để hợp nhất các đặc trưng chéo
Trái ngược với đó, VisualBERT [26], Unicoder-VL [27], VL-BERT [28] va
UNITER [29] đã áp dụng một khung việc một luồng (tương tự cấu trúc BERT gốc),tập trung vào các nhiệm vụ chung hình ảnh-ngôn ngữ, bao gồm Suy luận Giản lược
Hình ảnh (VCR) và Trả lời Câu hỏi Hình ảnh (VQA) Ngoài ra, đã đề xuất nhiều
phương pháp tiền huấn luyện hình ảnh-ngôn ngữ cho các tác vụ cụ thể Ví dụ,
RVL-BERT [30] được phát triển cho phát hiện mối quan hệ hình ảnh, PERVALENT [31]
và VLN-BERT [32] cho điều hướng hình ảnh, và VisualID [33] và VD-BERT [34]
cho trò chuyện hình ảnh, và nhiều phương pháp khác
Những tiến bộ trên là minh chứng cho tiềm năng của việc kết hợp các kỹ thuật
tiền huấn luyện hình ảnh và ngôn ngữ trong việc cải thiện hiệu suất của các tác vụ đadạng trong lĩnh vực thị giác máy tính Gần đây, đã trình bảy một phương pháp tiền
huấn luyện được giám sát yếu, oCLIP [35], có thé đạt được biểu diễn hiệu quả cho
văn bản trong cảnh bằng cách học và cân chỉnh thông tin hình ảnh và văn bản cùng
nhau Với việc học các đặc trưng văn bản, mô hình đã được tiền huấn luyện có thểchú ý tốt đến văn bản trong ảnh với ý thức về các ký tự
19
Trang 372.3.3 Các phương pháp tăng cường dữ liệu
Sử dụng kỹ thuật tăng cường ảnh đã trở thành một phương pháp phổ biến dé
ngăn chặn vấn dé quá khớp trong thị giác máy tính Tăng cường bao gồm việc xoay,cắt, dịch chuyển, tỷ lệ và lật ảnh dé tạo ra những ảnh mới trong khi vẫn giữ nguyên
ngữ cảnh dữ liệu gốc Ngoài các kỹ thuật tăng cường truyền thống, đã đề xuất một sốphương pháp mới đề cải thiện hiệu suất của mô hình Một phương pháp như vậy liênquan đến việc tích hợp nhiều ảnh vào một ảnh duy nhất như Mosaic [36] hoặc MixUp
[37], trong khi phương pháp khác liên quan đến việc ngẫu nhiên xóa một số pixel
trong ảnh [38] Những phương pháp này là một số trong số các cơ chế tăng cườngđộc đáo khác nhằm nâng cao hiệu suất của các mô hình
Ngoài ra, trong bài toán về nhận dạng văn bản từ ảnh có bối cảnh (Scene-textrecognition), hầu hết các mô hình dựa trên các tập dữ liệu tổng hợp dé huấn luyện vì
không có tập dữ liệu thực sự đủ lớn và công khai có nhãn sẵn khiến cho các mô hình
khi được đánh giá bằng dữ liệu thực tế thường gặp vấn đề về sự không khớp giữaphân phối dữ liệu huấn luyện và kiểm tra dẫn đến hiệu suất kém, đặc biệt là trên cácvăn bản khó khăn bị ảnh hưởng bởi nhiễu, hiện tượng nhân tạo, hình học hay cấu trúc
Tác giả Rowel Atienza đã giới thiệu một phương pháp học tăng cường tổnghợp 36 hàm tăng cường ảnh gọi là STRAug [39] Mỗi hàm tăng cường mô phỏng cácthuộc tính hình ảnh văn bản cụ thể có thể được tìm thấy trong các cảnh tự nhiên, docảm biến máy ảnh gây ra hoặc do các hoạt động xử lý tín hiệu nhưng không được đạidiện tốt trong tập dữ liệu huấn luyện
20
Trang 38Chương 3 PHƯƠNG PHÁP ĐÈ XUẤT
Dựa trên cơ sở các khảo sát được trình bày ở Chương 2, chúng tôi nhận thấy
tiềm năng khai thác ở hướng tiếp cận dựa theo các mô hình đã giải quyết rất thànhcông trong bài toán phát hiện đối tượng, đặc biệt ở nhóm phương pháp cải thiện khảnăng phát hiện đối tượng chất lượng cao như Cascade RCNN Ngoài ra ở hướng tiếpcận phân đoạn theo đối tượng, mô hình Mask RCNN cũng cho thấy sự hiệu quả củamình trong cả bài toán phát hiện đối tượng nói chung và bài toán phát hiện văn bảntrong ảnh có bối cảnh nói riêng
Trong chương này, sẽ trình bày phương pháp đề xuất được phát triển dựa trênphương pháp cơ sở là mô hình Cascade Mask RCNN — một mô hình kết hợp Cascade
RCNN với khả năng phân đoạn đối tượng của đầu Mask Head trong Mask RCNN.Phương pháp đề xuất này đã đạt được hiệu quả có tính cạnh tranh với các phương
pháp SOTA hiện nay trên bài toán này.
3.1 Tổng quan phương pháp đề xuất
Classification Bounding Box
Feature Pyramid Network
Classification
Mask
Hinh 3.1: Tong quan phuong phap đề xuất
21
Trang 39Phương pháp đề xuất của chúng tôi dựa trên việc cải tiến mô hình Cascade
Double Head Mask RCNN thông qua việc tích hợp bộ rút trích đặc trưng ResNet50
đã được tiền huấn luyện bằng mô hình oCLIP Việc tiền huấn luyện ResNet50 thôngqua oCLIP là một phần quan trọng trong chiến lược của chúng tôi Điều này giúp cho
mô hình hiểu một cách sâu sắc sự tương quan giữa các yếu tô hình ảnh và ngôn ngữ,
từ đó cho phép mô hình có khả năng diễn giải văn bản trong hình ảnh một cách phức
tạp hơn.
Trong mô hình mà chúng tôi đề xuất, mô hình ResNet50 đã được tỉnh chỉnh
và tiền huấn luyện trước với mô hình oCLIP sẽ thực hiện việc trích xuất các đặc trưng
nổi bat từ hình ảnh đầu vào Các đặc trưng này sau đó sẽ trải qua quá trình tỉnh chỉnh,
phân loại và hồi quy khung giới hạn trong các lớp tiếp theo của mô hình Cascade
Double Head Mask RCNN.
Ngoài việc tích hop oCLIP với ResNet50, phương pháp của chúng tôi còn giới
thiệu một chiến lược tăng cường dữ liệu STRAug được tùy chỉnh đặc biệt cho việcphát hiện văn bản trong cảnh Chiến lược này nâng cao tính đa dạng của dữ liệu huấnluyện thông qua các biến đổi khác nhau như xoay, dịch chuyển và điều chỉnh độ sáng.Điều này không chi tăng cường tính ổn định của mô hình đối với các yếu tô môitrường mà còn tăng cường khả năng tổng quát hóa của mô hình trong các tình huéng
khác nhau.
Trong phần tiếp theo, chúng tôi sẽ đi vào chỉ tiết các thành phần, đem đến mộtcái nhìn toàn điện về cơ chế phức tạp của phương pháp đột pha mà tôi đang đề xuất
3.2 Cas-Dou Mask-RCNN
Trong hệ thống phương pháp mà chúng tôi dé xuất, mô hình Cas-Dou Mask
RCNN đóng một vai trò quan trọng, được điều chỉnh tỉ mi để giải quyết hiệu quả cácthách thức độc đáo liên quan đến việc phát hiện văn bản trong cảnh Điểm đặc biệtcủa mô hình này chính là thiết kế "double head" (đầu kép) Như được mô tả trong
Hình 3.2, (a) mô tả một nhánh của standard cascade head, sử dụng một đường đi
thống nhất thông qua một convolutional head chia sẻ và một fully connected head
22
Trang 40cho việc dự đoán đồng thời cả phân loại và hộp giới hạn (b) miêu tả một nhánh của
cascade double head, phân biệt các nhiệm vụ phân loại và định vị Nó sử dụng một
fully connected head chung cho phân loại và một convolutional head chung cho định
vị, đảm bảo tối ưu hóa theo nhiệm vụ cụ thé
Thiết kế gồm hai nhánh song song này cho phép mô hình thực hiện đồng thờicác nhiệm vụ phân loại và hồi quy và tạo ra biểu diễn đặc trưng phong phú và quản
lý hiệu quả các đối tượng có kích thước đa dạng, qua đó tối ưu hóa việc phát hiện văn
bản trong khung cảnh phức tạp.
Classification
Rol Pool
Bounding Box
Shared Convs Shared FC
(a) Một nhánh Đầu đơn
Shared FC Bounding Box Classification
Classification
Bounding Box Bounding Box Shared Convs
(b) Một nhánh Đầu đôi
Hình 3.2 So sánh giữa Standard Cascade Head và Cascade Double Head trên một
nhánh của Cascade Rol Head Ta nhận thấy rằng ở dai đơn, hai tác vụ phân loại
(classification) và hôi quy hộp giới han (Bounding Box) đều được xử lý với Shared
23