1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Phát hiện văn bản ngoại cảnh trong giao thông

110 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN PHẠM ANH NGUYÊN

PHÁT HIỆN VĂN BẢN NGOẠI CẢNHTRONG GIAO THÔNG

Chuyên ngành: Khoa Học Máy TínhMã ngành: 8480101

LUẬN VĂN THẠC SĨ

TP HỒ CHÍ MINH, tháng 07 năm 2023

Trang 2

TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG - HCM

Cán bộ hướng dẫn khoa học: TS Nguyễn Quang Hùng Cán bộ chấm nhận xét 1: TS Nguyễn Lê Duy Lai Cán bộ chấm nhận xét 2: PGS TS Trần Công Hùng Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG, TP HCMngày 13 tháng 07 năm 2023.

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:1 Chủ tịch: PGS TS Trần Văn Hoài

2 Thư ký: TS Lê Thành Sách

3 Phản biện 1: TS Nguyễn Lê Duy Lai4 Phản biện 2: PGS TS Trần Công Hùng5 Ủy viên: PGS TS Lê Trung Quân

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyênngành sau khi luận văn đã được sửa chữa (nếu có).

VÀ KỸ THUẬT MÁY TÍNH

Trang 3

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: Nguyễn Phạm Anh Nguyên MSHV: 1970020 Ngày, tháng, năm sinh: 04/12/1996 Nơi sinh: Đăk Nông Chuyên ngành: Khoa Học Máy Tính Mã số : 8480101

I TÊN ĐỀ TÀI:

- Tiếng Việt: Phát hiện văn bản ngoại cảnh trong giao thông - Tiếng Anh: Scene text detection for driving videos

II NHIỆM VỤ VÀ NỘI DUNG: Nghiên cứu đề xuất một hệ thống dựa trên học sâu có

khả năng phát hiện và xác định vị trí của văn bản trên biển báo giao thông bằng hình ảnh và video

III NGÀY GIAO NHIỆM VỤ : 06/02/2023

IV NGÀY HOÀN THÀNH NHIỆM VỤ: 11/06/2023 V CÁN BỘ HƯỚNG DẪN: TS Nguyễn Quang Hùng

Trang 4

Lời cảm ơn / Lời ngỏ

Tôi xin chân thành cảm ơn các quý thầy cô Trường Đại Học Bách Khoađã truyền đạt những kiến thức vô cùng quý báu trong quá trình học tập tạitrường và tạo điều kiện tốt nhất cho tôi hoàn thành luận văn Đặc biệt là sựhướng dẫn, góp ý tận tình của TS Nguyễn Quang Hùng, TS Lê Thành Sáchtrong quá trình thực hiện luận văn của tôi.

Xin gửi lời cảm ơn đến những tổ chức, đơn vị, cá nhân đã chia sẻ nhữngnguồn dữ liệu mà tôi đã sử dụng cho đề tài này.

Bên cạnh đó, xin gửi lời cảm ơn đến tập thể đơn vị Phòng Giải Pháp củaDC5-CADS đã tạo điều kiện tối đa và hỗ trợ rất nhiều để tôi có thể hoànthành luận văn này.

Cuối cùng, xin gửi lời cảm ơn chân thành đến gia đình, người thân vàbạn bè đã luôn quan tâm, động viên tinh thần trong suốt quá trình thực hiệnluận văn của tôi.

Trang 5

Tóm tắt nội dung

Với xu hướng tự động hóa đang dần chiếm lĩnh nhiều hoạt động trong đờisống con người như hiện nay thì việc đòi hỏi những hệ thống tự động hóamang tính chính xác cao và đáp ứng kịp thời nhu cầu của con người là điềutất yếu Cụ thể đối với giao thông, thì xe tự lái hay những hệ thống tự độnggiám sát, phân tích giao thông đều cần có hệ thống giúp chúng đọc và hiểungữ cảnh giao thông tại một thời điểm để đưa ra quyết định, đó là đề tài màtôi đang thực hiện, "Phát hiện văn bản ngoại cảnh trong giao thông" nhằm hỗtrợ các hệ thống tự động trong giao thông có thể nắm bắt ngữ cảnh nằm trêncác biển báo giao thông Và với bản báo cáo sau đây, tôi xin trình bày cáchtiếp cận đề tài cũng như quy trình xây dựng hệ thống này.

Tóm tắt nội dung:

Chương 1: Mở đầu: Lý do chọn đề tài, mục đích, đối tượng và phạm vi

nghiên cứu, ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu.

Chương 2: Tổng quan: Phân tích, đánh giá các công trình nghiên cứu

đã có của các tác giả trong và ngoài nước liên quan mật thiết đến đề tài;nêu những vấn đề còn tồn tại; chỉ ra những vấn đề mà đề tài cần tập trungnghiên cứu, giải quyết.

Chương 3: Những nghiên cứu thực nghiệm hoặc lý thuyết: Trình bày

các cơ sở lý thuyết, lý luận, giả thuyết khoa học và phương pháp nghiêncứu đã được sử dụng trong luận văn.

Chương 4: Trình bày, đánh giá, bàn luận các kết quả: Trình bày hướng

tiếp cận, các bước xử lý, tiến hành, đánh giá và nhận xét, so sánh.

Chương 5: Kết luận và kiến nghị những nghiên cứu tiếp theo: Kết

luận lại những điểm mới của luận văn và hướng phát triển.• Tài liệu tham khảo: Danh mục tài liệu tham khảo.

Trang 6

With the current trend of automation gradually dominating many aspectsof human life, the demand for highly accurate and timely responsive automatedsystems has become essential Specifically, in the context of transportation,self-driving vehicles and automated traffic monitoring and analysis systemsrequire a capability to read and comprehend the traffic context at a given mo-ment to make informed decisions This is the subject of my ongoing research:"Scene Text Detection for Driving Videos" aimed at supporting automatedtransportation systems in capturing textual information from traffic signs Inthis report, I present the approach and the process of developing this system.

Chapter 1: Introduction: The rationale for selecting the research topic,

its objectives, scope of study, scientific significance, and practical tions.

implica-• Chapter 2: Literature Review: Analyzing and evaluating existing research

works by both local and international authors relevant to the topic, ing persisting issues, and highlighting the specific problems that the thesisaims to focus on and address.

identify-• Chapter 3: Theoretical or Experimental Research: Presenting the

the-oretical foundations, conceptual framework, scientific hypotheses, and search methods employed in the thesis.

re-• Chapter 4: Presentation, Evaluation, and Discussion: Describing the

ap-proach taken, the steps involved, and the evaluation and observations madeduring the study, along with comparative analyses.

Chapter 5: Conclusions and Recommendations for Future Research:

Summarizing the novel contributions of the thesis and proposing avenuesfor further development.

References: A list of cited references.

Trang 7

Lời cam đoan

Tôi xin cam đoan luận văn "Phát hiện văn bản ngoại cảnh trong giao thông"(Scene text detection for driving videos) là do tôi nghiên cứu và phát triển bằngcách khảo sát và ứng dụng các mô hình phù hợp với yêu cầu của bài toán đểtạo ra một hệ thống mới có tính ứng dụng cao trong giao thông và có sự hướngdẫn của TS Nguyễn Quang Hùng Các nguồn tham khảo được công bố rõ ràngtheo quy định Kết quả nghiên cứu luận văn của tôi được đúc trích từ quá trìnhlàm việc, nghiên cứu và thử nghiệm, không sao chép và lấy kết quả từ côngtrình nghiên cứu khác Tôi xin chịu trách nhiệm về lời cam đoan này.

Nguyễn Phạm Anh Nguyên

Trang 8

1.1 Giới thiệu đề tài 1

1.1.1 Động cơ nghiên cứu 1

1.1.2 Đối tượng và thách thức chính của đề tài 3

1.2 Mục tiêu và phạm vi nghiên cứu 6

1.2.1 Mục tiêu 6

1.2.2 Phạm vi nghiên cứu 6

1.3 Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu 7

1.4 Đóng góp mới của luận văn 7

Chương 2 Tổng quan92.1 Text Detection and Recognition in the Wild - A Review [1] 9

Trang 9

3.2.5 Hiện thực, thí nghiệm và cải tiến 52

3.2.6 Đánh giá và viết báo cáo 53

Chương 4 Trình bày, đánh giá, bàn luận các kết quả544.1 Phân tích bài toán và xác định vấn đề 54

Trang 10

4.2 Tổng quan dữ liệu 57

4.2.1 Vietnam Traffic Signs Dataset (VTSD) [8] 57

4.2.2 VinText Dataset [9] 58

4.2.3 Zalo AI Challenge - Traffic Sign Detection Dataset [10] 59

4.3 Xây dựng kiến trúc tổng quan và lựa chọn model 60

4.5 Huấn luyện và đánh giá 71

4.5.1 Module 1: Phát hiện biển báo giao thông 71

4.5.2 Module 2: Phát hiện văn bản ngoại cảnh 77

4.5.3 Pipeline phát hiện văn bản ngoại cảnh trong giao thông 80

4.6 Thảo luận 83

4.6.1 Ưu điểm của phương pháp đề xuất 83

4.6.2 Nhược điểm của phương pháp đề xuất 83

4.6.3 So sánh với các công trình hiện nay trong nước 83

Chương 5 Kết luận và kiến nghị những nghiên cứu tiếp theo845.1 Kết luận 84

5.2 Hướng phát triển 85

Trang 11

Danh sách bảng

2.1 So sánh giữa các bộ dữ liệu cho phát hiện và nhận dạng văn bản ngoạicảnh 11

2.2 Kết quả tự cài đặt lại mô hình của PMTD [2] và kiểm chứng với hai

tập dữ liệu ICDAR 2015 [11] và ICDAR 2017 MLT [12] 202.3 Kết quả tự cài đặt và huấn luyện mô hình tốt nhất (TPS-ResNet-

BiLSTM-Attn) 324.1 So sánh End-to-End model và Multi-model system trên một số tiêu chí 564.2 Tỷ lệ tập train và validate cho hai tác vụ phát hiện biển báo giao thông

và phát hiện văn bản ngoại cảnh của tập dataset VTSD [8] 694.3 Tỷ lệ tập train và validate cho tác vụ phát hiện văn bản ngoại cảnh của

tập dataset VinText [9] 70

Trang 12

Danh sách hình vẽ

1.1 Văn bản ngoại cảnh có thể tồn tại dưới nhiều màu sắc, font, kích thước

văn bản, hướng văn bản và ngôn ngữ (Ảnh: Sưu tầm) 41.2 Ngoại cảnh có thể tồn tại những thứ có hình dáng giống văn bản có

thể gây nhầm lẫn như các ký hiệu, biểu tượng, biển số xe, (Ảnh: Sưutầm) 41.3 Các yếu tố có thể làm biến bạng văn bản ngoại cảnh như bị mờ do

chuyển động, camera có độ phân giải thấp, góc chụp, khoảng cách

chụp và che khuất hoặc mất một phần văn bản (Ảnh: Sưu tầm) 51.4 Ban ngày và ban đêm cũng là một yếu tố ảnh hưởng lớn, vì tùy vào

khoảng thời gian trong ngày mà độ sáng sẽ khác nhau (Ảnh: Sưu tầm) 52.1 Kết quả so sánh sau khi kiểm chứng các phương pháp phát hiện văn

bản ngoại cảnh với ICDAR13 [13], ICDAR15 [11] và COCO-Text [14]

bằng các độ đo Precision (P), Recall (R) và H-mean [1] 122.2 Kết quả so sánh tốc độ của các phương pháp phát hiện văn bản ngoại

cảnh [1] 122.3 Kết quả so sánh sau khi kiểm chứng các phương pháp nhận dạng văn

bản ngoại cảnh với IIIT5k [15], SVT [16], ICDAR03 [17], ICDAR13

[13], ICDAR15 [11], SVT-P [18], CUTE80 [19] và COCO-Text [14]

bằng độ đo WRA [1] 132.4 Kết quả so sánh tốc độ của các phương pháp nhận dạng văn bản ngoại

cảnh [1] 13

2.5 Kiến trúc tổng quan của PMTD [2] 15

2.6 Nhãn kim tự tháp (Pyramid label) [2] 16

2.7 Trực quan hóa giải thuật gom cụm mặt phẳng (Plane Clustering) [2] 17

2.8 Mã giả của giải thuật gom cụm mặt phẳng (Plane Clustering) [2] 17

Trang 13

2.9 Kết quả so sánh với các phương pháp khác trên tập ICDAR 2013 [13].[2] 19

2.10 Kết quả so sánh với các phương pháp khác trên tập ICDAR 2015 [11].[2] 19

2.11 Kết quả so sánh với các phương pháp khác trên tập ICDAR 2017 MLT

[12] [2] 20

2.12 Kiến trúc tổng quan của DB [3] 222.13 Trực quan hóa quá trình sinh nhãn [3] 23

2.14 Kết quả so sánh với các phương pháp khác trên tập Total-Text [20] [3] 25

2.15 Kết quả so sánh với các phương pháp khác trên tập CTW1500 [21] [3] 25

2.16 Kết quả so sánh với các phương pháp khác trên tập ICDAR 2015 [11].[3] 26

2.17 Kết quả so sánh với các phương pháp khác trên tập MSRA-TD500 [22].[3] 26

2.18 Kết quả so sánh với các phương pháp khác trên tập ICDAR 2017 [12].[3] 272.19 Biểu đồ và bảng biểu diễn sự thay đổi trên hai kiểu đánh đổi giữa các

biển thể của mô hình (Trái:Đánh đổi giữa tốc độc và độ chính xác.Phải: Đánh đổi giữa dung lượng bộ nhớ và độ chính xác.) [4] 302.20 Bản chỉnh sửa lại màu của hai biểu đồ trên Hình 2.19 [4] 312.21 Kết quả nghiên cứu về 4 bước khi xét đến độ chính xác, tốc độ và dung

lượng bộ nhớ [4] 312.22 Kiến trúc của PP-YOLOE [6], với backbone là CSPRepResStage, neck

là Path Aggregation Network (PAN) [23] và head là Efficient aligned Head (ET-head) [6] 342.23 Cấu trúc của RepResBlock và CSPRepResStage [6] 342.24 So sánh performance trên tập COCO [14] theo mAP và FPS (dạng

Task-graph) [6] 35

Trang 14

2.25 So sánh performance trên tập COCO [14] theo mAP và FPS (dạng

bảng) [6] 35

2.26 Framework được để xuất của PP-OCRv3 [7], khung màu xanh lá lànhững thứ giữ nguyên của PP-OCRv2 [24], khung màu hồng là nhữngphần được thêm mới, khung màu xám là phần dành cho model tiny [7] 362.27 Framework của CML (Collaborative Mutual Learning) [7] 37

2.28 Sơ đồ cấu trúc của LK-PAN (Large Kernel Path Aggregation work) [7] 37

Net-2.29 Sơ đồ cấu trúc của DML (Deep Mutual Learning) [7] 38

2.30 Sơ đồ cấu trúc của RSE-FPN (Residual Squeeze-and-Excitation FPN).[7] 38

2.31 Kết quả thí nghiệm của mô hình giáo viên và học sinh sau khi áp dụngnhững cải tiến mới [7] 38

3.1 Các thành phần cơ bản của ANN 41

3.2 Quá trình xử lý tại một neuron 42

4.2 Một vài ví dụ đại diện cho VinText dataset [9] 58

4.3 Thống kê các đối tượng chứa văn bản trong VinText dataset, trong đóbiển báo giao thông chiếm ∼7% [9] 59

4.4 Một số cảnh trong ZaloAI dataset [10] 60

4.5 Pipeline đề xuất cho đề tài 61

4.6 Cấu trúc của PAN [23] được sử dụng tại PP-YOLOv2 [25] 63

4.7 Hệ số đầu vào được định nghĩa theo cấu trúc của mô hình PP-YOLOE+[6] 64

Trang 15

4.8 Ví dụ label cho biển báo giao thông 67

4.9 Ví dụ label cho word 68

4.10 Ví dụ label cho textline 68

4.11 Đại diện cho từng class của biển báo giao thông và tỷ lệ phân bố củatừng class 69

4.12 Thống kê phân phối kích thước ảnh đầu vào của tập dataset VinText [9] 704.13 Finetune eval graph của model "Phát hiện biển báo giao thông" 71

4.14 Finetune fps graph của model "Phát hiện biển báo giao thông" 72

4.15 Phát hiện biển báo giao thông - VTSD [8] inference 1 72

4.16 Phát hiện biển báo giao thông - VTSD [8] inference 2 73

4.17 Phát hiện biển báo giao thông - VinText [9] inference 1 73

4.18 Phát hiện biển báo giao thông - VinText [9] inference 2 74

4.19 Phát hiện biển báo giao thông - ZaloAI [10] inference 1 74

4.20 Phát hiện biển báo giao thông - ZaloAI [10] inference 2 74

4.21 Cải thiện hiệu suất sau khi finetune bằng bộ dữ liệu mới (đỏ: trước khifinetune, xanh: sau khi finetune) 76

4.22 Phase 1- Finetune eval graph của model "Phát hiện văn bản ngoạicảnh" 78

4.23 Phase 1 - Finetune fps graph của model "Phát hiện văn bản ngoại cảnh" 784.24 Phase 2 - Finetune eval graph của model "Phát hiện văn bản ngoạicảnh" 79

4.25 Phase 2 - Finetune fps graph của model "Phát hiện văn bản ngoại cảnh" 794.26 Inference sample của model phát hiện văn bản ngoại cảnh, test trênbiển báo giao thông 80

4.27 Pipeline của hệ thống phát hiện văn bản ngoại cảnh trong giao thông 81

4.28 Output dạng bảng để trích xuất thông tin 82

4.29 Một số inference sample từ tập dataset ZaloAI [10] 82

Trang 16

Chương 1Mở đầu

1.1 Giới thiệu đề tài

Văn bản luôn là một công cụ không thiểu thiếu trong cuộc sống hằng ngày củacon người với vai trò thể hiện thông tin có thể được hiển thị trên tài liệu hoặc cảnhvật Phát hiện và nhận dạng văn bản bằng hình ảnh đã và đang là một chủ đề đượcquan tâm trong lĩnh vực thị giác máy tính với nhiều ứng dụng cũng như thách thứccho các nhà nghiên cứu Chủ đề này được chia làm hai hướng nghiên cứu dựa vào đốitượng nghiên cứu, đó là phát hiện và nhận dạng văn bản trên tài liệu in và phát hiệnvà nhận dạng văn bản ngoại cảnh (hình ảnh chứa văn bản trong cảnh vật thường ngàynhư trên biển báo, biển hiệu, tường, nhà cửa, có thể bị ảnh hưởng bởi các điều kiệnmôi trường như độ chói, bị che khuất, ) Đề tài này sẽ tập trung vào phát hiện vănbản ngoại cảnh.

1.1.1 Động cơ nghiên cứu

Trong thời đại ngày nay, khi lượng dữ liệu được sinh ra hằng ngày càng lớn thì việctạo ra các phương pháp xử lý dữ liệu một cách hiệu quả là điều đòi hỏi tất yếu để pháttriển xã hội Đối với chủ đề phát hiện và nhận dạng văn bản ngoại cảnh cũng khôngphải ngoại lệ, với nhiều ứng dụng đối với con người thì chủ đề này đã được các nhànghiên cứu đề xuất nhiều phương pháp để ngày một tối ưu khả năng của máy móctrong việc phát hiện và nhận dạng bằng hình ảnh Tuy nhiên để xử lý một cách tối ưuthì phải giải quyết tốt các thách thức của chủ đề này.

Trang 17

• Giúp robot đọc hiểu được văn bản ngoại cảnh.• Xử lý tự động hóa trong công nghiệp.

• Phiên dịch văn bản ngoại cảnh.•

1.1.1.2 Các thách thức

Ngoài các ứng dụng thì vẫn tồn tại một số thách thức làm cho việc phát hiện vànhận dạng văn bản ngoại cảnh trở nên khó khăn Các thách thức có thể được chiathành ba nhóm [1] như sau:

Đa dạng văn bản: Văn bản ngoại cảnh có thể tồn tại dưới nhiều màu sắc, font,

kích thước văn bản, hướng văn bản và ngôn ngữ.

Ngoại cảnh phức tạp: Ngoại cảnh có thể tồn tại những thứ có hình dáng giống

văn bản có thể gây nhầm lẫn như các ký hiệu, biểu tượng, biển số xe,

Các yếu tố làm biến dạng: Các yếu tố có thể làm biến bạng văn bản ngoại

cảnh như bị mờ do chuyển động, camera có độ phân giải thấp, góc chụp,khoảng cách chụp và che khuất hoặc mất một phần văn bản.

Thời gian trong ngày: Ban ngày và ban đêm cũng là một yếu tố ảnh hưởng

lớn, vì tùy vào khoảng thời gian trong ngày mà độ sáng sẽ khác nhau.

1.1.1.3 Các nghiên cứu đã có

Để khắc phục các thách thức nêu trên và tối ưu hóa hiệu suất của việc phát hiệnvà nhận dạng văn bản ngoại cảnh thì nhiều công trình đã được thí nghiệm và đề xuất.Từ các công trình dựa trên các kỹ thuật học máy cổ điển cho tới các kỹ thuật dựa trênhọc sâu đã cho thấy sự phát triển của các phương pháp sau này đối với các phươngpháp trước về khả năng phát hiện và nhận diện cũng như giải quyết các vấn đề còntồn đọng hay những hạn chế của các công trình trước đó Một số công trình nổi bật

gần đây đối với nhiệm vụ phát hiện văn bản ngoại cảnh như PMTD [2], CRAFT [26],

PSENet [27], và đối với nhiệm vụ nhận dạng văn bản ngoại cảnh như CLOVA [4],

ASTER[28], ROSETTA [29].

Trang 18

1.1.2 Đối tượng và thách thức chính của đề tài

Tên đề tài ,"Phát hiện văn bản ngoại cảnh trong giao thông", nói lên đối tượng đầu

ra của đề tài là văn bản ngoại cảnh trong giao thông, tức là các văn bản xuất hiện trêncác biển báo giao thông Đối tượng đầu vào của đề tài là hình ảnh hoặc video (thutừ camera hành trình) có chứa văn bản ngoại cảnh trong giao thông Đề tài này nhắmđến hỗ trợ phát hiện và xác định vị trí của các văn bản ngoại cảnh trên biển báo giaothông.

Mặc dù đã có nhiều công trình đi trước tạo tiền đề để phát triển thì đề tài này vẫngặp phải một số trở ngại khác Việc có nhiều công trình đi trước đồng nghĩa với việccó nhiều kiến trúc và phương pháp học khác nhau dẫn đến việc chọn lựa kiến trúcmạng và phương pháp học phù hợp và tối ưu cũng trở nên thách thức Bởi chúng taphải xây dựng lại các công trình trước và so sánh trên các bộ dữ liệu tương đồng đểđánh giá độ tốt của các công trình đó nhằm chọn ra các thành phần phù hợp để có thểdựa vào và phát triển theo đề tài này Tuy nhiên việc xây dựng lại và đánh giá các côngtrình trước là một thách thức khi một số công trình đã chia sẻ mã nguồn còn một sốkhác thì không, bên cạnh đó là thách thức về phần cứng, bởi một số bộ dữ liệu có sẵncó dung lượng rất lớn vì thế cần không gian lưu trữ lớn cũng như phải chuẩn bị mộtcấu hình máy tính đủ mạnh (GPU) để có thể giúp quá trình huấn luyện trở nên nhanhchóng hơn Ngoài ra, các thách thức đã nêu tại1.1.1.2 đối với đề tài này như sau:

Đa dạng văn bản:

Trang 19

Hình 1.1: Văn bản ngoại cảnh có thể tồn tại dưới nhiều màu sắc, font, kích thước văn bản,

hướng văn bản và ngôn ngữ (Ảnh: Sưu tầm)

Ngoại cảnh phức tạp:

Hình 1.2: Ngoại cảnh có thể tồn tại những thứ có hình dáng giống văn bản có thể gây nhầm

lẫn như các ký hiệu, biểu tượng, biển số xe, (Ảnh: Sưu tầm)

Các yếu tố làm biến dạng:

Trang 20

Hình 1.3: Các yếu tố có thể làm biến bạng văn bản ngoại cảnh như bị mờ do chuyển động,camera có độ phân giải thấp, góc chụp, khoảng cách chụp và che khuất hoặc mất một phần

văn bản (Ảnh: Sưu tầm)

Thời gian trong ngày:

Hình 1.4: Ban ngày và ban đêm cũng là một yếu tố ảnh hưởng lớn, vì tùy vào khoảng thời

gian trong ngày mà độ sáng sẽ khác nhau (Ảnh: Sưu tầm)

Đối với các thách thức trên thì việc tinh chỉnh để có thể xử lý tốt nhiều trở ngạicũng trở thành vấn đề khi các công trình trước đa số cũng chỉ tập trung giải quyết mộtsố trở ngại riêng lẻ, bên cạnh đó một số trở ngại lớn (văn bản cong, văn bản nhiềuhướng, văn bản bị che hoặc mất một phần) cũng làm giảm hiệu suất của các côngtrình trước và hiện vẫn chưa thực sự có phương pháp nào xử lý tốt các trở ngại lớntrên Bên cạnh độ chính xác cao thì tốc độ xử lý cũng là một thách thức cần phải giái

Trang 21

quyết, bởi nếu áp dụng trong thực tế thì tốc độ xử lý có thể mang tính chất quyết định(ví dụ như xe tự lái), thách thức ở đây là sự đánh đổi giữa độ phức tạp của hệ thốngvà tốc độ xử lý của hệ thống, một hệ thống đơn giản có thể xử lý nhanh tuy nhiên vớikiến trúc đơn giản thì độ chính xác có thể chưa thực sự tốt và ngược lại Thử tháchlớn nhất vẫn là sự thiếu hụt lượng dữ liệu văn bản ngoại cảnh cho Tiếng Việt đã đượcđánh nhãn phù hợp để phục vụ đề tài, vì nếu dữ liệu không đủ số lượng, không đủ độtổng quát thì hệ thống sẽ không thể hoạt động tốt khi hoạt động trên những điểm dữliệu mới.

Những thách thức trên là những vấn đề cần phải giải quyết để có thể xây dựng đượcmột hệ thống đủ tốt cho việc áp dụng vào thực tiễn Và đó cũng chính là động lực chocác công trình sau này phát triển để khắc phục.

1.2 Mục tiêu và phạm vi nghiên cứu1.2.1 Mục tiêu

Mục tiêu của đề tài là nghiên cứu đề xuất được một hệ thống dựa trên học sâu cókhả năng phát hiện và xác định vị trí của văn bản trên biển báo giao thông bằng hìnhảnh và video Bên cạnh đó đề ra mục tiêu của hệ thống là phải đáp ứng độ chính xáccao cũng như tốc độ xử lý thời gian thực nhanh chóng.

1.2.2 Phạm vi nghiên cứu

Một số giới hạn của đề tài:

• Dữ liệu cho văn bản ngoại cảnh giao thông của Việt Nam còn hạn chế, dẫn tớiyêu cầu thu thập thêm dữ liệu cũng như gắn nhãn cho dữ liệu để thực hiện đề tài.• Việc thu thập dữ liệu có thể làm xuất hiện nhiều trường hợp dữ liệu khó như đãnêu tại1.1.2, chất lượng dữ liệu thu thập bị phụ thuộc vào chất lượng thiết bị thu

thập, góc nghiêng khi thu thập, các điều kiện môi trường,

• Cấu hình phần cứng cũng là một vấn đề đáng quan tâm vì nó ảnh hưởng tới tốcđộ huấn luyện, số thí nghiệm có thể thực hiện và môi trường ứng dụng trong thựctiễn.

Qua đó, phạm vi của đề tài này sẽ chỉ nằm trong phạm vi Academic, hệ thống được

Trang 22

đề xuất sẽ chỉ phục vụ việc ứng dụng sau khi R&D Vì nếu để propose thành mộtcông trình mới hoặc deploy thành sản phẩm mới thì sẽ cần phải giải quyết và cải thiệnnhiều giới hạn mà đề tài hiện đang gặp phải, và hiện tại những nguồn lực để thực hiệnviệc đó hiện chưa thể đáp ứng.

1.3 Ý nghĩa khoa học và thực tiễn của đề tài nghiêncứu

Đối với Việt Nam là một đất nước đang phát triển , thì những nghiên cứu, giải phápvề giao thông vẫn còn hạn chế Đề tài này có tầm quan trọng lớn trong không chỉ lĩnhvực thị giác máy tính nói chung mà còn đối với đời sống người Việt Nam nói riêng.Đề tài này mang tính ứng dụng cao và có thể áp dụng vào nhiều khía cạnh trong giaothông Nghiên cứu đề tài này sẽ góp phần thúc đẩy những nghiên cứu tiếp theo hoặcnhững nghiên cứu liên quan đến giao thông của Việt Nam, giúp quá trình tham giagiao thông, giám sát giao thông của người Việt Nam trở nên dễ dàng hơn Nhiệm vụcủa chúng ta là tiếp thu tinh hoa của các công trình nghiên cứu trên Thế giới về ápdụng, cải thiện vào hoàn cảnh của Việt Nam nhằm mục đích cuối cùng là xây dựng,phát triển đất nước.

1.4 Đóng góp mới của luận văn

Luận văn này sẽ đề xuất, thử nghiệm và đánh giá một hệ thống mới với tính ứng

dụng cao để giải quyết bài toán "Phát hiện văn bản ngoại cảnh trong giao thông" mà

trước đây chưa có công trình nào đề xuất Hệ thống này sẽ là sự kết hợp của các môhình, giải thuật được nghiên cứu, thí nghiệm và kiểm chứng bởi các công trình củaThế giới, có hiệu suất cao trong độ chính xác và tốc độ xử lý Tạo tiền đề cho việc

phát triển tác vụ "Nhận dạng văn bản ngoại cảnh trong giao thông" để góp phần hoànthiện một luồng xử lý hoàn chỉnh cho bài toán cuối cùng là "Phát hiện và nhận dạngvăn bản ngoại cảnh trong giao thông", đầu ra của bài toán này sẽ hỗ trợ cho các hệthống tự lái, giám sát giao thông và phân tích giao thông, nhằm giúp cho việc thamgia giao thông của con người dễ dàng hơn.

Trang 23

Luận văn này sẽ giới thiệu những công trình, bộ dữ liệu mang tính ứng dụng caotrên Thế giới để tạo nguồn tham khảo cho các công trình sau này khảo sát và đánh giáđể chọn ra nguồn tham khảo phù hợp cho các bài toán sau này Và sẽ cung cấp mộtdataset mới chuyên dụng cho đề tài thực hiện, nhằm làm phong phú thêm nguồn dữliệu cho giao thông Việt Nam.

Trang 24

Chương 2Tổng quan

2.1 Text Detection and Recognition in the Wild - A view [1]

Re-Công trình Text Detection and Recognition in the Wild - A Review [1] được đăngtrên tạp chí CoRR tháng 06 năm 2020.

2.1.1 Nội dung chính

(a) Tổng quan đề tài:• Phân loại đối tượng:

• Tài liệu in (scanned printed documents).

• Văn bản ngoại cảnh (text in the wild, scene text) (Đối tượng của đề tài).• Phân loại các thách thức trong phát hiện và nhận diện văn bản ngoại cảnh (đã

được trình bày tại1.1.1.2).

• Phân loại các phương pháp tiếp cận:• Dựa trên học máy cổ điển.

• Dựa trên học sâu.• Mục tiêu của bài báo:

• Chỉ ra sự khác biệt trong các tài liệu bằng:

• Đánh giá các phương pháp tiến bộ gần đây (tập trung vào các phương pháphọc sâu).

• Sử dụng cùng phương pháp đánh giá để đánh giá hiệu năng của một sốphương pháp trên những bộ dữ liệu tiêu chuẩn đầy thách thức.

• Rút ra những điểm thiếu sót của các kỹ thuật hiện hành bằng cách tiến hànhnhiều thí nghiệm để phân tích kết quả.

• Đề xuất các hướng nghiên cứu tiềm năng để thiết kế các mô hình tốt hơn có

Trang 25

khả năng phát hiện và nhận diện văn bản ngoại cảnh dưới nhiều tình huốngbất lợi.

(b) Đánh giá tài liệu vể hướng tiếp cận:• Đối với phát hiện văn bản ngoại cảnh:

Các phương pháp dựa trên học máy cổ điển (cửa sổ trượt (Sliding-window),thành phần liên kết (Connected-component)): Thường chỉ có thể áp dụng với

các văn bản ngang, không cho hiệu suất tốt khi áp dụng với văn bản nhiềuhướng và những văn bản kề nhau, dễ bị ảnh hưởng bởi độ chói sáng.

Các phương pháp dựa trên học sâu (hồi quy hộp giới hạn (Bounding-boxRegression), phân đoạn (Segmentation), hỗn hợp (Hybrid)): Đối với hồi quy

hộp giới hạn thì có thể không phát hiện được các văn bản nhiều hướng, đốivới phân đoạn thì có khả năng không phân tách được các ký tự liền kề có xu

hướng đè nhau và đối với các phương pháp hỗn hợp (đại diện như PMTD [2])thì hiệu suất đã cái thiện hơn so với các phương pháp nêu trên, tuy nhiên vẫnchưa hoạt động tốt với các văn bản cong.

• Đối với nhận dạng văn bản ngoại cảnh:• Các lớp dùng cho nhận dạng văn bản:

• 10 chữ số.

• 26 ký tự chữ thường trong bảng chữ cái.• 26 ký tự chữ hoa trong bảng chữ cái.• 32 ký tự dấu câu ASCII.

• Ký hiệu hết câu (EOS).

Các phương pháp dựa trên học máy cổ điển (từ dưới lên (Bottom up: nhậndạng ký tự rồi liên kết thành từ), từ trên xuống (Top down: nhận dạng từ)):

Khó đạt độ chính xác cao khi nhận dạng vì những đặc trưng thủ công khôngđủ khả năng biểu diễn cho văn bản ngoại cảnh và đối với phương pháp nhậndạng từ sẽ thất bại nếu từ nhận dạng không nằm trong từ điển.

Các phương pháp dựa trên học sâu (CTC, Attention): Các phương pháp cũsử dụng các bộ rút trích đặc trưng đơn giản kết hợp với bộ dự đoán CTC có

Trang 26

thể giúp giảm chi phí tính toán tuy nhiên độ chính xác lại không cao vì đặc

trưng không đủ thông tin, các phương pháp sau này đã dần kết hợp CTC với

các bộ biến đổi và rút trích đặc trưng tốt hơn đã phần nào làm tăng hiệu suất

nhận dạng trên cả văn bản thường và bất thường (đại diện là STAR-Net [30]).

Đối với các phương pháp dựa trên Attention thì khả năng nhận dạng tốt hơncác phương pháp dựa trên CTC tuy nhiên phải đánh đổi với xử lý chậm và

chi phí tính toán lớn.

2.1.2 Thí nghiệm

(a) Các bộ dữ liệu chuẩn phổ biến (Bảng 2.1).

Bảng 2.1: So sánh giữa các bộ dữ liệu cho phát hiện và nhận dạng văn bản ngoại cảnh.

Bộ dữ liệuNăm

Số ảnh đểphát hiện

Số từ để

Nhậndạng

Trang 27

[2] đạt được độ chính xác tốt nhất và đạt tốc độ xử lý nhanh thứ hai trong cácphương pháp được thí nghiệm.

Hình 2.1: Kết quả so sánh sau khi kiểm chứng các phương pháp phát hiện văn bản ngoại

cảnh với ICDAR13 [13], ICDAR15 [11] và COCO-Text [14] bằng các độ đo Precision (P),Recall(R) và H-mean [1]

Hình 2.2: Kết quả so sánh tốc độ của các phương pháp phát hiện văn bản ngoại cảnh [1]

Với nhiệm vụ nhận dạng: Kết quả thí nghiệm (Hình 2.3, 2.4) cho thấy CLOVA

[4] và ASTER [28] đạt được các độ chính xác cao nhất trong các phương pháp

thí nghiệm, tuy nhiên tốc độ xử lý lại chậm (ASTER [28] chậm nhất, CLOVA

[4] chậm thứ hai) Bên cạnh đó STAR-Net [30] vừa đạt được độ chính xáctương đối và tốc độ xử lý cũng tương đối nhanh.

Trang 28

Hình 2.3: Kết quả so sánh sau khi kiểm chứng các phương pháp nhận dạng văn bản ngoại

cảnh với IIIT5k [15], SVT [16], ICDAR03 [17], ICDAR13 [13], ICDAR15 [11], SVT-P [18],

CUTE80[19] và COCO-Text [14] bằng độ đo WRA [1]

Hình 2.4: Kết quả so sánh tốc độ của các phương pháp nhận dạng văn bản ngoại cảnh [1]

2.1.3 Đánh giá

Đánh giá kết quả thí nghiệm: Qua kết quả thí nghiệm ta có thể thấy PMTD [2]thể hiện sự vượt trội so với các phương pháp khác, nhờ vào hướng tiếp cận mới

mẻ từ Pyramid label(2.2.1c) và giải thuật Plane Clustering (2.2.1d) Đối với

CLOVA[4] và ASTER [28] thì cần cải tiến về độ phức tạp của mô hình và tốc độ

xử lý, các phương pháp dựa trên CTC đều đạt tốc độ xử lý tốt tuy nhiên chỉ có

STAR-Net [30] đạt được độ chính xác tương đối nhờ bộ biến đổi và rút trích đặctrưng phức tạp hơn các phương pháp còn lại.

• Điểm mạnh của bài báo: Cung cấp thông tin tổng hợp về các mô hình phát hiệnvà nhận dạng văn bản ngoại cảnh gần đây và các bộ dữ liệu chuẩn phổ biến cũng

Trang 29

như các độ đo để đánh giá.

Điểm hạn chế của bài báo: Chưa đánh giá được trên bộ dữ liệu khó ICDAR17

2.2 Pyramid Mask Text Detector [2]

Công trình Pyramid Mask Text Detector [2] được đăng trên tạp chí CoRR tháng 03năm 2019.

2.2.1 Nội dung chính

(a) Một số vấn đề của các phương pháp segmentation nói chung và các phương pháp

dựa trên Mask R-CNN [35] nói riêng:

Giám sát quá đơn giản: Các phương pháp dựa trên Mask R-CNN [35] nhắmđến phân tách vùng text ra khỏi background mà bỏ qua việc chỉ cần tạo ra textmask với một hình dạng đủ để chứa text.

• Đánh nhãn segmentation không chính xác: Khi đánh nhãn để segmentation,nhiều điểm ảnh của background không thuộc vùng text vẫn bị bao gồm trongnhãn, điều này có thể làm ảnh hưởng tới hiệu suất của mô hình.

Lỗi lan truyền: Với Mask R-CNN [35], bước segmentation sẽ dựa vào kết quảcủa bước dự đoán bounding box, và segmentation cũng chỉ được thực hiện bêntrong bounding box đó, vì thế nếu kết quả dự đoán bounding box không chínhxác thì việc phân đoạn thiếu vùng text là điều có thể xảy ra Tức là kết quả củaquá trình phát hiện đối tượng sẽ ảnh hưởng tới việc tìm ra text box.

-• Tại công đoạn test, từ soft mask 2D đã được dự đoán, áp dụng giải thuật plane

Trang 30

clustering để chuyển thành một kim tự tháp 3D để tìm ra text box.• Kiến trúc tổng quan:

Hình 2.5: Kiến trúc tổng quan của PMTD [2]

(c) Nhãn kim tự tháp (Pyramid label):

• Mỗi điểm ảnh thuộc vùng text được gán nhãn thuộc [0,1] để cung cấp thôngtin hình dạng và vị trí cho mô hình.

• Trung tâm của vùng text, là đỉnh của kim tự tháp, sẽ được gán nhãn score = 1.• Khi đã có 4 điểm góc A(xa; ya), B(xb; yb), C(xc; yc), D(xd; yd) ta có thể tính

nhãn của điểm P(xp; yp)như sau:• Tìm tâm O(xo; yo):

xo= (xa+ xb+ xc+ xd)/4 (2.1)

yo= (ya+ yb+ yc+ yd)/4 (2.2)• Với mỗi vùng ROMN (ROAB, ROBC, ROCD, RODA), vector OP có thể được phân

xp− xoyp− yo

xm− xo xn− xoym− yo yn− yo

• Vùng R mà P thuộc về phải thỏa:

Trang 31

• Nhãn của P được tính như sau:

scorep=max(1 − (α + β),0) (2.6)• Nhãn kim tự tháp được trực quan hóa như Hình 2.6.

Hình 2.6: Nhãn kim tự tháp (Pyramid label) [2]

(d) Giải thuật gom cụm mặt phẳng (Plane Clustering):

• Từ bounding box và soft mask đã dự đoán được, giải thuật sẽ tìm ra các mặtphẳng tạo thành kim tự tháp tương ứng để tìm text box.

• Điểm trung tâm của bounding box sẽ trở thành đỉnh của kim tự tháp (score =1).

• Mục tiêu giải thuật là tìm 4 mặt phẳng xung quanh kim tự tháp có dạng: Ax +By+ Cz + D = 0; C = 1 Tức hồi quy để tìm A, B, D thích hợp nhất cho mỗimặt phẳng.

• Phần giao giữa 4 mặt phẳng và mặt phẳng z = 0 chính là phần mask mà môhình dự đoán cho vùng văn bản tương ứng.

• Giải thuật được trực quan hóa như Hình 2.7.

Trang 32

Hình 2.7: Trực quan hóa giải thuật gom cụm mặt phẳng (Plane Clustering) [2]

• Mã giả của giải thuật (Hình 2.8):

Hình 2.8: Mã giả của giải thuật gom cụm mặt phẳng (Plane Clustering) [2]

Trang 33

• ICDAR 2017 MLT [12]: Bao gồm 7200 mẫu huấn luyện, 1800 mẫu kiểm thửvà 9000 mẫu kiểm tra Gồm văn bản đa hướng, số lượng đối tượng văn bảnnhiều và đa ngôn ngữ.

(b) Huấn luyện:

• ICDAR 2017 MLT [12]:

• Khởi động bằng ResNet50 pre-trained trên ImageNet.• Train và validate trên ICDAR 2017 MLT trong 160 epoch.• Sử dụng SGD optimizer và batch size = 64.

• Learning rate khởi động là 0.08 và giảm (còn 1/10 trước đó) tại epoch 80 và128.

Kết quả thí nghiệm với tập dữ liệu ICDAR 2013 [13] (Hình 2.9):

Trang 34

Hình 2.9: Kết quả so sánh với các phương pháp khác trên tập ICDAR 2013 [13] [2]

Kết quả thí nghiệm với tập dữ liệu ICDAR 2015 [11] (Hình 2.10):

Hình 2.10: Kết quả so sánh với các phương pháp khác trên tập ICDAR 2015 [11] [2]

Trang 35

Kết quả thí nghiệm với tập dữ liệu ICDAR 2017 MLT [12] (Hình 2.11):

Hình 2.11: Kết quả so sánh với các phương pháp khác trên tập ICDAR 2017 MLT [12] [2]

Kết quả tự cài đặt lại mô hình và kiểm chứng với hai tập dữ liệu ICDAR 2015

Qua kết quả so sánh giữa PMTD [2] với các phương pháp khác trên các bộ dữ

liệu ICDAR 2013 [13], ICDAR 2015 [11] và ICDAR 2017 MLT [12] có thể thấyđây là một mô hình tốt hơn các mô hình trước Qua quá trình tự kiểm chứng cũncó thể thấy sự chênh lệch là không quá nhiều nên những con số được báo có có

thể tin cậy được Hơn nữa hiện tại trên bảng xếp hạng của cuộc thi ICDAR 2017MLT [12], PMTD [2] còn đạt được con số cao hơn con số được báo cáo trong

Trang 36

bài báo này (H-mean: 82.12%), điều đó chứng tỏ các tác giả vẫn đang cải thiện

mô hình Nhờ hướng tiếp cận mới mẻ của Pyramid mask và giải thuật PlaneClusteringmà phương pháp này vẫn còn nhiều thứ có thể cải thiện được.

• Điểm mạnh của bài báo: Giải quyết được các hạn chế của các phương pháp trướcđó, đồng thời đề xuất cách đánh nhãn và giải thuật mới, ngoài ra còn chia sẻ mãnguồn để mọi người có thể kiểm chứng.

• Điểm hạn chế của bài báo: Chưa trình bày kiến trúc cụ thể của mô hình, mới chỉgiới thiệu tổng quan.

2.3 Real-time Scene Text Detection with DifferentiableBinarization [3]

Công trình Real-time Scene Text Detection with Differentiable Binarization [3]được đăng trên hội nghị AAAI tháng 04 năm 2020.

2.3.1 Nội dung chính

(a) Đề xuất một module giúp việc nhị phân hóa khả vi và có thể huấn luyện to-end trong một mạng CNN được với cấu trúc chính là kết hợp của một mạngphân đoạn ngữ nghĩa (semantic segmentation) và một module nhị phân hóa khảvi (Differentiable Binarization) Kết quả là một mô hình xử lý nhanh và chínhxác với các đạt được như sau:

end-• Đạt hiệu suất tốt hơn các phương pháp trước trên các bộ dữ liệu chuẩn bao gồmvăn bản ngang, nhiều hướng và cong.

• Đạt tốc độ nhanh hơn các phương pháp trước nhờ nhị phân hóa khả vi có thểtạo ra được bản đồ nhị phân tốt hơn và đơn giản hóa việc hậu xử lý.

• Vẫn xử lý tốt với backbone đơn giản (ResNet-18) và tăng thêm tốc độ xử lý.• Không cần tốn thời gian và bộ nhớ khi test cho module nhị phân hóa khả vi.

(b) Kiến trúc của DB [3] (Hình 2.12):

• Đầu tiên, ảnh đầu vào được đưa qua một FPN backbone để trích xuất đặc trưng.Đầu ra mỗi lớp tích chập sẽ được upsample và ghép lại để tạo ra bản đồ đặctrưng.

Trang 37

Bản đồ đặc trưng sau đó sẽ được sử dụng để tính một bản đồ xác suất (P) vàmột bản đồ giới hạn (T).

Sau đó sử dụng bản đồ xác suất (P) và bản đồ giới hạn (T) để tính bản đồ nhị

phân xấp xỉ ( ˆB).

• Trong quá trình huấn luyện, nhãn được tính cho bản đồ xác suất, bản đồ giớihạn và bản đồ nhị phân xấp xỉ Trong đó, bản đồ xác suất và bản đồ nhị phânxấp xỉ sử dụng chung nhãn.

• Trong quá trình suy luận, textbox sẽ được tìm ra bằng bản đồ nhị phân xấp xỉhoặc bản đồ xác suất.

Hình 2.12: Kiến trúc tổng quan của DB [3]

(c) Nhị phân hóa (Binarization):

• Nhị phân hóa chuẩn (Standard Binarization):

Cho P là bản đồ xác suất được tạo ra, ta có điểm ảnh với score=1 là vùngvăn bản còn điểm ảnh với score=0 thì không thuộc vùng văn bản:

Bi, j =

1, if Pi, j >= t,0, otherwise.

• Nhị phân hóa khả vi (Differentiable Binarization):

• Nhị phân hóa chuẩn tại công thức (2.7) không khả vi, vậy nên mô hình khôngthể học được khi lan truyền ngược Vì thế để giải quyết vấn đề đó, đề xuấtcông thức nhị phân xấp xỉ như sau:

Bi, j = 1

1 + e−k(Pi, j−Ti, j) (2.8)

Trang 38

• Với ˆBi, j là bản đồ nhị phân xấp xỉ, Ti, jlà bản đồ giới hạn và k là hệ số khuếchđại (k = 50 theo kết quả thí nghiệm).

• Công thức (2.8) này hoạt động tương tự như công thức (2.7) tuy nhiên khả vivì thế có thể giúp mạng học được.

Với A là diện tích vùng văn bản, L là chu vi vùng văn bản và r là hệ số thu nhỏ

(r = 0.4 theo kết quả thí nghiệm).

• Sau khi ta có vùng văn bản thu nhỏ (Gs) bằng khoảng cách D, thực hiện mởrộng vùng văn bản G theo khoảng cách D thu được vùng văn bản lớn (Gd).Vùng giữa Gsvà Gd chính là textbox (Hình 2.13).

Hình 2.13: Trực quan hóa quá trình sinh nhãn [3]

(e) Hàm Loss:

• Hàm Loss được tính dựa vào Loss của bản đồ xác suất (Ls), Loss của bản đồnhị phân (Lb) và Loss của bản đồ giới hạn (Lt):

L= Ls+ α × Lb+ β × Lt (2.10)• Theo kết quả thí nghiệm: α = 0.1 và β = 10.

Trang 39

• Áp dụng Binary Cross-Entropy (BCE) cho Loss của Lsvà Lb:Ls= Lb = ∑

yilogxi+ (1 − yi)log(1 − xi) (2.11)• Với Sl là tập hợp mẫu với tỷ lệ điểm ảnh thuộc vùng văn bản và điểm ảnh nền

• ICDAR 2015 [11]: Sử dụng để thực hiện tinh chỉnh và kiểm chứng.

• MSRA-TD500[22]: Gồm văn bản tiếng Anh và tiếng Trung Quốc Với 300 ảnh

huấn luyện và 200 ảnh kiểm chứng (kèm thêm 400 ảnh huấn luyện từ TR400 [36]) Văn bản được đánh nhãn theo dòng Sử dụng để thực hiện tinhchỉnh và kiểm chứng.

HUST-• CTW1500 [21]: Tập trung vào văn bản cong Bao gồm 1000 ảnh huấn luyệnvà 500 ảnh kiểm chứng Văn bản được đánh nhãn theo dòng Sử dụng để thựchiện tinh chỉnh và kiểm chứng.

• Total-Text[20]: Gồm nhiều dạng văn bản như ngang, nhiều hướng và cong Với1255 ảnh huấn luyện và 300 ảnh kiểm chứng Văn bản được đánh nhãn theo từ.Sử dụng để thực hiện tinh chỉnh và kiểm chứng.

(b) Kết quả thí nghiệm:

Trang 40

Kết quả thí nghiệm với tập dữ liệu Total-Text [20] (Hình 2.14):

Hình 2.14: Kết quả so sánh với các phương pháp khác trên tập Total-Text [20] [3]

Kết quả thí nghiệm với tập dữ liệu CTW1500 [21] (Hình 2.15):

Hình 2.15: Kết quả so sánh với các phương pháp khác trên tập CTW1500 [21] [3]

Kết quả thí nghiệm với tập dữ liệu ICDAR 2015 [11] (Hình 2.16):

Ngày đăng: 30/07/2024, 17:13

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN