Trong công thức nay, sj; biéu thị độ tương đồng cosine giữa hình ảnh thứ i và
Chương 4.. THỰC NGHIEM VÀ ĐÁNH GIÁ
Tính hiệu quả của một hệ thống phát hiện văn bản trong cảnh phụ thuộc rất nhiều vào tập dữ liệu huấn luyện và kiểm tra. Chúng tôi đã tiến hành lựa chọn cần thận đề
đảm bảo tính đa dạng và phong phú của tập dữ liệu.
4.1. Bộ dữ liệu
4.1.1. Khảo sát dữ liệu
Bài toán phát hiện văn bản trong ảnh có bối cảnh được quan tâm đặc biệt từ các nhà nghiên cứu, vì thế nguồn dữ liệu cho bài toán này khá dỗi dao và đa dạng về ngôn ngữ cũng như thách thức. Các bộ dữ liệu chúng tôi khảo sát được có thể tóm tắt
như sau:
ICDAR 2003 [40] là bộ đữ liệu này chứa 258 hình ảnh huấn luyện và 251 hình ảnh kiểm tra cho việc xác định vi trí văn ban đáng tin cậy.
ICDAR 2011441] là bộ dữ liệu này bao gồm 299 hình ảnh huấn luyện và 255 hình ảnh kiểm tra.
ICDAR 2013 [42] là bộ dữ liệu này chứa 1189 từ và 6393 chữ trong 462 hình ảnh.
Bao gồm 229 hình ảnh huan luyện và 233 hình ảnh kiêm tra. Bộ dir liệu này có những thách thức đáng ké chẳng hạn như hình ảnh văn bản phản chiếu, văn bản được viết trong ngữ cảnh phức tạp. Tuy nhiên, hạn chế của dữ liệu đó là tất cả văn bản chỉ bao gồm tiếng Anh và hau hết là nằm ngang, và được thu thập từ máy ảnh thông thương.
ICDAR 2015 [43] là một tập dữ liệu chứa tổng cộng 1500 hình ảnh, trong đó có 1000 hình ảnh được sử dụng cho quá trình huấn luyện và 500 hình ảnh được sử dụng cho quá trình kiểm tra. Tập dữ liệu này được gán nhãn ở cap độ từ và có tong cộng 17,548 mẫu từ. Tuy chỉ xem xét ở ngôn ngữ tiếng Anh, nhưng IC15 cũng tao ra nhiều thách thức rất lớn với các mô hình phát hiện văn bản. Thách thức của bộ dữ liệu ICDAR
2015 bao gồm da dạng về kích thước và độ phức tạp của văn bản, sự da dạng về kiểu chữ và kiểu chữ viết tay, nhiễu và méo mó trong hình ảnh, cùng với kích thước mẫu
và số lượng hạn chế.
39
CTW-1500 [44] là một tập dữ liệu gồm 1500 hình ảnh được thu thập từ các thư viện
mở và thu thập từ bằng camera điện thoại. Tổng cộng, bộ dữ liệu có 10,751 hộp giới hạn với 3,530 hộp giới hạn cong. Đặc biệt với mỗi ảnh, sẽ có ít nhất sự xuất hiện của một văn bản cong. Trong bộ dữ liệu này, đối tượng văn bản được thu thập chủ yếu là tiếng Trung và tiếng Anh
4.1.2. Dữ liệu thực nghiệm
Vì thời gian giới hạn cũng như thiếu nguồn tài nguyên để huấn luyện, chúng tôi đã quyết định chọn tap dé liệu ICDAR2015 làm tập dữ liệu huấn luyện và kiểm tra cho nghiên cứu của mình. Đây là một tập dữ liệu chuẩn được cung cấp bởi Hội nghị Quốc tế về Phân tích và Nhận dạng Tài liệu (ICDAR). Tập dữ liệu này đã nhận được sự đánh giá cao về tính đa dang và phức tạp.
Tập dữ liệu ICDAR2015 bao gồm 1000 hình ảnh huấn luyện và 500 hình ảnh kiểm tra, mỗi hình ảnh có độ phân giải 720 x 1280 điểm ảnh. Những hình ảnh này được lấy từ nhiều cảnh thường ngày và được chú thích bằng các hộp văn bản có hướng. Điều này tạo ra một nền tảng huấn luyện mạnh mẽ cho mô hình của chúng
tôi.
Hình 4.1 Minh họa văn bản và nhãn thực cua văn bản trong bộ dit liệu ICDAR-
2015
40
4.2. Các tiêu chí đánh giá
4.2.1 Intersection over Union (IoU)
Độ đo IoU giúp đánh giá độ chính xác của hệ thống phát hiện văn bản trong cảnh trong việc xác định vị trí chính xác của vùng chứa văn bản. IoU được tinh bằng
cách chia diện tích giao của hai vùng cho diện tích hợp cua chúng. Khi giá trị loU
càng cao, điều đó chỉ ra rằng vùng phát hiện và vùng thực tế trùng khớp tốt hơn.
GTAnDTA GTAUDTA
IOU = (4.1)
Trong đó:
- GTA: Diện tích thực tế của vùng văn bản.
- DTA: Diện tích dự đoán của vùng văn bản.
N
Diện tích giao của hai ving lou =— g gDiện tích giao của hai vin,
Diện tích hợp của hai ving
Diện tích hợp của hai ving
Hình 4.2 Minh họa pháp tính IOU
4.2.2. TP (True Positive), FP (False Positive) va FN (False Negative)
Trong bài toán phát hiện văn ban trong hình anh (scene text detection), các
thuật ngữ TN, FN, TP, FP được định nghĩa như sau, trong đó một bounding box là
đến từ dự đoán của mô hình và một bounding box khác đến từ ground truth:
41
- TP (True Positive): Là các dự đoán mà có giá trị IoU so với ground truth lớn
hơn hoặc bằng một ngưỡng nào đó (thường là 0.5). Điều này có nghĩa là mô
hình đã dự đoán chính xác vị trí của văn bản.
- FP (False Positive): La các dự đoán mà có giá trị loU so với ground truth nhỏ
hơn ngưỡng. Điều này có nghĩa là mô hình dự đoán văn bản ở nơi không có
văn bản.
- FN (False Negative): La các ground truth mà không có dự đoán nao có giá tri
IoU lớn hon hoặc bằng ngưỡng. Điều nay có nghĩa là mô hình không dự đoán
được văn bản ở những nơi thực sự có văn bản.
4.2.3. Precision
Độ đo Precision cho biết khả năng của hệ thống phát hiện văn bản trong cảnh trong việc xác định chính xác các vùng chứa văn bản. Nó tính toán tỷ lệ giữa số lượng vùng chứa văn bản được phát hiện chính xác và tổng số vùng chứa văn bản được phát hiện. Khi giá trị Precision càng cao, điều đó chỉ ra rằng hệ thống có khả năng xác định văn bản chính xác hơn và có thé đảm bảo tính toàn vẹn và độ tin cậy trong việc
xử lý và trích xuất thông tin.
ba. True Positive
Precision =———————————— (4.2)
True Positive + False Positive
4.2.4 Recall
Độ do Recall cho biết khả năng của hệ thống phát hiện văn bản trong cảnh trong việc tìm ra tất cả các vùng chứa văn bản có trong hình ảnh. Nó tính toán tỷ lệ giữa số lượng vùng chứa văn bản được phát hiện chính xác và tổng só vùng chứa văn bản trong tập dữ liệu. Khi giá trị Recall càng cao, điều đó chỉ ra rằng hệ thống có khả năng nhận diện toàn bộ các vùng chứa văn bản tốt hơn giúp đảm bảo tính đáng tin cậy và hiệu suất của hệ thống trong việc xử lý và phân tích văn bản trong cảnh.
True Positive
5 TTT 3
Recall True Positive+False Negative 43)
42
4.2.5. Hmean
Độ đo Hmean là một chỉ số tổng hợp giữa Precision và Recall, giúp đánh giá tổng quan hiệu suất của hệ thống phát hiện văn bản trong cảnh. Hmean được tính toán bằng giá trị trung bình điều hòa của Precision và Recall. Khi giá trị Hmean cao, điều
đó chỉ ra rằng hệ thống có khả năng kết hợp cả khả năng xác định chính xác và tìm
ra toàn bộ các vùng chứa văn bản.
2x Precision x Recall
Hmean =Z————— (4.4)
Precision + Recall
Độ do Hmean giúp đưa ra một con số tổng quan về hiệu suất, giúp chúng ta có cái nhìn toàn diện về khả năng của hệ thống.
4.2.6 FPS
Độ do FPS cho biết khả năng xử ly thời gian thực của hệ thống phát hiện văn bản trong cảnh. FPS cho biết số lượng khung hình mà hệ thống có thể xử lý trong một giây. Khi giá trị FPS càng cao, điều đó chỉ ra rằng hệ thống có khả năng xử lý nhanh chóng. Việc bảo đảm tiêu chuẩn về độ đo FPS rất quan trọng trong các hệ thống thời
gian thực như các ứng dụng nhận dạng văn bản từ ảnh, nhận dạng khuôn mặt, và trích
xuất thông tin từ hình ảnh.
4.3. Cài đặt chỉ tiết
4.3.1. CLIPResNet backbone
Kiến trúc của mô hình chúng tôi dựa trên hai thành phần quan trọng:
CLIPResNet và Cascade Double Head Mask RCNN.
CLIPResNet backbone, một phiên bản của mô hình ResNet, được thiết kế đặc biệt cho mô hình Contrastive Language-Image Pretraining (CLIP). Kiến trúc này được tạo ra một cách kỹ lưỡng để trích xuất các đặc trưng hình ảnh mạnh mẽ từ các hình ảnh đầu vào, sau đó được sử dụng cho nhiệm vụ phát hiện văn bản trong cảnh. CLIPResNet backbone được khởi tạo với trọng số của mô hình oCLIP, như trong
43
Hình 1, đã được tiền huấn luyện trên một tập dữ liệu toàn diện. Giai đoạn tiền huấn luyện này trang bị cho backbone khả năng hiểu sâu về đữ liệu hình ảnh và văn bản,
từ đó nâng cao khả năng trích xuất các đặc trưng liên quan từ hình ảnh văn bản.
Trong thiết kế ResNet truyền thống, một lớp max pooling được đặt ở cuối phần tiền xử lý đầu vào (một loạt các phép tích chập và lớp kích hoạt dé trích xuất các đặc trưng). Tuy nhiên, kiến trúc CLIPResNet thay thế lớp max pooling này bằng lớp average pooling. Sự thay đổi này điều chỉnh chiến lược kiến trúc phù hợp với kiến
trúc được sử dụng trong mô hình CLIP.
Về cấu trúc bottleneck, CLIPResNet giới thiệu một sự thay đổi đáng chú ý.
Sau lớp tích chập thứ hai trong bottleneck của CLIPResNet, một lớp average pooling
bổ sung được tích hợp. Lớp này, có kích thước kernel là 2 và bước nhảy (stride) là 2,
được thêm vào khi bước nhảy đầu vào vượt quá 1. Khác với thiết kế ResNet truyền
thống, bước nhảy cho mỗi lớp tích chập trong CLIPResNet được đặt là 1 một cách
nhất quán. Điều nay đại diện cho sự khác biệt đáng ké so với cầu trúc bottleneck của
mô hình ResNet truyền thống.
4.3.2. Huấn luyện và triển khai mô hình
Huấn luyện mô hình của chúng tôi được thực hiện trong hai giai đoạn: tiền huấn luyện và tỉnh chỉnh. Trong giai đoạn tiền huấn luyện, backbone CLIPResNet được huan luyện trên tập dữ liệu SynthText bằng mô hình oCLIP. Quá trình này giúp backbone học một tập hợp đa dạng các đặc trưng hữu ích để hiểu cả dữ liệu hình ảnh
và văn bản. Trong giai đoạn tỉnh chỉnh (finetune), toàn bộ hệ thống, bao gồm
backbone CLIPResNet và Cascade Double Head Mask RCNN, được tinh chỉnh trên
tập dữ liệu ICDAR2015. Quá trình tinh chỉnh này giúp mô hình thích nghi với nhiệm
vụ cụ thé của việc phát hiện văn bản trong cảnh, từ đó cải thiện hiệu suất của nó trên
nhiệm vụ này.
Toàn bộ mô hình của chúng tôi được cài đặt bằng framework PyTorch. Mô hình được huấn luyện trên một máy tính trang bi GPU NVIDIA Tesla V100. Các tỷ
lệ học (learning rates) cho giai đoạn tiền huấn luyện và tinh chỉnh được đặt là 1e — 4
44
và 2e — 3 tương ứng. Số epoch cho giai đoạn tiền huấn luyện và tinh chỉnh được đặt
là 100 và 160 tương ứng. Kích thước batch_size được đặt là 32.
Việc triển khai mô hình trên cơ sở kiến trúc CLIPResNet va Cascade Double Head Mask RCNN đã đạt được kết quả ấn tượng trong việc phát hiện văn bản trong cảnh. Sự kết hợp của các thành phan này, cùng với quá trình huấn luyện và tinh chỉnh cần thận, đã mang lại hiệu suất cao và khả năng tổng quát tốt cho mô hình. Kết quả này đóng góp đáng kề cho lĩnh vực phát hiện văn bản trong cảnh và mở ra nhiều triển vọng cho các ứng dụng thực tế.
4.4. Kết quả thực nghiệm, đánh giá và bàn luận
Bảng 4-1 So sánh hiệu suất của các phương pháp phát hiện văn bản trong bối cảnh.
Phương pháp P R H |EPS | Params | FLOPS
PANet [24] 84.55 | 73.23 | 78.48 | 32 | 24.809M | 52.004G PSENet [25] 83.96 | 76.36 | 79.98 | 14.4 | 29.216M | 0.133T TextSnake[26] 82.6 | 84.9 | 80.4 | 10.8 | 36.356M | 54.303G MaskRCNN [27] 86.44 | 77.66 | 81.82 | 16.1 | 44.396M | 0.25T DBNet [28] 87.44 | 82.76 | 85.04 | 29.6 | 25.41M | 46.254
G FCENéet [29] 82.43 | 88.34 | 85.28 | 8 | 26.256M | 40.746
G DBNet DCN [28] 87.84 | 83.15 | 85.43 | 28.2 | 26.281M | 35.528G Dynamic-Mask RCNN | 79.87 | 76.22 | 78.00 | 14.5 | 63.814M | 1.720T
[45]
Cascade-MaskRCNN | 82.85 | 81.9 | 82.37 | 16.1 | 77.325M | 1.814T
[30]
Clip Cas-Dou Mask- 90.03 | 83.77 | 86.78 | 14 | 81.317M| 1.997T
RCNN (Ours)
Bang 4.1 cung cấp một cái nhìn tổng quan về kết quả thu được từ thực nghiệm của chúng tôi, dựa trên precision (P), recall (R) và H-mean score (H). Trong phần này, chúng tôi tiến hành phân tích so sánh kết quả này với các phương pháp tiên tiến hiện có và đưa ra một diễn giải sâu sắc về ý nghĩa của các phát hiện của chúng tôi.
Để phù hợp hơn với các hệ thống tính toán trong thực tế, thay vì Tesla P100, tất cả
45
các cuộc thử nghiệm và đánh giá trong nghiên cứu này được thực hiện bang GPU RTX2080ti - một cau hình phần cứng thường được tìm thấy trong các hệ thống tính
toán thông thường.
Được đánh giá trên bộ dữ liệu thách thức ICDAR2015, mô hình của chúng tôi
cho thấy hiệu suất vượt trội. Nó đạt được tỷ lệ precision ấn tượng là 90,03%, tỷ lệ recall là 83,05% và điểm H-mean là 86,5%. Như được minh họa trong Bảng 4.1, mô hình của chúng tôi rõ ràng vượt trội hơn hệ thống cơ sở Cascade Mask R-CNN, thé hiện sự cải thiện đáng kế về precision (>7,18%), recall (>1,15%) và H-mean (>4,13%). Mặc dù điểm Recall không phải là cao nhất, nhưng phương pháp của chúng tôi vẫn cho kết quả cạnh tranh. Hơn nữa, điểm H-mean vượt trội, đại diện cho một phép đo cân bằng giữa precision và recall, cho thấy sự thành thạo của mô hình chúng tôi ở cả hai chỉ số - một yêu cầu cần thiết cho các ứng dụng thực tế. Sự tiễn bộ này
về hiệu suất nhắn mạnh tính hiệu quả của những cải tiền mà chúng tôi dé xuất, cụ thé
là sự kết hợp của pretrained backbone CLIP-ResNet và phương pháp tăng cường dữ
liệu STRAug vào mô hình Cascade Double Head Mask R-CNN cho việc phát hiện
văn bản.
Khi đánh giá kết quả trong ngữ cảnh của các phương pháp khác được công nhận, Cas-Dou Mask-RCNN và Clip Cas-Dou Mask-RCNN nổi bật hơn rất nhiều.
Giá trị khung hình trên từng dây (Frame Per Second) của các phương pháp của chúng
tôi, trong khi thấp hơn một số phương pháp tốc độ cao như PANet và DBNet, nhưng không phải là thấp nhất trong bảng, vẫn vượt qua FCENet, hoạt động ở 8 FPS. Quan trong là cần nhân mạnh một lần nữa rang ứng dụng thực tế thường đòi hỏi một sự cân bằng tốt giữa tốc độ và độ chính xác, và các phương pháp của chúng tôi ưu tiên yếu
tố sau.
Về độ phức tạp tính toán, như được chỉ ra bởi thông số FLOPS, các phương pháp của chúng tôi năm ở ngưỡng phạm vi cao hơn của thang đo, với Clip Cas-Dou Mask-RCNN ở mức 1,997TFLOPs. Tuy nhiên, các chỉ số này đại điện cho độ phức tạp của mô hình chứ không phải tốc độ thực thi một cách trực tiếp. Gia trị FLOPS và
46
độ chính xác cao cho thấy mô hình của chúng tôi, mặc dù phức tạp tính toán, có khả năng mang lại kết quả chính xác cao, có lẽ do khả năng xử lý các hoạt động phức tạp hơn. Khi các đơn vị xử lý và bộ gia tốc phần cứng tiếp tục tiễn bộ, tính phức tạp tính
toán như vậy sẽ trở nên ít hạn chê hơn.
Xem xét chỉ số Params, các phương pháp của chúng tôi có nhiều tham số hơn hầu hết các phương pháp khác, cho thay các mô hình phức tạp hơn với nhiều tham số hon dé học. Tuy nhién, voi số lượng tham số dé học lớn hơn, các mô hình của chúng tôi có khả năng hiểu được các mẫu tinh vi hơn từ dữ liệu, điều này có thé đóng góp vào hiệu suất vượt trội về precision và H-mean. Mặc dù các mô hình này phức tạp hơn và có thê đòi hỏi nhiều tài nguyên tính toán hơn, sự cải thiện về kết quả hiệu suất
có thê được đánh đổi cho sự gia tăng độ phức tạp này.
47
(a) PSENet (b) TextSnake
(c) DBNet-DCN (đ) Clip Cas-Dou Mask-RCNN
Hình 4.3 Minh hoạ kết quả của các phương pháp trên ảnh bối cảnh trong bộ dữ liệu