Chương 4. Thí nghiệm và kết quả
5.3. Tiền xử lý ảnh sau khi phát hiện vùng chứa văn bản
5.3.1. Ví dụ kết quả khi áp dụng Tesseract cho nhận diện kí tự sau
100
150
200
0 25 50 T5
Hình 5.5.a: Kết quả nhận diện kí tự Kết qua: FE ORMT SEC. MoTPSREEDE!.
Kết qua: ... ENA 7
36
5.4.
100
150
200
250
0 50 100 150 200
Hinh 5.5.b: Két qua nhan dién ki tu Kết quả: 5‡22!!
Kết quả: 2 2...€ 5 Sƒ-f3T < ÁZE£#& 2 CÍ-ZRL\0*2 A Kit
TUT 4a
Ket quả và nhận xét
Mặc dù khi áp dung Tesseract cho bài toán nhận diện kí tự trong Manga
một cách trực tiếp thì không khả thi, cho kết quả rất tệ nhưng sau khi thực hiện một vài bước xử lý ảnh thì ta hoàn toàn có thể áp dụng Tesseract vào bước nhận diện kí tự mà vẫn đảm bảo được độ chính xác. Vì sau những bước xử lý
ảnh đó đã đưa những vùng chứa văn bản đã được phát hiện trong trang truyện
khi dự đoán qua mô hình YOLOv3 đã đưa những vùng đó thành vùng lý tưởng
bao gồm kí tự và nền trống phù hợp cho Tesseract có thé nhận diện kí tự một
cách chính xác.
Trong bài toán này ta sử dụng độ đo là độ chính xác (accuracy) dé đánh
giá với cách tính của độ chính xác (accuracy) là băng tông sô văn bản được
37
nhận dạng chính xác với văn bản được xem là nhận dạng chính xác khi vùng
chứa văn bản được nhận dạng với tong ki tu sau khi nhan dién ki ty tring hoan toàn với các kí tự trong tập nhãn, chia cho téng số vùng văn bản được đánh giá (tổng số vùng văn bản đánh giá trên tập thử nghiệm bao gồm 12.542 vùng
chứa văn bản). Với cách tính này thì sau khi ta thực hiện các bước xử lý ảnh này thì độ chính xác đã cải thiện rõ rệt.
Phương pháp Độ chính xác (accuracy)
Tesseract trước khi xử lý anh 1.5%
Tesseract sau khi sử dụng phương 36.32%
pháp đề xuất Bảng 5.1: Hiệu suất nhận diện kí tự trên bộ dữ liệu Manga109 sử dung Tesseract
Tại đây chúng tôi đánh giá hiệu suất nhận diện kí tự dựa trên độ chính xác (accuracy). Tại khóa luận này chúng tôi đề xuất một vài phương pháp xử
lý ảnh để có thể xóa nền trong các vùng chứa văn bản giúp cho Tesseract dễ dàng nhận diện kí tự hơn. Chúng tôi sử dụng bộ dữ liệu Mangal09 dé thử
nghiệm phương pháp này và đánh giá trên tập thử nghiệm tại chương 4. Bảng
5.1 cho thấy hiệu suất của nhận điện kí tự chúng tôi so sánh phương pháp sử dụng trực tiếp kết quả phát hiện vùng chứa văn bản áp dụng vào Tesseract dùng dé nhận diện và chúng tôi tiến hành xử lý xóa nền kết quả phát hiện vùng chứa văn bản trước khi áp dụng vào Tesseract, như đã thé hiện trong bảng trên khi không tiến hành xử lý ảnh xóa nền thì độ chính xác là 1.5% và hầu như không thé nhận diện được bat kỳ kí tự nào, độ chính xác này đạt được có thé
vì Tesseract không phù hợp khi áp dụng lên nhận diện kí tự trong truyện tranh
khi chưa tiến hành xử lý nền vì những vùng chứa văn bản sau khi phát hiện chỉ là những vùng ảnh thô sơ trong trang truyện với nền có họa tiết gần giống như kí tự và các kí tự được viết dưới phông chữ cách điệu của truyện tranh nên Tesseract khó có thể tiến hành nhận diện kí tự một cách chính xác cao. Nhưng sau khi áp dụng phương pháp xử lý ảnh xóa nền đề xuất thì độ chính xác được
38
cải tiến rõ rệt từ 1.5% lên tới 36.32%. đây là một khoảng cách lớn điều này khang định là bước xử lý ảnh xóa nền do chúng tôi đề xuất là hoàn toàn có
hiệu quả.
Tuy bước đầu đạt được kết quả vượt trội so với sử dụng trực tiếp Tesseract, nhưng kha năng nhận diện kí tự còn nhiều hạn chế và độ chính xác
accuracy van còn thap.
e Dang 1: Nhận diện bi thừa kí tự.
ee scam
Sir et Sess >
Jd
ũ 50 100 150 200
Hình 5.6: Kết quả nhận diện kí tự bị thừa kí tự.
Kết quả: €#LÙ + 5ùEÊ#†f†f5†-ÊO*4 5 â40L9 42t 2ủ#š†14@_kI=— +“fʆt”*#4#l=CU# I
e Dạng 2: Nhận diện sai hoàn toàn kí tự có trong hình.
39
“19
120
0 25 50
Hinh 5.7: Két quả nhận diện kí tự sai hoàn toàn ki tự trong hình
Kết quả: Á¡ 5
e Dạng 3: những chữ nhỏ kế bên dé tác giả chú thích cho đoạn hội
thoại cũng bị nhận diện là kí tự.
150
200
0 50 100 150
Hình 5.8: Kết qua nhận diện kí tự bảo gồm cả những kí tự nhỏ kế bên.
40
Kết quả: FH ORMI SEC. MoTPSREEDE!
e Dang 4: nhận diện những sai những ky hiệu đặc thù thành ki tự van
bản Nhật Bản.
0
20
11? \
: ee
80
0 20 40 60 80
Hình 5.9: Kết quả nhận diện sai ký hiệu đặc biệt thành kí tự
Kết quả: = ằ
41