Sự khó khăn của ứng dụng nhận dạng ký tự trongvideo chính là quá trình nhận dạng theo thời gian thực, bởi vì video là tập hợp của nhiều ảnh tĩnh và ứng dụng phải xử lý các ảnh tĩnh sao c
Trang 2DANH MỤC CÁC HÌNH VẼ
DANH MỤC CÁC BẢN!
LOI CẢM ƠN
CHƯƠNG | - MỤC TIÊU CUA DE TA
CHƯƠNG 2 - TONG QUAN VE NHAN DANG KÝ TỰ TRONG VIDE(
2.1 Nhận dạng trên tài liệu được quét hoặc được chụp ảnh vào máy tính 9 2.2 Nhận dạng ký tự trên video weld
CHUONG 3 - ĐỀ XUẤT PHƯƠNG PHÁP TÁCH CHỮ MỚI TRONG VIDEO II
3.1 Các kết quả rút trích văn bản trong video đã có ll3.2 Giai đoạn 1: Gộp các ký tự gần nhau trên một đường thẳng thành một từ ứng
viên 12
3.3 Giai đoạn 2: Giữ lai các từ đã tôn tại trong một sô lượng khung hình 14
CHƯƠNG 4 - XỬ LÝ TỪ UNG VIÊN TRƯỚC VÀ SAU KHI TESSERACT
NHẬN DẠNG 17
4.1 Đặt 17
4.2 Tiền xử lý trước khi chuyền các từ ứng viên dé Tesseract nhận dang 7
4.3 Hậu kiểm kết quả nhận dạng của Tesseract 19
CHƯƠNG 5 - QUI TRINH DE XUẤT CHO VIỆC NHAN DẠNG KY TỰ TIENG
VIET TRONG VIDEO 12023
5.1 Qui trình thực hiện 235.2 Phan lấy khung hình video .23
5.3 Phần Tiền xử lý 24
5.3.1 Các khó khăn trong việc rút trích thông tin văn bản trong video 24
5 Cai thiện chất lượng các cạnh của ảnh bằng kỹ thuật tạo Mặt nạ không
sắc nét (Unsharp Mask) 24
5.3.3 Cân bằng lược đồ ảnh (Histogram Equalization .26
5.3.4 Làm mờ Gauss (Gaussian smooth) .27
5.3.5 Sử dụng biểu diễn kim tự tháp của ảnh (Image pyramid) 295.4 Vấn đề dấu của Tiếng Việt .32
5.5 Phần tìm vị trí của văn bản Tiếng Việ
Trang 3.42 42
42
.44
44
5.7 Phan nhận dang
5.7.1 Xử ly từ ứng viên trước khi nhận dang
5.7.2 Hậu kiểm kết quả nhận dạng
Trang 5Hình 3.1 Khung hình chứa đường bao của các đối tượng Ty,
Hình 3.2 Khung hình ban dau (trái), khung hình chứa đường bao (giữa) và khung
hình chứa các ký tự đã được gộp thành từ (phải) „13
Hình 3.3 Template matching — Nguồn Learning OpenCV welHình 3.4 Khung hình ban dau (trái), khung hình chứa các ký tự đã được gộp thành
từ (giữa) và khung hình chứa các từ ứng viên được giữ lại (phải) 16
Hình 4.1 Kết quả sai chính tả của Tesseract .20
Hình 5.1 Qui trình thực hiện ứng dụng nhận dang ký tự Tiêng Việt trong video 23
Hình 5.2 Kỹ thuật lọc bằng mặt nạ không sắc nét - Nguồn homepages.inf.ed.ac.uk
.25
Hình 5.3 Tín hiệu gôc được tăng cường băng kỹ thuật tạo mặt nạ không sac nét
-Nguồn homepages.inf.ed.ac.uk
-Hình 5.4 Khung hình trước (trái) và sau khi đã được áp dụng kỹ thuật
UnsharpMask (phải) trong ứng dụng
Hình 5.5 Điều chỉnh lược đồ xám của ảnh — Nguồn en.wikipedia org,
Hình 5.6 Khung hình trước (trái) và sau khi sử dung kỹ thuật cân bằng lược đồ xám (phải) trong ứng dụng .27
Hình 5.7 Phân bố Gauss 1-chiéu có trung bình tại x
homepages.inf.ed.ac.uk 28Hình 5.8 Phân bố Gauss 2-chiều có trung bình tại diém (0, 0) và ø - Nguồn:
Hình 5.11 Biểu diễn kim tự tháp của ảnh
Hình 5.12 Khung hình ban đầu (trái) và khung hình s sau u khi đã biên đôi nhỏ hơn
trong kim tự tháp ảnh (phải)
Hình 5.13 Khung hình sau khi đã biên đôi nhỏ hơn (trái) và khung hình được phục
hồi lại kích thước cũ (phải) „32Hình 5.14 Ảnh gốc (trái) sau khi đã làm mờ và ảnh kết quả của việc áp dụng toán
tử sobel (phải) 34Hình 5.15 Ảnh chứa biên độ gradient (trái) và anh sau khi dò biên cục bộ (phải) 35
Hình 5.16 Anh sau khi dò biên cục bộ (trái) và ảnh sau khi phân ngưỡng (phải) 35
Hình 5.17 Ảnh sau khi phân ngưỡng (trái), ảnh giữa chứa biên dư thừa, ảnh phải là
ảnh hoàn chỉnh = Ö„36
Trang 6Hình 5.20 Khung hình được phân hoạch và xếp các đường bao vào phân hoạch 39Hình 5.21 Khung hình sau khi sàn lọc tỉnh
Hình 5.22 Khung hình trước (trái) và sau khi đã
(phải) trong ứng dụng
Hình 5.23 Khung hình trước (trái) và sau khi giữ lại các từ ứng viên tôn tại trongmột số lượng khung hình cho trước trong ứng dụng dHình 5.24 Khung hình trước (trái) và sau khi (phải) hoàn chỉnh quá trình ni dạng
Hình 6.1 Khung hình của video sô 1
Hình 6.2 Khung hình của video s
Hình 6.3 Khung hình của video sô
Hình 6.4 Khung hình của video si
Hình 6.5 Khung hình của video số
Hình 6.6 Khung hình của video số
Hình 6.7 Khung hình của video sô 7
Hình 6.8 Menu của ứng dụng
Hình 6.9 Giao diện chính của ứng dụng
Trang 7Bảng 4.1 So sánh giữa có sử dung entropy thông tin và phóng to từ ứng viên dé
tăng độ chính xác của Tesseract và không có sử dụng entropy và không phóng to từ ứng viên
Bảng 4.2 So sánh kêt quả giữa có sử dụng hậu kiêm băng nHunspell và không có
hậu kiểm bằng nHunspell
Bảng 6.1 Tỉ lệ chữ cắt được so với chữ có trong khung hình của ứng 5 dụng
Bang 6.2 Kết quả nhận dạng chính xác tong hợp của ứng dụng
Bang 6.3 Ti lệ chữ cắt được so với chữ có trong khung hình của video si
Bảng 6.4 Kết quả nhận dạng của video sos
Bang 6.5 Ti lệ chữ cắt được so với chữ có trong khung hình c
Bảng 6.6 Két quả nhận dạng của video số 2
Bảng 6.7 Tỉ lệ chữ cắt được so với chữ có trong khung hình của video
Bảng 6.8 Kết quả nhận dang của video số 3
Bảng 6.9 Tỉ lệ chữ cắt được so với chữ có trong khung hình của video sô 4
Bảng 6.10 Kết quả nhận dạng của video số 4
Bảng 6.11 Tỉ lệ chữ cắt được so với chữ có trong khung hình của video số 5
Bảng 6.12 Kết quả nhận dạng của video số 5
Bảng 6.13 Tỉ lệ chữ cắt được so với chữ có trong khung hình của video
Bảng 6.14 Kết quả nhận dạng của video số 6
Bang 6.15 Ti lệ chữ cắt được so với chữ có trong khung hình của video số 7
Bảng 6.16 Kết quả nhận dạng của video số 7
Trang 8nhận dạng ký tự trong ảnh tĩnh Sự khó khăn của ứng dụng nhận dạng ký tự trong
video chính là quá trình nhận dạng theo thời gian thực, bởi vì video là tập hợp của
nhiều ảnh tĩnh và ứng dụng phải xử lý các ảnh tĩnh sao cho độ trễ (nếu có) do ứng
dụng gây ra là chấp nhận được
Luận văn “Nhận dạng ký tự Tiếng Việt trong video” có nội dung xây dựngmột ứng dụng có thể nhận dạng ký tự Tiếng Việt trong video Tuy vẫn còn nhiềuhạn chế, song ứng dụng cũng phan nào cho thấy kết quả khả quan và hướng đi đúng
của phương pháp được sử dụng trong ứng dụng.
Tác giả xin chân thành cảm ơn TS Phan Đạt Phúc, là giảng viên hướng dẫn đề
tài cho tác giả, thầy đã dành nhiều thời gian quý báu, và rất nhiệt tình trong việctruyền đạt kiến thức về xử lý ảnh cũng như rất chân thành trong việc giải đáp thắc
mắc cho tác giả
Tiếp đến, tác giả xin cảm ơn các quý thầy/cô của Phòng Sau Đại học, Trường
Đại học Công nghệ thông tin đã tạo điều kiện, cung cấp thông tin kịp thời về thờigian và cách thức làm luận văn cũng như giải đáp các thắc mắc của tác giả
Cuối cùng, tác giả xin gửi lời kính chúc sức khỏe đến TS Phan Đạt Phúc cùngcác quý thầy/cô của Phòng Sau Đại học, Trường Đại học Công nghệ thông tin
Trang 9được phát triển, vì vậy chúng ta có thể lưu trữ nhiều đoạn video phục vụ cho nhu
cầu giải trí cũng như các mục đích các nhân khác Nội dung video là tập hợp các
hình ảnh cùng với âm thanh, từ đó phát sinh nhu cầu truy xuất nội dung của video.sang một định dạng điện tử khác đề có thể lưu trữ, chỉnh sửa, in ấn hoặc sử dụng kết
quả cho các ứng dụng khác.
Luận văn “Nhận dạng ký tự Tiếng Việt trong video” có hai mục tiêu chính:
1 Đề xuất một phương pháp tách chữ mới trong video nhằm mục đích rúttrích được văn bản trong video;
2 Đề xuất một qui trình nhận dạng hoàn chỉnh cho việc nhận dạng ký tựTiếng Việt trong video
Việc trích xuất thông tin trong video là một bước rất quan trọng của các bàitoán về xử lý video Như trong bài toán đánh chỉ mục video, đây là một bài toán
lớn, để có thể đánh chỉ mục video, ứng dụng xử lý phải “biết” được nội dung video
đang đề cập đến vấn đề gì Mặc dù đối với mỗi chúng ta, việc nhìn bằng mắt thường
có thé nhận biết được ngay nội dung video đang đề cập đến van dé gì, tuy nhiên,
việc đó đối với máy tính bước đầu tiên là phải rút trích thông tin trong video, sau đómới có thể quan tâm đến các bước xử lý tiếp theo
Vé kết quả cuối cùng, dé tài mong muốn đạt được như sau:
1 Két quả của phương pháp tách chữ đạt từ 90% trở lên;
2 Qui trình nhận dạng cho ra kết quả nhận dạng chính xác vào khoảng từ50% đến 60%
Kết quả được thử nghiệm trên bộ dir liệu tự tạo gồm có 140 khung hình (20khung hình trong 7 video).
Trang 102.1 Nhận dạng trên tài liệu được quét hoặc được chụp ảnh vào máy tính
Nhận dang ký tự quang học (OCR — Optical Character Recognition) (dựa trên
tài liệu tham khảo [21]) là quá trình chuyền đổi ảnh của tài liệu đã được quét hoặc
được chụp ảnh vào máy tính ở dạng viết tay, dạng in hoặc là một định dạng ảnh
thành dạng văn bản có thể đọc và chỉnh sửa trên máy tính
Nhận dạng ký tự trên tài liệu quét hoặc được chụp ảnh được sử dụng rộng rãi
như là một dạng thức nhập liệu từ một vài nguồn dữ liệu như: hộ chiếu, hóa đơn,
báo cáo của ngân hàng, biên lai, danh thiếp, phong bì thư, biển số xe, Day là
phương pháp phô biến trong việc số hóa tài liệu in sao cho tài liệu có thể được hiệuchỉnh, tìm kiếm, lưu trữ, kiểm tra trên máy tính nhằm phục vụ các mục đích như:
© Cho xem tài liệu trực tiếp ở định dạng số;
e Dịch máy (Machine translation);
Chuyén đổi van bản thành giọng đọc (Text-to-Speech);
e Nhận dạng biển số xe;
«Rút trích dữ liệu quan trọng như: trích xuất thông tin tự động từ hợp đồng
bảo hiểm, lấy thông tin từ danh thiếp dé nhập vào danh bạ điện thoại, ;
e Nhận dạng chữ viết tay theo thời gian thực dé chuyển đổi thành lệnh điềukhiển máy tính;
®© Khai mỏ văn ban (Text mining).
Phát triển các công nghệ trợ giúp cho người khuyết tật
Trang 112.2 Nhận dạng ký tự trên video.
Do sự phát triển của công nghệ truyền hình, video đã trở thành nguồn giải trí
chủ yếu Cùng với sự phát triển của Internet, người sử dụng có thể dễ dàng truy cập
đến các video đáp ứng yêu cầu của chính họ
Do vậy, việc tìm hiểu và rút trích thông tin từ video sẽ mở ra một con đường
mới cho các ứng dụng giá trị gia tăng trên các nội dung được rút trích từ video Nội
dung trong video bao gồm: âm thanh, hình ảnh, đồ thị, văn bản, là những thôngtin giúp cho chúng ta hiéu rõ video nhiều hơn
Đặc biệt, văn bản trong video cung cấp rất nhiều thông tin liên quan đến nội
dung của chính video Theo tài liệu tham khảo [7], văn bản trong video có hai dạng:
© Văn bản trong cảnh quay của video (scene text): đây là loại văn bản xuất
hiện khách quan tồn tại sẵn trong cảnh quay;
® Van bản nhân tao (artificial text): đây là loại văn bản được người biên tập
nhúng vào khung hình, nhằm thuyết minh thêm cho cảnh quay
Van bản nhân tạo được thêm vào trong khung hình có mục dich cụ thể nên vănbản nhân tạo có cau trúc hợp lý hơn và có mối liên hệ gần gũi hơn với nội dung của
cảnh quay.
Văn bản trong video là những thông tin hữu ích cho việc tạo chú thích tựđộng, đánh chỉ mục, tóm tắt thông tin Vì vậy, việc nhận dạng được ký tự trong
video trở thành phương tiện cho các ứng dụng sau:
© Tu động phân loại video nhằm phục vụ mục đích lưu trữ cũng như truy xuất
thông tin;
® Loại bỏ quảng cáo trong các bản tin hoặc phim;
e Đánh chỉ mục video phục vụ cho việc tìm kiếm;
© Tìm kiếm nội dung trùng lặp;
© Téng hợp thông tin trong video.
Trang 12CHUONG 3 - DE XUAT PHUONG PHAP TACH CHU
MỚI TRONG VIDEO
3.1 Các kết quả rút trích văn bản trong video đã có
Rút trích văn bản trong video rất quan trọng, do đó đã có nhiều phương phápnghiên cứu xuất hiện như:
Tai liệu tham khảo [7] giới thiệu các phương pháp phân tích kế cấu (texture
based) của vùng ảnh để rút trích văn bản hoặc sử dụng phương pháp dựa vào.các đặc trưng cạnh (edge based) của đối tượng với việc sử dụng SVM
(Support Vector Machinne) dé phân loại vùng ảnh nao là văn bản và vùng ảnh
nào không phải là văn bản;
Tai liệu tham khảo [15] sử dụng phương pháp “từ đỉnh-đến-đáy” valley) trên ảnh nhị phân để phân đoạn các ký tự trong biển số xe Phương
(peak-to-pháp này sử dụng phép chiếu đứng một ảnh thành một vector ngang có giá trị
là tổng các giá trị của pixel trong từng cột Sau đó đếm các pixel đen trongphép chiếu đề tìm chiều rộng của các ký tự trong biền số;
e Tài liệu tham khảo [18] sử dụng phương pháp vùng bao ngoài lớn nhất
(Extremal Region) dé rút trích văn bản Phương pháp này ban đầu sẽ chọn mộtvùng ảnh thường là vùng ảnh liên thông 4 làm “nhân” bắt đầu đáp ứng đượcmột ngưỡng cường độ sáng chọn trước.
Sau đó, các đối tượng mô tả (diện tích, vùng chữ nhật bao ngoài, chu vi, sốEuler, ) được tính toán để kiểm tra xem vùng đã chọn có phải có xác suất là
ký tự hay không đê từng bước mở rộng vùng ảnh.
Ving ảnh sau khi đã được mở rộng đến ngưỡng vùng bao ngoài lớn nhất sẽ
được phân loại xem có phải là vùng ký tự hay không.
© Tài liệu tham khảo [19] sử dụng phép chiếu từ-thô-đến-tinh (coarse-to-fine)
để rút trích vùng văn bản Ban đầu phép chiếu thô (coarse projection), sử dụng
Trang 13cả phép chiếu dọc và phép chiếu ngang, đề tìm vùng văn bản Tuy nhiên, ởbước này vùng văn bản chưa được tách dòng Tiếp đến, bước sử dụng phépchiếu tinh (fine projection), cũng sử dụng cả phép chiếu dọc và phép chiếu
ngang, đê tìm dòng văn bản.
Tuy nhiên, các phương pháp cắt chữ vừa nêu chỉ áp dụng cho Tiếng Anh Đốivới Tiếng Việt thì có ít phương pháp tách chữ trong video được nghiên cứu Do đó,luận văn “Nhận dạng ký tự Tiếng Việt trong video” đề xuất một phương pháp cắt
chữ mới trong video sử dụng biên của đối tượng trong khung hình và kỹ thuật tìm
vùng ảnh dựa vào ảnh mẫu (Template Matching).
Phương pháp tách chữ mới được đề xuất có hai giai đoạn:
1 Giai đoạn 1: Gộp các ký tự gần nhau trên một đường thang thành một
từ ứng viên sử dụng đường bao ngoài của các đối tượng trong khunghình;
2 Giai đoạn 2: Chỉ giữ lại các từ ứng viên ton tại liên tục trong n khunghình cho trước bằng kỹ thuật tìm vùng ảnh dựa vào ảnh mẫu
3.2 Giai đoạn 1: Gộp các ký tự gần nhau trên một đường thắng thành
Trang 14e _ l¡¿ là phân hoạch thứ i của khung hình;
© cj: là đường bao của đối tượng thứ j trong khung hình;
e _ r¡: là hình chữ nhật bao ngoài của đối tượng thứ j trong khung hình;
d: là khoảng cách giữa các đối tượng theo chiều ngang
"Thuật toán gdp các ký tự thành từ ứng viên:
e Bước 1: Duyệt qua từng phân hoạch l;;
¢ Bước 2: Duyệt qua từng đường bao c¡;
© Bước 3: Đánh dau phan diện tích theo hình chữ nhật r¡ của đường bao c¡;
© Bước 4: Tìm kiếm trong diện tích hình chữ nhật nằm liền kề bên trái củađường bao c¡ vừa xét có chiều rộng tương ứng là d:
Nếu có một đối tượng khác nằm trong khoảng cách d, chúng ta sẽ
đánh dấu phan diện tích với chiều rộng là khoảng cách d
Nếu không có đối tượng khác nằm trong khoảng cách d, thì bỏ
qua.
Duyệt đối tượng tiếp theo trong phân hoạch cho đến hết các đối
tượng trong ảnh theo bước 1.
e Bước 5: Lưu giữ các từ ứng viên đã tách được.
Hình 3.2 Khung hình ban đầu (trái), khung hình chứa đường bao (giữa) và khung hình chứa các ký tự đã được
gop thành từ (phải)
Trang 153.3 Giai đoạn 2: Giữ lại các từ đã tồn tại trong một số lượng khung hình
Kỹ thuật để kiểm tra sự tồn tại của vùng ảnh qua một số lượng khung hình
u tham
nhất định dựa vào kỹ thuật so khớp vùng ảnh (Template Matching (tài
khảo [6])) So khớp vùng ảnh là thao tác tìm kiếm vùng ảnh nhỏ trong ảnh lớn dựavào một ảnh mẫu
Ảnh mẫu sẽ được trượt trên toàn bộ ảnh đề tìm vùng trùng khớp nhất, kết quả
tìm kiếm sẽ được lưu trữ trong một ảnh đầu ra Nếu ảnh đầu vào có kích thước là M
x N, ảnh mẫu có kích thước là m x n thì ảnh kết quả có kích thước là (M — m +Dx(N—n+ 1).
Việc tìm kiếm không phải nhằm khẳng định là ảnh mẫu tổn tại hay không tồn
tại trong ảnh gốc, mà chỉ dé tính toán kết quả đầu ra tương ứng với các vùng ảnh màảnh mẫu được trượt qua Việc tính toán kết quả đầu ra dựa vào độ đo “khoảng cáchtrùng khớp” tại mỗi điểm ảnh của ảnh mẫu và ảnh gốc Ta ký hiệu ảnh đầu vào là I,
T là ảnh mẫu, R là ảnh kết quả tính toán, ta có các phương pháp tính độ đo “khoảng
cách trùng khớp” sau:
Trang 16© Phương pháp đo khoảng cách bằng bình phương của một hiệu các giá trị
điểm ảnh: Với phương pháp này, độ đo khoảng cách trùng khớp tốt nhất là 0
©_n là số lượng khung hình cho trước dé kiểm tra sự tồn tại của vùng ảnh ứngviên;
«- d là khoảng lệch nhau theo tung độ của vùng ảnh trong hai khung hình.
Trang 17Thuật toán tién hành giữ lại từ ứng viên:
© Bước 1: Lưu giữ thông tin của khung hình từ 1 đến n— 1;
© Bước 2: Nếu đến khung hình thứ n, thực hiện:
Bước 2.1: Duyệt qua từng từ ứng viên;
Bước 2.2: Ứng với mỗi từ ứng viên, dùng kỹ thuật so khớp để tìm sự tồntại của từ trong các khung hình từ n— 1 đến 1;
Bước 2.3: Nếu từ ứng viên có tồn tại trong khung hình ¡ và tung độ nằm
trong khoảng d thì ghi nhận sự xuất hiện của từ ứng viên;
Bước 2.4: Sau khi kiểm tra trong n — 1 khung hình, nếu từ ứng viên xuất
hiện trên 70% số lượng khung hình thì xem như từ ứng viên có thê chứavăn bản, ngược lại thì bỏ qua và xét tiếp từ ứng viên tiếp theo
® Bước 3: Trong từng phân hoạch giữ lại các từ ứng viên có khả năng chứa
văn bản và loại bỏ các từ ứng viên không chứa văn bản;
® Bước 4: Loại bỏ khung hình | và thêm khung hình n + | vào danh sách
khung hình kiểm tra và thực hiện tiếp bước 1 khi đến khung hình n + 1
Các bước kiểm tra sự tồn tại của từ ứng viên trong n khung hình tương tự nhưviệc sử dụng một cửa số trượt với chiều rộng là n khung hình Cửa sô có kích thướcđược chọn sẽ trượt qua các khung hình và kiểm tra sự tồn tại của từ ứng viên trong
khung hình cuối với các khung hình còn lại
Hình 3.4 Khung hình ban đầu (trái), khung hình chứa các ký tự đã được gộp thành từ (giữa) và khung hình chứa
các từ ứng viên được giữ lại (phải)
Trang 18CHƯƠNG 4 - XỬ LÝ TỪ ỨNG VIÊN TRƯỚC VÀ SAU
KHI TESSERACT NHẬN DẠNG
4.1 Đặt vấn đề
Các từ ứng viên sau đã được tách ra khỏi video ở bước 3.3 sẽ được chuyền choTesseract nhận dang Tesseract là một ứng dụng mã nguồn mở, có thê nhận dạngđược tiếng Việt Tuy nhiên sẽ xảy ra hai vấn đề sau đây:
1 Khả năng nhận dạng được vùng ảnh của Tesseract;
2 Sự chính xác về mặt chính tả của từ: do Tesseract nhận dang từng ký tựtrong từ ứng viên nên có thé dẫn đến kết quả nhận dạng sai chính tả của
cả từ.
Nếu vùng ảnh được chuyển cho Tesseract nhận dạng có độ tương phản không
tốt thì kết quả nhận dang sẽ không đúng Đồng thời, Tesseract có thể nhận dang
nhằm vùng ảnh Do đó, Luận văn đề xuất tiền xử lý trước khi chuyển Tesseractnhận dạng và hậu kiểm chính tả của từ nhận dạng được nhằm loại bỏ từ có chính tả
không đúng.
4.2 Tiền xử lý trước khi chuyển các từ ứng viên dé Tesseract nhận dangNhằm tăng độ nhận dạng chính xác của Tesseract, các từ ứng viên sẽ được
kiểm tra độ tương phản trước khi nhận dạng Nếu từ ứng viên có độ tương phản
chưa tốt thì từ sẽ được cân bằng lại lược đồ xám
Sau khi đã tăng kiểm tra độ tương phản, luận văn đề xuất phóng to vừa đủ từ
ứng viên lên gấp 4 lần kích thước ban đầu dé Tesseract nhận dạng tốt hơn
Luận văn sử dụng entropy thông tin dé kiêm tra độ tương phan của từ ứng viên
với công thức tính:
Trong đó:
Trang 19xác suât của cường độ sáng thứ ¡ trong lược đô xám của ảnh.
Gọi
e_ f là tổng tần số của các cường độ sáng trong một ảnh đa cấp xám;
e £14 tần số xuất hiện của giá trị cường độ sáng thứ i;
e p; là xác suât của giá trị cường độ xám thứ i trong lược đô xám của ảnh da
cấp xám Ta có:
¢ Bước 1: Tách vùng ảnh của từ ứng viên màu thành 3 vùng ảnh đa cấp xám;
© Bước 2: Ung với từng vùng ảnh da xp xám:
Bước 2.1: Tính tổng tần số f của vùng ảnh;
Bước 2.2: Tính xác suất của từng cường độ sáng p; = f/f;
Bước 2.3: Tính entropy = — ¥ p;logio(pi).
© Bước 3: Nếu entropy >= 5.00 (Giá trị thực nghiệm) thì từ ứng viên đượccân bằng lược đồ xám ngược lại thì không cân bằng;
© Bước 4: Từ ứng viên được phóng to lên gấp 4 lần;
© Bước 5: Chuyển từ ứng viên cho Tesseract nhận dạng
Có kiểm tra entropy thông tin và phóng to | Không có kiểm tra entropy thông tin và
lên 4 lần không phóng to
Số l Số Khung | SỐ chữ | s „nụ _ | chữ | Tilệ | Sốchữ | Số _ | chữ | TiiỆ
hình có hệ Độ | nhận | sai có chữ | Độ | nhận | sai
nhận ¿ h " , h
trong | Gang | phủ | dạng | chính | trong | nhận | phú | dang | chính
khung c8 (%) | sai tả | khung | dạng | (%) | sai tả hình = chính | (%) | hình | đúng chính | (%)
Trang 20Có kiểm tra entropy thông tin và phóng to | Không có kiểm tra entropy thông tin và
lên 4 lần không phóng to
trong | fang | phủ | dang | chính | trong | nhận | phủ | dạng khung | Ging | (%) | sai | tả | khung | dạng | (%) | sai hình chính | (%) | hình | đúng chính
Bang 4.1 So sánh giữa có sử dụng entropy thông fin và phóng to từ ứng viên dé tăng độ chính xác của Tesseract
và không có sử dụng entropy và không phóng to từ ứng viên
Nhận xét:
e Về độ nhận dang chính xác: tăng lên 72,25% so với không xử lý từ ứng
viên là 66%;
° Về ti lệ nhận dạng sai chính tả: có xử lý từ ứng viên thì tỉ lệ sai chính tả sẽ
thấp hơn (tỉ lệ là 1,1% so với không có xử lý từ ứng viên là 30%)
Kết luận: Từ ứng viên sau khi đã được xử lý sẽ có kết quả nhận dạng tốt hơn
4.3 Hậu kiểm kết quá nhận dạng của Tesseract
Do Tesseract nhận dạng từng ký tự trong từ ứng viên nên có thể dẫn đến kếtquả nhận dạng sai chính tả của cả từ.
Vi dụ:
Trang 21Hình 4.1 cho thấy kết quả nhận dang sai chính tả của Tesseract Trong đó,
Tesseract nhận dang sai chữ “lên”, “thật”, “tươi”.
Do đó, ứng dụng sử dụng thêm bộ kiểm tra chính tả nHunspell đê kiêm tra kếtquả nhận dạng của Tesseract nHunsell là phiên bản trên nền tảng NET của bộ kiểm
tra chính tả trong bộ phần mềm OpenOffice Do đó, nHunspell có thé sử dụng từ
điển của OpenOffice đề kiểm tra chính tả
Thứ tự ngôn ngữ kiêm tra từ điển lần lượt là Tiếng Anh sau đó đến Tiếng Việt,
số lượng từ Tiếng Anh là 62.118 từ và số lượng từ Tiếng Việt là Từ điển Tiếng Việt
có 6.631 từ Mô hình ngôn ngữ được sử dụng trong nHunspell là n-gram.
Tiến trình kiểm tra được tiến hành như sau:
© Bước 1: Với các chuỗi được nhận dạng từ Tesseract trong từng phân hoạch,ứng dụng sẽ loại bỏ dấu nháy kép (“);
© Bước 2: Cắt chuỗi với các dấu phân cách (dau chấm) và , (dấu phẩy) thành
một mảng các chuỗi con;
© Bước 3:
Nếu mảng chỉ có một chuỗi thì kiểm tra chính tả của chuỗi bằng từ điểnTiếng Anh, nếu không phải là từ Tiếng Anh thì sẽ kiểm tra bằng từ điềnTiếng Việt;
Trang 22Néu mảng có nhiều hơn một chuỗi con thì kiểm tra chính tả của mỗi
chuỗi con bằng từ điển Tiếng Anh, nếu không phải là từ Tiếng Anh thì sẽkiểm tra bằng từ điển Tiếng Việt;
© Bước 4:
Nếu mảng chỉ có một chuỗivào danh sách các chuỗi đã được nhận dạng;
à từ được nhận dạng chính xác lưu giữ từ
Nếu mảng có nhiều chuỗi con và tất cả các chuỗi con được nhận dạng
chính xác thì chuỗi ban đầu trước khi tách ở bước 2 sẽ được lưu giữ vào
danh sách các chuỗi đã được nhận dạng.
'Có kiểm tra nHunspell Không kiểm tra nHunspell
số số
Số Số chữ | Tile Số Số chữ | Tile Khung | chữ | chữ | nhận | sai | chữ | chữ | nhận | sai hình nhận | nhận | dạng | chính | nhận | nhận | dạng | chính
dạng | dạng | sai tả | dạng | dạng | sai tả được | đúng | chính | (%) | được | đúng | chính | (%)
Trang 23'Có kiểm tra nHunspell Không kiểm tra nHunspell
Số Số
Số Số chữ | Tile | Số Số chữ Khung | chữ | chữ | nhận | sai chữ | chữ | nhận hình nhận | nhận | dạng | chính | nhận | nhận | dạng
dạng | dạng | sai tả | dạng | dạng | sai được | đúng | chính | (%) | được | đúng | chính
tả tả
19 6 6 0 0 8 6 2 25
20 7 7 0 0 8 7 1 l3
Kết quả Il 24,35 Bảng 4.2 So sánh kết quả giữa có sử dung hậu kiểm bằng nHunspell và không có hậu kiểm bằng nHunspell
Kết luận: việc hậu kiểm bằng nHunspell giúp giảm đáng kể tỉ lệ từ sai chính
tả (tỉ lệ 1,1%) so với không có hậu kiểm bằng nHunspell (ti lệ 24,35%)
Trang 24CHUONG 5- QUI TRINH DE XUAT CHO VIEC
NHAN DANG KY TU TIENG VIET TRONG VIDEO
i Tach ving van t l
Ti lý t ứng vit H Trích chọn đã tên xy tring bản ứng viên ra Je veh chọn đặc
Hình 5.1 Qui trình thực hiện ứng dụng nhận dạng ký tự Tiếng Việt trong video.
5.2 Phần lấy khung hình video
Video là tập hợp các ảnh tĩnh, vì vay để rút trích được nội dung trong video,chúng ta phải xử lý từng khung hình của video.
Việc đọc từng khung hình của video được thực hiện thông qua thư viện
EmguCV EmguCV là thư viện chứa các lớp đối tượng bao bọc (Wrapper) thư viện
OpenCV cho phép các hàm của thư viện OpenCV được gọi từ các ngôn ngữ lập
trình trong môi trường NET như: C#, VB, VC++, IronPython,
EmguCV được viết hoàn toàn bằng ngôn ngữ lập trình C# và được biên dịchtrên nền tảng Mono, là một dự án NET mã nguồn mở đa nền tảng Vì vậy,
EmguCV có thể chạy được trên các nền tảng hệ điều hành có hỗ trợ Mono như:
Windows, Linux, Mac OS, iOS va Android.
Trang 255.3 Phan Tiền xử ly
5.3.1 Các khó khăn trong việc rút trích thông tin văn ban trong video
Dựa trên tài liệu tham khảo [7] thì việc rút trích thông tin văn bản từ video gặp
các khó khăn như sau:
© Video có độ phân giải thấp;
e Văn bản nhân tạo được nhúng vào khung hình với nền có nhiều chỉ tiếtphức tạp khiến cho việc tách biệt văn bản khỏi nền gặp khó khăn;
Van bản có nhiều kích cỡ và kiểu chữ khác nhau;
© Văn bản có nhiều ký tự dính vào nhau;
© Video có sự thay đổi về độ tương phản và độ sáng;
© Chất lượng tín hiệu của video phụ thuộc vào nguồn phát như: video được
lưu trữ trên máy tính, video được phát quảng bá thông qua vệ tinh hoặc thông
qua cáp, video được tải về hoặc đang xem trực tuyến từ Internet;
e_ Yêu cầu xử lý thời gian thực cho việc trích xuất văn ban;
© Các văn bản chuyển động trong video như trong các chương trình về thờitiết, thông tin chứng khoán, bản tin cập nhat, đặt ra nhiều khó khăn trongvấn đề định vị văn bản
Nhằm giải quyết một số hoặc tat cả các khó khăn đã nêu, ứng dụng cần các kỹ
thuật tiền xử lý đủ mạnh để nâng cao chất lượng văn bản trong video nhằm giúp cho
các bước xử lý tiếp theo của qui trình trong Hình 5.1 được thực hiện dé dàng hơn
5.3.2 Cai thiện chất lượng các cạnh của ảnh bằng kỹ thuật tạo Mặt nạ
không sắc nét (Unsharp Mask)
Kỹ thuật tạo mặt nạ không sắc nét (dựa trên tài liệu tham khảo [13]) là toán tử
xử lý ảnh giúp làm rõ nét các cạnh trong ảnh (hoặc các thành phần có tần số cao
trong ảnh) Mặt nạ cạnh được tạo bằng cách trừ ảnh gốc với phiên bản được làm mờ
Trang 26của chính ảnh gốc Kỹ thuật lọc bằng mặt nạ không sắc nét thường được sử dụngtrong ngành công nghiệp in ấn và nhiếp ảnh.
Về mặt toán học, mặt nạ cạnh được tạo như sau:
Trang 27Do đó, chúng ta có thể minh họa kỹ thuật lọc mặt nạ không sắc nét bằng
phương trình:
Ẩ hap(X, y) = f(x, y) + k * gtx, y) (5.2) Trong đó:
k: là hằng số khuyếch đại, k càng lớn thì ảnh gốc càng sắc nét;
© f(x, y) là ảnh màu ban đầu;
© g(x, y) là mặt nạ cạnh của f(x, y);
© fsap(x, y) là ảnh kết quả có các cạnh được làm sắc nét.
Hình 5.4 Khung hình trước (trái) và sau khi đã được áp dụng kỹ thuật UnsharpMask (phải) trong ứng dụng
5.3.3 Cân bằng lược đồ ảnh (Histogram Equalization)
Cân bằng lược đồ ảnh là kỹ thuật xử lý ảnh giúp điều chỉnh độ tương phản của
ảnh bằng cách sử dụng lược đồ xám của ảnh.
Hinh 5.5 Điều chỉnh lược đồ xám của ảnh - Nguồn en.wikipedia.org
Theo tài liệu tham khảo [3], kỹ thuật này làm tăng độ tương phản toàn cục của
ảnh Thông qua sự điều chỉnh này, điểm ảnh trong lược đồ xám được phân phối lại
tốt hơn giúp cho các phần có độ tương phản thấp trong ảnh có được độ tương phảncao hơn Sự điều chỉnh này có được bằng cách kéo giãn các giá trị độ sáng của điểm
Trang 28ảnh trong lược dé xám, trong đó chúng ta thay đổi biểu đồ tần số qua cách áp dụng
hàm b = f(a) để tạo ra một biểu dé tần số không đổi với tất cả mọi giá trị độ sáng
rị trong ảnh đều có khả năng xuấtĐiều này dẫn đến phân bé độ sáng của mọi giá
hiện như nhau Tuy nhiên, với một ảnh bất kỳ, sự điều chỉnh chỉ cho ra kết quả gần
đúng.
Mặc dù vậy, không phải video nào cũng áp dụng cân bằng lược đồ xám
Hình 5.6 Khung hình trước (trái) và sau khi sử dụng kỹ thuật cân bằng lược đồ xám (phải) trong ứng dụng,
5.3.4 Làm mờ Gauss (Gaussian smooth)
Toán tử Gaussian smooth (dựa trên tài liệu tham khảo [12]) là toán tử tích
chập hai chiều được sử dụng dé làm mờ ảnh và loại bỏ các chỉ tiết trong ảnh cùngvới nhiễu Phép tích chập dùng cho kỹ thuật làm mờ Gauss sử dụng nhân tạo ảnh
mô phỏng hình dạng tháp chuông Gauss.
Phân bố Gauss I-chiều có đạng:
¢ ơ: là độ lệch chuẩn trong phân bố
Chúng ta giả sử rằng, phân bố Gauss có trung bình tại 0 hay còn gọi là phân
bố Gauss có tâm tại đường x =0:
Trang 29aa)0.2
on
Hình 5.7 Phân bố Gauss 1-chiều có trung bình tại x = 0 và o = 1 - Nguồn: homepages.inf.ed.ac.uk
Phân bố Gauss 2-chiều là phân bố Gauss đẳng hướng có dạng:
oz 045 oa
0)
005
Hinh 5.8 Phân bố Gauss 2-chiều có trung bình tại điểm (0, 0) và o = 1 - Nguồn: homepages.inf.ed.ac.uk
Kỹ thuật làm mờ Gauss sử dụng dạng hàm phân bố 2-chiều lan truyền nhờ vào
phép tích chập Tuy nhiên, do ảnh là tập hợp các giá trị pixel rời rạc nên chúng ta
cần tạo ra một xấp xi rời rac của phân bố Gauss trước khi thực hiện phép toán tích
chập.
Phân bố Gauss là khác 0 tại mọi điểm, vì vậy, có thể nhân tạo ảnh của phép
tích chập có thể rất lớn Tuy nhiên, trong thực tế áp dụng, chúng ta không cần chọnmột nhân tạo ảnh quá lớn như Hình 5.9 là một nhân tạo ảnh xấp xi rời rac của phân
bố Gauss với o = 1
Trang 304| 16| 28| 16) 4
ma | 7|28| 41| 26| 7
Hình 5.9 Một xắp xi rời rac của phân bố Gauss với o = 1 - Nguồn: homepages.inf.ed.ac.uk
Sau khi đã chọn được nhân tạo ảnh thích hợp, kỹ thuật làm mờ Gauss sẽ được
thực hiện bằng cách phép tích chập giữa nhân tạo ảnh rời rạc Gauss với ảnh đầu
vào Vì nhân tạo ảnh Gauss là tách được nên phép tích chập sẽ được thực hiện
nhanh bằng cách tích chập nhân tạo ảnh 1-chiều Gauss theo hướng x, và sau đó sẽ
tích chập nhân tạo ảnh 1-chiều Gauss theo hướng y
Có một cách khác đề thực hiện kỹ thuật làm mờ Gauss với một nhân tao anh
có độ lệch chuẩn lớn là sử dụng nhiều lần phép tích chập ảnh với nhân tạo ảnh
Gauss nhỏ hơn.
Quá trình làm sắc nét cạnh hoặc cân bằng lược đồ xám có thé làm nổi bật
nhiễu trong khung hình, làm mờ Gauss giúp loại bỏ nhiễu được làm nồi bật
“Toán tử Gauss được cai đặt trong OpenCV với o được tính toán dựa vào kích
thước nhân tạo ảnh đầu vào
Hình 5.10 Khung hình trước (trái) và sau khi sử dụng kỹ thuật làm mờ Gauss (phải) trong ứng dụng
5.3.5 Sứ dụng biểu diễn kim tự tháp của anh (Image pyramid)Biểu diễn kim tự tháp của ảnh (dựa trên tài liệu tham khảo [6]) là sự biểu diễn
phân cấp của ảnh, đây là một tập hợp của nhiều ảnh, được biến đổi từ ảnh gốc Ảnh
Trang 31được giảm độ phân giải liên tục cho đến khi chỉ còn một điểm ảnh duy nhất, ảnh
này được gọi là ảnh dừng.
Image pyramid = biểu diễn pha của ảnh
Ảnh có it chỉ t
Độ phân giải thấp, Z——7 Hoặc ảnh có
/
a /
Độ phân giải cao
Hình 5.11 Biểu diễn kim tự tháp của ảnh
thấp số cao
Có hai loại biến đổi ảnh trong biễu diễn kim tự tháp:
® Kim tự tháp Gauss;
® Kim tự tháp Laplace.
Kim tự tháp Gauss dùng để giảm độ phân giải của ảnh, trong khi đó Kim tự
tháp Laplace được dùng khi có yêu cầu xây dựng lại ảnh có độ phân giải cao từ một
ảnh có độ phân giải thấp hơn trong phân cấp kim tự tháp
Dé tạo ảnh của lớp i+ 1 (ky hiệu là G¡,¡) trong kim tự tháp Gauss từ lớp G;,đầu tiên chúng ta tích chập ảnh G; với nhân tạo anh Gauss, sau đó loại bỏ khỏi ảnh
kết quả dòng và cột có chỉ số chin Điều này làm cho ảnh G¡„¡ có diện tích bằng 1⁄4
diện tích của ảnh G¡ Quá trình này được lặp đi lặp lại bắt đầu từ ảnh Gọ để xâydựng kim tự tháp ảnh theo biến đổi Gauss
Tương tự như trên, chúng ta biến đổi ảnh G;„¡ về G; Đầu tiên, ảnh được thayđổi kích thước tương ứng ở mỗi chiều lớn hơn gap 2 lần so với ảnh ban đầu bằngcách chèn giá trị 0 vào vị trí của các hàng và cột có chỉ số chẵn Sau đó, tích chậpảnh đã thay đổi kích thước với một nhân tạo ảnh nhằm tái tạo lại các giá trị bị mất
để có được ảnh xấp xỉ với G;
Tiến trình biến đổi từ ảnh có độ phân giải cao về ảnh có độ phân giải thấpcùng với tiến trình phục hồi ảnh có độ phân giải thấp về lại ảnh xấp xi ảnh có độ
Trang 32phân giải cao, không phải là hai tiến trình trái ngược nhau, bởi vì quá trình chuyềnđổi ảnh từ độ phân giải cao xuống độ phân giải thấp là quá trình làm mắt thông tin.Trong khi đó, quá trình phục hồi lại ảnh ban đầu yêu cầu truy xuất lại thông tin đã
mắt trong quá trình biến đổi ảnh từ cao xuống thấp Dữ liệu phục hồi này hình thành
Kim tự tháp Laplace Ảnh của lớp thứ i trong Kim tự tháp Laplace được định nghĩa:
L,=G,~UP(G,„)®, nã
Trong đó:
¢ L, ảnh được phục hỏi lại từ ảnh G; trong Kim tự tháp Laplace;
¢ G;: ảnh thứ ¡ trong Kim tự tháp Gauss;
¢ UP(: hàm nâng kích thước ảnh G; bằng cách ánh xạ điểm ảnh ở vị trí (x, y)
trong ảnh G; thành ảnh có vi trí (2x + 1, 2y + 1) trong ảnh L¡;
© ®: phép toán tích chập;
+ Gos : nhân tạo ảnh Gauss có kích thước 5x5.
Việc giảm độ phân giải của ảnh ban đầu sau đó phục hồi lại ảnh gốc cũng làcách để loại bỏ nhiễu trong ảnh Kỹ thuật này được sử dụng trong ứng dụng nhằm
bổ trợ thêm cho kỹ thuật làm mờ Guass trong việc lại bỏ nhiễu trong khung hình
của video.
Hình 5.12 Khung hình ban đầu (trái) và khung hình sau khi đã biến đổi nhỏ hơn trong kim tự tháp ảnh (phải)
Trang 33Trang chuyên về]
Hình 5.13 Khung hình sau khi đã biến đổi nhỏ hơn (trái) và khung hình được phục hồi lại kích thước cũ (phải)
5.4 Vấn đề dấu của Tiếng Việt
Thông qua quá trình thực nghiệm, thao tác làm mờ Gauss và biến đổi kim tự
tháp đã làm cho dấu của Tiếng Việt được kéo gần và dính vào chữ cái
5.5 Phần tìm vị trí của văn bản Tiếng Việt
“Thuật toán gồm có 5 bước:
© Bước 1: Làm mờ ảnh dé loại bỏ nhiễu;
®© Bước 2: Tính gradient theo các hướng x và y;
® Bước 3: Dò biên cục bộ;
© Bước 4: Sử dụng hai ngưỡng đề phân ngưỡng ảnh;
® Bước 5: Loại bỏ biên dư thừa.