1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Nhận dạng ký tự tiếng việt trong video

66 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nhận dạng ký tự tiếng việt trong video
Tác giả Âu Anh Thống
Người hướng dẫn TS. Phan Đạt Phúc
Trường học Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Khoa học máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2014
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 66
Dung lượng 29,45 MB

Nội dung

Sự khó khăn của ứng dụng nhận dạng ký tự trongvideo chính là quá trình nhận dạng theo thời gian thực, bởi vì video là tập hợp của nhiều ảnh tĩnh và ứng dụng phải xử lý các ảnh tĩnh sao c

Trang 2

DANH MỤC CÁC HÌNH VẼ

DANH MỤC CÁC BẢN!

LOI CẢM ƠN

CHƯƠNG | - MỤC TIÊU CUA DE TA

CHƯƠNG 2 - TONG QUAN VE NHAN DANG KÝ TỰ TRONG VIDE(

2.1 Nhận dạng trên tài liệu được quét hoặc được chụp ảnh vào máy tính 9 2.2 Nhận dạng ký tự trên video weld

CHUONG 3 - ĐỀ XUẤT PHƯƠNG PHÁP TÁCH CHỮ MỚI TRONG VIDEO II

3.1 Các kết quả rút trích văn bản trong video đã có ll3.2 Giai đoạn 1: Gộp các ký tự gần nhau trên một đường thẳng thành một từ ứng

viên 12

3.3 Giai đoạn 2: Giữ lai các từ đã tôn tại trong một sô lượng khung hình 14

CHƯƠNG 4 - XỬ LÝ TỪ UNG VIÊN TRƯỚC VÀ SAU KHI TESSERACT

NHẬN DẠNG 17

4.1 Đặt 17

4.2 Tiền xử lý trước khi chuyền các từ ứng viên dé Tesseract nhận dang 7

4.3 Hậu kiểm kết quả nhận dạng của Tesseract 19

CHƯƠNG 5 - QUI TRINH DE XUẤT CHO VIỆC NHAN DẠNG KY TỰ TIENG

VIET TRONG VIDEO 12023

5.1 Qui trình thực hiện 235.2 Phan lấy khung hình video .23

5.3 Phần Tiền xử lý 24

5.3.1 Các khó khăn trong việc rút trích thông tin văn bản trong video 24

5 Cai thiện chất lượng các cạnh của ảnh bằng kỹ thuật tạo Mặt nạ không

sắc nét (Unsharp Mask) 24

5.3.3 Cân bằng lược đồ ảnh (Histogram Equalization .26

5.3.4 Làm mờ Gauss (Gaussian smooth) .27

5.3.5 Sử dụng biểu diễn kim tự tháp của ảnh (Image pyramid) 295.4 Vấn đề dấu của Tiếng Việt .32

5.5 Phần tìm vị trí của văn bản Tiếng Việ

Trang 3

.42 42

42

.44

44

5.7 Phan nhận dang

5.7.1 Xử ly từ ứng viên trước khi nhận dang

5.7.2 Hậu kiểm kết quả nhận dạng

Trang 5

Hình 3.1 Khung hình chứa đường bao của các đối tượng Ty,

Hình 3.2 Khung hình ban dau (trái), khung hình chứa đường bao (giữa) và khung

hình chứa các ký tự đã được gộp thành từ (phải) „13

Hình 3.3 Template matching — Nguồn Learning OpenCV welHình 3.4 Khung hình ban dau (trái), khung hình chứa các ký tự đã được gộp thành

từ (giữa) và khung hình chứa các từ ứng viên được giữ lại (phải) 16

Hình 4.1 Kết quả sai chính tả của Tesseract .20

Hình 5.1 Qui trình thực hiện ứng dụng nhận dang ký tự Tiêng Việt trong video 23

Hình 5.2 Kỹ thuật lọc bằng mặt nạ không sắc nét - Nguồn homepages.inf.ed.ac.uk

.25

Hình 5.3 Tín hiệu gôc được tăng cường băng kỹ thuật tạo mặt nạ không sac nét

-Nguồn homepages.inf.ed.ac.uk

-Hình 5.4 Khung hình trước (trái) và sau khi đã được áp dụng kỹ thuật

UnsharpMask (phải) trong ứng dụng

Hình 5.5 Điều chỉnh lược đồ xám của ảnh — Nguồn en.wikipedia org,

Hình 5.6 Khung hình trước (trái) và sau khi sử dung kỹ thuật cân bằng lược đồ xám (phải) trong ứng dụng .27

Hình 5.7 Phân bố Gauss 1-chiéu có trung bình tại x

homepages.inf.ed.ac.uk 28Hình 5.8 Phân bố Gauss 2-chiều có trung bình tại diém (0, 0) và ø - Nguồn:

Hình 5.11 Biểu diễn kim tự tháp của ảnh

Hình 5.12 Khung hình ban đầu (trái) và khung hình s sau u khi đã biên đôi nhỏ hơn

trong kim tự tháp ảnh (phải)

Hình 5.13 Khung hình sau khi đã biên đôi nhỏ hơn (trái) và khung hình được phục

hồi lại kích thước cũ (phải) „32Hình 5.14 Ảnh gốc (trái) sau khi đã làm mờ và ảnh kết quả của việc áp dụng toán

tử sobel (phải) 34Hình 5.15 Ảnh chứa biên độ gradient (trái) và anh sau khi dò biên cục bộ (phải) 35

Hình 5.16 Anh sau khi dò biên cục bộ (trái) và ảnh sau khi phân ngưỡng (phải) 35

Hình 5.17 Ảnh sau khi phân ngưỡng (trái), ảnh giữa chứa biên dư thừa, ảnh phải là

ảnh hoàn chỉnh = Ö„36

Trang 6

Hình 5.20 Khung hình được phân hoạch và xếp các đường bao vào phân hoạch 39Hình 5.21 Khung hình sau khi sàn lọc tỉnh

Hình 5.22 Khung hình trước (trái) và sau khi đã

(phải) trong ứng dụng

Hình 5.23 Khung hình trước (trái) và sau khi giữ lại các từ ứng viên tôn tại trongmột số lượng khung hình cho trước trong ứng dụng dHình 5.24 Khung hình trước (trái) và sau khi (phải) hoàn chỉnh quá trình ni dạng

Hình 6.1 Khung hình của video sô 1

Hình 6.2 Khung hình của video s

Hình 6.3 Khung hình của video sô

Hình 6.4 Khung hình của video si

Hình 6.5 Khung hình của video số

Hình 6.6 Khung hình của video số

Hình 6.7 Khung hình của video sô 7

Hình 6.8 Menu của ứng dụng

Hình 6.9 Giao diện chính của ứng dụng

Trang 7

Bảng 4.1 So sánh giữa có sử dung entropy thông tin và phóng to từ ứng viên dé

tăng độ chính xác của Tesseract và không có sử dụng entropy và không phóng to từ ứng viên

Bảng 4.2 So sánh kêt quả giữa có sử dụng hậu kiêm băng nHunspell và không có

hậu kiểm bằng nHunspell

Bảng 6.1 Tỉ lệ chữ cắt được so với chữ có trong khung hình của ứng 5 dụng

Bang 6.2 Kết quả nhận dạng chính xác tong hợp của ứng dụng

Bang 6.3 Ti lệ chữ cắt được so với chữ có trong khung hình của video si

Bảng 6.4 Kết quả nhận dạng của video sos

Bang 6.5 Ti lệ chữ cắt được so với chữ có trong khung hình c

Bảng 6.6 Két quả nhận dạng của video số 2

Bảng 6.7 Tỉ lệ chữ cắt được so với chữ có trong khung hình của video

Bảng 6.8 Kết quả nhận dang của video số 3

Bảng 6.9 Tỉ lệ chữ cắt được so với chữ có trong khung hình của video sô 4

Bảng 6.10 Kết quả nhận dạng của video số 4

Bảng 6.11 Tỉ lệ chữ cắt được so với chữ có trong khung hình của video số 5

Bảng 6.12 Kết quả nhận dạng của video số 5

Bảng 6.13 Tỉ lệ chữ cắt được so với chữ có trong khung hình của video

Bảng 6.14 Kết quả nhận dạng của video số 6

Bang 6.15 Ti lệ chữ cắt được so với chữ có trong khung hình của video số 7

Bảng 6.16 Kết quả nhận dạng của video số 7

Trang 8

nhận dạng ký tự trong ảnh tĩnh Sự khó khăn của ứng dụng nhận dạng ký tự trong

video chính là quá trình nhận dạng theo thời gian thực, bởi vì video là tập hợp của

nhiều ảnh tĩnh và ứng dụng phải xử lý các ảnh tĩnh sao cho độ trễ (nếu có) do ứng

dụng gây ra là chấp nhận được

Luận văn “Nhận dạng ký tự Tiếng Việt trong video” có nội dung xây dựngmột ứng dụng có thể nhận dạng ký tự Tiếng Việt trong video Tuy vẫn còn nhiềuhạn chế, song ứng dụng cũng phan nào cho thấy kết quả khả quan và hướng đi đúng

của phương pháp được sử dụng trong ứng dụng.

Tác giả xin chân thành cảm ơn TS Phan Đạt Phúc, là giảng viên hướng dẫn đề

tài cho tác giả, thầy đã dành nhiều thời gian quý báu, và rất nhiệt tình trong việctruyền đạt kiến thức về xử lý ảnh cũng như rất chân thành trong việc giải đáp thắc

mắc cho tác giả

Tiếp đến, tác giả xin cảm ơn các quý thầy/cô của Phòng Sau Đại học, Trường

Đại học Công nghệ thông tin đã tạo điều kiện, cung cấp thông tin kịp thời về thờigian và cách thức làm luận văn cũng như giải đáp các thắc mắc của tác giả

Cuối cùng, tác giả xin gửi lời kính chúc sức khỏe đến TS Phan Đạt Phúc cùngcác quý thầy/cô của Phòng Sau Đại học, Trường Đại học Công nghệ thông tin

Trang 9

được phát triển, vì vậy chúng ta có thể lưu trữ nhiều đoạn video phục vụ cho nhu

cầu giải trí cũng như các mục đích các nhân khác Nội dung video là tập hợp các

hình ảnh cùng với âm thanh, từ đó phát sinh nhu cầu truy xuất nội dung của video.sang một định dạng điện tử khác đề có thể lưu trữ, chỉnh sửa, in ấn hoặc sử dụng kết

quả cho các ứng dụng khác.

Luận văn “Nhận dạng ký tự Tiếng Việt trong video” có hai mục tiêu chính:

1 Đề xuất một phương pháp tách chữ mới trong video nhằm mục đích rúttrích được văn bản trong video;

2 Đề xuất một qui trình nhận dạng hoàn chỉnh cho việc nhận dạng ký tựTiếng Việt trong video

Việc trích xuất thông tin trong video là một bước rất quan trọng của các bàitoán về xử lý video Như trong bài toán đánh chỉ mục video, đây là một bài toán

lớn, để có thể đánh chỉ mục video, ứng dụng xử lý phải “biết” được nội dung video

đang đề cập đến vấn đề gì Mặc dù đối với mỗi chúng ta, việc nhìn bằng mắt thường

có thé nhận biết được ngay nội dung video đang đề cập đến van dé gì, tuy nhiên,

việc đó đối với máy tính bước đầu tiên là phải rút trích thông tin trong video, sau đómới có thể quan tâm đến các bước xử lý tiếp theo

Vé kết quả cuối cùng, dé tài mong muốn đạt được như sau:

1 Két quả của phương pháp tách chữ đạt từ 90% trở lên;

2 Qui trình nhận dạng cho ra kết quả nhận dạng chính xác vào khoảng từ50% đến 60%

Kết quả được thử nghiệm trên bộ dir liệu tự tạo gồm có 140 khung hình (20khung hình trong 7 video).

Trang 10

2.1 Nhận dạng trên tài liệu được quét hoặc được chụp ảnh vào máy tính

Nhận dang ký tự quang học (OCR — Optical Character Recognition) (dựa trên

tài liệu tham khảo [21]) là quá trình chuyền đổi ảnh của tài liệu đã được quét hoặc

được chụp ảnh vào máy tính ở dạng viết tay, dạng in hoặc là một định dạng ảnh

thành dạng văn bản có thể đọc và chỉnh sửa trên máy tính

Nhận dạng ký tự trên tài liệu quét hoặc được chụp ảnh được sử dụng rộng rãi

như là một dạng thức nhập liệu từ một vài nguồn dữ liệu như: hộ chiếu, hóa đơn,

báo cáo của ngân hàng, biên lai, danh thiếp, phong bì thư, biển số xe, Day là

phương pháp phô biến trong việc số hóa tài liệu in sao cho tài liệu có thể được hiệuchỉnh, tìm kiếm, lưu trữ, kiểm tra trên máy tính nhằm phục vụ các mục đích như:

© Cho xem tài liệu trực tiếp ở định dạng số;

e Dịch máy (Machine translation);

Chuyén đổi van bản thành giọng đọc (Text-to-Speech);

e Nhận dạng biển số xe;

«Rút trích dữ liệu quan trọng như: trích xuất thông tin tự động từ hợp đồng

bảo hiểm, lấy thông tin từ danh thiếp dé nhập vào danh bạ điện thoại, ;

e Nhận dạng chữ viết tay theo thời gian thực dé chuyển đổi thành lệnh điềukhiển máy tính;

®© Khai mỏ văn ban (Text mining).

Phát triển các công nghệ trợ giúp cho người khuyết tật

Trang 11

2.2 Nhận dạng ký tự trên video.

Do sự phát triển của công nghệ truyền hình, video đã trở thành nguồn giải trí

chủ yếu Cùng với sự phát triển của Internet, người sử dụng có thể dễ dàng truy cập

đến các video đáp ứng yêu cầu của chính họ

Do vậy, việc tìm hiểu và rút trích thông tin từ video sẽ mở ra một con đường

mới cho các ứng dụng giá trị gia tăng trên các nội dung được rút trích từ video Nội

dung trong video bao gồm: âm thanh, hình ảnh, đồ thị, văn bản, là những thôngtin giúp cho chúng ta hiéu rõ video nhiều hơn

Đặc biệt, văn bản trong video cung cấp rất nhiều thông tin liên quan đến nội

dung của chính video Theo tài liệu tham khảo [7], văn bản trong video có hai dạng:

© Văn bản trong cảnh quay của video (scene text): đây là loại văn bản xuất

hiện khách quan tồn tại sẵn trong cảnh quay;

® Van bản nhân tao (artificial text): đây là loại văn bản được người biên tập

nhúng vào khung hình, nhằm thuyết minh thêm cho cảnh quay

Van bản nhân tạo được thêm vào trong khung hình có mục dich cụ thể nên vănbản nhân tạo có cau trúc hợp lý hơn và có mối liên hệ gần gũi hơn với nội dung của

cảnh quay.

Văn bản trong video là những thông tin hữu ích cho việc tạo chú thích tựđộng, đánh chỉ mục, tóm tắt thông tin Vì vậy, việc nhận dạng được ký tự trong

video trở thành phương tiện cho các ứng dụng sau:

© Tu động phân loại video nhằm phục vụ mục đích lưu trữ cũng như truy xuất

thông tin;

® Loại bỏ quảng cáo trong các bản tin hoặc phim;

e Đánh chỉ mục video phục vụ cho việc tìm kiếm;

© Tìm kiếm nội dung trùng lặp;

© Téng hợp thông tin trong video.

Trang 12

CHUONG 3 - DE XUAT PHUONG PHAP TACH CHU

MỚI TRONG VIDEO

3.1 Các kết quả rút trích văn bản trong video đã có

Rút trích văn bản trong video rất quan trọng, do đó đã có nhiều phương phápnghiên cứu xuất hiện như:

Tai liệu tham khảo [7] giới thiệu các phương pháp phân tích kế cấu (texture

based) của vùng ảnh để rút trích văn bản hoặc sử dụng phương pháp dựa vào.các đặc trưng cạnh (edge based) của đối tượng với việc sử dụng SVM

(Support Vector Machinne) dé phân loại vùng ảnh nao là văn bản và vùng ảnh

nào không phải là văn bản;

Tai liệu tham khảo [15] sử dụng phương pháp “từ đỉnh-đến-đáy” valley) trên ảnh nhị phân để phân đoạn các ký tự trong biển số xe Phương

(peak-to-pháp này sử dụng phép chiếu đứng một ảnh thành một vector ngang có giá trị

là tổng các giá trị của pixel trong từng cột Sau đó đếm các pixel đen trongphép chiếu đề tìm chiều rộng của các ký tự trong biền số;

e Tài liệu tham khảo [18] sử dụng phương pháp vùng bao ngoài lớn nhất

(Extremal Region) dé rút trích văn bản Phương pháp này ban đầu sẽ chọn mộtvùng ảnh thường là vùng ảnh liên thông 4 làm “nhân” bắt đầu đáp ứng đượcmột ngưỡng cường độ sáng chọn trước.

Sau đó, các đối tượng mô tả (diện tích, vùng chữ nhật bao ngoài, chu vi, sốEuler, ) được tính toán để kiểm tra xem vùng đã chọn có phải có xác suất là

ký tự hay không đê từng bước mở rộng vùng ảnh.

Ving ảnh sau khi đã được mở rộng đến ngưỡng vùng bao ngoài lớn nhất sẽ

được phân loại xem có phải là vùng ký tự hay không.

© Tài liệu tham khảo [19] sử dụng phép chiếu từ-thô-đến-tinh (coarse-to-fine)

để rút trích vùng văn bản Ban đầu phép chiếu thô (coarse projection), sử dụng

Trang 13

cả phép chiếu dọc và phép chiếu ngang, đề tìm vùng văn bản Tuy nhiên, ởbước này vùng văn bản chưa được tách dòng Tiếp đến, bước sử dụng phépchiếu tinh (fine projection), cũng sử dụng cả phép chiếu dọc và phép chiếu

ngang, đê tìm dòng văn bản.

Tuy nhiên, các phương pháp cắt chữ vừa nêu chỉ áp dụng cho Tiếng Anh Đốivới Tiếng Việt thì có ít phương pháp tách chữ trong video được nghiên cứu Do đó,luận văn “Nhận dạng ký tự Tiếng Việt trong video” đề xuất một phương pháp cắt

chữ mới trong video sử dụng biên của đối tượng trong khung hình và kỹ thuật tìm

vùng ảnh dựa vào ảnh mẫu (Template Matching).

Phương pháp tách chữ mới được đề xuất có hai giai đoạn:

1 Giai đoạn 1: Gộp các ký tự gần nhau trên một đường thang thành một

từ ứng viên sử dụng đường bao ngoài của các đối tượng trong khunghình;

2 Giai đoạn 2: Chỉ giữ lại các từ ứng viên ton tại liên tục trong n khunghình cho trước bằng kỹ thuật tìm vùng ảnh dựa vào ảnh mẫu

3.2 Giai đoạn 1: Gộp các ký tự gần nhau trên một đường thắng thành

Trang 14

e _ l¡¿ là phân hoạch thứ i của khung hình;

© cj: là đường bao của đối tượng thứ j trong khung hình;

e _ r¡: là hình chữ nhật bao ngoài của đối tượng thứ j trong khung hình;

d: là khoảng cách giữa các đối tượng theo chiều ngang

"Thuật toán gdp các ký tự thành từ ứng viên:

e Bước 1: Duyệt qua từng phân hoạch l;;

¢ Bước 2: Duyệt qua từng đường bao c¡;

© Bước 3: Đánh dau phan diện tích theo hình chữ nhật r¡ của đường bao c¡;

© Bước 4: Tìm kiếm trong diện tích hình chữ nhật nằm liền kề bên trái củađường bao c¡ vừa xét có chiều rộng tương ứng là d:

Nếu có một đối tượng khác nằm trong khoảng cách d, chúng ta sẽ

đánh dấu phan diện tích với chiều rộng là khoảng cách d

Nếu không có đối tượng khác nằm trong khoảng cách d, thì bỏ

qua.

Duyệt đối tượng tiếp theo trong phân hoạch cho đến hết các đối

tượng trong ảnh theo bước 1.

e Bước 5: Lưu giữ các từ ứng viên đã tách được.

Hình 3.2 Khung hình ban đầu (trái), khung hình chứa đường bao (giữa) và khung hình chứa các ký tự đã được

gop thành từ (phải)

Trang 15

3.3 Giai đoạn 2: Giữ lại các từ đã tồn tại trong một số lượng khung hình

Kỹ thuật để kiểm tra sự tồn tại của vùng ảnh qua một số lượng khung hình

u tham

nhất định dựa vào kỹ thuật so khớp vùng ảnh (Template Matching (tài

khảo [6])) So khớp vùng ảnh là thao tác tìm kiếm vùng ảnh nhỏ trong ảnh lớn dựavào một ảnh mẫu

Ảnh mẫu sẽ được trượt trên toàn bộ ảnh đề tìm vùng trùng khớp nhất, kết quả

tìm kiếm sẽ được lưu trữ trong một ảnh đầu ra Nếu ảnh đầu vào có kích thước là M

x N, ảnh mẫu có kích thước là m x n thì ảnh kết quả có kích thước là (M — m +Dx(N—n+ 1).

Việc tìm kiếm không phải nhằm khẳng định là ảnh mẫu tổn tại hay không tồn

tại trong ảnh gốc, mà chỉ dé tính toán kết quả đầu ra tương ứng với các vùng ảnh màảnh mẫu được trượt qua Việc tính toán kết quả đầu ra dựa vào độ đo “khoảng cáchtrùng khớp” tại mỗi điểm ảnh của ảnh mẫu và ảnh gốc Ta ký hiệu ảnh đầu vào là I,

T là ảnh mẫu, R là ảnh kết quả tính toán, ta có các phương pháp tính độ đo “khoảng

cách trùng khớp” sau:

Trang 16

© Phương pháp đo khoảng cách bằng bình phương của một hiệu các giá trị

điểm ảnh: Với phương pháp này, độ đo khoảng cách trùng khớp tốt nhất là 0

©_n là số lượng khung hình cho trước dé kiểm tra sự tồn tại của vùng ảnh ứngviên;

«- d là khoảng lệch nhau theo tung độ của vùng ảnh trong hai khung hình.

Trang 17

Thuật toán tién hành giữ lại từ ứng viên:

© Bước 1: Lưu giữ thông tin của khung hình từ 1 đến n— 1;

© Bước 2: Nếu đến khung hình thứ n, thực hiện:

Bước 2.1: Duyệt qua từng từ ứng viên;

Bước 2.2: Ứng với mỗi từ ứng viên, dùng kỹ thuật so khớp để tìm sự tồntại của từ trong các khung hình từ n— 1 đến 1;

Bước 2.3: Nếu từ ứng viên có tồn tại trong khung hình ¡ và tung độ nằm

trong khoảng d thì ghi nhận sự xuất hiện của từ ứng viên;

Bước 2.4: Sau khi kiểm tra trong n — 1 khung hình, nếu từ ứng viên xuất

hiện trên 70% số lượng khung hình thì xem như từ ứng viên có thê chứavăn bản, ngược lại thì bỏ qua và xét tiếp từ ứng viên tiếp theo

® Bước 3: Trong từng phân hoạch giữ lại các từ ứng viên có khả năng chứa

văn bản và loại bỏ các từ ứng viên không chứa văn bản;

® Bước 4: Loại bỏ khung hình | và thêm khung hình n + | vào danh sách

khung hình kiểm tra và thực hiện tiếp bước 1 khi đến khung hình n + 1

Các bước kiểm tra sự tồn tại của từ ứng viên trong n khung hình tương tự nhưviệc sử dụng một cửa số trượt với chiều rộng là n khung hình Cửa sô có kích thướcđược chọn sẽ trượt qua các khung hình và kiểm tra sự tồn tại của từ ứng viên trong

khung hình cuối với các khung hình còn lại

Hình 3.4 Khung hình ban đầu (trái), khung hình chứa các ký tự đã được gộp thành từ (giữa) và khung hình chứa

các từ ứng viên được giữ lại (phải)

Trang 18

CHƯƠNG 4 - XỬ LÝ TỪ ỨNG VIÊN TRƯỚC VÀ SAU

KHI TESSERACT NHẬN DẠNG

4.1 Đặt vấn đề

Các từ ứng viên sau đã được tách ra khỏi video ở bước 3.3 sẽ được chuyền choTesseract nhận dang Tesseract là một ứng dụng mã nguồn mở, có thê nhận dạngđược tiếng Việt Tuy nhiên sẽ xảy ra hai vấn đề sau đây:

1 Khả năng nhận dạng được vùng ảnh của Tesseract;

2 Sự chính xác về mặt chính tả của từ: do Tesseract nhận dang từng ký tựtrong từ ứng viên nên có thé dẫn đến kết quả nhận dạng sai chính tả của

cả từ.

Nếu vùng ảnh được chuyển cho Tesseract nhận dạng có độ tương phản không

tốt thì kết quả nhận dang sẽ không đúng Đồng thời, Tesseract có thể nhận dang

nhằm vùng ảnh Do đó, Luận văn đề xuất tiền xử lý trước khi chuyển Tesseractnhận dạng và hậu kiểm chính tả của từ nhận dạng được nhằm loại bỏ từ có chính tả

không đúng.

4.2 Tiền xử lý trước khi chuyển các từ ứng viên dé Tesseract nhận dangNhằm tăng độ nhận dạng chính xác của Tesseract, các từ ứng viên sẽ được

kiểm tra độ tương phản trước khi nhận dạng Nếu từ ứng viên có độ tương phản

chưa tốt thì từ sẽ được cân bằng lại lược đồ xám

Sau khi đã tăng kiểm tra độ tương phản, luận văn đề xuất phóng to vừa đủ từ

ứng viên lên gấp 4 lần kích thước ban đầu dé Tesseract nhận dạng tốt hơn

Luận văn sử dụng entropy thông tin dé kiêm tra độ tương phan của từ ứng viên

với công thức tính:

Trong đó:

Trang 19

xác suât của cường độ sáng thứ ¡ trong lược đô xám của ảnh.

Gọi

e_ f là tổng tần số của các cường độ sáng trong một ảnh đa cấp xám;

e £14 tần số xuất hiện của giá trị cường độ sáng thứ i;

e p; là xác suât của giá trị cường độ xám thứ i trong lược đô xám của ảnh da

cấp xám Ta có:

¢ Bước 1: Tách vùng ảnh của từ ứng viên màu thành 3 vùng ảnh đa cấp xám;

© Bước 2: Ung với từng vùng ảnh da xp xám:

Bước 2.1: Tính tổng tần số f của vùng ảnh;

Bước 2.2: Tính xác suất của từng cường độ sáng p; = f/f;

Bước 2.3: Tính entropy = — ¥ p;logio(pi).

© Bước 3: Nếu entropy >= 5.00 (Giá trị thực nghiệm) thì từ ứng viên đượccân bằng lược đồ xám ngược lại thì không cân bằng;

© Bước 4: Từ ứng viên được phóng to lên gấp 4 lần;

© Bước 5: Chuyển từ ứng viên cho Tesseract nhận dạng

Có kiểm tra entropy thông tin và phóng to | Không có kiểm tra entropy thông tin và

lên 4 lần không phóng to

Số l Số Khung | SỐ chữ | s „nụ _ | chữ | Tilệ | Sốchữ | Số _ | chữ | TiiỆ

hình có hệ Độ | nhận | sai có chữ | Độ | nhận | sai

nhận ¿ h " , h

trong | Gang | phủ | dạng | chính | trong | nhận | phú | dang | chính

khung c8 (%) | sai tả | khung | dạng | (%) | sai tả hình = chính | (%) | hình | đúng chính | (%)

Trang 20

Có kiểm tra entropy thông tin và phóng to | Không có kiểm tra entropy thông tin và

lên 4 lần không phóng to

trong | fang | phủ | dang | chính | trong | nhận | phủ | dạng khung | Ging | (%) | sai | tả | khung | dạng | (%) | sai hình chính | (%) | hình | đúng chính

Bang 4.1 So sánh giữa có sử dụng entropy thông fin và phóng to từ ứng viên dé tăng độ chính xác của Tesseract

và không có sử dụng entropy và không phóng to từ ứng viên

Nhận xét:

e Về độ nhận dang chính xác: tăng lên 72,25% so với không xử lý từ ứng

viên là 66%;

° Về ti lệ nhận dạng sai chính tả: có xử lý từ ứng viên thì tỉ lệ sai chính tả sẽ

thấp hơn (tỉ lệ là 1,1% so với không có xử lý từ ứng viên là 30%)

Kết luận: Từ ứng viên sau khi đã được xử lý sẽ có kết quả nhận dạng tốt hơn

4.3 Hậu kiểm kết quá nhận dạng của Tesseract

Do Tesseract nhận dạng từng ký tự trong từ ứng viên nên có thể dẫn đến kếtquả nhận dạng sai chính tả của cả từ.

Vi dụ:

Trang 21

Hình 4.1 cho thấy kết quả nhận dang sai chính tả của Tesseract Trong đó,

Tesseract nhận dang sai chữ “lên”, “thật”, “tươi”.

Do đó, ứng dụng sử dụng thêm bộ kiểm tra chính tả nHunspell đê kiêm tra kếtquả nhận dạng của Tesseract nHunsell là phiên bản trên nền tảng NET của bộ kiểm

tra chính tả trong bộ phần mềm OpenOffice Do đó, nHunspell có thé sử dụng từ

điển của OpenOffice đề kiểm tra chính tả

Thứ tự ngôn ngữ kiêm tra từ điển lần lượt là Tiếng Anh sau đó đến Tiếng Việt,

số lượng từ Tiếng Anh là 62.118 từ và số lượng từ Tiếng Việt là Từ điển Tiếng Việt

có 6.631 từ Mô hình ngôn ngữ được sử dụng trong nHunspell là n-gram.

Tiến trình kiểm tra được tiến hành như sau:

© Bước 1: Với các chuỗi được nhận dạng từ Tesseract trong từng phân hoạch,ứng dụng sẽ loại bỏ dấu nháy kép (“);

© Bước 2: Cắt chuỗi với các dấu phân cách (dau chấm) và , (dấu phẩy) thành

một mảng các chuỗi con;

© Bước 3:

Nếu mảng chỉ có một chuỗi thì kiểm tra chính tả của chuỗi bằng từ điểnTiếng Anh, nếu không phải là từ Tiếng Anh thì sẽ kiểm tra bằng từ điềnTiếng Việt;

Trang 22

Néu mảng có nhiều hơn một chuỗi con thì kiểm tra chính tả của mỗi

chuỗi con bằng từ điển Tiếng Anh, nếu không phải là từ Tiếng Anh thì sẽkiểm tra bằng từ điển Tiếng Việt;

© Bước 4:

Nếu mảng chỉ có một chuỗivào danh sách các chuỗi đã được nhận dạng;

à từ được nhận dạng chính xác lưu giữ từ

Nếu mảng có nhiều chuỗi con và tất cả các chuỗi con được nhận dạng

chính xác thì chuỗi ban đầu trước khi tách ở bước 2 sẽ được lưu giữ vào

danh sách các chuỗi đã được nhận dạng.

'Có kiểm tra nHunspell Không kiểm tra nHunspell

số số

Số Số chữ | Tile Số Số chữ | Tile Khung | chữ | chữ | nhận | sai | chữ | chữ | nhận | sai hình nhận | nhận | dạng | chính | nhận | nhận | dạng | chính

dạng | dạng | sai tả | dạng | dạng | sai tả được | đúng | chính | (%) | được | đúng | chính | (%)

Trang 23

'Có kiểm tra nHunspell Không kiểm tra nHunspell

Số Số

Số Số chữ | Tile | Số Số chữ Khung | chữ | chữ | nhận | sai chữ | chữ | nhận hình nhận | nhận | dạng | chính | nhận | nhận | dạng

dạng | dạng | sai tả | dạng | dạng | sai được | đúng | chính | (%) | được | đúng | chính

tả tả

19 6 6 0 0 8 6 2 25

20 7 7 0 0 8 7 1 l3

Kết quả Il 24,35 Bảng 4.2 So sánh kết quả giữa có sử dung hậu kiểm bằng nHunspell và không có hậu kiểm bằng nHunspell

Kết luận: việc hậu kiểm bằng nHunspell giúp giảm đáng kể tỉ lệ từ sai chính

tả (tỉ lệ 1,1%) so với không có hậu kiểm bằng nHunspell (ti lệ 24,35%)

Trang 24

CHUONG 5- QUI TRINH DE XUAT CHO VIEC

NHAN DANG KY TU TIENG VIET TRONG VIDEO

i Tach ving van t l

Ti lý t ứng vit H Trích chọn đã tên xy tring bản ứng viên ra Je veh chọn đặc

Hình 5.1 Qui trình thực hiện ứng dụng nhận dạng ký tự Tiếng Việt trong video.

5.2 Phần lấy khung hình video

Video là tập hợp các ảnh tĩnh, vì vay để rút trích được nội dung trong video,chúng ta phải xử lý từng khung hình của video.

Việc đọc từng khung hình của video được thực hiện thông qua thư viện

EmguCV EmguCV là thư viện chứa các lớp đối tượng bao bọc (Wrapper) thư viện

OpenCV cho phép các hàm của thư viện OpenCV được gọi từ các ngôn ngữ lập

trình trong môi trường NET như: C#, VB, VC++, IronPython,

EmguCV được viết hoàn toàn bằng ngôn ngữ lập trình C# và được biên dịchtrên nền tảng Mono, là một dự án NET mã nguồn mở đa nền tảng Vì vậy,

EmguCV có thể chạy được trên các nền tảng hệ điều hành có hỗ trợ Mono như:

Windows, Linux, Mac OS, iOS va Android.

Trang 25

5.3 Phan Tiền xử ly

5.3.1 Các khó khăn trong việc rút trích thông tin văn ban trong video

Dựa trên tài liệu tham khảo [7] thì việc rút trích thông tin văn bản từ video gặp

các khó khăn như sau:

© Video có độ phân giải thấp;

e Văn bản nhân tạo được nhúng vào khung hình với nền có nhiều chỉ tiếtphức tạp khiến cho việc tách biệt văn bản khỏi nền gặp khó khăn;

Van bản có nhiều kích cỡ và kiểu chữ khác nhau;

© Văn bản có nhiều ký tự dính vào nhau;

© Video có sự thay đổi về độ tương phản và độ sáng;

© Chất lượng tín hiệu của video phụ thuộc vào nguồn phát như: video được

lưu trữ trên máy tính, video được phát quảng bá thông qua vệ tinh hoặc thông

qua cáp, video được tải về hoặc đang xem trực tuyến từ Internet;

e_ Yêu cầu xử lý thời gian thực cho việc trích xuất văn ban;

© Các văn bản chuyển động trong video như trong các chương trình về thờitiết, thông tin chứng khoán, bản tin cập nhat, đặt ra nhiều khó khăn trongvấn đề định vị văn bản

Nhằm giải quyết một số hoặc tat cả các khó khăn đã nêu, ứng dụng cần các kỹ

thuật tiền xử lý đủ mạnh để nâng cao chất lượng văn bản trong video nhằm giúp cho

các bước xử lý tiếp theo của qui trình trong Hình 5.1 được thực hiện dé dàng hơn

5.3.2 Cai thiện chất lượng các cạnh của ảnh bằng kỹ thuật tạo Mặt nạ

không sắc nét (Unsharp Mask)

Kỹ thuật tạo mặt nạ không sắc nét (dựa trên tài liệu tham khảo [13]) là toán tử

xử lý ảnh giúp làm rõ nét các cạnh trong ảnh (hoặc các thành phần có tần số cao

trong ảnh) Mặt nạ cạnh được tạo bằng cách trừ ảnh gốc với phiên bản được làm mờ

Trang 26

của chính ảnh gốc Kỹ thuật lọc bằng mặt nạ không sắc nét thường được sử dụngtrong ngành công nghiệp in ấn và nhiếp ảnh.

Về mặt toán học, mặt nạ cạnh được tạo như sau:

Trang 27

Do đó, chúng ta có thể minh họa kỹ thuật lọc mặt nạ không sắc nét bằng

phương trình:

Ẩ hap(X, y) = f(x, y) + k * gtx, y) (5.2) Trong đó:

k: là hằng số khuyếch đại, k càng lớn thì ảnh gốc càng sắc nét;

© f(x, y) là ảnh màu ban đầu;

© g(x, y) là mặt nạ cạnh của f(x, y);

© fsap(x, y) là ảnh kết quả có các cạnh được làm sắc nét.

Hình 5.4 Khung hình trước (trái) và sau khi đã được áp dụng kỹ thuật UnsharpMask (phải) trong ứng dụng

5.3.3 Cân bằng lược đồ ảnh (Histogram Equalization)

Cân bằng lược đồ ảnh là kỹ thuật xử lý ảnh giúp điều chỉnh độ tương phản của

ảnh bằng cách sử dụng lược đồ xám của ảnh.

Hinh 5.5 Điều chỉnh lược đồ xám của ảnh - Nguồn en.wikipedia.org

Theo tài liệu tham khảo [3], kỹ thuật này làm tăng độ tương phản toàn cục của

ảnh Thông qua sự điều chỉnh này, điểm ảnh trong lược đồ xám được phân phối lại

tốt hơn giúp cho các phần có độ tương phản thấp trong ảnh có được độ tương phảncao hơn Sự điều chỉnh này có được bằng cách kéo giãn các giá trị độ sáng của điểm

Trang 28

ảnh trong lược dé xám, trong đó chúng ta thay đổi biểu đồ tần số qua cách áp dụng

hàm b = f(a) để tạo ra một biểu dé tần số không đổi với tất cả mọi giá trị độ sáng

rị trong ảnh đều có khả năng xuấtĐiều này dẫn đến phân bé độ sáng của mọi giá

hiện như nhau Tuy nhiên, với một ảnh bất kỳ, sự điều chỉnh chỉ cho ra kết quả gần

đúng.

Mặc dù vậy, không phải video nào cũng áp dụng cân bằng lược đồ xám

Hình 5.6 Khung hình trước (trái) và sau khi sử dụng kỹ thuật cân bằng lược đồ xám (phải) trong ứng dụng,

5.3.4 Làm mờ Gauss (Gaussian smooth)

Toán tử Gaussian smooth (dựa trên tài liệu tham khảo [12]) là toán tử tích

chập hai chiều được sử dụng dé làm mờ ảnh và loại bỏ các chỉ tiết trong ảnh cùngvới nhiễu Phép tích chập dùng cho kỹ thuật làm mờ Gauss sử dụng nhân tạo ảnh

mô phỏng hình dạng tháp chuông Gauss.

Phân bố Gauss I-chiều có đạng:

¢ ơ: là độ lệch chuẩn trong phân bố

Chúng ta giả sử rằng, phân bố Gauss có trung bình tại 0 hay còn gọi là phân

bố Gauss có tâm tại đường x =0:

Trang 29

aa)0.2

on

Hình 5.7 Phân bố Gauss 1-chiều có trung bình tại x = 0 và o = 1 - Nguồn: homepages.inf.ed.ac.uk

Phân bố Gauss 2-chiều là phân bố Gauss đẳng hướng có dạng:

oz 045 oa

0)

005

Hinh 5.8 Phân bố Gauss 2-chiều có trung bình tại điểm (0, 0) và o = 1 - Nguồn: homepages.inf.ed.ac.uk

Kỹ thuật làm mờ Gauss sử dụng dạng hàm phân bố 2-chiều lan truyền nhờ vào

phép tích chập Tuy nhiên, do ảnh là tập hợp các giá trị pixel rời rạc nên chúng ta

cần tạo ra một xấp xi rời rac của phân bố Gauss trước khi thực hiện phép toán tích

chập.

Phân bố Gauss là khác 0 tại mọi điểm, vì vậy, có thể nhân tạo ảnh của phép

tích chập có thể rất lớn Tuy nhiên, trong thực tế áp dụng, chúng ta không cần chọnmột nhân tạo ảnh quá lớn như Hình 5.9 là một nhân tạo ảnh xấp xi rời rac của phân

bố Gauss với o = 1

Trang 30

4| 16| 28| 16) 4

ma | 7|28| 41| 26| 7

Hình 5.9 Một xắp xi rời rac của phân bố Gauss với o = 1 - Nguồn: homepages.inf.ed.ac.uk

Sau khi đã chọn được nhân tạo ảnh thích hợp, kỹ thuật làm mờ Gauss sẽ được

thực hiện bằng cách phép tích chập giữa nhân tạo ảnh rời rạc Gauss với ảnh đầu

vào Vì nhân tạo ảnh Gauss là tách được nên phép tích chập sẽ được thực hiện

nhanh bằng cách tích chập nhân tạo ảnh 1-chiều Gauss theo hướng x, và sau đó sẽ

tích chập nhân tạo ảnh 1-chiều Gauss theo hướng y

Có một cách khác đề thực hiện kỹ thuật làm mờ Gauss với một nhân tao anh

có độ lệch chuẩn lớn là sử dụng nhiều lần phép tích chập ảnh với nhân tạo ảnh

Gauss nhỏ hơn.

Quá trình làm sắc nét cạnh hoặc cân bằng lược đồ xám có thé làm nổi bật

nhiễu trong khung hình, làm mờ Gauss giúp loại bỏ nhiễu được làm nồi bật

“Toán tử Gauss được cai đặt trong OpenCV với o được tính toán dựa vào kích

thước nhân tạo ảnh đầu vào

Hình 5.10 Khung hình trước (trái) và sau khi sử dụng kỹ thuật làm mờ Gauss (phải) trong ứng dụng

5.3.5 Sứ dụng biểu diễn kim tự tháp của anh (Image pyramid)Biểu diễn kim tự tháp của ảnh (dựa trên tài liệu tham khảo [6]) là sự biểu diễn

phân cấp của ảnh, đây là một tập hợp của nhiều ảnh, được biến đổi từ ảnh gốc Ảnh

Trang 31

được giảm độ phân giải liên tục cho đến khi chỉ còn một điểm ảnh duy nhất, ảnh

này được gọi là ảnh dừng.

Image pyramid = biểu diễn pha của ảnh

Ảnh có it chỉ t

Độ phân giải thấp, Z——7 Hoặc ảnh có

/

a /

Độ phân giải cao

Hình 5.11 Biểu diễn kim tự tháp của ảnh

thấp số cao

Có hai loại biến đổi ảnh trong biễu diễn kim tự tháp:

® Kim tự tháp Gauss;

® Kim tự tháp Laplace.

Kim tự tháp Gauss dùng để giảm độ phân giải của ảnh, trong khi đó Kim tự

tháp Laplace được dùng khi có yêu cầu xây dựng lại ảnh có độ phân giải cao từ một

ảnh có độ phân giải thấp hơn trong phân cấp kim tự tháp

Dé tạo ảnh của lớp i+ 1 (ky hiệu là G¡,¡) trong kim tự tháp Gauss từ lớp G;,đầu tiên chúng ta tích chập ảnh G; với nhân tạo anh Gauss, sau đó loại bỏ khỏi ảnh

kết quả dòng và cột có chỉ số chin Điều này làm cho ảnh G¡„¡ có diện tích bằng 1⁄4

diện tích của ảnh G¡ Quá trình này được lặp đi lặp lại bắt đầu từ ảnh Gọ để xâydựng kim tự tháp ảnh theo biến đổi Gauss

Tương tự như trên, chúng ta biến đổi ảnh G;„¡ về G; Đầu tiên, ảnh được thayđổi kích thước tương ứng ở mỗi chiều lớn hơn gap 2 lần so với ảnh ban đầu bằngcách chèn giá trị 0 vào vị trí của các hàng và cột có chỉ số chẵn Sau đó, tích chậpảnh đã thay đổi kích thước với một nhân tạo ảnh nhằm tái tạo lại các giá trị bị mất

để có được ảnh xấp xỉ với G;

Tiến trình biến đổi từ ảnh có độ phân giải cao về ảnh có độ phân giải thấpcùng với tiến trình phục hồi ảnh có độ phân giải thấp về lại ảnh xấp xi ảnh có độ

Trang 32

phân giải cao, không phải là hai tiến trình trái ngược nhau, bởi vì quá trình chuyềnđổi ảnh từ độ phân giải cao xuống độ phân giải thấp là quá trình làm mắt thông tin.Trong khi đó, quá trình phục hồi lại ảnh ban đầu yêu cầu truy xuất lại thông tin đã

mắt trong quá trình biến đổi ảnh từ cao xuống thấp Dữ liệu phục hồi này hình thành

Kim tự tháp Laplace Ảnh của lớp thứ i trong Kim tự tháp Laplace được định nghĩa:

L,=G,~UP(G,„)®, nã

Trong đó:

¢ L, ảnh được phục hỏi lại từ ảnh G; trong Kim tự tháp Laplace;

¢ G;: ảnh thứ ¡ trong Kim tự tháp Gauss;

¢ UP(: hàm nâng kích thước ảnh G; bằng cách ánh xạ điểm ảnh ở vị trí (x, y)

trong ảnh G; thành ảnh có vi trí (2x + 1, 2y + 1) trong ảnh L¡;

© ®: phép toán tích chập;

+ Gos : nhân tạo ảnh Gauss có kích thước 5x5.

Việc giảm độ phân giải của ảnh ban đầu sau đó phục hồi lại ảnh gốc cũng làcách để loại bỏ nhiễu trong ảnh Kỹ thuật này được sử dụng trong ứng dụng nhằm

bổ trợ thêm cho kỹ thuật làm mờ Guass trong việc lại bỏ nhiễu trong khung hình

của video.

Hình 5.12 Khung hình ban đầu (trái) và khung hình sau khi đã biến đổi nhỏ hơn trong kim tự tháp ảnh (phải)

Trang 33

Trang chuyên về]

Hình 5.13 Khung hình sau khi đã biến đổi nhỏ hơn (trái) và khung hình được phục hồi lại kích thước cũ (phải)

5.4 Vấn đề dấu của Tiếng Việt

Thông qua quá trình thực nghiệm, thao tác làm mờ Gauss và biến đổi kim tự

tháp đã làm cho dấu của Tiếng Việt được kéo gần và dính vào chữ cái

5.5 Phần tìm vị trí của văn bản Tiếng Việt

“Thuật toán gồm có 5 bước:

© Bước 1: Làm mờ ảnh dé loại bỏ nhiễu;

®© Bước 2: Tính gradient theo các hướng x và y;

® Bước 3: Dò biên cục bộ;

© Bước 4: Sử dụng hai ngưỡng đề phân ngưỡng ảnh;

® Bước 5: Loại bỏ biên dư thừa.

Ngày đăng: 08/11/2024, 17:27