Thuật toán phân lớp ký tự

Một phần của tài liệu Nghiên cứu phương pháp nhận dạng chữ việt in chất lượng thấp (Trang 52 - 59)

Với mỗi kí tự đầu vào cần nhận dạng sẽ được đối sánh lần lượt với tất cả các Template đã thuđược ở bước trên nhằm tìm ra một hoặc một số lớp kí tự

giống nó nhất tức là có độ phù hợp cao nhất so với đối tượng đầu vào đó. Ở đây, độ phù hợp của kí tự cần nhận dạng so với một Template được tính bằng cách đối sánh hai chiều giữa tập đặc trưng trích chọn được từ đối tượng cần

nhận dạng và tập đặc trưng của Template đang được xét, thể hiện cụ thể theo

(2.1) Với MFAvg là độ phù hợp trung bình giữa tập đặc trưng cần nhận dạng

so với tập đặc trưng đại diện củaTemplate đang được xét. Ngược lại, MPAvg

là độ phù hợp trung bình giữa tập đặc trưng của mẫu đang xét so với tập đặc trưng cần nhận dạng, LFTotal là tổng chiều dài các đặc trưng của kí tự cần

nhận nhận dạng, LPTotal là tổng chiều dài các đặc trưng đại diện. Để thuận

tiện cho việc tính toán, kết quả MatchRate thu được sau mỗi bước đối sánh

giữa đối tượng cần nhận dạng với một mẫu sẽ được lưu vào một danh sách

Kết quả đầu ra cuối cùng sẽ là một danh sách các lớp kí tự ứng cử viên

tương ứng với giá trị MatchRate lớn nhất và một số giá trị xấp xỉ giá trị lớn

nhất đó.

2.2.2.1 Tính MFAvg

Giá trị này được tính bằng tổng độ phù hợp của mỗi mỗi đặc trưng cần

nhận dạng so với tập đặc trưng đại diện của Template đang xét trên số lượng các đặc trưng. Nếu gọi Feat-Set ={Featurei}i=1→NumFeat là tập đặc trưng cần

nhận dạng, và Proto-Set là tập đặc trưng đại diện, giá trị này được tính cụ thể

thông qua công thức sau:

(2.2)

Trong đó Similarity(.) là hàm tính độ giống nhau giữa một đặc trưng cần

nhận dạng F{X,Y, } so với một đặc trưng đại diện FP{Xp, Yp,p, L}, giá tr

của hàm này được tính như sau:

(2.3) VớiAngDiff =║θ - θp║ là độ chênh lệch giữa hai góc θ vàθp, giá trị này

được tính theo đơn vị radian; Distance là khoảng cách từ vị trí tâm (X, Y )

của đặc trưng cần nhận dạng đến đường đặc trưng đại diện, được tính bằng

công thức:

(2.4) Các hệ số A, B, C được xác định như sau:

(2.5) Các hằng sốK và SM được sử dụng để điều chỉnh mức độ ảnh hưởng của

AngDiff và Distance đến giá trị của Similarity(.), giá trị của các hằng số này

được lựa chọn theo kinh nghiệm, hiện tại giá trịK = 1.0 và SM = 0.0085.

2.2.2.2 Tính MPAvg

Với ý tưởng chia nhỏ tập đặc trưng ở bước phân lớp, mỗi đặc trưng đại

diện thường tương ứng v ới nhiều đặc trưng cần nhận dạng. Cụ thể, số lượng

tối đa các đặc trưng cần nhận dạng tương ứng với một đặc trưng đại diện ở đây được xác định bằng: N=L/FEATLE. Như vậy, việc đối sánh mỗi đặc trưng đại diện với các đặc trưng cần nhận dạng phải được thể hiệ n dưới hình thức đối sánh mộtnhiều. Cụ thể là tại mỗi bước đối sánh, ta sẽ chọn ra N đặc trưng cần nhận dạng giống nhất với đặc trưng đại diện đó thay vì chỉ chọn ra

một đặc trưng như ở bước trên. Quá trình tính toán này sẽ được cụ thể hóa bằngThuậttoán 2.3sau đây:

Thuật toán 2.3: Thuật toán tính giá trị MPAvg

Proceduce Caculate_MPAvg BEGIN

{Khởi tạo}

Total = 0 ; NumMatch = 0;

for each TmpFeat in Prototype-Set do match_list =EMPLTY;

L = length_of(TmpFeat); for each Feat in Feature-Set do rate = Similarity(Feat, TmpFeat); match_list = match_list∪ rate; end do

Call_Sort(match_list); N = L / FEATLEN; ∑ = = N i i list match sum 1 _ ;

Total = Total + sum;

NumMatch = NumMatch + N; end do

return MPAvg = Total / NumMatch;

END

Kết quả thực hiện của thuật toán với một ảnh đầu vào cụ thể được thể

hiện trên Hình 2.11 (c), trong đó các đoạn ngắn đậm là các đặc trưng được

trích chọn từ ảnh đầu vào cần nhận dạng (xem Hình 2.11 (a) ), các đoạn dài, mảnh là các đặc trưng của mẫu thu được từ quá trình huấn luyện.

Hình 2.11: Kết quả thực hiện của thuật toán

Hình 2.11 (a) cho thấy một lỗi đứt nét đã làm choảnh đầu vào bị tách ra làm hai phần riêng biệt, trong khi mẫu đối sánh chỉ gồm duy nhất một thành phần. Mặc dù vậy, với cách thức chia nhỏ tập đặc trưng cần nhận dạng và cơ

chế đối sánh một-nhiều trong cách tiếp cận này, kết quả cho thấy: Trong số 64 đặc trưng trích chọn đư ợc từ ảnh đầu vào cần nhận dạng, chỉ có 6 đặc trưng được kí hiệu từ 1 đến 6 là hoàn toàn không phù hợp (theo qui ước là độ phù

hợp < 0.5), 4 đặc trưng được kí hiệu từ 7 đến 10 là không phù hợp (độ phù hợp trong khoảng từ [0.5,0.75)), tất cả các đặc trưng còn lại là phù hợp với

tập đặc trưng đại diện (độ phù hợp trong khoảng từ [0.75,1]).

2.3 Kết luận

Trong chương này, trước tiên luận văn tập trung tìm hiểu, khảo sát các phương pháp phân lớp và trích chọn đặc trưng trong nhận dạng chữ. Các kết

quả khảo sát thực nghiệm cho thấy ưu điểm của phương pháp đối sánh mẫu là tính tổng quát hóa cao, có thể sử dụng với hầu hết các loại đặc trưng. Tuy

nhiên, hiệu quả của phương pháp lại phụ thuộc vào loại đặc trưng được sử

dụng. Các phương pháp phân lớp dựa vào việc phân tích cấu trúc của các đối tượng cần nhận dạng có khả năng đạt được độ chính xác cao nhưng yêu cầu

nhiều tri thức chuyên gia và phải hiểu rõ các đặc trưng của tập mẫu học. Các phương pháp học máy có ưu điểm tốc độ phân lớp cao, không cần nhiều thời

gian tìm hiểu tập mẫu như hai phương pháp trên lại yêu cầu số lượng mẫu

lớn, đa dạng. Nói một cách cụ thể hơn là các mô hình phân lớp cần phải được

huấn luyện (biết trước) các dạng đối tượng mà nó cần nhận dạng.

Trong thực tế, đối với những ảnh văn bản đầu vào chất lượng thấp thì hìnhảnh của các chữ cái có thể bị biến dạng, đứt, dính rất ngẫu nhiên, không có quy luật. Vì vậy, rất khó để có thể cung cấp cho các mô hình học tất cả các

dạng mẫu và chúng cần phải nhận dạng.

Để giải quyết vấn đề đó, luận văn đã lựa chọn một mô hình phân lớp

kí tự có khả năng giải quyết tốt bài toán nhận dạng trong trường hợp ảnh đầu vào có chất lượng thấp. Trong đó đã áp dụng các kỹ thuật phân cụm và chia nhỏ tập đặc trưng, cho phép các đặc trưng cần nhận dạng không cần

phải giống với các đặc trưng đã được sử dụng trong quá trình huấn luyện

C

CHHƯƯƠƠNNGG33- TH- ỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ

Trong chương này, luận văn sẽ tiến hành cài đặt chương trình nhận dạng ảnh ký tự dựa trên thuật toán đãđược lựa chọn. Trên cơ sở đó nhằm đánh giá

hiệu quả của thuật toán đối với các tập mẫu ký tự được thu thập từ thực tế.

Một phần của tài liệu Nghiên cứu phương pháp nhận dạng chữ việt in chất lượng thấp (Trang 52 - 59)

Tải bản đầy đủ (PDF)

(78 trang)