Bài toán ước lượng bộ tham số

Với mô hình này, hãy ước lượng bộ tham số λ =(A,B,π) để cho ra giá trị P(O\λ)lớn nhất.

Giải quyết bài toán: Sử dụng thuật toán Baunm-Welch

o Giá trị ban đầu ngẫu nhiên: λ =(A,B,π).

o Thực hiện Viterbi dựa vào λ và O.

o Cập nhật λ =(A,B,π). F F* F F B* B B* H B* T T H

π : q0 của F và B trên chuỗi Viterbi.

A: Tần suất của F/B chuyển đổi trên chuỗi Viterbi.

B: Tần suất của H/T giới hạn bởi F/B.

3.2. MỘT SỐ ĐIỀU KIỆN RÀNG BUỘC VỀ MẪU CHỮ

Vì chữ viết tay khá đa dạng, có thể gãy nét hay có thể là các tiếng nước ngoài như tiếng Lào, Trung Quốc… Nếu xét như vậy thì quá đa dạng không thể xét trong một thuật toán, bên cạnh đó để đảm bảo cho chương trình nhận dạng chữ viết tay đạt hiệu quả nhận dạng cao thì chúng ta chỉ giới hạn ở các chữ cái hoa tiếng Anh.

o Chữ viết gồm các chữ cái từ A đến Z và viết trong một số kiểu font hạn chế. Không quá bay bướm, không quá nghiêng.

Ký tự A Ký tự C

(a)

(b)

Hình 3.6. Mẫu chữ in hoa: a) Mẫu sai, b) Mẫu đúng.

o Chữ viết phải rõ ràng, không được quá cẩu thả, mất nét. Đặc biệt cần có sự khác nhau giữa.

- Ký tự ‘C’ và ký tự ‘O’. - Ký tự ‘O’ và ký tự ‘Q’. - Ký tự ‘U’ và ‘V’.

Ví dụ 3.3:

- Hình 3.7a ký tự ‘Q’ viết thiếu nét có thể nhận dạng sang ký tự ‘C’, ký tự ‘E’ có thể nhận dạng sang ký tự ‘F’, ký tự ‘T’ dấu gạch ngang không rõ có thể nhận dạng sang ký tự ‘I’.

- Hình 3.7b ký tự ‘J’ khi mất nét dấu ngang vẫn nhận dạng được, vì nó không bị nhầm lẫn sang ký tự khác do đó không ảnh hưởng đến nhận dạng. Ký tự ‘C’ khi nét cong trên hoặc dưới không được rõ cũng có thể nhận dạng.

(a)

(b)

Hình 3.7. Chữ viết mất nét: a) Chữ viết mất nét không thể nhận dạng, b) Chữ viết mất nét có thể nhận dạng

Hình 3.8. Chữ viết nét không liền nhau (Ký tự ‘B’,’D’).

o Chữ viết lệch nét

(a) (b) (c) (d)

Hình 3.9. Chữ viết lệch nét: a) Chữ ‘Q’ bị lệch nét móc, b) Chữ ‘N’ viết cẩu thả thành chữ ‘W’, c) Chữ ‘A’ viết thừa nét, d) Chữ ‘D’.

3.3. CÁC MẪU CHỮ VIẾT TAY

Sau đây là một số mẫu chữ viết tay được trích ra từ các mẫu sử dụng cho việc huấn luyện.

3.4. MỘT SỐ KỸ THUẬT NHẬN DẠNG TRÊN HMM3.4.1. Trích lọc đặc trưng 3.4.1. Trích lọc đặc trưng

Trích lọc đặc trưng là quá trình rất quan trọng trong phương pháp của chúng ta để nhận dạng ký tự. Có hai đặc trưng cơ bản như vị trí, hướng, trong đó hướng là đặc trưng cơ bản nhất. Chính vì vậy hướng dựa vào xc, yc trong đó xc, yc là điểm trọng tâm của ảnh ký tự và xc, yc được xác định theo [12] bằng cách: ∑ = = n t t c x n x 1 1 ∑ = = n t t c y n y 1 1 (3.15) Trong đó n là độ dài chữ viết tay (n là số điểm tọa độ của chữ viết) Từ điểm trọng tâm xc, yc ta xác định các vectơ có hướng cách nhau 20o

để tạo ra “codeword” từ 1 đến 18 (hình 3.10).

Các vectơ có hướng sẽ cắt ảnh ảnh ký tự tại các giao điểm (giả sử có T

giao điểm). Khi đó ta xác định các đặc trưng của ký tự chính là xác định hướng của điểm t+1 so với điểm t bằng gốc θt(hình 3.11).

 −  − = + + t t t t t x x y y 1 1 arctan θ \ t =1, 2...T−1 (3.16)

Hình 3.11. Hai điểm gần nhau trên ký tự tạo thành đoạn thẳng lệch so với phương ngang gốc θ.

Sau khi trích lọc đặc trưng chúng ta xác định các trạng thái của ký tự, số trạng thái là một tham số quan trọng vì số trạng thái dư có thể phát sinh ra vấn đề tràn bộ nhớ nếu số mẫu huấn luyện không đủ để so sánh với tham số mô hình. Khi đó không có đủ số trạng thái, năng suất phân biệt của mô hình HMM bị giảm và sẽ có nhiều hơn một mẫu được làm mẫu trên một trạng thái. Ngoài ra, số trạng thái trong hệ thống nhận dạng dựa vào tính phức tạp của mỗi chữ cái (hình 3.13) và được quyết định bởi biểu đồ của mỗi đoạn thẳng với mỗi trạng thái của mỗi mô hình HMM (hình 3.14). Có nhiều cấu trúc liên kết được sử dụng trong quá trình nhận dạng như Left-Right (LR), Left-Right Banded (LRB), Ergodic… tuy nhiên mỗi trạng thái trong cấu trúc Ergodic (cấu trúc đầy đủ) có nhiều sự chuyển tiếp hơn Left-Right Banded và Left- Right (hình 3.12), cấu trúc dữ liệu cũng không dễ. Bên cạnh đó cấu trúc liên kết LRB không có chuyển tiếp về trạng thái trước mà chỉ có chuyển tiếp tại chính bản thân nó và chuyển tiếp về một trạng thái sau. Thêm vào đó, cấu trúc

liên kết LRB được thu hẹp hơn LR (vì cấu trúc LR có sự chuyển tiếp đến chính bản thân nó và chuyển tiếp đến các trạng thái sau nó) và đơn giản cho việc huấn luyện dữ liệu có thể khớp với dữ liệu của mô hình. Chính vì vậy trong luận văn này chúng tôi sử dụng cấu trúc liên kết Left-Right Banded với 3 trạng thái [16].

Hìn

TỔNG QUAN NHẬN DẠNG CHỮ VIẾT TAY

TỔNG QUAN NHẬN DẠNG CHỮ VIẾT TAY