Bài toán ước lượng bộ tham số

Với mơ hình này, hãy ước lượng bộ tham số λ =(A,B,π) để cho ra giá trị P(O\λ)lớn nhất.

Giải quyết bài toán: Sử dụng thuật toán Baunm-Welch

o Giá trị ban đầu ngẫu nhiên: λ =(A,B,π).

o Thực hiện Viterbi dựa vào λ và O.

o Cập nhật λ =(A,B,π). F F* F F B* B B* H B* T T H

π : q0 của F và B trên chuỗi Viterbi.

A: Tần suất của F/B chuyển đổi trên chuỗi Viterbi. B: Tần suất của H/T giới hạn bởi F/B.

3.2. MỘT SỐ ĐIỀU KIỆN RÀNG BUỘC VỀ MẪU CHỮ

Vì chữ viết tay khá đa dạng, có thể gãy nét hay có thể là các tiếng nước ngoài như tiếng Lào, Trung Quốc… Nếu xét như vậy thì q đa dạng khơng thể xét trong một thuật tốn, bên cạnh đó để đảm bảo cho chương trình nhận dạng chữ viết tay đạt hiệu quả nhận dạng cao thì chúng ta chỉ giới hạn ở các chữ cái hoa tiếng Anh.

o Chữ viết gồm các chữ cái từ A đến Z và viết trong một số kiểu font hạn chế. Không quá bay bướm, không quá nghiêng.

Ký tự A Ký tự C

(a)

(b)

Hình 3.6. Mẫu chữ in hoa: a) Mẫu sai, b) Mẫu đúng.

o Chữ viết phải rõ ràng, không được quá cẩu thả, mất nét. Đặc biệt cần có sự khác nhau giữa.

- Ký tự ‘C’ và ký tự ‘O’. - Ký tự ‘O’ và ký tự ‘Q’. - Ký tự ‘U’ và ‘V’.

Ví dụ 3.3:

- Hình 3.7a ký tự ‘Q’ viết thiếu nét có thể nhận dạng sang ký tự ‘C’, ký tự ‘E’ có thể nhận dạng sang ký tự ‘F’, ký tự ‘T’ dấu gạch ngang khơng rõ có thể nhận dạng sang ký tự ‘I’.

- Hình 3.7b ký tự ‘J’ khi mất nét dấu ngang vẫn nhận dạng được, vì nó khơng bị nhầm lẫn sang ký tự khác do đó khơng ảnh hưởng đến nhận dạng. Ký tự ‘C’ khi nét cong trên hoặc dưới khơng được rõ cũng có thể nhận dạng.

(a)

(b)

Hình 3.7. Chữ viết mất nét: a) Chữ viết mất nét không thể nhận dạng, b) Chữ viết mất nét có thể nhận dạng

Hình 3.8. Chữ viết nét không liền nhau (Ký tự ‘B’,’D’).

o Chữ viết lệch nét

(a) (b) (c) (d)

Hình 3.9. Chữ viết lệch nét: a) Chữ ‘Q’ bị lệch nét móc, b) Chữ ‘N’ viết cẩu

thả thành chữ ‘W’, c) Chữ ‘A’ viết thừa nét, d) Chữ ‘D’.

3.3. CÁC MẪU CHỮ VIẾT TAY

Sau đây là mợt sớ mẫu chữ viết tay được trích ra từ các mẫu sử dụng cho việc huấn luyện.

3.4. MỘT SỐ KỸ THUẬT NHẬN DẠNG TRÊN HMM3.4.1. Trích lọc đặc trưng 3.4.1. Trích lọc đặc trưng

Trích lọc đặc trưng là q trình rất quan trọng trong phương pháp của chúng ta để nhận dạng ký tự. Có hai đặc trưng cơ bản như vị trí, hướng, trong đó hướng là đặc trưng cơ bản nhất. Chính vì vậy hướng dựa vào xc, yc trong đó xc, yc là điểm trọng tâm của ảnh ký tự và xc, yc được xác định theo [12] bằng cách: ∑ = = n t t c x n x 1 1 ∑ = = n t t c y n y 1 1 (3.15) Trong đó n là độ dài chữ viết tay (n là số điểm tọa độ của chữ viết) Từ điểm trọng tâm xc, yc ta xác định các vectơ có hướng cách nhau 20o

để tạo ra “codeword” từ 1 đến 18 (hình 3.10).

Các vectơ có hướng sẽ cắt ảnh ảnh ký tự tại các giao điểm (giả sử có T giao điểm). Khi đó ta xác định các đặc trưng của ký tự chính là xác định hướng của điểm t+1 so với điểm t bằng gốc θt(hình 3.11).

 −  − = + + t t t t t x x y y 1 1 arctan θ \ t =1, 2...T−1 (3.16)

Hình 3.11. Hai điểm gần nhau trên ký tự tạo thành đoạn thẳng lệch so với

phương ngang gốc θ.

Sau khi trích lọc đặc trưng chúng ta xác định các trạng thái của ký tự, số trạng thái là một tham số quan trọng vì số trạng thái dư có thể phát sinh ra vấn đề tràn bộ nhớ nếu số mẫu huấn luyện không đủ để so sánh với tham số mơ hình. Khi đó khơng có đủ số trạng thái, năng suất phân biệt của mơ hình HMM bị giảm và sẽ có nhiều hơn một mẫu được làm mẫu trên một trạng thái. Ngoài ra, số trạng thái trong hệ thống nhận dạng dựa vào tính phức tạp của mỗi chữ cái (hình 3.13) và được quyết định bởi biểu đồ của mỗi đoạn thẳng với mỗi trạng thái của mỗi mơ hình HMM (hình 3.14). Có nhiều cấu trúc liên kết được sử dụng trong quá trình nhận dạng như Left-Right (LR), Left-Right Banded (LRB), Ergodic… tuy nhiên mỗi trạng thái trong cấu trúc Ergodic (cấu trúc đầy đủ) có nhiều sự chuyển tiếp hơn Left-Right Banded và Left- Right (hình 3.12), cấu trúc dữ liệu cũng khơng dễ. Bên cạnh đó cấu trúc liên kết LRB khơng có chuyển tiếp về trạng thái trước mà chỉ có chuyển tiếp tại chính bản thân nó và chuyển tiếp về một trạng thái sau. Thêm vào đó, cấu trúc

liên kết LRB được thu hẹp hơn LR (vì cấu trúc LR có sự chuyển tiếp đến

chính bản thân nó và chuyển tiếp đến các trạng thái sau nó) và đơn giản cho

việc huấn luyện dữ liệu có thể khớp với dữ liệu của mơ hình. Chính vì vậy trong luận văn này chúng tơi sử dụng cấu trúc liên kết Left-Right Banded với 3 trạng thái [16].

Hìn

TỔNG QUAN NHẬN DẠNG CHỮ VIẾT TAY

TỔNG QUAN NHẬN DẠNG CHỮ VIẾT TAY