Hình 7.26 Chữ P.
Khi đó quy tắc nhận dạng X' đợc xem là X nếu: Hx' ⊆ Hx hoặc Hx ⊆ Hx' và Vx' ⊆ Vx hoặc Vx ⊆Vx'. Nhìn chung, kỹ thuật này tơng đối đơn giản, tốc độ cao và kết quả nhận dạng không phụ thuộc vào việc mất các điểm ở biên chữ. Tuy nhiên, kỹ thuật này đòi hỏi font phải chuẩn.
Kỹ thuật nhận dạng dựa vào hình chiếu
Kỹ thuật này là cải tiến của kỹ thuật trên, nhằm áp dụng cho nhiều kiểu font. Giả sử mẫu nhận dạng có kích thớc n x n. Gọi ξi là véc tơ bậc n gồm các phần tử 0 và 1 tơng ứng với hàng i (hay cột i). Gọi χ(ξi) là tổng số các phần tử 1 trong véctơ ξi và β(ξi) là số giao điểm của ξi với ảnh mẫụ Khi đó một hàng hay một cột đợc gọi là dài nếu:
β(ξi) = 1
χ(ξi) ≥ à - τ, với à là độ rộng của ký tự và τ là ngỡng cho trớc (*). ý nghĩa của hàng hay cột dài là chúng thể hiện chiều ngang hay chiều cao của kí tự. Đặt ξ i* = ξi ∪ ξi+1. Nếu thoả mãn các điều kiện (*) , tức là:
β(ξi*) = 1
χ(ξi*) ≥ à - τ
khi đó ta có thể viết β(ξi *) = 1. Để trích ra các đặc trng của mẫu, ảnh đợc duyệt theo chiều ngang hay đứng nh phơng pháp trên. Tuy nhiên, ở đây ta có:
Hi = β(ξi*) và Vi = β(ξi*).
Tiếp đó, nếu trong các chuỗi H và V nếu Hi = Hi+1 hoặc Vi = Vi+1 thì phần tử Hi+1 hoặc Vi+1 bị xóa khỏi chuỗị Cuối cùng ta thu đợc các chuỗi H' và V' đặc trng cho ký tự. Thí dụ:
nếu H = 0001112222211111111110 thì H' = 012110 và V = 01112111133322222111111000 thì V' = 0123210
Quá trình nhận dạng trở thành so sánh các cặp H' và V'. Kỹ thuật này có u điểm là có thể áp dụng cho nhiều font. Song nếu chất lợng quét tồi, ảnh có nhiều răng ca giả thì chuỗi đặc trng sẽ lệch nhiều so với chuỗi chuẩn. Ngoài các kỹ thuật kể trên còn có một số kỹ thuật khác nh thống kê giao điểm, đồ thị đối sánh, v,..., v.
7.5.4.2 Kỹ thuật nhận dạng chữ viết tay có ràng buộc
Một số ràng buộc
Vì chữ viết tay khá đa dạng, có thể gãy nét hay có thể là các tiếng nớc ngoài nh tiếng Lào, Trung quốc, v,...,v. Nếu xét nh vậy thì quá đa dạng không thể xét trong một thuật toán. ở đây ta chỉ giới hạn các chữ hệ la tinh:
- Các chữ đầu vào là thuộc hệ la tinh, có thể gồm các chữ số từ 0 đến 9 và viết trong một số kiểu font hạn chế (không quá bay bớm, không quá nghiêng).
- Cần có sự khác nhau giữa số "0" và chữ "o" vì nếu viết thờng thì rất giống nhaụ Nên ta giả định chúng đợc viết nh kiểu viết của máy tính.
- Vì văn bản có thể có các đờng kẻ, để nhận dạng đợc, ta giả định là chúng cách nhau một khoảng chấp nhận đợc.
Kỹ thuật nhận dạng
Kỹ thuật nhận dạng ở đây dựa vào lý thuyết ra quyết định. Ngời ta xác định các đặc trng của cấu trúc chữ nh: số nhát cắt ngang, các nét cong hay thẳng, mở hay đóng, v,..,v. Cách sử dụng các dấu hiệu cũng khác nhaụ Theo các tác giả [2], chữ đợc chia thành 2 nhóm lớn:
• Nhóm thứ nhất là nhóm gồm các chữ có ít nhất là một nhát cắt một. Nhóm này gồm các chữ nh: C E F G I J L P S T Y Z, các số từ 1 đến 7 và số 9
• Nhóm thứ hai gồm các chữ còn lại và 2 số 0 và số 8.
Sử dụng thêm tính chất đóng mở, ta lại chia nhóm hai thành 4 nhóm nhỏ: - Đóng trên và đóng dới: B D O Q 0 8
- Đóng trên mở dới: A M R - Mở trên đóng dới: U V
- Mở trên, mở dới: H K N X
Trên cơ sở đó, thêm các tính chất nh tính cong hay thẳng bên phải, bên trái ta sẽ phân biệt đợc các chữ trong các nhóm nhỏ.
Đối với nhóm 1 do đặc tính của nó nên phải dùng phơng pháp cửa sổ di động để xem xét. Dựa vào lát cắt, ngới ta chia chữ làm 6 thành phần và biểu diễn bởi một véc tơ
V:{v1, v2, v3, v4, v5, v6}:
Vi = 1 nếu có một điểm đen trên phần i I II 0 nếu không III IV V VI Ví dụ nh V(C) = (0, 1, 1, 0, 0, 1), V(J) = (1, 1,0, 0, 1, 0)
Kỹ thuật trên đã đợc cài đặt trong hệ nhận dạng VIETIN của công ty SEATIC.
7.5.4.3. Thuật toán nhận dạng chữ tổng quát
Khác với kỹ thuật trên dựa vào lý thuyết ra quyết định trên cơ sở không gian dấu hiệu, kỹ thuật này dựa vào cấu trúc chữ. Theo kỹ thuật này, mỗi ký tự nhận dạng đợc biểu diễn bởi một xâu hay tổng quát hơn bởi một đồ thị của các dạng nguyên thuỷ và mối quan hệ giữa chúng. Nh đã nêu trong phần nhận dạng cấu trúc, quá trình nhận dạng là quá trình phân tích cú pháp hay đối sánh đồ thị. Một văn bản coi nh một dạng phức tạp cấu thành từ các dạng trung gian. Các dạng trung gian lại có thể coi đợc cấu tạo từ các dạng con (là ký tự). Cuối cùng, mỗi ký tự đợc cấu thành từ các dạng nguyên thuỷ. Quá trình nhận dạng có thể biểu diễn theo sơ đồ sau:
Dạng nguyên thuỷ Dạng con Dạng trung gian Dạng phức tạp
Kỹ thuật nhận dạng này bao gồm 3 công đoạn:
- Phân hoạch ký tự- biểu diễn dạng: phân hoạch tập nhận dạng thành N tập đơn theo nh lý thuyết phân hoạch không gian.
- Trích chọn các dạng nguyên thuỷ: Văn bản sau khi đợc sử lý sơ bộ sẽ qua phần trích chọn các đặc trng mà ở đây là các điểm kết thúc, chạc bạ
- Nhận dạng dấu: Nhận dạng dấu là công đoạn quan trọng, nhất là trong nhận dạng chữ Việt. Dòng dấu thờng nhỏ hơn và khó nhận dạng hơn.
Phân hoạch ký tự-biểu diễn dạng
Gọi à là tập các đối tợng nhận dạng:
à = {A, B, C,..., Z}
ξi ∩ ξj = ∅ với i <> j, i = 1, 2,..., N (là số ký tự nhận dạng) ∪ξi = à
Bằng cách sử dụng một loạt các quy tắc, các dấu hiệu, thí dụ nh : - l: là số chu trình (loop )
- j: số điểm nối (Junctions point: ngã 3, ngã t) - e: số điểm ngoặt (turning point)
- f: số điểm kết thúc (end point) - t: hớng (trên, dới, phải trái),
ta phân hoạch tập đối tợng đã cho thành các tập con. áp dụng tiếp các quy tắc, dấu hiệu này, ta lại phân tiếp các tập con thành các tập nhỏ hơn. Thí dụ với tập đã cho, dùng quy tắc e (số điểm ngoặt) ta phân thành 3 tập nhỏ:
à1 = {A D O P Q R}, à2 = {B} à3 = {C E F,...} tơng ứng với số điểm ngoặt khác nhaụ Nếu cha đủ độ tin cậy, ta dùng thêm hớng t để phân tiếp. Thí dụ, dùng thêm t cho tập à1ta thu
đợc 5 tập nhỏ:
à11 = {A R}, à12 = { D }, à13 = { O }, à14 = { Q }, à15 = { P }.
Nếu các tập thu đợc cha phải là đơn nhất, ta áp dụng thêm các quy tắc khác nh j để làm mịn nó. Với tập à11, áp dụng quy tắc j ta chia nó thành 2 tập {A} và {R} vì chữ A có 2 điểm nối (chạc 3) mà chữ R chỉ có một. Cuối cùng ta có một phân hoạch không gian theo yêu cầu và chuyển sang bớc trích chọn đặc trng.
Trích chọn các dạng nguyên thuỷ
Các dạng nguyên thuỷ cần xác định ở đây là các điểm chạc ba và các điểm kết
thúc. Các điểm này đợc định nghĩa nh hình dới đâỵ Một cách tổng quát nh đã nói trong phần trên, điểm kết thúc là điểm có duy nhất một láng giềng đen; còn điểm chạc ba là điểm có NZP=3.