Minh họa một phần cây lưu trữ trong bộ nhớ- 123docz.net

Sau khi cắt và kết hợp nhận dạng ta sẽ được các kết quả như “vigoiiy”, “ngoiiy”, “ngouy”, “ngay”.

5.3.Nhận dạng các ký tự

Trong hệ thống nhận dạng demo này, tôi sử dụng hai phương pháp nhận dạng là đối sánh mẫu và đối sánh chuỗi đã được đề cập trong các mục 4.1 và 4.3. Lý do chọn hai phương pháp này là phương pháp thứ hai có thể được dùng để kiểm tra lại kết quả của phương pháp thứ nhất và dữ liệu mẫu cho cả hai phương pháp đơn giản, dễ thực hiện.

Chiều rộng và chiều cao của ký tự mẫu được lấy cố định là 40 x 40, với kích thước này các ký sẽ ít bị nhầm lẫn hơn. Như vậy mỗi mẫu trong phương pháp đối sánh nhị phân sẽ được biểu diễn bằng 100 bit. Sau khi nhận dạng ký tự bằng phương pháp đối sánh mẫu nhị phân, các ký tự có khả năng(tỉ lệ sai mẫu thấp) là kết quả nhận dạng sẽ được lưu lại và sử dụng phương pháp đối sánh chuỗi để đối sánh mẫu đã lưu trữ của các ký tự có khả năng là kết quả với mẫu cần nhận dạng. Tổng hợp của cả hai phương pháp này sẽ cho kết quả cuối cùng. Ví dụ với ký tự “e” và ký tự “o” nếu người viết viết xấu thì hai ký tự này tương đối giống nhau, bằng phương pháp đối sánh bít thì hai ký tự này tương đối giống nhau nhưng bằng phương pháp đối sánh chuỗi thì hai ký tự này lại rất khác nhau.

Mỗi lần nhận dạng ta sẽ lưu lại kết quả của 3 ký tự cho độ chính xác cao nhất. Các kết quả này sẽ được kiểm tra tại bước hậu xử lý để chọn ra các kết quả đúng về mặt cú pháp tiếng Việt.

5.4.Hậu xử lý

Tiếng Việt rất phong phú và đa dạng, do đó khó có để biểu diễn ngữ cảnh của tất cả các từ. Trong hệ thống này, tôi sử dụng quy tắc đứng trước và sau của các ký tự trong tiếng Việt để kiểm tra xem một từ có hợp lệ hay không. Bảng

sau đây sẽ thống kê xem sau một ký tự chỉ có thể có các ký tự không dấu nào đứng sau. Ký tự Các ký tự có thể đứng sau a n,i,o,u,y,t,c,n,m b i,o,a,e,u c a, e, i, o, u d a, o, e, i, u e o, n,m,u g a, e, i, h, u,o h a, o, i, e, u,y i u,n,m k h,a,i,y,o,e,u l a,e,i,o,u,y m a,e,i,o,u,y n a,e,i,o,u,y,g,h o a,i,e,m,n,o,u,c,t p a,e,i,o,u,h,y q u r a,i,u,y,o s a,i,o,u,y,e t a,o,i,e,u,y,h u u,n,y,a,i,e,t,n,m,c v a,e,i,u,y y e

Ở ví dụ trên, các kết quả như “vigoiiy”, “ngoiiy”, “ngouy” sẽ bị loại bỏ, chỉ có kết quả là “ngay” được chấp nhận. Sau khi thu được kết quả là “ngay” ta sẽ ghép dấu sắc được nhận dạng riêng để thu được chữ hoàn chỉnh “ngày”

5.5.Kết luận

Việc xác định đồng thời nhiều vị trí cắt ở cùng một thời điểm và sử dụng các quy tắc thứ tự giữa các từ trong tiếng Việt trong qua trình nhận dạng đảm bảo cho thuật toán luôn chọn được vị trí cắt chính xác nhất tương ứng với kết quả nhận dạng tốt nhất.

Trong trường hợp người dùng viết chữ đều, rõ ràng, tỉ lệ xác định chính xác điểm cắt đúng là rất cao. Tuy nhiên trong một số trường hợp người sử dụng viết dấu quá xa, quá gần với các ký tự hoặc các dấu được viết to hơn nhiều so với tỉ lệ của ký tự, các đường baseline sẽ bị tính sai dẫn tới việc cắt ký tự bị sai.

Minh họa một phần cây lưu trữ trong bộ nhớ

Chữ “Clintor” sau khi được làm trơn

Tính khoảng cách giữa hai thành phần