Các nét bút thuộc các dòng khác nhau sẽ được phân loại

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nhận dạng chữ viết tay tiếng Việt trên các thiết bị cầm tay Luận văn ThS. Công nghệ thông tin 1.01.10 (Trang 89 - 91)

Ngưỡng để phân tách các từ được tính bằng cách áp dụng thuật toán được trình bày trong mục 3.1.1. với giá trì hằng  1.1.Bằng thực nghiệm cho thấy rằng thuật toán cho kết phân tách tốt(100%) trong trường hợp khoảng trắng giữa các từ xa và đều. Nếu khoảng cách giữa các từ nhỏ hơn giá trị ngưỡng không đáng kể, ta sẽ đánh giấu các điểm này lại. Sau khi nhận dạng xong ta sẽ thử tách từ nhận dạng được thành hai từ tại vị trí đánh dấu và kiểm tra theo các quy tắc được đề cập ở phần hậu xử lý để kiểm tra xem việc tách có phù hợp hay không. Nếu phù hợp thì hệ thống sẽ hiện tất cả kết quả có thể đúng lên cho người dùng chọn lựa kết quả.

5.2.4Bỏ dấu tiếng việt và ƣớc lƣợng chiều rộng của ký tự

Sau khi đã hiệu chỉnh góc nghiêng của từ, đường baseline dưới của từ sẽ được tính bằng cách tìm điểm có Histogram theo phương thẳng đứng lớn nhất và gần với điểm cuối cùng của từ nhất. Sau khi tính được đường baseline dưới và ta sẽ đánh dấu những nét bút nằm trên đường baseline dưới có khả năng là dấu. Các dấu ở phía trên của từ là một trong các dấu sau (“?”,””,”\”,”-”,/”). Dấu ở phía dưới của từ chỉ có thể là dấu “.”. Dấu này được xác định dựa vào số lượng điểm ít và chiều rộng và dài của hình chữ nhật nhỏ nhất bao quanh dấu. Các nét bút được gán nhãn có tiềm năng là dấu sẽ được kiểm tra lại một lần nữa để kiểm tra xem có chắc là dấu hay không bằng cách kiểm tra xem nét bút này có cắt các nét bút chắc chắn không phải là dấu hay không và diện tích cắt có nhiều hay không.

Sau khi loại bỏ các nét bút có khả năng là dấu ta sẽ tính đường baseline trên. Chiều rộng của một ký tự nằm trong khoảng từ ½(baseline dưới – baseline trên) tới khoảng (baseline dưới – baseline trên)*2.5.

5.2.5Hiệu chỉnh góc nghiêng

Góc nghiêng theo phương thẳng đứng và theo phương nằm ngang của một ký tự sẽ được tính dựa trên các thuật toán được đề cập ở mục 2.8.1.2. và 2.8.2.2. Góc nghiêng theo phương nằm ngang được tính cho từng ký tự một, tuy nhiên góc nghiêng theo phương thẳng đứng có thể được áp dụng cho tất cả các ký tự vì người viết thường giữ nguyên góc nghiêng này cho tất cả các từ.

5.2.6Xác định các điểm cắt tiềm năng

Để xác định các điểm cắt tiềm năng, tôi sử dụng thuật toán cắt chữ offline được trình bày trong tại mục [4.2.3] đồng thời đưa vào các thông tin động để làm tăng độ chính xác trong việc xác định các điểm cắt tiềm năng.

Thuật toán cắt ký tự online được trình bày như sau:

 Đánh dấu điểm cuối cùng của mỗi nét bút là điểm cắt tiềm năng. Trong hầu hết trường hợp điểm cuối cùng của nét bút cũng chính là điểm cuối cùng của ký tự.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nhận dạng chữ viết tay tiếng Việt trên các thiết bị cầm tay Luận văn ThS. Công nghệ thông tin 1.01.10 (Trang 89 - 91)

Tải bản đầy đủ (PDF)

(100 trang)