Minh họa các bước của thuật toán cắt từ

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nhận dạng chữ viết tay tiếng Việt trên các thiết bị cầm tay Luận văn ThS. Công nghệ thông tin 1.01.10 (Trang 52 - 54)

GA(Gap accurate rate) là tỉ lệ phân loại khoảng trắng chính xác được tính theo công thức:

Bảng thực nghiệm sau đây sẽ đánh giá kết quả thực hiện thuật toán[9].

Độ đo Ngưỡng tách Giá trị

WER Cố định

Xác định bằng thuật toán ước lượng

86.42 86.58

GA Cố định

Xác định bằng thuật toán ước lượng

87.50 87.73

3.1.3Biểu diễn các cụm ký tự và dấu

Trong tiếng Việt, mỗi từ có thể có nhiều dấu đi kèm, các dấu này sẽ được sử dụng để tăng độ chính xác trong quá trình cắt ký tự khỏi từ. Các dấu sẽ được xác định bằng các cách như đếm số điểm, so sánh vị trí của nó với đường baseline giữa và đường baseline dưới.

Sau khi đã tách các từ khỏi dòng văn bản, ta sẽ xác định xem các dấu của ký tự sẽ nằm ở cụm ký tự nào. Để thực hiện được, ta sẽ xác định hình chữ nhật nhỏ nhất bao quanh cụm ký tự và các dấu của từ. Sau đó kiểm tra xem dấu thuộc cụm ký tự nào theo các quy tắc:

 Nếu hai giá trị xd1,xd2 của hình chữ nhật chứa dấu nằm trong xh11,xh21 của hình chữ nhật chứa cụm ký tự thì dấu đang xét được gán cho cụm ký tự đó.

 Nếu hai giá trị xd1,xd2 của hình chữ nhật chứa dấu giao với xh11,xh12

và xh21,xh22 của hai cụm ký tự liên tiếp thì dấu đó được gán cho cụm ký tự có khoảng cách giữa xd1 tới xhi1 gần nhất(i=1,2).

Trong đó (xd1,yd1),(xd2,yd2) là hai điểm biểu diễn hình chữ nhất nhỏ nhất chứa đấu. (xh11,yh11),( xh12,yh12) là hai điểm biểu diễn hình chữ nhật chứa cụm ký tự.

3.2.Cắt các ký tự khỏi từ

3.2.1Ƣớc lƣợng chiều rộng và cao của ký tự

Trong các thuật toán cắt từ, chiều rộng và chiều cao ước lượng của ký tự được sử dụng để kiểm tra xem một điểm p có khả năng là điểm cắt hay không bằng cách so sánh khoảng cách từ điểm p tới điểm cắt gần nhất với chiều rộng trung bình của một ký tự.

Chiều cao trung bình của một ký tự được xác định bằng cách tính khoảng cách giữa đường baseline dưới và đường baseline trên. Chiều rộng trung bình của một ký tự được xác định bằng lấy chiều cao trung bình của ký tự nhân với

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nhận dạng chữ viết tay tiếng Việt trên các thiết bị cầm tay Luận văn ThS. Công nghệ thông tin 1.01.10 (Trang 52 - 54)

Tải bản đầy đủ (PDF)

(100 trang)