Phƣơng pháp bỏ qua các khoảng trắng

Một phần của tài liệu Nhận dạng các biểu mẫu tài liệu (Trang 74 - 75)

3.2 Các thuật toán xử lý ảnh áp dụng cho xử lý biểu mẫu động

3.2.4.2.Phƣơng pháp bỏ qua các khoảng trắng

Chúng ta có nhận xét rằng: trong một biểu mẫu động, có rất nhiều khoảng trắng giữa các khung điền thông tin và thời gian xử lý biểu mẫu sẽ giảm đi đáng kể nếu chúng ta thực hiện phép toán gán nhãn mà bỏ qua các khoảng trắng này. Do đó, chúng ta sẽ tiến hành so sánh hai thuật toán sau:

(1)Thuật toán không bỏ qua các khoảng trắng:

i) Toàn bộ biểu mẫu đƣợc tiến hành gán nhãn và phân tách khung điền và chữ viết tay.

ii) Sử dụng phép chiếu theo chiều ngang để xác định vị trí các khung điền thông tin.

iii) Đối với mỗi khung điền đã xác định ở bƣớc trƣớc, chúng ta sử dụng phép chiếu theo chiều dọc để xác định vị trí các cột trong khung. Trong thuật toán này, chúng ta đã sử dụng hai phép chiếu theo chiều dọc và chiều ngang để xác định khung điền. Do đã phân tách chữ viết tay ra khỏi khung điền nên quá trình tiến hành phép chiếu sẽ không bị ảnh hƣởng của các chữ viết tay. Do đó độ chính xác khi xác định khung điền sẽ tăng lên nhƣng tốc độ xử lý sẽ bị chậm đi.

(2)Thuật toán có bỏ qua các khoảng trắng:

i) Sử dụng phép chiếu theo chiều ngang để xác định vị trí của các khung điền thông tin.

ii) Đối với từng khung điền thông tin vừa xác định đƣợc, chúng ta tiến hành sử dụng phép gán nhãn để phân tách chữ viết tay và khung điền. iii) Đối với mỗi khung điền, sau khi loại bỏ chữ viết tay, chúng ta sẽ tiến

hành chiếu theo chiều dọc để xác định vị trí chính xác của từng cột trong khung.

77

Nhận xét: Mặc dù các chữ viết tay trong khung điền có thể gây ra nhiễu đối với quá trình nhận dạng vị trí của các khung điền, đặc biệt là trong phép chiếu theo chiều dọc để xác định các cột trong khung điền thông tin. Tuy nhiên chúng sẽ không gây ảnh hƣởng gì nhiều đối với phép chiếu theo chiều ngang để xác định vị trí của các khung. Do đó phép chiếu theo chiều ngang có thể đƣợc tiến hành đầu tiên để xác định vị trí các khung điền. Sau đó, chúng ta mới tiến hành phép gán nhãn đối với mỗi khung để phân tách chữ viết tay và khung điền. Và nhƣ thế là chúng ta đã bỏ qua đƣợc các khoảng trắng giữa các khung trong quá trình xử lý mà độ chính xác của thuật toán vẫn đạt cao.

Một phần của tài liệu Nhận dạng các biểu mẫu tài liệu (Trang 74 - 75)