Phép chiếu khung theo chiều dọc

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nhận dạng các biểu mẫu tài liệu (Trang 73 - 75)

76

Chú ý rằng để nâng cao chất lƣợng trong các phép chiếu, chúng ta nên tách bỏ phần chữ viết tay ra khỏi khung điền thông tin trƣớc khi thực hiện các phép chiếu.

3.2.4.2.Phƣơng pháp bỏ qua các khoảng trắng.

Chúng ta có nhận xét rằng: trong một biểu mẫu động, có rất nhiều khoảng trắng giữa các khung điền thông tin và thời gian xử lý biểu mẫu sẽ giảm đi đáng kể nếu chúng ta thực hiện phép toán gán nhãn mà bỏ qua các khoảng trắng này. Do đó, chúng ta sẽ tiến hành so sánh hai thuật toán sau:

(1)Thuật toán không bỏ qua các khoảng trắng:

i) Toàn bộ biểu mẫu đƣợc tiến hành gán nhãn và phân tách khung điền và chữ viết tay.

ii) Sử dụng phép chiếu theo chiều ngang để xác định vị trí các khung điền thông tin.

iii) Đối với mỗi khung điền đã xác định ở bƣớc trƣớc, chúng ta sử dụng phép chiếu theo chiều dọc để xác định vị trí các cột trong khung. Trong thuật toán này, chúng ta đã sử dụng hai phép chiếu theo chiều dọc và chiều ngang để xác định khung điền. Do đã phân tách chữ viết tay ra khỏi khung điền nên quá trình tiến hành phép chiếu sẽ không bị ảnh hƣởng của các chữ viết tay. Do đó độ chính xác khi xác định khung điền sẽ tăng lên nhƣng tốc độ xử lý sẽ bị chậm đi.

(2)Thuật toán có bỏ qua các khoảng trắng:

i) Sử dụng phép chiếu theo chiều ngang để xác định vị trí của các khung điền thông tin.

ii) Đối với từng khung điền thông tin vừa xác định đƣợc, chúng ta tiến hành sử dụng phép gán nhãn để phân tách chữ viết tay và khung điền. iii) Đối với mỗi khung điền, sau khi loại bỏ chữ viết tay, chúng ta sẽ tiến

77

Nhận xét: Mặc dù các chữ viết tay trong khung điền có thể gây ra nhiễu đối với quá trình nhận dạng vị trí của các khung điền, đặc biệt là trong phép chiếu theo chiều dọc để xác định các cột trong khung điền thông tin. Tuy nhiên chúng sẽ không gây ảnh hƣởng gì nhiều đối với phép chiếu theo chiều ngang để xác định vị trí của các khung. Do đó phép chiếu theo chiều ngang có thể đƣợc tiến hành đầu tiên để xác định vị trí các khung điền. Sau đó, chúng ta mới tiến hành phép gán nhãn đối với mỗi khung để phân tách chữ viết tay và khung điền. Và nhƣ thế là chúng ta đã bỏ qua đƣợc các khoảng trắng giữa các khung trong quá trình xử lý mà độ chính xác của thuật toán vẫn đạt cao.

3.2.5 Xác định thông tin ẩn chứa trong các khung điền.

Sau khi đã xác định đƣợc vị trí các khung, chúng ta sẽ tiến hành nhận dạng phân tích cấu trúc các chấm nhỏ của từng khung. Để xác định cấu trúc tổ chức của các chấm nhỏ, chúng ta sẽ thực hiện phép chiếu theo chiều dọc. Phân tích hình phổ của phép chiếu sẽ cho chúng ta cấu trúc sắp xếp của các chấm nhỏ.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nhận dạng các biểu mẫu tài liệu (Trang 73 - 75)

Tải bản đầy đủ (PDF)

(109 trang)