Hình 2.8: Khoảng cách giữa hai đường thẳng (co-line distance) (Nguồn: [1])

Một phần của tài liệu Phân tích cấu trúc và nhận dạng biểu mẫu (Trang 31 - 36)

chồng (overlap) lên nhau theo chiều dọc và C và C' không thể ghép để tạo thành đường thẳng và dcc' được gán bằng ∞.

• dcc': khoảng cách từ điểm giữa (mid-points) của C' đến phần mở rộng

(2.2)

Hình 2.8: Khoảng cách giữa hai đường thẳng (co-line distance) (Nguồn: [1])

nếu nếu

của C. Giá trị này càng nhỏ thì khả năng ghép C và C' càng cao.

Lưu ý: chỉ những chuỗi điểm ảnh bình thường (normal run-length, chuỗi

điểm ảnh có chiều dài nhỏ hơn hai lần chiều rộng của DSCC, ngược lại là abnormal run-length) mới được xét.

• M: số lượng chuỗi điểm ảnh (bình thường) trong C'. C' có thể ghép với C nếu thỏa mãn các điều kiện sau:

1) Điều kiện mở rộng tuyến tính: dcc 'dxW với W là chiều rộng trung bình của C.

2) Điều kiện khoảng cách: có ba khả năng

(a) Rỗng: nếu dx <= T1 (T1=15), C và C' được ghép. Ngược lại, khoảng cách quá lớn nên C' không thể ghép với C.

(b) Tồn tại một DSCC khác và nó có chiều rộng nhỏ hơn hai lần chiều rộng trung bình của C: xử lí giống trường hợp (a).

(c) Tồn tại một DSCC khác và nó có chiều rộng lớn hơn hai lần chiều rộng trung bình của C. Ở đây đường thẳng ngang bị cắt bởi một đường thẳng dọc. Giá trị ngưỡng nhỏ T2 được dùng. Nếu dx = T2, C và C' được ghép, ngược lại thì không.

Các bước ghép hai DSCC:

1. Tìm chuỗi bắt đầu Cs: là chuỗi dài nhất chưa được ghép.

2. Dựa vào một phía của Cs, sắp xếp các chuỗi Ci'(i=1,2,...,n) theo thứ tự tăng dần của “khoảng cách đường thẳng”.

3. Dựa vào M (M=3) chuỗi đầu tiên, nếu chúng ta tìm ra chuỗi Ck' có khoảng cách giữa hai đường thẳng nhỏ nhất, thỏa hai điều kiện ghép ở trên, khi đó sẽ ghép Cs và Ck'.

4. Lặp lại hai bước 2 và 3 đối với hai phía (trái/phải) của Cs.

2.2.2.3. Một số phương pháp nâng cao hiệu quả giải thuật

Hiệu quả của giải thuật được đánh giá dựa vào hai yếu tố: tốc độ và tính chính xác. Các giải thuật trích xuất đường thẳng dựa theo hướng tiếp cận vectơ hóa có tốc độ chậm hơn phương pháp chiếu. Vì số vectơ tạo ra trong quá trình xử lí rất nhiều [1]. Tuy nhiên cũng có một số phương pháp nâng cao tốc độ nhưng vẫn giữ nguyên độ chính xác.

Tăng độ liền nét của chuỗi điểm ảnh (Run-Length Smearing)

Do việc in ấn, sao chép và quét, có thể làm xuất hiện những điểm không liền nét nhỏ (small breaks) trên đường thẳng, nguyên do này có thể phát sinh nhiều chuỗi điểm ảnh làm chậm tốc độ của giải thuật. Bằng cách “vá” những điểm đứt nét nhỏ (hơn một ngưỡng nào đó – 5 điểm ảnh) hay tăng độ liền nét của chuỗi điểm ảnh sẽ cải thiện tốc độ của giải thuật. Theo [1], số DSCC giảm khoảng 20%.

Trong thao tác tăng độ liền nét bổ sung thêm chức năng làm liền nét các đường thẳng dạng chấm chấm (dashed lines). Nên giải thuật này có thể mở rộng trích xuất được đường thẳng dạng chấm chấm với ràng buộc khoảng cách giữa các điểm chấm chấm nhỏ hơn ngưỡng nào đó (5 điểm ảnh).

Xóa các DSCC ngắn (Removal of Small DSCC)

Có hơn 50% DSCC có độ dài nhỏ hơn 3 điểm ảnh. Các DSCC này được sinh ra từ ký tự, nhiễu và một số rất ít là các đường thẳng bị mất nét (broken lines). Việc loại bỏ các DSCC này góp phần cải thiện tốc độ giải thuật. Điều kiện loại bỏ là:

• Có chiều dài nhỏ hơn ba điểm ảnh.

• Có chiều dài nhỏ hơn năm điểm ảnh có một hoặc hai cạnh kết nối với DSCC khác.

Loại bỏ các đường thẳng không tạo nên cấu trúc ô nhập

Rất nhiều đường thẳng sau khi được trích xuất không tạo nên cấu trúc ô nhập. Các đường thẳng này thường được tạo ra từ các ký tự trong ảnh biểu mẫu.

Các đường thẳng này sẽ được loại bỏ.

Các đường thẳng thỏa mãn điều kiện sau sẽ được loại bỏ:

• Đường thẳng ngang: không giao nhau với đường thẳng dọc nào và có chiều dài nhỏ hơn một ngưỡng nào đó (10 điểm ảnh) hoặc chỉ giao nhau với một đường thẳng dọc.

• Đường thẳng dọc: không giao nhau với bất kỳ đường thẳng ngang nào.

2.3. Thực nghiệm

Ảnh được chọn trong thực nghiệm là ảnh biểu mẫu thu được từ máy photocopy có chức năng quét ảnh, máy quét và chụp từ màn hình. Ảnh thu được sau khi số hóa được xử lí chống nghiên (deskew), xóa khung (remove border) và chuyển về ảnh nhị phân.

Mỗi ảnh biểu mẫu dùng làm thực nghiệm chứa nhiều loại thông tin in sẵn như: logo, ký tự (hoa, thường), gồm nhiều loại ô nhập có cấu trúc và kích thước khác nhau.

Mục tiêu thực nghiệm nhằm đánh giá ưu/khuyết điểm của giải thuật, ưu điểm thể hiện ở những yêu cầu sau:

• Trích chính xác đường thẳng có vị trí không lệch với vị trí đường thẳng gốc. • Loại bỏ tốt các đối tượng có hình dáng “tương tự” đường thẳng như: như

logo, đường cong, ký tự in hoa,....

• Đường thẳng có chiều dài ngắn (ô nhập dạng checkbox, “răng cưa”).

Giải thuật trích xuất đường thẳng thỏa mãn tốt những yêu cầu trên. Sau đây là một số hình ảnh minh họa kết quả:

Hình 2.9: Các ô nhập đồng dạng, có kích thước tương đương.

Hình 2.11: Các ô nhập đồng dạng có kích thước khác nhau và biểu mẫu chứa

Một phần của tài liệu Phân tích cấu trúc và nhận dạng biểu mẫu (Trang 31 - 36)

Tải bản đầy đủ (PDF)

(95 trang)