TÁCH BẢNG DỰATRÊN TẬP CÁC HÌNH CHỮ NHẬT

Một phần của tài liệu Giáo trình xử lý ảnh số ĐH Thái Nguyên (Trang 110 - 113)

RỜI RẠC

Một trong những vấn đề cơ bản của nhận dạng các trang văn bản nói chung và các trang văn bản ở dạng bảng nói riêng là phải phân tích được chúng. Đối với các trang văn bản thông thường thì phải hiểu phạm vi, cấu trúc của các khối văn bản. Trong các trang hoặc khối văn bản ở dạng bảng thì phải hiểu và phân tích được các ô chứa trong bảng. Vì chỉ khi nào phân tích được bảng một cách chính xác thì khi đó mới có thể tiến hành nhận dạng các thông tin trong các ô trong nó một cách chính xác và cũng chỉ có phân tích được bảng một cách chính xác thì sau quá trình nhận dạng các ô mới được trả lại cấu trúc của nó một cách chính xác.

Nhận dạng đối tượng Bất biến đồng dạng Bất biến Aphin Đường tròn Ellipse Hình chữ nhật

Tam giác đều

Ellipse Tam giác

Tứ giác Đa giác

c)

a) b)

d)

Hình 6.19. Khối văn bản ở dạng bảng

Trong mục này chúng tôi đưa ra cách phân tích bảng theo tiếp cận từ dưới lên. Ban đầu các ô trong bảng sẽ được phát hiện nhờ kỹ thuật tách đối tượng hình học với dạng đối tượng là hình chữ nhật. Dựa trên các hình chữ nhật tìm được, chúng tôi xây dựng lưới tựa hình chữ nhật. Sau đó tiến hành hiệu chỉnh lưới dựa trên khoảng cách ngưỡng cho trước. Từ tập lưới đã sửa tiến hành hiệu chỉnh lại tập hình chữ nhật. Dựa vào tập hình chữ nhật và lưới có thể phát hiện ra các ô thiếu. Các tiếp cận này có thể phân tích và hiệu chỉnh đối với các bảng có các ô được ghép (merge) với nhau và cả những bảng có đường nét không đủ. Bên cạnh đó, chúng tôi cũng đưa ra các đánh giá như thế nào là tập hình chữ nhật có thể chuyển đổi thành bảng. Với việc đánh giá như vậy có thể dẫn tới việc nhận dạng đối

tượng bảng một cách

tự động.

6.6.1. Phân tích bài toán

Để phân tách được bảng chúng tôi thực hiện phân tích từ dưới lên. Đầu tiên, tiến hành tách ra các chu tuyến sau đó dựa vào chu tuyến trong để nhận ra các hình chữ nhật. Chu tuyến là dãy liên tiếp các điểm biên của ảnh. Mỗi chu tuyến đều tồn tại một chu tuyến đối ngẫu. Nếu chu tuyến có độ dài nhỏ hơn chu tuyến đối ngẫu thì ta gọi nó là chu tuyến bên trong. Trong trường hợp ngược lại thì đó là chu tuyến ngoài. Từ các chu tuyến trong tiến hành nhận dạng để tìm ra tập các hình chữ nhật.

Quá trình xây dựng bảng được tiến hành từ tập các hình chữ nhật tách được từ ảnh. Tập các hình chữ nhật là tập liên thông hoặc được lựa chọn trong một hình chữ nhật. Dựa vào tập các hình chữ nhật chúng tôi xây dựng được các lưới tựa các hình chữ nhật (lưới là tập các toạ độ ngang dọc).

a) Tập hình chữ nhật ban đầu, b) Dựng lưới dựatrên tập các hình chữ nhật, c) Hiệu chỉnh lưới, d) Hiệu chỉnh bảng dựa trên lưới, e) Xác định ô khuyết thiếu

f) Sau khi đã bổ sung thêm ô.

Hình 6.20. Quá trình hiệu chỉnh bảng từ tập hình chữ nhật

Bước tiếp theo là tiến hành hiệu chỉnh tập lưới sao cho bất cứ hai toạ độ ngang hoặc dọc không quá gần nhau. Dựa vào lưới đã hiệu chỉnh có thể hiệu chỉnh tập hình chữ nhật sao cho tất cả các đỉnh của tập các hình chữ nhật nằm trên lưới, cách hiệu chỉnh được tiến hành cho từng hình chữ nhật. Việc hiệu chỉnh các hình chữ nhật nằm trên lưới sẽ cho phép ta phát hiện và bổ sung những hình chữ nhật còn khuyết.

Việc đánh giá khả năng tách bảng được thực hiện như sau: Tính tỉ số giữa số ô lưới được phủ bởi các hình chữ nhật vừa được hiệu chỉnh với tống số ô lưới được tạo ra. Nếu tỷ số này lớn hơn ngưỡng cho trước thì việc chuyển đổi bảng được coi như thành công.

Hình 6.21. Quan hệ giữa điểm, hình chữ nhật, lưới, bảng

Để thực hiện việc chuyển đổi từ tập các hình chữ nhật thành bảng chúng ta cần xác định các mối quan hệ nội tại trong các hình như tập các điểm tạo ra một ảnh, tập các hình vuông, lưới và bảng dựa trên lưới.

Thuật toán xác định và hiệu chỉnh đối tượng bảng

Ban đầu, các ô trong bảng sẽ được phát hiện nhờ kỹ thuật tách đối tượng hình học. với dạng đối tượng là hình chữ nhật. Dựa trên các hình chữ nhật tìm được, xây dựng lưới tựa hình chữ nhật, sau đó tiến hành hiệu chỉnh lưới dựa trên khoảng cách ngưỡng cho trước. Từ tập lưới đã sửa tiến hành hiệu chỉnh lại tập hình chữ nhật. Dựa vào tập hình chữ nhật và lưới có thể phát hiện ra các ô thiếu. Trên cơ sở đó đánh giá như thế nào là tập hình chữ nhật có thể chuyển đổi thành bảng. Hiệu chỉnh L à Phủ Tựa lưới Rời nhau, Phủ nhau, Kề Trong, ngoài Điểm Hình chữ nhật Lưới Bảng

Với việc đánh giá như vậy có thể dẫn tới việc nhận dạng đối tượng bảng một cách tự động. Qua thực nghiệm chúng tôi thấy cách tiếp cận này có thể phân tích và hiệu chỉnh đối với các bảng có các ô được nối (merge) với nhau và cả những bảng có đường nét không đủ.

Một phần của tài liệu Giáo trình xử lý ảnh số ĐH Thái Nguyên (Trang 110 - 113)

Tải bản đầy đủ (DOC)

(158 trang)
w