RỜI RẠC
Một trong những vấn đề cơ bản của nhận dạng các trang văn bản nói chung và các trang văn bản ở dạng bảng nói riêng là phải phân tích được chúng. Đối với các trang văn bản thông thường thì phải hiểu phạm vi, cấu trúc của các khối văn bản. Trong các trang hoặc khối văn bản ở dạng bảng thì phải hiểu và phân tích được các ô chứa trong bảng. Vì chỉ khi nào phân tích được bảng một cách chính xác thì khi đó mới có thể tiến hành nhận dạng các thông tin trong các ô trong nó một cách chính xác và cũng chỉ có phân tích được bảng một cách chính xác thì sau quá trình nhận dạng các ô mới được trả lại cấu trúc của nó một cách chính xác.
Nhận dạng đối tượng Bất biến đồng dạng Bất biến Aphin Đường tròn Ellipse Hình chữ nhật
Tam giác đều
Ellipse Tam giác
Tứ giác Đa giác
c)
a) b)
d)
Hình 6.19. Khối văn bản ở dạng bảng
Trong mục này chúng tôi đưa ra cách phân tích bảng theo tiếp cận từ dưới lên. Ban đầu các ô trong bảng sẽ được phát hiện nhờ kỹ thuật tách đối tượng hình học với dạng đối tượng là hình chữ nhật. Dựa trên các hình chữ nhật tìm được, chúng tôi xây dựng lưới tựa hình chữ nhật. Sau đó tiến hành hiệu chỉnh lưới dựa trên khoảng cách ngưỡng cho trước. Từ tập lưới đã sửa tiến hành hiệu chỉnh lại tập hình chữ nhật. Dựa vào tập hình chữ nhật và lưới có thể phát hiện ra các ô thiếu. Các tiếp cận này có thể phân tích và hiệu chỉnh đối với các bảng có các ô được ghép (merge) với nhau và cả những bảng có đường nét không đủ. Bên cạnh đó, chúng tôi cũng đưa ra các đánh giá như thế nào là tập hình chữ nhật có thể chuyển đổi thành bảng. Với việc đánh giá như vậy có thể dẫn tới việc nhận dạng đối
tượng bảng một cách
tự động.
6.6.1. Phân tích bài toán
Để phân tách được bảng chúng tôi thực hiện phân tích từ dưới lên. Đầu tiên, tiến hành tách ra các chu tuyến sau đó dựa vào chu tuyến trong để nhận ra các hình chữ nhật. Chu tuyến là dãy liên tiếp các điểm biên của ảnh. Mỗi chu tuyến đều tồn tại một chu tuyến đối ngẫu. Nếu chu tuyến có độ dài nhỏ hơn chu tuyến đối ngẫu thì ta gọi nó là chu tuyến bên trong. Trong trường hợp ngược lại thì đó là chu tuyến ngoài. Từ các chu tuyến trong tiến hành nhận dạng để tìm ra tập các hình chữ nhật.
Quá trình xây dựng bảng được tiến hành từ tập các hình chữ nhật tách được từ ảnh. Tập các hình chữ nhật là tập liên thông hoặc được lựa chọn trong một hình chữ nhật. Dựa vào tập các hình chữ nhật chúng tôi xây dựng được các lưới tựa các hình chữ nhật (lưới là tập các toạ độ ngang dọc).
a) Tập hình chữ nhật ban đầu, b) Dựng lưới dựatrên tập các hình chữ nhật, c) Hiệu chỉnh lưới, d) Hiệu chỉnh bảng dựa trên lưới, e) Xác định ô khuyết thiếu
f) Sau khi đã bổ sung thêm ô.
Hình 6.20. Quá trình hiệu chỉnh bảng từ tập hình chữ nhật
Bước tiếp theo là tiến hành hiệu chỉnh tập lưới sao cho bất cứ hai toạ độ ngang hoặc dọc không quá gần nhau. Dựa vào lưới đã hiệu chỉnh có thể hiệu chỉnh tập hình chữ nhật sao cho tất cả các đỉnh của tập các hình chữ nhật nằm trên lưới, cách hiệu chỉnh được tiến hành cho từng hình chữ nhật. Việc hiệu chỉnh các hình chữ nhật nằm trên lưới sẽ cho phép ta phát hiện và bổ sung những hình chữ nhật còn khuyết.
Việc đánh giá khả năng tách bảng được thực hiện như sau: Tính tỉ số giữa số ô lưới được phủ bởi các hình chữ nhật vừa được hiệu chỉnh với tống số ô lưới được tạo ra. Nếu tỷ số này lớn hơn ngưỡng cho trước thì việc chuyển đổi bảng được coi như thành công.
Hình 6.21. Quan hệ giữa điểm, hình chữ nhật, lưới, bảng
Để thực hiện việc chuyển đổi từ tập các hình chữ nhật thành bảng chúng ta cần xác định các mối quan hệ nội tại trong các hình như tập các điểm tạo ra một ảnh, tập các hình vuông, lưới và bảng dựa trên lưới.
Thuật toán xác định và hiệu chỉnh đối tượng bảng
Ban đầu, các ô trong bảng sẽ được phát hiện nhờ kỹ thuật tách đối tượng hình học. với dạng đối tượng là hình chữ nhật. Dựa trên các hình chữ nhật tìm được, xây dựng lưới tựa hình chữ nhật, sau đó tiến hành hiệu chỉnh lưới dựa trên khoảng cách ngưỡng cho trước. Từ tập lưới đã sửa tiến hành hiệu chỉnh lại tập hình chữ nhật. Dựa vào tập hình chữ nhật và lưới có thể phát hiện ra các ô thiếu. Trên cơ sở đó đánh giá như thế nào là tập hình chữ nhật có thể chuyển đổi thành bảng. Hiệu chỉnh L à Phủ Tựa lưới Rời nhau, Phủ nhau, Kề Trong, ngoài Điểm Hình chữ nhật Lưới Bảng
Với việc đánh giá như vậy có thể dẫn tới việc nhận dạng đối tượng bảng một cách tự động. Qua thực nghiệm chúng tôi thấy cách tiếp cận này có thể phân tích và hiệu chỉnh đối với các bảng có các ô được nối (merge) với nhau và cả những bảng có đường nét không đủ.