Phát hiện cấu trúc các cột, hàng

Một phần của tài liệu phương pháp phát hiện bảng trong tài liệu tổng hợp (Trang 64 - 66)

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

Ðể phát hiện đầy đủ hơn môi trường bảng có xuất hiện trong ảnh tài liệu, thì ngoài những bước đã thực hiện trên đây, ta còn phải tìm kiếm những thông tin khác để xác định được những khối có thể tạo thành các thành phần còn lại của bảng. Khi phát hiện được các khối mới có khả năng tạo thành bảng, ta sẽ tìm cách sắp xếp các khối này vào các hàng và cột tương ứng. Công cụ để thực hiện công việc này được sử dụng tương tự như kỹ thuật tạo đường căn lề được trình bày trong mục 2.3.3 của bài luận này. Sau khi xác định được các đoạn thẳng căn lề, ta duyệt qua các điểm căn lề từ trái sang phải hoặc theo chiều ngược lại. Cứ mỗi lần duyệt qua hai đoạn thẳng căn lề thì ta xác định được một cột của bảng từ đó suy ra được tổng số cột của bảng. Nếu một khối mới có chiều dài lớn hơn khoảng cách giữa hai đoạn canh lề thì xem như khối đó chứa nhiều hơn một cột.

2.6. Kết luận chƣơng

Sau khi đã tìm hiểu qua một số phương pháp và kỹ thuật phát hiện bảng đã được công bố của một số tác giả trước đây, thì việc lựa chọn nghiên cứu giải pháp phát hiện bảng thông qua thuật toán T-Recs đã đem lại một hướng phát triển khá khả quan. Thuật toán lựa chọn có những ưu điểm như tốc độ xử lý nhanh, độ phức tạp nằm trong tầm kiểm soát được do thuật toán lấy ý tưởng từ việc phát hiện các từ và các khối tạo thành các cột của bảng, mà không chú trọng nhiều đến việc phải phát hiện các đối tượng phân cách khác như đường thẳng và các đối tượng ảnh khác.

Thông qua quá trình tìm hiểu và phân tích thuật toán lựa chọn, luận văn đã có đưa ra một số điểm điều chỉnh, tuy còn chưa thể hiện được sự cải tiến vượt trội nhưng cũng đã phần nào giúp bổ sung giải quyết một số vấn đề và tình huống phát sinh khi thuật toán phải xử lý những ảnh tài liệu da dạng. Do tính chất phức tạp và quy mô của lý thuyết về ngành nhận dạng nói chung mà bản thân mỗi một thuật toán ứng dụng vào ngành không thể nào quản lý hết tất cả các công đoạn, qua chương này luận văn cũng đã có trình bày một số công đoạn

Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/

xử lý sau khi thuật toán thực hiện khởi tạo phân khối để nhằm cho được các kết quả đầu ra tốt hơn.

Như trong luận văn đã trình bày về một số ưu điểm và tồn tại của thuật toán khởi tạo thì một số công đoạn và thủ tục xử lý sau đó vẫn chưa thể rà soát hết tất cả các trường hợp. Ðiển hình như trong quá trình phân tích các khối để tạo thành các ô trong môi trường bảng chỉ mới viện dẫn được một trường hợp là các khối loại hai được bố trí kề với các khối loại một. Còn khối loại hai không kề với khối loại một chưa được đề cập ở đây. Mỗi một phương pháp được đề xuất đều có mặt mạnh và điểm yếu vốn có của nó. Vì vậy trong tương lai cần phải đầu tư nhiều hơn nữa mới có thể hoàn thiện được các giải pháp phát hiện đối tượng bảng trong tài liệu tổng hợp.

CHƢƠNG 3: CHƢƠNG TRÌNH DEMO CỦA THUẬT TOÁN

Một phần của tài liệu phương pháp phát hiện bảng trong tài liệu tổng hợp (Trang 64 - 66)

Tải bản đầy đủ (PDF)

(75 trang)