Một số ưu điểm và tồn tại của thuật toán

Một phần của tài liệu Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ (Trang 51 - 54)

Thông qua quá trình tìm hiểu, đề xuất điều chỉnh một số bước của thuật toán, ta thấy thuật toán có một số tính năng và ưu điểm như sau:

- Hoạt động được cả trên tài liệu điện tử và tài liệu giấy. Diện tích vùng bao quanh của từ trong tài liệu điện tử dễ dàng được chuyển hóa và phát hiện nhờ vào

Hình 3.4: Mô tả kết quả thuật toán đã được điều chỉnh nhận dạng khối

Miễn cưỡng sẽ không hạnh phúc Xmin Xmax Miễn cưỡng sẽ không hạnh phúc Xmin Xmax Miễn cưỡng sẽ không hạnh phúc Xmin Xmax

một bước tiền xử lý nhỏ. Khái niệm tài liệu điện tử ở đây được hiểu là những ký tự được hiển thị trong máy tính và các thiết bị chứa thông tin khác được mã hóa theo chuẩn mã trao đổi thông tin Hoa Kỳ (ASCII - American Standard Code for

Information Interchange). Tài liệu giấy được hiểu là hệ thống ký tự đầu ra được nhận dạng bằng công nghệ OCR (paper document of OCR output).

- Bỏ qua các đường lưới (grid lines) trong tài liệu dạng ASCII. Điều này sẽ làm tăng tốc quá trình tiền xử lý ảnh đầu vào. Quá trình tiền xử lý văn bản mã hóa dạng ASCII sẽ phát hiện và ngăn chặn các đường lưới trước khi cung cấp dữ liệu phục vụ cho quá trình xử lý của thuật toán.

- Chỉ xét đến vùng bao quanh hình chữ nhật của mỗi từ của ảnh tài liệu, nghĩa là quan tâm đến mối quan hệ lô-gíc và so sánh về mặt độ dài vật lý của từ và của khối từ mà không cần xem xét đến nội dung của văn bản. Vì thế thuật toán vẫn phát huy hiệu quả khi gặp phải ảnh tài liệu đầu vào bị mờ do chuyển qua máy Fax chẵng hạn.

- Phát hiện được cả những cột văn bản của bảng mặc dù khoảng cách giữa các cột này chỉ nhỏ hẹp bằng 1 khoảng trắng.

- Phát hiện cấu trúc của bảng trong trường hợp một ô có nhiều dòng dữ liệu và không cần quan tâm đến thông tin về tiêu đề của bảng.

- Có thể áp dụng thuật toán đối với nhiều ảnh tài liệu phổ biến, không ràng buộc những quy tắc phức tạp, chưa cần xem xét đến việc phải xây dựng một hệ thống cơ sở dữ liệu mạng nơ-ron nhân tạo để tạo tập huấn luyện máy học.

Lợi thế của thuật toán cũng được chứng minh khi áp dụng nó vào việc phát hiện một bảng thật sự chứa dữ liệu văn bản thuần túy. Lấy hình 3.5 mô tả để ta thấy rằng có những khoảng cách rất hẹp giữa các khối văn bản, vì khi văn bản được bố trí trong môi trường bảng thì trên đường ranh giới chia các cột hoàn toàn không có bất kỳ ký tự hay từ nào có thể chen giữa chúng (Hình 3.5). Khi chúng ta cố tình đổi màu các khối văn bản trên hình 3.5b mà thuật toán đã phát hiện được thì kết quả là những khoảng cách hẹp này càng dễ nhận thấy hơn.

Bên cạnh những đặc trưng và ưu điểm thì thuật toán cũng còn những tồn tại cần phải được khắc phục trong tương lai, cũng như phải xây dựng tiếp một số thủ tục (procedure) lồng ghép trong suốt quá trình xử lý thực nghiệm để nhằm tạo được một số kết quả đầu ra tốt hơn. Một số tồn tại có thể được nêu như sau:

- Với các môi trường soạn thảo văn bản phong phú và có hỗ trợ đa dạng các chức năng như hiện nay cho phép người dùng có thể tạo ra các ảnh tài liệu có chứa môi trường bảng, nhưng môi trường bảng này lại dùng để trang trí các đối tượng ảnh và tuyệt đối không có chứa văn bản thì gần như thuật toán không có cơ sở để phát hiện ra môi trường bảng này.

- Ý tưởng của thuật toán là tiến hành phát hiện từ, tiếp tục phát hiện các khối từ và kết luận mỗi khối từ cấu thành một cột của bảng. Cũng như nhận định của ý trước, với công nghệ soạn thảo văn bản như hiện nay cũng như các công nghệ tạo ảnh khác thì người ta có thể tạo ra các khối từ như vậy mà không cần dùng đến môi trường bảng. Trong khi đó theo thuật toán lại phát hiện là có môi trường bảng. Như vậy thuật toán hoạt động chưa được toàn diện mà cần phải có thêm các ràng buộc nhận dạng khác để loại bỏ những kết quả phát hiện không mong muốn này.

- Kết quả của thuật toán mới chỉ ra rằng trong ảnh tài liệu là có môi trường bảng hay không có môi trường bảng, thuật toán chưa thể phát hiện được trong trang ảnh tài liệu có bao nhiêu vùng bảng khác nhau vì hầu như khối văn bản được duyệt và phát hiện từ đầu đến cuối trang ảnh tài liệu.

- Xuất phát điểm của quá trình phát hiện bảng là một từ bất kỳ nào đó và thuật toán tiến hành tìm kiếm trên các dòng còn lại để tạo được khối, như vậy nếu gặp một ảnh tài liệu chỉ có một dòng văn bản duy nhất mà không hề có môi trường

Hình 3.5: Mô tả quá trình phân khối của văn bản trong các cột có

khoảng cách rất hẹp. Nguồn: Kieninger (1998).

bảng, thì thuật toán cũng xác định rằng ảnh tài liệu này có tồn tại bảng bao gồm một dòng (row) và số lượng cột của bảng chính là số lượng của các từ có trên dòng đó. Theo đó cũng cần phải xem xét đưa ra các điều kiện ràng buộc để phân biệt rõ với ảnh tài liệu chỉ có một dòng văn bản mà dòng này được bố trí trong một môi trường bảng thực sự.

- Có hạn chế tuy ít gặp trong quá trình duyệt ảnh nhưng dễ dàng nhận ra đó là một số văn bản có các ký tự khoảng trắng xuất hiện cùng một vị trí liên tục trên các dòng dẫn đến làm cho vùng bao quanh của các từ thuộc về hai phía của đoạn trắng này không có khoảng giao nhau. Như vậy thuật toán đánh giá rằng đó không phải là một khối văn bản thống nhất.

- Một hạn chế thường xuất hiện trong bảng là có nhiều cột dùng chung một tiêu đề, nghĩa là các cột này có dòng đầu tiên được trộn ô (merge cell), thì lúc này theo quy tắc phát hiện khối từ của thuật toán thì thuật toán xác định rằng các cột này chỉ là một cột vì các từ bên trong chúng thuộc cùng một khối.

Các mục dưới đây được trình bày để khắc phục một phần những hạn chế của thuật toán nhằm cho được một số kết quả đầu ra tốt hơn.

Một phần của tài liệu Nghiên cứu và ứng dụng thuật toán phát hiện bảng trong ảnh tài liệu luận văn thạc sĩ (Trang 51 - 54)

Tải bản đầy đủ (PDF)

(65 trang)