Xoá bỏ các đối tượng tuyến tính (đường thẳng)

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu giải pháp tách bảng - tách ảnh trong phân tích trang tài liệu Luận văn ThS. Công nghệ thông tin 1 01 10 (Trang 39 - 41)

2.3. Thuật toán phân tách văn bản ảnh

2.3.1. Xoá bỏ các đối tượng tuyến tính (đường thẳng)

Theo như đặc trưng 4 trong phần 2.2 các thành phần tuyến tính của ảnh thường được xác định trước. Khái niệm thành phần tuyến tính (LC) để ám chỉ đến các đối tượng có nét bút là các điểm ảnh đen (black pixel) nằm liên tiếp khi đi theo một hướng nhất định. Trong phần này, thuật toán sẽ duyệt từ trên xuống dưới quét theo từng hàng để tìm các thành phần LC, một LC sẽ được xác định là một đối tượng ảnh khi mà độ dài của nó lớn hơn một tham số T1 được đặt trước. Cũng làm tương tự như vậy nhưng sẽ quét theo chiều thẳng đứng từ trái sang phải để tìm những thành phần LC. Các thành phần LC có góc nghiêng là ±22.5, ±45, ±67.5 cũng sẽ được xác định. Tất cả các đối tượng LC được xác định không phải là văn bản (non text regions) sẽ được đưa vào lớp các đối tượng ảnh.

Trong trường hợp hình chữ nhật bao của đối tượng văn bản có chiều rộng hẹp xấp xỉ một điểm ảnh thì đối tượng đó được cho là một đường kẻ thẳng đứng hay ngang có độ rộng là 1 điểm ảnh và chúng được coi như là một đối tượng ảnh. Do đó phần lớn các điểm nhiễu (dấu chấm câu) hay các LC ngắn (dấu gạch ngang, gạch nối) sẽ bị coi là những đối tượng ảnh.

Hình 16. Sơ đồ khối thực hiện của thuật toán phân tách văn bản - ảnh

Hình 17. Phép toán kéo giãn trong việc nhận dạng các đường kẻ nghiêng. (a) ảnh nguyên bản. (b) α = ±22.5. (c) α = ±45. (d) α = ±67.5

Trường hợp nhận dạng các đối tượng đường thẳng không phải là các đường kẻ ngang hoặc đường kẻ dọc sẽ được minh họa trong Hình 17. Một phép toán kéo giãn đơn giản (tương đương với phép quay một góc α) sẽ được thực hiện trên các đối tượng đường thẳng này. Với một điểm ảnh có toạ độ (i, j) ta tính giá trị B = (tgα*j) trong đó α là góc nghiêng của đường thẳng so với mặt phẳng ngang. Khi đó điểm ảnh có toạ độ (i, j) sẽ được di chuyển tới toạ độ (i+B, j). Hình 17b là kết quả của phép kéo giãn Hình 17a khi góc α = 22.5 độ. Hình 17c với góc α = 45 độ. Hình 17d với góc α = 67.5 độ.

Xác định các thành phần tuyến tính, lƣu giữ thông tin của chúng, bao gồm các đƣờng thẳng dài hay các đƣờng thẳng ngắn

Xác định các nét bút không phải là văn bản, lƣu giữ thông tin các đối tƣợng này, dựa vào việc phân tích nét bút của các thành phần liên thông

Kết hợp các nét bút trong một chuỗi, xác định các đối tƣợng không phải là văn bản dựa vào thành phần liên thông mới sau khi đã thực hiện một số phép toán hình thái.

Trích ra thông tin từ các vùng bao chuỗi văn bản dựa vào hình chữ nhật giới hạn của các chuỗi trong ảnh ban đầu. Lấy ra các đối tƣợng ảnh từ lớp đối tƣợng ảnh.

Các trường hợp α = -22.5, α = -45, α = -67.5 không được chỉ ra ở trên nhưng tương tự như các trường hợp đưa ra trên Hình 17. Rõ ràng rằng đường kẻ có góc nghiêng 22.5 trên Hình 17a sẽ chuyển thành đường kẻ ngang trên Hình 17b. Sau khi thực hiện phép kéo giãn ta có thể thực hiện quét từng dòng để xác định các đường kẻ ngang. Tham số để xác định xem đường thẳng có là một đối tượng ảnh hay không khi đó sẽ là T1*cosα, bởi vì sau khi thực hiện phép kéo giãn độ dài của đường thẳng sẽ thay đổi. Cuối cùng là thực hiện phép kéo giãn ngược lại để khởi tạo lại ảnh ban đầu với góc nghiêng là góc đối của phép kéo giãn vừa thực hiện. Hai phép biến đổi trên không làm mất thông tin của ảnh mà chỉ tìm được những đường thẳng thích hợp để xác định chúng là các đối tượng ảnh.

Nếu như một bức ảnh được số hoá chính xác thì phần lớn đường kẻ nằm ngang hoặc nằm thẳng đứng với góc nghiêng là 0 hay 90 độ, hay nghiêng một góc 45 độ. Do đó phần lớn các đường kẻ sẽ được xác định một cách đơn giản chứ không cần phải thực hiện phép biến đổi như ở trên, điều đó sẽ giúp nâng cao tốc độ xử lý của hệ nhận dạng. Với trường hợp chỉ có một số lượng nhỏ các đường kẻ nằm nghiêng ngoại trừ các trường hợp 0, ±22.5, ±45, ±67.5 hay ±90 độ thì chúng nên được xử lý ở các bước sau để tiết kiệm thời gian xử lý của CPU.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu giải pháp tách bảng - tách ảnh trong phân tích trang tài liệu Luận văn ThS. Công nghệ thông tin 1 01 10 (Trang 39 - 41)

Tải bản đầy đủ (PDF)

(79 trang)