Ví dụ một ảnh tài liệu bị nghiêng một góc 5 độ

Một phần của tài liệu (LUẬN văn THẠC sĩ) đánh giá sự ảnh hưởng của tham số đến kết quả phân tách của thuật toán whitespace (Trang 28 - 33)

29

1.3.3. Phân tích cấu trúc logic:

Từ kết quả của pha phân tích cấu trúc vật lý, phân tích cấu trúc logic sẽ đi xác định mối quan hệ logic giữa các vùng đã được gắn nhãn như tiêu đề, văn bản, đề mục, hearder,… Bước này là cơ sở cho việc nhận dạng ký tự. Việc xác định được vị trí chính xác của mỗi vùng trong cấu trúc logic sẽ tăng thêm thông tin cho quá trình nhận dạng như thông tin về ngữ cảnh, đoán nhận được kiểu font và kích thước chữ nếu biết nó thuộc vùng tiêu đề, đề mục hay trong đoạn văn,… (Hình 1.7)

30

1.4 Kết luận

Chương thứ nhất với những nội dung cơ bản và một số nội dung mới có liên quan mật thiết với hệ phân tích ảnh tài liệu. Đặc biệt là đã đề cập một số công đoạn chính trong xuyên suốt quá trình kể từ lúc thu quét ảnh tài liệu đầu vào, đến lúc có thể phát hiện và trích chọn được những tính năng quan trọng do người dùng đặt ra ban đầu. Bên cạnh một số kỹ thuật truyền thống, kết hợp với việc tham khảo các tài liệu trong nước và thế giới đã có đề cập đến một số cải tiến, một số phương pháp cũng như ý tưởng mới của một số tác giả từng có nhiều cống hiến và thành công trong lĩnh vực nghiên cứu xử lý ảnh. Chương 2 và chương 3 của bài luận sẽ trình bày tiếp những nội dung sâu sắc hơn về bài toán tìm vùng trắng tối đa và thuật toán phân tách trang tài liệu WhiteSpace, quá trình thực nghiệm và một số kết quả đạt được.

31

CHƯƠNG 2

ĐÁNH GIÁ SỰ ẢNH HƯỞNG CỦA THAM SỐ

ĐẾN KẾT QUẢ PHÂN TÁCH CỦA THUẬT TOÁN WHITESPACE

2.1. Các hướng tiếp cận và một số thuật toán phân tách trang tiêu biểu

Các thuật toán phân tách trang ảnh tài liệu được chia thành ba loại, tương ứng với ba cách tiếp cận khác nhau là từ trên xuống (top-down), từ dưới lên (bottom-up) và phương pháp lai ghép (hybrid).

2.1.1. Hướng tiếp cận Top-down

a) Tổng quan

Ý tưởng chính của thuật toán là phân tách liên tiếp từ một trang ban đầu thành các vùng cơ sở nhỏ hơn. Các khối cơ sở ở đây là các khối như đoạn văn, tiêu đề, đồ họa,… Việc phân tách chúng thành các vùng riêng biệt dựa trên tiêu chí về ngưỡng khoảng cách mà phương pháp phổ thông nhất là xác định thông qua kết quả của phép chiếu nghiêng.

Phép chiếu nghiêng theo hướng x bất kỳ: Thực chất là đi xác định lược đồ xám bằng cách tính tổng các điểm ảnh đa cấp xám đen (hoặc trắng) theo phương vuông góc với x dọc theo trục y. Trong thực tế x thường là phương nằm ngang hay phương thẳng đứng so với trang văn bản.

Một ví dụ về phép chiếu nghiêng với một trang tài liệu cho ở (Hình- 2.1): Trên lược đồ xám của phép chiếu nghiêng sẽ xuất hiện các điểm cực trị, với phép chiếu nghiêng theo phương thẳng đứng ta dễ nhận thấy độ rộng của các đáy chính là khoảng cách giữa hai dòng, với các độ rộng của đáy nào đó mà tần suất xuất hiện ít hoặc vượt quá một ngưỡng chính là khoảng các giữa hai vùng văn bản. Còn tại vị trí các đỉnh là trục của mỗi dòng văn bản.

Với phép chiếu nghiêng theo phương ngang ta có thể phân tách được các cột hay các vùng cơ sở dựa vào ngưỡng khoảng cách của đáy (Hình-2.3).

32

Cũng theo nguyên tắc này nếu áp dụng phép chiếu nghiêng trên mỗi dòng văn bản ta cũng có thể phân đoạn được các ký tự hoặc các từ dựa vào khoảng cách của đáy (ví dụ như Hình-2.1).

Hình 2.1: Kết quả chiếu nghiêng theo phương ngang và phương thẳng đứng của một trang tài liệu 4

33

Một phần của tài liệu (LUẬN văn THẠC sĩ) đánh giá sự ảnh hưởng của tham số đến kết quả phân tách của thuật toán whitespace (Trang 28 - 33)

Tải bản đầy đủ (PDF)

(89 trang)