A Ảnh gốc b Ảnh sau khi tách nền

Một phần của tài liệu (LUẬN văn THẠC sĩ) đánh giá sự ảnh hưởng của tham số đến kết quả phân tách của thuật toán whitespace (Trang 27 - 28)

Xác định góc nghiêng:

Do quá trình thu nhận ảnh (như đặt lệch tài liệu khi scan,…) ảnh tài liệu thu được rất có thể bị nghiêng, tức trục của các dòng văn bản không song song với trục ngang (Hình 8). Việc xác định được góc nghiêng và xoay lại tài liệu là một khâu rất quan trọng ảnh hưởng đến hiệu quả trong một số thuật toán phân tích. Ví dụ như các thuật toán dựa theo biểu đồ sau phép chiếu nghiêng để tiến hành phân tích thì sẽ hoàn toàn thất bại nếu văn bản bị nghiêng. Tuy nhiên việc có thể tự động ước lượng được chính xác góc nghiêng của ảnh tài liệu là một bài toán khó. Có nhiều kỹ thuật để có thể xác định được góc nghiêng của tài liệu, điểm chung trong hầu hết các thuật toán là xác định góc nghiêng bằng việc xác định hướng của các dòng văn bản dựa vào vị trí một số ký tự trong tài liệu.

1.3.2. Phân tích cấu trúc vật lý

Phân tích tài liệu được định nghĩa là quá trình xác định cấu trúc vật lý của một tài liệu. Trong khâu này thì từ một ảnh tài liệu đầu vào sẽ được chia thành một số khối (block) chứa các nội dung thành phần của tài liệu như các

28

dòng văn bản, tiêu đề, đồ họa,... cùng với có hoặc không các tri thức biết trước về định dạng của nó[15]. Có một số phương pháp phân tích và được phân ra làm hai loại như sau:

Các phương thức có thứ bậc: Trong quá trình chia tài liệu thành các block chúng ta quan tâm đến mối quan hệ về mặt hình học giữa các block. Có ba phương pháp thuộc loại này là:

o Phân tích top-down (trên xuống) o Phân tích buttom-up (dưới lên)

o Phân tích kiểu Adaptive split-and-merge (tách và nối thích nghi) Các phương pháp không có thứ bậc: Trong quá trình chia tài liệu thành các khối chúng ta không quan tâm đến mối quan hệ hình học giữa các block.

Một phần của tài liệu (LUẬN văn THẠC sĩ) đánh giá sự ảnh hưởng của tham số đến kết quả phân tách của thuật toán whitespace (Trang 27 - 28)