Hệ thống nhận dạng chữ viết và phân tích bố cục tài liệu với phần mềm nhận dạng tiêu biểu

MỤC LỤC

Cấu trúc của ảnh tài liệu

Cấu trúc vật lý

Quá trình phân tích bố cục tài liệu là thực hiện việc tách từ một trang tài liệu ban đầu thành các vùng có nội dung cơ sở nhƣ hình ảnh nền, vùng văn bản,….  Page là đối tượng hình học hoặc hỗn hợp các thành phần cơ sở tương ứng với một vùng hình chữ nhật, nếu là đối tƣợng hỗn hợp nó chứa một hoặc nhiều block, một hoặc nhiều frame. - Bottom-up: Ý tưởng chính của các thuật toán loại này là bắt đầu từ những phần tử nhỏ nhất (nhƣ từ các pixel hay các phần tử liên thông) sau đó liên tục nhóm chúng lại thành các vùng lớn hơn.

Ngoài bố cục vật lý, các trang tài liệu còn chứa đựng nhiều thông tin về ngữ cảnh và nội dung nhƣ các tiêu đề, đoạn văn, đề mục, …và mỗi vùng nội dung này lại đƣợc gán các nhãn logic hay nhãn theo chức năng tương ứng, khác biệt hoàn toàn với các nhãn trong bố cục vật lý. Tuy nhiên với một số loại tài liệu phức tạp, thì pha phân tích bố cục vật lý lại cần thêm một số thông tin logic liên quan đến các vùng để có thể phân đoạn một cách chính xác.

Hình 4: b-Cấu trúc vật lý: c,d-Cấu trúc logic của một tài liệu[4]
Hình 4: b-Cấu trúc vật lý: c,d-Cấu trúc logic của một tài liệu[4]

Quá trình phân tích tài liệu

    Hầu hết các ảnh tài liệu đều có nhiễu do quá trình thu nhận ảnh gây ra (môi trường, chất lượng máy quét), vì thế trong quá trình xây dựng các thuật toán phân tích cần loại bỏ các nhiễu này và công việc này thường được tiến hành trước khi bắt đầu phân tích bố cục hay cấu trúc và gọi là Tiền xử lý. Nếu đối với các loại tài liệu có nền đồng nhất màu trắng hoặc đen thì việc tách có thể thực hiện đơn giản bằng phép phân ngƣỡng, tuy nhiên trong thực tế rất nhiều ảnh tài liệu có nền rất phức tạp nhƣ ảnh hay đồ họa (Hình 7) thì việc xác định các pixell nào thực sự thuộc về “phần nổi” là một công việc khó khăn. Có nhiều kỹ thuật để có thể xác định đƣợc góc nghiêng của tài liệu, điểm chung trong hầu hết các thuật toán là xác định góc nghiêng bằng việc xác định hướng của các dòng văn bản dựa vào vị trí một số ký tự trong tài liệu.

    Từ kết quả của pha phân tích cấu trúc vật lý, phân tích cấu trúc logic sẽ đi xác định mối quan hệ logic giữa các vùng đã đƣợc gắn nhãn nhƣ tiêu đề, văn bản, đề mục, hearder,… Bước này là cơ sở cho việc nhận dạng ký tự. - Việc xác định đƣợc vị trí chính xác của mỗi vùng trong cấu trúc logic sẽ tăng thêm thông tin cho quá trình nhận dạng nhƣ thông tin về ngữ cảnh, đoán nhận được kiểu font và kích thước chữ nếu biết nó thuộc vùng tiêu đề, đề mục hay trong đoạn văn,… (Hình 9).

    Hình 6: Sơ đồ nguyên lý hệ thống xử lý tài liệu[6]
    Hình 6: Sơ đồ nguyên lý hệ thống xử lý tài liệu[6]

    Các phương pháp phân tích định dạng trang tài liệu 1. Top-down

    Phương pháp Tách và Nối thích nghi (Adaptive Split – and – Merge) a) Tổng quan

    Phương pháp phân tích Adaptive Split – and – Merge được Lui, Tang và Suen thiết kế với ý tưởng chính từ một trang tài liệu ban đầu và coi đó như một vùng chưa đồng nhất, từ đó liên tiếp chia mỗi vùng thành các vùng nhỏ hơn, tại mỗi bước chia thực hiện nối các vùng đồng nhất và chia tiếp các vùng không đồng nhất. Để có thể mô tả đƣợc thuật toán một cấu trúc cây tứ phân phân lớp đƣợc sử dụng để biểu diễn quá trình tách và nối của thuật toán. Trong đó nút ở đỉnh tương ứng với trang tài liệu ban đầu và là gọi là lớp cao nhất, các nút con tiếp theo là các vùng con tương ứng với lớp thứ k của bước chia thứ k các vùng không đồng nhất (mô tả ở hình).

     B1: Tại lớp thứ K nếu tìm thấy một vùng không đồng nhất thì tiến hành chia vùng đó thành 4 vùng nhỏ hơn.  B2: Nếu thấy ít nhất 2 vùng trong 4 vùng vừa tách là đồng nhất thì tiến hành nối chúng lại, còn các vùng không đồng nhất ta qua lại B1 và tách chúng thành các vùng ở lớp thứ K+1. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn.

    Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn. Ngô Quốc Tạo Trong đó: Nm và Nn biểu thị số vùng con trong mỗi vùng tương ứng rm và rn. - Có thể áp dụng với các loại trang tài liệu có cấu trúc phức tạp vì thuật toán này không quan tâm đến việc phân đoạn các thành phần cơ sở, mà chỉ chia trang tài liệu thành các vùng hình chữ nhật và xem xét giá trị trung bình của nó.

    Nhƣ vậy các trang tài liệu có thể bỏ qua khâu xác định và hiệu chỉnh độ nghiêng - Có thể áp dụng cho các loại trang tài liệu có nhiều loại font chữ khác nhau - Tốc độ thực hiện nhanh hơn so với Top-down và Bottom-up. - Hiệu quả của thuật toán phụ thuộc vào giá trị trung bình của vùng đƣợc xét, trong một số tình huống thì giá trị trung bình của vùng văn bản và vùng đồ họa là nhƣ nhau. - Không có một giá trị hằng số τ cho mọi trang tài liệu vì thế việc xác định giá τ là một vấn đền khó.

    Hình 27: Mô tả thuật toán Tách và Nối thích nghi
    Hình 27: Mô tả thuật toán Tách và Nối thích nghi

    Lựa chọn giải pháp

    Ảnh đầu vào

    Do thời gian có hạn nên đề tài chỉ tập trung vào loại ảnh này, với anh màu cần phải chuyển sang đa cấp xám trước khi qua phân tích. - Với ảnh nhị phân là trường hợp đặc biệt của ảnh đa cấp xám thì đã được các đề tài trước phân tích và trong thực tế thì thao tác với ảnh nhị phân đơn giản hơn so với ảnh đa cấp xam (vì không cần phân ngƣỡng) nên đề tài không cài đặt cho loại ảnh này. Ngô Quốc Tạo - Về độ phức tạp của ảnh về mặt thiết kế là không giới hạn.

    Phân tích sử dụng giả pháp Fractal Signature Chi tiết thuật toán FS[1]

     Nhận xét: Dễ nhận thấy với một ảnh đầu vào có cùng kích thước thì tốc độ thực hiện thuật toán là không đổi và chỉ phải duyệt qua mỗi điểm ảnh một lần duy nhất. Sau chương 2 này, ta đã có được các module và công việc của mỗi module trong hệ thống demo phân tích trang tài liệu sẽ đƣợc cài đặt, từ những cơ sở phân tích ở trên sẽ làm cơ sở để triển khai cài đặt trên máy tính cho thuật toán Fractal Signature và các chức năng của chương trình demo. Chương này tập trung vào việc xây dựng và cài đặt các chức năng của chương trình demo với mục đích chính là phân tich đƣa ra cấu trúc vật lý của ảnh đầu vào là ảnh đa cấp xám có độ phức tạp cao sử dụng thuật toán Fractal Signature.

    Đồng thời triên khai cả thuật toán Top-down nhằm so sánh vơi thuật toán Fractal Signature.

    Hình 32: (a) Ảnh một tài liệu gốc, (b) kết quả sau khi áp dụng FS
    Hình 32: (a) Ảnh một tài liệu gốc, (b) kết quả sau khi áp dụng FS

    Thiết kế chương trình 1. Cấu trúc dữ liệu

      Thông thường với ảnh đa cấp xám thì giá trị độ xám của mỗi điểm ảnh nằm trong khoảng [0.255], như vậy kích thước tối thiểu cho mỗi I[i,j] là 1Byte. Thuật toán FS tính giá trị FS cho từng khối Block trong ảnh, vì thế cần phải chia ảnh thành các block có kích thước bằng nhau trước khi thực hiện thuật toán. Giả thiết kích thước của mỗi Block là (k x q), để việc tính FS cho các block không gặp trường hợp đặc biệt (Kích thước ảnh không bằng nguyên lần của Block) ta sẽ nối thêm vào chiều ngang và dọc của ảnh vùng nền đủ để sao cho kích thước ảnh mới bằng một số nguyên lần của Block.

      Thuật toán phân tích TD đƣợc thiết kế theo kiểu đệ quy, và cần tham số chiều cao của font chữ. B2: Tìm độ rộng xuất hiện nhiều nhất của các “cột” trong lƣợc đồ chiếu nghiêng, đây xấp xỉ bằng chiều cao của font chữ. Input: Ảnh đa cấp xám I kích thước m x n, chiều cao font chữ k Output: Ảnh đã đƣợc phân đoạn văn bản và đồ họa.

      B1: Tính lƣợc đồ chiếu đứng cho ảnh I đƣợc kết quả là mảng A gồm m phần tử B2: Xác định các “cột” trên lƣợc đồ A. Thuật toán phân tích TD đƣợc thiết kế theo kiểu đệ quy, và cần tham số chièu cao của font chữ. Ngô Quốc Tạo B2.1: Tính lƣợc đồ chiếu ngang cho vùng ảnh chứa cột(i) đƣợc kết quả là mảng B gồm n phần tử.

      Có rất nhiều kỹ thuật lọc nhiễu, tuy nhiên nhƣ đã trình bày ở phần II.1.4 bản chất của FS có thể coi nhƣ đi xác định đặc trƣng độ nhám của các bề mặt thuộc vùng nền, văn bản hay đồ họa. Module mô phỏng thuật toán FS chỉ mang tính nghiên cứu quá trình làm việc của Fractal Signature. Về mặt thuật toán giống nhƣ III.2.5 chỉ khác không cần tính thể tích của các Blanket đƣợc tạo ra mà tiến hành vẽ các blanket đó trong không gian 3D.

      Hình 33: Giao diện chính
      Hình 33: Giao diện chính