Chương 3: PHÂN TÍCH BIỂU MẪU
Mục tiêu chính của chương III là trình bày phương pháp trích xuất thông tin cấu trúc ô nhập và nhãn của vùng nhập.
Phần phương pháp trích xuất xuất cấu trúc ô nhập sẽ giới thiệu một phương pháp trích xuất dựa vào loại giao điểm của các đường thẳng ngang dọc.
Phần trích xuất nhãn sẽ dùng phần mềm mã nguồn mở VietOCR (viết dựa vào công cụ Tessseract OCR của Google).
Cuối cùng là phần thực nghiệm kiểm tra hiệu quả của giải thuật trích xuất cấu trúc ô nhập.
3.1. Giới thiệu
Phân tích biểu mẫu là một dạng đặc biệt của bài toán Phân tích Ảnh Tài liệu (Document Image Analysis)([11],[27]). Phân tích là khâu quan trọng nhất trong quá trình xử lí biểu mẫu [8]. Ở mức toàn cục (global), việc phân tích sẽ xử lí toàn tập tin ảnh biểu mẫu, như chống nghiên (deskew), phân tích hình học (graphical analysis) và phân tích văn bản (text analysis) chẳng hạn; ở mức cục bộ, đó là trích xuất các thành phần trên biểu mẫu, ví dụ như thông tin người dùng điền vào, đây là việc phân tích ở mức vật lí (physical analysis). Ngoài ra còn có phân tích ở mức luận lí (logic analysis), nhằm chỉ ra ý nghĩa hoặc mối quan hệ của những thành phần trên biểu mẫu.
Do vậy, phương pháp phân tích biểu mẫu rất đa dạng, tùy thuộc mức độ, nội dung phân tích và thường xoay quanh việc thực hiện ba chức năng chính [3]:
◦ Gom nhóm và định vị các các thành phần trên biểu mẫu dựa vào kiểu thông tin: nhóm kiểu ô nhập, nhóm chữ viết.
◦ Xác định mối liên hệ giữa nhóm ô nhập và chữ viết.
◦ Tách chữ viết khỏi ô nhập. Chức năng này còn giải quyết vấn đề chữ viết đè lên ô nhập (chữ mất nét).
Việc phân tích ở mức vật lí tập trung vào phần ảnh có chứa thông tin về vùng nhập (input field). Mỗi vùng gồm hai phần: nhãn và ô nhập có cấu trúc xác định (giới hạn ở dạng cấu trúc vùng nhập tạo bởi các đường thẳng ngang và dọc). Các đường thẳng trong biểu mẫu đã trích xuất sẽ được gom nhóm (lines grouping) tạo nên các cấu trúc ô nhập. Trong đề tài này sẽ trình bày cách gom nhóm đường thẳng thành 3 cấu trúc: ô nhập chữ nhật, ô nhập răng cưa và đường thẳng (xem mục 3.2). Nhãn ô nhập được trích xuất bằng chương trình nhận dạng ký tự Tesserract (xem mục 3.3).