Hệ thống chuẩn bị biểu mẫu

Một phần của tài liệu Nhận dạng các biểu mẫu tài liệu (Trang 60 - 66)

3.1 Hệ thống xử lý biểu mẫu động

3.1.4.2.Hệ thống chuẩn bị biểu mẫu

Hệ thống này bao gồm một PC với một trình soạn thảo biểu mẫu động (chuẩn bị cho biểu mẫu động) và một máy in.

63

Trình soạn thảo biểu mẫu động là một trình có khả năng sắp xếp các khung đầu vào cùng với tiêu đề của chúng và có khả năng đƣa thông tin vào giống nhƣ các trình soạn thảo biểu mẫu thông thƣờng. Các thông tin đƣa vào có thể đƣợc chọn theo danh sách dựa trên menu.

(2)Nhúng thông tin

Để nhúng thông tin chúng ta sử dụng các điểm có hình dạng đƣờng tròn và các hình chữ nhật (giống nhƣ hình bao).

Đƣờng kính của điểm chấm tròn là 0.1mm và chiều dài đầy đủ của hình chữ nhật là 0.25mm và chúng đại diện cho các ký tự 0 và 1.

Thông tin đƣợc nhúng vào trong khung bao gồm: - Thuộc tính của mục sẽ điền vào.

- Kiểu ký tự sẽ đƣợc sử dụng trong các khung (ví dụ: bảng chữ cái tiếng Anh, con số, ký tự đặc biệt ..)

- Phƣơng hƣớng, chỉ dẫn. - Tiêu đề.

Các thuộc tính đƣợc phân loại theo các mục trên khung thông tin nhập vào và dựa trên ý nghĩa của chúng. Đôi khi, một nội dung giống nhau có thể đƣợc gọi bởi các tiêu đề khác nhau do đó chúng ta phân loại các trƣờng tên theo nghĩa của chúng. Điều này không chỉ làm tăng tốc độ nhận dạng chữ viết tay, mà nó còn hƣớng dẫn trong quá trình xử lý và xây dựng cơ sở dữ liệu từ các thông tin đƣợc chiết xuất. Các thuộc tính có thể là: “Văn bản”, “Địa chỉ”, “Họ tên”, “Nghề nghiệp”, “Tài khoản”, “Số lƣợng”, “Chất lƣợng”, “Ngày, tháng, tuần”, ….

Chúng ta nhận các biểu mẫu đƣợc sử dụng bởi nhân viên quản trị tại các trƣờng học và sau đó phân loại các nội dung vào các mục thuộc tính đƣợc gợi ý ở trên. Chúng ta biểu diễn dữ liệu này trong 8 bít.

64

Kiểu ký tự là kiểu đƣợc sử dụng trong biểu mẫu và chúng ta sử dụng 8 bít cờ để biểu thị rõ mỗi kiểu của ký tự. Điều này làm tăng tốc độ nhận dạng. Chúng ta chia loại các ký tự nhƣ trong bảng 1 và gán 1 bít duy nhất cho mỗi kiểu ký tự.

Bit No Character Type

1 Alphabet 2 Digit 3 Punctuation 4 Special Character 5 Other 6 Unused 7 Unused 8 Unused Bảng 3.1: Character Type Bit No Direction 1 Recognize 2 Store to database 3 Send by Mail 4 Store the image

5 Compare to the DB

6 Unused

7 Unused

8 Unused

Bảng 3.2 : Direction

Chiều hƣớng và chỉ dẫn là quy định hoặc câu lệnh để xử lý chữ viết tay và biểu mẫu của nó. Chúng ta sử dụng 8 bít cờ để thể hiện nó và mỗi một bít duy nhất đƣợc đại diện cho 1 chiều hƣớng nhƣ trong bảng 2.

65

Tiêu đề là nhãn đƣợc sử dụng trong biểu mẫu mô tả sẽ đƣợc viết vào trong khung. Một tiêu để đầy đủ có thể là quá dài để nhúng vào biểu mẫu, vì vậy chúng ta sẽ lấy 4 ký tự đầu tiên và biểu diễn chúng dƣới mã chuyển. Tiêu đề đƣợc đƣa vào trong giai đoạn cuối và đƣợc thể hiện bằng 8 bít NULL.

Với tổng thể biểu mẫu, chúng ta sử dụng một đƣờng thẳng ngang thể hiện dƣới dạng kết cấu điểm. Nó có thể đặt ở bất kỳ đâu song chúng ta nên đặt trên tiêu đề của biểu mẫu và thể hiện cho thuộc tính, tiêu đề của biểu mẫu …

Chúng ta tạo một tập dữ liệu bao gồm các mục đƣợc đề cập ở trên và biểu diễn chúng trên một đƣờng thẳng nhƣ là một chuỗi điểm bằng phƣơng pháp nhúng thông tin mô tả trong các phần tiếp theo. Chúng ta sẽ tiếp tục lặp chuỗi này cho phép nối thành đƣờng thẳng và sử dụng ít nhất là 3 đƣờng, do đó chúng ta sẽ tạo ra một kết cấu điểm cho khung.

Dữ liệu nhúng vào nằm ở phần trên của khung (hình 3.4).

Attribute Character type

Direction Title Terminal

Hình 3.3: Data set

Hình 3.4: Vùng mã hóa thông tin

3.1.4.3.Hệ thống xử lý biểu mẫu (adsbygoogle = window.adsbygoogle || []).push({});

Hệ thống này bao gồm một máy quét và một máy tính với phần mềm xử lý biểu mẫu. Giao diện của ứng dụng và ảnh của biểu mẫu đƣợc thể hiện trong hình 8,

66

và luồng xử lý đƣợc thể hiện nhƣ trong hình 9. Các thành phần của hệ thống đƣợc mô tả chi tiết nhƣ sau:

(1)Phần đọc biểu mẫu

Biểu mẫu đƣợc đọc bằng một máy quét ảnh. Sau khi quét ảnh chúng ta thu đƣợc 1 ảnh bitmap.

Hình 3.5: Một minh họa về biểu mẫu động

(2)Phân tách các ảnh

Chúng ta sẽ thu đƣợc ảnh của chữ viết tay bằng phƣơng pháp gán nhãn để loại trừ các điểm chấm nhỏ. Mặc dù có rất nhiều phƣơng pháp loại trừ các điểm chấm, song dựa trên tốc độ xử lý ảnh và hiệu quả, chúng ta chọn phƣơng pháp gán nhãn cho tình huống này. Bằng cách thực hiện phép trừ ảnh, trừ ảnh ban đầu với ảnh chữ chúng ta sẽ thu đƣợc ảnh khung.

(3)Phân đoạn các ký tự

Ảnh chữ viết tay đƣợc phân đoạn theo vị trí của khung và những ký tự này đƣợc giới hạn trong một khung.

67

Hình 3.6: Luồng xử lý

(4)Giải mã

Giải mã đƣợc áp dụng trên khung điền thông tin. Tại đây, chúng ta phải chú ý đến tình huống gối chồng của chữ viết tay tên khung và có thể làm hƣ hại đến một

68

vài vùng trong kết cấu điểm. Do đó, vùng dữ liệu nhúng vào đƣợc sao chép nhiều lần, sau đó chúng đƣợc chiết xuất và giải mã theo phƣơng pháp bình chọn đa số.

(5)Điều khiển nhận dạng

Chức năng này gửi thông tin từ (3) và (4) tới modul nhận dạng chữ viết tay (6) và cũng gửi kết quả nhận dạng tới giao diện hiệu chỉnh (7).

Máy nhận dạng ký tự

Các mẫu ký tự viết tay sẽ đƣợc đƣa vào để nhận dạng. Để tăng tốc độ nhận dạng hệ thống sẽ sử dụng thông tin của kiểu ký tự và thuộc tính kèm theo.

(6)Giao diện hiệu chỉnh

Các ký tự nhận dạng sẽ đƣợc hiện thị lên trên chữ viết tay trong khung. (7)Tạo nhóm sheet

Dữ liệu đƣợc tạo ra bởi tiến trình từ (1) tới (7) đƣợc gói lại trong tập tin định dạng CSV.

Một phần của tài liệu Nhận dạng các biểu mẫu tài liệu (Trang 60 - 66)