-75- PHƯƠNG PHÁP NHẬP LIỆUFORMTÀILIỆU Nguyễn Thu Trang MSV: 0320332 Email: thutrang5692@gmail.com Cán bộ hướng dẫn : ThS. Đào Kiến Quốc 1. Giới thiệu Nhu cầu tự động hóa của con người ngày càng tăng, bài toán nhập liệu tự động được đặt ra là cần thiết do những lợi ích và hiệu quả mà nó mang lại. Do văn bản dưới dạng giấy tờ nên nhập liệu tự động là lấy ảnh và nhận dạng. Vấn đề nhậ n dạng đã được nghiên cứu và đạt được nhiều kết quả khả quan. Ta xem xét nhập liệu với những formtàiliệu có cấu trúc. Quá trình nhập liệu bao gồm: tiền xử lý ảnh, quản trị form, phân vùng, nhậndạng và xử lý dữ liệu. Quản trị form chiếm vai trò quan trọng, quản lý tất cả các thông tin về các vùng nhập liệu cũng như dữ liệu trong vùng trên form văn bản có cấ u trúc để phục vụ cho quá trình phân vùng, nhậndạng chính xác hơn và tích hợp cơ sở dữ liệu sau khi nhậndạng hoàn thành. Do vậy xây dựng một hệ thống quản trị form tốt là một nhiệm vụ quan trọng. Trong khóa luận sẽ trình bày về vấn đề quản trị form và xây dựng một hệ thống quản trị form. 2. Tổng quan về hệ thống nhập liệu tự động Hệ thống nhập liệu tự động là hệ thống tự động nhậndạng và lấy được dữ liệu trong vùng nhập liệu lưu vào cơ sở dữ liệu. Để thực hiện được việc này ta phải tuân theo một quy trình nhất định, được mô tả như sau: • Tiền xử lý ảnh: Lọc nhiễu và tính toán một cách tương đối góc nghiêng của ảnh, chỉnh sửa ảnh cho ta một ảnh chuẩn hơn. • Quản trị form: quản lý thông tin đặc tả form, các vùng nhập liệu và tích hợp cơ sở dữ liệu sau khi nhậndạng • Phân vùng: Từ file ảnh đã được làm chuẩn qua giai đoạn tiền xử lý, phát hiện và phân vùng dữ liệ u được nhập. • Nhậndạng và xử lý dữ liệu: Từ các vùng nhập liệu đã được xác định, nhận dạng chữ viết trên vùng nhập liệu, xử lý từ vựng và ghi vào cơ sở dữ liệu. 3. Quản trị form a) Ý nghĩa quản trị form Trong quá trình phân vùng: Hệ thống nhập liệu sử dụng phương pháp phân vùng dựa trên xác định đường thẳng phù hợp với đặc tr ưng form cần nhập liệu. Các thông tin về đặc tả form là cần thiết giúp xác định được các đường để phân vùng chính xác. Trong quá trình nhận dạng: Việc nhậndạng chữ gặp những khó khăn, ví dụ như: không thể phân biệt giữa số 0 và chữ “O”, dấu “.” với nhiễu,… việc quản trị thông tin về dữ liệu giúp phân biệt và chính xác dữ liệu, tránh những sai sót trong việc nhận dạng. Trong xử lý dữ liệu: Quản trị form tích hợp cơ sở dữ liệu sẽ giúp quá trình xử lý dữ liệu đơn giản: sau khi nhậndạng được dữ liệu, dữ liệu sẽ được lưu vào trường dữ liệu tương ứng một cách tự động. b) Phân tích bài toán quản trị form Hệ thống quản trị form cần đáp ứng những yêu cầu: 1. Có khả năng thiế t kế form Thiết kế form mới: Thiết kế một form mới hoàn toàn. -76- Học form: Với một form mẫu có sẵn, dựa vào form này ta sẽ thiết kế form mới theo mẫu này và lưu lại. Có thể dùng form nhập liệu sẵn có làm nền để tiện cho việc thiết kế form, … 2. Lưu thông tin đặc tả form và các vùng nhập liệu vào cơ sở dữ liệu: Việc lưu thông tin đặc tả form và các vùng nhập liệu rất cần thiết trong việc nhập liệu cụ thể là quá trình phân vùng, tách kí tự và nhận dạng. Lưu thông tin đặc tả form như: tên form, số các vùng nhập liệu trong form, Lưu thông tin các vùng nhập liệu: số thứ tự của vùng trong form, số các ô trong vùng nhập liệu, kiểu dữ liệu vùng nhập liệu, … 3. Tạo động cơ sở dữ liệu phục vụ cho tích hợp cơ sở dữ liệu sau này. Với mỗi kiểu form văn bản ta tạo một bả ng lưu dữ liệunhậndạng được từ các vùng nhập liệu vào các trường tương ứng. 4. Ứng dụng quản trị form Đưa ra ứng dụng của quản trị form trong việc phân vùng cụ thể là đưa ra thuật toán sử dụng đến thông tin từ quản trị form để xác định đường tương ứng giữa ảnh scan và form mẫu. • Tập các đường ngang từ ảnh mẫu: 1 y , 2 y , ., m y • Tập các đường ngang xác định được từ ảnh scan: ' 1 y , ' 2 y , , ' n y Thuật toán: 1. Duyệt từng đường trong ảnh scan • Giả sử đường đó là đường tương ứng với đường 1 y như vậy ta sẽ có độ lệch ban đầu giữa hai đường này. • Ta sẽ đồng nhất tọa độ một cách tạm thời giữa hai hệ trục tọa độ : dịch tất cả các đường trong ảnh scan đi một đoạn bằng độ lệch ban đầu, ta tìm được các đường tương ứng với đường 2 y , ., m y còn lại bằng cách xem đường nào có tọa độ xấp xỉ gần nhất tức độ lệch của nó với đường phía ảnh mẫu là nhỏ nhất. • Tính tổng lệch bằng tổng các độ lệch giữa các cặp đường tương ứng giữa ảnh mẫu và ảnh scan. 2. Sau quá trình 1 ta thu được một tập các tổng lệch, min của các tổng lệch này sẽ xác định t ập các đường thẳng đó là phù hợp, là tập tương ứng ảnh mẫu cần tìm. Như vậy ta tìm được tập các đường tương ứng với các đường trong ảnh mẫu dùng để phân vùng. 5. Thực nghiêm a) Trình bày môi trường phát triển: • Cơ sở dữ liệu: SQL Server 2000 • Môi trường lập trình:.net, ngôn ngữ VB.net b) Một số giao diện chương trình 6. Kết luận Qua quá trình nghiên cứu về hệ thống nhậ p liệu tự động, thấy được tầm quan trọng của các thông tin đặc tả form và vùng dữ liệu, việc xây dựng một hệ thống quản trị form đã được nghiên cứu và tiến hành. Hệ thống quản trị form được xây dựng nhằm cung cấp thông tin cho nhiều quá trình trong nhập liệu tự động cụ thể là quá trình phân vùng, nhậndạng và xử lý dữ liệu. Các công việc sẽ được nghiên c ứu tiếp theo như : • Hoàn thiện quản trị form hơn. • Tích hợp với module nhận dạng chữ viết tiếng việt. • Tích hợp với module tiền xử lý ảnh và phân vùng. Đưa ra một hệ thống nhập liệu tự động hoàn chỉnh với độ chính xác cao, khả năng áp dụng rộng rãi. Tàiliệu tham khảo Nguyễn Thanh Phúc. Nghiên cứu và xây dựng hệ thống nhập tàiliệu tự động bằng nhậndạng quang học, Luận văn tố nghiệp ngành công nghệ thông tin - ĐHQGHN . nhập. • Nhận dạng và xử lý dữ liệu: Từ các vùng nhập liệu đã được xác định, nhận dạng chữ viết trên vùng nhập liệu, xử lý từ vựng và ghi vào cơ sở dữ liệu. . trị form. 2. Tổng quan về hệ thống nhập liệu tự động Hệ thống nhập liệu tự động là hệ thống tự động nhận dạng và lấy được dữ liệu trong vùng nhập liệu