Tiền xử lý ảnh áp dụng cho bài tốn nhập tài liệu tựđộng

Một phần của tài liệu 042_Tom tat khoa luan tot nghiep K47CNPM.pdf (Trang 46 - 48)

- 4 1tiế n hành khi chúng ta đ ã xây d ự ng đựợ c

3.Tiền xử lý ảnh áp dụng cho bài tốn nhập tài liệu tựđộng

càng thu hút nhiều sự chú ý vì khả năng áp dụng rộng rãi vào thực tế cũng như những hiệu quả mà nĩ mang lại. Trong hệ thống này, khử nhiễu, khử nghiêng và phân vùng ảnh là một phần cĩ vai trị đặc biệt quan trọng. Chức năng của nĩ là chính xác ảnh và tách ra các vùng được nhập thơng tin để làm đầu vào cho module nhận dạng chữ. Dựa trên đặc tính của ảnh tài liệu được scan, chúng tơi đã sử dụng phương pháp điều chỉnh mức xám để tách nền ra khỏi phần thơng tin cần nhận dạng; và sử dụng phương pháp phép chiếu để khử nghiêng ảnh do phương pháp này đạt được độ chính xác cao đối với những ảnh cĩ đặc trưng trên. Cũng dựa trên đặc điểm của kiểu form văn bản là dữ liệu được nhập vào các ơ trên form (nghĩa là nằm trong giới hạn giữa các đường thẳng), giải pháp đề ra cho phân vùng là thơng qua việc xác định các đường thẳng kết hợp với sử dụng hệ tọa độ tương đối để xác định các vùng nhập dữ liệu. Chúng tơi đã tiến hành thực nghiệm trên nhiều kiểu form văn bản khác nhau và thu được những kết quả rất khả quan.

Khĩa luận này trình bày về phần tiền xử lý ảnh: khử nhiễu, tách nền và khử nghiêng.

2. Tổng quan về tiền xử lý ảnh

Giai đoạn tiền xử lý ảnh là rất quan trọng nĩ ảnh hưởng lớn đến độ chính xác của quá trình tách vùng và nhận dạng sau này. Các quá trình tiền xử lý ảnh bao gồm: lọc nhiễu, tách nền, nhị phân hĩa và khử nghiêng.

a. khử nhiễu

Hiện nay cĩ rất nhiều các phương pháp khử nhiễu, cĩ thể kể đến như: mean, median, pseudo median, inverse, pseudo inverse, winner filter…

Nhưng với những ảnh tài liệu, do đặc phân bố đồng đều về mật độ mức xám của nền, nên nhìn chung các phương pháp trên tỏ ra khơng hiệu quả, do vậy chúng tơi đề xuất giải pháp lọc nhiễu, tách nền dựa trên phương pháp điều chỉnh mức xám (Gray level scaling) [1, 3].

b. Khử nghiêng

Một văn bản cĩ rất nhiều các đặc trưng so với các loại hình ảnh khác như các đặc trưng về hướng, về cấu trúc phân bố các đối tượng ... Từ đĩ cũng cĩ một số phương pháp xác định gĩc nghiêng cho ảnh của văn bản như: các phương pháp dựa trên biến đổi Hough, các phương pháp dựa trên Nearest Neighbour, các phương pháp dựa trên registered object… Do đặc điểm của ảnh tài liệu nên chúng tơi lựa chọn phương pháp phép chiếu cải tiến [2] cho bài tốn nhập tài liệu tự động.

3. Tiền xử lý ảnh áp dụng cho bài tốn nhập tài liệu tựđộng liệu tựđộng

a. Lọc nhiễu, tách nền.

Ảnh của văn bản gốc vốn dĩ là ảnh nhị phân, tức là chỉ cĩ hai ngưỡng đen, trắng cho chữ và nền. Song sau khi in ra và quét lại vào máy tính, nĩ trở thành ảnh đa mức xám tức là cĩ 256 ngưỡng khác nhau. Một số vùng nền cĩ thể xám hơn, ngược lại một số đối tượng chữ, bảng và dịng kẻ cĩ thể mờ đi. Nhiệm vụ của chúng ta ở đây là tách các đối tượng cần xử lý ra khỏi hình nền.

Thuật tốn được xây dựng dựa trên giả thiết mặc dù cĩ sự biến đổi về ngưỡng tuy nhiên vẫn cĩ sự khác biệt giữa ngưỡng của chữ và của nền. Thơng qua việc tăng cường độ tương phản lặp lại nhiều lần, ta hi vọng rằng cĩ thể khuyếch đại sự khác biệt này một cách đáng kể. Tuy nhiên với cách lọc trực tiếp trên ảnh này thì khơng hiệu quả

khi số lần lặp là nhiều (tốc độ tỉ lệ thuận với số lần lặp). Do vậy chúng tơi đề nghị giải pháp chỉ lọc trên Histogram.

b. Khử nghiêng

Để khắc phục sự tính tốn phức tạp của phép chiếu chúng ta chỉ chia đường chiếu làm 2 loại đường chiếu đen (cĩ ít nhất 1 điểm đen trên đường chiếu) và đường chiếu trắng (khơng cĩ bất cứ điểm đen nào trên đường chiếu). Theo cách này các đối tượng được xấp xỉ bởi hình bình hành. Việc ước lượng gĩc nghiêng của ảnh dựa trên diện tích các hình bình hành hoặc phần bù của các hình bình hành đĩ [2].

Tuy nhiên với cách làm này thì kết quả cho độ chính xác khơng cao, do vậy chúng ta chỉ dùng phương pháp này để ước lượng nhanh một gĩc nghiêng, sau đĩ áp dụng phương pháp phép chiếu để chính xác hĩa gĩc nghiêng ảnh.

4. Thực nghiệm

Với mục đích đánh giá độ chính xác và hiệu năng thực hiện của các phương pháp trên, chúng tơi đã tuyển tập rất nhiều các tài liệu dạng ảnh trên các kiểu form khác nhau như: phiếu đăng ký, phiếu điều tra, hĩa đơn, phiếu thanh tốn, bảng điểm….Các ảnh này được tìm thấy phần lớn là thơng qua trang tìm kiếm Google.com để cĩ thể đảm bảo được sự đa dạng về kiểu form, về chất lượng ảnh, về kích cỡ và ngơn ngữ.

a. Thực nghiệm về lọc nhiễu, tách nền

Chúng tơi thực nghiệm với 60 ảnh khác nhau, và thu được kết quả:

DPI Hiệu năng (ms) Số lần lọc Trung bình 100 7.63 3.43 150 15.53 3.57 200 36.81 3.21 300 95.21 3.34 Từ kết quả thực nghiệm trên ta thấy rõ việc lọc ảnh trên Histogram tỏ ra rất hiệu quả, tốc độ thực thi khơng phụ thuộc vào số lần lặp mà chúng chỉ phụ thuộc vào độ phân giải.

b. Thực nghiệm về xác định gĩc nghiêng của

ảnh

Thực nghiệm về xác định gĩc nghiêng của ảnh được cài đặt theo phương pháp phép chiếu trên 60 ảnh, với 300 gĩc nghiêng khác nhau cho mỗi một ảnh, tổng số ảnh thử nghiệm là 18000 ảnh. độ lệch trung bình so với gĩc thực tế với sai số ±0.10 Phương pháp phép chiếu cải tiến (0) Cat 1 0.0263 Cat 2 0.0108 Cat 3 0.0016 Cat 4 0.0049 Total 0.0109 Từ kết quả thực nghiệm trên ta thấy, độ chính xác việc xác định gĩc nghiêng là đủ để tiến hành phân vùng và nhận dạng ảnh. 5. Kết luận

Trong quá trình nghiên cứu rất nhiều dạng Form văn bản khác nhau, bao gồm cả các văn bản tiếng Việt và tiếng Anh và việc nghiên cứu nhiều thuật tốn khác nhau, chúng tơi đã lựa chọn, cải tiến và đưa ra được một số các giải pháp riêng cũng như cài đặt thành cơng các thuật tốn về lọc nhiễu, tách nền và xác định gĩc nghiêng của ảnh.

Các cơng việc cần được nghiên cứu tiếp:

• Tích hợp với module nhận dạng chữ viết tiếng việt.

• Xây module quản trị tài liệu dạng Form.

• Nâng cao hiệu năng và độ chính xác cho module tiền xử lý ảnh và phân vùng.

Tài liệu tham khảo (adsbygoogle = window.adsbygoogle || []).push({});

[1] Ergina Kavallieratou, “A Binarization Algorithm specialized on Document Images and Photos”.

[2] Fu Chang, Chien-Hsing Chou, and Shih- Yu Chu. A New Approach to Estimation of Document Skew Angles Based on Piecewise Linear Approximation of Line Objects. 2004.

[3] Myler H.R., Weeks A.R. Computer imaging recipes in C, ©1993.

NHẬN DẠNG PHIẾU ĐĂNG KÝ THI

Trần Minh Quân Mã số SV: 0220266

Cán bộ hướng dẫn: TS. Nguyễn Việt Hà

1. Giới thiệu

Hàng năm cĩ khoảng 1,5 triệu lượt thí sinh đăng ký thi đại học. Để nhập tồn bộ số phiếu đăng ký thi của thí sinh vào máy tính cần rất nhiều thời gian và cơng sức. Mặt khác việc đăng ký trực tuyến chưa thể áp dụng do những khĩ khăn về máy mĩc thiết bịở một số địa phương. Việc xử lý tự động các phiếu đăng ký thi sẽ rút ngắn đáng kể thời gian và cơng sức nhập dữ liệu. Bài tốn này vừa cĩ những khĩ khăn của việc bĩc tách dữ liệu từ một ảnh quét cĩ nhiều thành phần: chữ cái in, chữ cái viết tay, chữ số, các ký hiệu, hình vẽ; vừa cĩ những khĩ khăn của việc nhận dạng chữ viết tay: sự đa dạng về nét chữ, hệ thống dấu trong tiếng Việt. Để khắc phục những khĩ khăn này, phần điền thơng tin trên phiếu đăng ký thi bao gồm các ơ chữ nhật, mỗi ơ dành cho một chữ cái hoặc chữ số. Để nhận dạng phiếu cần thực hiện hai bước chính là bĩc tách và nhận dạng ảnh ký tự.

Một phần của tài liệu 042_Tom tat khoa luan tot nghiep K47CNPM.pdf (Trang 46 - 48)