- 44 - NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG NHẬP TÀI LIỆU TỰ ĐỘNG BẰNG NHẬN DẠNG QUANG HỌC Đinh Văn Phương MSSV: 0220250 Email: Phuondvk47@yahoo.com Cán bộ hướng dẫn: ThS. Đào Kiến Quốc. 1. Giới thiệu Nhập dữ liệu tự động đang là bài toán ngày càng thu hút nhiều sự chú ý vì khả năng áp dụng rộng rãi vào thực tế cũng như những hiệu quả mà nó mang lại. Trong hệ thống này, khử nhiễu, khử nghiêng và phân vùng ảnh là một phần có vai trò đặc biệt quan trọng. Chức năng của nó là chính xác ảnh và tách ra các vùng được nhập thông tin để làm đầu vào cho module nhận dạng chữ. Dựa trên đặc tính của ảnh tài liệu được scan, chúng tôi đã sử dụng phương pháp điều chỉnh mức xám để tách nền ra khỏi phần thông tin cần nhận dạng; và sử dụng phương pháp phép chiếu để khử nghiêng ảnh do phương pháp này đạt được độ chính xác cao đối với những ảnh có đặc trưng trên. Cũng dựa trên đặc điểm của kiểu form văn bản là dữ liệu được nhập vào các ô trên form (nghĩa là nằm trong giới hạn giữa các đường thẳng), giải pháp đề ra cho phân vùng là thông qua việc xác định các đường thẳng kết hợp với sử dụng hệ tọa độ tương đối để xác định các vùng nhập dữ liệu. Chúng tôi đã tiến hành thực nghiệm trên nhiều kiểu form văn bản khác nhau và thu được những kết quả rất khả quan. Khóa luận này trình bày về phần tiền x ử lý ảnh: khử nhiễu, tách nền và khử nghiêng. 2. Tổng quan về tiền xử lý ảnh Giai đoạn tiền xử lý ảnh là rất quan trọng nó ảnh hưởng lớn đến độ chính xác của quá trình tách vùng và nhận dạng sau này. Các quá trình tiền xử lý ảnh bao gồm: lọc nhiễu, tách nền, nhị phân hóa và khử nghiêng. a. khử nhiễu Hiện nay có rất nhiều các phương pháp khử nhiễu, có thể kể đến như: mean, median, pseudo median, inverse, pseudo inverse, winner filter… Nhưng với những ảnh tài liệu, do đặc phân bố đồng đều về mật độ mức xám của nền, nên nhìn chung các phương pháp trên tỏ ra không hiệu quả, do vậy chúng tôi đề xuất giải pháp lọc nhiễu, tách nền dựa trên phương pháp điều chỉnh mức xám (Gray level scaling) [1, 3]. b. Khử nghiêng Một văn bản có rất nhiều các đặc trưng so với các loại hình ảnh khác như các đặ c trưng về hướng, về cấu trúc phân bố các đối tượng . Từ đó cũng có một số phương pháp xác định góc nghiêng cho ảnh của văn bản như: các phương pháp dựa trên biến đổi Hough, các phương pháp dựa trên Nearest Neighbour, các phương pháp dựa trên registered object… Do đặc điểm của ảnh tài liệu nên chúng tôi lựa chọn phương pháp phép chiếu cải tiến [2] cho bài toán nhập tài liệu tự động. 3. Tiền xử lý ảnh áp dụng cho bài toán nhập tài liệu tự động a. Lọc nhiễu, tách nền. Ảnh của văn bản gốc vốn dĩ là ảnh nhị phân, tức là chỉ có hai ngưỡng đen, trắng cho chữ và nền. Song sau khi in ra và quét lại vào máy tính, nó trở thành ảnh đa mức xám tức là có 256 ngưỡng khác nhau. Một số vùng nền có thể xám hơn, ngược lại một số đối tượng chữ, bảng và dòng kẻ có thể mờ đi. Nhiệm vụ của chúng ta ở đây là tách các đối tượng cần xử lý ra khỏi hình nền. Thuật toán được xây dựng dựa trên giả thiết mặc dù có sự biến đổi về ngưỡng tuy nhiên vẫn có sự khác biệt giữa ngưỡng của chữ và của nền. Thông qua việc tăng cường độ tương phản lặp lại nhiều lần, ta hi vọng rằng có thể khuyếch đại sự khác biệt này một cách đáng kể. Tuy nhiên với cách lọc trực tiếp trên ảnh này thì không hiệu quả - 45 - khi số lần lặp là nhiều (tốc độ tỉ lệ thuận với số lần lặp). Do vậy chúng tôi đề nghị giải pháp chỉ lọc trên Histogram. b. Khử nghiêng Để khắc phục sự tính toán phức tạp của phép chiếu chúng ta chỉ chia đường chiếu làm 2 loại đường chiếu đen (có ít nhất 1 điểm đen trên đường chiếu) và đường chiếu trắng (không có bất cứ điểm đen nào trên đường chiếu). Theo cách này các đối tượng được xấp xỉ bởi hình bình hành. Việc ước lượng góc nghiêng của ảnh dựa trên diện tích các hình bình hành hoặc phần bù của các hình bình hành đó [2]. Tuy nhiên với cách làm này thì kết quả cho độ chính xác không cao, do vậy chúng ta chỉ dùng phương pháp này để ước lượng nhanh một góc nghiêng, sau đó áp dụng phương pháp phép chiếu để chính xác hóa góc nghiêng ảnh. 4. Thực nghiệm Với mục đích đánh giá độ chính xác và hiệu năng thực hiện của các phương pháp trên, chúng tôi đã tuyển tập rất nhiều các tài liệu dạng ảnh trên các kiểu form khác nhau như: phiếu đăng ký, phiếu điều tra, hóa đơn, phiếu thanh toán, bảng điểm….Các ảnh này được tìm thấy phần lớn là thông qua trang tìm kiếm Google.com để có thể đảm bảo được sự đa dạng v ề kiểu form, về chất lượng ảnh, về kích cỡ và ngôn ngữ. a. Thực nghiệm về lọc nhiễu, tách nền Chúng tôi thực nghiệm với 60 ảnh khác nhau, và thu được kết quả: DPI Hiệu năng (ms) Số lần lọc Trung bình 100 7.63 3.43 150 15.53 3.57 200 36.81 3.21 300 95.21 3.34 Từ kết quả thực nghiệm trên ta thấy rõ việc lọc ảnh trên Histogram tỏ ra rất hiệu quả, tốc độ thực thi không phụ thuộc vào số lần lặp mà chúng chỉ phụ thuộc vào độ phân giải. b. Thực nghiệm về xác định góc nghiêng của ảnh Thực nghiệm về xác định góc nghiêng của ảnh được cài đặt theo phương pháp phép chiếu trên 60 ảnh, với 300 góc nghiêng khác nhau cho mỗi một ảnh, tổng số ảnh thử nghiệm là 18000 ảnh. độ lệch trung bình so với góc thực tế với sai số ±0.1 0 Phương pháp phép chiếu cải tiến ( 0 ) Cat 1 0.0263 Cat 2 0.0108 Cat 3 0.0016 Cat 4 0.0049 Total 0.0109 Từ kết quả thực nghiệm trên ta thấy, độ chính xác việc xác định góc nghiêng là đủ để tiến hành phân vùng và nhận dạng ảnh. 5. Kết luận Trong quá trình nghiên cứu rất nhiều dạng Form văn bản khác nhau, bao gồm cả các văn bản tiếng Việt và tiếng Anh và việc nghiên cứu nhiều thuật toán khác nhau, chúng tôi đã lựa chọn, cải tiến và đưa ra được một số các giải pháp riêng cũng như cài đặt thành công các thuật toán về lọc nhiễu, tách nền và xác định góc nghiêng của ảnh. Các công việc cần được nghiên cứu tiếp: • Tích hợp với module nhận dạng chữ viết tiếng việt. • Xây module quản trị tài liệu dạng Form. • Nâng cao hiệu năng và độ chính xác cho module tiền xử lý ảnh và phân vùng. Tài liệu tham khảo [1] Ergina Kavallieratou, “A Binarization Algorithm specialized on Document Images and Photos”. [2] Fu Chang, Chien-Hsing Chou, and Shih- Yu Chu. A New Approach to Estimation of Document Skew Angles Based on Piecewise Linear Approximation of Line Objects. 2004. [3] Myler H.R., Weeks A.R. Computer imaging recipes in C, ©1993. . - 44 - NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG NHẬP TÀI LIỆU TỰ ĐỘNG BẰNG NHẬN DẠNG QUANG HỌC Đinh Văn Phương MSSV: 0220250 Email: Phuondvk47@yahoo.com. ảnh tài liệu nên chúng tôi lựa chọn phương pháp phép chiếu cải tiến [2] cho bài toán nhập tài liệu tự động. 3. Tiền xử lý ảnh áp dụng cho bài toán nhập tài