Module chuyển đổi ảnh gốc và biểu đồ mức xám

Một phần của tài liệu Nghiên cứu một số kỹ thuật hiệu chỉnh biểu mẫu và ứng dụng luận văn thạc sĩ (Trang 66)

L ỜI CẢM ƠN

4.2.2. Module chuyển đổi ảnh gốc và biểu đồ mức xám

File ảnh Sobel Edge Detect Canny Rotate Image Laplace Gradient Hình 4.5 Sơ đồ thao tác xử lý trên ảnh View Histogram Previous Image Next Image Image Convert to Binary Convert to Grayscale

Sau khi chọn một hoặc nhiều file ảnh màu và click chuột chọn chức năng Convert to Binary hoặc Convert to Grayscale, chương trình sẽ hiển thị ảnh văn bản kết quả sau khi đã chuyển đổi từ ảnh màu sang ảnh nhị phân hoặc ảnh xám.

4.2.3.

Hình 4.7 Giao diện biểu diễn Histogram của ảnh

Module dò biên

Ngoài ra chương trình còn hỗ trợ chức năng xác định biên của các đối tượng trong ảnh trong ảnh tài liệu để người sử dụng có cái nhìn tổng quát về việc xác định biên của đối tượng làm cơ sở cho việc áp dụng biến đổi Hough để phát hiện góc nghiêng của ảnh.

* Phát hiện biên dùng phương pháp Sobel:

Hình 4.10 Dò biên bằng phương pháp Sobel Edge

Detect

Sobel Canny Emboss

Laplacian Gradient

ò biên

* Phát hiện biên dùng phương pháp Canny:

* Phát hiện biên dùng phương pháp Emboss Laplacian:

Hình 4.11 Dò biên bằng phương pháp Canny

* Phát hiện biên dùng phương pháp Gradient

4.2.4. Module biểu diễn biến đổi Hough

Bên cạnh việc biểu diễn Histogram và các phương pháp pháp hiện biên của đối tượng thì chương trình còn cung cấp một chức năng nữa đó là vẽ biểu đồ biến đổi Hough trên ảnh đầu vào được chọn.

Hình 4.13 Dò biên bằng phương pháp Gradient

4.2.5. Module hiệu chỉnh góc nghiêng văn bản

Chức năng xoay ảnh cho phép người dùng hiệu chỉnh góc nghiêng của một hay nhiều ảnh văn bản một cách tự động. Hiện tại chương trình đã phát hiện và hiệu chỉnh được các ảnh văn bản có góc nghiêng trong khoảng ±200. Dưới đây là giao diện chương trình trước và sau khi chọn chức năng Rotate Image.

4.3. Đánh giá kết quả

Thuật toán trình bày trên đây đã được cài đặt thành công bằng ngôn ngữ lập trình Visual C# của bộ Visual Studio 2010 và được kiểm tra nhiều lần với nhiều bộ dữ liệu khác nhau.

Dữ liệu vào cho chương trình là ảnh màu với nhiều đối tượng ký tự và phi ký tự xen lẫn nhau. Để kiểm tra tính đúng đắn và thời gian chạy của chương trình, tôi đã tạo các bộ dữ liệu đa dạng.

Hơn 100 ảnh được quét từ các tạp chí khoa học hoặc các tài liệu môn học, giáo trình hoặc các hồ sơ văn phòng, các bảng biểu thống kê, bảng điểm,

mẫu đánh giá môn học. Các ảnh văn bản này gồm nhiều loại ngôn ngữ, tiếng Anh, tiếng Nhật, tiếng Hàn, tiếng Việt và cả một số văn bản tiếng Trung Quốc. Trong đó, ảnh có chứa văn bản, các loại hình ảnh, công thức toán học, các bảng biểu và với những font chữ và kích thước chữ khác nhau. Các ảnh có kích thước khác nhau và trong khoảng từ 300*300 pixel tới 2500*3000 pixel.

LOẠI TÀI LIỆU ĐỊNH DẠNG TỔNG

SỐ ẢNH XỬ LÝ ĐƯỢC TỈ LỆ Bảng điểm BMP, TIF 50 50 100% Sách, tạp chí, Giáo trình JPG, BMP, TIF 50 46 92% Hồ sơ, văn bản JPG 8 8 100% Sách ngoại văn JPG, BMP 20 19 95%

Kết quả thực nghiệm cho thấy: Về tốc độ xử lý, chương trình có thể xử lý nhanh kể cả với ảnh nhiều màu và ảnh kích thước lớn. Những ảnh có kích thước bình thường, cỡ bé hơn 1000*1000 pixel thời gian chạy khoảng 1s. Với những ảnh kích thước lớn cỡ 2500*3000 pixel chương trình chỉ mất khoảng từ 2.5s đến 3s để chỉnh sửa được góc nghiêng cho văn bản. Trên thực tế, thời gian xử lý tập trung chủ yếu ở các các giai đoạn phụ đó là tiền xử lý và thuật toán xoay ảnh. Thời gian dò biên và áp dụng biến đổi Hough không đáng kể khi kích thước ảnh lớn.

Về độ chính xác, đây là một ưu điểm nổi bật của chương trình so với nhiều thuật toán phát hiện và chỉnh sửa góc nghiêng văn bản khác. Chương

trình cho độ chính xác cao, đặc biệt với những văn bản có góc lệch trong khoảng ±200. Lý do đơn giản là vì hầu hết những đối tượng được chọn áp dụng biến đổi Hough đều là ký tự. Với những ảnh có nhiễu và những đối tượng phi ký tự thuật toán cho độ chính xác đến góc lệch lớn cỡ ±150. Đặc biệt độ chính xác thuật toán không phụ thuộc vào các loại ngôn ngữ, các font chữ, kích thước ký tự, và cả sự bao hàm giữa các đối tượng ảnh.

Ngoài ra, chương trình còn được tích hợp với hệ thống quản lý điểm tại trường Đại học Lạc Hồng hỗ trợ việc hiệu chỉnh bảng điểm sinh viên phục vụ cho khâu nhập điểm được nhanh chóng và chính xác. Bên cạnh đó, chương trình còn được sử dụng để phát hiện và chỉnh góc nghiêng cho hệ thống đánh giá chất lượng giảng dạy và các thao tác scan tài liệu điện tử. Từ đó hiệu quả công việc quản lý và đào tạo tại trường Đại học Lạc Hồng tăng lên đáng kể.

* Sau đây là một số ảnh văn bản bị nghiêng và kết quả đạt được sau khi phát hiện và hiệu chỉnh góc nghiêng :

Hình 4.16 Một ảnh bị nghiêng góc có các đối tượng xen lẫn văn bảng, bảng biểu và ảnh kết quả sau khi hiệu chỉnh 1 góc 12.9o

Hình 4.17 Một ảnh bị nghiêng góc tiếng Nhật có xen lẫn hình ảnh, ký tự và ảnh kết quả sau khi hiệu chỉnh 1 góc 11.3o

Hình 4.18 Một bảng điểm bị nghiêng góc không thể nhận dạng được của hệ thống quản lý điểm và ảnh kết quả sau khi hiệu chỉnh 1 góc 7.61o

Hình 4.19 Một mẫu phiếu đánh giá chất lượng giảng dạy bị nghiêng góc không thể nhận dạng được và ảnh kết quả sau khi hiệu chỉnh 1 góc 9.72o

Hình 4.20 Một ảnh màu tài liệu bị nghiêng và ảnh kết quả sau khi hiệu chỉnh 1 góc 10.82o

* Ngoài ra chương trình thực nghiệm có khả năng phát hiện được nhiều

góc nghiêng trên cùng 1 trang ảnh văn bản. Giải quyết cho trường hợp

văn bản bị nghiêng nhiều góc do thao tác quét của người sử dụng cũng có

thể là do chính bản thân trang văn bản tồn tại nhiều góc nghiêng cần được hiệu chỉnh lại.

Hình 4.21 Một ảnh màu tài liệu bị nghiêng gồm nhiều biểu đồ và ảnh kết quả sau khi hiệu chỉnh 1 góc 17.6o

KẾT LUẬN

Bên cạnh ngôn ngữ giao tiếp, các thông tin dưới dạng hình ảnh đóng một vai trò rất quan trọng trong việc trao đổi thông tin. Trong công nghệ thông tin, xử lý ảnh và đồ họa đã chiếm một vị trí rất quan trọng bởi vì các đặc tính đầy hấp dẫn đã tạo nên một sự phân biệt với các lĩnh vực khác. Chúng giới thiệu các phương pháp và kỹ thuật để tạo ra các ảnh và xử lý các ảnh này. Ta biết rằng phần lớn các thông tin mà con người thu thập được qua thị giác đều bắt nguồn từ các ảnh. Do đó việc xử lý ảnh và đồ họa là một bộ phận quan trọng trong việc trao đổi thông tin giữa người và máy.

Xử lý ảnh là một lĩnh vực rất rộng lớn gồm nhiều giai đoạn xử lý. Trong mỗi giai đoạn có nhiều vấn đề để nghiên cứu trong đó xử lý ảnh văn bản là một bộ phận quan trọng của ngành xử lý ảnh và có nhiều ứng dụng rộng rãi trong khoa học và đời sống thực tiễn. Một cách tự nhiên và tất yếu, vấn đề đầu tiên và cũng là vấn đề không thể tránh khỏi trong xử lý ảnh văn bản là bài toán góc nghiêng ảnh văn bản.

Sở dĩ có thể kết luận rằng một văn bản bị nghiêng góc là vì chúng ta đã dựa vào một số đối tượng chủ đạo trong văn bản và quan sát thấy đường nối các điểm giữa đáy của chúng lệch đi một góc. Trên cơ sở nghiên cứu các thuật toán phép chiếu nghiêng, phân cụm láng giềng, biến đối Hough, tôi đã chọn và ứng dụng biến đổi Hough vào việc phát hiện và hiệu chỉnh góc nghiêng văn bản để việc xử lý ảnh văn bản đạt hiệu quả tốt nhất.

Mục tiêu của luận văn là tìm hiểu các kỹ thuật phát hiện góc nghiêng trên cơ sở đó ứng dụng vào hiệu chỉnh văn bản để nâng cao hiệu quả cho quá trình nhận dạng ảnh tiếp theo. Cụ thể luận văn đã đạt được các kết quả sau:

+ Trình bày tổng quan về xử lý ảnh và bài toán phát hiện góc nghiêng văn bản. Phân tích ưu và nhược điểm và đưa ra nhận xét cụ thể cho mỗi phương pháp trong quá trình nghiên cứu.

+ Trình bày hệ thống những khái niệm cơ bản về biên và các phương pháp phát hiện biên nổi bật dưới góc độ xử lý ảnh.

+ Trên cơ sở những kỹ thuật đã nghiên cứu, tiến hành xây dựng một ứng dụng phát hiện và hiệu chỉnh góc nghiêng văn bản hỗ trợ công tác quản lý điểm, chấm thi trắc nghiệm và scan tài liệu điện tử.

Hướng phát triển:

+ Tích hợp thêm các thuật toán nâng cao chất lượng ảnh nhằm tăng khả năng phát hiện góc nghiêng.

+ Cài đặt các phương pháp phát hiện góc nghiêng khác: phân cụm láng giềng, phép toán hình thái, hình chiếu nghiêng.

+ Thực hiện phát hiện góc nghiêng trên mọi loại ảnh văn bản.

+ Nghiên cứu thực hiện với ảnh văn bản có góc lệch   - 200 và   200.

TÀI LIỆU THAM KHẢO

[1] Phạm Việt Bình, Cao Lê Mạnh Hà, Đỗ Năng Toàn, “Một cách tiếp cận mới trong phát hiện biên của ảnh đa cấp xám”. Hội thảo Quốc gia lần thứ 8 - Một số vấn đề chọn lọc của Công nghệ thông tin và Truyền thông,

Hải Phòng 25-27/08 /2005. Nxb KH&KT, Hà Nội 2006.

[2] Đỗ Năng Toàn, "Biên ảnh và một số tính chất", Tạp chí Khoa học Công

nghệ, Tập 40, số ĐB, 2002.

[3] Đỗ Năng Toàn, Phạm Văn Dũng, Phạm Việt Bình (2005), “Ứng dụng chu tuyến trong phát hiện góc nghiêng Văn bản”. Kỷ yếu Hội thảo Quốc

gia lần thứ 7 - Một số vấn đề chọn lọc của Công nghệ thông tin và Truyền thông, Đà Nẵng 18-20/08 /2004. Nxb KH&KT, Hà Nội 2005.

[4] A Amin and S. Fischer, A Document Skew Detection Method Using the

Hough Transform, Pattern Analysis & Applications, 2000.

[5] H. Baird, “The skew angle of printed documents”. Society of Photographic Scientists and Engineers, 1987.

[6] J. Canny, A Computational Approach To Edge Detection, IEEE Trans.

Pattern Analysis and Machine Intelligence, 1986.

[7] Castan, S.; Zhao, J. and Shen, J."New edge detection methods based on exponential filter", Pattern Recognition, vol.1, Jun 1990.

[8] A.K. Das, B.Chada. A fast algorithm for skew detection of document images using morphological. Proc of International Journal on Document

[9] S. C. Hinds, J. L. Fisher and D. P. D'Amato. A Document Skew Detection

Method Using Run-Length Encoding and the Hough Transform. 10th

International Conference on Pattern Recognition, vol. 1, 1990.

[10] X. Jaing, H. Bunke, D. Widmer-Kljajo. Skew detection of document image by focused nearest-neighbour-clustering. Proc. Of the 5th

International Conference on Document Analysis and Recognition, Bangalore. 1999.

[11] Kimmel, Ron and Bruckstein, Alfred M. "On regularized Laplacian zero crossings and other optimal edge integrators", International Journal of Computer Vision, 2003.

[12] D. X. Le, "Automated Document Skew Angle Detection Using Projection Profiles, Variances, Component Labelling and the Hough Transform," M.S. thesis, Computer Science Department, George Mason University, November 17th, 1992.

[13] Shutao Li, Qinghua Shen and Jun Sun. Recognition Letters, Volume 28, Issue 5, 1 April 2007.

[14] Yue Lu and Chew Lim Tan, “A nearest neighbor chain based approach to skew estimation in document images”, Pattern Recognition Letters 24, 2003.

[15] A. Mahmoud Al-Shatnawi and Khairuddin Omar. “Skew Detection and Correction Technique for Arabic Document Images Based on Centre of Gravity”. Journal of Computer Science 5, 2009.

[16] L. Najman, “Using mathematical morphology for document skew estimation”, In procs. SPIE Document Recognition and Retrieval XI,

volume 5296, 2004.

[17] J.R. Paker, Algorithms for Image processing and Computer Vision. John Wiley & Sons, Inc, 1997.

[18] W. Postl, “Detection of linear oblique structures and skew scan in digitized documents”. Document Analysis and Recognition, 1986.

[19] Tahir Rabbani and Frank van den Heuvel, "Efficient hough transform for automatic detection of cylinders in point clouds", Proceedings of the 11th Annual Conference of the Advanced School for Computing and Imaging (ASCI '05), The Netherlands, June 2005.

[20] John C. Russ, The Image Procesing Handbook. CRC Press, Inc, 1995. [21] AL Shatnawi and K. Omar, Methods of Arabic baseline detection the

state of art. Int. J. Comput. Sci. Network Secur, 2008

[22] S. Srihari and V. Gonvindaraju. Analysis of texual images using hough

transform, 1989.

[23] T. Steinherz, N. Intrator and Rivlin , Skew Detection via Principal Components Analysis, Fifth International Conference on Document

Một phần của tài liệu Nghiên cứu một số kỹ thuật hiệu chỉnh biểu mẫu và ứng dụng luận văn thạc sĩ (Trang 66)

Tải bản đầy đủ (PDF)

(81 trang)