80
Với các kết quả thu được từ thực nghiệm ta có thể biểu diễn bằng biểu đồ như sau:
Mối quan hệ giữa khoảng trắng tối đa và khoảng trắng thật sự tìm được khi thực hiện chương trình.
Hình 3.8: Ảnh hưởng của số lượng khoảng trắng tối đa đến kết quả của Wcuts và Pageblock.
Hình 3.9: Ảnh hưởng của Max_results đến thời gian thực hiện chương trình
81
Sau khi tăng dần số lượng khoảng trắng tối đa cho phép tìm được (Max_results) lên thì đến một ngưỡng nào đó kết quả phân tích tiến sát đến kết quả mong muốn (pageblock) và có tăng thêm số lượng khoảng trắng tối đa cho phép tìm được thì kết quả phân tích cũng thay đổi không đáng kể thậm chí còn làm tăng thêm thời gian thực hiện chương trình và tốn dung lượng bộ nhớ hơn.
Căn cứ vào kết quả thực nghiệm trên 50 trang tài liệu thuộc tập dữ liệu UWIII thì thấy rằng:
- Khoảng trắng tối đa cho một trang tài liệu mà thuật toán whitespace tìm được thông thường ở mức dưới 600. Có rất ít trang tài liệu có khoảng trắng nhiều hơn. Tập trung chủ yếu ở mức từ 200 đến 400 khoảng trắng.
- Thông thường chỉ cần tìm được từ 200 - 300 khoảng trắng là đã cho kết quả phân tách tốt. Và dù có tăng số lượng khoảng trắng tối đa, tăng số lượng khoảng trắng tìm được thì kết quả phân tách cũng thay đổi không đáng kể.
- Thời gian thực hiện chương trình cho các trang ảnh tài liệu có số khoảng trắng từ 200 – 400 là tương đối nhanh (dưới 1 giây). Các trang ảnh tài liệu có số khoảng trắng lớn hơn thường có khoảng thời gian thực hiện chương trình lâu hơn.
Vì nhưng lí do trên ta nhận thấy tham số khoảng trắng tối đa Max_results = 300 là phù hợp nhất đảm bảo hài hòa cho kết quả phân tách tốt, thời gian thực hiện chương trình nhanh.
82
Hình 3.10: Độ chính xác của thuật toán với độ đo PSET sử dụng tham số khoảng trắng là 300
Tương tự như tham số khoảng trắng Max_results tham số về tỉ lệ giao nhau giữa các obstacles khi được thay đổi từ 5 đến 100% không làm ảnh hưởng đến kết quả như chiều cao trung bình của các ký tự (xheight), khoảng cách giữa các ký tự (char_spacing), khoảng cách giữa các từ (word_spacing), các thành phần liên thông (CCs) mà chỉ làm thay đổi khoảng trắng tìm được (whitespace), Wcut, pageblock, time.
Qua quan sát trực quan ta thấy nếu để tỉ lệ giao nhau của các obstacles nhỏ hoặc bằng không thì sẽ cho kết quả phân tách với độ chính xác không cao, dễ dàng để sót nhiều khoảng trắng.
Biểu diễn các kết quả thực nghiệm trên biểu đồ ta thấy nếu tăng tỉ lệ giao nhau của các obstacles có nghĩa là các obstacles (hình bao quanh các đối tượng) sẽ tiến sát đến trùng nhau. Hay nói các khác là nếu tỉ lệ giao nhau là 100% thì các obstacles trùng nhau làm thuật toán thực hiện bị lặp vô hạn.
Vậy vấn đề đặt ra là tỉ lệ giao nhau của các obstacles bằng bao nhiêu thì cho độ chính xác cao nhất? Nếu tỉ lệ giao nhau thấp thì trong nhiều trường hợp trang tài liệu được chia thành các vùng tương đối lớn bỏ qua các vùng nhỏ hơn dẫn tới kết quả độ chính xác thuật toán không cao.
83
Hình 3.11: Vùng bị bỏ qua
Ngược lại nếu thỉ lệ giao nhau quá cao sẽ làm cho trang ảnh tài liệu bị phân tách thành các phần quá nhỏ.
84
Hình 3.13: Độ chính xác của thuật toán với độ đo PSET sử dụng tham số tỉ lệ giao nhau là 95%
Như vậy là tỉ lệ 95% giao nhau giữa các obstacles là cho kết quả độ chính xác thuật toán cao nhất.
85
KẾT LUẬN
Dù đã được nghiên cứu trong nhiều năm nhưng bài toán phân tách trang ảnh tài liệu vẫn là một vấn đề quan trọng và thời sự do sự thay đổi đa dạng về cấu trúc và các đặc trưng văn bản. Hiện nay hàng năm đều có các cuộc thi quốc tế về phân tích trang tài liệu và được tổ chức thường niên 2 năm 1 lần. Ta thấy thuật toán whitespace là thuật toán tương đối nổi tiếng bởi vì nó khá đơn giản nhưng nó lại rất hiệu quả trong việc phát hiện nền trang ảnh và đã có trong bộ mã nguồn mở OCROpus. Hiện tại có rất nhiều các thuật toán sử dụng nó như là một trong các bước cơ bản để phát triển thuật toán. Cho nên việc tiếp tục nghiên cứu và cả tiến nó là một vấn đề có ý nghĩa thực tiễn.
Các thuật toán phân tách trang hiện nay đều phụ thuộc rất nhiều vào kết quả của quá trình lọc khoảng trắng, chỉnh góc nghiêng, tức là các tham số điều kiện để quyết định các khoảng trắng có được giữ lại hay không, góc nghiêng có phù hợp hay không.
Trong luận văn này, tập trung nghiên cứu và “Đánh giá sự ảnh hưởng
của tham số đến kết quả phân tách của thuật toán WhiteSpace” với mục
đích lựa chọn được tham số phù hợp nhằm phát huy các điểm mạnh và khắc phục nhược điểm của thuật toán.
Kết quả đạt được:
* Về mặt lý thuyết, luận văn đã trình bày được các nội dung sau:
- Trình bày tổng quan, các hướng tiếp cận về phân tách tách trang ảnh tài liệu.
- Trình bày thuật toán Whitespace, Độ đo PSET, dữ liệu UW-III
* Về mặt thực nghiệm, luận văn đã thu được kết quả:
- Giới thiệu chương trình, cài đặt thành công chương trình tách phân tách trang ảnh tài liệu.
86
- Thực nghiệm 50/1600 ảnh trong tập tài liệu UW-III, thực nghiệm với độ đo PSET.
- Vẽ biểu đồ về sự ảnh hưởng của các tham số từ các kết quả thu được trong quá trình thực nghiệm.
- Đánh giá và lựa chon tham số có độ chính xác tốt nhất: tỉ lệ khoảng trắng whitespace là 300, tỉ lệ giao nhau giữa các obstacles là 95%.
Do còn nhiều hạn chế về kiến thức, kinh nghiệm của bản thân cũng như thời gian thực hiện, luận văn này không tránh khỏi những thiếu sót. Rất mong nhận được ý kiến đóng góp của các thầy cô và các bạn để hoàn thiện hơn.
87
HƯỚNG PHÁT TRIỂN
Trong quá trình nghiên cứu tôi thấy thuật toán whitespace nó là thuật toán phát hiện nền trang tài liệu rất tốt. Nó được sử dụng rộng rãi như một bước cơ bản để phát triển thuật toán. Và trong qua trình nghiên cứu tôi thấy cần nghiêm cứu thêm về một số nội dung sau:
- Mối quan hệ giữa các tham số. -Tăng tốc thuật toán.
-Tiếp tục đánh giá trên các tập dữ liệu khác nhau như PRImA, tập dữ liệu chữ Việt, tập dữ liệu chữ tượng hình (Nhật, Trung Quốc…).
88
TÀI LIỆU THAM KHẢO Tiếng Việt
[1]. Ngô Quốc Tạo (2008). Xử lý và nhận dạng ảnh : Bài giảng cao học, Viện Công nghệ Thông tin. Hà Nội.
[2]. Lương Mạnh Bá, Ngô Thanh Thủy(1999), Nhập môn xử lý ảnh số : Nhà xuất bản khoa học kỹ thuật, Hà Nội. Chương 4, Tr. 83-87.
[3]. Hà Đại Tôn, Nguyễn Đức Dũng, et al. Tham số tự do cho bài toán phân tách trang ảnh tài liệu. Tạp chí khoa học công nghệ - Tập 120 số 6, 2014. [4] Lê Đức Hiếu (2012), “Ứng dụng một số kỹ thuật xử lý ảnh trong phân
tích chứng minh nhân dân”, Luận văn thạc sĩ Công nghệ Thông tin, trường Đại học Công nghệ.
[5] Đoàn Duy Thường (2014), Nghiên cứu phương pháp phân tích cấu trúc ảnh màu, ứng dụng trong nhận dạng chứng minh nhân dân, Luận văn thạc sĩ Khoa học máy tính, trường Đại học Thái Nguyên, trường Đại học Công nghệ thông tin và truyền thông.
Tiếng Anh
[6]. Breuel, T.M, Two geometric algorithms for layout analysis. In Document Analysis Systems, Princeton, NY, pp.188–199, Aug 2002.
[7]. Sadhana: Document image analysis: A primer, India, pp. 3-7. (2002) [8].Anoop M. Namboodiri and Anil K. Jain, Document Structure and Layout Analysis, Michigan State University, East Lansing, MI-48824, USA, pp. 31-34, 38.
[9].Jiming Lui, Yuan Y Tang, Ching Y Suen (1997), Chinese document layout analysic based on adaptive Split-and-Merge and qualitation spatial
89
[10]. Song Mao and Tapas Kanungo. Software architecture of pset : A page segmentation evaluation toolkit. International Journal on Document Analysis and Recognition, 4(3) :205–217, 2002.
[11]. Christian Clausner, Stefan Pletschacher, and Apostolos Antonacopoulos. Scenario driven in-depth performance evaluation of document layout analysis methods. In 2011 International Conference on Document Analysis and Recognition, pages 1404–1408. IEEE, 2011.
[12]. Lawrence O’Gorman. The document spectrum for page layout analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence, 15(11) :1162– 1173, 1993.
[13] Raymond W Smith. Hybrid page layout analysis via tab-stop detection. In 2009 10th International Conference on Document Analysis and Recognition, pages 241–245. IEEE, 2009.
[14] Wong, K.Y., Casey, R.G., Wahl, F.M.: Document analysis system.
IBM Journal of Research and Development 26 (1982) 647–656.
[15] Kise, K. and Sato, A. and Iwata, M.: “Segmentation of Page Images
using the Area Voronoi Diagram”, Computer Vision and Image Understanding 70 (1998), 370-382.
[16] O’Gorman, L.: The Document Spectrum for Page Layout Analysis.
IEEE Transactions on Pattern Analysis and Machine Intelligence 15 (1993), 1162-1173.
[17] G. Nagy, S. Seth and M. Viswanathan, "A Prototype Document