Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 53 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
53
Dung lượng
1 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG BÙI THỊ THI PHÁT HIỆN CẤU TRÚC BẢNG TRONG NHẬN DẠNG VĂN BẢN Chuyên ngành : Khoa học máy tính Mã số : 60.48.01 Luận văn thạc sĩ khoa học máy tính Ngƣời hƣớng dẫn khoa học: TS Nguyễn Đức Dũng Thái Nguyên, 2012 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CẢM ƠN DANH SÁCH CÁC HÌNH ẢNH MỞ ĐẦU CHƢƠNG 10 TỔNG QUAN VỀ XỬ LÝ ẢNH VÀ HỆ PHÂN TÍCH TÀI LIỆU ẢNH 10 1.1 Tổng quan xử lý ảnh .10 1.1.1 Xử lý ảnh 10 1.1.2 Các bƣớc xử lý ảnh 10 1.1.2.1 Thu nhận ảnh 11 1.1.2.2 Tiền xử lý .11 1.1.2.3 Phân đoạn ảnh 12 1.1.2.4 Biểu diễn mô tả 13 1.1.2.5 Nhận dạng nội suy ảnh 14 1.1.2.6 Cơ sở tri thức 14 1.1.2.7 Trích chọn đặc điểm .15 1.2 Hệ phân tích tài liệu ảnh 15 1.2.1 Tài liệu ảnh 15 1.2.2 Hệ phân tích trang tài liệu ảnh 16 1.2.3 Các bƣớc xử lý hệ phân tích tài liệu ảnh 17 1.2.3.1 Thu nhận liệu ảnh .18 1.2.3.2 Tiền xử lý điểm ảnh .18 1.2.3.2.1 Xử lý nhị phân 18 1.2.3.2.2 Khử nhiễu 19 1.2.3.3 Phân đoạn ảnh 20 1.2.3.4 Làm mảnh xác định vùng 20 1.2.3.5 Mã hóa Chain Code vector hóa 21 1.2.4 Phân tích đặc trƣng tài liệu ảnh 22 1.2.5 Phân tích đối tƣợng văn tài liệu ảnh .23 1.2.5.1 Xác định góc nghiêng văn 23 1.2.5.2 Phân tích bố cục trang tài liệu ảnh 25 CHƢƠNG 27 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn PHƢƠNG PHÁP PHÁT HIỆN BẢNG TESSERACT, PHÂN TÍCH BẢNG T-RECS TRONG TRANG ẢNH TÀI LIỆU 27 2.1 Phƣơng pháp phát bảng T-Recs trang ảnh tài liệu .27 2.1.2 Phân tích cấu trúc văn thơng qua phát TAB-STOP 29 2.1.3 Phƣơng pháp phát bảng Tesseract 31 Thuật toán phát bảng đƣợc xây dựng với hai thành phần mô đun phân tích cấu trúc sau: 31 2.1.3.1 Xác định phần bảng 32 2.1.3.2 Xác định trang cột phân tách .34 2.1.3.3 Xác định cột bảng 34 2.1.3.4 Đánh dấu vùng bảng 34 2.1.3.5 Loại bỏ lỗi 35 2.2 Phƣơng pháp phân tích bảng T-Recs 35 2.2.1 Giới thiệu 35 2.2.2 Thuật toán phân đoạn khởi tạo 37 CHƢƠNG 39 CÀI ĐẶT THỬ NGHIỆM VÀ ĐÁNH GIÁ 39 3.1 Môi trƣờng cài đặt liệu kiểm thử .39 3.2 Trình tự thực thuật toán 39 3.3 Kết thực nghiệm 39 3.4 Đánh giá 45 KẾT LUẬN 51 TÀI LIỆU THAM KHẢO 52 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CẢM ƠN Trƣớc hết em muốn đƣợc gửi lời cảm ơn đến thầy, cô giáo Viện Công nghệ thông tin, trƣờng ĐH Công nghệ Thông tin Truyền thông… quan tâm tổ chức đạo, quản lý lớp, trực tiếp giảng dạy khóa học chúng em Em xin đƣợc bày tỏ lòng biết ơn sâu sắc tới thầy giáo TS Nguyễn Đức Dũng – Viện Công nghệ Thông tin – Viện Khoa học Việt Nam, ngƣời thầy tận tình giúp đỡ, bảo em suốt trình tìm hiểu, viết đề cƣơng phát triển luận văn Em xin đƣợc cảm ơn thầy giáo Lê Đức Hiếu – Viện Công nghệ Thông tin – Viện Khoa học Việt Nam ngƣời thầy tận tình giúp đỡ, bảo em suốt trình phát triển phần cài đặt, thử nghiệm Mặc dù có cố gắng song khả thân em nhiều hạn chế nên luận văn khơng tránh khỏi thiếu sót Em mong bảo, góp ý thầy cô giáo bạn để luận văn em đƣợc hồn thiện Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH SÁCH CÁC HÌNH ẢNH Hình 1.1 Q trình xử lý ảnh Hình 1.2 Các bước trình xử lý ảnh Hình 1.3 Lân cận điểm ảnh tọa độ (x, y) Hình 1.4 Văn bị nghiêng sau quét qua máy quét Hình 2.1 Kết đầu bước khác mơ-đun phân tích trí tài liệu ảnh Hình 2.2 Kết qủa bước khác việc phân tích bố trí c vùng bảng Tesseract’s Hình 2.3 Kết bước khác thuật tốn phát bảng Hình 2.4 Ví dụ minh họa tư tưởng thuật tốn khởi tạo Hình 2.5 Thuật tốn khởi tạo đoạn văn Hình 3.1 Phát phần Hình 3.2 Chia nhỏ bảng Hình 3.3 Gộp bảng với vùng văn Hình 3.4 Phát sai Hình 3.5 Kết thực nghiệm Hình 3.6 Kết thực nghiệm Hình 3.7 Kết thực nghiệm Hình 3.8 Kết thực nghiệm Hình 3.9 Kết thực nghiệm Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỞ ĐẦU Xử lý ảnh chuyên ngành quan trọng lâu đời Công nghệ thông tin Xử lý ảnh đƣợc áp dụng nhiều lĩnh khác nhƣ y học, vật lý, hoá học, tìm kiếm tội phạm, quân số lĩnh vực khác Phần lớn ngƣời thu nhận thơng tin thị giác, cụ thể hình ảnh Vì xử lý ảnh vấn đề thiếu quan trọng để thu đƣợc hình ảnh tốt hơn, đẹp hơn, nhằm đáp ứng yêu cầu thông tin khác ngƣời nhận Một lĩnh vực xử lý ảnh xử lý, nhận dạng thông tin chứa đựng tài liệu ảnh, tài liệu ảnh đa dạng, phức tạp không đơn ký tự văn bản, hình vẽ, hình ảnh, bảng biểu…Trong phát bảng tài liệu hình ảnh khâu quan trọng khơng phải xác định thông tin chứa bảng mà hầu hết phƣơng pháp gặp khó khăn việc nhận diện bảng Các phƣơng pháp phát bảng tập trung chủ yếu vào bảng có cột mà khơng làm việc tốt với bảng có nhiều dạng khác Xuất phát từ thực tế đó, luận văn lựa chọn đề tài “Phát cấu trúc bảng nhận dạng văn bản” Mục đích đề tài tìm hiểu phƣơng pháp phát cấu trúc bảng, trình bày, cài đặt thuật toán phát bảng với độ xác cao áp dụng cho dạng tài liệu phức tạp nhƣ: báo cáo cơng ty, báo, trang tạp chí,… Ngồi phần mở đầu, kết luận luận văn đƣợc chia làm chƣơng cụ thể nhƣ sau: Chƣơng 1: Tổng quan xử lý ảnh hệ phân tích tài liệu ảnh Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trong chƣơng trình bày sơ lƣợc xử lý ảnh, giới thiệu bƣớc xử lý hệ thống xử lý ảnh, tổng quan hệ phân tích tài liệu ảnh thành phần hệ phân tích tài liệu ảnh: lấy liệu, xử lý ảnh, trích chọn đặc trƣng, nhận dạng đối tƣợng ảnh nhận dạng văn Chƣơng 2: Phƣơng pháp phát bảng Tesseract, phân tích bảng TRecs trang tài liệu ảnh Trình bày phƣơng pháp phát bảng, thuật toán phát cấu trúc bảng Minh họa phát cấu trúc bảng trang ảnh tài liệu Tìm hiểu thuật tốn T-Recs Thomas G.Kieninger [7] đề xuất Chƣơng 3: Cài đặt thử nghiệm đánh giá Mô tả chi tiết trình cài đặt thử nghiệm thuật tốn, nhƣ đánh giá kết đạt đƣợc liệu thu thập đƣợc Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn CHƢƠNG TỔNG QUAN VỀ XỬ LÝ ẢNH VÀ HỆ PHÂN TÍCH TÀI LIỆU ẢNH 1.1 Tổng quan xử lý ảnh 1.1.1 Xử lý ảnh Quá trình xử lý nhận dạng ảnh trình thao tác nhằm biến đổi ảnh đầu vào kết mong muốn Kết đầu trình xử lý ảnh ảnh "tốt hơn" kết luận[1] Ảnh “Tốt hơn” Ảnh Xử lý ảnh Kết luận Hình 1.1: Quá trình xử lý ảnh Nhƣ mục tiêu xử lý ảnh chia làm ba hƣớng nhƣ sau: - Xử lý ảnh ban đầu ảnh tốt theo mong muốn ngƣời dùng (ví dụ: ảnh mờ cần xử lý để đƣợc rõ hơn) - Phân tích ảnh để thu đƣợc thơng tin giúp cho việc phân loại nhận biết ảnh (ví dụ: phân tích ảnh vân tay để trích chọn đặc trƣng vân tay) - Từ ảnh đầu vào mà có nhận xét, kết luận mức cao hơn, sâu (ví dụ: ảnh tai nạn giao thơng phác họa trƣờng tai nạn) 1.1.2 Các bƣớc xử lý ảnh Quá trình xử lý ảnh đầu vào nhằm thu đƣợc ảnh đầu mong muốn thƣờng phải trải qua nhiều bƣớc khác [2] Các bƣớc trình xử lý ảnh đƣợc thể thơng qua hình sau: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 10 http://www.lrc-tnu.edu.vn Biểu diễn mô tả Phân đoạn ảnh Tiền xử lý ảnh CƠ SỞ TRI THỨC Nhận dạng nội suy Thu nhận ảnh (Scanner, sensor, camera) Hình 1.2: Các bước trình xử lý ảnh 1.1.2.1 Thu nhận ảnh Đây bƣớc trình xử lý ảnh Để thực điều này, ta cần có thu ảnh khả số hố tín hiệu liên tục đƣợc sinh thu ảnh Bộ thu ảnh máy chụp ảnh đơn sắc hay màu, máy quét ảnh, máy quay Trong trƣờng hợp thu ảnh cung cấp chƣa phải dạng số hoá ta cịn phải chuyển đổi hay số hố ảnh Q trình chuyển đổi ADC (Analog to Digital Converter) để thu nhận dạng số hoá ảnh Mặc dù cơng đoạn song kết có ảnh hƣởng nhiều đến cơng đoạn 1.1.2.2 Tiền xử lý Ở bƣớc này, ảnh đƣợc cải thiện độ tƣơng phản, khử nhiễu, khôi phục ảnh, nắn chỉnh hỉnh học Với mục đích làm cho chất lƣợng ảnh trở lên tốt nữa, chuẩn bị cho bƣớc xử lý phức tạp sau * Khử nhiễu: Đặc trƣng nhiễu hệ thống tính tuần hồn Do vậy, khử nhiễu việc sử dụng phép biến đổi Fourier loại bỏ đỉnh điểm Đối với nhiễu ngẫu nhiên, trƣờng hợp đơn giản vết bẩn tƣơng ứng với điểm sáng hay tối, khử phƣơng pháp nội suy, Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 11 http://www.lrc-tnu.edu.vn dấu vùng bảng, đề tài sử dụng biện pháp chuẩn cho phân vùng tài liệu ảnh Do theo [15, 17, 18, 14] đề tài sử dụng số biện pháp để đánh giá khía cạnh khác thuật toán đánh dấu vùng bảng Cả bảng giá trị bảng đƣợc phát thuật toán tác giả đƣợc diễn tả khung giới hạn Đặt Gi diễn tả khung giới hạn cho bảng i Dj diễn tả khung giới hạn cho bảng đƣợc phát j tài liệu Số lƣợng giao Gi Dj đƣợc định nghĩa nhƣ sau: AGi , D j Gi D j Gi D j (1) Trong Gi ∩ Dj diễn tả vùng giao hai vùng, Gi ∩ Dj diễn tả vùng riêng bảng bảng phát thuật toán đƣa Giá trị A nhận giá trị từ đến phụ thuộc vào phần giao Gi Dj Nếu hai bảng không giao nhau, A=0 ngƣợc lại hai bảng giống tuyệt đối A = +Phát (Correct Detections): Số cột bảng có phần giao lớn (A≥0.9) với số bảng phát +Phát phần (Partial Detections): Đây số lƣợng cột bảng có tƣơng ứng một với bảng đƣợc phát hiện, nhiên số điểm giao không đủ lớn (0.1