Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 79 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
79
Dung lượng
2,14 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI ĐẠI HỌC CÔNG NGHỆ *** - Tô Văn Khánh Nghiên cứu giải pháp tách bảng-tách ảnh phân tích trang tài liệu LUẬN VĂN THẠC SĨ Hà nội – 2007 ĐẠI HỌC QUỐC GIA HÀ NỘI ĐẠI HỌC CÔNG NGHỆ *** - Tô Văn Khánh Nghiên cứu giải pháp tách bảng-tách ảnh phân tích trang tài liệu LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Ngô Quốc Tạo Hà nội – 2007 MỤC LỤC MỤC LỤC DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT DANH MỤC CÁC BẢNG BIỂU DANH MỤC CÁC HÌNH VẼ .5 MỞ ĐẦU CHƢƠNG TỔNG QUAN HỆ PHÂN TÍCH TÀI LIỆU ẢNH .10 1.1 Giới thiệu chung hệ phân tích trang tài liệu .10 1.2 Thu nhận ảnh (Data Capture) .13 1.3 Bƣớc xử lý điểm ảnh (Pixel – level processing) 13 1.3.1 Phương pháp nhị phân (Binarization) 13 1.3.2 Giảm nhiễu (Noise reduction) 14 1.3.3 Phân đoạn (Segmentation) 15 1.3.4 Làm mảnh xác định vùng (Thinning and region detection) 16 1.3.5 Mã hóa CC véctơ hóa (Chain coding and vectorization) 17 1.4 Bƣớc phân tích đặc trƣng tài liệu ảnh (Feature – level analysis) .18 1.5 Phân tích đối tƣợng văn tài liệu 18 1.5.1 Ước lượng độ nghiêng văn 19 1.5.2 Phân tích sơ đồ trình bày trang tài liệu (Layout analysis) 20 1.6 Nhận dạng ký tự quang học (OCR) 22 1.6.1 Phương pháp 24 1.6.1.1 Trích chọn đặc trưng 24 1.6.1.2 Phân loại 24 1.6.2 Nhận dạng ký tự dựa ngữ cảnh 27 1.7 Phân tích đối tƣợng ảnh tài liệu 28 1.8 Kết luận chƣơng 29 CHƢƠNG THUẬT TOÁN TÁCH VĂN BẢN - ẢNH TỪ TRANG TÀI LIỆU ẢNH 31 2.1 Giới thiệu .31 2.2 Những đặc trƣng chung tệp tài liệu ảnh 34 2.3 Thuật toán phân tách văn - ảnh 37 2.3.1 Xố bỏ đối tượng tuyến tính (đường thẳng) 37 2.3.2 Phân tích thành phần liên thơng nét bút 39 2.3.3 Kết hợp nét ký tự tạo thành chuỗi văn 41 2.3.4 Thực phép tốn hình thái 42 2.3.5 Phân tích thành phần liên thông (NCCs) 42 2.3.6 Biểu diễn cấu trúc thông tin chuỗi văn 42 2.3.7 Thiết lập tham số 43 2.4 Kết luận chƣơng 44 CHƢƠNG THUẬT TOÁN TÁCH BẢNG T-RECS .46 3.1 Giới thiệu .46 3.2 Thuật toán phân đoạn khởi tạo 48 3.2.1 Trường hợp thuật toán nhận dạng sai cột 49 3.2.2 Cải tiến bước thuật toán phân đoạn khởi tạo - T-Recs++ 50 3.2.3 Những ưu điểm thuật toán 52 3.2.4 Những mặt hạn chế thuật toán khởi tạo 53 3.3 Các bƣớc xử lý khối sau phân đoạn .54 3.3.1 Trộn khối phân đoạn sai 54 3.3.2 Phân tách cột bị trộn vào khối 55 3.3.3 Nhóm từ bị phân tách 57 3.4 Phân tích khối .58 3.4.1 Khối loại nằm với khối loại 59 3.5 Xác định cấu trúc cột, hàng 59 3.6 Kết luận chƣơng 59 CHƢƠNG THỰC NGHIỆM 61 4.1 Nhận dạng đối tƣợng ảnh 61 4.1.1 Giới thiệu 61 4.1.2 Mơ tả chương trình 62 4.1.3 Một số kết thử nghiệm 62 4.2 T-Recs++ 67 4.2.1 Giới thiệu 67 4.2.2 Mô tả chương trình 67 4.2.3 Một số kết thử nghiệm 69 KẾT LUẬN 72 TÀI LIỆU THAM KHẢO 74 DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT 3–D CAD Dimensions Computer Aided Design CAM CC CCs Computer Aided Manufacturing Chain Code Connected Components CPU Control Processing Unit DP Dynamic Programming HWRatio Height Width Ratio K – NNR K – Nearest Neighbour Rule LC LSD NCCs NNR OCR T-Recs Linear Component Local Stroke Density New Connected Components Nearest Neighbour Rule Optical Character Recognition Table Recognition System WBRatio WDG White Black Ratio White-space Density Graphs DANH MỤC CÁC BẢNG BIỂU Bảng Bảng Bảng Độ đậm nét bút (LSD) Hình 13 35 Tổng kết số kết thực nghiệm nhận dạng đối tượng ảnh 63 Tổng kết số kết thực nghiệm nhận dạng bảng 70 DANH MỤC CÁC HÌNH VẼ Hình Sơ đồ khối việc xử lý tài liệu 11 Hình Các bước xử lý cho hệ phân tích tài liệu, kèm sơ đồ thí dụ với kết thu từ bước 12 Hình Phương pháp nhị phân ảnh (a) Histogram ảnh đa cấp xám nguyên Trục ngang biểu diễn giá trị ngưỡng chọn Ảnh sau nhị phân: (b) sử dụng ngưỡng thấp, (c) ngưỡng hợp lý, (d) ngưỡng cao 14 Hình Ảnh nguyên bên trái ảnh sau làm mảnh bên phải (a) Ký tự “m” (b) Một sơ đồ (c) Vân tay 17 Hình Cửa sổ 3x3 điểm ảnh với điểm ảnh X nằm tâm Các giá trị số biểu diễn cho hướng mà điểm láng giềng X thuộc: (tây), 1(tây - bắc), 2(bắc), 3(đông - bắc), 4(đông), 5(đông – nam), 6(nam), 7(tây – nam) 18 Hình Biểu đồ Histogram phép chiếu ngang dọc ảnh (a) (b) 20 Hình Kết phân tích cấu trúc chức khối trang tài liệu Phân tích cấu trúc cho kết khối riêng rẽ dựa khoảng trắng khối Nhận dạng chức gãn nhãn cho khối dựa quy tắc xếp thông tin trang tài liệu 21 Hình Các ký tự viết tay dễ nhầm lẫn 23 Hình Sẽ khơng dễ dàng để phân tách nhận dạng hai số 4,2 có nét nối liền 23 Hình 10 Các cấu trúc đặc trưng nét, tính lõm, lỗ hổng, điểm cắt ngang kết thúc sử dụng làm chiều không gian đặc trưng để phân loại ký tự 25 Hình 11 Các đặc trưng ảnh ký tự trích 26 Hình 12 Một số thí dụ nhầm lẫn ký tự ảnh 35 Hình 13 Thí dụ văn ảnh 35 Hình 14 Biểu diễn điểm ảnh giao 36 Hình 15 Một số trường hợp ngoại lệ 36 Hình 16 Sơ đồ khối thực thuật toán phân tách văn - ảnh 38 Hình 17 Phép toán kéo giãn việc nhận dạng đường kẻ nghiêng (a) ảnh nguyên (b) α = ±22.5 (c) α = ±45 (d) α = ±67.5 38 Hình 18 Dùng bút để tô điểm ảnh thoả mãn (T5 = 12 với kích thước cỡ chữ 20) 41 Hình 19 Các từ láng giềng từ “consist” theo chiều dọc 48 Hình 20 Thuật toán phân đoạn khởi tạo đoạn văn 49 Hình 21 Trường hợp thuật toán nhận dạng sai cột 49 Hình 22 Trường hợp dịng cột bảng có ô trắng 50 Hình 23 Mô việc thực bước sau cải tiến thuật tốn T-Recs++ 52 Hình 24 Kết nhận dạng cột từ Hình 22 52 Hình 25 Quá trình phân đoạn cột bảng 52 Hình 26 Trường hợp bảng chiếm nhiều dịng 53 Hình 27 Những mặt hạn chế thuật toán 54 Hình 28 Trộn hai khối bị phân tách 55 Hình 29 Tách cột bị trộn 56 Hình 30 Trộn lại khối bị tách 56 Hình 31 Nhận biết từ bị phân tách dựa vào điểm phân lề 58 Hình 32 Tách khối loại thành ô bảng 58 Hình 33 Tách khối loại thành hàng bảng 59 Hình 34 Giao diện chương trình nhận dạng đối tượng ảnh 63 Hình 35 Hình 36 Hình 37 Hình 38 Hình 39 Hình 40 Hình 41 Hình 42 Hình 43 Hình 44 Hình 45 Kết nhận dạng sơ đồ 64 Một thí dụ ký tự tiếp xúc với đối tượng ảnh 64 Một thí dụ cho kết nhận dạng xác 65 Thí dụ hình vẽ máy khí 65 Thí dụ thiết kế 66 Thí dụ sơ đồ điều chỉnh điện áp mạch điện 66 Giao diện chương trình T-Recs++ 68 Kết xây dựng khối T-Recs++ 69 Trường hợp nhận dạng có mơi trường bảng 70 Trường hợp nhận dạng văn thông báo 71 Thí dụ nhận dạng bảng điểm 71 MỞ ĐẦU Ngày máy tính phát triển, với tốc độ không gian lưu trữ máy tính nâng cấp lên nhiều Việc lưu trữ số lượng khổng lồ tài liệu xử lý nhiệm vụ phức tạp máy tính ngày nhiều Những cơng việc văn phịng hàng ngày liên quan đến tài liệu, tài liệu khơng đơn giản lưu trữ mà cần phải xử lý để có khả thay đổi, soạn thảo, chỉnh sửa trích chọn thơng tin quan trọng Vì hệ phân tích tài liệu đời, mục đích chúng giúp biểu diễn thông tin tài liệu ảnh, tài liệu giấy đưa vào từ máy quét dạng có cấu trúc Một hệ phân tích nhận dạng tài liệu ảnh có mục đích chuyển đổi tự động thông tin lưu trữ tài liệu giấy thành biểu diễn dạng cấu trúc mà truy xuất, thay đổi máy tính Quy trình xử lý hệ phân tích tài liệu bắt đầu việc lấy liệu, tài liệu từ giấy in quét qua máy quét để lưu trữ máy tính dạng tệp liệu ảnh Rõ ràng máy tính đời phát triển giải nhiều vấn đề việc lưu trữ thơng tin Theo ước tính giới, có số lượng nhỏ tài liệu từ thư viện giấy khổng lồ đưa lên mạng cịn có số lượng lớn nguồn tri thức nhân loại lưu trữ theo cách thức cổ điển thư viện mà việc bỏ chi phí trì (chủ yếu trả lương cho nhân viên) cho nguồn tài liệu lớn Thông tin không thiết phải lưu trữ giấy, cách lưu trữ không an tồn, khơng bền vững theo thời gian, thay lưu trữ cách ổn định an tồn máy tính Do cách hay cách khác tài liệu giấy quét thành tệp liệu ảnh lưu trữ máy tính Không đơn giản vấn đề lưu trữ, tài liệu từ giấy in đưa vào máy tính cịn cần xử lý trích chọn thông tin quan trọng Một tài liệu giấy in đưa vào máy tính cịn u cầu có khả soạn thảo, hiệu chỉnh khôi phục lại Một tệp liệu ảnh cần phải chuyển sang định dạng khác để có khả soạn thảo, phải đảm bảo thông tin chuyển sang từ tệp liệu ảnh phải không bị đi, không bị thiếu thơng tin cấu trúc vị trí liệu giữ nguyên Chẳng hạn vị trí đoạn văn bản, tiêu đề, bảng liệu, vùng ảnh, v.v phải chuyển sang theo cấu trúc thể tệp liệu ảnh Vì ngành nhận dạng hay hệ phân tích tài liệu ảnh đời phát triển để giải vấn đề Một tài liệu ảnh cách biểu diễn trực quan trang tài liệu in tạp chí, thư, trang báo, mẩu thư hay vẽ kỹ thuật, v.v Một tài liệu ảnh bao gồm chuỗi ký tự, hình vẽ, ảnh, v.v Bên cạnh việc chuyển toàn nội dung tài liệu sang tài liệu điện tử cần phải bảo toàn cấu trúc định dạng tài liệu Mục tiêu hệ phân tích tài liệu ảnh hồn chỉnh chuyển tài liệu lưu trữ giấy sang dạng biểu diễn có thứ tự cấu trúc nội dung Tài liệu chuyển sang phải có khả thay đổi, soạn thảo lưu trữ nội dung tài liệu truy cập cấu trúc thay phải truy cập dạng mẫu ảnh Có số lượng lớn ứng dụng hệ phân tích tài liệu ảnh ứng dụng lĩnh vực như: dịch vụ bưu chính, phủ, chăm sóc y tế, thư viện, v.v Một vài sản phẩm thương mại có chẳng hạn hệ nhận dạng quang học OCR để nhận dạng ký tự in, ký tự viết tay, bảng biểu nhiên cần nhiều nghiên cứu để cải thiện độ xác hệ thống Một số sản phẩm chẳng hạn VnDOCR (của Việt Nam) cho phép nhận dạng chuỗi văn bản, bảng biểu hay Omnipage, Find Reader v.v sản phẩm nhận dạng tiếng Bài toán nhận dạng bảng đối tượng ảnh tài liệu ảnh toán khó phức tạp Trước hệ phân tích tài liệu ảnh tập trung vào nhận dạng chuỗi ký tự, phân đoạn khối văn Ngày tài liệu không đơn văn mà cịn bao gồm hỗn hợp đối tượng chuỗi ký tự, ảnh, hình vẽ, sơ đồ, bảng biểu v.v Nhận dạng bảng toán nhận dạng cấu trúc bảng có trang tài liệu ảnh, bao gồm việc nhận dạng cột, dịng có chứa liệu bảng Nhận dạng đối tượng ảnh toán nhằm phân tách đối tượng ảnh trang tài liệu ảnh có chứa hỗn hợp đối tượng chuỗi ký tự đối tượng ảnh như: sơ đồ, hình vẽ, ảnh v.v Đã có nhiều phương pháp, thuật tốn tách bảng, tách ảnh cơng bố trước Tuy nhiên nghiên cứu vấn đề tiếp tục phát triển chất lượng, độ xác, tính hiệu phương pháp công bố trước chưa thực hoàn chỉnh cần phải cải tiến chúng ... Bƣớc phân tích đặc trƣng tài liệu ảnh (Feature – level analysis) .18 1. 5 Phân tích đối tƣợng văn tài liệu 18 1. 5 .1 Ước lượng độ nghiêng văn 19 1. 5.2 Phân tích sơ đồ trình bày trang. .. QUỐC GIA HÀ NỘI ĐẠI HỌC CÔNG NGHỆ *** - Tô Văn Khánh Nghiên cứu giải pháp tách bảng -tách ảnh phân tích trang tài liệu LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Ngô Quốc Tạo Hà... TỔNG QUAN HỆ PHÂN TÍCH TÀI LIỆU ẢNH 1. 1 Giới thiệu chung hệ phân tích trang tài liệu Một hệ phân tích tài liệu ảnh nói đến hệ thống bao gồm thuật tốn kỹ thuật mà áp dụng cho tài liệu ảnh để lấy