1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu giải pháp tách bảng tách ảnh trong phân tích trang tài liệu

79 13 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 79
Dung lượng 2,14 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI ĐẠI HỌC CÔNG NGHỆ *** - Tô Văn Khánh Nghiên cứu giải pháp tách bảng-tách ảnh phân tích trang tài liệu LUẬN VĂN THẠC SĨ Hà nội – 2007 ĐẠI HỌC QUỐC GIA HÀ NỘI ĐẠI HỌC CÔNG NGHỆ *** - Tô Văn Khánh Nghiên cứu giải pháp tách bảng-tách ảnh phân tích trang tài liệu LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Ngô Quốc Tạo Hà nội – 2007 MỤC LỤC MỤC LỤC DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT DANH MỤC CÁC BẢNG BIỂU DANH MỤC CÁC HÌNH VẼ .5 MỞ ĐẦU CHƢƠNG TỔNG QUAN HỆ PHÂN TÍCH TÀI LIỆU ẢNH .10 1.1 Giới thiệu chung hệ phân tích trang tài liệu .10 1.2 Thu nhận ảnh (Data Capture) .13 1.3 Bƣớc xử lý điểm ảnh (Pixel – level processing) 13 1.3.1 Phương pháp nhị phân (Binarization) 13 1.3.2 Giảm nhiễu (Noise reduction) 14 1.3.3 Phân đoạn (Segmentation) 15 1.3.4 Làm mảnh xác định vùng (Thinning and region detection) 16 1.3.5 Mã hóa CC véctơ hóa (Chain coding and vectorization) 17 1.4 Bƣớc phân tích đặc trƣng tài liệu ảnh (Feature – level analysis) .18 1.5 Phân tích đối tƣợng văn tài liệu 18 1.5.1 Ước lượng độ nghiêng văn 19 1.5.2 Phân tích sơ đồ trình bày trang tài liệu (Layout analysis) 20 1.6 Nhận dạng ký tự quang học (OCR) 22 1.6.1 Phương pháp 24 1.6.1.1 Trích chọn đặc trưng 24 1.6.1.2 Phân loại 24 1.6.2 Nhận dạng ký tự dựa ngữ cảnh 27 1.7 Phân tích đối tƣợng ảnh tài liệu 28 1.8 Kết luận chƣơng 29 CHƢƠNG THUẬT TOÁN TÁCH VĂN BẢN - ẢNH TỪ TRANG TÀI LIỆU ẢNH 31 2.1 Giới thiệu .31 2.2 Những đặc trƣng chung tệp tài liệu ảnh 34 2.3 Thuật toán phân tách văn - ảnh 37 2.3.1 Xố bỏ đối tượng tuyến tính (đường thẳng) 37 2.3.2 Phân tích thành phần liên thơng nét bút 39 2.3.3 Kết hợp nét ký tự tạo thành chuỗi văn 41 2.3.4 Thực phép tốn hình thái 42 2.3.5 Phân tích thành phần liên thông (NCCs) 42 2.3.6 Biểu diễn cấu trúc thông tin chuỗi văn 42 2.3.7 Thiết lập tham số 43 2.4 Kết luận chƣơng 44 CHƢƠNG THUẬT TOÁN TÁCH BẢNG T-RECS .46 3.1 Giới thiệu .46 3.2 Thuật toán phân đoạn khởi tạo 48 3.2.1 Trường hợp thuật toán nhận dạng sai cột 49 3.2.2 Cải tiến bước thuật toán phân đoạn khởi tạo - T-Recs++ 50 3.2.3 Những ưu điểm thuật toán 52 3.2.4 Những mặt hạn chế thuật toán khởi tạo 53 3.3 Các bƣớc xử lý khối sau phân đoạn .54 3.3.1 Trộn khối phân đoạn sai 54 3.3.2 Phân tách cột bị trộn vào khối 55 3.3.3 Nhóm từ bị phân tách 57 3.4 Phân tích khối .58 3.4.1 Khối loại nằm với khối loại 59 3.5 Xác định cấu trúc cột, hàng 59 3.6 Kết luận chƣơng 59 CHƢƠNG THỰC NGHIỆM 61 4.1 Nhận dạng đối tƣợng ảnh 61 4.1.1 Giới thiệu 61 4.1.2 Mơ tả chương trình 62 4.1.3 Một số kết thử nghiệm 62 4.2 T-Recs++ 67 4.2.1 Giới thiệu 67 4.2.2 Mô tả chương trình 67 4.2.3 Một số kết thử nghiệm 69 KẾT LUẬN 72 TÀI LIỆU THAM KHẢO 74 DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT 3–D CAD Dimensions Computer Aided Design CAM CC CCs Computer Aided Manufacturing Chain Code Connected Components CPU Control Processing Unit DP Dynamic Programming HWRatio Height Width Ratio K – NNR K – Nearest Neighbour Rule LC LSD NCCs NNR OCR T-Recs Linear Component Local Stroke Density New Connected Components Nearest Neighbour Rule Optical Character Recognition Table Recognition System WBRatio WDG White Black Ratio White-space Density Graphs DANH MỤC CÁC BẢNG BIỂU Bảng Bảng Bảng Độ đậm nét bút (LSD) Hình 13 35 Tổng kết số kết thực nghiệm nhận dạng đối tượng ảnh 63 Tổng kết số kết thực nghiệm nhận dạng bảng 70 DANH MỤC CÁC HÌNH VẼ Hình Sơ đồ khối việc xử lý tài liệu 11 Hình Các bước xử lý cho hệ phân tích tài liệu, kèm sơ đồ thí dụ với kết thu từ bước 12 Hình Phương pháp nhị phân ảnh (a) Histogram ảnh đa cấp xám nguyên Trục ngang biểu diễn giá trị ngưỡng chọn Ảnh sau nhị phân: (b) sử dụng ngưỡng thấp, (c) ngưỡng hợp lý, (d) ngưỡng cao 14 Hình Ảnh nguyên bên trái ảnh sau làm mảnh bên phải (a) Ký tự “m” (b) Một sơ đồ (c) Vân tay 17 Hình Cửa sổ 3x3 điểm ảnh với điểm ảnh X nằm tâm Các giá trị số biểu diễn cho hướng mà điểm láng giềng X thuộc: (tây), 1(tây - bắc), 2(bắc), 3(đông - bắc), 4(đông), 5(đông – nam), 6(nam), 7(tây – nam) 18 Hình Biểu đồ Histogram phép chiếu ngang dọc ảnh (a) (b) 20 Hình Kết phân tích cấu trúc chức khối trang tài liệu Phân tích cấu trúc cho kết khối riêng rẽ dựa khoảng trắng khối Nhận dạng chức gãn nhãn cho khối dựa quy tắc xếp thông tin trang tài liệu 21 Hình Các ký tự viết tay dễ nhầm lẫn 23 Hình Sẽ khơng dễ dàng để phân tách nhận dạng hai số 4,2 có nét nối liền 23 Hình 10 Các cấu trúc đặc trưng nét, tính lõm, lỗ hổng, điểm cắt ngang kết thúc sử dụng làm chiều không gian đặc trưng để phân loại ký tự 25 Hình 11 Các đặc trưng ảnh ký tự trích 26 Hình 12 Một số thí dụ nhầm lẫn ký tự ảnh 35 Hình 13 Thí dụ văn ảnh 35 Hình 14 Biểu diễn điểm ảnh giao 36 Hình 15 Một số trường hợp ngoại lệ 36 Hình 16 Sơ đồ khối thực thuật toán phân tách văn - ảnh 38 Hình 17 Phép toán kéo giãn việc nhận dạng đường kẻ nghiêng (a) ảnh nguyên (b) α = ±22.5 (c) α = ±45 (d) α = ±67.5 38 Hình 18 Dùng bút để tô điểm ảnh thoả mãn (T5 = 12 với kích thước cỡ chữ 20) 41 Hình 19 Các từ láng giềng từ “consist” theo chiều dọc 48 Hình 20 Thuật toán phân đoạn khởi tạo đoạn văn 49 Hình 21 Trường hợp thuật toán nhận dạng sai cột 49 Hình 22 Trường hợp dịng cột bảng có ô trắng 50 Hình 23 Mô việc thực bước sau cải tiến thuật tốn T-Recs++ 52 Hình 24 Kết nhận dạng cột từ Hình 22 52 Hình 25 Quá trình phân đoạn cột bảng 52 Hình 26 Trường hợp bảng chiếm nhiều dịng 53 Hình 27 Những mặt hạn chế thuật toán 54 Hình 28 Trộn hai khối bị phân tách 55 Hình 29 Tách cột bị trộn 56 Hình 30 Trộn lại khối bị tách 56 Hình 31 Nhận biết từ bị phân tách dựa vào điểm phân lề 58 Hình 32 Tách khối loại thành ô bảng 58 Hình 33 Tách khối loại thành hàng bảng 59 Hình 34 Giao diện chương trình nhận dạng đối tượng ảnh 63 Hình 35 Hình 36 Hình 37 Hình 38 Hình 39 Hình 40 Hình 41 Hình 42 Hình 43 Hình 44 Hình 45 Kết nhận dạng sơ đồ 64 Một thí dụ ký tự tiếp xúc với đối tượng ảnh 64 Một thí dụ cho kết nhận dạng xác 65 Thí dụ hình vẽ máy khí 65 Thí dụ thiết kế 66 Thí dụ sơ đồ điều chỉnh điện áp mạch điện 66 Giao diện chương trình T-Recs++ 68 Kết xây dựng khối T-Recs++ 69 Trường hợp nhận dạng có mơi trường bảng 70 Trường hợp nhận dạng văn thông báo 71 Thí dụ nhận dạng bảng điểm 71 MỞ ĐẦU Ngày máy tính phát triển, với tốc độ không gian lưu trữ máy tính nâng cấp lên nhiều Việc lưu trữ số lượng khổng lồ tài liệu xử lý nhiệm vụ phức tạp máy tính ngày nhiều Những cơng việc văn phịng hàng ngày liên quan đến tài liệu, tài liệu khơng đơn giản lưu trữ mà cần phải xử lý để có khả thay đổi, soạn thảo, chỉnh sửa trích chọn thơng tin quan trọng Vì hệ phân tích tài liệu đời, mục đích chúng giúp biểu diễn thông tin tài liệu ảnh, tài liệu giấy đưa vào từ máy quét dạng có cấu trúc Một hệ phân tích nhận dạng tài liệu ảnh có mục đích chuyển đổi tự động thông tin lưu trữ tài liệu giấy thành biểu diễn dạng cấu trúc mà truy xuất, thay đổi máy tính Quy trình xử lý hệ phân tích tài liệu bắt đầu việc lấy liệu, tài liệu từ giấy in quét qua máy quét để lưu trữ máy tính dạng tệp liệu ảnh Rõ ràng máy tính đời phát triển giải nhiều vấn đề việc lưu trữ thơng tin Theo ước tính giới, có số lượng nhỏ tài liệu từ thư viện giấy khổng lồ đưa lên mạng cịn có số lượng lớn nguồn tri thức nhân loại lưu trữ theo cách thức cổ điển thư viện mà việc bỏ chi phí trì (chủ yếu trả lương cho nhân viên) cho nguồn tài liệu lớn Thông tin không thiết phải lưu trữ giấy, cách lưu trữ không an tồn, khơng bền vững theo thời gian, thay lưu trữ cách ổn định an tồn máy tính Do cách hay cách khác tài liệu giấy quét thành tệp liệu ảnh lưu trữ máy tính Không đơn giản vấn đề lưu trữ, tài liệu từ giấy in đưa vào máy tính cịn cần xử lý trích chọn thông tin quan trọng Một tài liệu giấy in đưa vào máy tính cịn u cầu có khả soạn thảo, hiệu chỉnh khôi phục lại Một tệp liệu ảnh cần phải chuyển sang định dạng khác để có khả soạn thảo, phải đảm bảo thông tin chuyển sang từ tệp liệu ảnh phải không bị đi, không bị thiếu thơng tin cấu trúc vị trí liệu giữ nguyên Chẳng hạn vị trí đoạn văn bản, tiêu đề, bảng liệu, vùng ảnh, v.v phải chuyển sang theo cấu trúc thể tệp liệu ảnh Vì ngành nhận dạng hay hệ phân tích tài liệu ảnh đời phát triển để giải vấn đề Một tài liệu ảnh cách biểu diễn trực quan trang tài liệu in tạp chí, thư, trang báo, mẩu thư hay vẽ kỹ thuật, v.v Một tài liệu ảnh bao gồm chuỗi ký tự, hình vẽ, ảnh, v.v Bên cạnh việc chuyển toàn nội dung tài liệu sang tài liệu điện tử cần phải bảo toàn cấu trúc định dạng tài liệu Mục tiêu hệ phân tích tài liệu ảnh hồn chỉnh chuyển tài liệu lưu trữ giấy sang dạng biểu diễn có thứ tự cấu trúc nội dung Tài liệu chuyển sang phải có khả thay đổi, soạn thảo lưu trữ nội dung tài liệu truy cập cấu trúc thay phải truy cập dạng mẫu ảnh Có số lượng lớn ứng dụng hệ phân tích tài liệu ảnh ứng dụng lĩnh vực như: dịch vụ bưu chính, phủ, chăm sóc y tế, thư viện, v.v Một vài sản phẩm thương mại có chẳng hạn hệ nhận dạng quang học OCR để nhận dạng ký tự in, ký tự viết tay, bảng biểu nhiên cần nhiều nghiên cứu để cải thiện độ xác hệ thống Một số sản phẩm chẳng hạn VnDOCR (của Việt Nam) cho phép nhận dạng chuỗi văn bản, bảng biểu hay Omnipage, Find Reader v.v sản phẩm nhận dạng tiếng Bài toán nhận dạng bảng đối tượng ảnh tài liệu ảnh toán khó phức tạp Trước hệ phân tích tài liệu ảnh tập trung vào nhận dạng chuỗi ký tự, phân đoạn khối văn Ngày tài liệu không đơn văn mà cịn bao gồm hỗn hợp đối tượng chuỗi ký tự, ảnh, hình vẽ, sơ đồ, bảng biểu v.v Nhận dạng bảng toán nhận dạng cấu trúc bảng có trang tài liệu ảnh, bao gồm việc nhận dạng cột, dịng có chứa liệu bảng Nhận dạng đối tượng ảnh toán nhằm phân tách đối tượng ảnh trang tài liệu ảnh có chứa hỗn hợp đối tượng chuỗi ký tự đối tượng ảnh như: sơ đồ, hình vẽ, ảnh v.v Đã có nhiều phương pháp, thuật tốn tách bảng, tách ảnh cơng bố trước Tuy nhiên nghiên cứu vấn đề tiếp tục phát triển chất lượng, độ xác, tính hiệu phương pháp công bố trước chưa thực hoàn chỉnh cần phải cải tiến chúng vùng nhận dạng sai Thêm vào thực nghiệm có lỗi lập trình chuyển vùng ảnh chuyển vùng văn nằm Nếu giải triệt để vấn đề nêu kết thực nghiệm tốt Hơn việc điều chỉnh cách tính tham số giá trị tham số giải pháp mở kết với độ xác cao Bảng tổng kết lại kết nhận dạng số loại tài liệu ảnh khác Bảng Tổng kết số kết thực nghiệm nhận dạng đối tượng ảnh 13 Số lƣợng vùng văn (NCCs) 47 Số vùng văn nhận dạng sai Số vùng ảnh nhận dạng sai Hình 35 12 49 3 Hình 36 20 Hình 37 12 79 Hình 38 12 66 3 Hình 39 11 68 10 Hình 40 11 93 14 Hình Hav Hình 34 Hình 34 Giao diện chương trình nhận dạng đối tượng ảnh 63 Hình 35 Kết nhận dạng sơ đồ Hình 36 Một thí dụ ký tự tiếp xúc với đối tượng ảnh 64 Hình 37 Một thí dụ cho kết nhận dạng xác Hình 38 Thí dụ hình vẽ máy khí 65 Hình 39 Thí dụ thiết kế Hình 40 Thí dụ sơ đồ điều chỉnh điện áp mạch điện 66 4.2 T-Recs++ 4.2.1 Giới thiệu Phần mơ tả chương trình thử nghiệm T-Recs++ System nhận dạng bảng thuật tốn T-Recs++ mơ tả 3.2.2 Chương trình gồm hai phần chính:  Phần quét qua toàn ảnh để nhận dạng xây dựng hình bao từ có ảnh  Phần thứ hai dựa vào hình bao thu từ phần thuật tốn T-Recs++ để nhận dạng cột có bảng trang tài liệu ảnh 4.2.2 Mô tả chương trình Chương trình thử nghiệm dừng lại phần nhận dạng cột có bảng Do thời gian hồn thành luận văn hạn chế nên bước xử lý nhằm khắc phục lỗi hay bước tách cột bảng thành dịng chưa đưa vào chương trình Chương trình áp dụng nhận dạng bảng chúng khơng có đường kẻ Chương trình hoạt động bao gồm bước sau: 1) Tài liệu ảnh tải vào chương trình việc người sử dụng chọn tệp ảnh nhị phân (bmp) để mở Khi tài liệu ảnh quét để nhận dạng số dịng văn có tài liệu 2) Sau tài liệu quét để nhận dạng số dịng văn có tài liệu Chương trình thực quét qua tất dòng, dòng nhận dạng ký tự nhận dạng từ dịng Từ xây dựng hình bao cho từ dịng 3) Dựa vào thơng tin hình bao từ, chương trình xây dựng từ nằm khối thuật toán T-Recs++ Thuật toán quét từ xuống nhận biết đoạn văn khác nhau, sau thực thuật tốn T-Recs++ đoạn văn khác Cách nhận biết đoạn văn khác dựa vào khoảng trắng dòng văn Và kết chương trình đưa ảnh bao gồm từ thuộc khối (một cột) 67 Chương trình có tham số cần phải thiết lập (đặt mặc định 5), tham số số điểm ảnh lớn hai ký tự từ, tham số phụ thuộc vào kích cỡ phơng chữ Tham số giúp xác định ký tự thuộc từ Dựa vào tham số để chương trình nhận biết hai ký tự cách khoảng nhóm chúng lại làm từ Giao diện chương trình mơ tả Hình 41: Hình 41 Giao diện chương trình T-Recs++ Nhấn vào nút Mở tệp ảnh để chọn ảnh nhị phân để mở Nhấn vào nút Đặt tham số để thiết lập tham số số điểm ảnh tối đa hai ký tự (được đặt mặc định 5) Nhấn vào nút XD hình bao để nhận dạng hình bao cho từ ảnh đồng thời chương trình vẽ mơt hình chữ nhật nhỏ bao từ Nhấn vào nút Nhận dạng để nhận dạng cột có bảng ảnh Nút Ký tự cho phép nhận dạng ký tự ảnh 68 Thông tin toạ độ, chiều rộng, chiều cao, hình dạng ký tự hiển thị phía nhận dạng 4.2.3 Một số kết thử nghiệm Hình 42 kết nhận dạng đoạn văn thông thường Với đoạn văn thông thường, T-Recs++ xây dựng khối Hình 42 Kết xây dựng khối T-Recs++ Một trường hợp khác có tồn mơi trường bảng Hình 43 Đầu tiên chương trình nhận thấy ảnh có ba đoạn văn thực thuật toán T-Recs++ ba đoạn văn Mặc dù hai đoạn văn phía khơng phải bảng có ký tự cách trùng lặp vị trí, thuật tốn nhận dạng đoạn văn có nhiều cột liệu Tuy nhiên khơng phải vấn đề khó, dựa vào đánh giá độ rộng trung bình ký tự cách ta trộn lại khối bị phân tách vào thành khối Trong tệp ảnh Hình 43 có đoạn văn thứ ba môi trường bảng thuật tốn nhận dạng xác cột bảng 69 Hình 43 Trường hợp nhận dạng có mơi trường bảng Một kết nhận dạng khác phức tạp Hình 44 Chỉ có mơi trường bảng Các trường hợp có dịng văn hay có ký tự cách trùng lặp dễ dàng xử lý để nhận biết khơng có mơi trường bảng Hình 45 thí dụ khác nhận dạng bảng điểm Bảng tổng kết lại kết thực nghiệm số tài liệu Kết cho thấy số bảng số cột nhận dạng thuật tốn xác Riêng với thí dụ Hình 44 số cột nhận dạng thay cột Bảng Tổng kết số kết thực nghiệm nhận dạng bảng Hình 43 Số đoạn văn nhận dạng Số bảng tài liệu Số bảng nhận dạng đƣợc Số cột bảng Số cột nhận dạng đƣợc Hình 44 1 Hình 35 1 6 Hình 70 Hình 44 Trường hợp nhận dạng văn thông báo Hình 45 Thí dụ nhận dạng bảng điểm 71 KẾT LUẬN Phân tích tài liệu ảnh lĩnh vực đề xuất phát triển thời gian lâu, số sản phẩm thương mại hệ Phân tích tài liệu ảnh xuất thị trường Tuy nhiên ngành nhận dạng phát triển thách thức đặt vấn đề đòi hỏi cải tiến để nâng cao tính xác hiệu hệ Phân tích tài liệu ảnh Yêu cầu hệ Phân tích tài liệu không đơn giản chuyển đổi nội dung tài liệu ảnh sang định dạng tài liệu soạn thảo mà phải nhận dạng cấu trúc nội dung lưu trữ trang tài liệu Nhận dạng bảng, nhận dạng biểu mẫu nhận dạng đối tượng ảnh tốn điển hình nhận dạng cấu trúc đối tượng đặc biệt tài liệu ảnh Trong khn khổ mình, luận văn vào nghiên cứu hai thuật toán để nhận dạng bảng đối tượng ảnh tài liệu ảnh kỹ thuật Bài toán nhận dạng đối tượng ảnh nhằm phân tách riêng rẽ hai thành phần văn ảnh tài liệu Có nhiều hướng nghiên cứu khác đề phân tách văn ảnh, hướng nghiên cứu đưa nhiều phương pháp phân tách hiệu phân tách hai đối tượng văn ảnh dựa vào phân tích thành phần liên thơng (CCs) Thuật tốn nhận dạng đối tượng ảnh đề cập luận văn dựa vào phân tích thành phần liên thơng Năm bước phân tách mà thuật toán đưa kiểm chứng qua thực nghiệm cho kết với độ xác tương đối tốt Tư tưởng cốt lõi thuật toán bước thuật toán cố gắng nhận dạng nhiều tốt đối tượng ảnh Dựa khái niệm thành phần liên thông (CCs), thuật tốn cịn đưa khái niệm thành phần liên thông (NCCs) bước cuối thuật tốn phân tích NCCs Tuy nhiên để nhận dạng xác hồn tồn đối tượng ảnh thách thức lớn, thuật tốn cần phải cải tiến mơ hình tính giá trị tham số hay thêm số bước tiền xử lý ảnh loại bỏ điểm nhiễu ảnh Với kết thực nghiệm trên, thuật toán nhận dạng đối tượng ảnh cho kết xác từ 90% đến 95% với tài liệu có đối tượng ảnh vẽ kỹ thuật Đặc biệt với trang tài liệu hình vẽ cở bản, sơ đồ trình bày cho kết đạt từ 95% đến 97% Trường hợp trang tài liệu gồm hình vẽ động vật, người v.v… kết nhận dạng có độ xác khơng cao Thơng thường với đối tượng ảnh phương pháp nhận dạng áp dụng tách cạnh để tìm 72 biên đối tượng Do thấy thuật tốn tách đối tượng văn - ảnh trình bày luận văn áp dụng hiệu cho tải liệu chứa đối tượng ảnh vẽ kỹ thuật Thuật toán nhận dạng bảng đề cập luận văn dựa thuật toán T-Recs G Kieninger đề xuất, nhiên bước thực mà Kieninger đưa nhiều hạn chế Luận văn đưa cải tiến bước thực thuật toán, đặt tên T-Recs++ Một số thuật toán nhận dạng bảng trước dựa dấu phân cách ô bảng, chẳng hạn đường kẻ, khoảng trắng v.v Tuy nhiên TRecs++ phương pháp nhận dạng bảng không dựa dấu hiệu phân cách nào, kể trường hợp khoảng cách hai cột bảng cách khoảng cách hẹp Đó ưu điểm bật thuật toán Trong khối văn thuật toán nhận dạng xác cột liệu có bảng Một vấn đề cịn tồn thuật tốn khả nhận dạng dịng bảng, thuật toán việc nhận dạng dòng bảng phụ thuộc vào khối loại Trong trường hợp bảng bao gồm khối loại hai phương pháp tách dòng bảng nhận dạng phải dựa vào dấu hiệu phân tách Kết thực nghiệm cho thấy thuật tốn TRecs++ có khả nhận dạng xác gần hồn tồn cột có bảng, kể trường hợp khoảng cách cột bảng hẹp Một số lỗi nhận dạng xuất trường hợp trùng lặp ký tự cách vị trí dòng văn bản, số từ nằm vị trí bất thường đoạn văn tạo thành cột hay trường hợp dòng đơn v.v Các kết thực nghiệm áp dụng với ảnh nhị phân, nhiên với tư tưởng bước thực hai thuật toán nhận dạng bảng nhận dạng đối tượng ảnh trình bày áp dụng ảnh đa cấp xám ảnh màu 73 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Tô Văn Khánh & Ngô Quốc Tạo: “Áp dụng phương pháp T–Recs vào nhận dạng bảng” Hội nghị khoa học Viện CNTT, 12-2006 Tiếng Anh [2] O‟Gorman & Kasturi: “Document image analysis”, 1997 [3] Kasturi, O‟Gorman, Govindaraju: “Document image analysis: A primer”, 2002 [4] Arcelli C, Sanniti di Baja G 1985: “A width-independent fast thinning algorithm” IEEE Trans Pattern Anal Machine Intell PAMI-7: 463–474 [5] Arcelli C, Sanniti di Baja G 1993 “Euclidean skeleton via center-of-maximal-disc extraction” Image Vision Comput 11: 163–173 [6] Fukunaga K, Hostetler L D 1975 “K-nearest-neighbour Bayes-risk estimation” IEEE Trans Inf Theor 21: 285-293 [7] Murthy B K, Deshpande W R 1998 “Optical character recognition (OCR) for Indian languages” Proc Int Conf on Computervision, Graphics, Vision, Image Process ICVGIP, New Delhi [8] G S Lehal1, Renu Dhir: “A Range Free Skew Detection Technique for Digitized Gurmukhi Script Document” [9] Pavlidis T, Zhou J 1991 “Page segmentation by white streams” Proc 1st Int Conf on Document Analysis and Recognition ICDAR), St Malo, France, pp 945–953 [10] O‟Gorman L 1993 “The document spectrum for structural page layout analysis” IEEE Trans Pattern Anal Machine Intelli AMI-15: 1162–73 [11] Nartker T A, Rice S V, Kanai J 1994 “OCR Accuracy” UNLV‟s Second Annual Test Technical Journal INFORM, University of Nevada, Las Vegas [12] Sawaki M, Hagita K 1998 “Text-line extraction and character recognition of document headlines with graphical design using omplimentary similarity measure” IEEE Trans Pattern Anal Machine Intell PAMI-20: 1103–1109 [13] Wilson C L, Geist J, Garris M D, Chellapa R 1996 “Design, integration, and evaluation of form-based handprint and OCR ystems” Technical Report, NISTIR5932, National Institute of Standards & Technology, US; download from http://www.itl.nist.gov/iad/894.03/pubs.html [14] Fletcher A, Kasturi R 1988 “A robust algorithm for text string separation from mixed text /graphics images” IEEE Trans Pattern nal Machine Intell PAMI-10: 910–918 [15] Thomas G.Kieninger, “Table Structure Recognition Based On Robust Block Segmentation” In Proc of the fifth SPIE Conference on Document Recognition, San Rose, California, Jan 1998 74 [16] Thomas G.Kieninger and Andreas Dengel, “A paper to html table converting system”, German Research Center for Atificial Intelligence (DFKI) [17] Thomas G.Kieninger and Andreas Dengel, “Applying The T-Recs Table Recognition System To The Business Letter Domain” In Proceeding of the Sixth International Conference On Document Analysis and Recognition -ICDAR‟01, 2001 [18] T Hu, “New Methods for Robust and Efficient Recognition of the Logical Structures in Documents” PHD thesis, Institure of Informatics of the University of Fribourg, Switzerland, 1994 [19] A S Condit, “Autotag: A tool for creating, structured document collection from printed materials,” Master‟s thesis, Dept of Computers Science, University of Nevada, Las Vegas, 1995 [20] A Dengel, “About the logical partitioning of document images”, in Proc Of Int‟t Symposium on Document Analysis and Information Retrieval, Las Vegas, Nevada, Apr 1994 [21] S, Baumann, M Malburg, H.-G Hein, R Hoch, T Kieninger, and N Kuhn, “Document analysis at DFKI, part 2: Information extraction,” DFKI Research Report RR-95-03, German Research Center for Artificial Interligence (DFKI), Kaiserlautern, March 1995 [22] D Rus and K Summers, “Using White Space for Automated Document Structuring”, Technical Report TR 94-1452, Department of Computer Science, Cornell University, 1994 [23] M A Rahgozar, Z Fan, and E V Rainero, “Tabular document recognition”, in Proc Of the SPIE Conference on Document Recognition, 1994 [24] E Green and M Krishnamoorthy, “Recognition of table using table grammars”, in Proc of the 4-th Symposium on Document Analysis and Information Retrieval – SDAIR95, Las Vegas, Nevada, 1995 [25] K Itonori, “Table structure recognition based on textblock arrangement and ruled line position”, in Proc of International Conference on Document Analysis and Recognition – ICDAR 93, 1993 [26] Y Hirayama, “A method for table structure analysis using dp matching,” in Proc of International Conference on Document Analysis and Recognition – ICDAR 95, Montreal Canada, 1995 [27] K Kise, A Sato, and K Masumoto, “Document image segmentation as selection of voronoi edges”, in Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition CVPR 97, June 1997 [28] Z Lu, “Detection of Text Regions from Digital Engineering Drawings”, IEEE Transactions on PAMI, 20(4):431:439, April 1998 [29] H Yamada et al., “MAP: Multi-Angled Parallelism for Feature Extraction From Topographical Maps,” Pattern Recognition, vol 24, no 6, pp 479-488, 1991 [30] F.M Wahl et al., “Block Segmentation and Text Extraction in Mixed Text/Image Documents,” CVGIP, vol 20, pp 375-390, 1982 75 [31] C.P Lai and R Kasturi, “Detection of Dimension Sets in Engineering Drawings,” IEEE Trans Pattern Analysis and Machine Intelligence, vol 16, no 8, pp 848-855, 1994 [32] D Dori and Y Velkovitz, “Separation of Text From Graphics I: Engineering Drawings,” Preproceedings Int‟l Workshop on Graphics Recognition, Pennsylvania State Univ., Aug 1995 [33] D.B Lysak and R Kasturi, “Interpretation of Engineerings of Polyhedral and NonPolyhedral Objects,” Proc ICDAR, 1991 [34] D.N Ying, E.J Wang, L Ye, W Li, and Y Wang, “A Study on Automatic Input and Recognition of Engineering Drawing,” Proc CAD/GRAPHICS, pp 478-481, Hangzhou, China, 23-26 Sept 1991 [35] Karl Tombre, Salvatore Tabbone, Loic Pelissier, Bart Lamitory, and Philippe Dosch, “Text/Graphics Separation Revisited” [36] K Y Wong, R G Casey, and F M Wahl “Document Analysis System” IBM Journal of Research and Development, 26(6):647_656, 1982 [37] D X Le, G R Thoma, and H.Wechsler “Classification of binary document images into textual or nontextual data blocks using neural network models” Machine Vision and Applications, 8:289_304, 1995 [38] T Pavlidis and J Zhou “Page Segmentation and Classification” CVGIP: Graphical Models and Image Processing, 54(6):484_496, November 1992 [39] E Appiani, F Cesarini, A M Colla, M Diligenti, M Gori, S Marinai, and G Soda “Automatic document classification and indexing in high-volume applications” International Journal on Document Analysis and Recognition, 4(2):69_83, December 2001 [40] G Nagy and S Seth “Hierarchical Representation of Optically Scanned Documents” In Proceedings of 7th International Conference on Pattern Recognition, Montréal (Canada), pages 347_349, 1984 [41] H Luo and I Dinstein “Using Directional Mathematical Morphology for Separation of Character Strings from Text/Graphics Image” In Shape, Structure and Pattern Recognition (Post-proceedings of IAPR Workshop on Syntactic and Structural Pattern Recognition, Nahariya, Israel), pages 372_381 World Scientific, 1994 [42] Huizhu Luo and Rangachar Kasturi “Improved Directional Morphological Operations for Separation of Characters from Maps/Graphics” In K Tombre and A K Chhabra, editors, Graphics Recognition_Algorithms and Systems, volume 1389 of Lecture Notes in Computer Science, pages 35_47 Springer-Verlag, April 1998 [43] T Kaneko “Line Structure Extraction from Line-Drawing Images” Pattern Recognition, 25(9):963_973, 1992 [44] D Dori and L Wenyin “Vector-Based Segmentation of Text Connected to Graphics in Engineering Drawings” In P Perner, P Wang, and A Rosenfeld, editors, Advances in Structural and Syntactial Pattern Recognition (Proceedings of 6th International SSPR Workshop, Leipzig, Germany), volume 1121 of Lecture Notes in Computer Science, pages 322_331 Springer-Verlag, August 1996 76 [45] Q Yuan, C L Tan: “Text Extraction from Gray Scale Document Images Using Edge Information” In Proceedings of the Sixth International Conference on Document Analysis and Recognition (ICDAR‟01) 2001, IEEE [46] R Cao and C L Tan: “Seperation of Overlapping Text from Graphics” In Proceedings of 6th International Conference on Document Analysis and Recognition, Seatle (USA), pages 44-48, Septemper 2001 [47] R Cao and C L Tan: “Text and Graphics Separation in Maps” Proceedings of 4th IAPR International Workshop on Graphics Recognition, Kingston, Ontario (Canada), pages 245-254, Septemper 2001 [48] “Digital Image Processing” PIKS Inside, Third Edition William K Pratt Copyright © 2001 John Wiley & Sons, Inc ISBNs: 0-471-37407-5 (Hardback); 0-471-22132-5 (Electronic) [49] Sing-Tze Bow: “Pattern Recognition and Image Preprocessing” Second Edition, Revised and Expanded Copyright @ 2002 by Marcel Dekker, Inc [50] “Image Processing: The Fundamentals” Maria Petrou and Panagiota Bosdogianni Copyright @ 1999 John Wiley & Sons Ltd Print ISBN 0-471-99883-4 Electronic ISBN 0-470-84190-7 77 ... hệ phân tích tài liệu ảnh nói đến hệ thống bao gồm thuật tốn kỹ thuật mà áp dụng cho tài liệu ảnh để lấy thơng tin mà máy tính đọc hiểu từ điểm liệu ảnh [3] Một sản phẩm phân tích tài liệu ảnh. .. chụp tay, độ nghiêng tài liệu khác Vì bước phân tích OCR hay phân tích sơ đồ trình bày phụ thuộc vào trang tài liệu đầu vào với độ nghiêng xác định độ nghiêng điều chỉnh độ nghiêng tài liệu việc... quan trọng Vì hệ phân tích tài liệu đời, mục đích chúng giúp biểu diễn thông tin tài liệu ảnh, tài liệu giấy đưa vào từ máy quét dạng có cấu trúc Một hệ phân tích nhận dạng tài liệu ảnh có mục đích

Ngày đăng: 16/03/2021, 11:19

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w