Phương pháp phát hiện bảng trong tài liệu tổng hợp

75 11 0
Phương pháp phát hiện bảng trong tài liệu tổng hợp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG  Nguyễn Cảnh Ân PHƢƠNG PHÁP PHÁT HIỆN BẢNG TRONG TÀI LIỆU TỔNG HỢP LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN THÁI NGUYÊN- 2014 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG  Nguyễn Cảnh Ân PHƢƠNG PHÁP PHÁT HIỆN BẢNG TRONG TÀI LIỆU TỔNG HỢP Chuyên ngành : Mã số: Khoa học máy tính 60 48 01 LUẬN VĂN THẠC SĨ CƠNG NGHỆ THƠNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS Ngơ Quốc Tạo THÁI NGUYÊN- 2014 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ MỤC LỤC DANH MỤC CÁC HÌNH VẼ i LỜI CẢM ƠN iii MỞ ĐẦU CHƢƠNG 1: HỆ PHÂN TÍCH TRANG TÀI LIỆU ẢNH VÀ BÀI TOÁN PHÁT HIỆN BẢNG……………………………………………………………4 1.1 Giới thiệu chung hệ phân tích trang tài liệu tốn phát bảng… 1.1.1 Quá trình thu nhận ảnh 1.1.2 Các bước xử lý điểm ảnh 1.1.2.1 Phương pháp nhị phân 1.1.2.2 Giảm nhiễu 10 1.1.2.3 Phân đoạn 11 1.1.2.4 Làm mảnh xác định vùng 11 1.1.2.5 Mã hóa CC véctơ hóa 13 1.1.3 Phân tích đặc trưng tài liệu ảnh 14 1.1.4 Phân tích đối tượng văn tài liệu 15 1.1.4.1 Ước lượng độ nghiêng văn 15 1.1.4.2 Phân tích sơ đồ trình bày trang tài liệu 17 1.1.5 Nhận dạng ký tự quang học (OCR) 19 1.1.5.1 Trích chọn đặc trưng 21 1.1.5.2 Phân loại 22 1.1.5.3 Nhận dạng ký tự dựa ngữ cảnh 25 1.2 Bài toán phát bảng 26 1.2.1 Mơ tả tốn 27 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 1.2.2 Một số hướng tiếp cận 29 1.3 Kết luận chương 30 CHƢƠNG 2: PHÂN TÍCH BẢNG DỰA TRÊN T-RECS 32 2.1 Phương pháp phát bảng tài liệu ảnh 32 2.2 Giới thiệu thuật toán T-Recs 38 2.2.1 Các bước khởi tạo phân đoạn thuật toán 41 2.2.2 Trường hợp xác định sai cột thuật toán 43 2.2.3 Cải tiến số bước thuật toán 44 2.2.4 Những ưu điểm thuật toán 48 2.2.5 Những mặt hạn chế thuật toán khởi tạo 49 2.3 Xử lý khối sau phân đoạn 51 2.3.1 Trộn khối phân đoạn sai 51 2.3.2 Phân tách cột bị trộn vào khối 52 2.3.3 Nhóm từ bị phân tách 55 2.4 Phân tích khối 56 2.5 Phát cấu trúc cột, hàng 57 2.6 Kết luận chương 58 CHƢƠNG 3: CHƢƠNG TRÌNH DEMO CỦA THUẬT TỐN 59 3.1 Giới thiệu chung 59 3.2 Mơ tả chương trình 60 3.3 Một số kết thử nghiệm 61 KẾT LUẬN 63 DANH MỤC CÁC TÀI LIỆU THAM KHẢO 66 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ i DANH MỤC CÁC HÌNH VẼ Hình 1.1 Sơ đồ khối việc xử lý tài liệu Hình 1.2 Các bước xử lý cho hệ phân tích tài liệu, kèm sơ đồ thí dụ với kết thu từ bước Hình 1.3 Phương pháp nhị phân ảnh (a) Histogram ảnh đa cấp xám nguyên Trục ngang biểu diễn giá trị ngưỡng chọn Ảnh sau nhị phân: (b) sử dụng ngưỡng thấp, (c) ngưỡng hợp lý, (d) ngưỡng cao Hình 1.4 Ảnh nguyên bên trái ảnh sau làm mảnh bên phải (a) Ký tự “m” (b) Một sơ đồ (c) Vân tay…………………… Hình 1.5 Cửa sổ 3x3 điểm ảnh với điểm ảnh X nằm tâm Các giá trị số biểu diễn cho hướng mà điểm láng giềng X thuộc: (hướng tây), 1(tây - bắc), 2(bắc), 3(đông - bắc), 4(đơng), 5(đơng – nam), 6(nam), 7(tây – nam) Hình 1.6 Văn bị nghiêng quét Hình 1.7 Biểu đồ Histogram phép chiếu ngang dọc ảnh (a) (b) Hình 1.8 Kết phân tích cấu trúc chức khối Hình 1.9 Để phân tách nhận dạng hai số 4,2 có nét nối liền dễ gây nhầm lẫn Hình 1.10 Các ký tự viết tay dễ nhầm lẫn……………………… Hình 1.11 Các cấu trúc đặc trưng nét, tính lõm, lỗ hổng, điểm cắt ngang kết thúc sử dụng làm chiều khơng gian đặc trưng để phân loại ký tự Hình 1.12 Các đặc trưng ảnh ký tự trích Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ ii Hình 1.13 Một số nhầm lẫn bảng đối tượng khác Hình 1.14 Khái niệm thành phần bảng Hình 2.1 Một số lỗi phổ biến thuật tốn phát cấu trúc bảng Hình 2.2 Thuật tốn phát bảng dựa Tab-stop Hình 2.3 Các từ láng giềng từ “consist” theo chiều dọc Hình 2.4 Thuật toán phân đoạn khởi tạo đoạn văn Hình 2.5 Trường hợp thuật tốn nhận dạng sai cột Hình 2.6 Trường hợp dịng cột bảng có trắng Hình 2.7 Mơ tả kết thuật toán điều chỉnh nhận dạng khối Hình 2.8 Kết nhận dạng cột từ hình 2.5 Hình 2.9 Mơ tả q trình phân khối văn cột có khoảng cách hẹp Hình 2.10 Trường hợp bảng chiếm nhiều dịng liệu Hình 2.11 Những mặt hạn chế thuật tốn Hình 2.12 Trộn hai khối bị phân tách Hình 2.13 (a):Tách cột nhỏ cột lớn;(b):Trộn khối nhỏ vào khối lớn Hình 2.14 Trộn từ bị tách nhờ vào đoạn thẳng canh lề Hình 2.15 (a) Phân tích khối loại thành cấu trúc bảng ; (b) Ơ khối loại phân tich nhờ vào ô khối loại Hình 2.16 Tách khối loại thành hàng bảng Hình 3.1 Giao diện chương trình thử nghiệm Hình 3.2 Kết nhận dạng khối chương trình Hình 3.3 Trường hợp nhận dạng có mơi trường bảng Hình 3.4 Nhận dạng cột, khối văn Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ iii LỜI CẢM ƠN Trong suốt thời gian làm luận văn vừa qua, giúp đỡ bảo nhiệt tình PGS.TS Ngơ Quốc Tạo – Viện Cơng nghệ Thông tin – Viện Khoa học công nghệ Việt Nam, luận văn em hoàn thành Mặc dù thân cố gắng không ngừng với tận tâm thầy hướng dẫn song thời gian khả nhiều hạn chế nên luận văn khơng tránh khỏi thiếu sót q trình làm Để hồn thành xong luận văn này, em xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS Ngô Quốc Tạo – người thầy tận tình hướng dẫn em trình tìm hiểu, xây dựng phát triển luận văn Em xin chân thành cảm ơn thầy cô giáo Ban giám hiệu, phịng Đào tạo, thầy giáo trường Đại học Công nghệ Thông tin Truyền thông – Đại học Thái Nguyên thầy cô giáo Viện Công nghệ Thông Tin – Viện Khoa học Công nghệ Việt Nam quan tâm, tạo điều kiện thuận lợi, nhiệt tình giảng dạy hướng dẫn em suốt hai năm học qua Và cuối xin gửi lời cảm ơn đến gia đình, quan tồn thể học viên lớp K11I Ninh Bình quan tâm, động viên giúp đỡ suốt hai năm học vừa qua Cuối em mong nhận dẫn, góp ý thầy giáo để luận văn em hồn thiện Em xin trân trọng cảm ơn ! Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ MỞ ĐẦU Trong năm gần đây, thiết bị phần cứng máy tính phục vụ cho cơng việc lưu trữ xử lý hình ảnh phát triển vượt bậc dung lượng lẫn tốc độ xử lý Đồng thời, giá thiết bị giảm đến mức người toàn giới dễ dàng sở hữu thiết bị liên quan đến việc phân tích xử lý hình ảnh học máy tính Các loại tài liệu lưu trữ giấy xử lý theo cách thức cũ không theo kịp tốc độ phát triển công nghệ Những công việc ngày liên quan đến loại tài liệu không tài liệu chữ để lưu trữ mà tài liệu bao gồm nhiều thành phần bảng biểu, ảnh…với số lượng khổng lồ tài liệu xử lý nhiệm vụ phức tạp máy tính ngày nhiều Những cơng việc văn phịng hàng ngày liên quan đến tài liệu, tài liệu không đơn giản lưu trữ mà cần phải xử lý để có khả thay đổi, soạn thảo, chỉnh sửa trích chọn thơng tin quan trọng Vì hệ phân tích tài liệu đời, mục đích chúng giúp biểu diễn thông tin tài liệu ảnh, tài liệu giấy đưa vào từ máy quét dạng có cấu trúc Lĩnh vực xử lý ảnh cơng việc có nhiều ứng dụng sống, theo đó, số nước phát triển giới Nhật Bản, Trung Quốc, Pháp, Mỹ, Canada không ngừng nghiên cứu phát triển công nghệ phần mềm liên quan đến ngành nhận dạng xử lý hình ảnh để khai thác triệt để lợi sức mạnh phần cứng có Cùng với phát triển công nghệ tri thức nhận dạng giới, Việt Nam ta bước đầu tư phát triển ngành nhận dạng xử lý ảnh Điển hình phát triển ứng dụng mạnh mẽ Viện Khoa học công nghệ Việt Nam – Viện Công nghệ Thông tin Việt Nam Tại Viện Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ có nhiều tác giả nghiên cứu cải tiến số thuật toán quan trọng liên quan đến việc nhận dạng phân tách đối tượng khác ảnh tài liệu Từ đưa số phần mềm ứng dụng thiết thực sống Điển hình sản phẩm phần mềm Hệ nhận dạng quang học OCR, hay hệ nhận dạng chuỗi văn bản, bảng biểu VnDOCR Nhiều thuật toán đời bước phát triển phục vụ đắc lực cho việc đưa ứng dụng khả thi vào sống góp phần xây dựng bổ sung kho tri thức khoa học công nghệ giới Điển hình thuật tốn nhận dạng đối tượng ảnh tài liệu thuật toán nhận dạng bảng theo phương pháp tiếp cận lên (bottom-up) đề xuất tác giả Thomas G.Kieninger đặt tên T-Recs Phát bảng ảnh tài liệu ảnh tốn khó phức tạp Trước hệ phân tích tài liệu ảnh tập trung vào nhận dạng chuỗi ký tự, phân đoạn khối văn Ngày tài liệu không đơn văn mà cịn bao gồm hỗn hợp đối tượng chuỗi ký tự, ảnh, hình vẽ, sơ đồ, bảng biểu v.v Một số yếu tố cấu thành nên bảng biểu (structure of table) (cells), dịng (rows) cột (columns) Phát bảng toán phát cột, dịng, bảng biểu Việc phân tích cấu trúc ảnh tài liệu có vai trị quan trọng máy tính định hình cấu trúc ảnh giúp ích cho việc phục vụ mang tính chất đầu cuối cho cơng đoạn xử lý khác, kết hợp xử lý tự động liệu thu thập Do đó, phát đối tượng (văn hay hình ảnh) việc phát ln cấu trúc chứa đựng liên quan với đối tượng thật cần thiết Một cấu trúc quan trọng phổ biến thường sử dụng mà luận văn quan tâm đề cập đến việc phát bảng biểu (detect table) ảnh tài liệu Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ Trong phạm vi đề tài luận văn thạc sĩ với chủ đề “Phƣơng pháp phát bảng tài liệu tổng hợp” tơi tìm hiểu số phương pháp, kỹ thuật phát bảng tài liệu tổng hợp, đưa giải pháp cải tiến thuật toán, hướng phát triển thuật tốn, xây dựng chương trình thử nghiệm Bố cục luận văn phần mở đầu phần kết luận bao gồm chương Chương trình bày ngắn gọn cấu trúc chung hệ phân tích tài liệu ảnh, bao gồm thành phần như: lấy liệu, xử lý điểm ảnh, trích chọn đặc trưng giới thiệu toán phát bảng Chương đưa thuật toán phát bảng theo phương pháp tiếp cận – lên (bottom – up) Thuật toán đề xuất Thomas G Kieninger (1998) đặt tên T-Recs Tuy nhiên để phát xác cấu trúc bảng thuật tốn cịn nhiều hạn chế Luận văn trường hợp thuật toán phát sai đưa giải pháp nâng cao độ xác phát Cuối chương trình bày chương trình thử nghiệm: Nhận dạng bảng theo cấu trúc dùng để nhận dạng bảng trang tài liệu tổng hợp Phần kết luận nêu tóm tắt lại vấn đề đưa luận văn đưa vấn đề tồn để nâng cao tính hiệu thuật toán Các hướng giải nghiên cứu tương lai phương pháp đưa Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 54 khối từ K1 đến Kc , dựa vào hệ trục đề-cac vng góc, ta đánh số cho khối Ka sau: (Xa-min,Ya-min), (Xa-max,Ya-max), với (Xa-min,Ya-min) giá trị tọa độ điểm tạo góc bên trái (Xa-max,Ya-max) giá trị tọa độ điểm tạo góc bên phải khối Theo đó, ta tiến hành duyệt qua khối từ đến c, tồn hai khối a b cho giá trị tọa độ thỏa hai điều kiện sau: Xb-min ≤ Xa-min < Xa-max ≤ Xb-max Yb-min ≤ Ya-min < Ya-max ≤ Yb-max khối nhỏ a nhằm khối nhỏ b Do ta trộn khối a vào khối b Cứ tiếp tục khơng cịn hai khối thỏa điều kiện (Hình 2.13b) Ngồi ra, để phát trộn khối không bảo đảm tạo thành cột riêng cách đầy đủ, ta phải kết hợp thêm điều kiện ràng buộc khác xét số lượng khối láng giềng khối nhỏ, độ rộng đường khoảng trắng phân cách phía trái phía phải cột nhỏ, độ cao trung bình cột nhỏ cột lớn Cũng không ngoại trừ trường hợp phải xét điều kiện độ rộng ĐKTPC (Đường khoảng trắng phân cách) với độ lớn trung bình khoảng trắng từ khối trình bày phần 2.3.1 Y khối a nhỏ (a) Ya-max Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 55 Ya-min Xa-min Xa-max (b) Hình 2.13: (a): Tách cột nhỏ cột lớn; (b): Trộn khối nhỏ vào khối lớn; Nguồn: Kieninger (1998) xử lý tác giả (7/2014) 2.3.3 Nhóm từ bị phân tách Khi thuật toán thực duyệt qua tồn ảnh tài liệu có số phát tách thành khối riêng biệt, từ phân định vào khối không mong muốn Vì phải tìm cách nhóm từ bị chia tách không thành khối Ðiển hình cho từ bị chia tách từ bố trí dịng tách rời với dịng khác, thí dụ dịng tiêu đề từ phân bố phía khối mà chưa canh đều, hay từ thể nội dung ô bảng,v.v…Ðể khắc phục vấn đề xem xét từ thuộc khối độc lập có tương ứng với bảng có thực thuộc mơi trường bảng hay khơng Cụ thể tính tốn độ cao vùng bao quanh khối tạo nên từ so sánh giá trị với cột có bảng Ta duyệt qua khối, phát khối liền kề theo chiều ngang ta tạo đường canh lề cho khối Ðộ dài đoạn thẳng canh lề giá trị cho trước Các đường canh lề tạo cho biết độ cao khối cho thơng tin ranh giới phía trái, ranh giới phía phải tất khối nằm kề Ðộ dài đường canh lề tăng thêm ta phát nhiều điểm tạo nên đường canh lề (các điểm có tọa độ khơng thuộc phạm vi giá trị điểm tạo nên đoạn thẳng canh lề cho truớc) Những điểm tạo nên đường canh lề cho biết chúng có bị chặn đường biên khối bên trái hay khối bên phải hay không Các đường canh lề khởi đầu kết thúc Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 56 phạm vi tọa độ chiều rộng chiều cao ảnh tài liệu Nếu đoạn thẳng canh lề bên trái lề bên phải khối không đạt giá trị tham số cho trước khối trộn vào khối liền kề phía bên trái bên phải tương ứng (Hình 2.14) Hình 2.14: Trộn từ bị tách nhờ vào đoạn thẳng canh lề Nguồn: Kieninger 2.4 Phân tích khối Như có trình bày mục 2.2 luận này, bảng cấu thành từ cột, dịng (cell) Vì vậy, sau phát khối đại diện cho cột, tiếp tục phân tích khối để hình thành cấu trúc phức tạp bảng Ðối với khối loại ta phân tích hàng khối thành ô bảng (Hình 2.15a) Ðối với khối loại hai thơng thường chứa cấu trúc đoạn văn chứa dịng văn Có nhiều truờng hợp để phân tích thành ô cho khối loại hai Ở chọn loại cấu trúc điển hình là: Khối loại hai nằm liền kề với khối loại ta tiến hành phân tích khối loại hai thành ô tương ứng song song với ô khối loại Ðể thực việc phân tích ta phối hợp với kỹ thuật phát đường kẻ Kasturi, theo ta phân đoạn dịng khối loại sở ta kẻ đường kẻ ngang kéo dài nơi ranh giới dịng phân tích ô khối loại hai Hình 2.15b đưa ví dụ hai cột phía bên trái hai khối loại một, cột cịn lại phía bên phải khối loại hai Trong cột khối phía bên phải phân tích nhờ vào việc kéo dài đoạn thẳng phân định ô hai cột bên trái Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 57 (a) (b) Hình 2.15: (a) Phân tích khối loại hai thành cấu trúc bảng (b) Ơ thuộc khối loại phân tích nhờ vào ô thuộc khối loại Nguồn: Kieninger (1998) Trong trường hợp khối loại hai láng giềng với khối loại ta cần tách khối loại hai thành bảng, ta cần phân đoạn dòng cho khối loại đồng thời ta tách cho khối loại hai Hình 2.16 mơ tả ví dụ việc tách ô bảng với hai cột Pos Nmb cột thuộc khối loại một, cột Description khối loại hai Hình 2.16: Tách khối loại hai thành hàng bảng Nguồn: Kieninger (1998) Đầu tiên phân đoạn khối loại để tách hàng bảng Các hàng bảng phân cách với đường kẻ (hình 2.16 bên trái) Các đường kẻ đồng thời chia thành hàng cho khối loại hai 2.5 Phát cấu trúc cột, hàng Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 58 Ðể phát đầy đủ mơi trường bảng có xuất ảnh tài liệu, ngồi bước thực đây, ta cịn phải tìm kiếm thơng tin khác để xác định khối tạo thành thành phần lại bảng Khi phát khối có khả tạo thành bảng, ta tìm cách xếp khối vào hàng cột tương ứng Công cụ để thực công việc sử dụng tương tự kỹ thuật tạo đường lề trình bày mục 2.3.3 luận Sau xác định đoạn thẳng lề, ta duyệt qua điểm lề từ trái sang phải theo chiều ngược lại Cứ lần duyệt qua hai đoạn thẳng lề ta xác định cột bảng từ suy tổng số cột bảng Nếu khối có chiều dài lớn khoảng cách hai đoạn canh lề xem khối chứa nhiều cột 2.6 Kết luận chƣơng Sau tìm hiểu qua số phương pháp kỹ thuật phát bảng công bố số tác giả trước đây, việc lựa chọn nghiên cứu giải pháp phát bảng thông qua thuật toán T-Recs đem lại hướng phát triển khả quan Thuật tốn lựa chọn có ưu điểm tốc độ xử lý nhanh, độ phức tạp nằm tầm kiểm soát thuật toán lấy ý tưởng từ việc phát từ khối tạo thành cột bảng, mà không trọng nhiều đến việc phải phát đối tượng phân cách khác đường thẳng đối tượng ảnh khác Thơng qua q trình tìm hiểu phân tích thuật tốn lựa chọn, luận văn có đưa số điểm điều chỉnh, chưa thể cải tiến vượt trội phần giúp bổ sung giải số vấn đề tình phát sinh thuật tốn phải xử lý ảnh tài liệu da dạng Do tính chất phức tạp quy mơ lý thuyết ngành nhận dạng nói chung mà thân thuật tốn ứng dụng vào ngành khơng thể quản lý hết tất công đoạn, qua chương luận văn có trình bày số cơng đoạn Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 59 xử lý sau thuật toán thực khởi tạo phân khối để nhằm cho kết đầu tốt Như luận văn trình bày số ưu điểm tồn thuật tốn khởi tạo số cơng đoạn thủ tục xử lý sau chưa thể rà sốt hết tất trường hợp Ðiển q trình phân tích khối để tạo thành ô môi trường bảng viện dẫn trường hợp khối loại hai bố trí kề với khối loại Cịn khối loại hai không kề với khối loại chưa đề cập Mỗi phương pháp đề xuất có mặt mạnh điểm yếu vốn có Vì tương lai cần phải đầu tư nhiều hồn thiện giải pháp phát đối tượng bảng tài liệu tổng hợp CHƢƠNG 3: CHƢƠNG TRÌNH DEMO CỦA THUẬT TOÁN 3.1 Giới thiệu chung Để minh họa cho sở lý thuyết, luận văn trình bày chương trình thử nghiệm áp dụng thuật tốn T-Recs có điều chỉnh trình bày chương để nhận dạng cấu trúc bảng Chương trình thử nghiệm kiểm chứng sở lý thuyết ảnh tài liệu đầu vào ảnh dạng nhị phân (.bmp) Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 60 3.2 Mơ tả chƣơng trình Chương trình thử nghiệm dừng lại phần nhận dạng cột có bảng Do thời gian hồn thành luận văn hạn chế nên bước xử lý nhằm khắc phục lỗi hay bước tách cột bảng thành dịng chưa đưa vào chương trình Chương trình hoạt động bao gồm bước sau: 1- Tài liệu ảnh tải vào chương trình việc người sử dụng chọn tệp ảnh nhị phân (bmp) để mở Khi tài liệu ảnh quét để nhận dạng số dịng văn có tài liệu 2- Sau tài liệu quét để nhận dạng số dịng văn có tài liệu Chương trình thực quét qua tất dòng, dòng nhận dạng ký tự nhận dạng từ dịng Từ xây dựng hình bao cho từ dịng 3- Dựa vào thơng tin hình bao từ, chương trình xây dựng từ nằm khối thuật toán T-Recs Thuật toán quét từ xuống nhận biết đoạn văn khác nhau, sau thực thuật tốn nhận dạng đoạn văn khác Cách nhận biết đoạn văn khác dựa vào khoảng trắng dòng văn Và kết chương trình đưa ảnh bao gồm từ thuộc khối (một cột) Chương trình có tham số cần phải thiết lập (đặt mặc định 5), tham số số điểm ảnh lớn hai ký tự từ, tham số phụ thuộc vào kích cỡ phơng chữ Tham số giúp xác định ký tự thuộc từ Dựa vào tham số để chương trình nhận biết hai ký tự cách khoảng nhóm chúng lại làm từ Giao diện chương trình mơ tả hình 3.1: Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 61 Hình 3.1 : Giao diện chương trình Nhận dạng bảng theo cấu trúc Nhấn vào nút Mở tệp ảnh để chọn ảnh nhị phân để mở Nhấn vào nút Đặt tham số để thiết lập tham số số điểm ảnh tối đa hai ký tự (được đặt mặc định 5) Nhấn vào nút XD hình bao để nhận dạng hình bao cho từ ảnh đồng thời chương trình vẽ mơt hình chữ nhật nhỏ bao từ Nhấn vào nút Nhận dạng để nhận dạng cột có bảng ảnh Nút Ký tự cho phép nhận dạng ký tự ảnh Thông tin toạ độ, chiều rộng, chiều cao, hình dạng ký tự hiển thị phía nhận dạng 3.3 Một số kết thử nghiệm Hình 3.2 kết nhận dạng đoạn văn thông thường Với đoạn văn thông thường, chương trình xây dựng khối Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 62 Hình 3.2: Kết xây dựng khối chương trình Một trường hợp khác có tồn mơi trường bảng hình 3.2 Đầu tiên chương trình nhận thấy ảnh có ba đoạn văn thực thuật toán ba đoạn văn Mặc dù hai đoạn văn phía khơng phải bảng có ký tự cách trùng lặp vị trí, thuật tốn nhận dạng đoạn văn có nhiều cột liệu Tuy nhiên, dựa vào đánh giá độ rộng trung bình ký tự cách ta trộn lại khối bị phân tách vào thành khối Trong tệp ảnh hình 3.3 có đoạn văn thứ ba mơi trường bảng thuật tốn nhận dạng xác cột bảng Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 63 Hình 3.3: Trường hợp nhận dạng có mơi trường bảng Hình 3.4 Nhận dạng cột, khối văn Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 64 KẾT LUẬN Ngày nay, hệ phân tích trang tài liệu tổng hợp phát triển nhanh, đáp ứng yêu cầu việc xử lý thông tin, liệu ngày lớn máy tính Tuy nhiên ngành nhận dạng phát triển thách thức đặt vấn đề đòi hỏi cải tiến để nâng cao tính xác hiệu hệ phân tích tài liệu ảnh Yêu cầu hệ phân tích tài liệu khơng đơn giản chuyển đổi nội dung tài liệu ảnh sang định dạng tài liệu soạn thảo mà phải nhận dạng cấu trúc nội dung lưu trữ trang tài liệu Bài tốn phát bảng tốn điển hình nhận dạng cấu trúc tài liệu ảnh Trong khuôn khổ mình, luận văn vào nghiên cứu phương pháp, thuật toán để phát bảng trang tài liệu tổng hợp Thuật toán phát bảng đề cập luận văn dựa thuật toán TRecs G Kieninger đề xuất, nhiên bước thực mà Kieninger đưa nhiều hạn chế nhận dạng sai số trường hợp Một số lỗi nhận dạng trường hợp trùng lặp ký tự cách vị trí dòng văn bản, số từ nằm vị trí bất thường đoạn văn tạo thành cột hay trường hợp dòng đơn Luận văn đưa cải tiến bước thực thuật tốn, xây dựng chương trình thử nghiệm Nhận dạng cấu trúc bảng Một số thuật toán nhận dạng bảng trước dựa dấu phân cách ô bảng, chẳng hạn đường kẻ, khoảng trắng v.v Tuy nhiên T-Recs phương pháp nhận dạng bảng không dựa dấu hiệu phân cách nào, kể trường hợp khoảng cách hai cột bảng cách khoảng cách hẹp Kết thực nghiệm cho thấy thuật toán T-Recs++ có khả nhận dạng xác gần hồn tồn cột có bảng, kể trường hợp Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 65 khoảng cách cột bảng hẹp Kết thực nghiệm cho thấy độ xác việc nhận dạng cột bảng từ 92% đến 96% Hướng nghiên cứu luận văn nghiên cứu sâu thuật tốn để xây dựng chương trình tồn diện khơng phải xem xét đến ràng buộc nhận dạng khác thực hiện, xây dựng phương pháp xem có tách khối loại hai khỏi khối xem chúng có tạo thành cột bảng hay không, kết hợp với dấu hiệu phân cách đường kẻ, khoảng trắng để tách dòng khối loại hai, xây dựng chương trình thực nghiệm áp dụng ảnh đầu vào ảnh đa cấp xám ảnh màu Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 66 DANH MỤC CÁC TÀI LIỆU THAM KHẢO Tiếng Việt [1] Ngô Quốc Tạo: “ Bài giảng xử lý ảnh” [2] Đỗ Năng Toàn, Phạm Việt Bình, Giáo trình Xử lý ảnh, Nhà xuất Khoa học Kỹ thuật, Hà Nội 2008 Tiếng Anh [1] Kasturi, O‟Gorman, Govindaraju: “Document image analysis: A primer”, 2002 [2] GOBEL, Max, et al ICDAR 2013 Table Competition In: Document Analysis and Recognition (ICDAR), 2013 12th International Conference on IEEE, 2013 p 1449-1453 [3] D B R Zanibbi and J Cordy A survey of table recognition: Models, observations, transformations, and inferences In Int‟l J Document Analysis and Recognition, Vol 7, No.1, pages 1–16, 2004 [4] Wilson C L, Geist J, Garris M D, Chellapa R 1996 Design, integration, and evaluation of form-based handprint and OCR ystems Technical Report, NISTIR5932, National Institute of Standards & Technology, US; download from http://www.itl.nist.gov/iad/894.03/pubs.html [5] B Gatos, D Danatsas, I Pratikakis, and S J Perantonis Automatic table detection in document images In Proc Int Conf on Advances in Pattern Recognition, pages 612{621, Path, UK, Aug 2005 [6] Thomas G.Kieninger, “Table Structure Recognition Based On Robust Block Segmentation”, 1998 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 67 [7] Faisal Shafait and Ray Smith 2010 Table detection in heterogeneous documents In Proceedings of the 9th IAPR International Workshop on Document Analysis Systems (DAS '10) ACM, New York, NY, USA, 65-72 [8] J Hu, R Kashi, D Lopresti, and G Wilfong.Medium-independent table detection In Proc SPIE Document Recognition and Retrieval VII, pages 291– 302, San Jose, CA, USA, Jan 2000 [9] SHAHAB, Asif, et al An open approach towards the benchmarking of table structure recognition systems In: Proceedings of the 9th IAPR International Workshop on Document Analysis Systems ACM, 2010 p 113-120 [10] D Rus and K Summers, “Using White Space for Automated Document Structuring”, Technical Report TR 94-1452, Department of Computer Science, Cornell University, 1994 [11] E Green and M Krishnamoorthy, “Recognition of table using table grammars”, in Proc of the 4-th Symposium on Document Analysis and Information Retrieval – SDAIR95, Las Vegas, Nevada, 1995 [12] T Kieninger and A Dengel Applying the T-RECS table recognition system to the business letter domain In Proc ICDAR‟01, pages 518–522, Seattle, WA, USA, Sep 2001 [13] R Smith, “Hybrid Page Layout Analysis via Tab-Stop Detection”, ICDAR‟09, pp 241-245, 2009 [14] Y Wang, R Haralick, and I T Phillips Automatic table ground truth generation and a background-analysis-based table structure extraction method In Proc Int Conf on Document Analysis and Recognition, pages 528–532, Seattle, WA, USA, Sep 2001 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 68 [15] M A Rahgozar, Z Fan, and E V Rainero, “Tabular document recognition”, in Proc Of the SPIE Conference on Document Recognition, 1994 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ ... việc phát bảng biểu (detect table) ảnh tài liệu Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ Trong phạm vi đề tài luận văn thạc sĩ với chủ đề “Phƣơng pháp phát bảng tài liệu tổng hợp? ??... Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ CHƢƠNG 1: HỆ PHÂN TÍCH TRANG TÀI LIỆU ẢNH VÀ BÀI TOÁN PHÁT HIỆN BẢNG 1.1 Giới thiệu chung hệ phân tích trang tài liệu tốn phát bảng Ảnh tài liệu sau quét... phạm vi nghiên cứu luận văn sâu việc phát bảng (detect table) ảnh tài liệu Trong loại văn bản, tài liệu đối tượng bảng thành phần quan trọng trang tài liệu tổng hợp, trước hết việc phân tích sơ đồ

Ngày đăng: 23/03/2021, 22:13

Tài liệu cùng người dùng

Tài liệu liên quan