Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 72 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
72
Dung lượng
1,9 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG Nguyễn Cảnh Ân PHƯƠNG PHÁP PHÁT HIỆN BẢNG TRONG TÀI LIỆU TỔNG HỢP LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN THÁI NGUYÊN- 2014 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG Nguyễn Cảnh Ân PHƯƠNG PHÁP PHÁT HIỆN BẢNG TRONG TÀI LIỆU TỔNG HỢP Chuyên ngành : Mã số: Khoa học máy tính 60 48 01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Ngô Quốc Tạo THÁI NGUYÊN- 2014 MỤC LỤC DANH MỤC CÁC HÌNH VẼ i LỜI CẢM ƠN iii MỞ ĐẦU CHƯƠNG 1: HỆ PHÂN TÍCH TRANG TÀI LIỆU ẢNH VÀ BÀI TOÁN PHÁT HIỆN BẢNG……………………………………………………………4 1.1 Giới thiệu chung hệ phân tích trang tài liệu toán phát bảng… 1.1.1 Quá trình thu nhận ảnh 1.1.2 Các bước xử lý điểm ảnh 1.1.2.1 Phương pháp nhị phân 1.1.2.2 Giảm nhiễu 1.1.2.3 Phân đoạn 10 1.1.2.4 Làm mảnh xác định vùng 11 1.1.2.5 Mã hóa CC véctơ hóa 13 1.1.3 Phân tích đặc trưng tài liệu ảnh 14 1.1.4 Phân tích đối tượng văn tài liệu 14 1.1.4.1 Ước lượng độ nghiêng văn 15 1.1.4.2 Phân tích sơ đồ trình bày trang tài liệu 16 1.1.5 Nhận dạng ký tự quang học (OCR) 18 1.1.5.1 Trích chọn đặc trưng 20 1.1.5.2 Phân loại 21 1.1.5.3 Nhận dạng ký tự dựa ngữ cảnh 24 1.2 Bài toán phát bảng 25 1.2.1 Mô tả toán 25 1.2.2 Một số hướng tiếp cận 28 1.3 Kết luận chương 29 CHƯƠNG 2: PHÂN TÍCH BẢNG DỰA TRÊN T-RECS 31 2.1 Phương pháp phát bảng tài liệu ảnh 31 2.2 Giới thiệu thuật toán T-Recs 36 2.2.1 Các bước khởi tạo phân đoạn thuật toán 38 2.2.2 Trường hợp xác định sai cột thuật toán 41 2.2.3 Cải tiến số bước thuật toán 42 2.2.4 Những ưu điểm thuật toán 46 2.2.5 Những mặt hạn chế thuật toán khởi tạo 47 2.3 Xử lý khối sau phân đoạn 48 2.3.1 Trộn khối phân đoạn sai 49 2.3.2 Phân tách cột bị trộn vào khối 50 2.3.3 Nhóm từ bị phân tách 52 2.4 Phân tích khối 53 2.5 Phát cấu trúc cột, hàng 55 2.6 Kết luận chương 55 CHƯƠNG 3: CHƯƠNG TRÌNH DEMO CỦA THUẬT TOÁN 57 3.1 Giới thiệu chung 57 3.2 Mô tả chương trình 57 3.3 Một số kết thử nghiệm 59 KẾT LUẬN 60 DANH MỤC CÁC TÀI LIỆU THAM KHẢO 63 i DANH MỤC CÁC HÌNH VẼ Hình 1.1 Sơ đồ khối việc xử lý tài liệu Hình 1.2 Các bước xử lý cho hệ phân tích tài liệu, kèm sơ đồ thí dụ với kết thu từ bước Hình 1.3 Phương pháp nhị phân ảnh (a) Histogram ảnh đa cấp xám nguyên Trục ngang biểu diễn giá trị ngưỡng chọn Ảnh sau nhị phân: (b) sử dụng ngưỡng thấp, (c) ngưỡng hợp lý, (d) ngưỡng cao Hình 1.4 Ảnh nguyên bên trái ảnh sau làm mảnh bên phải (a) Ký tự “m” (b) Một sơ đồ (c) Vân tay…………………… Hình 1.5 Cửa sổ 3x3 điểm ảnh với điểm ảnh X nằm tâm Các giá trị số biểu diễn cho hướng mà điểm láng giềng X thuộc: (hướng tây), 1(tây - bắc), 2(bắc), 3(đông - bắc), 4(đông), 5(đông – nam), 6(nam), 7(tây – nam) Hình 1.6 Văn bị nghiêng quét Hình 1.7 Biểu đồ Histogram phép chiếu ngang dọc ảnh (a) (b) Hình 1.8 Kết phân tích cấu trúc chức khối Hình 1.9 Để phân tách nhận dạng hai số 4,2 có nét nối liền dễ gây nhầm lẫn Hình 1.10 Các ký tự viết tay dễ nhầm lẫn……………………… Hình 1.11 Các cấu trúc đặc trưng nét, tính lõm, lỗ hổng, điểm cắt ngang kết thúc sử dụng làm chiều không gian đặc trưng để phân loại ký tự Hình 1.12 Các đặc trưng ảnh ký tự trích Hình 1.13 Một số nhầm lẫn bảng đối tượng khác Hình 1.14 Khái niệm thành phần bảng ii Hình 2.1 Một số lỗi phổ biến thuật toán phát cấu trúc bảng Hình 2.2 Thuật toán phát bảng dựa Tab-stop Hình 2.3 Các từ láng giềng từ “consist” theo chiều dọc Hình 2.4 Thuật toán phân đoạn khởi tạo đoạn văn Hình 2.5 Trường hợp thuật toán nhận dạng sai cột Hình 2.6 Trường hợp dòng cột bảng có ô trắng Hình 2.7 Mô tả kết thuật toán điều chỉnh nhận dạng khối Hình 2.8 Kết nhận dạng cột từ hình 2.5 Hình 2.9 Mô tả trình phân khối văn cột có khoảng cách hẹp Hình 2.10 Trường hợp ô bảng chiếm nhiều dòng liệu Hình 2.11 Những mặt hạn chế thuật toán Hình 2.12 Trộn hai khối bị phân tách Hình 2.13 (a):Tách cột nhỏ cột lớn;(b):Trộn khối nhỏ vào khối lớn Hình 2.14 Trộn từ bị tách nhờ vào đoạn thẳng canh lề Hình 2.15 (a) Phân tích khối loại thành cấu trúc ô bảng ; (b) Ô khối loại phân tich nhờ vào ô khối loại Hình 2.16 Tách khối loại thành hàng bảng Hình 3.1 Giao diện chương trình thử nghiệm Hình 3.2 Kết nhận dạng khối chương trình Hình 3.3 Trường hợp nhận dạng có môi trường bảng Hình 3.4 Nhận dạng cột, khối văn iii LỜI CẢM ƠN Trong suốt thời gian làm luận văn vừa qua, giúp đỡ bảo nhiệt tình PGS.TS Ngô Quốc Tạo – Viện Công nghệ Thông tin – Viện Khoa học công nghệ Việt Nam, luận văn em hoàn thành Mặc dù thân cố gắng không ngừng với tận tâm thầy hướng dẫn song thời gian khả nhiều hạn chế nên luận văn không tránh khỏi thiếu sót trình làm Để hoàn thành xong luận văn này, em xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS Ngô Quốc Tạo – người thầy tận tình hướng dẫn em trình tìm hiểu, xây dựng phát triển luận văn Em xin chân thành cảm ơn thầy cô giáo Ban giám hiệu, phòng Đào tạo, thầy cô giáo trường Đại học Công nghệ Thông tin Truyền thông – Đại học Thái Nguyên thầy cô giáo Viện Công nghệ Thông Tin – Viện Khoa học Công nghệ Việt Nam quan tâm, tạo điều kiện thuận lợi, nhiệt tình giảng dạy hướng dẫn em suốt hai năm học qua Và cuối xin gửi lời cảm ơn đến gia đình, quan toàn thể học viên lớp K11I Ninh Bình quan tâm, động viên giúp đỡ suốt hai năm học vừa qua Cuối em mong nhận dẫn, góp ý thầy cô giáo để luận văn em hoàn thiện Em xin trân trọng cảm ơn ! MỞ ĐẦU Trong năm gần đây, thiết bị phần cứng máy tính phục vụ cho công việc lưu trữ xử lý hình ảnh phát triển vượt bậc dung lượng lẫn tốc độ xử lý Đồng thời, giá thiết bị giảm đến mức người toàn giới dễ dàng sở hữu thiết bị liên quan đến việc phân tích xử lý hình ảnh Cùng với phát triển có thách thức đặt nhà khoa học máy tính Các loại tài liệu lưu trữ giấy xử lý theo cách thức cũ không theo kịp tốc độ phát triển công nghệ Những công việc ngày liên quan đến loại tài liệu không tài liệu chữ để lưu trữ mà tài liệu bao gồm nhiều thành phần bảng biểu, ảnh…với số lượng khổng lồ tài liệu xử lý nhiệm vụ phức tạp máy tính ngày nhiều Những công việc văn phòng hàng ngày liên quan đến tài liệu, tài liệu không đơn giản lưu trữ mà cần phải xử lý để có khả thay đổi, soạn thảo, chỉnh sửa trích chọn thông tin quan trọng Vì hệ phân tích tài liệu đời, mục đích chúng giúp biểu diễn thông tin tài liệu ảnh, tài liệu giấy đưa vào từ máy quét dạng có cấu trúc Lĩnh vực xử lý ảnh công việc có nhiều ứng dụng sống, theo đó, số nước phát triển giới Nhật Bản, Trung Quốc, Pháp, Mỹ, Canada không ngừng nghiên cứu phát triển công nghệ phần mềm liên quan đến ngành nhận dạng xử lý hình ảnh để khai thác triệt để lợi sức mạnh phần cứng có Cùng với phát triển công nghệ tri thức nhận dạng giới, Việt Nam ta bước đầu tư phát triển ngành nhận dạng xử lý ảnh Điển hình phát triển ứng dụng mạnh mẽ Viện Khoa học công nghệ Việt Nam – Viện Công nghệ Thông tin Việt Nam Tại Viện có nhiều tác giả nghiên cứu cải tiến số thuật toán quan trọng liên quan đến việc nhận dạng phân tách đối tượng khác ảnh tài liệu Từ đưa số phần mềm ứng dụng thiết thực sống Điển hình sản phẩm phần mềm Hệ nhận dạng quang học OCR, hay hệ nhận dạng chuỗi văn bản, bảng biểu VnDOCR Nhiều thuật toán đời bước phát triển phục vụ đắc lực cho việc đưa ứng dụng khả thi vào sống góp phần xây dựng bổ sung kho tri thức khoa học công nghệ giới Điển hình thuật toán nhận dạng đối tượng ảnh tài liệu thuật toán nhận dạng bảng theo phương pháp tiếp cận lên (bottom-up) đề xuất tác giả Thomas G.Kieninger đặt tên T-Recs Phát bảng ảnh tài liệu ảnh toán khó phức tạp Trước hệ phân tích tài liệu ảnh tập trung vào nhận dạng chuỗi ký tự, phân đoạn khối văn Ngày tài liệu không đơn văn mà bao gồm hỗn hợp đối tượng chuỗi ký tự, ảnh, hình vẽ, sơ đồ, bảng biểu v.v Một số yếu tố cấu thành nên bảng biểu (structure of table) ô (cells), dòng (rows) cột (columns) Phát bảng toán phát cột, dòng, ô bảng biểu Việc phân tích cấu trúc ảnh tài liệu có vai trò quan trọng máy tính định hình cấu trúc ảnh giúp ích cho việc phục vụ mang tính chất đầu cuối cho công đoạn xử lý khác, kết hợp xử lý tự động liệu thu thập Do đó, phát đối tượng (văn hay hình ảnh) việc phát cấu trúc chứa đựng liên quan với đối tượng thật cần thiết Một cấu trúc quan trọng phổ biến thường sử dụng mà luận văn quan tâm đề cập đến việc phát bảng biểu (detect table) ảnh tài liệu Trong phạm vi đề tài luận văn thạc sĩ với chủ đề “Phương pháp phát bảng tài liệu tổng hợp” tìm hiểu số phương pháp, kỹ thuật phát bảng tài liệu tổng hợp, đưa giải pháp cải tiến thuật toán, hướng phát triển thuật toán, xây dựng chương trình thử nghiệm Bố cục luận văn phần mở đầu phần kết luận bao gồm chương Chương trình bày ngắn gọn cấu trúc chung hệ phân tích tài liệu ảnh, bao gồm thành phần như: lấy liệu, xử lý điểm ảnh, trích chọn đặc trưng giới thiệu toán phát bảng Chương đưa thuật toán phát bảng theo phương pháp tiếp cận – lên (bottom – up) Thuật toán đề xuất Thomas G Kieninger (1998) đặt tên T-Recs Tuy nhiên để phát xác cấu trúc bảng thuật toán nhiều hạn chế Luận văn trường hợp thuật toán phát sai đưa giải pháp nâng cao độ xác phát Cuối chương trình bày chương trình thử nghiệm: Nhận dạng bảng theo cấu trúc dùng để nhận dạng bảng trang tài liệu tổng hợp Phần kết luận nêu tóm tắt lại vấn đề đưa luận văn đưa vấn đề tồn để nâng cao tính hiệu thuật toán Các hướng giải nghiên cứu tương lai phương pháp đưa 51 hai có tồn khối nhỏ khối lớn ta áp dụng kết hợp với việc phát đường kẻ dọc kỹ thuật tác giả Kasturi để phát khối loại hai Khi gặp khối bố trí môi trường bảng cách túy đơn giản, ngoại lệ kết việc tách thành khối nhỏ thuộc khối lớn ban đầu thể rõ ràng, minh họa hình 2.13a, kỹ thuật phát cột nhỏ áp dụng cho khối tìm ảnh tài liệu Vì kỹ thuật quét qua cột thuộc khối loại hai nhận số từ bảo đảm điều kiện xếp theo quy tắc phía có từ liên thông phía có từ liên thông Nhưng từ không tạo thành cột nhỏ riêng biệt Như vậy, sau quét qua khối để phát cột nhỏ bên khối có, ta tiếp tục áp dụng kỹ thuật tìm kiếm để trộn lại khối bị tách không theo mong muốn Sau áp dụng kỹ thuật tách để duyệt qua khối lớn phát hiện, khối lớn K phân tách thành khối nhỏ từ K1 đến Kc Với khối Ka thuộc khối từ K1 đến Kc , dựa vào hệ trục đề-cac vuông góc, ta đánh số cho khối Ka sau: (Xa-min,Ya-min), (Xa-max,Ya-max), với (Xa-min,Ya-min) giá trị tọa độ điểm tạo góc bên trái (Xa-max,Ya-max) giá trị tọa độ điểm tạo góc bên phải khối Theo đó, ta tiến hành duyệt qua khối từ đến c, tồn hai khối a b cho giá trị tọa độ thỏa hai điều kiện sau: Xb-min ≤ Xa-min < Xa-max ≤ Xb-max Yb-min ≤ Ya-min < Ya-max ≤ Yb-max khối nhỏ a nhằm khối nhỏ b Do ta trộn khối a vào khối b Cứ tiếp tục không hai khối thỏa điều kiện (Hình 2.13b) Ngoài ra, để phát trộn khối không bảo đảm tạo thành cột riêng cách đầy đủ, ta phải kết hợp thêm điều 52 kiện ràng buộc khác xét số lượng khối láng giềng khối nhỏ, độ rộng đường khoảng trắng phân cách phía trái phía phải cột nhỏ, độ cao trung bình cột nhỏ cột lớn Cũng không ngoại trừ trường hợp phải xét điều kiện độ rộng ĐKTPC (Đường khoảng trắng phân cách) với độ lớn trung bình khoảng trắng từ khối trình bày phần 2.3.1 Y khối a nhỏ (a) Ya-max Ya-min Xa-min Xa-max (b) Hình 2.13: (a): Tách cột nhỏ cột lớn; (b): Trộn khối nhỏ vào khối lớn; Nguồn: Kieninger (1998) xử lý tác giả (7/2014) 2.3.3 Nhóm từ bị phân tách Khi thuật toán thực duyệt qua toàn ảnh tài liệu có số phát tách thành khối riêng biệt, từ phân định vào khối không mong muốn Vì phải tìm cách nhóm từ bị chia tách không thành khối Ðiển hình cho từ bị chia tách từ bố trí dòng tách rời với dòng khác, thí dụ dòng tiêu đề từ phân bố phía khối mà chưa canh đều, hay từ thể nội dung ô bảng,v.v…Ðể khắc phục vấn đề xem xét từ thuộc khối độc lập có tương ứng với ô bảng có thực thuộc môi trường bảng hay không Cụ thể tính toán độ cao 53 vùng bao quanh khối tạo nên từ so sánh giá trị với cột có bảng Ta duyệt qua khối, phát khối liền kề theo chiều ngang ta tạo đường canh lề cho khối Ðộ dài đoạn thẳng canh lề giá trị cho trước Các đường canh lề tạo cho biết độ cao khối cho thông tin ranh giới phía trái, ranh giới phía phải tất khối nằm kề Ðộ dài đường canh lề tăng thêm ta phát nhiều điểm tạo nên đường canh lề (các điểm có tọa độ không thuộc phạm vi giá trị điểm tạo nên đoạn thẳng canh lề cho truớc) Những điểm tạo nên đường canh lề cho biết chúng có bị chặn đường biên khối bên trái hay khối bên phải hay không Các đường canh lề khởi đầu kết thúc phạm vi tọa độ chiều rộng chiều cao ảnh tài liệu Nếu đoạn thẳng canh lề bên trái lề bên phải khối không đạt giá trị tham số cho trước khối trộn vào khối liền kề phía bên trái bên phải tương ứng (Hình 2.14) Hình 2.14: Trộn từ bị tách nhờ vào đoạn thẳng canh lề Nguồn: Kieninger 2.4 Phân tích khối Như có trình bày mục 2.2 luận này, bảng cấu thành từ cột, dòng ô (cell) Vì vậy, sau phát khối đại diện cho cột, tiếp tục phân tích khối để hình thành cấu trúc phức tạp bảng Ðối với khối loại ta phân tích hàng khối thành ô bảng (Hình 2.15a) Ðối với khối loại hai thông thường chứa cấu trúc đoạn văn chứa dòng văn ô Có nhiều truờng hợp để phân tích thành ô cho khối loại hai Ở chọn loại cấu trúc điển hình là: Khối loại hai nằm liền kề với khối loại ta tiến hành phân tích khối loại hai 54 thành ô tương ứng song song với ô khối loại Ðể thực việc phân tích ta phối hợp với kỹ thuật phát đường kẻ Kasturi, theo ta phân đoạn dòng khối loại sở ta kẻ đường kẻ ngang kéo dài nơi ranh giới dòng phân tích ô khối loại hai Hình 2.15b đưa ví dụ hai cột phía bên trái hai khối loại một, cột lại phía bên phải khối loại hai Trong ô cột khối phía bên phải phân tích nhờ vào việc kéo dài đoạn thẳng phân định ô hai cột bên trái (a) (b) Hình 2.15: (a) Phân tích khối loại hai thành cấu trúc ô bảng (b) Ô thuộc khối loại phân tích nhờ vào ô thuộc khối loại Nguồn: Kieninger (1998) Trong trường hợp khối loại hai láng giềng với khối loại ta cần tách khối loại hai thành ô bảng, ta cần phân đoạn dòng cho khối loại đồng thời ta tách ô cho khối loại hai Hình 2.16 mô tả ví dụ việc tách ô bảng với hai cột Pos Nmb cột thuộc khối loại một, cột Description khối loại hai 55 Hình 2.16: Tách khối loại hai thành hàng bảng Nguồn: Kieninger (1998) Đầu tiên phân đoạn khối loại để tách hàng bảng Các hàng bảng phân cách với đường kẻ (hình 2.16 bên trái) Các đường kẻ đồng thời chia thành hàng cho khối loại hai 2.5 Phát cấu trúc cột, hàng Ðể phát đầy đủ môi trường bảng có xuất ảnh tài liệu, bước thực đây, ta phải tìm kiếm thông tin khác để xác định khối tạo thành thành phần lại bảng Khi phát khối có khả tạo thành bảng, ta tìm cách xếp khối vào hàng cột tương ứng Công cụ để thực công việc sử dụng tương tự kỹ thuật tạo đường lề trình bày mục 2.3.3 luận Sau xác định đoạn thẳng lề, ta duyệt qua điểm lề từ trái sang phải theo chiều ngược lại Cứ lần duyệt qua hai đoạn thẳng lề ta xác định cột bảng từ suy tổng số cột bảng Nếu khối có chiều dài lớn khoảng cách hai đoạn canh lề xem khối chứa nhiều cột 2.6 Kết luận chương Sau tìm hiểu qua số phương pháp kỹ thuật phát bảng công bố số tác giả trước đây, việc lựa chọn nghiên cứu giải pháp phát bảng thông qua thuật toán T-Recs đem lại hướng phát triển khả quan Thuật toán lựa chọn có ưu điểm tốc độ xử lý nhanh, độ phức tạp nằm tầm kiểm soát thuật toán lấy ý tưởng từ 56 việc phát từ khối tạo thành cột bảng, mà không trọng nhiều đến việc phải phát đối tượng phân cách khác đường thẳng đối tượng ảnh khác Thông qua trình tìm hiểu phân tích thuật toán lựa chọn, luận văn có đưa số điểm điều chỉnh, chưa thể cải tiến vượt trội phần giúp bổ sung giải số vấn đề tình phát sinh thuật toán phải xử lý ảnh tài liệu da dạng Do tính chất phức tạp quy mô lý thuyết ngành nhận dạng nói chung mà thân thuật toán ứng dụng vào ngành quản lý hết tất công đoạn, qua chương luận văn có trình bày số công đoạn xử lý sau thuật toán thực khởi tạo phân khối để nhằm cho kết đầu tốt Như luận văn trình bày số ưu điểm tồn thuật toán khởi tạo số công đoạn thủ tục xử lý sau chưa thể rà soát hết tất trường hợp Ðiển trình phân tích khối để tạo thành ô môi trường bảng viện dẫn trường hợp khối loại hai bố trí kề với khối loại Còn khối loại hai không kề với khối loại chưa đề cập Mỗi phương pháp đề xuất có mặt mạnh điểm yếu vốn có Vì tương lai cần phải đầu tư nhiều hoàn thiện giải pháp phát đối tượng bảng tài liệu tổng hợp 57 CHƯƠNG 3: CHƯƠNG TRÌNH DEMO CỦA THUẬT TOÁN 3.1 Giới thiệu chung Để minh họa cho sở lý thuyết, luận văn trình bày chương trình thử nghiệm áp dụng thuật toán T-Recs có điều chỉnh trình bày chương để nhận dạng cấu trúc bảng Chương trình thử nghiệm kiểm chứng sở lý thuyết ảnh tài liệu đầu vào ảnh dạng nhị phân (.bmp) 3.2 Mô tả chương trình Chương trình thử nghiệm dừng lại phần nhận dạng cột có bảng Do thời gian hoàn thành luận văn hạn chế nên bước xử lý nhằm khắc phục lỗi hay bước tách cột bảng thành dòng chưa đưa vào chương trình Chương trình hoạt động bao gồm bước sau: 1- Tài liệu ảnh tải vào chương trình việc người sử dụng chọn tệp ảnh nhị phân (bmp) để mở Khi tài liệu ảnh quét để nhận dạng số dòng văn có tài liệu 2- Sau tài liệu quét để nhận dạng số dòng văn có tài liệu Chương trình thực quét qua tất dòng, dòng nhận dạng ký tự nhận dạng từ dòng Từ xây dựng hình bao cho từ dòng 3- Dựa vào thông tin hình bao từ, chương trình xây dựng từ nằm khối thuật toán T-Recs Thuật toán quét từ xuống nhận biết đoạn văn khác nhau, sau thực thuật toán nhận dạng đoạn văn khác Cách nhận biết đoạn văn khác dựa vào khoảng trắng dòng văn Và kết chương trình đưa ảnh bao gồm từ thuộc khối (một cột) 58 Chương trình có tham số cần phải thiết lập (đặt mặc định 5), tham số số điểm ảnh lớn hai ký tự từ, tham số phụ thuộc vào kích cỡ phông chữ Tham số giúp xác định ký tự thuộc từ Dựa vào tham số để chương trình nhận biết hai ký tự cách khoảng nhóm chúng lại làm từ Giao diện chương trình mô tả hình 3.1: Hình 3.1 : Giao diện chương trình Nhận dạng bảng theo cấu trúc Nhấn vào nút Mở tệp ảnh để chọn ảnh nhị phân để mở Nhấn vào nút Đặt tham số để thiết lập tham số số điểm ảnh tối đa hai ký tự (được đặt mặc định 5) Nhấn vào nút XD hình bao để nhận dạng hình bao cho từ ảnh đồng thời chương trình vẽ môt hình chữ nhật nhỏ bao từ Nhấn vào nút Nhận dạng để nhận dạng cột có bảng ảnh Nút Ký tự cho phép nhận dạng ký tự ảnh Thông tin toạ độ, chiều rộng, chiều cao, hình dạng ký tự hiển thị phía nhận dạng 59 3.3 Một số kết thử nghiệm Hình 3.2 kết nhận dạng đoạn văn thông thường Với đoạn văn thông thường, chương trình xây dựng khối Hình 3.2: Kết xây dựng khối chương trình Một trường hợp khác có tồn môi trường bảng hình 3.2 Đầu tiên chương trình nhận thấy ảnh có ba đoạn văn thực thuật toán ba đoạn văn Mặc dù hai đoạn văn phía bảng có ký tự cách trùng lặp vị trí, thuật toán nhận dạng đoạn văn có nhiều cột liệu Tuy nhiên, dựa vào đánh giá độ rộng trung bình ký tự cách ta trộn lại khối bị phân tách vào thành khối Trong tệp ảnh hình 3.3 có đoạn văn thứ ba môi trường bảng thuật toán nhận dạng xác cột bảng 60 Hình 3.3: Trường hợp nhận dạng có môi trường bảng Hình 3.4 Nhận dạng cột, khối văn 61 KẾT LUẬN Ngày nay, hệ phân tích trang tài liệu tổng hợp phát triển nhanh, đáp ứng yêu cầu việc xử lý thông tin, liệu ngày lớn máy tính Tuy nhiên ngành nhận dạng phát triển thách thức đặt vấn đề đòi hỏi cải tiến để nâng cao tính xác hiệu hệ phân tích tài liệu ảnh Yêu cầu hệ phân tích tài liệu không đơn giản chuyển đổi nội dung tài liệu ảnh sang định dạng tài liệu soạn thảo mà phải nhận dạng cấu trúc nội dung lưu trữ trang tài liệu Bài toán phát bảng toán điển hình nhận dạng cấu trúc tài liệu ảnh Trong khuôn khổ mình, luận văn vào nghiên cứu phương pháp, thuật toán để phát bảng trang tài liệu tổng hợp Thuật toán phát bảng đề cập luận văn dựa thuật toán TRecs G Kieninger đề xuất, nhiên bước thực mà Kieninger đưa nhiều hạn chế nhận dạng sai số trường hợp Một số lỗi nhận dạng trường hợp trùng lặp ký tự cách vị trí dòng văn bản, số từ nằm vị trí bất thường đoạn văn tạo thành cột hay trường hợp dòng đơn Luận văn đưa cải tiến bước thực thuật toán, xây dựng chương trình thử nghiệm Nhận dạng cấu trúc bảng Một số thuật toán nhận dạng bảng trước dựa dấu phân cách ô bảng, chẳng hạn đường kẻ, khoảng trắng v.v Tuy nhiên T-Recs phương pháp nhận dạng bảng không dựa dấu hiệu phân cách nào, kể trường hợp khoảng cách hai cột bảng cách khoảng cách hẹp Kết thực nghiệm cho thấy thuật toán T-Recs++ có khả nhận dạng xác gần hoàn toàn cột có bảng, kể trường hợp khoảng cách cột bảng hẹp Kết thực nghiệm cho thấy độ xác việc nhận dạng cột bảng từ 92% đến 96% 62 Hướng nghiên cứu luận văn nghiên cứu sâu thuật toán để xây dựng chương trình toàn diện xem xét đến ràng buộc nhận dạng khác thực hiện, xây dựng phương pháp xem có tách khối loại hai khỏi khối xem chúng có tạo thành cột bảng hay không, kết hợp với dấu hiệu phân cách đường kẻ, khoảng trắng để tách dòng khối loại hai, xây dựng chương trình thực nghiệm áp dụng ảnh đầu vào ảnh đa cấp xám ảnh màu 63 DANH MỤC CÁC TÀI LIỆU THAM KHẢO Tiếng Việt [1] Ngô Quốc Tạo: “ Bài giảng xử lý ảnh” [2] Đỗ Năng Toàn, Phạm Việt Bình, Giáo trình Xử lý ảnh, Nhà xuất Khoa học Kỹ thuật, Hà Nội 2008 Tiếng Anh [1] Kasturi, O’Gorman, Govindaraju: “Document image analysis: A primer”, 2002 [2] GOBEL, Max, et al ICDAR 2013 Table Competition In: Document Analysis and Recognition (ICDAR), 2013 12th International Conference on IEEE, 2013 p 1449-1453 [3] D B R Zanibbi and J Cordy A survey of table recognition: Models, observations, transformations, and inferences In Int’l J Document Analysis and Recognition, Vol 7, No.1, pages 1–16, 2004 [4] Wilson C L, Geist J, Garris M D, Chellapa R 1996 Design, integration, and evaluation of form-based handprint and OCR ystems Technical Report, NISTIR5932, National Institute of Standards & Technology, US; download from http://www.itl.nist.gov/iad/894.03/pubs.html [5] B Gatos, D Danatsas, I Pratikakis, and S J Perantonis Automatic table detection in document images In Proc Int Conf on Advances in Pattern Recognition, pages 612{621, Path, UK, Aug 2005 [6] Thomas G.Kieninger, “Table Structure Recognition Based On Robust Block Segmentation”, 1998 [7] Faisal Shafait and Ray Smith 2010 Table detection in heterogeneous documents In Proceedings of the 9th IAPR International Workshop on Document Analysis Systems (DAS '10) ACM, New York, NY, USA, 65-72 64 [8] J Hu, R Kashi, D Lopresti, and G Wilfong.Medium-independent table detection In Proc SPIE Document Recognition and Retrieval VII, pages 291– 302, San Jose, CA, USA, Jan 2000 [9] SHAHAB, Asif, et al An open approach towards the benchmarking of table structure recognition systems In: Proceedings of the 9th IAPR International Workshop on Document Analysis Systems ACM, 2010 p 113-120 [10] D Rus and K Summers, “Using White Space for Automated Document Structuring”, Technical Report TR 94-1452, Department of Computer Science, Cornell University, 1994 [11] E Green and M Krishnamoorthy, “Recognition of table using table grammars”, in Proc of the 4-th Symposium on Document Analysis and Information Retrieval – SDAIR95, Las Vegas, Nevada, 1995 [12] T Kieninger and A Dengel Applying the T-RECS table recognition system to the business letter domain In Proc ICDAR’01, pages 518–522, Seattle, WA, USA, Sep 2001 [13] R Smith, “Hybrid Page Layout Analysis via Tab-Stop Detection”, ICDAR’09, pp 241-245, 2009 [14] Y Wang, R Haralick, and I T Phillips Automatic table ground truth generation and a background-analysis-based table structure extraction method In Proc Int Conf on Document Analysis and Recognition, pages 528–532, Seattle, WA, USA, Sep 2001 [15] M A Rahgozar, Z Fan, and E V Rainero, “Tabular document recognition”, in Proc Of the SPIE Conference on Document Recognition, 1994 65 [...]... đây, phương pháp OCR nhận dạng ảnh trong tài liệu phức tạp cũng được Wilson [4] công bố một báo cáo toàn diện trong việc sử dụng và đánh giá phương pháp OCR cho những ứng dụng xử lý biểu mẫu 1.2 Bài toán phát hiện bảng 1.2.1 Mô tả bài toán Phát hiện, phân tích và nhận dạng bảng trong các trang ảnh tài liệu – (document images) là một trong số các vấn đề chính của phân tích và nhận dạng tài liệu Phát hiện. .. nghiên cứu của luận văn này đi sâu về việc phát hiện bảng (detect table) trong ảnh tài liệu Trong các loại văn bản, tài liệu thì đối tượng bảng là thành phần quan trọng trong một trang tài liệu tổng hợp, do đó trước hết việc phân tích sơ đồ trình bày, cấu trúc trang là rất cần thiết để phục vụ cho việc xác định đối tượng bảng biểu Một trang tài liệu tổng hợp thông thường gồm có hai loại đối tượng chính... phân tách cột của trang Hướng tiếp cận khác, phổ biến hơn, phát hiện bảng trong quá trình phân tích trang Khác với hướng tiếp cận trên, việc phát hiện và phân tích cấu trúc bảng độc lập với phân tích trang, hướng tiếp cận này sẽ đặt phát hiện bảng trong mối quan hệ với phân tích trang ảnh tài liệu Trong quá trình phân tích trang, sau khi phát hiện được các cột (column) bằng các kỹ thuật như T-Recs, Whitespace,... TRANG TÀI LIỆU ẢNH VÀ BÀI TOÁN PHÁT HIỆN BẢNG 1.1 Giới thiệu chung một hệ phân tích trang tài liệu và bài toán phát hiện bảng Ảnh tài liệu sau khi được quét và lưu trữ trong máy tính dưới dạng các tệp dữ liệu ảnh, chúng bao gồm các điểm ảnh (pixels) và mô hình giống như lưới các điểm ảnh Một vấn đề đặt ra cho chúng ta là trích chọn ra các thông tin đặc trưng để máy tính có thể nhận biết được các dữ liệu. .. nhận dạng cấu trúc biểu mẫu và văn bản có trong biểu mẫu Trong một số trường hợp người ta cần phải xác định độ nghiêng của tài liệu bởi vì tài liệu được quét có thể bị nghiêng so với bề ngang của trang giấy trong trường hợp tài liệu đó không được đặt đúng khi quét vào từ máy quét 1.1.4.1 Ước lượng độ nghiêng của văn bản Ảnh tài liệu được cho là nghiêng khi phát hiện góc nghiêng khác 0 Một dòng văn bản... kết hợp với việc tham khảo các tài liệu trong nước và thế giới đã có đề cập đến một số cải tiến, một số phương pháp cũng như ý tưởng mới của một số tác giả từng có nhiều cống hiến và thành công trong lĩnh vực nghiên cứu xử lý ảnh Mặc dù đã được nghiên cứu trong nhiều năm nhưng bài toán phát hiện, nhận dạng bảng vẫn là một thách thức lớn Trong nghiên cứu của ICDAR’13 trên tập dữ liệu là các tài liệu. .. ảnh tài liệu trên cơ sở so sánh tính chất song song của các dòng văn bản so với các cạnh của mép trang tài liệu Việc xác định độ nghiêng và điều chỉnh độ nghiêng của tài liệu là một việc làm cần thiết trước khi thực hiện những bước trên Một phương pháp xác định độ nghiêng của tài liệu phổ biến đó là phép chiếu nghiêng Phép chiếu nghiêng là phương pháp tính số lượng điểm ảnh ON (điểm ảnh có giá trị 1 trong. .. hiện bảng là bài toán phát hiện ra các cột, các hàng, các ô có trong bảng Vấn đề này đã được nghiên cứu trong nhiều năm và đã có hàng trăm bài báo khoa học được công bố, đặc biệt trong những năm gần đây được nhiều nhà khoa học quan tâm tập trung nghiên cứu Năm 2013, hội nghị quốc tế hàng đầu 26 về phân tích và nhận dạng tài liệu (ICDAR’13) đã khởi xướng và tổ chức cuộc thi nhận dạng bảng trong tài liệu. .. vào các thực thể trong bảng, các thuộc tính với các giá trị tương ứng và mối quan hệ giữa các thực thể trong bảng (xác định xem bảng mô tả về nội dung gì, cột/hàng chứa nội dung dạng gì,…) Trong đó, phát hiện và phân tích cấu trúc bảng là quan trọng nhưng cũng khó khăn hơn cả, mang tính tổng quát hơn, được tập trung nghiên cứu nhiều hơn Những khó khăn trong nhận dạng bảng là do bản chất bảng là một cấu... thành phần trong bảng [3] Các ứng dụng chủ yếu của phát hiện, nhận dạng bảng là được sử dụng trong các hệ thống nhận dạng ký tự quang học (OCR) như FineReader của ABBYY hay VnDOCR của Viện Công nghệ thông tin… Một số khác được ứng dụng trong các hệ thống nhập liệu tự động (kết hợp với kỹ thuật nhận dạng biểu mẫu) 28 1.2.2 Một số hướng tiếp cận Có rất nhiều hướng tiếp cận khác nhau trong phát hiện và