1. Trang chủ
  2. » Công Nghệ Thông Tin

Tìm hiểu phương pháp phân tích trang tài liệu bằng fractal signaturee

79 321 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 79
Dung lượng 9,03 MB

Nội dung

MỤC LỤC i DANH MỤC CÁC HÌNH ẢNH .iii MỞ ĐẦU II Nội dung nghiên cứu CHƯƠNG I TỔNG QUAN VỀ HỆ THỐNG NHẬN DẠNG CHỮ VIẾT VÀ PHÂN TÍCH TRANG TÀI LIỆU I.1 Ảnh tài liệu nhận dạng ảnh tài liệu .5 I.1.1 Tổng quan ảnh tài liệu I.1.2 Nhận dạng tài liệu vai trò phân tích ảnh tài liệu I.2 Cấu trúc ảnh tài liệu I.2.1 Cấu trúc vật lý I.2.2 Cấu trúc logic 11 I.3 Quá trình phân tích tài liệu .11 I.3.1 Tiền xử lý (preprocessing): .12 I.3.2 Phân tích cấu trúc vật lý 13 I.3.3 Phân tích cấu trúc logic 14 I.4 Một số hệ thống phân tích tài liệu 15 I.4.1 VnDOCR 15 I.4.2 OminiPage .19 I.4.3 Finereader 20 I.5 Kết luận 23 CHƯƠNG II CÁC PHƯƠNG PHÁP TIẾP CẬN ĐỂ PHÂN TÍCH TRANG TÀI LIỆU .24 II.1 Các phương pháp phân tích định dạng trang tài liệu 24 II.1.1 Top-down .24 II.1.3 Phương pháp Tách Nối thích nghi (Adaptive Split – and – Merge) 31 II.1.4 Fractal Signature (FS) 33 II.2 Lựa chọn giải pháp .37 II.3 Thiết kế hệ thống 37 II.3.1 Sơ đồ khối 37 i http://www.ictu.edu.vn II.3.2 Ảnh đầu vào 38 II.3.3 Module Tiền xử lý 39 II.3.3 Module chuyển ảnh sang hệ màu RGB 39 II.3.4 Phân tích lớp màu sử dụng giải pháp Fractal Signature .40 CHƯƠNG III XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM 45 III.1 Yêu cầu hệ thống 45 III.2 Thiết kế chương trình 45 III.2.1 Cấu trúc liệu 45 III.2.2 Module chuẩn hóa ảnh 47 III.2.3 Module giao diện chính: Giao diện thiết kế đơn giản với số chức sau: .49 III.2.4 Module phân tích Top-down (TD) .50 III.2.5 Module phân tích Fractal Signature .53 III.2.6 Module lọc làm trơn nhiễu 56 III.2.7 Module mô thuật toán FS 56 III.2.8 Các hàm chức image processing tool matlab sử dụng chương trình 59 III.3 Kết luận đánh giá kết .62 KẾT LUẬN 74 TÀI LIỆU THAM KHẢO 75 ii http://www.ictu.edu.vn DANH MỤC CÁC HÌNH ẢNH Hình 1: Sơ đồ OCR Hình 2: 11 Hình 3: Sơ đồ nguyên lý hệ thống xử lý tài liệu[6] 12 Hình 4: a - Ảnh gốc b - Ảnh sau tách 13 Hình 5: Ví dụ ảnh tài liệu bị nghiêng góc độ 14 Hình 6: VnDOCR ví dụ nhận dạng 16 Hình 7: Ảnh mẫu có cấu trúc vật lý phức tạp 17 Hình 8: Kết hai vùng ảnh với ảnh mẫu 11 .17 Hình 9: Mẫu ảnh có cấu trúc vật lý phức tạp, khối bao hình chữ nhật .18 Hình 10: Kết phân tích với ảnh 13 19 Hình 11: Đầu phân vùng có vùng văn 20 Hình 12: Đầu có vùng chứa ảnh text 20 Hình 13: Với ảnh 13 đạt hiệu 90% 21 Hình 14 Với ảnh I-15 hiệu đạt 100% 22 Hình 15: Với mẫu phức tạp Finereader cho kết 95% 22 Hình 16: Kết chiếu nghiêng theo phương ngang phương thẳng đứng trang tài liệu 25 Hình 17: Phân tách cột dựa vào phép chiếu nghiêng theo phương ngang 26 Hình 18: Phép chiếu nghiêng theo phương ngang để phân đoạn ký tự từ 26 Hình 19: Lược đồ chiếu ngang dòng chữ nghiêng - khó phân đoạn ký tự 27 Hình 20: Sơ đồ khối hệ thống phân tích tài liệu phạm vi đề tài .38 Hình 21: Ví dụ bolck chuyển sang dạng bề mặt không gian 3D .40 Hình 22: Ví dụ chuyển ảnh chữ "c" sang dạng bề mặt không gian 3D 40 Hình 23: (a) Ảnh tài liệu gốc, (b) kết sau áp dụng FS 44 Hình 24: Giao diện 49 iii http://www.ictu.edu.vn Hình 25: Kết phân tích top-down tài liệu có cấu trúc đơn giản 63 Hình 26: Kết phân tích top-down tài liệu có cấu trúc bảng .64 Hình 27: : Kết phân tích top-down tài liệu văn 65 Hình 28: : Kết phân tích top-down tài liệu có cấu trúc phức tạp (trang tạp chí) 66 Hình 29 : Kết phân tích top-down tờ quảng cáo 67 Hình 30: Kết phân tích top-down tài liệu có cấu trúc phức tạp 68 Hình 31: Kết phân tích top-down tài liệu bị nghiêng 69 Hình 32: Kết phân tích FS tài liệu bị nghiêng .70 Hình 33: Kết phân tích FS tài có cấu trúc phức tạp 71 Hình 34: Kết phân tích FS trang quảng cáo 72 Hình 35: Kết phân tích FS tài liệu đơn giản 73 iv MỞ ĐẦU I Đặt vấn đề Hiện nay, hầu hết tài liệu người số hóa lưu trữ máy tính, việc số hóa đảm bảo tính an toàn thuận tiện hẳn so với sử dụng tài liệu giấy Tuy nhiên việc sử dụng giấy để lưu trữ tài liệu số mục đích thay hoàn toàn (như sách, báo, tạp chí, công văn,…) Hơn nữa, lượng tài liệu tạo từ nhiều năm trước nhiều mà bỏ tính quan trọng chúng Việc chuyển đổi tài liệu điện tử sang tài liệu giấy thực dễ dàng cách in hay fax, công việc ngược lại chuyển từ tài liệu giấy sang tài liệu điện tử lại vấn đề không đơn giản Chúng ta mong muốn điện tử hóa tất tài liệu, sách, báo lưu trữ chúng máy tính, việc tổ chức sử dụng chúng thuận tiện nhiều Vậy giải pháp gì? Công nghệ phát triển cách chóng mặt, máy scan với tốc độ hàng nghìn trang giờ, máy tính với công nghệ xử lí nhanh chóng xác cách siêu việt Vậy không quét trang tài liệu vào xử lý, chuyển chúng thành văn cách tự động? Nhưng vấn đề quét thu trang tài liệu dạng ảnh nên thao tác, sửa chữa, tìm kiếm Office được, máy tính không phân biệt đâu điểm ảnh chữ đâu điểm ảnh đối tượng đồ họa Một giải pháp đưa xây dựng hệ thống nhận dạng chữ ảnh chứa chữ đối tượng đồ họa, sau chuyển thành dạng trang văn mở, soạn thảo trình soạn thảo văn Một cách tổng quát cách thức hoạt động hệ thống nhận dạng chữ sau [5]: Chụp ảnh scan trang tài liệu lưu lại máy tính dạng hình ảnh Phân tích hình ảnh sau quét, đọc ký tự hình ảnh ghi lại vào máy tính theo cách mà máy tính quản lý thông tin liệu - Bước 1: phân tích cấu trúc ảnh tài liệu, từ xác định đâu phần chứa ký tự, đâu phần chứa ảnh lẫn ký tự đâu chứa hình ảnh Bước thực quan trọng cho bước nhận dạng Bởi định vị xác cho việc áp dụng thuật toán nhận dạng lên vùng xác định tính chất, bước xác trước tiên hạn chế thời gian http://www.ictu.edu.vn - cho việc nhận dạng, sau tăng ngữ nghĩa bổ sung cho việc nhận dạng Bước nhận dạng ký tự dựa vào tính chất ký tự, ví dụ xếp theo dòng, khoảng cách từ lớn khoảng cách ký tự, dùng trí tuệ nhân tạo để dự đoán ký tự kề phải nào, từ câu phải để câu có nghĩa Từ có nội dung để lưu trữ, quản lý… Trong thực tế trình nhận dạng trải qua hai bước trên, có nhiều tham số ảnh hưởng đến kết chương trình nhận dạng nhiễu, Font chữ, kích thước chữ, kiểu chữ nghiêng, đậm, gạch Ngoài dòng chữ trộn lẫn với đối tượng đồ họa, trước nhận dạng chữ, số thao tác tiền xử lý tác động lên ảnh như, lọc nhiễu, chỉnh góc nghiêng đặc biệt quan trọng phân tích trang tài liệu để xác định cấu trúc trang văn đồng thời tách biệt hai thành phần chữ đối tượng đồ họa II Nội dung nghiên cứu Mục tiêu nghiên cứu đề tài • Tìm hiểu cấu trúc trang tài liệu (cấu trúc vật lý, logic) • Tìm hiểu số kỹ thuật phân tích trang tài liệu (phân vùng, phân đoạn, …) • Cài đặt thử nghiệm giải pháp phân tích có hiệu cao so với phương pháp truyền thống top-down hay bottom-up ảnh vào ảnh màu có cấu trúc phức tạp nhiễu • Từ kết nghiên cứu có chuẩn bị kiến thức đẩy đủ cho bước nghiên cứu nhận dạng ký tự quang Ý nghĩa khoa học đề tài • Giải vấn đề học thuật: đề tài mang ý nghĩa cung cấp mặt lý thuyết để làm rõ phương pháp phân tích trang tài liệu • Đáp ứng yêu cầu thực tiễn: từ lý thuyết nghiên cứu, từ liên hệ gắn vào thực tiễn để áp dụng vào lĩnh vực như: Số hóa tài liệu, lưu trữ thư viện, điện tử hóa văn phòng, nhận dạng xử lý ảnh, … Nhiệm vụ nghiên cứu http://www.ictu.edu.vn Mục đích luận văn đề cập đến hai phần: • Phần lý thuyết: Nắm rõ trình bày sở lý thuyết liên quan đến cấu trúc trang tài liệu, số kỹ thuật phân tích trang tài liệu, từ có để xác định tính quan trọng bước nhận dạng ký tự, đồng thời hiểu công việc cần làm bước nhận dạng ký tự • Phần phát triển ứng dụng: Áp dụng thuật toán trình bày phần lý thuyết từ lựa chọn giải pháp tối ưu cài đặt thử nghiệm chương trình phân tích trang tài liệu Phương pháp nghiên cứu • Tìm kiếm, tham khảo, tổng hợp tài liệu từ nguồn khác để xây dựng phần lý thuyết cho luận văn • Sử dụng kỹ thuật áp dụng phân tích trang tài liệu để làm rõ chất vấn đề đưa phần lý thuyết • Xây dựng chương trình Demo Phạm vi nghiên cứu Bài toán nhận dạng xử lý ảnh tài liệu phát triển với nhiều thành tựu thực tế, có nhiều thuật toán tối ưu nhà khoa học đề nghị Tuy nhiên nói chưa có chương trình “đọc” ảnh văn người, thực tế có nhiều kiểu trang văn khác nhau, khác cấu trúc trình bày, ngôn ngữ, kiểu font, chữ viết tay,… Đây thực toán lớn, phạm vi luận văn tìm hiểu số kỹ thuật phân tích trang văn tiêu biểu với mục đích để so sánh với thuật toán chưa đưa đề tài trước Cuối cùng, dựa vào để xây dựng Demo cho ứng dụng Các kết nghiên cứu dự kiến cần đạt được: • Tìm hiểu tài liệu liên quan đến lĩnh vực quan tâm để nắm bắt chất vấn đề đặt • Báo cáo lý thuyết • Chương trình Demo III Bố cục luận văn Nội dung luận văn trình bày ba chương với nội dung sau: Chương I: Trình bày khái niệm mô hình tổng quát hệ thống nhận dạng chữ viết, với số phần mềm nhận dạng tiêu biểu http://www.ictu.edu.vn Chương II: Trình bày số phương pháp phân tích trang tài liệu, từ đánh giá ưu nhược điểm để lựa chọn phương pháp Fractal Signature cho chương trình thử nghiệm Trình bày thiết kế cho chương trình demo Chương III: Trình bày chi tiết việc cài đặt chương trình thủ tục sử dụng chương trình với phương pháp phân tích Fractal Signature ảnh đầu vào ảnh màu có độ phức tạp cao nhiễu http://www.ictu.edu.vn CHƯƠNG I TỔNG QUAN VỀ HỆ THỐNG NHẬN DẠNG CHỮ VIẾT VÀ PHÂN TÍCH TRANG TÀI LIỆU Chương đưa khái niệm đối tượng làm việc đề tài ảnh tài liệu, khái niệm cấu trúc vật lý cấu trúc logic Giới thiệu khâu hệ thống nhận dạng chữ viết hoàn chỉnh Đồng thời đưa số phần mềm nhận dạng Việt Nam Thế giới với mẫu kết phân tích nhằm mục đích so sánh xác định phạm vi cho đề tài I.1 Ảnh tài liệu nhận dạng ảnh tài liệu I.1.1 Tổng quan ảnh tài liệu Trang ảnh tài liệu đề cập file ảnh số hoá thu cách quét trang tài liệu dùng máy scanner, chụp từ máy ảnh số, hay nhận từ máy fax (Hình 1), file ảnh lưu giữ máy tính Ảnh tài liệu có nhiều loại: ảnh đen trắng, ảnh màu, ảnh đa cấp xám với phần mở rộng TIF, BMP, PCX, …(Hình 2) ảnh tài liệu đưa luận văn ảnh màu Tài liệu Thiết bị thu nhận ảnh Hình 1: Sơ đồ tổng quan trình tạo ảnh tài liệu Ảnh số tài liệu http://www.ictu.edu.vn Hình 2: Ví dụ ảnh tài liệu I.1.2 Nhận dạng tài liệu vai trò phân tích ảnh tài liệu Ngày nay, máy tính phát triển mạnh mẽ, tốc độ xử lý không ngừng nâng lên Cùng với đời phần mềm thông minh khiến máy tính ngày gần gũi với người Một khả tuyệt vời người mà nhà khoa học máy tính muốn đạt khả nhận dạng lĩnh vực nhận dạng thu nhiều thành công nhận dạng ký tự quang OCR–Optical Character Recognition OCR hiểu trình chuyển đổi tài liệu dạng file ảnh số hoá (là dạng có người đọc được) thành tài liệu dạng file văn (là tài liệu mà người máy đọc được) OCR có nhiều ứng dụng hữu ích sống như: - Sắp xếp thư tín, dựa vào việc nhận dạng mã bưu (Zipcode) hay địa gửi tới - Tự động thu thập liệu từ mẫu đơn/báo biểu hay từ hồ sơ lao động - Hệ thống tự động kiểm tra ngân hàng (tự động xác nhận chữ ký) - Tự động xử lý hóa đơn hay yêu cầu toán - Hệ thống tự động đọc kiểm tra passport - Tự động phục hồi copy tài liệu từ ảnh quét - Máy đọc cho người khiếm thính - Các ứng dụng Datamining - … Sơ đồ hệ thống OCR Hình Trong đó: http://www.ictu.edu.vn Trong đó: - A: Vùng nhớ lưu trữ ảnh - Filename: Tên file cần ghi - Fmt: Định dạng file ảnh đầu  Hàm hiển thị ảnh Cú pháp: imshow(I); %hiển thị ảnh I Trong đó: I: Vùng nhớ chứa ảnh cần hiển thị  Hàm nhân chập: (để thực lọc thông thấp làm trơn nhiễu) Cú pháp: C = conv2(A,B) Nhân chập mặt nạ B với ma trận A kết ma trận C Trong đó: A: Ma trận nguồn B: Mặt nạ chập C: Ma trận kết  Hàm chuyển ảnh từ RGB sang ảnh đa cấp xám Cú pháp: I = rgb2gray(RGB) Chuyển đổi ảnh “RGB” từ hệ mầu Red-Green-Blue sang ảnh đa cấp xám Trong đó: - RGB: ảnh nguồn - I: ảnh kết  Hàm vẽ mặt không gian 3D Cú pháp: surf(X,Y,Z); %vẽ mặt bề mặt không gian X,Y,Z Trong đó: - X: mảng chiều chưa điểm trục x 61 http://www.ictu.edu.vn - Y: mảng chiều chứa điểm trục y - Z: mảng chiều chưa giá trị trục Z mặt phẳng XY III.3 Kết luận đánh giá kết - Chương trình demo xây dựng để làm việc với ảnh màu - Thuật toán Top-Down cài chương trình làm việc hiệu với loại tài liệu có cấu trúc đơn giản, tốc độ thực ổn định (Hình 34, 35, 36) - Đúng nhược điểm Top-down nói chương 2, top-down hiệu với loại tài liệu có cấu trúc phức tạp hay bị nghiêng (Hình 37, 38, 39, 40) - Thuật toán Fractal Signature đặc biệt hiệu với tài liệu có cấu trúc phức tạp, không phân biệt hướng tài liệu, với tài liệu bị nghiêng FS khoanh vùng xác vùng Text đồ họa (Hình 41, 42, 43, 44) - Nhược điểm FS chương trình chưa giải tốc độ làm việc chậm thuật toán khoanh vùng làm việc hiệu chưa cao - Một số yếu tố ảnh hưởng đến hiệu FS việc chọn kích thước Block, chọn Block phải hợp lý tốt ba đủ ký tự kết phân tích cao Tuy nhiên với loại trang có nhiều loại size chữ điều khó khả thi 62 http://www.ictu.edu.vn Hình 25: Kết phân tích top-down tài liệu có cấu trúc đơn giản 63 http://www.ictu.edu.vn Hình 26: Kết phân tích top-down tài liệu có cấu trúc bảng 64 http://www.ictu.edu.vn Hình 27: : Kết phân tích top-down tài liệu văn 65 http://www.ictu.edu.vn Hình 28: : Kết phân tích top-down tài liệu có cấu trúc phức tạp (trang tạp chí) 66 http://www.ictu.edu.vn Hình 29 : Kết phân tích top-down tờ quảng cáo 67 http://www.ictu.edu.vn Hình 30: Kết phân tích top-down tài liệu có cấu trúc phức tạp 68 http://www.ictu.edu.vn Hình 31: Kết phân tích top-down tài liệu bị nghiêng 69 http://www.ictu.edu.vn Hình 32: Kết phân tích FS tài liệu bị nghiêng 70 http://www.ictu.edu.vn Hình 33: Kết phân tích FS tài có cấu trúc phức tạp 71 http://www.ictu.edu.vn Hình 34: Kết phân tích FS trang quảng cáo 72 http://www.ictu.edu.vn Hình 35: Kết phân tích FS tài liệu đơn giản 73 http://www.ictu.edu.vn KẾT LUẬN Qua nhiều mẫu ảnh phân tích cho thấy thuật toán FS làm việc hiệu nhiệm vụ phát vùng văn hay vùng đồ họa, tỉ lệ gần tương ứng với phần mềm ABBYY FineReader 9.0, hẳn OminiPage, VNDocr Đặc biệt chương trình cài đặt để làm việc thành công với ảnh đầu vào ảnh màu có độ phức tạp cao Thuật toán FS thuật toán hay không phụ thuộc vào font chữ, nhiên giới hạn đề tài chưa trình bày cài đặt hoàn thiện Chương trình thử nghiệm phân tích định dạng trang ảnh tài liệu thô sơ, chủ yếu dùng để mô tả cho phần lý thuyết phân tích định dạng trang ảnh tài liệu Chương trình phân tích trang ảnh tài liệu phải điều chỉnh tay kết thật khả quan Để đưa chương trình áp dụng thực tế phải qua đoạn đường dài nữa, nhiên với kết công đoạn trình “lưu trữ thông tin tài liệu giấy theo cách máy tính hiểu xử lý được” công đoạn nhận dạng chữ sau dễ dàng nhiều Hướng phát triển đề tài: - Cải tiến thuật toán FS chạy nhanh - Phát triển tiếp module nhận dạng ký tự - Tích hợp thành phần mềm hoàn chỉnh 74 http://www.ictu.edu.vn TÀI LIỆU THAM KHẢO Tiếng việt [2] Lương Mạnh Bá, Ngô Thanh Thủy(1999) Nhập môn xử lý ảnh số : Nhà xuất khoa học kỹ thuật, Hà Nội Chương 4, Tr 83-87 [8] PGS TS Ngô Quốc Tạo (2008) Xử lý nhận dạng ảnh : Bài giảng cao học, Viện Công nghệ Thông tin Hà Nội Tiếng Anh [6].Anoop M Namboodiri and Anil K Jain, Document Structure and Layout Analysis, Michigan State University, East Lansing, MI-48824, USA, pp 31-34, 38-41 [7].Jiming Lui, Yuan Y Tang, Ching Y Suen (1997), Chinese document layout analysic based on adaptive Split-and-Merge and qualitation spatial reasoning, Elsevier Science, Oxford, ROYAUME-UNI, pp 4-9 [3].MathWorks (1997), Image Processing Toolbox User’s Guide MathWorks, 1997 [5] Sadhana (2002), Document image analysis: A primer, India, pp 3-7 [4].TANG, Yuan Y (2000), Documnet analysis and recogniton by computers Handbook of Pattern recognition and computer vision, World Scientific Company, pp 1-15 [1].Yuan Y Tang, Hong Mat, Xiaogang Maot, Dan Liu and Ching Y Suen (1997), A New Approach to Document Analysis Based on Modified Fractal Signature, Washington, DC, USA : IEEE Computer Society 75 ... PHƯƠNG PHÁP TIẾP CẬN ĐỂ PHÂN TÍCH TRANG TÀI LIỆU Với phạm vi đặt chương phần mở đầu đề tài tập trung vào giải pháp phân tích cấu trúc vật lý trang tài liệu, chương giới thiệu số phương pháp phân. .. trang tài liệu (cấu trúc vật lý, logic) • Tìm hiểu số kỹ thuật phân tích trang tài liệu (phân vùng, phân đoạn, …) • Cài đặt thử nghiệm giải pháp phân tích có hiệu cao so với phương pháp truyền... sánh xác định phạm vi cho đề tài I.1 Ảnh tài liệu nhận dạng ảnh tài liệu I.1.1 Tổng quan ảnh tài liệu Trang ảnh tài liệu đề cập file ảnh số hoá thu cách quét trang tài liệu dùng máy scanner, chụp

Ngày đăng: 16/04/2017, 17:30

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w