Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 83 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
83
Dung lượng
10,94 MB
Nội dung
Luận văn tốt nghiệp: Nghiêncứuphươngphápphântíchtrangtàiliệuảnh MỤC LỤC MỤC LỤC 1 LỜI CẢM ƠN .3 DANH MỤC HÌNH ẢNH 4 MỞ ĐẦU .7 CHƯƠNG 1 TỔNG QUAN PHÂNTÍCHTRANGTÀILIỆUẢNH 9 1.1. Khái niệm 9 1.2. Cấu trúc vật lý cấu trúc logic ảnhtàiliệu 10 1.3. Tiền xử lý 11 1.3.1. Lọc nhiễu (noise romaval): 11 1.3.2. Tách (Background separation): 12 1.3.3. Xác định góc nghiêng 12 1.4. Cấu trúc tàiliệu 14 1.5. Hệ thống phântíchtàiliệuảnh 17 CHƯƠNG CÁC PHƯƠNGPHÁPPHÂNTÍCHTRANGTÀILIỆUẢNH 27 2.1. Top-Down 27 2.1.1. Tổng quan 27 2.1.2. Module phântích Top-down .29 2.1.3. Nhược điểm .32 2.2. Bottom-up 33 2.2.1. Tổng quan 33 2.2.2. Nhược điểm .36 2.3. Phươngpháp Tách Nối thích nghi (Adaptive Split – and – Merge) 36 2.3.1. Tổng quan 36 2.3.2. Ưu điểm .38 2.3.3. Nhược điểm .38 2.4. Fractal Signature (FS) .39 2.4.1. Tổng quan 39 Học viên: Lê Đức Thuận GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp: Nghiêncứuphươngphápphântíchtrangtàiliệuảnh 2.4.2. Phântích Fractal Signature 43 2.4.3. Mô thuật toán FS 46 2.4.4. Ưu điểm .47 2.4.5. Nhược điểm .48 CHƯƠNG CHƯƠNG TRÌNH DEMO PHÂNTÍCHTRANGTÀILIỆUẢNH 49 3.1 Thiết kế chương trình 49 3.2. Thiết kế hệ thống .50 3.2.1. Sơ đồ khối 50 3.2.2. Ảnh đầu vào .50 3.2.3. Module Tiền xử lý .51 3.2.4 Module chuẩn hóa ảnh 52 3.2.5 Module lọc làm trơn nhiễu 54 3.3 Chương trình 55 3.3.1 Cấu trúc tàiliệuảnh .55 3.3.2 Giao diện 57 KẾT LUẬN .82 TÀILIỆU THAM KHẢO 83 Học viên: Lê Đức Thuận GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp: Nghiêncứuphươngphápphântíchtrangtàiliệuảnh LỜI CẢM ƠN Tôi xin gửi lời cảm ơn đến thầy cô Viện toán ứng dụng tin học, Viện đào tạo sau đại học – Đại học Bách Khoa Hà Nội tổ chức đạo giảng dạy khóa cao học Tôi xin gửi lời cảm ơn sâu sắc đến thầy giáo hướng dẫn PGS TS Ngô Quốc Tạo dẫn khoa học tận tình hướng dẫn cho suốt trình làm luận văn Nếu quan tâm giúp đỡ thầy khó hoàn thành luận văn Tôi xin cảm ơn lãnh đạo khoa Công nghệ thông tin, lãnh đạo Học viện kỹ thuật mật mã – Trường học viện kỹ thuật mật mã nơi công tác, tạo điều kiện cho thời gian hoàn thành hoàn thành môn học thời gian làm luận văn tốt nghiệp Cuối xin cảm ơn gia đình, bạn bè, đồng nghiệp ủng hộ, động viên Xin chân thành cảm ơn! LÊ ĐỨC THUẬN Học viên: Lê Đức Thuận GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp: Nghiêncứuphươngphápphântíchtrangtàiliệuảnh DANH MỤC HÌNH ẢNH Hình – Tàiliệuảnh có cấu trúc phức tạp…………………………………… ….9 Hình – Sơ đồ nguyên lý hệ thống xử lý tài liệu……………………………… 11 Hình – (a): ảnh gốc; (b): ảnh sau tách nền……………………… ………….12 Hình – Một ảnhtàiliệu bị nghiêng………………………………….……….… 13 Hình – Sơ đồ OCR …………………….……… ……………………….15 Hình – Cây mô tả cấu trúc logic trangtàiliệu …………………………17 Hình - Ví dụ nhận dạng VnDocr ………………………………………… 18 Hình - Ảnh đầu vào có cấu trúc đơn giản………………………….….…………19 Hình - Kết Vndocr với ảnh đầu vào hình 8……………… ………20 Hình 10 - Ảnh có cấu trúc vật lý phân khối rõ ràng ……….……… …21 Hình 11 - Vndocr nhận dạng vào ảnh đầu vào hình 10 …………………….….22 Hình 12 - Đầu phân vùng có vùng văn bản……………………………….23 Hình 13 - Ommipage đoán nhận sai vùng văn ….……………………… 24 Hình 14 - Ảnh sau phântích finereader đạt hiệu cao …………… 25 Hình 15 - Finereader phân vùng vùng văn ảnh …………… 25 Hình 16 – Kết chiếu nghiêng theo phương ngang đứng tài liệu……….28 Hình 17- Phân tách cột dựa vào phép chiếu nghiêng theo phương ngang…………29 Hình 18 – Lược đồ chiếu đứng trangtàiliệu bị nghiêng………………………32 Hình 19 – Lược đồ chiếu đứng báo………………………………… 33 Học viên: Lê Đức Thuận GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp: Nghiêncứuphươngphápphântíchtrangtàiliệuảnh Hình 20 – Phươngpháp Dostrum cho phântích định dạng từ lên………… 35 Hình 21 – Mô tả thuật toán tách nối thích nghi…………………………………37 Hình 22 – Mô tả thuật toán FS ………………………………………… ……… 39 Hình 23 – Sơ đồ khối hệ thống phântíchtàiliệu ảnh………………….…………50 Hình 24 – Một khối chuyển sang bề mặt không gian ………………………… …51 Hình 25 – Chuyển ảnh chữ "c" sang bề mặt không gian 3D……………………….52 Hình 26 – Chuyển ảnh đầu vào thành ma trận điểm ảnh …………………………55 Hình 27 – Giao diện chính…………………………………………………………57 Hình 28 – Kết phântích Top-down tàiliệu văn .65 Hình 29 – Phântích Top-down tàiliệu có câu trúc đơn giản ……………… 66 Hình 30- Phântích Top-down văn có phức tạp … …………………67 Hình 31 – Phântích Top-down tàiliệutàiliệu nghiêng …………….……… 68 Hình 32 – Phântích Top-down tàiliệu nghiêng phức tạp ……………… ….69 Hình 33 – Phântích Top-down tàiliệu có cấu trúc phức tạp ……………… 70 Hình 34 – Phântích Top-down tờ rơi quảng cáo …………………… ………71 Hình 35- Phântích Top-Down tàiliệu có cấu trúc phức tạp …………… .72 Hình 36 – Kết phântích Top-down tàiliệu văn .73 Hình 37 – Phântích Top-down tàiliệu có câu trúc đơn giản ……………… 74 Hình 38 - Phântích Top-down văn có phức tạp … ……… ………75 Hình 39 – Phântích Top-down tàiliệutàiliệu nghiêng …………….……… 76 Học viên: Lê Đức Thuận GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp: Nghiêncứuphươngphápphântíchtrangtàiliệuảnh Hình 40 – Phântích Top-down tàiliệu nghiêng phức tạp ……………… ….77 Hình 41 – Phântích Top-down tàiliệu có cấu trúc phức tạp ……………… 78 Hình 42 – Phântích Top-down tờ rơi quảng cáo …………………… ………79 Hình 43- Phântích Top-Down tàiliệu có cấu trúc phức tạp …………… .80 Học viên: Lê Đức Thuận GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp: Nghiêncứuphươngphápphântíchtrangtàiliệuảnh MỞ ĐẦU Trước có bùng nộ máy tính, tất lĩnh vực muốn lưu trữ liệu cá nhân, quan, công ty… người ta phải lưu trữ liệu dạng văn viết tay, báo, hay sách Những hồ sơ lưu trữ tồn kho lưu trữ năm, năm, năm, 10 năm lâu đến tổ chức nhận thấy không quan trọng tiêu hủy Kho lưu trữ tổ chức ngày nhiều tài liệu, để tìm kiếm tàiliệu mà thân cần tới phải nhiều thời gian tra cứu Khi tìm thấy tàiliệu cần thiết phải chép lại phần cần dùng tàiliệu Mặt khác, tàiliệu để lâu dẫn tới tượng chữ mờ, nhòe, hay trang giấy bị nhàu nát, rách… gây khó khăn cho người tìm kiếm Khi máy tính bùng nổ nhanh chóng vào lĩnh vực sống giúp ích cho người, trở thành dụng cụ thiếu thời buổi thông tin Lợi ích máy tính việc lưu trữ phủ nhận, lưu trữ ngàn, tỉ tài liệu, từ tổ chức bé tới lớn với kích thước nhỏ gọn Chính điều khiến cho kho lưu trữ tổ chức giảm nhẹ cách đáng kể so với trước Một vấn đề người quan tâm để chuyển gần toàn liệu quan, tổ chức kho lưu trữ vào máy tính? Điều phần giải thông qua việc thuê nhân lực để gõ toàn liệu vào Việc làm dẫn đến quan tổ chức phải trả số tiền không nhỏ cho việc nhập liệu, mặt khác trình nhập liệu ta kiểm soát hết xem người nhập liệu có nhập hay không Thêm nữa, có văn có chữ ký văn viết tay hay văn có hình ảnh người nhập liệu nhập vào máy tính (ta gọi văn dạng số) Vậy có cách để thực điều nhanh hơn, xác hơn, đỡ tốn tiền hơn? Học viên: Lê Đức Thuận GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp: Nghiêncứuphươngphápphântíchtrangtàiliệuảnh Bài toán tối ưu chưa có lời giải triệt để, hướng xử lý có Đó biến tàiliệu lưu trữ kho thành file ảnh số máy tính (điều làm thông qua máy scan) Nhiệm vụ quan trọng để từ file ảnh số ta xử lý thông tin phần mềm có office, open office… Xuất phát từ thực tế đó, lựa chọn đề tài "Nghiên cứuphươngphápphântíchtrangtàiliệu ảnh" Mục đích đề tài hệ thống hóa kiến thức phươngphápphântíchtrangtàiliệuảnh để đưa nhận xét, so sánh, đánh giá phươngphápphântíchtrangtàiliệuảnh Qua có nhìn tổng quát phươngpháp Luận văn chia làm phần với nội dung sau: Chương 1: Nêu khái niệm cấu trúc trangtàiliệuảnh toán liên quan Các chương trình phântíchtrangtàiliệuảnh nước giới Chương 2: Trình bày phươngphápphântíchtrangtàiliệu ảnh, từ có sở để so sánh xem phươngpháp có ưu điểm, nhược điểm nhiều Chương 3: Demo chương trình phântíchtrangtàiliệuảnh thuật toán Topdown Fractal Signature với ảnh đầu vào đa cấp xám Do thời gian hạn hẹp trình nghiêncứu vấn đề khoa học để đến kết khó khăn nhiều thách thức Do luận văn có nhiều điểm thiếu sót Rất mong nhận ý kiến đóng góp thầy cô, đồng nghiệp, bạn bè để hoàn thiện tương lai Học viên Lê Đức Thuận Học viên: Lê Đức Thuận GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp: Nghiêncứuphươngphápphântíchtrangtàiliệuảnh CHƯƠNG TỔNG QUAN PHÂNTÍCHTRANGTÀILIỆUẢNH 1.1 Khái niệm Một ảnhtàiliệu bao gồm nhiều thực thể vật lý vùng khối văn bản, dòng, từ, hình, bảng Ảnhtàiliệu có nhãn chức câu, tiêu đề, thích, … Ảnhtàiliệu tạo từ tàiliệu vật lý cách số hóa dùng máy quét máy ảnh kỹ thuật số Nhiều văn báo, tạp chí tàiliều quảng cáo có chứa cấu trúc phức tạp vị trí hình, tiêu đề, , định dạng văn bản… Hình - Tàiliệuảnh có cấu trúc phức tạp Một người đọc sử dụng dấu hiệu để thêm vào thông tin bối cảnh, thông tin ngôn ngữ/ kịch bản, với trình lý luận phức tạp để giải Học viên: Lê Đức Thuận GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp: Nghiêncứuphươngphápphântíchtrangtàiliệuảnh mã nội dung tàiliệuPhântíchtàiliệu tự động với tàiliệu phức tạp nhiệm vụ vô khó khăn 1.2 Cấu trúc vật lý cấu trúc logic ảnhtàiliệu Sự xắp xếp vật lý trangtàiliệu đề cập đến ranh giới vật lý biên khu vực ảnhtàiliệu Quá trình phântích bố trí tàiliệu nhằm mục đích để phân tách hình ảnhtàiliệu vào khu vực đồng nhất, ảnh, hình nền, khối văn bản, dòng văn bản, từ, ký tự … Các thuật toán để phântíchphân loại chủ yếu dựa vào ba nhóm tiếp cận: - Bottom-up: Bắt đầu từ phần tử nhỏ (từ pixel hay phần tử liên thông) sau liên tục nhóm chúng lại thành vùng lớn - Top-down: Bắt đầu từ vùng lớn chức trangtàiliệu sau liên tục phân chia thành vùng nhỏ - Các thuật toán không theo thứ bậc: Fractal Signature, Adaptive split-andmerge … Ngoài cấu trúc vật lý, trangtàiliệu chứa đựng nhiều thông tin ngữ cảnh nội dung tiêu đề, đoạn văn, đề mục,… vùng nội dung lại gán nhãn logic hay nhãn theo chức tương ứng, khác biệt hoàn toàn nhãn cấu trúc vật lý Hầu hết tàiliệu có quy tắc đọc để hiểu hết nội dung tàiliệu Với số ngôn ngữ đặc biệt tiếng trung, tiếng nhật, tiếng Ả rập lại có quy đọc khác biệt (Từ trái qua phải) Tập hợp tất yếu tố logic chức tàiliệu mối quan hệ chúng gọi cấu trúc logic tàiliệu Các phântích cấu hợp lý tàiliệu thường thực kết giai đoạn phântích Tuy nhiên nhiều văn phức tạp, việc phântích yêu cầu số thông tin hợp lý vùng để thực phân đoạn xác Hầu hết ảnhtàiliệu có nhiễu trình thu nhận ảnh gây (môi trường, chất lượng máy quét), trình xây dựng thuật toán phân Học viên: Lê Đức Thuận 10 GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp: Nghiêncứuphươngphápphântíchtrangtàiliệuảnh Hình 32 – Phântích Top-down tàiliệu nghiêng phức tạp Học viên: Lê Đức Thuận 69 GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp: Nghiêncứuphươngphápphântíchtrangtàiliệuảnh Hình 33 – Phântích Top-down tàiliệu có cấu trúc phức tạp Học viên: Lê Đức Thuận 70 GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp: Nghiêncứuphươngphápphântíchtrangtàiliệuảnh Hình 34 – Phântích Top-down tờ rơi quảng cáo Học viên: Lê Đức Thuận 71 GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp: Nghiêncứuphươngphápphântíchtrangtàiliệuảnh Hình 35 – Phântích Top-Down tàiliệu có cấu trúc phức tạp Học viên: Lê Đức Thuận 72 GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp: Nghiêncứuphươngphápphântíchtrangtàiliệuảnh Hình 36- Kết phântích FS tàiliệu có cấu trúc văn Học viên: Lê Đức Thuận 73 GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp: Nghiêncứuphươngphápphântíchtrangtàiliệuảnh Hình 37 - Phântích FS tàiliệu có câu trúc đơn giản Học viên: Lê Đức Thuận 74 GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp: Nghiêncứuphươngphápphântíchtrangtàiliệuảnh Hình 38 – Phântích FS văn có phức tạp Học viên: Lê Đức Thuận 75 GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp: Nghiêncứuphươngphápphântíchtrangtàiliệuảnh Hình 39 – Phântích FS tàiliệutàiliệu nghiêng Học viên: Lê Đức Thuận 76 GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp: Nghiêncứuphươngphápphântíchtrangtàiliệuảnh Hình 40 – Phântích FS tàiliệu nghiêng phức tạp Học viên: Lê Đức Thuận 77 GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp: Nghiêncứuphươngphápphântíchtrangtàiliệuảnh Hình 41 – Phântích FS tàiliệu có cấu trúc phức tạp Học viên: Lê Đức Thuận 78 GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp: Nghiêncứuphươngphápphântíchtrangtàiliệuảnh Hình 42 - Phântích FS tờ rơi quảng cáo Học viên: Lê Đức Thuận 79 GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp: Nghiêncứuphươngphápphântíchtrangtàiliệuảnh Hình 43 – Phântích FS hình có cấu trúc phức tạp Học viên: Lê Đức Thuận 80 GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp: Nghiêncứuphươngphápphântíchtrangtàiliệuảnh => Kết luận đánh giá - Chương trình demo xây dựng để làm việc với ảnh đa cấp xám - Thuật toán Top-down cài chương trình làm việc hiệu với loại tàiliệu có cấu trúc đơn giản, tốc độ thực ổn định - Top-down hiệu với loại tàiliệu có cấu trúc phức tạp hay bị nghiêng - Thuật toán Fractal Signature đặc biệt hiệu với tàiliệu có cấu trúc phức tạp, không phân biệt hướng tài liệu, với tàiliệu bị nghiêng FS khoanh vùng xác vùng Text đồ họa - Nhược điểm FS chương trình chưa giải tốc độ làm việc chậm thuật toán khoanh vùng làm việc hiệu chưa cao - Một số yếu tố ảnh hưởng đến hiệu FS làm việc chọn kích thước block, chọn block phải hợp lý tốt bao đủ ký tự kết phântích cao Tuy nhiên với loại trangtàiliệu nhiều loại size chữ điều khó khả thi Học viên: Lê Đức Thuận 81 GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp: Nghiêncứuphươngphápphântíchtrangtàiliệuảnh KẾT LUẬN Qua việc phântíchphươngpháp tiếp cận trangtàiliệuảnh để nắm ưu, nhược điểm phươngpháp thông qua thực tế sử dụng phần mềm có thị trường thấy chưa có sản phẩm thực tốt, hoàn thiện để phântíchtrangtàiliệuảnh Sẽ nhiều năm có sản phẩm hoàn chỉnh phântíchtrangtàiliệuảnh mẻ đầu tư chưa lớn Đặc biệt với Việt Nam chưa có nhiều viết, báo cáo nghiêncứutrangtàiliệuảnh Qua mẫu ảnhphântích thuật toán Top-down thuật toán FS ta thấy thuật toán FS làm việc hiệu phát vùng văn hay vùng đồ họa Tỉ lệ phát phần mềm ABBYY FineReader 11 VNDocr Chương trình làm việc với ảnh đa cấp xám có độ phức tạp cao Do thời gian hạn hẹp nên chương trình viết hạn chế nhiều, dừng lại mở mức mô phỏng, thử nghiệm phục vụ cho vấn đề nghiêncứu lý thuyết phântíchtrangtàiliệu Nhưng bước tiền đề để phát triển phântíchtrangtàiliệu tương lai Hướng phát triển đề tài: - Thuật toán phântích với ảnh màu - Phântích lúc nhiều trangtàiliệu - Có thể chiết xuất trangtàiliệuphântích sang file *.doc, *.docx, *.xls, … - Cải tiến thuật toán để thuật toán chạy nhanh Cải tiến giao diện để gần gũi với người dùng - Phát triển module nhận dạng ký tự chương trình Học viên: Lê Đức Thuận 82 GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp: NghiêncứuphươngphápphântíchtrangtàiliệuảnhTÀILIỆU THAM KHẢO Tiếng việt PGS TS Ngô Quốc Tạo (2008), Xử lý nhận dạng ảnh : Bài giảng cao học, Viện công nghệ thông tin – Hà nội Lương Mạnh Bá, Ngô Thanh Thủy (2009), Nhập môn xử lý ảnh số, Nhà xuất khoa học kỹ thuật – Hà Nội Chương 4, Tr 83-87 Tiếng Anh Anoop M Namboodiri and Anil K.Jain: Document Structure and Layout Analysis – Michigan State University, East Lansing, MI-48824, USA, pp 31-34, 38-41 Math Works (1997), Image Processing Toolbox user's Guide, Math Wokrs Tang, Yuan Y (2000), Document analysis and recogniton by computer Handbook of Pattern recognition and computer vision – World Scientific Company, pp 1-15 Yuan Y Tang, Hong Mat, Xiaogang Maot, Dan Liu and Ching Y.Suen (1997), A New Approach to Document Analysis Based on Modified Signature, Washington, DC, USA: IEEE Computer Society Học viên: Lê Đức Thuận 83 GVHD: PGS TS Ngô Quốc Tạo ... nghiệp: Nghiên cứu phương pháp phân tích trang tài liệu ảnh mã nội dung tài liệu Phân tích tài liệu tự động với tài liệu phức tạp nhiệm vụ vô khó khăn 1.2 Cấu trúc vật lý cấu trúc logic ảnh tài liệu. .. phân tích trang tài liệu ảnh Kết luận Thông qua kết phân tích với chương trình phân tích trang tài liệu ảnh có nước giới đề tài này, chủ tìm hiểu phương pháp phân tích trang tài liệu ảnh Từ xây... trúc trang tài liệu ảnh toán liên quan Các chương trình phân tích trang tài liệu ảnh nước giới Chương 2: Trình bày phương pháp phân tích trang tài liệu ảnh, từ có sở để so sánh xem phương pháp