phương pháp truyền thống như top-down hay bottom-up trên ảnh vào là ảnh đa cấp xám có cấu trúc phức tạp

105 1.4K 1
phương pháp truyền thống như top-down hay bottom-up trên  ảnh vào là  ảnh đa cấp xám có cấu trúc phức tạp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

phương pháp truyền thống như top-down hay bottom-up trên ảnh vào là ảnh đa cấp xám có cấu trúc phức tạp

Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn i GVHD: PGS. TS. Ngô Quốc Tạo Mục lục Mục lục i Danh mục các hình ảnh iv MỞ ĐẦU 1 I. Đặt vấn đề 1 II. Nội dung nghiên cứu . 2 III. Bố cục của luận văn . 4 Chƣơng I. TỔNG QUAN VỀ NHẬN DẠNG CHỮ VIẾT . 5 VÀ PHÂN TÍCH TRANG TÀI LIỆU . 5 I.1. Ảnh tài liệu và nhận dạng ảnh tài liệu 5 I.1.1. Tổng quan về ảnh tài liệu 5 I.1.2. Nhận dạng tài liệu và vai trò của phân tích ảnh tài liệu . 6 I.2. Cấu trúc của ảnh tài liệu 7 I.2.1. Cấu trúc vật lý 8 I.2.2. Cấu trúc logic . 10 I.3. Quá trình phân tích tài liệu 10 I.3.1. Tiền xử lý(preprocessing): 11 I.3.2. Phân tích cấu trúc vật lý 12 I.3.3. Phân tích cấu trúc logic . 13 I.4. Một số hệ thống phân tích tài liệu hiện nay 14 I.4.1. VnDOCR 14 I.4.2. OminiPage 18 I.4.3. Finereader . 20 I.5. Kết luận . 22 Chƣơng II: CÁC PHƢƠNG PHÁP TIẾP CẬN . 23 ĐỂ PHÂN TÍCH TRANG TÀI LIỆU 23 II.1. Các phƣơng pháp phân tích định dạng trang tài liệu . 23 II.1.1. Top-down 23 Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii GVHD: PGS. TS. Ngô Quốc Tạo II.1.2. Bottom-up . 30 II.1.3. Phƣơng pháp Tách và Nối thích nghi (Adaptive Split – and – Merge) . 32 II.1.4. Fractal Signature (FS) 34 II.2. Lựa chọn giải pháp . 38 II.3. Thiết kế hệ thống 39 II.3.1. Sơ đồ khối . 39 II.3.2. Ảnh đầu vào 39 II.3.3. Module Tiền xử lý . 40 II.3.4. Phân tích sử dụng giả pháp Fractal Signature 41 II.4. Kết luận . 45 Chƣơng III: XÂY DỰNG CHƢƠNG TRÌNH THỬ NGHIỆM 46 III.1. Yêu cầu hệ thống . 46 III.2. Thiết kế chƣơng trình 46 III.2.1. Cấu trúc dữ liệu 46 III.2.2. Module chuẩn hóa ảnh . 48 III.2.3. Module giao diện chính 51 III.2.4. Module phân tích Top-down (TD) 52 III.2.5. Module phân tích Fractal Signature 55 III.2.6. Module lọc và làm trơn nhiễu . 57 III.2.7. Module mô phỏng thuật toán FS 58 III.2.8. Các hàm chức năng chính của image processing tool trong matlab sử dụng trong chƣơng trình 60 III.3. Kết luận và đánh giá kết quả . 62 Kết luận . 83 TÀI LIỆU THAM KHẢO . 84 Phục Lục . 85 A. Mã nguồn đầy đủ của chƣơng trình . 85 A.1. Danh mục các chƣơng trình con trong chƣơng trình . 85 A.2. Sơ khối liên kết giữa các thủ tục trong chƣơng trình . 86 Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii GVHD: PGS. TS. Ngô Quốc Tạo A.3. Mã nguồn các module 86 Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iv GVHD: PGS. TS. Ngô Quốc Tạo Danh mục các hình ảnh Hình 1: Sơ đồ tổng quan quá trình tạo ảnh tài liệu . 5 Hình 2: Ví dụ ảnh tài liệu 6 Hình 3: Sơ đồ OCR bản 7 Hình 4: b-Cấu trúc vật lý: c,d-Cấu trúc logic của một tài liệu[4] 9 Hình 5: Ví dụ loại tài liệu bố cục phức tap 10 Hình 6: Sơ đồ nguyên lý hệ thống xử lý tài liệu[6] 11 Hình 7: a - Ảnh gốc b - Ảnh sau khi tách nền 12 Hình 8: Ví dụ một ảnh tài liệu bị nghiêng một góc 5 độ . 13 Hình 9: Ví dụ một cây mô tả cấu trúc logic của một trang tài liệu[5] . 14 Hình 10: VnDOCR và một ví dụ nhận dạng 15 Hình 11: Ảnh mẫu cấu trúc vật lý phức tạp . 16 Hình 12: Kết quả ra hai vùng ảnh với ảnh mẫu 11 . 16 Hình 13: Mẫu ảnh cấu trúc vật lý phức tạp, nhƣng các khối bao bởi hình chữ nhật 17 Hình 14: Kết quả phân tích với ảnh 13 . 18 Hình 15: Đầu ra phân vùng chỉ 1 vùng văn bản . 19 Hình 16: Đầu ra vùng chứa cả ảnh và text . 19 Hình 17: Với ảnh 13 đạt hiệu quả 90% 20 Hình 18 Với ảnh I-15 hiệu quả đạt 100% . 21 Hình 19: Với mẫu phức tạp hơn Finereader cho kết quả 95% 22 Hình 20: Kết quả chiếu nghiêng theo phƣơng ngang và phƣơng thẳng đứng của một trang tài liệu 24 Hình 21: Phân tách cột dựa vào phép chiếu nghiêng theo phƣơng ngang . 25 Hình 22: Phép chiếu nghiêng theo phƣơng ngang để phân đoạn ký tự hoặc từ . 26 Hình 23: Lƣợc đồ chiếu ngang của một dòng chữ nghiêng - rất khó phân đoạn ký tự 27 Hình 24: Lƣợc đồ chiếu đứng của trang tài liệu bị nghiêng 28 Hình 25: Lƣợc đồ chiếu đứng của một bài báo . 29 Hình 26: Phƣơng pháp Dostrum cho phân tích định dạng trang từ dƣới lên. (a) Một phần của nội dung văn bản gốc. (b) Các thành phần lân cận gần nhất đƣợc xác định. Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn v GVHD: PGS. TS. Ngô Quốc Tạo (c) Các hình chữ nhật tối thiểu tạo nên nhóm láng giềng gần nhất từ đó xác định đƣợc dòng văn bản. . 31 Hình 27: Mô tả thuật toán Tách và Nối thích nghi . 33 Hình 28: Mô tả thuật toán FS . 35 Hình 29: Sơ đồ khối hệ thống phân tích tài liệu trong phạm vi đề tài . 39 Hình 30: Ví dụ một bolck chuyển sang dạng bề mặt trong không gian 3D . 41 Hình 31: Ví dụ chuyển ảnh chữ "c" sang dạng bề mặt trong không gian 3D . 41 Hình 32: (a) Ảnh một tài liệu gốc, (b) kết quả sau khi áp dụng FS . 44 Hình 33: Giao diện chính . 51 Hình 34: Kết quả phân tích của top-down trên tài liệu cấu trúc đơn giản . 63 Hình 35: Kết quả phân tích của top-down trên tài liệu cấu trúc bảng . 65 Hình 36: : Kết quả phân tích của top-down trên tài liệu thuần văn bản . 67 Hình 37: : Kết quả phân tích của top-down trên tài liệu cấu trúc phức tạp (trang tạp trí) 69 Hình 38 : Kết quả phân tích của top-down trên một tờ quảng cáo 71 Hình 39: Kết quả phân tích của top-down trên tài liệu cấu trúc phức tạp . 73 Hình 40: Kết quả phân tích của top-down trên tài liệu bị nghiêng . 75 Hình 41: Kết quả phân tích của FS trên tài liệu bị nghiêng 77 Hình 42: Kết quả phân tích của FS trên tài cấu trúc phức tạp 79 Hình 43: Kết quả phân tích của FS trên một trang quảng cáo . 81 Hình 44: Kết quả phân tích của FS trên tài liệu đơn giản . 82 Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 1 GVHD: PGS. TS. Ngô Quốc Tạo MỞ ĐẦU I. Đặt vấn đề Ngày nay việc sử dụng máy tính để lƣu trữ tài liệu không còn vấn đề mới mẻ và cần phải chứng minh tính an toàn, thuận tiện của nó. Tuy nhiên việc sử dụng giấy để lƣu trữ tài liệu trong một số mục đích vẫn không thể thay thế đƣợc (nhƣ báo, sách, công văn,…). Hơn nữa lƣợng tài liệu đƣợc tạo ra từ nhiều năm trƣớc vẫn còn rất nhiều mà không thể bỏ đi đƣợc vì tính quan trọng của chúng. Chúng ta mong muốn thể điện tử hóa hàng tỉ trang tài liệu đó và cất chúng chỉ trong một ổ cứng kích thƣớc bằng một cuốn sách nhỏ, tìm kiếm thông tin mà chỉ cần tốn vài giây với một cái gõ phím Enter. Giải pháp gì? Thông thƣờng ngƣời ta sẽ phải thuê ngƣời cùng với việc tốn hàng tháng, hàng năm mới thể nhập vào máy tính đƣợc hết lƣợng tài liệu đó. Hiện nay chúng ta đã các máy Scan với tốc độ cao, công nghệ xử lý của máy tính ngày càng siêu việt với tốc độ tính toán vƣợt cả tốc độ ánh sáng, vậy tại sao chúng ta không quét toàn bộ các trang tài liệu vào và chuyển chúng thành văn bản một cách tự động? Bằng cách đó tốc độ và tính chính xác sẽ tăng hàng trăm lần trong khi chi phí lại cực tiểu. Vấn đề khi quét vào máy tính chúng ta không thu đƣợc ngay các dòng văn bản từ các trang tài liệu kia, để thể soạn thảo, sửa chữa và tìm kiếm nhƣ làm trên Office. Tất cả những gì thu đƣợc chỉ các tấm ảnh của các trang văn bản, máy tính lại đối xử công bằng nhƣ nhau với mọi điểm ảnh, máy tính không “mắt” nhƣ chúng ta để biết đâu điểm ảnh của chữ, đâu điểm ảnh của đối tƣợng đồ họa. Một giải pháp đƣợc nghĩ đến ngay đó đó xây dựng các hệ thống nhận dạng chữ, trong tấm ảnh chứa cả chữ và đối tƣợng đồ họa cần tách và chuyển thành dạng trang văn bản, từ đó thể mở và soạn thảo đƣợc trên các trình soạn thảo văn bản. Một cách tổng quát thì cách thức làm việc của một hệ thống nhận dạng chữ nhƣ sau[5]: 1. Chụp ảnh các trang tài liệu trên giấy và lƣu lại trong máy tính dƣới dạng hình ảnh. Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2 GVHD: PGS. TS. Ngô Quốc Tạo 2. Sử dụng một chƣơng trình xử lý ảnh để phân tích hình ảnh sau khi quét, đọc đƣợc ký tự trên hình ảnh đó và ghi lại vào máy tính theo cách mà máy tính quản lý đƣợc thông tin dữ liệu đó. a. Bƣớc 1 phân tích cấu trúc của ảnh tài liệu, từ đó xác định đâu phần chứa chữ, đâu phần chứa cả ảnh lẫn ký tự và đâu chỉ chứa hình ảnh. Bƣớc này thực sự quan trọng cho bƣớc nhận dạng. Bởi nó định vị chính xác cho việc áp dụng các thuật toán nhận dạng lên vùng đã xác định tính chất, nếu bƣớc này chính xác trƣớc tiên nó hạn chế thời gian cho việc nhận dạng, sau tăng ngữ nghĩa bổ sung cho việc nhận dạng. b. Bƣớc 2 nhận dạng ký tự dựa vào các tính chất của ký tự, ví dụ nhƣ sắp xếp theo dòng, khoảng cách giữa 2 từ lớn hơn khoảng cách giữa 2 ký tự, dùng trí tuệ nhân tạo để dự đoán các ký tự kề nhau phải nhƣ thế nào, các từ trong câu phải nhƣ thế nào để câu nghĩa. Từ đó nội dung đúng để lƣu trữ, quản lý…. Trong thực tế không phải quá trình nhận dạng nào cũng chỉ trải qua hai bƣớc nhƣ trên, bởi vì rất nhiều tham số ảnh hƣởng đến kết quả của các chƣơng trình nhận dạng, nhƣ nhiễu, Font chữ, kích thƣớc chữ, kiểu chữ nghiêng, đậm, gạch dƣới. Ngoài ra các dòng chữ cũng thể trộn lẫn với các đối tƣợng đồ họa, vì thế trƣớc khi nhận dạng chữ, một số thao tác tiền xử lý sẽ đƣợc tác động lên ảnh nhƣ, lọc nhiễu, chỉnh góc nghiêng và đặc biệt quan trọng phân tích trang tài liệu để xác định cấu trúc của trang văn bản đồng thời tách biệt hai thành phần chữ và các đối tƣợng đồ họa (phi chữ). II. Nội dung nghiên cứu 1. Mục tiêu nghiên cứu chính của đề tài Tìm hiểu cấu trúc trang tài liệu (cấu trúc vật lý, logic)? Tìm hiểu một số kỹ thuật phân tích trang tài liệu (phân vùng, phân đoạn,…) Cài đặt thử nghiệm một giải pháp phân tích hiệu quả cao so với các phƣơng pháp truyền thống nhƣ top-down hay bottom-up trên ảnh vào ảnh đa cấp xám cấu trúc phức tạp. Từ kết quả nghiên cứu một sự chuẩn bị kiến thức đẩy đủ cho bƣớc nghiên cứu tiếp theo nhận dạng ký tự quang. Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3 GVHD: PGS. TS. Ngô Quốc Tạo 2. Ý nghĩa khoa học của đề tài Giải quyết đƣợc vấn đề về học thuật: đề tài sẽ mang ý nghĩa cung cấp về mặt lý thuyết để làm rõ về các phƣơng pháp phân tích trang tài liệu. Đáp ứng đƣợc yêu cầu của thực tiễn: từ các lý thuyết đã đƣợc nghiên cứu, từ đó liên hệ và gắn vào thực tiễn để thể áp dụng vào các lĩnh vực nhƣ: Lƣu trữ thƣ viện, điện tử hóa văn phòng, nhận dạng và xử lý ảnh, … 3. Nhiệm vụ nghiên cứu Mục đích của luận văn đề cập đƣợc đến hai phần: Phần lý thuyết: Nắm rõ và trình bày những sở lý thuyết liên quan đến cấu trúc trang tài liệu, một số kỹ thuật phân tích trang tài liệu, từ đó để thể xác định tính quan trọng của bƣớc này trong nhận dạng ký tự, đồng thời hiểu các công việc kế tiếp cần làm trong bƣớc nhận dạng ký tự. Phần phát triển ứng dụng: Áp dụng các thuật toán đã trình bày ở phần lý thuyết từ đó lựa chọn một giải pháp tối ƣu và cài đặt thử nghiệm chƣơng trình phân tích trang tài liệu. 4. Phƣơng pháp nghiên cứu Tìm kiếm, tham khảo, tổng hợp tài liệu từ các nguồn khác nhau để xây dựng phần lý thuyết cho luận văn. Sử dụng các kỹ thuật đƣợc áp dụng phân tích trang tài liệu để làm rõ bản chất của các vấn đề đƣợc đƣa ra trong phần lý thuyết. Xây dựng chƣơng trình Demo. 5. Phạm vi nghiên cứu Bài toán nhận dạng và xử lý ảnh tài liệu đã đƣợc phát triển với nhiều thành tựu trong thực tế, rất nhiều thuật toán tối ƣu đã đƣợc các nhà khoa học đề nghị. Tuy nhiên thể nói chƣa một chƣơng trình nào thể “đọc” một ảnh văn bản nhƣ con ngƣời, vì thực tế rất nhiều kiểu trang văn bản khác nhau, khác nhau về cấu trúc trình bày, ngôn ngữ, kiểu font, chữ viết tay,… Đây thực sự một bài toán lớn, chính vì thế trong phạm vi của luận văn chỉ tìm hiểu một số kỹ thuật phân tích trang văn bản tiêu biểu với mục đích để so sánh và một thuật toán mới chƣa đƣợc đƣa ra ở các đề tài trƣớc. Cuối cùng, dựa vào đó để xây dựng Demo cho một ứng dụng. Các kết quả nghiên cứu dự kiến cần đạt đƣợc: Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 4 GVHD: PGS. TS. Ngô Quốc Tạo Tìm hiểu tài liệu liên quan đến lĩnh vực quan tâm để nắm bắt đƣợc bản chất vấn đề đặt ra. Báo cáo lý thuyết Chƣơng trình Demo. III. Bố cục của luận văn Nội dung của luận văn đƣợc trình bày trong ba chƣơng với nội dung chính sau. Chƣơng 1: Trình bày các khái niệm và mô hình tổng quát của hệ thống nhận dạng chữ viết, cùng với một số phần mềm nhận dạng tiêu biểu hiện nay. Chƣơng 2: Trình bày một số phƣơng pháp phân tích trang tài liệu, từ đó đánh giá ƣu nhƣợc điểm để lựa chọn phƣơng pháp Fractal Signature cho chƣơng trình thử nghiệm. Trình bày về thiết kế cho chƣơng trình demo. Chƣơng 3: Trình bày chi tiết về việc cài đặt chƣơng trình cũng nhƣ các thủ tục sử dụng trong chƣơng trình với phƣơng pháp phân tích Fractal Signature ảnh đầu vào ảnh đa cấp xám độ phức tạp cao. Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 5 GVHD: PGS. TS. Ngô Quốc Tạo Chƣơng I. TỔNG QUAN VỀ NHẬN DẠNG CHỮ VIẾT VÀ PHÂN TÍCH TRANG TÀI LIỆU Chƣơng này đƣa ra các khái niệm về đối tƣợng làm việc của đề tài ảnh tài liệu, khái niệm về cấu trúc vật lý và cấu trúc logic. Giới thiệu các khâu trong một hệ thống nhận dạng chữ viết hoàn chỉnh. Đồng thời đƣa ra một số phần mềm nhận dạng của Việt Nam và Thế giới cùng với các mẫu kết quả phân tích của nó nhàm mục đích so sánh và xác định phạm vi cho đề tài. I.1. Ảnh tài liệu và nhận dạng ảnh tài liệu I.1.1. Tổng quan về ảnh tài liệu Trang ảnh tài liệu đƣợc đề cập ở đây các file ảnh số hoá thu đƣợc bằng cách quét các trang tài liệu dùng máy scanner, máy ảnh số, hay nhận từ một máy fax (Hình 1), file ảnh này đƣợc lƣu giữ trong máy tính. Ảnh tài liệu nhiều loại: ảnh đen trắng, ảnh màu, ảnh đa cấp xám với các phần mở rộng nhƣ TIF, BMP, PCX, …(Hình 2) và ảnh tài liệu đƣợc đƣa ra trong luận văn này ảnh đa cấp xám. Ảnh số Tài liệu Thiết bị thu nhận ảnh Anh số tài liệu Hình 1: Sơ đồ tổng quan quá trình tạo ảnh tài liệu [...]... tích cấu trúc vật lý của tài liệu và đƣa ra cấu trúc phần vùng - Phân tích và nhận dạng chữ đầu ra text thể copy hay lƣu trữ và soạn thảo lại đƣợc Hình 10: VnDOCR và một ví dụ nhận dạng1 Một số hạn chế: Tính đến phiên bản 4.0 - VnDOCR chỉ làm việc với ảnh đen trắng - Với các ảnh cấu trúc vật lý phức tạp VnDOCR cho kết quả phân tích với hiệu quả chƣa cao (Hinh 11, 12) Thí nghiệm 1: - 1 Với ảnh. .. nhau - Nhận dạng cả các file vào PDF - Nhận dạng đƣợc các trang nhiều loại font, kiểu font hoặc nền ảnh mầu - Một số hạn chế chính: - Chƣa hiệu quả với các ảnh tài liệu cấu trúc phức tạp Thí nghiệm 1: Với ảnh đầu vào Hình-11 kết quả nhƣ sau: Omnipage đoán nhận tất các ảnh đều vùng văn bản (Hình-15) 2 Nguồn từ nhà sảnh xuất http://www.nuance.com/imaging/omnipage/omnipage-professional.asp... Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Thí nghiệm 2: Với ảnh đầu vào cấu trúc vật lý đơn giản hơn (các vùng sở bao hình chữ nhật – Hình 13) Hình 13: Mẫu ảnh cấu trúc vật lý phức tạp, nhƣng các khối bao bởi hình chữ nhật Kết quả phân tích bởi VnDOCR bỏ sót một vùng văn bản và gồm nhầm 2 vùng ảnh vào vùng văn bản số 1 (Hình 14) Số hóa bởi Trung tâm Học liệu – Đại học Thái... viên: Nguyễn Văn Huy hai loại cấu trúc của tài liệu đƣợc quan tâm ở đây đó cấu trúc vật lý (hay bố cục vật lý) và cấu trúc logic mô tả mối quan hệ logic giữa các vùng đối tƣợng trong tài liệu I.2.1 Cấu trúc vật lý Bố cục vật lý của một tài liệu mô tả vị trí và các đƣờng danh giới giữa các vùng nội dung khác nhau trong một trang tài liệu[6] Quá trình phân tích bố cục tài liệu thực hiện việc... cấu trúc tài liệu,… Một số loại tài liệu nhƣ báo, tạp chí, sách quảng cáo, chúng cấu trúc và bố cục rất phức tạp và không một form chung nào cả (Hình 5) Với con ngƣời để thể đọc hiểu đƣợc một trang tài liệu còn cần thêm nhiều kiến thức bổ sung nhƣ ngôn ngữ, hoàn cảnh, các luật ngầm định, vì thế việc tự động phân tích các trang tài liệu một cách tổng quát một việc rất khó khăn thậm chí là. .. các loại tài liệu nền đồng nhất màu trắng hoặc đen thì việc tách thể thực hiện đơn giản bằng phép phân ngƣỡng, tuy nhiên trong thực tế rất nhiều ảnh tài liệu nền rất phức tạp nhƣ ảnh hay đồ họa (Hình 7) thì việc xác định các pixell nào thực sự thuộc về “phần nổi” một công việc khó khăn Ta thể tách nền bằng một số kỹ thuật nhƣ sau: - Gán mỗi điểm ảnh vào “phần nổi” hay phần nền dựa theo... frame  Page đối tƣợng hình học hoặc hỗn hợp các thành phần sở tƣơng ứng với một vùng hình chữ nhật, nếu đối tƣợng hỗn hợp nó chứa một hoặc nhiều block, một hoặc nhiều frame  Page set (tập trang) một tập của một hoặc nhiều page  Điểm gốc của cấu trúc (hay nút gốc) một đối tƣợng ở mức cao nhất trong sơ đồ phân cấp của cấu trúc hình học tài liệu Hình 4(b) cho ví dụ một cấu trúc hình học... với một số tính năng chính sau3: - Cho phép kết nối và nhận dạng ảnh trực tiếp từ Camera - Nhận dạng đƣợc 38 ngôn ngữ khác nhau - Nhận dạng cả text trong đồ họa - Với 2 mẫu văn bản cấu trúc phức tạp nhƣ trên thì Finereader đều cho hiệu quả cao, nói chung Fineread đều hiệu quả cao với các tài liệu bố cục phức tạp Hình 17: Với ảnh 13 đạt hiệu quả 90% 3 Nguồn từ nhà sản xuất http://finereader.abbyy.com/full_feature_list... đầu đề tài sẽ tập trung vào giải pháp phân tích cấu trúc vật lý của trang tài liệu, chƣơng 2 sẽ giới thiệu một số phƣơng pháp phân tích hiện nay, từ đó đƣa ra và đánh giá đƣợc ƣu nhƣợc điểm của mỗi phƣơng pháp đó Sau đó sẽ tập trung phân tích kỹ một phƣơng pháp mới chƣa đƣợc trình bày ở các đề tài trƣớc đó Fractal Signature với những ƣu điểm vƣợt trội của nó hiệu quả cao với tài liệu phức tạp, ... việc thể tự động ƣớc lƣợng đƣợc chính xác góc nghiêng của ảnh tài liệu một bài toán khó nhiều kỹ thuật để thể xác định đƣợc góc nghiêng của tài liệu, điểm chung trong hầu hết các thuật toán xác định góc nghiêng bằng việc xác định hƣớng của các dòng văn bản dựa vào vị trí một số ký tự trong tài liệu I.3.2 Phân tích cấu trúc vật lý Phân tích tài liệu đƣợc định nghĩa quá trình xác định cấu

Ngày đăng: 27/04/2013, 11:20

Hình ảnh liên quan

Sơ đồ một hệ thống OCR cơ bản ở Hình 3. Trong đó:  - phương pháp truyền thống như top-down hay bottom-up trên  ảnh vào là  ảnh đa cấp xám có cấu trúc phức tạp

Sơ đồ m.

ột hệ thống OCR cơ bản ở Hình 3. Trong đó: Xem tại trang 11 của tài liệu.
Hình 3: Sơ đồ OCR cơ bản - phương pháp truyền thống như top-down hay bottom-up trên  ảnh vào là  ảnh đa cấp xám có cấu trúc phức tạp

Hình 3.

Sơ đồ OCR cơ bản Xem tại trang 12 của tài liệu.
Hình 4: b-Cấu trúc vật lý: c,d-Cấu trúc logic của một tài liệu[4] - phương pháp truyền thống như top-down hay bottom-up trên  ảnh vào là  ảnh đa cấp xám có cấu trúc phức tạp

Hình 4.

b-Cấu trúc vật lý: c,d-Cấu trúc logic của một tài liệu[4] Xem tại trang 14 của tài liệu.
Hình 5: Ví dụ loại tài liệu có bố cục phức tap - phương pháp truyền thống như top-down hay bottom-up trên  ảnh vào là  ảnh đa cấp xám có cấu trúc phức tạp

Hình 5.

Ví dụ loại tài liệu có bố cục phức tap Xem tại trang 15 của tài liệu.
Hình 6: Sơ đồ nguyên lý hệ thống xử lý tài liệu[6] I.3.1. Tiền xử lý(preprocessing):  - phương pháp truyền thống như top-down hay bottom-up trên  ảnh vào là  ảnh đa cấp xám có cấu trúc phức tạp

Hình 6.

Sơ đồ nguyên lý hệ thống xử lý tài liệu[6] I.3.1. Tiền xử lý(preprocessing): Xem tại trang 16 của tài liệu.
Hình 7: a- Ảnh gốc b- Ảnh sau khi tách nền - phương pháp truyền thống như top-down hay bottom-up trên  ảnh vào là  ảnh đa cấp xám có cấu trúc phức tạp

Hình 7.

a- Ảnh gốc b- Ảnh sau khi tách nền Xem tại trang 17 của tài liệu.
Hình 9: Ví dụ một cây mô tả cấu trúc logic của một trang tài liệu[5] - phương pháp truyền thống như top-down hay bottom-up trên  ảnh vào là  ảnh đa cấp xám có cấu trúc phức tạp

Hình 9.

Ví dụ một cây mô tả cấu trúc logic của một trang tài liệu[5] Xem tại trang 19 của tài liệu.
Hình 10: VnDOCR và một ví dụ nhận dạng1 - phương pháp truyền thống như top-down hay bottom-up trên  ảnh vào là  ảnh đa cấp xám có cấu trúc phức tạp

Hình 10.

VnDOCR và một ví dụ nhận dạng1 Xem tại trang 20 của tài liệu.
Hình 12: Kết quả ra hai vùng ảnh với ảnh mẫu 11 - phương pháp truyền thống như top-down hay bottom-up trên  ảnh vào là  ảnh đa cấp xám có cấu trúc phức tạp

Hình 12.

Kết quả ra hai vùng ảnh với ảnh mẫu 11 Xem tại trang 21 của tài liệu.
Hình 11: Ảnh mẫu có cấu trúc vật lý phức tạp - phương pháp truyền thống như top-down hay bottom-up trên  ảnh vào là  ảnh đa cấp xám có cấu trúc phức tạp

Hình 11.

Ảnh mẫu có cấu trúc vật lý phức tạp Xem tại trang 21 của tài liệu.
Với ảnh đầu vào có cấu trúc vật lý đơn giản hơn (các vùng cơ sở có bao là hình chữ nhật – Hình 13) - phương pháp truyền thống như top-down hay bottom-up trên  ảnh vào là  ảnh đa cấp xám có cấu trúc phức tạp

i.

ảnh đầu vào có cấu trúc vật lý đơn giản hơn (các vùng cơ sở có bao là hình chữ nhật – Hình 13) Xem tại trang 22 của tài liệu.
Hình 14: Kết quả phân tích với ảnh 13 I.4.2. OminiPage  - phương pháp truyền thống như top-down hay bottom-up trên  ảnh vào là  ảnh đa cấp xám có cấu trúc phức tạp

Hình 14.

Kết quả phân tích với ảnh 13 I.4.2. OminiPage Xem tại trang 23 của tài liệu.
Hình 15: Đầu ra phân vùng chỉ có 1 vùng văn bản - phương pháp truyền thống như top-down hay bottom-up trên  ảnh vào là  ảnh đa cấp xám có cấu trúc phức tạp

Hình 15.

Đầu ra phân vùng chỉ có 1 vùng văn bản Xem tại trang 24 của tài liệu.
Hình 17: Với ảnh 13 đạt hiệu quả 90% - phương pháp truyền thống như top-down hay bottom-up trên  ảnh vào là  ảnh đa cấp xám có cấu trúc phức tạp

Hình 17.

Với ảnh 13 đạt hiệu quả 90% Xem tại trang 25 của tài liệu.
Hình 18 Với ảnh I-15 hiệu quả đạt 100% - phương pháp truyền thống như top-down hay bottom-up trên  ảnh vào là  ảnh đa cấp xám có cấu trúc phức tạp

Hình 18.

Với ảnh I-15 hiệu quả đạt 100% Xem tại trang 26 của tài liệu.
Hình 19: Với mẫu phức tạp hơn Finereader cho kết quả 95% - phương pháp truyền thống như top-down hay bottom-up trên  ảnh vào là  ảnh đa cấp xám có cấu trúc phức tạp

Hình 19.

Với mẫu phức tạp hơn Finereader cho kết quả 95% Xem tại trang 27 của tài liệu.
Hình 20: Kết quả chiếu nghiêng theo phƣơng ngang và phƣơng thẳng đứng của một trang tài liệu4 - phương pháp truyền thống như top-down hay bottom-up trên  ảnh vào là  ảnh đa cấp xám có cấu trúc phức tạp

Hình 20.

Kết quả chiếu nghiêng theo phƣơng ngang và phƣơng thẳng đứng của một trang tài liệu4 Xem tại trang 29 của tài liệu.
Hình 21: Phân tách cột dựa vào phép chiếu nghiêng theo phƣơng ngan g5 - phương pháp truyền thống như top-down hay bottom-up trên  ảnh vào là  ảnh đa cấp xám có cấu trúc phức tạp

Hình 21.

Phân tách cột dựa vào phép chiếu nghiêng theo phƣơng ngan g5 Xem tại trang 30 của tài liệu.
- Kém hiệu quả với các loại tài liệu có bố cục phức tạp (hình 25). - Cần xoay ảnh về đúng vị trí ngang nếu ảnh bị nghiêng (hình 23, 24) - phương pháp truyền thống như top-down hay bottom-up trên  ảnh vào là  ảnh đa cấp xám có cấu trúc phức tạp

m.

hiệu quả với các loại tài liệu có bố cục phức tạp (hình 25). - Cần xoay ảnh về đúng vị trí ngang nếu ảnh bị nghiêng (hình 23, 24) Xem tại trang 31 của tài liệu.
Hình 23: Lƣợc đồ chiếu ngang của một dòng chữ nghiêng - rất khó phân đoạn ký tự - phương pháp truyền thống như top-down hay bottom-up trên  ảnh vào là  ảnh đa cấp xám có cấu trúc phức tạp

Hình 23.

Lƣợc đồ chiếu ngang của một dòng chữ nghiêng - rất khó phân đoạn ký tự Xem tại trang 32 của tài liệu.
Hình 24: Lƣợc đồ chiếu đứng của trang tài liệu bị nghiêng - phương pháp truyền thống như top-down hay bottom-up trên  ảnh vào là  ảnh đa cấp xám có cấu trúc phức tạp

Hình 24.

Lƣợc đồ chiếu đứng của trang tài liệu bị nghiêng Xem tại trang 33 của tài liệu.
Hình 25: Lƣợc đồ chiếu đứng của một bài báo - phương pháp truyền thống như top-down hay bottom-up trên  ảnh vào là  ảnh đa cấp xám có cấu trúc phức tạp

Hình 25.

Lƣợc đồ chiếu đứng của một bài báo Xem tại trang 34 của tài liệu.
Hình 27: Mô tả thuật toán Tách và Nối thích nghi - phương pháp truyền thống như top-down hay bottom-up trên  ảnh vào là  ảnh đa cấp xám có cấu trúc phức tạp

Hình 27.

Mô tả thuật toán Tách và Nối thích nghi Xem tại trang 38 của tài liệu.
Hình 28: Mô tả thuật toán FS - phương pháp truyền thống như top-down hay bottom-up trên  ảnh vào là  ảnh đa cấp xám có cấu trúc phức tạp

Hình 28.

Mô tả thuật toán FS Xem tại trang 40 của tài liệu.
Hình 29: Sơ đồ khối hệ thống phân tích tài liệu trong phạm vi đề tài - phương pháp truyền thống như top-down hay bottom-up trên  ảnh vào là  ảnh đa cấp xám có cấu trúc phức tạp

Hình 29.

Sơ đồ khối hệ thống phân tích tài liệu trong phạm vi đề tài Xem tại trang 44 của tài liệu.
Hình 31: Ví dụ chuyển ảnh chữ "c" sang dạng bề mặt trong không gian 3D - phương pháp truyền thống như top-down hay bottom-up trên  ảnh vào là  ảnh đa cấp xám có cấu trúc phức tạp

Hình 31.

Ví dụ chuyển ảnh chữ "c" sang dạng bề mặt trong không gian 3D Xem tại trang 46 của tài liệu.
Hình 32: (a) Ảnh một tài liệu gốc, (b) kết quả sau khi áp dụng FS - phương pháp truyền thống như top-down hay bottom-up trên  ảnh vào là  ảnh đa cấp xám có cấu trúc phức tạp

Hình 32.

(a) Ảnh một tài liệu gốc, (b) kết quả sau khi áp dụng FS Xem tại trang 49 của tài liệu.
Hình 33: Giao diện chính - phương pháp truyền thống như top-down hay bottom-up trên  ảnh vào là  ảnh đa cấp xám có cấu trúc phức tạp

Hình 33.

Giao diện chính Xem tại trang 56 của tài liệu.
Hình 34: Kết quả phân tích của top-down trên tài liệu có cấu trúc đơn giản - phương pháp truyền thống như top-down hay bottom-up trên  ảnh vào là  ảnh đa cấp xám có cấu trúc phức tạp

Hình 34.

Kết quả phân tích của top-down trên tài liệu có cấu trúc đơn giản Xem tại trang 68 của tài liệu.
Hình 44: Kết quả phân tích của FS trên tài liệu đơn giản - phương pháp truyền thống như top-down hay bottom-up trên  ảnh vào là  ảnh đa cấp xám có cấu trúc phức tạp

Hình 44.

Kết quả phân tích của FS trên tài liệu đơn giản Xem tại trang 87 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan