Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 53 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
53
Dung lượng
3,16 MB
Nội dung
Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy II.1.2 Bottom-up 30 Mục lục II.1.3 Phƣơng pháp Tách Nối thích nghi (Adaptive Split – and – Merge) 32 Mục lục i Danh mục hình ảnh iv MỞ ĐẦU I Đặt vấn đề II Nội dung nghiên cứu III Bố cục luận văn Chƣơng I TỔNG QUAN VỀ NHẬN DẠNG CHỮ VIẾT VÀ PHÂN TÍCH TRANG TÀI LIỆU I.1 Ảnh tài liệu nhận dạng ảnh tài liệu I.1.1 Tổng quan ảnh tài liệu I.1.2 Nhận dạng tài liệu vai trò phân tích ảnh tài liệu I.2 Cấu trúc ảnh tài liệu I.2.1 Cấu trúc vật lý I.2.2 Cấu trúc logic 10 I.3 Quá trình phân tích tài liệu 10 I.3.1 Tiền xử lý(preprocessing): 11 I.3.2 Phân tích cấu trúc vật lý 12 I.3.3 Phân tích cấu trúc logic 13 I.4 Một số hệ thống phân tích tài liệu 14 II.1.4 Fractal Signature (FS) 34 II.2 Lựa chọn giải pháp 38 II.3 Thiết kế hệ thống 39 II.3.1 Sơ đồ khối 39 II.3.2 Ảnh đầu vào 39 II.3.3 Module Tiền xử lý 40 II.3.4 Phân tích sử dụng giả pháp Fractal Signature 41 II.4 Kết luận 45 Chƣơng III: XÂY DỰNG CHƢƠNG TRÌNH THỬ NGHIỆM 46 III.1 Yêu cầu hệ thống 46 III.2 Thiết kế chƣơng trình 46 III.2.1 Cấu trúc liệu 46 III.2.2 Module chuẩn hóa ảnh 48 III.2.3 Module giao diện 51 III.2.4 Module phân tích Top-down (TD) 52 III.2.5 Module phân tích Fractal Signature 55 III.2.6 Module lọc làm trơn nhiễu 57 III.2.7 Module mô thuật toán FS 58 I.4.1 VnDOCR 14 III.2.8 Các hàm chức image processing tool matlab sử dụng chƣơng trình 60 I.4.2 OminiPage 18 III.3 Kết luận đánh giá kết 62 I.4.3 Finereader 20 Kết luận 83 I.5 Kết luận 22 TÀI LIỆU THAM KHẢO 84 Chƣơng II: CÁC PHƢƠNG PHÁP TIẾP CẬN 23 Phục Lục 85 ĐỂ PHÂN TÍCH TRANG TÀI LIỆU 23 A Mã nguồn đầy đủ chƣơng trình 85 II.1 Các phƣơng pháp phân tích định dạng trang tài liệu 23 A.1 Danh mục chƣơng trình chƣơng trình 85 II.1.1 Top-down 23 A.2 Sơ khối liên kết thủ tục chƣơng trình 86 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên i http://www.lrc-tnu.edu.vn GVHD: PGS TS Ngô Quốc Tạo Số hóa Trung tâm Học liệu – Đại học Thái Nguyên ii http://www.lrc-tnu.edu.vn GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy A.3 Mã nguồn module 86 Danh mục hình ảnh Hình 1: Sơ đồ tổng quan trình tạo ảnh tài liệu Hình 2: Ví dụ ảnh tài liệu Hình 3: Sơ đồ OCR Hình 4: b-Cấu trúc vật lý: c,d-Cấu trúc logic tài liệu[4] Hình 5: Ví dụ loại tài liệu có bố cục phức tap 10 Hình 6: Sơ đồ nguyên lý hệ thống xử lý tài liệu[6] 11 Hình 7: a - Ảnh gốc b - Ảnh sau tách 12 Hình 8: Ví dụ ảnh tài liệu bị nghiêng góc độ 13 Hình 9: Ví dụ mô tả cấu trúc logic trang tài liệu[5] 14 Hình 10: VnDOCR ví dụ nhận dạng 15 Hình 11: Ảnh mẫu có cấu trúc vật lý phức tạp 16 Hình 12: Kết hai vùng ảnh với ảnh mẫu 11 16 Hình 13: Mẫu ảnh có cấu trúc vật lý phức tạp, nhƣng khối bao hình chữ nhật 17 Hình 14: Kết phân tích với ảnh 13 18 Hình 15: Đầu phân vùng có vùng văn 19 Hình 16: Đầu có vùng chứa ảnh text 19 Hình 17: Với ảnh 13 đạt hiệu 90% 20 Hình 18 Với ảnh I-15 hiệu đạt 100% 21 Hình 19: Với mẫu phức tạp Finereader cho kết 95% 22 Hình 20: Kết chiếu nghiêng theo phƣơng ngang phƣơng thẳng đứng trang tài liệu 24 Hình 21: Phân tách cột dựa vào phép chiếu nghiêng theo phƣơng ngang 25 Hình 22: Phép chiếu nghiêng theo phƣơng ngang để phân đoạn ký tự từ 26 Hình 23: Lƣợc đồ chiếu ngang dòng chữ nghiêng - khó phân đoạn ký tự 27 Hình 24: Lƣợc đồ chiếu đứng trang tài liệu bị nghiêng 28 Hình 25: Lƣợc đồ chiếu đứng báo 29 Hình 26: Phƣơng pháp Dostrum cho phân tích định dạng trang từ dƣới lên (a) Một phần nội dung văn gốc (b) Các thành phần lân cận gần đƣợc xác định Số hóa Trung tâm Học liệu – Đại học Thái Nguyên iii http://www.lrc-tnu.edu.vn GVHD: PGS TS Ngô Quốc Tạo Số hóa Trung tâm Học liệu – Đại học Thái Nguyên iv http://www.lrc-tnu.edu.vn GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy (c) Các hình chữ nhật tối thiểu tạo nên nhóm láng giềng gần từ xác định đƣợc dòng văn 31 Hình 27: Mô tả thuật toán Tách Nối thích nghi 33 Hình 28: Mô tả thuật toán FS 35 Hình 29: Sơ đồ khối hệ thống phân tích tài liệu phạm vi đề tài 39 Hình 30: Ví dụ bolck chuyển sang dạng bề mặt không gian 3D 41 Hình 31: Ví dụ chuyển ảnh chữ "c" sang dạng bề mặt không gian 3D 41 Hình 32: (a) Ảnh tài liệu gốc, (b) kết sau áp dụng FS 44 Hình 33: Giao diện 51 Hình 34: Kết phân tích top-down tài liệu có cấu trúc đơn giản 63 Hình 35: Kết phân tích top-down tài liệu có cấu trúc bảng 65 Hình 36: : Kết phân tích top-down tài liệu văn 67 Hình 37: : Kết phân tích top-down tài liệu có cấu trúc phức tạp (trang tạp trí) 69 Hình 38 : Kết phân tích top-down tờ quảng cáo 71 Hình 39: Kết phân tích top-down tài liệu có cấu trúc phức tạp 73 Hình 40: Kết phân tích top-down tài liệu bị nghiêng 75 Hình 41: Kết phân tích FS tài liệu bị nghiêng 77 Hình 42: Kết phân tích FS tài có cấu trúc phức tạp 79 Hình 43: Kết phân tích FS trang quảng cáo 81 Hình 44: Kết phân tích FS tài liệu đơn giản 82 MỞ ĐẦU I Đặt vấn đề Ngày việc sử dụng máy tính để lƣu trữ tài liệu không vấn đề mẻ cần phải chứng minh tính an toàn, thuận tiện Tuy nhiên việc sử dụng giấy để lƣu trữ tài liệu số mục đích thay đƣợc (nhƣ báo, sách, công văn,…) Hơn lƣợng tài liệu đƣợc tạo từ nhiều năm trƣớc nhiều mà bỏ đƣợc tính quan trọng chúng Chúng ta mong muốn điện tử hóa hàng tỉ trang tài liệu cất chúng ổ cứng kích thƣớc sách nhỏ, tìm kiếm thông tin mà cần tốn vài giây với gõ phím Enter Giải pháp gì? Thông thƣờng ngƣời ta phải thuê ngƣời với việc tốn hàng tháng, hàng năm nhập vào máy tính đƣợc hết lƣợng tài liệu Hiện có máy Scan với tốc độ cao, công nghệ xử lý máy tính ngày siêu việt với tốc độ tính toán vƣợt tốc độ ánh sáng, không quét toàn trang tài liệu vào chuyển chúng thành văn cách tự động? Bằng cách tốc độ tính xác tăng hàng trăm lần chi phí lại cực tiểu Vấn đề quét vào máy tính không thu đƣợc dòng văn từ trang tài liệu kia, để soạn thảo, sửa chữa tìm kiếm nhƣ làm Office Tất thu đƣợc ảnh trang văn bản, máy tính lại đối xử công nhƣ với điểm ảnh, máy tính “mắt” nhƣ để điểm ảnh chữ, đâu điểm ảnh đối tƣợng đồ họa Một giải pháp đƣợc nghĩ đến là xây dựng hệ thống nhận dạng chữ, ảnh chứa chữ đối tƣợng đồ họa cần tách chuyển thành dạng trang văn bản, từ mở soạn thảo đƣợc trình soạn thảo văn Một cách tổng quát cách thức làm việc hệ thống nhận dạng chữ nhƣ sau[5]: Chụp ảnh trang tài liệu giấy lƣu lại máy tính dƣới dạng hình ảnh Số hóa Trung tâm Học liệu – Đại học Thái Nguyên v http://www.lrc-tnu.edu.vn GVHD: PGS TS Ngô Quốc Tạo Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Sử dụng chƣơng trình xử lý ảnh để phân tích hình ảnh sau quét, đọc đƣợc ký tự hình ảnh ghi lại vào máy tính theo cách mà máy tính quản lý đƣợc thông tin liệu a Bƣớc phân tích cấu trúc ảnh tài liệu, từ xác định đâu phần chứa chữ, đâu phần chứa ảnh lẫn ký tự đâu chứa hình ảnh Bƣớc thực quan trọng cho bƣớc nhận dạng Bởi định vị xác cho việc áp dụng thuật toán nhận dạng lên vùng xác định tính chất, bƣớc xác trƣớc tiên hạn chế thời gian cho việc nhận dạng, sau tăng ngữ nghĩa bổ sung cho việc nhận dạng b Bƣớc nhận dạng ký tự dựa vào tính chất ký tự, ví dụ nhƣ xếp theo dòng, khoảng cách từ lớn khoảng cách ký tự, dùng trí tuệ nhân tạo để dự đoán ký tự kề phải nhƣ nào, từ câu phải nhƣ để câu có nghĩa Từ có nội dung để lƣu trữ, quản lý… Trong thực tế trình nhận dạng trải qua hai bƣớc nhƣ trên, có nhiều tham số ảnh hƣởng đến kết chƣơng trình nhận dạng, nhƣ nhiễu, Font chữ, kích thƣớc chữ, kiểu chữ nghiêng, đậm, gạch dƣới Ngoài dòng chữ trộn lẫn với đối tƣợng đồ họa, trƣớc nhận dạng chữ, số thao tác tiền xử lý đƣợc tác động lên ảnh nhƣ, lọc nhiễu, chỉnh góc nghiêng đặc biệt quan trọng phân tích trang tài liệu để xác định cấu trúc trang văn đồng thời tách biệt hai thành phần chữ đối tƣợng đồ họa (phi chữ) Ý nghĩa khoa học đề tài Giải đƣợc vấn đề học thuật: đề tài mang ý nghĩa cung cấp mặt lý thuyết để làm rõ phƣơng pháp phân tích trang tài liệu Đáp ứng đƣợc yêu cầu thực tiễn: từ lý thuyết đƣợc nghiên cứu, từ liên hệ gắn vào thực tiễn để áp dụng vào lĩnh vực nhƣ: Lƣu trữ thƣ viện, điện tử hóa văn phòng, nhận dạng xử lý ảnh, … Nhiệm vụ nghiên cứu Mục đích luận văn đề cập đƣợc đến hai phần: Phần lý thuyết: Nắm rõ trình bày sở lý thuyết liên quan đến cấu trúc trang tài liệu, số kỹ thuật phân tích trang tài liệu, từ có để xác định tính quan trọng bƣớc nhận dạng ký tự, đồng thời hiểu công việc cần làm bƣớc nhận dạng ký tự Phần phát triển ứng dụng: Áp dụng thuật toán trình bày phần lý thuyết từ lựa chọn giải pháp tối ƣu cài đặt thử nghiệm chƣơng trình phân tích trang tài liệu Phƣơng pháp nghiên cứu Tìm kiếm, tham khảo, tổng hợp tài liệu từ nguồn khác để xây dựng phần lý thuyết cho luận văn Sử dụng kỹ thuật đƣợc áp dụng phân tích trang tài liệu để làm rõ chất vấn đề đƣợc đƣa phần lý thuyết Xây dựng chƣơng trình Demo II Nội dung nghiên cứu Phạm vi nghiên cứu Mục tiêu nghiên cứu đề tài Bài toán nhận dạng xử lý ảnh tài liệu đƣợc phát triển với nhiều thành tựu thực tế, có nhiều thuật toán tối ƣu đƣợc nhà khoa học đề nghị Tuy nhiên nói chƣa có chƣơng trình “đọc” ảnh văn nhƣ ngƣời, thực tế có nhiều kiểu trang văn khác nhau, khác cấu trúc trình bày, ngôn ngữ, kiểu font, chữ viết tay,… Đây thực toán lớn, phạm vi luận văn tìm hiểu số kỹ thuật phân tích trang văn tiêu biểu với mục đích để so sánh thuật toán chƣa đƣợc đƣa đề tài trƣớc Cuối cùng, dựa vào để xây dựng Demo cho ứng dụng Tìm hiểu cấu trúc trang tài liệu (cấu trúc vật lý, logic)? Tìm hiểu số kỹ thuật phân tích trang tài liệu (phân vùng, phân đoạn,…) Cài đặt thử nghiệm giải pháp phân tích có hiệu cao so với phƣơng pháp truyền thống nhƣ top-down hay bottom-up ảnh vào ảnh đa cấp xám có cấu trúc phức tạp Từ kết nghiên cứu có chuẩn bị kiến thức đẩy đủ cho bƣớc nghiên cứu nhận dạng ký tự quang Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn GVHD: PGS TS Ngô Quốc Tạo Các kết nghiên cứu dự kiến cần đạt đƣợc: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Tìm hiểu tài liệu liên quan đến lĩnh vực quan tâm để nắm bắt đƣợc chất vấn đề đặt Chƣơng I TỔNG QUAN VỀ NHẬN DẠNG CHỮ VIẾT Báo cáo lý thuyết VÀ PHÂN TÍCH TRANG TÀI LIỆU Chƣơng trình Demo III Bố cục luận văn Nội dung luận văn đƣợc trình bày ba chƣơng với nội dung sau Chƣơng đƣa khái niệm đối tƣợng làm việc đề tài ảnh tài liệu, khái niệm cấu trúc vật lý cấu trúc logic Giới thiệu khâu hệ thống nhận dạng chữ viết hoàn chỉnh Đồng thời đƣa số phần mềm nhận dạng Việt Nam Thế giới với mẫu kết phân tích nhàm mục đích so sánh xác định phạm vi cho đề tài Chƣơng 1: Trình bày khái niệm mô hình tổng quát hệ thống nhận dạng chữ viết, với số phần mềm nhận dạng tiêu biểu I.1 Ảnh tài liệu nhận dạng ảnh tài liệu Chƣơng 2: Trình bày số phƣơng pháp phân tích trang tài liệu, từ đánh giá ƣu nhƣợc điểm để lựa chọn phƣơng pháp Fractal Signature cho chƣơng trình thử nghiệm Trình bày thiết kế cho chƣơng trình demo Trang ảnh tài liệu đƣợc đề cập file ảnh số hoá thu đƣợc cách quét trang tài liệu dùng máy scanner, máy ảnh số, hay nhận từ máy fax (Hình 1), file ảnh đƣợc lƣu giữ máy tính Ảnh tài liệu có nhiều loại: ảnh đen trắng, ảnh màu, ảnh đa cấp xám với phần mở rộng nhƣ TIF, BMP, PCX, …(Hình 2) ảnh tài liệu đƣợc đƣa luận văn ảnh đa cấp xám Chƣơng 3: Trình bày chi tiết việc cài đặt chƣơng trình nhƣ thủ tục sử dụng chƣơng trình với phƣơng pháp phân tích Fractal Signature ảnh đầu vào ảnh đa cấp xám có độ phức tạp cao I.1.1 Tổng quan ảnh tài liệu Ảnh số Tài liệu Thiết bị thu nhận ảnh Anh số tài liệu Hình 1: Sơ đồ tổng quan trình tạo ảnh tài liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn GVHD: PGS TS Ngô Quốc Tạo Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy - Scanner: Thiết bị quét ảnh - OCR hardware/software: o Document analysis: Phân tích tài liệu o Character recognition: Nhận dạng ký tự o Contexttual processor: Xử lý văn cảnh - Hình 2: Ví dụ ảnh tài liệu I.1.2 Nhận dạng tài liệu vai trò phân tích ảnh tài liệu Output interface: Đầu Nhƣ vai trò khâu phân tích ảnh tài liệu việc phân đoạn trang, tách vùng văn khỏi đồ họa tạo mẫu chuẩn cho khâu nhận dạng Rõ dàng kết khâu phân tích ảnh hƣởng lớn đến hiệu của khâu nhận dạng sử dụng mẫu hay chuỗi văn đầu Ngày nay, máy tính phát triển mạnh mẽ, tốc độ xử lý không ngừng đƣợc nâng lên Cùng với đời phần mềm thông minh khiến máy tính ngày gần gũi với ngƣời Một khả tuyệt vời ngƣời mà nhà khoa học máy tính muốn đạt đƣợc khả nhận dạng lĩnh vực nhận dạng thu đƣợc nhiều thành công nhận dạng ký tự quang OCR–Optical Character Recognition OCR đƣợc hiểu trình chuyển đổi tài liệu dƣới dạng file ảnh số hoá (là dạng có ngƣời đọc đƣợc) thành tài liệu dƣới dạng file văn (là tài liệu mà ngƣời máy đọc đƣợc) OCR có nhiều ứng dụng hữu ích sống nhƣ: - Sắp xếp thƣ tín, dựa vào việc nhận dạng mã bƣu (Zipcode) hay địa gửi tới - Tự động thu thập liệu từ mẫu đơn/báo biểu hay từ hồ sơ lao động - Hệ thống tự động kiểm tra ngân hàng (tự động xác nhận chữ ký) - Tự động xử lý hóa đơn hay yêu cầu toán - Hệ thống tự động đọc kiểm tra passport - Tự động phục hồi copy tài liệu từ ảnh quét - Máy đọc cho ngƣời khiếm thính I.2 Cấu trúc ảnh tài liệu - Các ứng dụng Datamining - … Một khái niệm mấu chốt xử lý tài liệu cấu trúc tài liệu Cấu trúc tài liệu thu đƣợc từ việc liên tiếp chia nhỏ nội dung tài liệu thành phần nhỏ đơn vị (tức phân chia đƣợc nữa) chúng đƣợc gọi đối tƣợng sở (basic objects) Còn tất đối tƣợng khác đƣợc gọi đối tƣợng hỗn hợp Sơ đồ hệ thống OCR Hình Trong đó: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn GVHD: PGS TS Ngô Quốc Tạo Hình 3: Sơ đồ OCR Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Có hai loại cấu trúc tài liệu đƣợc quan tâm cấu trúc vật lý (hay bố cục vật lý) cấu trúc logic mô tả mối quan hệ logic vùng đối tƣợng tài liệu I.2.1 Cấu trúc vật lý Bố cục vật lý tài liệu mô tả vị trí đƣờng danh giới vùng có nội dung khác trang tài liệu[6] Quá trình phân tích bố cục tài liệu thực việc tách từ trang tài liệu ban đầu thành vùng có nội dung sở nhƣ hình ảnh nền, vùng văn bản,… Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Để mô tả bố cục vật lý tài liệu ngƣời ta sử dụng cấu trúc hình học với đối tƣợng cấu trúc phần tử chứa nội dung đồng Các kiểu đối tƣợng hình học đƣợc định nghĩa nhƣ sau[4]: Block đối tƣợng sở tƣơng ứng với vùng hình chữ nhật chứa phần nội dụng tài liệu Frame đối tƣợng hỗn hợp tƣơng ứng với hình chữ nhật bao gồm nhiều block bao gồm frame Page đối tƣợng hình học hỗn hợp thành phần sở tƣơng ứng với vùng hình chữ nhật, đối tƣợng hỗn hợp chứa nhiều block, nhiều frame Page set (tập trang) tập nhiều page Điểm gốc cấu trúc (hay nút gốc) đối tƣợng mức cao sơ đồ phân cấp cấu trúc hình học tài liệu Hình 4(b) cho ví dụ cấu trúc hình học mô tả bố cục vật lý trang tài liệu tƣơng ứng Các thuật toán phân tích bố cục tài liệu đƣợc chia làm ba loại dựa theo phƣơng pháp thực - Bottom-up: Ý tƣởng thuật toán loại phần tử nhỏ (nhƣ từ pixel hay phần tử liên thông) sau liên tục nhóm chúng lại thành vùng lớn - Top-down: Thuật toán vùng lớn chứa trang tài liệu sau liên tục phân chia thành vùng nhỏ - Các thuật toán không theo thứ bậc: nhƣ Fractal Signature, Adaptive splitand-merge … Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn GVHD: PGS TS Ngô Quốc Tạo Hình 4: b-Cấu trúc vật lý: c,d-Cấu trúc logic tài liệu[4] Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Sơ đồ nguyên lý hệ thống tự động phân tích tài liệu nhƣ sau: I.2.2 Cấu trúc logic Ngoài bố cục vật lý, trang tài liệu chứa đựng nhiều thông tin ngữ cảnh nội dung nhƣ tiêu đề, đoạn văn, đề mục, …và vùng nội dung lại đƣợc gán nhãn logic hay nhãn theo chức tƣơng ứng, khác biệt hoàn toàn với nhãn bố cục vật lý Hầu hết tài liệu có quy tắc đọc để hiểu hết nội dung tài liệu Với số ngôn ngữ đặc biệt nhƣ tiếng Trung, tiếng Ả rập lại có quy cách đọc khác biệt (nhƣ đọc từ phải qua trái, xuống) Tập hợp tất yếu tố logic chức tài liệu mối quan hệ chúng đƣợc gọi cấu trúc logic tài liệu[6] Thông thƣờng pha phân tích cấu trúc logic tài liệu đƣợc thực kết bƣớc phân tích bố cục vật lý Tuy nhiên với số loại tài liệu phức tạp, pha phân tích bố cục vật lý lại cần thêm số thông tin logic liên quan đến vùng để phân đoạn cách xác Hình 4(c,d) mô tả ví dụ cấu trúc logic tài liệu I.3 Quá trình phân tích tài liệu Ảnh tài liệu chứa nhiều loại vùng thông tin khác nhƣ block, lines, words, figures, tables background Ta gọi vùng theo chức tài liệu gán cho nhãn logic nhƣ sentences, titles, captions, address,… Quá trình phân tích tài liệu thực việc tách tài liệu thành vùng theo tiêu chuẩn hay mối quan hệ lẫn Công việc đƣợc thực qua nhiều bƣớc nhƣ tiền xử lý, tách vùng, lặp cấu trúc tài liệu,… Một số loại tài liệu nhƣ báo, tạp chí, sách quảng cáo, chúng có cấu trúc bố cục phức tạp form chung (Hình 5) Với ngƣời để đọc hiểu đƣợc trang tài liệu cần thêm nhiều kiến thức bổ sung nhƣ ngôn ngữ, hoàn cảnh, luật ngầm định, việc tự động phân tích trang tài liệu cách tổng quát việc khó khăn chí không khả thi với hệ thống phân tích tài liệu tiên tiến nhất[6] Hình 6: Sơ đồ nguyên lý hệ thống xử lý tài liệu[6] I.3.1 Tiền xử lý(preprocessing): Hầu hết ảnh tài liệu có nhiễu trình thu nhận ảnh gây (môi trƣờng, chất lƣợng máy quét), trình xây dựng thuật toán phân tích cần loại bỏ nhiễu công việc thƣờng đƣợc tiến hành trƣớc bắt đầu phân tích bố cục hay cấu trúc gọi Tiền xử lý Nhiệm vụ bƣớc loại bỏ nhiễu, tách khỏi nội dung, phát xoay góc nghiêng,… Lọc nhiễu(noise removal): Nhiễu vấn đề hầu hết toán đọc hiểu tài liệu Nhiễu sinh không trình scan ảnh mà bao gồm nhiễu trắng gây từ sensor hay mạch thu nhận máy thu nhận ảnh số Nhiễu đƣợc loại bớt sử dụng số kỹ thuật nhƣ lọc trung bình, lọc trung vị, lọc thông thấp,… Tách (Background separation): Đây vấn đề quan trọng ảnh hƣởng trực tiếp đến hiệu thuật toán phân tích tài liệu Nếu loại tài liệu có đồng màu trắng đen việc tách thực đơn giản phép phân ngƣỡng, nhiên thực tế nhiều ảnh tài liệu có phức tạp nhƣ ảnh hay đồ họa (Hình 7) việc xác định pixell thực thuộc “phần nổi” công việc khó khăn Ta tách số kỹ thuật nhƣ sau: Hình 5: Ví dụ loại tài liệu có bố cục phức tap Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 10 http://www.lrc-tnu.edu.vn GVHD: PGS TS Ngô Quốc Tạo - Gán điểm ảnh vào “phần nổi” hay phần dựa theo tiêu chí (nhƣ ngƣỡng mức xám, …) Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 11 http://www.lrc-tnu.edu.vn GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy - Dựa theo độ đo xác suất xuất điểm ảnh mà phân lớp vào hay phần - Dựa vào pixel liên thông kết hợp với mạng noron để phân tách o Phân tích kiểu Adaptive split-and-merge (tách nối thích nghi) Các phƣơng pháp thứ bậc: Trong trình chia tài liệu thành khối không quan tâm đến mối quan hệ hình học block Hình 7: a - Ảnh gốc b - Ảnh sau tách Xác định góc nghiêng: Do trình thu nhận ảnh (nhƣ đặt lệch tài liệu scan,…) ảnh tài liệu thu đƣợc bị nghiêng, tức trục dòng văn không song song với trục ngang (Hình 8) Việc xác định đƣợc góc nghiêng xoay lại tài liệu khâu quan trọng ảnh hƣởng đến hiệu số thuật toán phân tích Ví dụ nhƣ thuật toán dựa theo biểu đồ sau phép chiếu nghiêng để tiến hành phân tích hoàn toàn thất bại văn bị nghiêng Tuy nhiên việc tự động ƣớc lƣợng đƣợc xác góc nghiêng ảnh tài liệu toán khó Có nhiều kỹ thuật để xác định đƣợc góc nghiêng tài liệu, điểm chung hầu hết thuật toán xác định góc nghiêng việc xác định hƣớng dòng văn dựa vào vị trí số ký tự tài liệu Hình 8: Ví dụ ảnh tài liệu bị nghiêng góc độ I.3.2 Phân tích cấu trúc vật lý Phân tích tài liệu đƣợc định nghĩa trình xác định cấu trúc vật lý tài liệu Trong khâu từ ảnh tài liệu đầu vào đƣợc chia thành số khối (block) chứa nội dung thành phần tài liệu nhƣ dòng văn bản, tiêu đề, đồ họa, với có không tri thức biết trƣớc định dạng nó[6] Có số phƣơng pháp phân tích đƣợc phân làm hai loại nhƣ sau: Các phƣơng thức có thứ bậc: Trong trình chia tài liệu thành block quan tâm đến mối quan hệ mặt hình học block Có ba phƣơng pháp thuộc loại là: o Phân tích top-down (trên xuống) o Phân tích buttom-up (dƣới lên) Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 12 http://www.lrc-tnu.edu.vn GVHD: PGS TS Ngô Quốc Tạo I.3.3 Phân tích cấu trúc logic Từ kết pha phân tích cấu trúc vật lý, phân tích cấu trúc logic xác định mối quan hệ logic vùng đƣợc gắn nhãn nhƣ tiêu đề, văn bản, đề mục, hearder,… Bƣớc sở cho việc nhận dạng ký tự - Việc xác định đƣợc vị trí xác vùng cấu trúc logic tăng thêm thông tin cho trình nhận dạng nhƣ thông tin ngữ cảnh, đoán nhận đƣợc kiểu font kích thƣớc chữ biết thuộc vùng tiêu đề, đề mục hay đoạn văn,… (Hình 9) Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 13 http://www.lrc-tnu.edu.vn GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy - Phân tích cấu trúc vật lý tài liệu đƣa cấu trúc phần vùng - Phân tích nhận dạng chữ đầu text copy hay lƣu trữ soạn thảo lại đƣợc document(page) article(page) article(page) abstract sub-title sub-title sub-title paragraphs paragraphs paragraphs Hình 9: Ví dụ mô tả cấu trúc logic trang tài liệu[5] I.4 Một số hệ thống phân tích tài liệu I.4.1 VnDOCR Vndocr phần mềm nhận dạng tiếng Việt sản phẩm Viện công Nghệ thông tin VnDOCR thu thập thông tin nhờ trình quét loại sách báo thông qua máy quét thành tệp ảnh chuyển đổi thành tệp có định dạng *.doc, *.xls, *.txt, *.rtf, đọc chỉnh sửa đƣợc phần mềm soạn thảo văn thông dụng nhƣ Office, Wordpad,… (Hình 10) Hình 10: VnDOCR ví dụ nhận dạng1 Một số hạn chế: Tính đến phiên 4.0 Môi trƣờng PC với hệ điều hành Windows 9x, ME, 2000, XP, NT,… Tiện ích: Bộ gõ chữ Việt, font ABC, VNI, Unicode, Thông tin đƣa vào 14 GVHD: PGS TS Ngô Quốc Tạo Với ảnh có cấu trúc vật lý phức tạp VnDOCR cho kết phân tích với hiệu chƣa cao (Hinh 11, 12) - http://www.lrc-tnu.edu.vn VnDOCR làm việc với ảnh đen trắng - Thí nghiệm 1: Quét trực tiếp loại sách báo, văn qua máy quét (Scanner) Đọc xử lý 30 dạng tệp tin ảnh phổ dụng nhƣ PCX, BMP, TIF, GIF, JPG, Có thể nhận dạng trực tiếp tài liệu quét qua Scanner không cần lƣu trữ dƣới dạng tệp ảnh trung gian Các trang tài liệu đƣợc quét lƣu trữ dƣới dạng tệp tin nhiều trang Các chức chính: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên - Với ảnh đầu vào nhƣ sau: Nguồn từ www.vndocr.com Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 15 http://www.lrc-tnu.edu.vn GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Hình 39: Kết phân tích top-down tài liệu có cấu trúc phức tạp Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 72 GVHD: PGS TS Ngô Quốc Tạo Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 73 GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Hình 40: Kết phân tích top-down tài liệu bị nghiêng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 74 GVHD: PGS TS Ngô Quốc Tạo Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 75 GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Hình 41: Kết phân tích FS tài liệu bị nghiêng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 76 GVHD: PGS TS Ngô Quốc Tạo Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 77 GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Hình 42: Kết phân tích FS tài có cấu trúc phức tạp Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 78 GVHD: PGS TS Ngô Quốc Tạo Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 79 GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Hình 43: Kết phân tích FS trang quảng cáo Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 80 GVHD: PGS TS Ngô Quốc Tạo Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 81 GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Kết luận Qua nhiều mẫu ảnh phân tích cho thấy thuật toán FS lầm việc hiệu nhiệm vụ phát vùng văn hay vùng đồ họa, tỉ lệ gần nhƣ tƣơng ứng với phần mềm ABBYY FineReader 9.0, hẳn OminiPage, VNDocr Đặc biệt chƣơng trình đƣợc cài đặt để làm việc thành công với ảnh đầu vào ảnh đa cấp xám có độ phức tạp cao Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Thuật toán FS thuật toán hay không phụ thuộc vào font chữ, nhiên giới hạn đề chƣa trình bày cài đặt hoàn thiện đƣợc Chƣơng trình thử nghiệm phân tích định dạng trang ảnh tài liệu thô sơ, chủ yếu dùng để mô tả cho phần lý thuyết phân tích định dạng trang ảnh tài liệu Chƣơng trình phân tích trang ảnh tài liệu phải điều chỉnh tay nhƣng kết thật khả quan Để đƣa chƣơng trình áp dụng thực tế phải qua đoạn đƣờng dài nữa, nhiên với kết công đoạn trình “lưu trữ thông tin tài liệu giấy theo cách máy tính hiểu xử lý được” công đoạn nhận dạng chữ sau dễ dàng nhiều Hƣớng phát triển đề tài: Hình 44: Kết phân tích FS tài liệu đơn giản Số hóa Trung tâm Học liệu – Đại học Thái Nguyên - Cải tiến thuật toán FS chạy nhanh - Cài đặt FS ảnh mầu - Phát triển tiếp module nhận dạng ký tự - Tích hợp thành phần mềm hoàn chỉnh http://www.lrc-tnu.edu.vn 82 GVHD: PGS TS Ngô Quốc Tạo Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 83 http://www.lrc-tnu.edu.vn GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy TÀI LIỆU THAM KHẢO Phục Lục Tiếng việt [2] Lƣơng Mạnh Bá, Ngô Thanh Thủy(1999) Nhập môn xử lý ảnh số : Nhà xuất khoa học kỹ thuật, Hà Nội Chƣơng 4, Tr 83-87 [8] PGS TS Ngô Quốc Tạo (2008) Xử lý nhận dạng ảnh : Bài giảng cao học, Viện Công nghệ Thông tin Hà Nội A Mã nguồn đầy đủ chƣơng trình A.1 Danh mục chƣơng trình chƣơng trình TT Tên chƣơng trình Tiếng Anh main [6].Anoop M Namboodiri and Anil K Jain, Document Structure and Layout Analysis, Michigan State University, East Lansing, MI-48824, USA, pp 31-34, 38-41 Topdown Phantich Phantichtrong FSign FSignKV Lienthong Vebien Demo [7].Jiming Lui, Yuan Y Tang, Ching Y Suen (1997), Chinese document layout analysic based on adaptive Split-and-Merge and qualitation spatial reasoning, Elsevier Science, Oxford, ROYAUME-UNI, pp 4-9 [3].MathWorks (1997), Image Processing Toolbox User’s Guide MathWorks, 1997 [5] Sadhana (2002), Document image analysis: A primer, India, pp 3-7 [4].TANG, Yuan Y (2000), Documnet analysis and recogniton by computers Handbook of Pattern recognition and computer vision, World Scientific Company, pp 1-15 [1].Yuan Y Tang, Hong Mat, Xiaogang Maot, Dan Liu and Ching Y Suen (1997), A New Approach to Document Analysis Based on Modified Fractal Signature, Washington, DC, USA : IEEE Computer Society Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 84 http://www.lrc-tnu.edu.vn GVHD: PGS TS Ngô Quốc Tạo Nhiệm vụ Chƣơng trình chứa giao diện chƣơng trình Module thuật toán topdown Module đƣợc gọi từ module topdown, thực phân chia trang tài liệu thành block theo lƣợc đồ xám chiếu nghiêng, khoanh vùng tài liệu Module đƣợc gọi từ module phantich, block chứa cảc đồ họa text đƣợc module phần tích tiếp Module chƣơng trình cho thuật toán Fractal thực phát text đồ họa (chƣa khoanh vùng) Module chƣơng trình cho thuật toán Fractal thực phát khoanh vùng text đồ họa Module tìm vùng liên thông để khoanh vùng Module khoanh vùng vùng liên thông Module chay theo thuật toán Fractal có vẽ demo block đƣợc tính FS Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 85 Tên file lƣu trữ Main.m Topdown.m Phantich.m Phantichtrong.m FSign.m FSignKV.m Lienthong.m Vebien.m demoFS.m http://www.lrc-tnu.edu.vn GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy A.2 Sơ khối liên kết thủ tục chƣơng trình nguongtach=round(((gray_min+gray_max)/2)); z=zeros(1,chieucao);% z la hinh chieu doc for i=1:chieucao for j=1:chieurong if (y(i,j)>nguongtach) % vung nen y(i,j)=255; % xoa trang vung nen else z(i)=z(i)+1; % tinh cho bieu xam end end end %%%%%%%%%%%%%%% chieu_cao_hang=timhang(z); %%%%%%%%%%%%%%%%% tach khoi bang cach vao tung khoi van ban ngang tim hinh %%%%%%%%%%%%%%%%% chieu ngang i=1; start=i; limit=i; luocdo=zeros(1,chieurong); while (ichieucao limit=chieucao; % tranh vuot qua vung bien anh end if (limit-start)>=(0.5*chieu_cao_hang) y=phantich(start,limit,y,nguongtach,chieu_cao_hang,1,size(y,2)); end end while (i=(0.5*chieu_cao_hang) y=phantich(start,limit,y,nguongtach,chieu_cao_hang,1,size(y,2)); end end while (idau cuctieu=round(min(luocdo(dau:cuoi))*1.2); else cuctieu=bienphai-bientrai; end %%%%%%%%%%%% if (cuctieu>0)&((limit-start)>= 2*chieu_cao_hang)% vung anh for hang_anh=start:limit for cot_anh=bientrai:bienphai anh(hang_anh,cot_anh)=255-anh(hang_anh,cot_anh); 3) Phantich: function ketqua=phantich(start,limit,anh,nguongtach,chieu_cao_hang,bientrai,bienphai) %%%%%%%%%%%%%%% Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 88 http://www.lrc-tnu.edu.vn GVHD: PGS TS Ngô Quốc Tạo end end else dorong=0; truoc=luocdo(1); letrai=bientrai; lephai=bientrai; i=bientrai; dautien=0; while(i=bienphai)) % khoang canh cho phep if (lephai>letrai) % tien hanh ve vung van ban % dautien=0; if ((limit-start)< 2*chieu_cao_hang) % khung vung van ban Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 89 http://www.lrc-tnu.edu.vn GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy if lephai>bienphai lephai=bienphai; end for ve_bien_ngang=letrai:lephai anh(start,ve_bien_ngang)=0; anh(limit,ve_bien_ngang)=0; end for ve_bien_doc=start:limit anh(ve_bien_doc,letrai)=0; anh(ve_bien_doc,lephai)=0; end else if (letraicu==letrai) & (lephaicu==lephai)&(startcu==start)&(limitcu==limit) % tranh bi treo % trung khoi phan tich letraicu lephaicu startcu limitcu else letraicu=letrai; lephaicu=lephai; startcu=start; limitcu=limit; anh=phantichtrong(start,limit,letrai,lephai,anh,nguongtach,chieu_cao_hang); end end end letrai=i;% bat dau mot vung van ban dorong=0; else dorong=0; end while (icuctieu) i=i+1; % di qua vung van ban lephai=i; end end end ketqua=anh; 4) Phantichtrong: function ketqua=phantichtrong(start,limit,letrai,lephai,anh,nguongtach,chieu_cao_hang) y=anh; chieucao=limit; chieurong=lephai; %%%%%%%%%Phan nguong va tim hinh chieu doc %z=zeros(1,size(y,1));% z la hinh chieu doc z=zeros(1,limit-start+1);% z la hinh chieu doc for i=start:chieucao for j=letrai:chieurong if (y(i,j)>nguongtach) % vung nen else z(i-start+1)=z(i-start+1)+1; % tinh cho bieu xam end end end %%%%%%%%%%%%%%%%% tach khoi bang cach vao tung khoi van ban ngang tim hinh %%%%%%%%%%%%%%%%% chieu ngang Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 90 http://www.lrc-tnu.edu.vn GVHD: PGS TS Ngô Quốc Tạo i=start; start_t=i; limit_t=i; while (ichieucao limit_t=chieucao; % tranh vuot qua vung bien anh end y=phantich(start_t,limit_t,y,nguongtach,chieu_cao_hang,letrai,lephai); end while (iround(chieurong/N) chieurong=round(chieurong/N)*N+N; else chieurong=round(chieurong/N)*N; end %anh=zeros(1:chieucao,1:chieurong); %%%%%%%%%%%%%%%%%%%% %loc nhieu anh goc %anh = filter2(fspecial('average',3),anh); Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 91 http://www.lrc-tnu.edu.vn GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy anh=double(anh)/255; % chuyen sang kieu double %%%%%%% mat na loc loc=[0 0;1 1;0 0]; loc=1/8*loc; %%%%%%% dung ham loc anh=conv2(anh,loc); anh=uint8(round(anh*255)); %%%%%%%%%%%%%% for i=1:chieucao for j=1:chieurong if (i>chieucao_goc)|(j>chieurong_goc) % ngoai vung bien anh goc anh(i,j)=0; % dat la vung nen anh else % vung bien anh goc %anh(i,j)=255-anh(i,j); if (anh(i,j)>nguongtach) % vung nen %anh(i,j)=255; % xoa trang vung nen anh(i,j)=0; else %z(i)=z(i)+1; % tinh cho bieu xam anh(i,j)=255-anh(i,j); end end end end %%%%%%%%%%%%%%% tinh FS cho moi block FS=[]; k=0; g5=u_layer1(ki-1,kj); temp=[g1_u g2 g3 g4 g5 g1_b]; u_layer2(ki,kj)=max(temp(1:5)); b_layer2(ki,kj)=min(temp(2:6)); vol2=vol2+(u_layer2(ki,kj)-b_layer2(ki,kj)); %%%%%%%%%%%%%%%% tinh xong gia tri cua lop tren duoi voi delta2 end end % tinh FS k=k+1; FS(k)=(vol2-vol1)/2; end end %%%%%%%%%%%%%%%% Tach anh va text k=0; %nguong=((min(FS)+max(FS))/2); %nguong=3000; anh=255-anh; anh=cat(3,anh,anh,anh); nguong=min(FS)+50; for i=2:round(chieucao/N) for(j=2:round(chieurong/N)) k=k+1; if (FS(k)>4000) % anh anh((i-1)*N+1:i*N,(j-1)*N+1:j*N,2:3)=20; elseif (FS(k)>nguong) % text anh((i-1)*N+1:i*N,(j-1)*N+1:j*N,1)=150; anh((i-1)*N+1:i*N,(j-1)*N+1:j*N,3)=150; end %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% u_layer1=zeros(N+2);b_layer1=zeros(N+2);u_layer2=zeros(N+2);b_layer2=zeros(N+2);block_k=zeros(N +2); %%%%%%%%%%%%%%%%%%%%%% for i=2:round(chieucao/N) for(j=2:round(chieurong/N)) %%%%%%%%%% thao tac voi block thu K u_layer1(:,:)=0; b_layer1(:,:)=0; u_layer2(:,:)=0; b_layer2(:,:)=0; vol1=0; vol2=0; block_k(2:N+1,2:N+1)=anh((i-1)*N+1:i*N,(j-1)*N+1:j*N); % tinh gia tri cho lop tren va duoi voi delta1 cho moi vung thu k for ki=2:N+1 for kj=2:N+1 g1_u=block_k(ki,kj)+1; g1_b=block_k(ki,kj)-1; g2=block_k(ki,kj+1); g3=block_k(ki,kj-1); g4=block_k(ki+1,kj); g5=block_k(ki-1,kj); temp=[g1_u g2 g3 g4 g5 g1_b]; u_layer1(ki,kj)=max(temp(1:5)); b_layer1(ki,kj)=min(temp(2:6)); vol1=vol1 + (u_layer1(ki,kj)-b_layer1(ki,kj)); % tinh xong lop tren va duoi voi delta1 % tinh gia tri cho lop tren va duoi voi delta2 g1_u=u_layer1(ki,kj)+1; g1_b=b_layer1(ki,kj)-1; g2=u_layer1(ki,kj+1); g3=u_layer1(ki,kj-1); g4=u_layer1(ki+1,kj); Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 92 http://www.lrc-tnu.edu.vn GVHD: PGS TS Ngô Quốc Tạo end end imshow(anh) 6) FSignKV global anh anh=imread(filename); % doc anh tu mot file JPG N=15; % kich thuoc moi block k=1; % so block tren anh co kich thuoc NxN chieucao=size(anh,1); % chieu cao cuar anh vao chieucao_goc=chieucao; chieurong=size(anh,2); % chieu rong cua anh vao chieurong_goc=chieurong; %%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%% %%%%%%%%%Phan nguong va tim hinh chieu doc gray_min=min(min(anh)); gray_max=max(max(anh)); nguongtach=round(((gray_min+gray_max)/2)); % chuan hoa kich thuoc anh the nguyen lan cua NxN %chuan chieu cao anh if (chieucao/N)>round(chieucao/N) chieucao=round(chieucao/N)*N+N; else chieucao=round(chieucao/N)*N; end %chuan chieu rong anh if (chieurong/N)>round(chieurong/N) Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 93 http://www.lrc-tnu.edu.vn GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy chieurong=round(chieurong/N)*N+N; else chieurong=round(chieurong/N)*N; end %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% u_layer1=zeros(N+2);b_layer1=zeros(N+2);u_layer2=zeros(N+2);b_layer2=zeros(N+2);block_k=zeros(N +2); %%%%%%%%%%%%%%%%%%%%%% % mang chua FS global AFS AFS=zeros(round(chieucao/N)-1,round(chieurong/N)-1); %%%%%%%%%%%%%%%%%%%%%% for i=2:round(chieucao/N) for(j=2:round(chieurong/N)) %%%%%%%%%% thao tac voi block thu K u_layer1(:,:)=0; b_layer1(:,:)=0; u_layer2(:,:)=0; b_layer2(:,:)=0; vol1=0; vol2=0; block_k(2:N+1,2:N+1)=anh((i-1)*N+1:i*N,(j-1)*N+1:j*N); % tinh gia tri cho lop tren va duoi voi delta1 cho moi vung thu k for ki=2:N+1 for kj=2:N+1 g1_u=block_k(ki,kj)+1; g1_b=block_k(ki,kj)-1; g2=block_k(ki,kj+1); g3=block_k(ki,kj-1); g4=block_k(ki+1,kj); g5=block_k(ki-1,kj); temp=[g1_u g2 g3 g4 g5 g1_b]; u_layer1(ki,kj)=max(temp(1:5)); b_layer1(ki,kj)=min(temp(2:6)); vol1=vol1 + (u_layer1(ki,kj)-b_layer1(ki,kj)); % tinh xong lop tren va duoi voi delta1 % tinh gia tri cho lop tren va duoi voi delta2 g1_u=u_layer1(ki,kj)+1; g1_b=b_layer1(ki,kj)-1; g2=u_layer1(ki,kj+1); g3=u_layer1(ki,kj-1); g4=u_layer1(ki+1,kj); g5=u_layer1(ki-1,kj); temp=[g1_u g2 g3 g4 g5 g1_b]; u_layer2(ki,kj)=max(temp(1:5)); b_layer2(ki,kj)=min(temp(2:6)); vol2=vol2+(u_layer2(ki,kj)-b_layer2(ki,kj)); %%%%%%%%%%%%%%%% tinh xong gia tri cua lop tren duoi voi delta2 end end % tinh FS k=k+1; FS(k)=(vol2-vol1)/2; % AFS %AFS(i,j)=(vol2-vol1)/2; end end %%%%%%%%%%%%%%%% Tach anh va text k=0; anh=cat(3,anh,anh,anh); nguong=min(FS)+50; for i=1:round(chieucao/N-1) for(j=1:round(chieurong/N)-1) k=k+1; if ((FS(k)>nguong)&(FS(k)=4000) % vung anh AFS(i,j)=2; % danh dau vung anh end end end %%%%%%%%% khoanh vung global MLT MLT=AFS; MLT=0; % chua khoi cac phan tu lien thong %%%%%%%%%%% set(0,'RecursionLimit',1000) %%%%%%%%%%%% anh=255-anh; for i=1:round(chieucao/N-1) for(j=1:round(chieurong/N)-1) if ((AFS(i,j)~=3)&(AFS(i,j)==1)); % phan tu la text chua xet anh MLT=0; lienthong(i,j,1); Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Số hóa Trung tâm Học liệu – Đại học Thái Nguyên %%%%%%%%%%%%%%%%%%%% %loc nhieu anh goc %anh = filter2(fspecial('average',3),anh); anh=double(anh)/255; % chuyen sang kieu double %%%%%%% mat na loc loc=[0 0;1 1;0 0]; loc=1/8*loc; %%%%%%% dung ham loc anh=conv2(anh,loc); anh=uint8(round(anh*255)); %%%%%%%%%%%%%% for i=1:chieucao for j=1:chieurong if (i>chieucao_goc)|(j>chieurong_goc) % ngoai vung bien anh goc anh(i,j)=0; % dat la vung nen anh else % vung bien anh goc %anh(i,j)=255-anh(i,j); if (anh(i,j)>nguongtach) % vung nen %anh(i,j)=255; % xoa trang vung nen anh(i,j)=0; else %z(i)=z(i)+1; % tinh cho bieu xam anh(i,j)=255-anh(i,j); end end end end %%%%%%%%%%%%%%% tinh FS cho moi block FS=[]; k=0; 94 http://www.lrc-tnu.edu.vn GVHD: PGS TS Ngô Quốc Tạo 95 http://www.lrc-tnu.edu.vn GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy if(sum(sum(MLT))>20 ) % bo qua vung lien thong qua nho vebien(MLT,N,1); end elseif ((AFS(i,j)~=3)&(AFS(i,j)==2)); % phan tu la text chua xet anh MLT=0; lienthong(i,j,2); if(sum(sum(MLT))>20 ) % bo qua vung lien thong qua nho vebien(MLT,N,2); end end end end imshow(anh) if (anh(i,j)>nguongtach) % vung nen %anh(i,j)=255; % xoa trang vung nen anh(i,j)=0; else %z(i)=z(i)+1; % tinh cho bieu xam anh(i,j)=255-anh(i,j); end end end end %%%%%%%%%%%%%%% tinh FS cho moi block FS=[]; k=0; %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% u_layer1=zeros(N+2);b_layer1=zeros(N+2);u_layer2=zeros(N+2);b_layer2=zeros(N+2);block_k=zeros(N +2); %%%%%%%%%%%%%%%%%%%%%% for i=1:round(chieucao/N) for(j=1:round(chieurong/N)) %%%%%%%%%% thao tac voi block thu K u_layer1(:,:)=0; b_layer1(:,:)=0; u_layer2(:,:)=0; b_layer2(:,:)=0; vol1=0; vol2=0; block_k(2:N+1,2:N+1)=anh((i-1)*N+1:i*N,(j-1)*N+1:j*N); % tinh gia tri cho lop tren va duoi voi delta1 cho moi vung thu k for ki=2:N+1 for kj=2:N+1 g1_u=block_k(ki,kj)+1; g1_b=block_k(ki,kj)-1; g2=block_k(ki,kj+1); g3=block_k(ki,kj-1); g4=block_k(ki+1,kj); g5=block_k(ki-1,kj); temp=[g1_u g2 g3 g4 g5 g1_b]; u_layer1(ki,kj)=max(temp(1:5)); b_layer1(ki,kj)=min(temp(2:6)); vol1=vol1 + (u_layer1(ki,kj)-b_layer1(ki,kj)); % tinh xong lop tren va duoi voi delta1 % tinh gia tri cho lop tren va duoi voi delta2 g1_u=u_layer1(ki,kj)+1; g1_b=b_layer1(ki,kj)-1; g2=u_layer1(ki,kj+1); g3=u_layer1(ki,kj-1); g4=u_layer1(ki+1,kj); g5=u_layer1(ki-1,kj); temp=[g1_u g2 g3 g4 g5 g1_b]; u_layer2(ki,kj)=max(temp(1:5)); b_layer2(ki,kj)=min(temp(2:6)); vol2=vol2+(u_layer2(ki,kj)-b_layer2(ki,kj)); %%%%%%%%%%%%%%%% tinh xong gia tri cua lop tren duoi voi delta2 end end % ve he truc toa trucx=[1:N+2]; trucy=[1:N+2]; meshgrid(trucx,trucy); % axes(handles.anhgoc); subplot(2,2,1); anhtem=goc; 7) DemFS: anh=imread(filename); % doc anh tu mot file JPG goc=anh; N=15; % kich thuoc moi block k=1; % so block tren anh co kich thuoc NxN chieucao=size(anh,1); % chieu cao cuar anh vao chieucao_goc=chieucao; chieurong=size(anh,2); % chieu rong cua anh vao chieurong_goc=chieurong; %%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%%%% %%%%%%%%%Phan nguong va tim hinh chieu doc gray_min=min(min(anh)); gray_max=max(max(anh)); nguongtach=round(((gray_min+gray_max)/2)); % chuan hoa kich thuoc anh the nguyen lan cua NxN %chuan chieu cao anh if (chieucao/N)>round(chieucao/N) chieucao=round(chieucao/N)*N+N; else chieucao=round(chieucao/N)*N; end %chuan chieu rong anh if (chieurong/N)>round(chieurong/N) chieurong=round(chieurong/N)*N+N; else chieurong=round(chieurong/N)*N; end %%%%%%%%%%%%%%%%%%%% %loc nhieu anh goc anh=double(anh)/255; % chuyen sang kieu double %%%%%%% mat na loc loc=[0 0;1 1;0 0]; loc=1/8*loc; %%%%%%% dung ham loc anh=conv2(anh,loc); anh=uint8(round(anh*255)); %%%%%%%%%%%%%% for i=1:chieucao for j=1:chieurong if (i>chieucao_goc)|(j>chieurong_goc) % ngoai vung bien anh goc anh(i,j)=0; % dat la vung nen anh else % vung bien anh goc %anh(i,j)=255-anh(i,j); Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 96 http://www.lrc-tnu.edu.vn GVHD: PGS TS Ngô Quốc Tạo Số hóa Trung tâm Học liệu – Đại học Thái Nguyên 97 http://www.lrc-tnu.edu.vn GVHD: PGS TS Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy anhtem((i-1)*N+1:(i-1)*N+N,(j-1)*N+1:(j-1)*N+N)=0; imshow(anhtem); subplot(2,2,2); %axes(handles.uper); % surf(trucx,trucy,b_layer2) surf(trucx,trucy,u_layer2) subplot(2,2,3); %axes(handles.block); imshow(255-anh((i-1)*N+1:(i-1)*N+N,(j-1)*N+1:(j-1)*N+N)); subplot(2,2,4); %axes(handles.surf); trucx=[1:N]; trucy=[1:N]; meshgrid(trucx,trucy); surf(trucx,trucy,double(anh((i-1)*N+1:(i-1)*N+N,(j-1)*N+1:(j-1)*N+N))); pause(0.3) % tinh FS k=k+1; FS(k)=(vol2-vol1)/2; end end % quy dinh huong % 1: len % 2: phai % 3: xuong % 4: trai %%%%%%%%%%%%%%% thuat toan bien huong=2; gocx=i; gocy=j; hanhcu=i; cotcu=j; j=j+1; while (~((i==gocx)&(j==gocy))) % khong phai diem dau if MLTF(i,j)==0 % diem trang thi lui lai re phai switch huong case % huong phai j=j-1; i=i+1; huong=3; % huong xuong case % huong xuong i=i-1; j=j-1; huong=4; % huong trai case % huong trai j=j+1; i=i-1; huong=1; % huong len case 1; % len i=i+1; j=j+1; huong=2; end else % gap diem den thi ve va re trai % ve bien hang1=(i-2)*N+1; hang2=(i-1)*N+1; cot1=(j-2)*N+1; cot2=(j-1)*N+1; if (loai==1) anh(hang1:hang2,cot1:cot2,2:3)=150; else anh(hang1:hang2,cot1:cot2,1)=50; anh(hang1:hang2,cot1:cot2,3)=50; end % thuc hien re trai switch huong case j=j-1; % re trai voi huong len huong=4; case i=i-1; % re trai voi huong phai huong=1; case j=j+1; % re trai voi huong xuong huong=2; case i=i+1; % re trai voi huong trai huong=3; 8) Lienthong function lienthong(i,j,loai) % loai=1 la text, =2 la anh global AFS; global MLT; AFS(i,j)=3; % danh dau la da xet MLT(i,j)=1; % danh dau diem thuoc vung lien thong if (((i-1)>0)&((j-1)>0)& (AFS(i-1,j-1)~=3)&(AFS(i-1,j-1)==loai)) lienthong(i-1,j-1,loai);end if (((j-1)>0)& (AFS(i,j-1)~=3)&(AFS(i,j-1)==loai)) lienthong(i,j-1,loai);end if (((i+1)0)&(AFS(i+1,j-1)~=3)&(AFS(i+1,j-1)==loai))lienthong(i+1,j-1,loai);end if (((i-1)>0)& (AFS(i-1,j)~=3)&(AFS(i-1,j)==loai)) lienthong(i-1,j,loai);end if (((i+1)0)&((j+1)