Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh

20 320 0
Tìm hiểu phương pháp phân tích bằng bên trong tài liệu ảnh

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN    Nguyễn Thị Hiếu TÌM HIỂU PHƢƠNG PHÁP PHÂN TÍCH BẰNG BÊN TRONG TÀI LIỆU ẢNH Luận văn Thạc sỹ Công nghệ thông tin Thái Nguyên, tháng 11 năm 2009 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN    Nguyễn Thị Hiếu TÌM HIỂU PHƢƠNG PHÁP PHÂN TÍCH BẰNG BÊN TRONG TÀI LIỆU ẢNH Luận văn Thạc sỹ: Công nghệ thông tin Chuyên ngành: Khoa học máy tính Mã số: 604801 Ngƣời hƣớng dẫn Khoa học: PGS.TS Ngô Quốc Tạo Thái Nguyên, tháng 11 năm 2009 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỤC LỤC Trang phụ bìa Lời cảm ơn MỤC LỤC -i THUẬT NGỮ TIẾNG ANH: -iii DANH MỤC CÁC HÌ NH VẼ iv CHƢƠNG I: MỞ ĐẦU 1.1 Cơ sở nghiên cứu mục đích luận văn 1.2 Tổ chức luận văn: CHƢƠNG II: TỔNG QUAN VỀ HỆ PHÂN TÍCH TÀI LIỆU ẢNH -5 2.1 2.2 Tài liệu ảnh -5 Hệ phân tích trang tài liệu 2.3 Thu thập liệu ảnh -6 2.4 Tiền xử lý điểm ảnh -9 2.4.1 Xử lý nhị phân 10 2.4.2 Giảm nhiễu -11 2.4.3 Phân đoạn ảnh -12 2.4.4 2.4.5 Làm mảnh xác định vùng -12 Mã hóa CC véctơ hóa 13 2.5 Phân tí ch đặc trƣng của tài liệu ảnh -15 2.6 Phân tí ch đối tƣợng văn bản tài liệu -15 2.6.1 Xác định góc nghiêng văn 16 2.6.2 Phân tí ch bố cục của trang tà i liệu ảnh 18 2.7 Nhận dạng ký tự quang học (OCR) -19 2.7.1 Thuật toán OCR -20 2.7.1.1 2.7.1.2 2.7.2 2.8 Trích chọn đặc trƣng -20 Phân loại 21 Nhận dạng ký tự dựa ngữ cảnh 21 Phân tích đối tƣợng ảnh tài liệu 22 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn CHƢƠNG 3: THUẬT TOÁN TÁCH VĂN BẢN - ẢNH TỪ TRANG TÀI LIỆU ẢNH 24 3.1 3.2 3.3 Tổng quan về phân tách văn bản – ảnh -24 Những đặc trƣng chung tệp tài liệu ảnh -27 Thuật toán phân tách văn - ảnh 30 3.3.1 Xoá bỏ đối tƣợng tuyến tính -31 3.3.2 Phân tích thành phần liên thông nét bút -32 3.3.3 3.3.4 Kết hợp nét ký tự tạo thành chuỗi văn 34 Thực phép toán hình thái -35 3.3.5 3.3.6 Phân tích thành phần liên thông -35 Biểu diễn cấu trúc thông tin chuỗi văn -36 CHƢƠNG IV: PHƢƠNG PHÁP PHÂN TÍCH BẢNG T-RECS TRONG TRANG TÀI LIỆU ẢNH 39 4.1 Giới thiệu 39 4.2 Thuật toán phân đoạn khởi tạo 41 4.2.1 Trƣờng hợp thuật toán nhận dạng sai cột -42 4.2.2 Cải tiến bƣớc thuật toán phân đoạn khởi tạo T - Recs++ 44 4.2.3 Những ƣu điểm thuật toán -46 4.2.4 Những mặt hạn chế thuật toán khởi tạo 47 4.3 Các bƣớc xử lý khối sau phân đoạn 48 4.3.1 Trộn khối phân đoạn sai 48 4.3.2 Phân tách cột bị trộn vào khối 49 4.3.3 Nhóm từ bị phân tách -52 4.4 Phân tích khối 53 4.5 Xác định cấu trúc cột, hàng 54 CHƢƠNG CHƢƠNG TRÌ NH THƢ̉ NGHIỆM VÀ MINH HỌA THUẬT TOÁN T-RECS++ -56 5.1 Mô tả chƣơng trình -56 5.2 Một số kết quả -58 KẾT LUẬN VÀ ĐỀ XUẤT 61 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn THUẬT NGỮ TIẾNG ANH 3–D Dimensions CAD Computer Aided Design CAM Computer Aided Manufacturing CC Chain Code CCs Connected Components CPU Control Processing Unit DP Dynamic Programming HWRatio Heigh Width Ratio K – NNR K – Nearest Neighbor Rule LC Linear Component LSD Local Stroke Density NCCs New Connected Components NNR Nearest Neighbour Rule OCR Optical Character Recognition T-Recs Table Recognition System WBRatio White Black Ratio WDG White-space Density Graphs Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC HÌ NH VẼ Hình 2.1 Hình 2.2 Hình 2.3 Hình 2.4 Hình 2.5 Hình 2.6 Sơ đồ quá trì nh xử lý tài liệu Sơ đồ quá trì nh phân tí ch trang tài liệu Phương pháp nhị phân ảnh (a) Histogram ảnh đa cấp xám nguyên bản, (b) chọn ngưỡng thấp, (c) chọn ngưỡng hợp lý, (d) chọn ngưỡng cao Ảnh nguyên bản(Vân tay) bên trái ảnh sau làm mảnh bên phải Tài liệu ảnh trước sau bước tiền xử lý Ảnh (a) gốc, ảnh (b) ảnh sau chuyển về ảnh nhị phân, ảnh (c) ảnh sau chỉnh nghiêng, ảnh (d) ảnh sau lọc nhiễu Hình 3.4 văn bản bị nghiêng sau được quét qua máy quét Ví dụ minh họa kết phân tích bố cục trang tài liệu ảnh Chữ viết tay có thể gây nhầm lẫn Ví dụ về đối tượng văn đối tượng ảnh Biểu diễn điểm ảnh giao Một số trường hợp ngoại lệ Sơ đồ thuật toán phân tách văn bản Hình 3.5 Hình 4.1 Hình 4.2 Hình 4.3 Hình 4.4 Hình 4.5 Hình 4.7 Hình 4.8 Hình 4.9 Hinh 4.10 Hình 4.11 Hình 4.12 Hình 4.14 Hình 4.15 Hình 5.1 Hình 5.2 Hình 5.3 Hình 3.5 Nhận dạng đường kẻ nghiêng với phép toán kéo dãn Ví dụ minh họa tư tưởng thuật toán khởi tạo thuật khởi tạo đối với một đoạn văn bản Trường hợp thuật toán nhận dạng sai cột Trường hợp dòng cột bảng có ô trắng Mô việc thực bước cải tiến thuật toán Quá trình phân đoạn cột bảng Trường hợp ô bảng chiếm nhiều dòng Những mặt hạn chế thuật toán Trộn hai khối bị phân tách Tách cột bị trộn Trộn lại các khối bị tách Tách khối loại thành ô bảng Tách khối loại thành hàng bảng Giao diện chương trì nh T-Recs Nhận dạng khối văn bản với T-Recc++ Nhận dạng tài liệu ảnh là bảng quy chế với T-Recs++ Hình 2.7 Hình 2.8 Hình 3.1 Hình 3.2 Hình 3.3 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Lêi c¶m ¬n Trong quá trì nh làm luận văn vừa qua , dưới sự giúp đỡ và chỉ bảo nhiệt tì nh của PGS TS Ngô Quốc Tạo – Viện Công nghệ Thông tin – Viện khoa học Việt Nam , luận văn của đã được hoàn thành Mặc dù đã cố gắng không ngừng cùng với sự tận tâm của thầy hướng dẫn song thời gian và khả vẫn còn nhiều hạn chế nên luận vă n khó tránh khỏi những thiếu sót quá trì nh làm luận văn Để hoàn thành được luận văn này Em xin bày tỏ lòng biết ơn sâu sắc tới PGS TS Ngô Quốc Tạo - người thầy đã tận tì nh giúp đỡ em suốt quá trình tìm hiểu , xây dựng và phát triển luận văn này Em xin chân thành cảm ơn các thầy , cô giáo Viện Công nghệ Thông tin – Viện khoa học Việt N am đã giảng dạy và hướng dẫn em suốt năm học qua Em cũng xin cảm ơn ban lãnh đạo khoa và toàn thể thầy cô giáo khoa Công Nghệ thông tin – Đại Học Thái Nguyên đã tạo điều kiện tốt nhấ t giúp em học tập và hoàn thành luận văn này Và cuối cùng cũng xin cảm ơn gia đình , các bạn nhóm luận văn và toàn thể các học viên lớp Cao học K đã động viên , quan tâm và giúp đỡ thời gian qua Cuối cù ng rất mong nhận được sự chỉ dẫn , góp ý của các thầy cô và các bạn để luận văn của được hoàn thiện Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn CHƢƠNG 1: MỞ ĐẦU Nhận dạng xử lý ảnh lĩnh vực mang tính khoa học công nghệ Ở Việt Nam Nhận dạng xử lý ảnh ngành khoa học mới mẻ so với nhiều ngành khoa học khác tốc độ phát triển của nhanh Sự đời của tạo kỹ thuật quan trọng ảnh hưởng trực tiếp đến lĩnh vực như: Tivi, truyền thông, kỹ xảo đồ hoạ… Cùng với sự phát triển đó có những nhu cầu thực tế đặt thách thức các nhà khoa học máy tính càng nhiều Những công việc , những bài toán được xử lý theo lối cổ truyền không theo kị p tốc độ phát triển của công nghệ ngày Một những bài toán đó chí nh là các tài liệu được lưu trữ các chất liệu cổ truyền giấy, gỗ, vải với khối lượng khổng lồ , chứa đựng rất nhiều tri thức của nhân loại lại không có độ bền vĩ nh cửu , khó xử lý và lưu trữ Một bài toán khác là ngày công việc văn phòng liên quan nhiều đến các tài liệu không đơn thuần là tài liệu chữ mà tài liệu có nhiều thành phần bảng biểu , ảnh Tất cả các tài liệu đó nếu tiếp tục lưu trữ theo phương pháp cổ truyền thì rất phức tạp và khó xử lý Vậy làm thế nào để chuyển đổi những kho tàng tri thức vào máy tí nh để lưu trữ , xử lý dễ dàng, thuận tiên và nhanh gọn Một lĩ nh vực của khoa học nhâ n dạng là Phân tích tài liệu ảnh đời nhằm biểu diễn thông tin các tài liệu ảnh dưới dạng có cấu trúc Hệ phân tích nhận dạng tài liệu ảnh có mục đích chuyển đổi tự động những thông tin lưu trữ tài liệu giấy thành biểu diễn dưới dạng những cấu trúc mà có thể truy xuất, thay đổi được máy tính Quy trình xử lý của hệ phân tích tài liệu bắt đầu việc lấy dữ liệu, tài liệu từ giấy in được quét qua máy quét để lưu trữ máy tính dưới dạng tệp dữ liệu ảnh Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Một tài liệu ảnh là cách biểu diễn trực quan của các trang tài liệu được in bài tạp chí, lá thư, trang báo, mẩu thư hay bản vẽ kỹ thuật, v.v Một tài liệu ảnh có thể bao gồm các chuỗi ký tự, các hình vẽ, các bức ảnh, v.v Bên cạnh việc chuyển toàn nội dung của tài liệu sang tài liệu điện tử cũng cần phải bảo toàn cấu trúc và định dạng của tài liệu Mục tiêu bản của hệ phân tích tài liệu ảnh hoàn chỉnh đó là chuyển tài liệu lưu trữ giấy sang dạng biểu diễn có thứ tự cấu trúc và nội dung của nó Tài liệu được chuyển sang phải có khả thay đổi, soạn thảo và lưu trữ vì nội dung của tài liệu có thể truy cập cấu trúc của nó thay vì phải truy cập dưới dạng những mẫu ảnh Có số lượng lớn ứng dụng của hệ phân tích tài liệu ảnh được ứng dụng các lĩnh vực như: dịch vụ bưu chính, Chính phủ, chăm sóc y tế, thư viện, v.v Mục đích của luận văn nghiên cứu kỹ thuật nhận dạng bảng và trí ch chọn đối tượng của tài liệu ảnh Kỹ thuật “Phân tích bảng – T-Recs” là nghiên cứu chí nh Với tư tưởng chính của “Phương pháp phân tích bảng” đó là không xem xét đến bất cứ loại đường phân cách nào để xác định cấu trúc bảng Thay vào đó phương pháp tập trung vào việc nhận biết các từ cùng khối logic (chẳng hạn các từ cùng cột dữ liệu được cho vào cùng khối) Phương pháp không tìm những đặc trưng để phân biệt hai vùng dữ liệu (hai cột) khác mà tìm những đặc trưng để tìm các từ cùng khối logic và từ đó xây dựng cấu trúc riêng theo phương pháp tiếp cận bottom - up Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 1.1 Cơ sở nghiên cứu mục đích luận văn Ảnh là đối tượng khá phức tạp về đường nét, dung lượng điểm ảnh, độ sáng tối, môi trường để thu nhận ảnh phong phú kéo theo nhiễu Trong nhiều khâu phân tích ảnh việc đơn giản hoá phương pháp toán học đảm bảo tiện lợi cho xử lý, người ta mong muốn bắt chước quy trình tiếp nhận xử ảnh theo cách của người Trong bước xử lý đó nhiều khâu hiện xử lý theo phương pháp trí tuệ của người Những hệ thống nhận dạng cấu trúc không đơn giản là chuyển tài liệu in thành tài liệu điện tử mà thế nữa còn là xây dựng những quá trình xử lý kết hợp chẳng hạn như: tự động chép nội dụng, đánh mục và phân loại Do đó việc quan trọng là kèm theo nội dung của tài liệu cũng phải trích chọn những cấu trúc kèm với nội dung đó Nhận dạng bảng toán nhận dạng cấu trúc bảng có trang tài liệu ảnh, bao gồm việc nhận dạng cột, dòng ô có chứa dữ liệu bảng Nhận dạng đối tượng ảnh toán nhằm phân tách đối tượng ảnh những trang tài liệu ảnh có chứa hỗn hợp đối tượng chuỗi ký tự đối tượng ảnh như: sơ đồ, hình vẽ, bức ảnh …v.v Mặc dù có nhiều kỹ thuật hệ thống nhận dạng cấu trúc Tuy nhiên những nghiên cứu những vấn đề đó vẫn còn tiếp tục phát triển vì chất lượng, độ chính xác, tính hiệu quả của những phương pháp được công bố trước vẫn còn chưa hoàn chỉnh và cần phải cải tiến chúng Luận văn này trình bày kỹ thuật nhận dạng cấu trúc bảng bên tài liệu ảnh T-Recs và đề xuất số phương pháp khắc phục hạn chế thuật toán T-Recs để hoàn thiện hiện phương pháp phân tích bảng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 1.2 Tổ chức luận văn Luận văn được trình bày thành chương phụ lục Chương Trình bày tóm tắt sở nghiên cứu mục đích cũng cách tổ chức của luận văn Chương Tổng quan về hệ phân tí ch tài liệu ảnh và các thành phần chính hệ phân tí ch tài liệu ảnh : Lấy dữ liệu , xử lý ảnh , trích chọn đặc trưng, nhận dạng đối tượng ảnh và nhận dạng văn bản Chương trình bày bài toán phân tách văn bản và ảnh cách riêng rẽ Trong chương này thuật toán phân tách văn bản và ảnh cũng được trình bày dựa vào việc phân tích các thành phần liên thông (CCs) Chương trình bày phương pháp phân tích bảng ( T-Recs) dựa những hình chữ nhật bao quanh từ và đầu là cấu trúc logic của khối văn bản, cụ thể với những bảng nhận dạng được là cấu trúc các cột và các ô của bảng dữ liệu Phân tích những mặt hạn chế của thuật toán - trường hợp nhận dạng chưa chính xác các cột dữ liệu bảng luận văn đưa thuật toán khắc phục những mặt hạn chế đó Chương Chương trình thử nghiệm và minh họa phân tích bảng trang tài liệu ảnh Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn CHƢƠNG 2: TỔNG QUAN VỀ HỆ PHÂN TÍ CH TÀI LIỆU ẢNH 2.1 Tài liệu ảnh Hình ảnh của đối tượng là sự chụp lại chính bản thân đối tượng đó Ảnh được hình thành qua hệ thống ảnh Tài liệu ảnh là các file ảnh được số hóa thu được cách: quét các trang tài liệu, chụp ảnh, máy fax, từ vệ tinh, các file ảnh này được lưu trữ máy tính Ảnh tài liệu có nhiều loại: đen trắng, ảnh màu, ảnh đa cấp xám,…v.v 2.2 Hệ phân tí ch trang tài liệu Hệ phân tí ch trang tài liệu : Là hệ thống bao gồm những thuật toán và các k ỹ thuật có thể áp dụng cho tài liệu ảnh để lấy được thông tin mà máy tính có thể đọc được hiểu được từ điểm dữ liệu ảnh Một lĩnh vực thu được nhiều thành công phân tích tài liệu ảnh đó Nhận dạng Ký tự Quang học (OCR), phần mềm có khả nhận, chuyển đổi các ký tự từ loại tài liệu dưới dạng ảnh sang tài liệu dưới dạng text OCR giúp người dùng có khả soạn thảo tìm kiếm nội dung của tài liệu Thành phần có hệ phân tích tài liệu: Mục đích của hệ phân tích tài liệu có khả nhận dạng đối tượng văn bản, đối tượng ảnh tài liệu ảnh có khả trích chọn được thông tin mà người dùng mong muốn Chúng ta có thể chia hệ phân tích tài liệu thành hai phần Phần thứ xử lý văn bản, liên quan đến việc xử lý đối tượng văn bản: ký tự, chuỗi ký tự, từ Xử lý văn bản bao gồm công việc sau: xác định độ nghiêng của tài liệu (độ nghiêng hay độ xiên của tài liệu ảnh tài liệu được đặt không đúng thực hiện quét vào từ máy quét), tìm cột, đoạn văn bản, dòng văn bản, từ cuối Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn nhận dạng văn bản (có thể thêm thuộc tính loại phông chữ, kích thước của phông chữ) phương pháp nhận dạng ký tự quang học (OCR) Phần thứ hai xử lý đối tượng ảnh đối tượng tạo từ đường kẻ sơ đồ, đường kẻ phân tách giữa đoạn văn bản, hình vẽ, lôgô của công ty… Sau áp dụng kỹ thuật phân tích ảnh văn bản, đối tượng cần nhận dạng tài liệu ảnh được trích được biểu diễn dưới dạng tài liệu định dạng khác, chẳng hạn word, html… Ta có thể tóm tắt quá trình xử lý của hệ phân tích tài liệu theo sơ đồ Hình 2.1 [8]: Xử lý tài liệu Xử lý đối tượng ảnh Xử lý văn bản Nhận dạng ký tự quang học Văn bản Phân tích cấu trúc trang Xử lý đường kẻ Xử lý vùng ký tự đặc biêt Xác định độ nghiêng, Đường thẳng, Vùng được tô dòng văn bản, khối đường cong, văn bản, đoạn văn góc bản Hình 2.1 Sơ đồ quá trì nh xử lý tài liệu Tại lại phải phân tích tài liệu ? Những bài toán phần giới thiệu đã đề cập , ta hã y xem xét kỹ về bài toán điển hì nh để thấy được sự cần thiết của việc phân tí ch tài liệu - Lượng tri thức vô giá của nhân loại với số lượng lớn được lưu trữ các thư viện cổ điển dưới các chất liệu giấy , vải, gỗ vẫn còn tồn tại rất nhiều , việc các tài liệu bị các thông tin , thiếu thông tin, số lượng bản Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn hạn chế hay thậm chí các tài liệu bị thoái hoá theo thời gian là những vấn đề phổ biến Vì vậy chúng cần phải được khôi phục và chỉnh sửa bằmg những kỹ thuật phân tích tài liệu - Ngày các văn phòng hiện đại các công việc đều được giải quyết dựa vào máy tí nh Các tài liệu văn bản với nhiều đối tượng (chữ, hình ảnh , các sơ đồ ) được tạo nhiều m áy tính khác , phần mềm khác đó có thể là các đị nh dạng của các tài liệu đó là không tương thí ch với nhau, kích thước cũng khác Như vậy cần một hệ phân tí ch tài liệu giúp nhận dạng các loại tài liệu, trích chọn được các phần chức và có thể chuyển từ định dạng máy tính này sang định dạng khác - Một bài toán khác được đề cập là các máy phân loại thư tự động dùng để phân loại, sắp xếp thư và nhận dạng địa thư Những máy này có từ những thập kỷ trước, ngày yêu cầu cao đó là xử lý nhiều thư hơn, nhanh và yêu cầu chính độ xác cao Những bài toán tạo thách thức và động lực cho sự phát triển những giải pháp tương lai của hệ phân tích tài liệu Hình 2.2 mô tả các bước xử lý cho một hệ phân tí ch tài liệu [8] Sau dữ liệu (tài liệu ảnh ) được đưa vào , tài liệu ảnh trải qua các bước xử lý điểm ảnh và phân tích đặc trưng và sau đó phần nhận dạng văn bản phần nhận dạng ảnh được tách hai chức riêng rẽ Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Trang tài liệu Thu nhận dữ liệu Xử lý điểm ảnh Phân tí ch đặc trưng Phân tích nhận dạng đối tượng văn bản Phân tích nhận dạng đối tượng ảnh Mô tài liệu Hình 2.2 Sơ đồ quá trì nh phân tí ch trang tài liệu Các hệ phân tích tài liệu ngày phát triển hiển nhiên chúng có hệ xử lý tài liệu Chẳng hạn như, hệ thống OCR được sử dụng rộng rãi để lưu trữ, tìm kiếm trích dẫn từ tài liệu lưu trữ giấy Các kỹ thuật phân tích cách bố trí trang tài liệu giúp nhận dạng những biểu mẫu (form) riêng biệt, hay định dạng của trang tài liệu cho phép lưu tài liệu đó Các sơ đồ có thể được đưa vào từ bức ảnh hay vẽ tay có thể thay đổi, soạn thảo lại chúng Sử dụng máy tính có thể chuyển tài liệu viết tay thành tài liệu điện tử được lưu trữ máy tính Các tài liệu được lưu trữ các thư viện, tài liệu kỹ thuật công ty được chuyển đổi sang thành tài liệu điện tử nhằm nâng cao hiệu quả, thuận tiện việc lưu trữ dễ dàng mang đến quan hay mang về nhà Mặc dù tài liệu ngày càng được xử lý và lưu trữ nhiều máy tính thực tế có nhiều hệ thống khác mà tài Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn liệu giấy là phương tiện làm việc hiệu quả chắc chắn tài liệu giấy vẫn là phương tiện làm việc với vài thập kỷ nữa Vấn đề là tích hợp những tài liệu giấy vào máy tính xử lý Sau ta tìm hiểu ngắn gọn các bước xử lý của hệ phân tích tài liệu ảnh 2.3 Thu nhận dƣ̃ liệu ảnh Các dữ liệu các trang tài liệu giấy thường được quét qua máy quét và đưa vào máy tính dưới dạng file ảnh , chúng bao gồm các điểm ảnh (pixels) và được lưu trữ Với ảnh nhị phân g iá trị điểm ảnh có thể là hoặc ,với ảnh đa cấp xám và ảnh màu giá trị điểm ảnh nằm khoảng đến 255 với giá trị R, G, B từ đến 255 Ở độ phân giải thông thường thì có 120 điểm ảnh centimet và với trang có kích thước 20 x 30 cm thì tạo ảnh với 2400 x 3600 điểm ảnh Do đó có thể thấy tài liệu ảnh bao bồm các dữ liệu thô (giá trị các điểm ảnh) và chúng được sử dụng những kỹ thuật phân tích thích hợp để lấy được các thông tin cần thiết 2.4 Tiền xử lý điểm ảnh Bước tiếp theo hệ phân tích tài liệu là thực hiện số thao tác xử lý tài liệu ảnh thu được để chuẩn bị cho những bước phân tích tiếp theo Chẳng hạn các thao tác: chọn ngưỡng để chuyển ảnh đa cấp xám, ảnh màu về dạng ảnh nhị phân, giảm nhiễu để loại bỏ những dữ liệu không liên quan, phân đoạn để phân tách các thành phần khác ảnh và cuối cùng là làm mảnh hay dò biên để dễ dàng xác định các vùng, các đặc trưng thích hợp và các đối tượng cần quan tâm Sau những bước xử lý trên, dữ liệu thường được biểu diễn dưới dạng nén lại dùng mã hoá CC và biểu diễn dưới dạng véctơ Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 10 2.4.1 Xƣ̉ lý nhị phân Với những ảnh đa cấp xám thông tin sẵn dạng nhị phân chẳng hạn chuỗi văn bản hay đối tượng ảnh, phương pháp nhị phân thông thường được thực hiện trước Mục đích của phương pháp tự động chọn ngưỡng cần thiết để tách ảnh làm hai phần: thông tin ảnh thông tin nền Việc lựa chọn ngưỡng tốt (ngưỡng mà có thể phân tách ảnh thành hai phần: phần ảnh, phần nền cách xác) trình khó dễ gây lỗi (0) Hình 2.3 Phương pháp nhị phân ảnh (a) Histogram ảnh đa cấp xám nguyên bản, (b) chọn ngưỡng thấp, (c) chọn ngưỡng hợp lý, (d) chọn ngưỡng cao Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 11 Quá trình xử lý này gặp khó khăn trường hợp khi: độ tương phản giữa giá trị điểm ảnh văn bản nền thấp (chẳng hạn văn bản được soạn thảo nền xám thuần nhất), nét của văn bản mỏng dữ liệu không được chiếu sáng tốt thực hiện quét tài liệu giấy Rất nhiều phương pháp được phát triển để khắc phục những hạn chế trên, chẳng hạn phương pháp tách ngưỡng tự động tìm giá trị θ thích hợp để chia ảnh thành hai phần 2.4.2 Giảm nhiễu Nhiễu tài liệu ảnh nhiều nguyên nhân bao gồm: sự thoái hoá theo thời gian, quá trình ch ép, trình quét tài liệu Một số kỹ thuật xử lý ảnh được áp dụng để loại bỏ nhiễu Sau được nhị phân hoá, tài liệu ảnh được lọc để giảm nhiễu Trên thực tế tồn tại nhiều loại nhiễu, nhiên người ta thường xem xét loại nhiễu chính: nhiễu cộng, nhiễu nhân nhiễu xung Chúng xuất hiện những điểm ảnh khác biệt so với vùng xung quanh, chẳng hạn điểm ảnh nhiễu ON (điểm mang thông tin ảnh) vùng nền OFF (điểm mang thông tin nền) hay ngược lại điểm ảnh OFF vùng nền ON cạnh gồ ghề của ký tự hay đối tượng ảnh Bản chất của nhiễu thường tương ứng với tần số cao sở lý thuyết của lọc cho những tín hiệu có tần số đó thông qua, đó để lọc nhiễu người ta thường sử dụng lọc thông thấp hay lọc trung bình Với nhiễu cộng và nhiễu nhân ta dùng các lọc thông thấp, trung bình; với nhiễu xung ta dùng lọc trung vị, giả trung vị Trong lọc trung bình, thường người ta ưu tiên cho các hướng để bảo vệ biên của ảnh khỏi bị mờ làm trơn ảnh Các kiểu mặt nạ được sử dụng tùy theo các trường hợp khác Các lọc là lọc tuyến tính theo nghĩa là điểm ảnh tâm cửa số được thay tổ hợp các điểm lân cận chập với mặt nạ Lọc thông thấp thường được sử dụng để làm trơn nhiễu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 12 Các lọc phi tuyến cũng được dùng kỹ thuật tăng cường ảnh Trong kỹ thuật người ta dùng lọc trung vị, lọc giả trung vị Với lọc trung vị điểm ảnh được thay thế trung vị điểm ảnh, lọc giả trung vị điểm ảnh được thay thế trung bình cộng của hai giá trị “trung vị” 2.4.3 Phân đoạn ảnh Quá trình phân đoạn ảnh được thực hiện làm hai giai đoạn Giai đoạn thứ nhất, tách các lớp văn bản và ảnh riêng biệt nếu tài liệu có chứa cả văn bản và ảnh Giai đoạn thứ hai là thực hiện phân tách hai lớp đối tượng vừa tách trên, với văn bản xác định các cột, các đoạn văn bản, các từ và các ký tự; với lớp đối tượng ảnh thực hiện phân tách các biểu tượng, các hình vẽ, các đường kẻ và các hình ảnh Chẳng hạn tài liệu ảnh có chứa các đoạn văn bản và các hình minh hoạ giống trang tạp chí, đầu tiên văn bản và ảnh được tách riêng Sau đó văn bản được tách thành các chuỗi ký tự Ảnh thì được tách các thành phần hình chữ nhật, hình tròn, các đường kẻ, biểu tượng v.v Sau bước tài liệu ảnh phân tách thành những đối tượng nhỏ các ký tự và các thành phần bản của ảnh 2.4.4 Làm mảnh và xác định vùng Làm mảnh ảnh là thao tác xử lý ảnh đó đối tượng ảnh được biểu diễn là những đường trục được gọi là đường tâm hay còn gọi là lấy xương của ảnh Một đối tượng ảnh đó được biểu diễn đường xương của nó việc giảm bớt số lượng điểm ảnh có giá trị ON của đối tượng và vẫn đảm bảo tính chất liên thông của đối tượng Mục đích của việc làm mảnh ảnh là giảm bớt các thành phần mà lưu trữ các thông tin thiết yếu phục vụ cho việc phân tích và nhận dạng sau này thuận tiện Chẳng hạn đường kẻ thẳng có thể vẽ tay với độ đậm của nét bút là Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 13 khác có thể biểu diễn chúng giống Trong Hình 2.4 đưa ví dụ ảnh được phân tích phương pháp làm mảnh Hình 2.4 Ảnh nguyên bản(Vân tay) bên trái ảnh sau làm mảnh bên phải Lưu ý nếu hình tròn hay hình vuông mà được tô kín các điểm đen thì kết quả làm mảnh những đối tượng là điểm ảnh nằm tại tâm của hình vẽ bất kể kích thước của đối tượng là thế nào Do đó có thể thấy rõ ràng việc xác định được vùng biên của đối tượng là quan trọng Nói chung với các đối tượng có kích thước lớn, dò biên là phương pháp lựa chọn thích hợp để biểu diễn đối tượng, còn đối với những đối tượng được tạo thành những nét kết nối dài thì làm mảnh là phương pháp thích hợp Làm mảnh thường được sử dụng là quá trình tiền xử lý đối với những ứng dụng phân tích tài liệu xử lý sơ đồ hay bản đồ Với những đối tượng ảnh lớn mà vùng ảnh được tô đầy chẳng hạn những lôgô thì phương pháp dò biên đối tượng thích hợp Nhưng với những vùng nhỏ, chẳng hạn ký tự riêng biệt thì cũng không phải phương pháp làm mảnh cùng không phải phương pháp dò biên được thực hiện mà đó vùng ảnh được biểu diễn dưới dạng mảng các giá trị của điểm ảnh Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn [...]... thành công nhất trong phân tích tài liệu ảnh đó là Nhận dạng Ký tự Quang học (OCR), phần mềm có khả năng nhận, chuyển đổi các ký tự từ các loại tài liệu dưới dạng ảnh sang tài liệu dưới dạng text OCR giúp người dùng có khả năng soạn thảo và tìm kiếm nội dung của tài liệu Thành phần chính có trong một hệ phân tích tài liệu: Mục đích của một hệ phân tích tài liệu là có... ảnh Phân tí ch đặc trưng Phân tích và nhận dạng đối tượng văn bản Phân tích và nhận dạng đối tượng ảnh Mô tài liệu Hình 2.2 Sơ đồ quá trì nh phân tí ch trang tài liệu Các hệ phân tích tài liệu sẽ ngày càng phát triển và hiển nhiên là chúng sẽ có trong các hệ xử lý tài liệu Chẳng hạn như, hệ thống OCR sẽ được sử dụng rộng rãi để lưu trữ, tìm kiếm và trích dẫn từ các tài. .. thuật phân tích cách bố trí trong một trang tài liệu giúp nhận dạng những biểu mẫu (form) riêng biệt, hay định dạng của một trang tài liệu và cho phép sao lưu tài liệu đó Các sơ đồ có thể được đưa vào từ các bức ảnh hay vẽ bằng tay và có thể thay đổi, soạn thảo lại chúng Sử dụng máy tính có thể chuyển các tài liệu viết bằng tay thành các tài liệu điện tử được lưu trữ trong. .. thể vẽ bằng tay với độ đậm của nét bút là Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 13 khác nhau nhưng có thể biểu diễn chúng giống nhau Trong Hình 2.4 đưa ra ví dụ ảnh được phân tích bằng phương pháp làm mảnh Hình 2.4 Ảnh nguyên bản(Vân tay) bên trái và ảnh sau khi làm mảnh bên phải Lưu ý rằng nếu một hình tròn hay một hình vuông mà được... Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 9 liệu giấy là phương tiện làm việc hiệu quả và chắc chắn rằng tài liệu giấy vẫn sẽ là phương tiện làm việc với chúng ta trong một vài thập kỷ nữa Vấn đề ở đây là làm sao chúng ta tích hợp những tài liệu giấy vào trong máy tính xử lý Sau đây ta sẽ tìm hiểu ngắn gọn các bước xử lý của một hệ phân tích tài... tốt khi thực hiện quét tài liệu giấy Rất nhiều phương pháp đã được phát triển để khắc phục những hạn chế trên, chẳng hạn như phương pháp tách ngưỡng tự động tìm ra giá trị θ thích hợp để chia ảnh thành hai phần 2.4.2 Giảm nhiễu Nhiễu trong tài liệu ảnh là do nhiều nguyên nhân bao gồm: sự thoái hoá theo thời gian, quá trình sao ch ép, quá trình quét tài liệu Một số kỹ thuật... Các tài liệu được lưu trữ trong các thư viện, các tài liệu kỹ thuật trong các công ty sẽ được chuyển đổi sang thành tài liệu điện tử nhằm nâng cao hiệu quả, thuận tiện trong việc lưu trữ và dễ dàng mang đến cơ quan hay mang về nhà Mặc dù tài liệu sẽ ngày càng được xử lý và lưu trữ nhiều trong máy tính nhưng trên thực tế có rất nhiều các hệ thống khác nhau mà tài Số... từ các đường kẻ trong sơ đồ, các đường kẻ phân tách giữa các đoạn văn bản, các hình vẽ, các lôgô của công ty… Sau khi áp dụng các kỹ thuật phân tích ảnh và văn bản, các đối tượng cần nhận dạng trong tài liệu ảnh được trích ra và được biểu diễn dưới dạng một tài liệu định dạng khác, chẳng hạn như word, html… Ta có thể tóm tắt quá trình xử lý của hệ phân tích tài liệu... nhị phân Với những ảnh đa cấp xám các thông tin đã sẵn ở dạng nhị phân chẳng hạn như các chuỗi văn bản hay các đối tượng ảnh, thì phương pháp nhị phân thông thường sẽ được thực hiện trước Mục đích của phương pháp này là sẽ tự động chọn một ngưỡng cần thiết để tách ảnh ra làm hai phần: thông tin ảnh và thông tin nền Việc lựa chọn một ngưỡng tốt (ngưỡng mà có thể phân. .. tượng ảnh trong tài liệu ảnh và có khả năng trích chọn ra được các thông tin mà người dùng mong muốn Chúng ta có thể chia một hệ phân tích tài liệu thành hai phần Phần thứ nhất là xử lý văn bản, liên quan đến việc xử lý các đối tượng văn bản: ký tự, chuỗi ký tự, các từ Xử lý văn bản bao gồm các công việc sau: xác định độ nghiêng của tài liệu (độ nghiêng hay độ xiên của tài liệu

Ngày đăng: 01/09/2016, 15:59

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan