1. Trang chủ
  2. » Luận Văn - Báo Cáo

TÌM HIỂU PHƯƠNG PHÁP PHÂN TÍCH BẰNG BÊN TRONG TÀI LIỆU ẢNH

37 307 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN    ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN    Nguyễn Thị Hiếu Nguyễn Thị Hiếu TÌM HIỂU PHƢƠNG PHÁP PHÂN TÍCH BẰNG BÊN TRONG TÀI LIỆU ẢNH Luận văn Thạc sỹ Công nghệ thông tin TÌM HIỂU PHƢƠNG PHÁP PHÂN TÍCH BẰNG BÊN TRONG TÀI LIỆU ẢNH Luận văn Thạc sỹ: Công nghệ thông tin Chuyên ngành: Khoa học máy tính Mã số: 604801 Ngƣời hƣớng dẫn Khoa học: PGS.TS Ngô Quốc Tạo Thái Nguyên, tháng 11 năm 2009 Thái Nguyên, tháng 11 năm 2009 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn CHƢƠNG 3: THUẬT TOÁN TÁCH VĂN BẢN - ẢNH TỪ TRANG TÀI MỤC LỤC LIỆU ẢNH 24 Trang phụ bìa Lời cảm ơn MỤC LỤC -i THUẬT NGỮ TIẾNG ANH: -iii DANH MỤC CÁC HÌ NH VẼ iv CHƢƠNG I: MỞ ĐẦU 1.1 Cơ sở nghiên cứu mục đích luận văn 1.2 Tổ chức luận văn: CHƢƠNG II: TỔNG QUAN VỀ HỆ PHÂN TÍCH TÀI LIỆU ẢNH -5 2.1 2.2 Tài liệu ảnh -5 Hệ phân tích trang tài liệu 2.3 Thu thập liệu ảnh -6 2.4 Tiền xử lý điểm ảnh -9 2.4.1 Xử lý nhị phân 10 2.4.2 Giảm nhiễu -11 2.4.3 Phân đoạn ảnh -12 2.4.4 2.4.5 Làm mảnh xác định vùng -12 Mã hóa CC véctơ hóa 13 2.5 Phân tí ch đặc trƣng của tài liệu ảnh -15 2.6 Phân tí ch đối tƣợng văn bản tài liệu -15 2.6.1 Xác định góc nghiêng văn 16 Phân tí ch bố cục của trang tà i liệu ảnh 18 2.6.2 2.7 Nhận dạng ký tự quang học (OCR) -19 2.7.1 Thuật toán OCR -20 2.7.1.1 Trích chọn đặc trƣng -20 2.7.1.2 Phân loại 21 2.7.2 2.8 Nhận dạng ký tự dựa ngữ cảnh 21 Phân tích đối tƣợng ảnh tài liệu 22 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3.1 3.2 3.3 Tổng quan về phân tách văn bản – ảnh -24 Những đặc trƣng chung tệp tài liệu ảnh -27 Thuật toán phân tách văn - ảnh 30 3.3.1 Xoá bỏ đối tƣợng tuyến tính -31 3.3.2 Phân tích thành phần liên thông nét bút -32 3.3.3 3.3.4 Kết hợp nét ký tự tạo thành chuỗi văn 34 Thực phép toán hình thái -35 3.3.5 3.3.6 Phân tích thành phần liên thông -35 Biểu diễn cấu trúc thông tin chuỗi văn -36 CHƢƠNG IV: PHƢƠNG PHÁP PHÂN TÍCH BẢNG T-RECS TRONG TRANG TÀI LIỆU ẢNH 39 4.1 Giới thiệu 39 4.2 Thuật toán phân đoạn khởi tạo 41 4.2.1 Trƣờng hợp thuật toán nhận dạng sai cột -42 4.2.2 Cải tiến bƣớc thuật toán phân đoạn khởi tạo T - Recs++ 44 4.2.3 4.2.4 Những ƣu điểm thuật toán -46 Những mặt hạn chế thuật toán khởi tạo 47 4.3 Các bƣớc xử lý khối sau phân đoạn 48 4.3.1 Trộn khối phân đoạn sai 48 4.3.2 Phân tách cột bị trộn vào khối 49 4.3.3 Nhóm từ bị phân tách -52 4.4 Phân tích khối 53 4.5 Xác định cấu trúc cột, hàng 54 CHƢƠNG CHƢƠNG TRÌ NH THƢ̉ NGHIỆM VÀ MINH HỌA THUẬT TOÁN T-RECS++ -56 5.1 Mô tả chƣơng trình -56 5.2 Một số kết quả -58 KẾT LUẬN VÀ ĐỀ XUẤT 61 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC HÌ NH VẼ THUẬT NGỮ TIẾNG ANH 3–D Dimensions CAD Computer Aided Design CAM Computer Aided Manufacturing CC Chain Code CCs Connected Components CPU Control Processing Unit Hình 2.5 DP Dynamic Programming Hình 2.6 HWRatio Heigh Width Ratio K – NNR K – Nearest Neighbor Rule LC Linear Component LSD Local Stroke Density Hình 2.7 Hình 2.8 Hình 3.1 Hình 3.2 Hình 3.3 NCCs New Connected Components NNR Nearest Neighbour Rule OCR Optical Character Recognition T-Recs Table Recognition System WBRatio White Black Ratio WDG White-space Density Graphs Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Hình 2.1 Hình 2.2 Hình 2.3 Hình 2.4 http://www.lrc-tnu.edu.vn Sơ đồ quá trì nh xử lý tài liệu Sơ đồ quá trì nh phân tí ch trang tài liệu Phương pháp nhị phân ảnh (a) Histogram ảnh đa cấp xám nguyên bản, (b) chọn ngưỡng thấp, (c) chọn ngưỡng hợp lý, (d) chọn ngưỡng cao Ảnh nguyên bản(Vân tay) bên trái ảnh sau làm mảnh bên phải Tài liệu ảnh trước sau bước tiền xử lý Ảnh (a) gốc, ảnh (b) ảnh sau chuyển về ảnh nhị phân, ảnh (c) ảnh sau chỉnh nghiêng, ảnh (d) ảnh sau lọc nhiễu Hình 3.4 văn bản bị nghiêng sau được quét qua máy quét Ví dụ minh họa kết phân tích bố cục trang tài liệu ảnh Chữ viết tay có thể gây nhầm lẫn Ví dụ về đối tượng văn đối tượng ảnh Biểu diễn điểm ảnh giao Một số trường hợp ngoại lệ Sơ đồ thuật toán phân tách văn bản Hình 3.5 Hình 4.1 Hình 4.2 Hình 4.3 Hình 4.4 Hình 4.5 Hình 4.7 Hình 4.8 Hình 4.9 Hinh 4.10 Hình 4.11 Hình 4.12 Hình 4.14 Hình 4.15 Hình 5.1 Hình 5.2 Hình 5.3 Hình 3.5 Nhận dạng đường kẻ nghiêng với phép toán kéo dãn Ví dụ minh họa tư tưởng thuật toán khởi tạo thuật khởi tạo đối với một đoạn văn bản Trường hợp thuật toán nhận dạng sai cột Trường hợp dòng cột bảng có ô trắng Mô việc thực bước cải tiến thuật toán Quá trình phân đoạn cột bảng Trường hợp ô bảng chiếm nhiều dòng Những mặt hạn chế thuật toán Trộn hai khối bị phân tách Tách cột bị trộn Trộn lại các khối bị tách Tách khối loại thành ô bảng Tách khối loại thành hàng bảng Giao diện chương trì nh T-Recs Nhận dạng khối văn bản với T-Recc++ Nhận dạng tài liệu ảnh là bảng quy chế với T-Recs++ Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn CHƢƠNG 1: MỞ ĐẦU Lêi c¶m ¬n Trong quá trì nh làm luận văn vừa qua , dưới sự giúp đỡ và chỉ bảo Nhận dạng xử lý ảnh lĩnh vực mang tính khoa học công nhiệt tì nh của PGS TS Ngô Quốc Tạo – Viện Công nghệ Thông tin – Viện nghệ Ở Việt Nam Nhận dạng xử lý ảnh ngành khoa học mới mẻ so khoa học Việt Nam , luận văn của đã được hoàn thành Mặc dù đã cố gắng với nhiều ngành khoa học khác tốc độ phát triển của nhanh Sự không ngừng cùng với sự tận tâm của thầy hướng dẫn song thời gian và đời của tạo kỹ thuật quan trọng ảnh hưởng trực tiếp đến khả vẫn còn nhiều hạn chế nên luận vă n khó tránh khỏi những thiếu sót lĩnh vực như: Tivi, truyền thông, kỹ xảo đồ hoạ… quá trì nh làm luận văn Cùng với sự phát triển đó có những nhu cầu thực tế đặt thách thức Để hoàn thành được luận văn này Em xin bày tỏ lòng biết ơn sâu sắc các nhà khoa học máy tính càng nhiều Những công việc , những bài toán tới PGS TS Ngô Quốc Tạo - người thầy đã tận tì nh giúp đỡ em suốt được xử lý theo lối cổ truyền không theo kị p tốc độ phát triển của công nghệ quá trình tìm hiểu , xây dựng và phát triển luận văn này ngày Một những bài toán đó chí nh là các tài liệu được lưu trữ Em xin chân thành cảm ơn các thầy , cô giáo Viện Công nghệ các chất liệu cổ truyền giấy, gỗ, vải với khối lượng khổng lồ , chứa đựng Thông tin – Viện khoa học Việt N am đã giảng dạy và hướng dẫn em rất nhiều tri thức của nhân loại lại không có độ bền vĩ nh cửu , khó xử lý suốt năm học qua Em cũng xin cảm ơn ban lãnh đạo khoa và toàn thể thầy và lưu trữ Một bài toán khác là ngày công việc văn phòng liên quan cô giáo khoa Công Nghệ thông tin – Đại Học Thái Nguyên đã tạo điều nhiều đến các tài liệu không đơn thuần là tài liệu chữ mà tài liệu có nhiều kiện tốt nhấ t giúp em học tập và hoàn thành luận văn này thành phần bảng biểu , ảnh Tất cả các tài liệu đó nếu tiếp tục lưu trữ theo Và cuối cùng cũng xin cảm ơn gia đình , các bạn nhóm luận văn và toàn thể các học phương pháp cổ truyền thì rất phức tạp và khó xử lý viên lớp Cao học K đã động viên , quan tâm và giúp đỡ thời gian chuyển đổi những kho tàng tri thức vào máy tí nh để lưu trữ qua dàng, thuận tiên và nhanh gọn Một lĩ nh vực của khoa học nhâ n dạng là Phân Cuối cù ng rất mong nhận được sự chỉ dẫn , góp ý của các thầy cô và các bạn để luận văn của được hoàn thiện Vậy làm thế nào để , xử lý dễ tích tài liệu ảnh đời nhằm biểu diễn thông tin các tài liệu ảnh dưới dạng có cấu trúc Hệ phân tích nhận dạng tài liệu ảnh có mục đích chuyển đổi tự động những thông tin lưu trữ tài liệu giấy thành biểu diễn dưới dạng những cấu trúc mà có thể truy xuất, thay đổi được máy tính Quy trình xử lý của hệ phân tích tài liệu bắt đầu việc lấy dữ liệu, tài liệu từ giấy in được quét qua máy quét để lưu trữ máy tính dưới dạng tệp dữ liệu ảnh Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Một tài liệu ảnh là cách biểu diễn trực quan của các trang tài liệu 1.1 Cơ sở nghiên cứu mục đích luận văn được in bài tạp chí, lá thư, trang báo, mẩu thư hay Ảnh là đối tượng khá phức tạp về đường nét, dung lượng điểm bản vẽ kỹ thuật, v.v Một tài liệu ảnh có thể bao gồm các chuỗi ký tự, các ảnh, độ sáng tối, môi trường để thu nhận ảnh phong phú kéo theo nhiễu hình vẽ, các bức ảnh, v.v Bên cạnh việc chuyển toàn nội dung của tài Trong nhiều khâu phân tích ảnh việc đơn giản hoá phương pháp liệu sang tài liệu điện tử cũng cần phải bảo toàn cấu trúc và định dạng của tài toán học đảm bảo tiện lợi cho xử lý, người ta mong muốn bắt chước quy trình liệu Mục tiêu bản của hệ phân tích tài liệu ảnh hoàn chỉnh đó là tiếp nhận xử ảnh theo cách của người Trong bước xử lý đó nhiều chuyển tài liệu lưu trữ giấy sang dạng biểu diễn có thứ tự cấu trúc khâu hiện xử lý theo phương pháp trí tuệ của người Những hệ và nội dung của nó Tài liệu được chuyển sang phải có khả thay đổi, thống nhận dạng cấu trúc không đơn giản là chuyển tài liệu in thành soạn thảo và lưu trữ vì nội dung của tài liệu có thể truy cập cấu trúc tài liệu điện tử mà thế nữa còn là xây dựng những quá trình xử lý kết của nó thay vì phải truy cập dưới dạng những mẫu ảnh Có số lượng lớn hợp chẳng hạn như: tự động chép nội dụng, đánh mục và phân loại Do đó ứng dụng của hệ phân tích tài liệu ảnh được ứng dụng các lĩnh vực như: việc quan trọng là kèm theo nội dung của tài liệu cũng phải trích chọn dịch vụ bưu chính, Chính phủ, chăm sóc y tế, thư viện, v.v những cấu trúc kèm với nội dung đó Mục đích của luận văn nghiên cứu kỹ thuật nhận dạng bảng và trí ch chọn đối tượng của tài liệu ảnh Kỹ thuật “Phân tích bảng – T-Recs” là nghiên cứu chí nh Nhận dạng bảng toán nhận dạng cấu trúc bảng có trang tài liệu ảnh, bao gồm việc nhận dạng cột, dòng ô có chứa dữ liệu bảng Nhận dạng đối tượng ảnh toán nhằm phân tách đối Với tư tưởng chính của “Phương pháp phân tích bảng” đó là không xem xét đến bất cứ loại đường phân cách nào để xác định cấu trúc bảng tượng ảnh những trang tài liệu ảnh có chứa hỗn hợp đối tượng chuỗi ký tự đối tượng ảnh như: sơ đồ, hình vẽ, bức ảnh …v.v Thay vào đó phương pháp tập trung vào việc nhận biết các từ cùng Mặc dù có nhiều kỹ thuật hệ thống nhận dạng cấu trúc Tuy khối logic (chẳng hạn các từ cùng cột dữ liệu được cho vào nhiên những nghiên cứu những vấn đề đó vẫn còn tiếp tục phát triển cùng khối) Phương pháp không tìm những đặc trưng để phân vì chất lượng, độ chính xác, tính hiệu quả của những phương pháp được công biệt hai vùng dữ liệu (hai cột) khác mà tìm những đặc trưng để tìm bố trước vẫn còn chưa hoàn chỉnh và cần phải cải tiến chúng Luận văn các từ cùng khối logic và từ đó xây dựng cấu trúc riêng theo này trình bày kỹ thuật nhận dạng cấu trúc bảng bên tài liệu ảnh T-Recs phương pháp tiếp cận bottom - up và đề xuất số phương pháp khắc phục hạn chế thuật toán T-Recs để hoàn thiện hiện phương pháp phân tích bảng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 1.2 Tổ chức luận văn CHƢƠNG 2: TỔNG QUAN VỀ HỆ PHÂN TÍ CH TÀI LIỆU ẢNH Luận văn được trình bày thành chương phụ lục 2.1 Tài liệu ảnh Chương Trình bày tóm tắt sở nghiên cứu mục đích cũng cách tổ chức của luận văn Chương Tổng quan về hệ phân tí ch tài liệu ảnh và các thành phần chính hệ phân tí ch tài liệu ảnh : Lấy dữ liệu , xử lý ảnh , trích chọn đặc trưng, nhận dạng đối tượng ảnh và nhận dạng văn bản Chương trình bày bài toán phân tách văn bản và ảnh cách riêng rẽ Trong chương này thuật toán phân tách văn bản và ảnh cũng được trình bày dựa vào việc phân tích các thành phần liên thông (CCs) Chương trình bày phương pháp phân tích bảng ( T-Recs) dựa những hình chữ nhật bao quanh từ và đầu là cấu trúc logic của khối văn bản, cụ thể với những bảng nhận dạng được là cấu trúc các cột và các ô của bảng dữ liệu Phân tích những mặt hạn chế của thuật toán - trường hợp nhận dạng chưa chính xác các cột dữ liệu bảng luận văn đưa thuật toán khắc phục những mặt hạn chế đó Chương Chương trình thử nghiệm và minh họa phân tích bảng Hình ảnh của đối tượng là sự chụp lại chính bản thân đối tượng đó Ảnh được hình thành qua hệ thống ảnh Tài liệu ảnh là các file ảnh được số hóa thu được cách: quét các trang tài liệu, chụp ảnh, máy fax, từ vệ tinh, các file ảnh này được lưu trữ máy tính Ảnh tài liệu có nhiều loại: đen trắng, ảnh màu, ảnh đa cấp xám,…v.v 2.2 Hệ phân tí ch trang tài liệu Hệ phân tí ch trang tài liệu : Là hệ thống bao gồm những thuật toán và các k ỹ thuật có thể áp dụng cho tài liệu ảnh để lấy được thông tin mà máy tính có thể đọc được hiểu được từ điểm dữ liệu ảnh Một lĩnh vực thu được nhiều thành công phân tích tài liệu ảnh đó Nhận dạng Ký tự Quang học (OCR), phần mềm có khả nhận, chuyển đổi các ký tự từ loại tài liệu dưới dạng ảnh sang tài liệu dưới dạng text OCR giúp người dùng có khả soạn thảo tìm kiếm nội dung của tài liệu trang tài liệu ảnh Thành phần có hệ phân tích tài liệu: Mục đích của hệ phân tích tài liệu có khả nhận dạng đối tượng văn bản, đối tượng ảnh tài liệu ảnh có khả trích chọn được thông tin mà người dùng mong muốn Chúng ta có thể chia hệ phân tích tài liệu thành hai phần Phần thứ xử lý văn bản, liên quan đến việc xử lý đối tượng văn bản: ký tự, chuỗi ký tự, từ Xử lý văn bản bao gồm công việc sau: xác định độ nghiêng của tài liệu (độ nghiêng hay độ xiên của tài liệu ảnh tài liệu được đặt không đúng thực hiện quét vào từ máy quét), tìm cột, đoạn văn bản, dòng văn bản, từ cuối Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn nhận dạng văn bản (có thể thêm thuộc tính loại phông chữ, kích hạn chế hay thậm chí các tài liệu bị thoái hoá theo thời gian là những vấn thước của phông chữ) phương pháp nhận dạng ký tự quang học (OCR) đề phổ biến Vì vậy chúng cần phải được khôi phục và chỉnh sửa bằmg những Phần thứ hai xử lý đối tượng ảnh đối tượng tạo từ đường kỹ thuật phân tích tài liệu kẻ sơ đồ, đường kẻ phân tách giữa đoạn văn bản, hình vẽ, - Ngày các văn phòng hiện đại các công việc đều được giải quyết lôgô của công ty… Sau áp dụng kỹ thuật phân tích ảnh văn dựa vào máy tí nh Các tài liệu văn bản với nhiều đối tượng bản, đối tượng cần nhận dạng tài liệu ảnh được trích được biểu các sơ đồ ) được tạo nhiều m áy tính khác , phần mềm khác diễn dưới dạng tài liệu định dạng khác, chẳng hạn word, html… đó có thể là các đị nh dạng của các tài liệu đó là không tương thí ch với Ta có thể tóm tắt quá trình xử lý của hệ phân tích tài liệu theo sơ đồ Hình 2.1 [8]: (chữ, hình ảnh , nhau, kích thước cũng khác Như vậy cần một hệ phân tí ch tài liệu giúp nhận dạng các loại tài liệu, trích chọn được các phần chức và có thể Xử lý tài liệu chuyển từ định dạng máy tính này sang định dạng khác Xử lý đối tượng ảnh Xử lý văn bản Một bài toán khác được đề cập là các máy phân loại thư tự động dùng để phân loại, sắp xếp thư và nhận dạng địa thư Những máy này có từ những thập kỷ trước, ngày yêu cầu cao đó là xử lý nhiều thư hơn, nhanh và yêu cầu chính độ xác cao Nhận dạng ký tự quang học Phân tích cấu trúc trang Xử lý đường kẻ Xử lý vùng ký tự đặc biêt Những bài toán tạo thách thức và động lực cho sự phát triển những giải pháp tương lai của hệ phân tích tài liệu Hình 2.2 mô tả các bước xử lý cho một hệ phân tí ch tài liệu Văn bản Xác định độ nghiêng, Đường thẳng, Vùng được tô dòng văn bản, khối đường cong, văn bản, đoạn văn góc bản Hình 2.1 Sơ đồ quá trì nh xử lý tài liệu Tại lại phải phân [8] Sau dữ liệu (tài liệu ảnh ) được đưa vào , tài liệu ảnh trải qua các bước xử lý điểm ảnh và phân tích đặc trưng và sau đó phần nhận dạng văn bản phần nhận dạng ảnh được tách hai chức riêng rẽ tích tài liệu ? Những bài toán phần giới thiệu đã đề cập , ta hã y xem xét kỹ về bài toán điển hì nh để thấy được sự cần thiết của việc phân tí ch tài liệu - Lượng tri thức vô giá của nhân loại với số lượng lớn được lưu trữ các thư viện cổ điển dưới các chất liệu giấy , vải, gỗ vẫn còn tồn tại rất nhiều , việc các tài liệu bị các thông tin , thiếu thông tin, số lượng bản Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn liệu giấy là phương tiện làm việc hiệu quả chắc chắn tài liệu giấy vẫn Trang tài liệu là phương tiện làm việc với vài thập kỷ nữa Vấn đề là tích hợp những tài liệu giấy vào máy tính xử lý Thu nhận dữ liệu Sau ta tìm hiểu ngắn gọn các bước xử lý của hệ phân tích Xử lý điểm ảnh tài liệu ảnh 2.3 Thu nhận dƣ̃ liệu ảnh Phân tí ch đặc trưng Các dữ liệu các trang tài liệu giấy thường được quét qua máy quét và đưa vào máy tính dưới dạng file ảnh , chúng bao gồm các điểm ảnh (pixels) và được lưu trữ Với ảnh nhị phân g iá trị điểm ảnh có thể là hoặc ,với ảnh Phân tích nhận dạng đối tượng văn bản Phân tích nhận dạng đối tượng ảnh đa cấp xám và ảnh màu giá trị điểm ảnh nằm khoảng đến 255 với giá trị R, G, B từ đến 255 Ở độ phân giải thông thường thì có 120 điểm ảnh centimet và với trang có kích thước 20 x 30 cm thì tạo ảnh với 2400 x 3600 điểm ảnh Do đó có thể thấy tài liệu ảnh bao bồm Mô tài liệu Hình 2.2 Sơ đồ quá trì nh phân tí ch trang tài liệu Các hệ phân tích tài liệu ngày phát triển hiển nhiên chúng có hệ xử lý tài liệu Chẳng hạn như, hệ thống OCR được sử dụng rộng rãi để lưu trữ, tìm kiếm trích dẫn từ tài liệu lưu trữ giấy Các kỹ thuật phân tích cách bố trí trang tài liệu giúp nhận dạng những biểu mẫu (form) riêng biệt, hay định dạng của trang tài liệu cho phép lưu tài liệu đó Các sơ đồ có thể được đưa vào từ bức ảnh hay vẽ tay có thể thay đổi, soạn thảo lại chúng Sử dụng máy tính có thể chuyển tài liệu viết tay thành tài liệu điện tử được lưu trữ các dữ liệu thô (giá trị các điểm ảnh) và chúng được sử dụng những kỹ thuật phân tích thích hợp để lấy được các thông tin cần thiết 2.4 Tiền xử lý điểm ảnh Bước tiếp theo hệ phân tích tài liệu là thực hiện số thao tác xử lý tài liệu ảnh thu được để chuẩn bị cho những bước phân tích tiếp theo Chẳng hạn các thao tác: chọn ngưỡng để chuyển ảnh đa cấp xám, ảnh màu về dạng ảnh nhị phân, giảm nhiễu để loại bỏ những dữ liệu không liên quan, phân đoạn để phân tách các thành phần khác ảnh và cuối cùng là làm mảnh hay dò biên để dễ dàng xác định các vùng, các đặc máy tính Các tài liệu được lưu trữ các thư viện, tài liệu kỹ trưng thích hợp và các đối tượng cần quan tâm Sau những bước xử lý trên, thuật công ty được chuyển đổi sang thành tài liệu điện tử nhằm dữ liệu thường được biểu diễn dưới dạng nén lại dùng mã hoá CC và biểu nâng cao hiệu quả, thuận tiện việc lưu trữ dễ dàng mang đến quan diễn dưới dạng véctơ hay mang về nhà Mặc dù tài liệu ngày càng được xử lý và lưu trữ nhiều máy tính thực tế có nhiều hệ thống khác mà tài Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 10 11 Quá trình xử lý này 2.4.1 Xƣ̉ lý nhị phân gặp khó khăn trường hợp khi: độ Với những ảnh đa cấp xám thông tin sẵn dạng nhị phân chẳng tương phản giữa giá trị điểm ảnh văn bản nền thấp (chẳng hạn hạn chuỗi văn bản hay đối tượng ảnh, phương pháp nhị phân văn bản được soạn thảo nền xám thuần nhất), nét của văn bản mỏng thông thường được thực hiện trước Mục đích của phương pháp tự dữ liệu không được chiếu sáng tốt thực hiện quét tài liệu giấy Rất động chọn ngưỡng cần thiết để tách ảnh làm hai phần: thông tin ảnh nhiều phương pháp được phát triển để khắc phục những hạn chế trên, thông tin nền Việc lựa chọn ngưỡng tốt (ngưỡng mà có thể phân tách chẳng hạn phương pháp tách ngưỡng tự động tìm giá trị θ thích hợp để ảnh thành hai phần: phần ảnh, phần nền cách xác) chia ảnh thành hai phần trình khó dễ gây lỗi (0) 2.4.2 Giảm nhiễu Nhiễu tài liệu ảnh nhiều nguyên nhân bao gồm: sự thoái hoá theo thời gian, quá trình ch ép, trình quét tài liệu Một số kỹ thuật xử lý ảnh được áp dụng để loại bỏ nhiễu Sau được nhị phân hoá, tài liệu ảnh được lọc để giảm nhiễu Trên thực tế tồn tại nhiều loại nhiễu, nhiên người ta thường xem xét loại nhiễu chính: nhiễu cộng, nhiễu nhân nhiễu xung Chúng xuất hiện những điểm ảnh khác biệt so với vùng xung quanh, chẳng hạn điểm ảnh nhiễu ON (điểm mang thông tin ảnh) vùng nền OFF (điểm mang thông tin nền) hay ngược lại điểm ảnh OFF vùng nền ON cạnh gồ ghề của ký tự hay đối tượng ảnh Bản chất của nhiễu thường tương ứng với tần số cao sở lý thuyết của lọc cho những tín hiệu có tần số đó thông qua, đó để lọc nhiễu người ta thường sử dụng lọc thông thấp hay lọc trung bình Với nhiễu cộng và nhiễu nhân ta dùng các lọc thông thấp, trung bình; với nhiễu xung ta dùng lọc trung vị, giả trung vị Trong lọc trung bình, thường người ta ưu tiên cho các hướng để bảo vệ biên của ảnh khỏi bị mờ làm trơn ảnh Các kiểu mặt nạ được sử dụng tùy theo các trường hợp khác Các lọc là lọc tuyến tính theo nghĩa Hình 2.3 Phương pháp nhị phân ảnh (a) Histogram ảnh đa cấp xám nguyên bản, (b) chọn ngưỡng thấp, (c) chọn ngưỡng hợp lý, (d) chọn ngưỡng cao Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn là điểm ảnh tâm cửa số được thay tổ hợp các điểm lân cận chập với mặt nạ Lọc thông thấp thường được sử dụng để làm trơn nhiễu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 12 13 Các lọc phi tuyến cũng được dùng kỹ thuật tăng cường ảnh Trong kỹ thuật người ta dùng lọc trung vị, lọc giả trung vị Với khác có thể biểu diễn chúng giống Trong Hình 2.4 đưa ví dụ ảnh được phân tích phương pháp làm mảnh lọc trung vị điểm ảnh được thay thế trung vị điểm ảnh, lọc giả trung vị điểm ảnh được thay thế trung bình cộng của hai giá trị “trung vị” 2.4.3 Phân đoạn ảnh Quá trình phân đoạn ảnh được thực hiện làm hai giai đoạn Giai đoạn thứ nhất, tách các lớp văn bản và ảnh riêng biệt nếu tài liệu có chứa cả văn bản và ảnh Giai đoạn thứ hai là thực hiện phân tách hai lớp đối tượng vừa tách trên, với văn bản xác định các cột, các đoạn văn bản, các từ và các ký tự; với lớp đối tượng ảnh thực hiện phân tách các biểu tượng, các hình vẽ, các đường kẻ và các hình ảnh Chẳng hạn tài liệu ảnh có chứa các đoạn văn bản và các hình minh hoạ giống trang tạp chí, đầu tiên văn bản và ảnh được tách riêng Sau đó văn bản được tách thành các chuỗi ký tự Ảnh thì được tách các thành phần hình chữ nhật, hình tròn, các đường kẻ, biểu tượng v.v Sau bước tài liệu ảnh phân tách thành những đối tượng nhỏ các ký tự và các thành phần bản của ảnh Hình 2.4 Ảnh nguyên bản(Vân tay) bên trái ảnh sau làm mảnh bên phải Lưu ý nếu hình tròn hay hình vuông mà được tô kín các điểm đen thì kết quả làm mảnh những đối tượng là điểm ảnh nằm tại tâm của hình vẽ bất kể kích thước của đối tượng là thế nào Do đó có thể thấy rõ ràng việc xác định được vùng biên của đối tượng là quan trọng Nói chung với các đối tượng có kích thước lớn, dò biên là phương pháp lựa chọn thích hợp để biểu diễn đối tượng, còn đối với những đối tượng được tạo thành những nét kết nối dài thì làm mảnh là phương pháp thích hợp Làm mảnh thường được sử dụng là quá trình tiền xử lý đối với những ứng dụng phân tích tài liệu xử lý sơ đồ hay bản đồ Với những 2.4.4 Làm mảnh và xác định vùng đối tượng ảnh lớn mà vùng ảnh được tô đầy chẳng hạn những lôgô thì Làm mảnh ảnh là thao tác xử lý ảnh đó đối tượng ảnh được phương pháp dò biên đối tượng thích hợp Nhưng với những vùng nhỏ, biểu diễn là những đường trục được gọi là đường tâm hay còn gọi là lấy chẳng hạn ký tự riêng biệt thì cũng không phải phương pháp làm mảnh xương của ảnh Một đối tượng ảnh đó được biểu diễn đường cùng không phải phương pháp dò biên được thực hiện mà đó vùng ảnh xương của nó việc giảm bớt số lượng điểm ảnh có giá trị ON của đối được biểu diễn dưới dạng mảng các giá trị của điểm ảnh tượng và vẫn đảm bảo tính chất liên thông của đối tượng Mục đích của việc làm mảnh ảnh là giảm bớt các thành phần mà lưu trữ các thông tin thiết yếu phục vụ cho việc phân tích và nhận dạng sau này thuận tiện Chẳng hạn đường kẻ thẳng có thể vẽ tay với độ đậm của nét bút là Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 38 39 bao được hiểu là thành phần văn bản Lỗi xảy có vài CHƢƠNG PHƢƠNG PHÁP PHÂN TÍ CH BẢNG T-RECS TRONG TRANG TÀI LIỆU ẢNH thành phần của đối tượng ảnh nằm hình bao đó Dù vẫn còn số hạn chế việc nhận dạng số đối tượng có thể khắc phục được vấn đề này dựa vào việc điều chỉnh tham số Hơn thế nữa số tình huống việc thực hiện chuyển tất cả các thành 4.1 Giới thiệu Hệ thống nhận dạng quang học (OCR) trước chỉ phần tuyến tính thoả mãn điều kiện sang thành đối tượng ảnh có thể để lại những điểm ảnh rời rạc thuộc đối tượng ảnh mà các bước thực hiện sau ngày hệ thống OCR đã tiến xa trước không có khả nhận dạng chúng là đối tượng ảnh Dựa sự phân tích những đặc trưng khác của các đối tượng ảnh và văn bản, thuật toán điều chỉnh với những sự thay đổi về kiểu ký tự, Việt và số ký hiệu đặc biệt khá thành công Nó có số hạn chế đối với ảnh có các cấp độ nhiễu khác và có khả phân tách với trường hợp văn bản và ảnh tiếp xúc Nếu được cải tiến tốc độ xử lý và xây dựng cách tính tham số hợp lý thì thuật toán thích hợp việc sử dụng để viết những ứng dụng nhận dạng văn phòng OCR, CAD/CAM , ngoài việc chuyển tài liệu ảnh sang tài liệu văn bản nó còn tập trung vào việc xác định đúng những cấu trúc đặc trưng tài liệu Mục đích của những hệ thống nhận dạng cấu trúc không đơn giản kích thước ký tự, loại ảnh và hướng của chuỗi ký tự văn bản Thuật toán có khả nhận dạng các ký tự Trung Hoa, ký tự Phương Tây, ký tự Tiếng là những phép chuyển đổi đơn giản tài liệu ảnh sang tài liệu văn bản bao gồm các từ là chuyển tài liệu in thành tài liệu điện tử mà thế nữa còn là xây dựng những quá trình xử lý kết hợp chẳng hạn như: tự động chép nội dụng, đánh mục và phân loại [13] Do đó việc quan trọng là kèm theo nội dung của tài liệu cũng phải trích chọn những cấu trúc kèm với nội dung đó Khi đề cập đến vấn đề nhận dạng cấu trúc các tài liệu có chứa dữ liệu bảng biểu có hai hướng tiếp cận khác nhau: cách tiếp cận thứ đó là xác định chính xác cấu trúc của bảng, bao gồm các ô bảng, cách này thường được gọi là phân đoạn hay nhận dạng cấu trúc Cách thứ hai là dựa vào hình dạng của các khối được sắp xếp và đưa tập các đối tượng các khối về cấu trúc bậc cao Quá trình này được gọi tên gán nhãn lôgíc, phân tích cấu trúc hay phân tích bố cục trình bày trang Tìm hiểu những phương pháp nhận dạng cấu trúc bảng có trước đều cho thấy điểm giống nhau, đó là các phương pháp này đều nhận dạng cấu trúc bảng xác định các dấu hiệu phân cách, có thể là các khoảng trắng, các đường kẻ Chẳng hạn Rus và Summers [1] mô tả Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 40 41 hệ nhận dạng cấu trúc bảng có khả xác định được bảng mà các cột cách đề xuất và sau đó những trường hợp mà thuật toán phân đoạn G khoảng hẹp sử dụng WDG Trong đó số phương pháp khác Kieninger nhận dạng sai Tiếp theo luận văn trình bày thuật toán phân lại dựa vào độ rộng thích hợp của khoảng trắng giữa hai cột để nhận dạng đoạn cải tiến (T-Recs++) để có thể nhận dạng chính xác các cột dữ liệu tồn tại [17] bảng Một số phương pháp khác xác định cấu trúc của bảng quy tắc các Những ưu điểm và hạn chế của thuật toán cũng được phần đường kẻ Một số đó là mô tả của Green và Krishnamoorthy [18], đầu của chương Phần tiếp theo chương này luận văn số ông áp dụng phân tích vị trí của các đường kẻ để đưa cấu trúc của bảng bược xử lý sau phân đoạn (postprocessing) để khắc phục những hạn chế Trong phương pháp trình bày dưới với tư tưởng không xem của thuật toán phân đoạn khởi tạo Phần cuối của chương luận văn mô tả việc xét đến bất cứ loại đường phân cách nào để xác định bảng mà vào phân tích các cột được nhận dạng thành các dòng và các ô bảng để đưa nhận biết các từ cùng khối logic (chẳng hạn các từ cùng được cấu trúc chính xác của bảng cột dữ liệu được cho vào cùng khối) Chúng ta không tìm 4.2 Thuật toán phân đoạn khởi tạo những đặc trưng để phân biệt hai vùng dữ liệu (hai cột) khác mà tìm Phân đoạn khởi tạo ta có thể hiểu là quá trình phân cụm các từ những đặc trưng để tìm các từ cùng khối logic và từ đó xây dựng Trong các phương pháp tiếp cận dưới-lên khác thường xác định các cấu trúc riêng theo phương pháp tiếp cận dưới lên (bottom - up) Một điều dễ đường kẻ từ các từ liền kề theo chiều ngang và các khối từ các đường liền kề nhận thấy từ phương pháp này đó là chúng ta không phụ thuộc vào theo chiều dọc, hệ thống trực tiếp đánh giá các cấu trúc khối văn bản từ kiểu của đường thẳng được vẽ bảng nếu có hay là các khoảng trắng đủ việc phân đoạn các từ rộng giữa các khối để nhận dạng cấu trúc của bảng Tư tưởng của thuật toán : lấy từ làm nhân để xây dựng Đầu vào (input) của thuật toán là tập hợp các hình bao chữ nhật của khối mới Nhìn Hình 4.1 (ở giữa), ta vẽ vùng mờ ảo bao quanh các từ đoạn văn bản Đầu (output) là các cột, các dòng, các ô của hình chữ nhật bao của từ (consist) Vùng mờ ảo này có độ rộng với độ bảng nếu tồn tại môi trường bảng đoạn văn bản Thuật toán cần các rộng của hình bao của từ và chiều dọc mở rộng đến các dòng liền kề với từ bước tiền xử lý nhận dạng các dòng văn bản của trang tài liệu, hình bao đó Tất cả các từ mà có hình bao gối lên vùng mờ ảo của từ làm nhân nằm chữ nhật các từ dòng văn bản và nhận dạng các đoạn văn bản khác cùng khối với từ đó Do đó khối bao gồm tất cả các từ được Từ đó có nhận dạng môi trường bảng đoạn văn bản của trang liên kết với (hình bên phải của Hình 4.1) tài liệu Toàn chức của thuật toán T-Recs mà phần cốt yếu là thuật toán phân đoạn khởi tạo được trình bày chương nà y Đầu tiên luận văn trình bày thuật toán phân đoạn khởi tạo Thomas G Kieninger [19] Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Hình 4.1 Ví dụ minh họa tư tưởng thuật toán khởi tạo Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 42 43 Thủ tục được mở rộng cách thực hiện đệ quy cho tất cả 4.2.1 Trƣờng hợp thuật toán nhận dạng sai cột các từ cho đến không tìm thấy có từ nào mới mà không nằm bước thuật toán phân đoạn khối phía về bản nhận dạng khối nào đó Đầu vào của thủ tục là hình bao chữ nhật của các từ, đầu là được khối riêng rẽ cũng chưa đủ tốt để nhận dạng được tất cả các khối lôgíc và các từ thuộc khối lôgíc loại khối phân tách Hình 4.2 mô phỏng thí dụ về trường hợp thuật toán Thủ tục xây dựng thuật toán khởi tạo: 1) Tìm từ Wx mà chưa đánh dấu mở rộng phân tách thành hai khối khác về logíc hai khối thực chất khối (expanded) 2) Tạo khối mới Bi 3) Đánh dấu Wx đã mở rộng thêm Wx vào Bi 4) Tìm tất từ Wj theo chiều ngang dòng trước dòng kế tiếp, cho Wj nằm chồng lên Wx (có nghĩa Wj gối lên vùng mờ ảo Wx) 5) Thực đệ quy bước 3, 4, cho từ Wj vừa tìm 6) Nếu không tìm từ mà chưa đánh dấu không nằm chồng lên (theo ý nghĩa bước 4) thì tăng i lên quay trở lại bước 7) Dừng thủ tục lại không tìm thấy từ chưa đánh dấu Hình 4.3 Trường hợp thuật toán nhận dạng sai cột Khi phân tích các bước của thuật toán ta thấy có hạn chế, đó từ Wj mới được xem xét có thêm vào khối duyệt Bi hay không thuật toán quan tâm xem Wj có nằm chồng lên từ Wx (là từ dòng trước hay dòng sau của Wj) mà không xem xét Wj có nằm chồng lên từ nào thuộc khối Bi hay không Nhìn Hình 4.3, nếu thực hiện lần lượt các bước từ đến thì ta tài liệu Hình 4.2 mô tả kết quả của thuật toán sau mở rộng tất cả các từ thấy các từ được chia thành hai khối riêng rẽ, ta thấy hai từ Thành vọng nằm chồng lên lại thuộc hai khối khác vì khối thuật toán đến từ nó xem xét hai từ là kỳ vọng đó có từ kỳ là nằm chồng lên nó còn từ vọng không nằm chồng lên từ Hình 4.2 thuật khởi tạo đối với một đoạn văn bản Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 44 45 Đầu vào của thủ tục là hình bao chữ nhật của các từ, đầu là các khối lôgíc và các từ thuộc khối lôgic Các bước cải tiến của thuật toán phân đoạn khởi tạo gồm bước sau: Gán Xmin= -1 Xmax = (expanded) Tính toạ độ XXmin, XXmax toạ độ nhỏ Hình 4.4 Trường hợp dòng cột bảng có ô trắng Hình 4.4 thí dụ mà thuật toán G Kieninger có thể nhận dạng được các cột bảng Trong bước mà G Kieninger đề xuất, thực hiện xuất phát từ hình bao chữ nhật của từ thuật toán tìm các Tìm từ Wx mà chưa đánh dấu mở rộng lớn theo chiều ngang hình bao từ Wx Tạo khối mới Bi Đánh dấu Wx đã mở rộng thêm Wx vào Bi Xét:  Nếu Xmin = -1 gán Xmin= XXmin hợp cột bảng mà có nhiều dòng để trống (chẳng hạn ô của  Nếu Xmin > XXmin gán Xmin= XXmin bảng kéo dài nhiều dòng) thì thực hiện tìm các từ dòng kế tiếp và  Nếu Xmax < XXmax gán Xmax = XXmax từ có nằm chồng lên nó dòng trước và dòng kế tiếp Vì vậy trường dòng trước không tìm được từ nào thuộc cột đó Do đó để tìm được chính xác các từ thuộc cột của bảng thì xuất phát từ từ phải tìm tất cả các dòng của đoạn văn bản (Xmin , Xmax) ∩ (XJmin , XJmax) ≠ Φ Dưới trình bày những cải tiến các bước của thuật toán phân Trong toạ độ XJmin, XJmax toạ độ nhỏ lớn đoạn theo chiều ngang hình bao từ Wj 4.2.2 Cải tiến bƣớc thuật toán phân đoạn khởi tạo - T-Recs++ Do cột của bảng đều nằm các vị trí là những khoảng khác theo chiều ngang, vì vậy để cải tiến thuật toán ta xác định toạ độ nhỏ - Xmin lớn - Xmax theo chiều ngang của khối Khi duyệt qua các từ cần thêm vào khối nếu toạ độ nhỏ và lớn theo chiều ngang của khối có giao với khoảng (Xmin, Xmax) thì ta thêm từ đó vào khối và cập nhật lại toạ độ Xmin, Xmax của khối đó Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Tìm tất từ Wj nằm theo chiều ngang dòng trước dòng (thuộc đoạn văn bản), cho: Thực đệ quy bước 4, 5, cho từ Wj vừa tìm Nếu không tìm từ mà chưa đánh dấu không thoả mãn điều kiện thì tăng i lên quay trở lại bước Dừng thuật toán lại không tìm thấy từ mà chưa đánh dấu mở rộng tài liệu Hình 4.5 dưới mô tả các bước thuật toán phân đoạn cải tiến Nếu Hình 4.3, thuật toán trước có thể phân tách các từ vào hai khối http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 46 47 riêng rẽ thì với các bước cải tiến thuật toán nhóm các từ Hình hơn, cột đều được bôi màu khác để nổi bật) Ngoài những điểm 4.3 vào thành khối (hình cuối bên phải của Hình 4.5) mạnh đề cập trên, thuật toán còn có những đặc điểm sau: Hình 4.7 Quá trình phân đoạn cột bảng Hình 4.5 Mô việc thực bước đã cải tiến thuật toán  tài liệu chất lượng để thực hiện phân đoạn Trong bước thứ của thuật toán, thực hiện tìm những từ thoả mãn để đưa vào khối, thuật toán tìm tất cả các từ các dòng trước và các  Cho phép nhận dạng các cột bảng trường hợp khoảng cách giữa các cột hẹp dòng kế tiếp chứ không phải tìm dòng trước và dòng kế tiếp của dòng xét Do đó việc nhận dạng đúng các cột của bảng từ Hình 4.4 được minh Không quan tâm đến nội dung văn bản Do đó nó có thể áp dụng cho  hoạ Hình 4.6 Nhận dạng cấu trúc của bảng mà không cần thông tin về tiêu đề của bảng  Nhận dạng cấu trúc bảng với các ô có nhiều dòng dữ liệu (Hình 4.8)  Thuật toán áp dụng với các loại tài liệu phổ biến (không hạn chế số loại bảng nào đó; không quy định luật cụ thể, không cần phải có giai đoạn học nhận dạng) Hình 4.6 Kết nhận dạng cột từ Hình 4.4 4.2.3 Những ƣu điểm thuật toán Trong thí dụ đưa trên, điểm nổi bật của thuật toán vẫn chưa thể hiện rõ ràng vì sự phân đoạn của những khối văn bản dường cũng giống những phương pháp có trước Hình 4.7 minh hoạ điểm nổi bật của thuật Hình 4.8 Trường hợp ô bảng chiếm nhiều dòng 4.2.4 Những mặt hạn chế thuật toán khởi tạo toán nhận dạng cấu trúc của bảng: ta thấy khối hình cách Thuật toán phân đoạn khởi tạo cũng tồn tài số mặt hạn chế vốn khoảng cách hẹp Do không có từ nào nằm giữa các cột vì vậy có Chẳng hạn thuật toán coi dòng đơn là bảng vì dòng này mà các cột được phân biệt với cách rõ ràng (Để quan sát dễ dàng không có những dòng là láng giềng của nó theo chiều dọc Do đó nó coi đó Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn http://www.lrc-tnu.edu.vn 48 49 là bảng có dòng dữ liệu đó từ coi là cột bảng Do đó nhận dạng đoạn văn bản có tạo thành bảng hay không cần xem số dòng của đoạn văn bản là 4.3.1 Trộn khối phân đoạn sai Hình 4.9 thí dụ với đoạn văn bản thông thường mà đều có ký tự cách (space) tại cùng vị trí của tất cả các dòng Hạn chế thứ hai thường xảy đối với đoạn văn bản thông thường đoạn văn bản đó Trong trường hợp này phương pháp phân đoạn đoạn mà đều có ký tự cách (space) tại cùng vị trí của tất cả các dòng văn bản đó không nhận biết đó là khối thống mà hiểu đó là đoạn văn bản đó Do đó đoạn văn bản đó cũng không được nhận biết đó là hai khối tách biệt Do đó ta cần có bước xử lý để nhận biết và trộn hai khối thống khối tách biệt này làm khối thống Một hạn chế khác đó là số cột bảng có chung tiêu đề Trong phương pháp này chúng ta sử dụng những khối sau phân Trong trường hợp này tiêu đề chung của bảng được cho vào khối với đoạn Có thể thấy rõ ràng các khối mà có thể trộn thành khối các cột có tiêu đề chung và thuật toán nhận biết đó là cột Hình 4.9 chung thường nằm bên trái bên phải của Giả sử ta xác định mô tả toàn các mặt hạn chế được khối có thể trộn với nhau, từ khối trước tiên chúng ta đánh giá khoảng cách trung bình giữa các từ của hai khối để tìm độ rộng trung bình của ký tự cách đoạn văn bản Nếu khoảng cách giữa hai khối xấp xỉ độ rộng trung bình của ký tự cách thì có thể trộn hai khối đó vào làm Hình 4.9 Những mặt hạn chế thuật toán Hinh 4.10 Trộn hai khối bị phân tách 4.3 Các bƣớc xử lý khối sau phân đoạn Một số bước xử lý được đưa để để khắc phục những hạn chế đề cập nhận dạng Trong phần này đề cập đến hai loại khối khác nhau: khối loại là khối bao gồm từ dòng (Hình 4.7), khối loại hai là tất cả các trường hợp còn lại (Hình 4.8) Dễ nhận thấy khối loại là bảng đơn giản Phân biệt hai loại khối này giúp chúng ta dễ dàng chọn lựa phương pháp, kỹ thuật để phân tích loại khối Phần dưới trình bày những phương pháp xử lý để khắc phục những trường hợp nhận dạng sai từ Một lưu ý ta xét hai khối có khả được trộn với thì các khối đó phải thoả mãn là tất cả các dòng của khối đều có các từ nằm ngoài cùng bên trái hay bên phải có vùng bao của từ phải thẳng hàng theo chiều dọc Tức là khối có từ dòng nào đó nằm thụt vào so với mép lề trái hay mép lề phải của khối (Hình 4.10) thì ta coi hai khối đó không có khả trộn với Đối với khối loại hai chúng ta chúng ta dễ dàng tính được khoảng cách trung bình giữa các từ cùng dòng, sau đó ta lấy khoảng cách đó Hình 4.9 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 50 51 so sánh với khoảng cách giữa hai khối Dựa số sai số đưa ta quyết định liệu hai khối có được trộn vào với hay không Trong trường hợp hai khối được trộn lại là hai khối loại đó ta không tính được độ rộng trung bình của các từ khối liền kề Vì vậy Hình 4.11 Tách cột bị trộn trường hợp này ta tính độ rộng trung bình giữa các từ dựa vào khối loại hai khác Hình 4.10 hai khối được xử lý kỹ thuật và Do kỹ thuật áp dụng cho tất cả các khối loại i, có một số trường hợp ta thấy rõ ràng rằng có một số lượng lớn các từ có quan hệ kết quả tương ứng của nó một – một chúng lại không tạo thành cột bảng Tuy nhiên , bước 4.3.2 Phân tách cột bị trộn vào khối Một vấn đề khác gặp phải đó là các cột riêng biệt được trộn với nhau, chẳng hạn các cột có chung tiêu đề thường bị trộn thành cột bước phân xử lý ở chúng ta chưa áp dụng một số điều kiệ n ràng buộc nào để loại trừ những trường hợp đó đoạn khởi tạo Trong tìm dấu hiệu đơn giản để nhận biết các cột được tách ta nhận thấy mối quan hệ – giữa các từ cột là tiêu chuẩn để đánh giá các cột được tách Mối quan hệ đó phải đảm bảo là , nếu từ Wa có chí nh xác từ W b là láng giềng dưới và W b cũng có nhất W a là láng giềng Bước tiếp theo hoàn toàn dễ hiểu : chúng ta phân tách tất cả các từ có quan hệ một – một vào thành khối , gọi là khối của khối đó Do đó chúng ta không cần phải quan tâm đến khí a cạnh nội dung v à độ cao của khối để phân tách Mối quan hệ - giúp chúng ta tách được các khối loại (trên dòng có từ) đó để tách các khối loại hai ta phải sử dụng kỹ thuật khác Kết quả của quá trì nh phân tách được mô tả Hình 4.11 quá trình phân tách đến bước này vẫn chưa kết thúc vì cần phải xử lý số bước nữa để tránh phân tách sai Hình 4.12 Trộn lại các khối bị tách Một quy tắc đơn giản để nhận biết một cột đó là cột đó cùng với những cột khác Xuất phát từ các khối đã được tách làm khối , chúng ta tìm đến các khối láng giềng của khối mới được phân tách số lượng các khối loại một bao quanh nó Tìm , độ cao của chúng , độ rộng các khoảng trắng cách ly bên trái bên phải và có thể là độ t ương đồng của các từ cột v.v để đánh giá sự tồn tại của cột đó Nếu các điều kiện không thoả mãn theo tiêu chuẩn nào đó thì khối mới được tạo đó được trộn ngược trở lại với khối cha nó (khi đó khối không thoả mãn tạo thành một cột) Cụ thể hoá quá trình nhận biết khối được tách riêng từ khối cha có tạo thành cột riêng rẽ bảng hay không ta so sánh các khối được tách với Quá trình tách khối thành các khối chia khối cha thành các khối được đánh số từ B đến Bn Do Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 52 53 khối Bi (1 ≤ i ≤ n) bao gồm các từ liên tục nằm cạnh nhau, khối Bi có những từ mô tả cho nội dung của ô bảng Những từ này được những đặc trưng (XImin, YImin) (XImax, YImax) Trong đó (XImin, YImin) là toạ thuật toán phân đoạn khởi tạo tách thành các khối riêng độ góc cùng bên trái của khối và (XJmax, YJmax) là toạ độ góc dưới cùng Vì vậy trước tiên chúng ta cần phải tìm xem những từ bị phân tách này bên phải của khối Vì vậy ta tìm tất cả các khối từ đến n, nếu tồn tại hai có nằm môi trường bảng hay không, chúng có tương ứng với ô khối i và j thoả mãn điều kiện sau: (cell) bảng hay không và nếu có chúng ta cần phải xem xét chúng với XJmin [...]... tài liệu cơ sở cho quá trình phân tích cấu trúc của tài liệu đó Hình 2.5 minh họa một tài liệu trước và sau khi thực hiện quá trình tiền xử lý (a) (b) (c) (d) Hình 2.5 Tài liệu ảnh trước và sau các bước tiền xử lý Ảnh (a) gốc, ảnh (b) ảnh sau khi chuyển về ảnh nhị phân, ảnh (c) ảnh sau khi chỉnh nghiêng, ảnh (d) ảnh sau khi lọc nhiễu 2.5 Phân tí ch đặc trƣng của tài... không phải La mã tiếp tục là vấn đề Trong các bước xử lý đối tượng ảnh có những bước xứ lý chung cũng được quan tâm nhiều đến giống như đối với nhận dạng văn bản Các phương pháp tiền xử lý, phân 2.8 Phân tích các đối tƣợng ảnh trong tài liệu đoạn, và trích chọn đặc trưng được mô tả trước đây sẽ được thực hiện trước Trong phân tích trang tài liệu ảnh thì... nghiên cứu này Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 24 25 Có rất nhiều phương pháp tách văn bản và ảnh từ trang tài liệu ảnh CHƢƠNG 3 THUẬT TOÁN TÁCH VĂN BẢN - ẢNH TỪ TRANG TÀI LIỆU ẢNH được công bố trước đây Phương pháp được đưa ra trong tài liệu [3] dựa trên khái... năng phân tách được các đối tượng văn bản vấn đề thời gian bao gồm các ký tự Trung Hoa, ký tự Phương Tây, ký hiệu đặc biệt từ loại tài Trong các phương pháp phân tách văn bản và ảnh trong tài liệu ảnh, có thể chia thành ba loại phương pháp cơ bản sau: liệu ảnh có chứa hỗn hợp văn bản và ảnh một cách khá hiệu quả Thuật toán cũng có một số hạn chế trong. .. bậc cao hơn Quá trình này được gọi tên là gán nhãn lôgíc, phân tích cấu trúc hay phân tích bố cục trình bày trang Tìm hiểu những phương pháp nhận dạng cấu trúc bảng đã có trước đây đều cho thấy một điểm giống nhau, đó là các phương pháp này đều nhận dạng ra cấu trúc bảng bằng xác định ra các dấu hiệu phân cách, có thể là các khoảng trắng, các đường kẻ Chẳng... được quay một góc để độ nghiêng của trang bằng 0, sau đó quá trình phân tích bố cục của trang tài liệu được thực hiện Phân tích bố cục trang được thực hiện để lấy ra được cấu trúc các khối văn bản (các đoạn văn bản) trong tài liệu Tuỳ thuộc vào định dạng của từng loại tài liệu, quá trình phân đoạn có thể thực hiện phân tách các từ, các dòng văn bản hay... lẫn khi chúng được viết bằng tay Một từ http://www.lrc-tnu.edu.vn Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 20 21 cũng có thể hoàn toàn là các con số, chẳng hạn các số điện thoại, hay hoàn toàn là các ký tự trong bảng chữ cái hoặc có thể trộn lẫn giữa chữ cái và số 2.7.1.2 Phân loại Trong phương pháp phân loại dựa trên thống... vào phục vụ cho việc nhận dạng từng đối tượng 2.6 Phân tí ch đối tƣợng văn bản trong tài liệu Có hai loại phân tích được áp dụng trong việc phân tích văn bản trong tài liệu ảnh Loại thứ nhất là nhận dạng ký tự quang học (OCR) để nhận dạng từng ký tự, các chuỗi ký tự từ ảnh bitmap (bmp), loại thứ hai là phân tích sơ đồ trình bày của trang tài liệu nhằm... cứ một loại đường phân cách nào để xác định bảng mà sẽ đi vào phân tích các cột được nhận dạng thành các dòng và các ô trong bảng để đưa nhận biết các từ trong cùng một khối logic (chẳng hạn các từ trong cùng một ra được cấu trúc chính xác của bảng cột dữ liệu sẽ được cho vào trong cùng một khối) Chúng ta sẽ không đi tìm 4.2 Thuật toán phân đoạn khởi tạo những... phân đoạn khởi tạo những đặc trưng để phân biệt hai vùng dữ liệu (hai cột) khác nhau mà tìm Phân đoạn khởi tạo ta có thể hiểu như là quá trình phân cụm các từ những đặc trưng để tìm ra các từ trong cùng một khối logic và từ đó xây dựng Trong khi các phương pháp tiếp cận dưới-lên khác thường xác định các cấu trúc riêng theo phương pháp tiếp cận dưới lên (bottom

Ngày đăng: 13/10/2016, 22:11

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w