Tìm hiểu phương pháp phân tích bảng theo cấu trúc T- RECS
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG…………… LUẬN VĂN Tìm hiểu phương pháp phân tích bảng theo cấu trúc T- RECS MỤC LỤC MỤC LỤC MỞ ĐẦU CHƢƠNG TỔNG QUAN HỆ PHÂN TÍCH TÀI LIỆU 1.1 Giới thiệu chung hệ phân tích trang tài liệu 1.2 Sơ lƣợc nhận dạng ký tự quang học (OCR) 1.3 Kết luận chƣơng CHƢƠNG THUẬT TOÁN TÁCH BẢNG T-RECS .9 2.1 Giới thiệu 2.2 Thuật toán phân đoạn khởi tạo 11 2.2.1 Trường hợp thuật toán nhận dạng sai cột 12 2.2.2 Cải tiến bước thuật toán phân đoạn khởi tạo - T-Recs++ 13 2.2.3 Những ưu điểm thuật toán 15 2.2.4 Những mặt hạn chế thuật toán khởi tạo 16 2.3 Các bƣớc xử lý khối sau phân đoạn .16 2.3.1 Trộn khối phân đoạn sai 17 2.3.2 Phân tách cột bị trộn vào khối 18 2.3.3 Nhóm từ bị phân tách 20 2.4 Phân tích khối .21 2.4.1 Khối loại nằm với khối loại 21 2.5 Xác định cấu trúc cột, hàng 22 2.6 Kết luận chƣơng 22 CHƢƠNG THỰC NGHIỆM 24 3.1 T-Recs++ 24 3.1.1 Giới thiệu 24 3.1.2 Mô tả chương trình 24 3.1.3 Một số kết thử nghiệm 26 KẾT LUẬN 28 DANH MỤC CÁC TÀI LIỆU THAM KHẢO………………………………… 30 MỞ ĐẦU Ngày máy tính phát triển, với tốc độ không gian lưu trữ máy tính nâng cấp lên nhiều Việc lưu trữ số lượng khổng lồ tài liệu xử lý nhiệm vụ phức tạp máy tính ngày nhiều Những cơng việc văn phịng hàng ngày liên quan đến tài liệu, tài liệu khơng đơn giản lưu trữ mà cần phải xử lý để có khả thay đổi, soạn thảo, chỉnh sửa trích chọn thơng tin quan trọng Vì hệ phân tích tài liệu đời, mục đích chúng giúp biểu diễn thông tin tài liệu ảnh, tài liệu giấy đưa vào từ máy quét dạng có cấu trúc Một hệ phân tích nhận dạng tài liệu có mục đích chuyển đổi tự động thơng tin lưu trữ tài liệu giấy thành biểu diễn dạng cấu trúc mà truy xuất, thay đổi máy tính Quy trình xử lý hệ phân tích tài liệu bắt đầu việc lấy liệu, tài liệu từ giấy in quét qua máy quét để lưu trữ máy tính dạng tệp liệu ảnh Rõ ràng máy tính đời phát triển giải nhiều vấn đề việc lưu trữ thơng tin Theo ước tính giới, có số lượng nhỏ tài liệu từ thư viện giấy khổng lồ đưa lên mạng số lượng lớn nguồn tri thức nhân loại lưu trữ theo cách thức cổ điển thư viện mà việc bỏ chi phí trì (chủ yếu trả lương cho nhân viên) cho nguồn tài liệu lớn Thông tin không thiết phải lưu trữ giấy, cách lưu trữ khơng an tồn, khơng bền vững theo thời gian, thay lưu trữ cách ổn định an toàn máy tính Do cách hay cách khác tài liệu giấy quét thành tệp liệu ảnh lưu trữ máy tính Khơng đơn giản vấn đề lưu trữ, tài liệu từ giấy in đưa vào máy tính cịn cần xử lý trích chọn thơng tin quan trọng Một tài liệu giấy in đưa vào máy tính cịn u cầu có khả soạn thảo, hiệu chỉnh khôi phục lại Một tệp liệu cần phải chuyển sang định dạng khác để có khả soạn thảo, phải đảm bảo thông tin chuyển sang từ tệp liệu phải không bị đi, không bị thiếu thông tin cấu trúc vị trí liệu giữ nguyên Chẳng hạn vị trí đoạn văn bản, tiêu đề, bảng liệu, v.v phải chuyển sang theo cấu trúc thể tệp liệu Vì ngành nhận dạng hay hệ phân tích tài liệu ảnh đời phát triển để giải vấn đề Một vài sản phẩm thương mại có chẳng hạn hệ nhận dạng quang học OCR để nhận dạng ký tự in, ký tự viết tay, bảng biểu nhiên cần nhiều nghiên cứu để cải thiện độ xác hệ thống Một số sản phẩm chẳng hạn VnDOCR (của Việt Nam) cho phép nhận dạng chuỗi văn bản, bảng biểu hay Omnipage, Find Reader v.v sản phẩm nhận dạng tiếng Bài toán nhận dạng bảng tài liệu ảnh tốn khó phức tạp Trước hệ phân tích tài liệu ảnh tập trung vào nhận dạng chuỗi ký tự, phân đoạn khối văn Ngày tài liệu không đơn văn mà cịn bao gồm hỗn hợp đối tượng chuỗi ký tự, ảnh, hình vẽ, sơ đồ, bảng biểu v.v Nhận dạng bảng toán nhận dạng cấu trúc bảng có trang tài liệu ảnh, bao gồm việc nhận dạng cột, dịng có chứa liệu bảng Đã có nhiều phương pháp, thuật tốn tách bảng, tách ảnh cơng bố trước Tuy nhiên nghiên cứu vấn đề cịn tiếp tục phát triển chất lượng, độ xác, tính hiệu phương pháp cơng bố trước cịn chưa hoàn chỉnh cần phải cải tiến chúng Luận án bao gồm phần chủ yếu tập trung vào trình bày thuật tốn nhận dạng bảng Chương trình bày ngắn gọn cấu trúc chung hệ phân tích tài liệu ảnh, sơ lược nhận dạng ký tự quang học (OCR) Chương đưa thuật toán nhận dạng bảng theo phương pháp tiếp cận – lên (bottom – up) Thuật toán đề xuất Thomas G Kieninger (1998) đặt tên T-Recs Tuy nhiên để nhận dạng xác cấu trúc bảng thuật tốn cịn nhiều hạn chế Luận án trường hợp thuật toán nhận dạng sai đề xuất thuật toán cải tiến T-Recs++ Cuối chương trình bày chương trình thử nghiệm: T-Recs++ dùng để nhận dạng bảng Phần kết luận nêu tóm tắt lại vấn đề đưa luận án đưa vấn đề tồn để nâng cao tính hiệu thuật tốn Các hướng giải nghiên cứu tương lai phương pháp đưa CHƢƠNG TỔNG QUAN HỆ PHÂN TÍCH TÀI LIỆU 1.1 Giới thiệu chung hệ phân tích trang tài liệu Một hệ phân tích tài liệu ảnh nói đến hệ thống bao gồm thuật toán kỹ thuật mà áp dụng cho tài liệu ảnh để lấy thông tin mà máy tính đọc hiểu từ điểm liệu ảnh Một sản phẩm phân tích tài liệu ảnh mà nhiều người biết đến phần mềm Nhận dạng Ký tự Quang học (OCR), phần mềm có khả nhận dạng ký tự từ loại tài liệu dạng ảnh OCR giúp người dùng có khả soạn thảo tìm kiếm nội dung tài liệu Chương mô tả tóm tắt thành phần có hệ phân tích tài liệu Mục đích hệ phân tích tài liệu có khả nhận dạng đối tượng văn bản, đối tượng ảnh tài liệu ảnh có khả trích chọn thông tin mà người dùng mong muốn Chúng ta chia hệ phân tích tài liệu thành hai phần (Hình 1) Phần thứ xử lý văn bản, liên quan đến việc xử lý đối tượng văn bản: ký tự, chuỗi ký tự, từ Xử lý văn bao gồm công việc sau: xác định độ nghiêng tài liệu (độ nghiêng hay độ xiên tài liệu ảnh tài liệu đặt không thực quét vào từ máy qt), tìm cột, đoạn văn bản, dịng văn bản, từ cuối nhận dạng văn (có thể thêm thuộc tính loại phơng chữ, kích thước phơng chữ) phương pháp nhận dạng ký tự quang học (OCR) Phần thứ hai xử lý đối tượng ảnh đối tượng tạo từ đường kẻ sơ đồ, đường kẻ phân tách đoạn văn bản, hình vẽ, lơgơ cơng ty… Sau áp dụng kỹ thuật phân tích ảnh văn bản, đối tượng cần nhận dạng tài liệu ảnh trích biểu diễn dạng tài liệu định dạng khác, chẳng hạn word, html… Chúng ta xem xét ví dụ cụ thể để thấy cần thiết việc phân tích tài liệu: 1) Phần lớn tài liệu văn văn phòng làm việc tạo từ máy tính, chí chúng tạo máy tính, phần mềm khác nhau, định dạng chúng khơng tương thích với Chúng bao gồm định dạng văn bản, bảng liệu văn viết tay Chúng có kích thước khác nhau, từ thẻ kinh doanh nghiệp đến ảnh vẽ kỹ thuật lớn Một hệ phân tích tài liệu giúp nhận dạng loại tài liệu, có khả trích chọn 2) 3) phần chức có khả chuyển từ định dạng máy tính sang định dạng khác Một thí dụ khác máy phân loại thư tự động dùng để phân loại, xếp thư nhận dạng địa thư Những máy có từ thập kỷ trước, ngày yêu cầu cao xử lý nhiều thư hơn, nhanh yêu cầu độ xác cao Hơn thư viện cổ điển trước (thư viện lưu trữ loại sách báo dạng giấy tờ, tồn nhiều), việc tài liệu bị thông tin, thiếu thông tin, số lượng hạn chế hay chí tài liệu bị thoái hoá theo thời gian vấn đề phổ biến Vì chúng cần phải khôi phục chỉnh sửa bằmg kỹ thuật phân tích tài liệu Những ví dụ tạo thách thức động lực cho phát triển giải pháp tương lai hệ phân tích tài liệu Xử lý tài liệu Xử lý văn Nhận dạng ký tự quang học - OCR Văn Xử lý đối tượng ảnh Xử lý đường kẻ Phân tích sơ đồ trình bày Xác định độ nghiêng, dịng văn bản, khối văn bản, đoạn văn Đường thẳng, đường cong, góc Xử lý vùng biểu tượng Vùng tơ Hình Sơ đồ khối việc xử lý tài liệu Các hệ phân tích tài liệu ngày phát triển hiển nhiên chúng có hệ xử lý tài liệu Chẳng hạn như, hệ thống OCR sử dụng rộng rãi để lưu trữ, tìm kiếm trích dẫn từ tài liệu lưu trữ giấy Các kỹ thuật phân tích cách bố trí trang tài liệu giúp nhận dạng biểu mẫu (form) riêng biệt, hay định dạng trang tài liệu cho phép lưu tài liệu Các sơ đồ đưa vào từ ảnh hay vẽ tay thay đổi, soạn thảo lại chúng Sử dụng máy tính chuyển tài liệu viết tay thành tài liệu điện tử lưu trữ máy tính Các tài liệu lưu trữ thư viện, tài liệu kỹ thuật công ty chuyển đổi sang thành tài liệu điện tử nhằm nâng cao hiệu quả, thuận tiện việc lưu trữ dễ dàng mang đến quan hay mang nhà Mặc dù tài liệu ngày xử lý lưu trữ nhiều máy tính thực tế có nhiều hệ thống khác mà tài liệu giấy phương tiện làm việc hiệu chắn tài liệu giấy phương tiện làm việc với vài thập kỷ Vấn đề tích hợp tài liệu giấy vào máy tính xử lý Trang tài liệu Lấy liệu 107 điểm ảnh Xử lý điểm ảnh 7500 hình bao ký tự, ký tự có kích thước 15x20 điểm ảnh 500 đường kẻ đường cong với độ dài từ 20 đến 2000 điểm ảnh 1000 vùng ảnh tô với kích thước từ 20x20 đến 200x200 điểm ảnh Phân tích đặc trưng 7500x10 đặc trưng ký tự Phân tích nhận dạng đối tượng ảnh 1500x10 ký tự, 10 đoạn văn bản, tiêu đề tiêu đề phụ 500x5 đặc trưng đường thẳng đường cong 10x5 đặc trưng vùng Phân tích nhận dạng văn Hai sơ đồ ảnh lô gô cơng ty,.v.v Mơ tả tài liệu Hình Các bước xử lý cho hệ phân tích tài liệu, kèm sơ đồ thí dụ với kết thu từ bước Hình minh hoạ cho bước xử lý chung hệ phân tích tài liệu [3] Sau liệu tạo ra, tài liệu ảnh phải trải qua bước xử lý điểm ảnh phân tích đặc trưng sau tách phần nhận dạng văn ảnh riêng rẽ 1.2 Sơ lƣợc nhận dạng ký tự quang học (OCR) Nhận dạng ký tự quang học (OCR) phần cốt lõi ngành nhận dạng, mục đích OCR nhận biết chuỗi ký tự từ bảng chữ Các ký tự bảng chữ thường có nhiều kiểu viết khác Trên thực tế ký tự thường viết nhiều kiểu khác tuỳ thuộc vào kích cỡ, loại phơng chữ nét bút viết tay người Mặc dù ký tự viết theo nhiều cách có lẽ có quy tắc xác định để nhận biết ký tự Phát triển thuật tốn máy tính để nhận biết ký tự bảng chữ nhiệm vụ trọng tâm OCR Nhưng thách thức vấn đề – người nhận dạng gần xác 100% ký tự viết tay OCR chưa thể đạt tới điều Khó khăn OCR thể qua số đặc điểm Sự gia tăng số lượng kích cỡ phơng chữ bảng chữ cái, không ràng buộc kiểu chữ viết tay, ký tự nối liền nhau, nét bị đứt, điểm nhiễu v.v tất chúng làm cho q trình nhận dạng gặp khó khăn Hình thí dụ số „0‟ số „6‟ dễ nhầm lẫn chúng viết tay Một từ hồn tồn số, chẳng hạn số điện thoại, hay hoàn toàn ký tự bảng chữ trộn lẫn chữ số Hình Các ký tự viết tay dễ nhầm lẫn Hình Sẽ khơng dễ dàng để phân tách nhận dạng hai số 4,2 có nét nối liền Do trình nhận dạng trở nên khó khăn ký tự liền kề chuỗi nối liền nét (Hình 4) Các ký tự nối liền nét điều bình thường mang ý nghĩa gắn kết (như ký tự gạch nối), nối ký tự số với ký tự chữ viết hoa từ viết tắt khó nhận dạng 1.3 Kết luận chƣơng Chương mô tả ngắn gọn thành phần chung hệ phân tích tài liệu ảnh nêu sơ lược nhận dạng ký tự quang học (ORC) Các chương mô tả chi tiết phương pháp nhận dạng bảng thuật tốn T-Recs CHƢƠNG THUẬT TỐN TÁCH BẢNG T-RECS 2.1 Giới thiệu Ngày mục tiêu hệ thống nhận dạng quang học (OCR) tiến xa nhiều, không phép chuyển đổi đơn giản tài liệu ảnh sang tài liệu văn bao gồm từ mà cịn tập trung vào việc xác định cấu trúc đặc trưng tài liệu Trong số hệ phân tích cấu trúc tập trung vào xác định tính logíc đối tượng số miền giới hạn nhận dạng mẫu viết thư [19], số khác lại vào tập trung nhận biết số cấu trúc phổ biến đoạn văn bản, dòng tiêu đề hay danh sách Hu [17] Condit [18] miêu tả hệ thống biểu diễn cấu trúc Mục đích hệ thống nhận dạng cấu trúc không đơn giản chuyển tài liệu in thành tài liệu điện tử mà xây dựng trình xử lý kết hợp chẳng hạn như: tự động chép nội dụng, đánh mục phân loại Error! Reference source not found Do việc quan trọng kèm theo nội dung tài liệu phải trích chọn cấu trúc kèm với nội dung Khi đề cập đến vấn đề nhận dạng cấu trúc tài liệu có chứa liệu bảng biểu có hai hướng tiếp cận khác nhau: cách tiếp cận thứ xác định xác cấu trúc bảng, bao gồm ô bảng, cách thường gọi phân đoạn hay nhận dạng cấu trúc Cách thứ hai dựa vào hình dạng khối xếp đưa tập đối tượng khối cấu trúc bậc cao Quá trình gọi tên gán nhãn lơgíc, phân tích cấu trúc hay phân tích sơ đồ trình bày Tìm hiểu phướng pháp nhận dạng cấu trúc bảng có trước cho thấy điểm giống nhau, phương pháp nhận dạng cấu trúc bảng xác định dấu hiệu phân cách, khoảng trắng, đường kẻ Chẳng hạn Rus Summers Error! Reference source not found mô tả hệ nhận dạng cấu trúc bảng có khả xác định bảng mà cột cách khoảng hẹp sử dụng WDG Trong số phương pháp khác lại dựa vào độ khối bao gồm từ dòng (Hình 11), khối loại hai tất trường hợp cịn lại (Hình 12) Dễ nhận thấy khối loại một bảng đơn giản Phân biệt hai loại khối giúp dễ dàng chọn lựa phương pháp, kỹ thuật để phân tích loại khối Phần trình bày phương pháp xử lý để khắc phục trường hợp nhận dạng sai từ Hình 13 2.3.1 Trộn khối phân đoạn sai Hình 13 thí dụ với đoạn văn thông thường mà có ký tự cách (space) vị trí tất dịng đoạn văn Trong trường hợp phương pháp phân đoạn đoạn văn khơng nhận biết khối thống mà hiểu hai khối tách biệt Do ta cần có bước xử lý để nhận biết trộn hai khối tách biệt làm khối thống Trong phương pháp sử dụng khối sau phân đoạn Có thể thấy rõ ràng khối mà trộn thành khối chung thường nằm bên trái bên phải Giả sử ta xác định khối trộn với nhau, từ khối trước tiên đánh giá khoảng cách trung bình từ hai khối để tìm độ rộng trung bình ký tự cách đoạn văn Nếu khoảng cách hai khối xấp xỉ độ rộng trung bình ký tự cách trộn hai khối vào làm Hình 14 Trộn hai khối bị phân tách Một lưu ý ta xét hai khối có khả trộn với khối phải thoả mãn tất dịng khối có từ nằm ngồi bên trái hay bên phải có vùng bao từ phải thẳng hàng theo chiều dọc Tức khối có từ dịng nằm thụt vào so với mép lề trái hay mép lề phải khối (Hình 15) ta coi hai khối khơng có khả trộn với Đối với khối loại hai chúng ta dễ dàng tính khoảng cách trung bình từ dịng, sau ta lấy khoảng cách so sánh với khoảng cách hai khối Dựa số sai số đưa ta định liệu hai khối có trộn vào với hay khơng 17 Trong trường hợp hai khối trộn lại hai khối loại ta khơng tính độ rộng trung bình từ khối liền kề Vì trường hợp ta tính độ rộng trung bình từ dựa vào khối loại hai khác Hình 14 hai khối xử lý kỹ thuật kết tương ứng 2.3.2 Phân tách cột bị trộn vào khối Một vấn đề khác gặp phải cột riêng biệt trộn với nhau, chẳng hạn cột có chung tiêu đề thường bị trộn thành cột bước phân đoạn khởi tạo Trong tìm dấu hiệu đơn giản để nhận biết cột tách ta nhận thấy mối quan hệ – từ cột tiêu , từ Wa b b a – Mối quan hệ - giúp tách khối loại (trên dịng có từ) để tách khối loại hai ta phải sử dụng kỹ thuật khác Hình 15 tách sai Hình 15 Tách cột bị trộn – 18 Hình 16 Trộn lại khối bị tách ) Cụ thể hố q trình nhận biết khối tách riêng từ khối cha có tạo thành cột riêng rẽ bảng hay không ta so sánh khối tách với Quá trình tách khối thành khối chia khối cha thành khối đánh số từ B1 đến Bn Do khối Bi (1 ≤ i ≤ n) bao gồm từ liên tục nằm cạnh nhau, khối Bi có đặc trưng (XImin, YImin) (XImax, YImax) Trong (XImin, YImin) toạ độ góc bên trái khối (XJmax, YJmax) toạ độ góc bên phải khối Vì ta tìm tất khối từ đến n, tồn hai khối i j thoả mãn điều kiện sau: XJmin