Phương pháp phân tích trang văn bản dựa trên Tab-stop

27 145 0
Phương pháp phân tích trang văn bản dựa trên Tab-stop

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG  BÙI PHƢƠNG THẢO PHƢƠNG PHÁP PHÂN TÍCH TRANG VĂN BẢN DỰA TRÊN TAB-STOP Chuyên ngành : Khoa học máy tính Mã số : 60.48.01 Luận văn thạc sĩ khoa học máy tính Ngƣời hƣớng dẫn khoa học: TS Nguyễn Đức Dũng Thái Nguyên, 2012 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỞ ĐẦU Đặt vấn đề Hiện nay, hầu hết tài liệu người số hóa lưu trữ máy tính, việc số hóa đảm bảo tính an toàn thuận tiện hẳn so với sử dụng tài liệu giấy Tuy nhiên việc sử dụng giấy để lưu trữ tài liệu số mục đích thay hoàn toàn (như sách, báo, tạp chí, công văn,…) Hơn nữa, lượng tài liệu tạo từ nhiều năm trước nhiều mà bỏ tính quan trọng chúng Việc chuyển đổi tài liệu điện tử sang tài liệu giấy thực dễ dàng cách in hay fax, công việc ngược lại chuyển từ tài liệu giấy sang tài liệu điện tử lại vấn đề không đơn giản Chúng ta mong muốn số hóa tất tài liệu, sách, báo lưu trữ chúng máy tính, việc tổ chức sử dụng chúng thuận tiện nhiều Vậy giải pháp gì? Công nghệ phát triển cách chóng mặt, máy scan với tốc độ hàng nghìn trang giờ, máy tính với công nghệ xử lí nhanh chóng xác cách siêu việt Vậy không quét trang tài liệu vào xử lý, chuyển chúng thành văn cách tự động? Nhưng vấn đề quét thu trang tài liệu dạng ảnh nên thao tác, sửa chữa, tìm kiếm Office được, máy tính không phân biệt đâu điểm ảnh chữ đâu điểm ảnh đối tượng đồ họa Một giải pháp đưa xây dựng hệ thống nhận dạng chữ ảnh chứa chữ đối tượng đồ họa, sau chuyển thành dạng trang văn mở, soạn thảo trình soạn thảo văn Một cách tổng quát cách thức hoạt động hệ thống nhận dạng chữ sau [5]: Chụp ảnh scan trang tài liệu lưu lại máy tính dạng hình ảnh Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Phân tích hình ảnh sau quét, đọc ký tự hình ảnh ghi lại vào máy tính theo cách mà máy tính quản lý thông tin liệu Bước 1: phân tích cấu trúc ảnh tài liệu, từ xác định đâu phần chứa ký - tự, đâu phần chứa ảnh lẫn ký tự đâu chứa hình ảnh Bước thực quan trọng cho bước nhận dạng Bởi định vị xác cho việc áp dụng thuật toán nhận dạng lên vùng xác định tính chất, bước xác trước tiên hạn chế thời gian cho việc nhận dạng, sau tăng ngữ nghĩa bổ sung cho việc nhận dạng Bước 2: nhận dạng ký tự dựa vào tính chất ký tự, ví dụ xếp theo - dòng, khoảng cách từ lớn khoảng cách ký tự, dùng trí tuệ nhân tạo để dự đoán ký tự kề phải nào, từ câu phải để câu có nghĩa Từ có nội dung để lưu trữ, quản lý… Trong thực tế trình nhận dạng trải qua hai bước trên, có nhiều tham số ảnh hưởng đến kết chương trình nhận dạng nhiễu, Font chữ, kích thước chữ, kiểu chữ nghiêng, đậm, gạch Ngoài dòng chữ trộn lẫn với đối tượng đồ họa, trước nhận dạng chữ, số thao tác tiền xử lý tác động lên ảnh như, lọc nhiễu, chỉnh góc nghiêng đặc biệt quan trọng phân tích trang tài liệu để xác định cấu trúc trang văn đồng thời tách biệt hai thành phần chữ đối tượng đồ họa Nội dung nghiên cứu 2.1.Mục tiêu nghiên cứu đề tài  Tìm hiểu cấu trúc trang tài liệu (cấu trúc vật lý, logic)  Tìm hiểu số kỹ thuật phân tích trang tài liệu (phân vùng, phân đoạn, topdown hay bottom-up, …)  Trình bày kỹ thuật phân tích trang văn Tab-Stop  Cài đặt thử nghiệm giải pháp phân tích trang văn kỹ thuật TabStop Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn  Từ kết nghiên cứu có chuẩn bị kiến thức đẩy đủ cho bước nghiên cứu nhận dạng ký tự quang 2.2.Ý nghĩa khoa học đề tài  Giải vấn đề học thuật: đề tài mang ý nghĩa cung cấp mặt lý thuyết để làm rõ phương pháp phân tích trang tài liệu  Đáp ứng yêu cầu thực tiễn: từ lý thuyết nghiên cứu, từ liên hệ gắn vào thực tiễn để áp dụng vào lĩnh vực như: Số hóa tài liệu, lưu trữ thư viện, điện tử hóa văn phòng, nhận dạng xử lý ảnh, … 2.3.Nhiệm vụ nghiên cứu Mục đích luận văn đề cập đến hai phần:  Phần lý thuyết: Nắm rõ trình bày sở lý thuyết liên quan đến cấu trúc trang tài liệu, số kỹ thuật phân tích trang tài liệu, từ có để xác định tính quan trọng bước nhận dạng ký tự, đồng thời hiểu công việc cần làm bước nhận dạng ký tự  Phần phát triển ứng dụng: Áp dụng thuật toán trình bày phần lý thuyết từ lựa chọn giải pháp tối ưu cài đặt thử nghiệm chương trình phân tích trang tài liệu 2.4 Phƣơng pháp nghiên cứu  Tìm kiếm, tham khảo, tổng hợp tài liệu từ nguồn khác để xây dựng phần lý thuyết cho luận văn  Sử dụng kỹ thuật áp dụng phân tích trang tài liệu để làm rõ chất vấn đề đưa phần lý thuyết  Xây dựng chương trình Demo 2.5 Phạm vi nghiên cứu Bài toán phân tích trang tài liệu phát triển với nhiều thành tựu thực tế, có nhiều thuật toán tối ưu nhà khoa học đề nghị Tuy nhiên nói chưa có chương trình “đọc” ảnh văn người, thực tế có nhiều kiểu trang văn khác nhau, khác cấu trúc Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn trình bày, ngôn ngữ, kiểu font, chữ viết tay,… Đây thực toán lớn, phạm vi luận văn tìm hiểu số kỹ thuật phân tích trang văn tiêu biểu với mục đích để so sánh với thuật toán chưa đưa đề tài trước Cuối cùng, dựa vào để xây dựng Demo cho ứng dụng Các kết nghiên cứu dự kiến cần đạt được:  Tìm hiểu tài liệu liên quan đến lĩnh vực quan tâm để nắm bắt chất vấn đề đặt  Báo cáo lý thuyết  Chương trình Demo Bố cục luận văn Nội dung luận văn trình bày ba chương với nội dung sau: Chƣơng 1: Trình bày nội dung trang văn phương pháp tiền xử lý trang văn bản, cấu trúc trang tài liệu trình phân tích trang tài liệu Chƣơng 2: Trình bày số phương pháp phân tích trang tài liệu, từ đánh giá ưu nhược điểm để lựa chọn kỹ thuật Tab-Stop cho chương trình thử nghiệm Chƣơng 3: Cài đặt chương trình Demo đánh giá kết chương trình Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn CHƢƠNG NỘI DUNG TRANG VĂN BẢN VÀ CÁC PHƢƠNG PHÁP TIỀN XỬ LÝ Chương đưa khái niệm đối tượng làm việc đề tài ảnh tài liệu, khái niệm cấu trúc vật lý cấu trúc logic Giới thiệu khâu hệ thống nhận dạng chữ viết hoàn chỉnh Đồng thời đưa số phần mềm nhận dạng Việt Nam Thế giới với mẫu kết phân tích nhằm mục đích so sánh xác định phạm vi cho đề tài 1.1 Ảnh tài liệu nhận dạng ảnh tài liệu 1.1.1 Tổng quan ảnh tài liệu Trang ảnh tài liệu đề cập file ảnh số hoá thu cách quét trang tài liệu dùng máy scanner, chụp từ máy ảnh số, hay nhận từ máy fax (Hình 1), file ảnh lưu giữ máy tính Ảnh tài liệu có nhiều loại: ảnh đen trắng, ảnh đa cấp xám, ảnh đa cấp xám với phần mở rộng TIF, BMP, PCX, …(Hình 2) ảnh tài liệu đưa luận văn ảnh đa cấp xám Tài liệu Thiết bị thu nhận ảnh Ảnh số tài liệu Hình 1: Sơ đồ tổng quan trình tạo ảnh tài liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Hình 2: Ví dụ ảnh tài liệu 1.1.2 Nhận dạng tài liệu vai trò phân tích ảnh tài liệu Ngày nay, máy tính phát triển mạnh mẽ, tốc độ xử lý không ngừng nâng lên Cùng với đời phần mềm thông minh khiến máy tính ngày gần gũi với người Một khả tuyệt vời người mà nhà khoa học máy tính muốn đạt khả nhận dạng lĩnh vực nhận dạng thu nhiều thành công nhận dạng ký tự quang OCR–Optical Character Recognition OCR hiểu trình chuyển đổi tài liệu dạng file ảnh số hoá (là dạng có người đọc được) thành tài liệu dạng file văn (là tài liệu mà người máy đọc được) OCR có nhiều ứng dụng hữu ích sống như: - Sắp xếp thư tín, dựa vào việc nhận dạng mã bưu (Zipcode) hay địa gửi tới - Tự động thu thập liệu từ mẫu đơn/báo biểu hay từ hồ sơ lao động - Hệ thống tự động kiểm tra ngân hàng (tự động xác nhận chữ ký) - Tự động xử lý hóa đơn hay yêu cầu toán - Hệ thống tự động đọc kiểm tra passport - Tự động phục hồi copy tài liệu từ ảnh quét - Máy đọc cho người khiếm thính - Các ứng dụng Datamining - … Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Sơ đồ hệ thống OCR Hình Trong đó: - Scanner: Thiết bị quét ảnh - OCR hardware/software: o Document analysis: Phân tích tài liệu o Character recognition: Nhận dạng ký tự o Contexttual processor: Xử lý văn cảnh - Output interface: Đầu  Như vai trò khâu phân tích ảnh tài liệu việc phân đoạn trang, tách vùng văn khỏi đồ họa tạo mẫu chuẩn cho khâu nhận dạng Rõ ràng kết khâu phân tích ảnh hưởng lớn đến hiệu qủa khâu nhận dạng sử dụng mẫu hay chuỗi văn đầu Hình 3: Sơ đồ OCR 1.2 Cấu trúc ảnh tài liệu Một khái niệm mấu chốt xử lý tài liệu cấu trúc tài liệu Cấu trúc tài liệu thu từ việc liên tiếp chia nhỏ nội dung tài liệu thành phần nhỏ đơn vị (tức phân chia nữa) chúng gọi đối tượng sở (basic objects) Còn tất đối tượng khác gọi đối tượng hỗn hợp Có hai loại cấu trúc tài liệu quan tâm cấu trúc vật lý Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn (hay bố cục vật lý) cấu trúc logic mô tả mối quan hệ logic vùng đối tượng tài liệu 1.2.1 Cấu trúc vật lý Bố cục vật lý tài liệu mô tả vị trí đường danh giới vùng có nội dung khác trang tài liệu[6] Quá trình phân tích bố cục tài liệu thực việc tách từ trang tài liệu ban đầu thành vùng có nội dung sở hình ảnh nền, vùng văn bản,… Để mô tả bố cục vật lý tài liệu người ta sử dụng cấu trúc hình học với đối tượng cấu trúc phần tử chứa nội dung đồng Các kiểu đối tượng hình học định nghĩa sau[4]:  Block đối tượng sở tương ứng với vùng hình chữ nhật chứa phần nội dụng tài liệu  Frame đối tượng hỗn hợp tương ứng với hình chữ nhật bao gồm nhiều block bao gồm frame  Page đối tượng hình học hỗn hợp thành phần sở tương ứng với vùng hình chữ nhật, đối tượng hỗn hợp chứa nhiều block, nhiều frame  Page set (tập trang) tập nhiều page  Điểm gốc cấu trúc (hay nút gốc) đối tượng mức cao sơ đồ phân cấp cấu trúc hình học tài liệu Hình 4(b) cho ví dụ cấu trúc hình học mô tả bố cục vật lý trang tài liệu tương ứng Các thuật toán phân tích bố cục tài liệu chia làm ba loại dựa theo phương pháp thực - Bottom-up: Ý tưởng thuật toán loại phần tử nhỏ (như từ pixel hay phần tử liên thông) sau liên tục nhóm chúng lại thành vùng lớn - Top-down: Thuật toán vùng lớn chứa trang tài liệu sau liên tục phân chia thành vùng nhỏ Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 10 - Các thuật toán không theo thứ bậc: Fractal Signature, Adaptive splitand-merge … Hình 4: b-Cấu trúc vật lý: c,d-Cấu trúc logic tài liệu[4] 1.2.2 Cấu trúc logic Ngoài bố cục vật lý, trang tài liệu chứa đựng nhiều thông tin ngữ cảnh nội dung tiêu đề, đoạn văn, đề mục, …và vùng nội dung lại gán nhãn logic hay nhãn theo chức tương ứng, khác biệt hoàn toàn với nhãn bố cục vật lý Hầu hết tài liệu có quy tắc đọc để hiểu hết nội dung tài liệu Với số ngôn ngữ đặc biệt tiếng Trung, tiếng Ả rập lại có quy cách đọc khác biệt (như đọc từ phải qua trái, xuống) Tập hợp tất yếu tố logic chức tài liệu mối quan hệ chúng gọi cấu trúc logic tài liệu[6] Thông thường pha phân tích cấu trúc logic tài liệu thực kết bước phân tích bố cục vật lý Tuy nhiên với số loại tài liệu phức tạp, pha phân tích bố cục vật lý lại cần thêm số thông tin logic liên quan đến vùng để phân đoạn cách xác Hình 4(c,d) mô tả ví dụ cấu trúc logic tài liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read data error !!! can't not read ... số kỹ thuật phân tích trang tài liệu (phân vùng, phân đoạn, topdown hay bottom-up, …)  Trình bày kỹ thuật phân tích trang văn Tab-Stop  Cài đặt thử nghiệm giải pháp phân tích trang văn kỹ thuật... cục luận văn Nội dung luận văn trình bày ba chương với nội dung sau: Chƣơng 1: Trình bày nội dung trang văn phương pháp tiền xử lý trang văn bản, cấu trúc trang tài liệu trình phân tích trang tài... analysis: Phân tích tài liệu o Character recognition: Nhận dạng ký tự o Contexttual processor: Xử lý văn cảnh - Output interface: Đầu  Như vai trò khâu phân tích ảnh tài liệu việc phân đoạn trang,

Ngày đăng: 21/04/2017, 13:54

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan