1. Trang chủ
  2. » Luận Văn - Báo Cáo

(Luận Văn Thạc Sĩ) Phương Pháp Phân Tích Trang Văn Bản Dựa Trên Tab-Stop.pdf

68 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 68
Dung lượng 4,22 MB

Nội dung

CHƯƠNG I 1 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http //www lrc tnu edu vn ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG  BÙI PHƢƠNG THẢO PHƢƠNG PHÁP PHÂN TÍ[.]

1 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG  BÙI PHƢƠNG THẢO PHƢƠNG PHÁP PHÂN TÍCH TRANG VĂN BẢN DỰA TRÊN TAB-STOP Chuyên ngành : Khoa học máy tính Mã số : 60.48.01 Luận văn thạc sĩ khoa học máy tính Ngƣời hƣớng dẫn khoa học: TS Nguyễn Đức Dũng Thái Nguyên, 2012 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỞ ĐẦU Đặt vấn đề Hiện nay, hầu hết tài liệu người số hóa lưu trữ máy tính, việc số hóa đảm bảo tính an tồn thuận tiện hẳn so với sử dụng tài liệu giấy Tuy nhiên việc sử dụng giấy để lưu trữ tài liệu số mục đích khơng thể thay hồn tồn (như sách, báo, tạp chí, cơng văn,…) Hơn nữa, lượng tài liệu tạo từ nhiều năm trước cịn nhiều mà khơng thể bỏ tính quan trọng chúng Việc chuyển đổi tài liệu điện tử sang tài liệu giấy thực dễ dàng cách in hay fax, công việc ngược lại chuyển từ tài liệu giấy sang tài liệu điện tử lại vấn đề khơng đơn giản Chúng ta mong muốn số hóa tất tài liệu, sách, báo lưu trữ chúng máy tính, việc tổ chức sử dụng chúng thuận tiện nhiều Vậy giải pháp gì? Cơng nghệ phát triển cách chóng mặt, máy scan với tốc độ hàng nghìn trang giờ, máy tính với cơng nghệ xử lí nhanh chóng xác cách siêu việt Vậy không quét trang tài liệu vào xử lý, chuyển chúng thành văn cách tự động? Nhưng vấn đề quét thu trang tài liệu dạng ảnh nên khơng thể thao tác, sửa chữa, tìm kiếm Office được, máy tính khơng phân biệt đâu điểm ảnh chữ đâu điểm ảnh đối tượng đồ họa Một giải pháp đưa xây dựng hệ thống nhận dạng chữ ảnh chứa chữ đối tượng đồ họa, sau chuyển thành dạng trang văn mở, soạn thảo trình soạn thảo văn Một cách tổng quát cách thức hoạt động hệ thống nhận dạng chữ sau [5]: Chụp ảnh scan trang tài liệu lưu lại máy tính dạng hình ảnh Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Phân tích hình ảnh sau qt, đọc ký tự hình ảnh ghi lại vào máy tính theo cách mà máy tính quản lý thơng tin liệu Bước 1: phân tích cấu trúc ảnh tài liệu, từ xác định đâu phần chứa ký - tự, đâu phần chứa ảnh lẫn ký tự đâu chứa hình ảnh Bước thực quan trọng cho bước nhận dạng Bởi định vị xác cho việc áp dụng thuật toán nhận dạng lên vùng xác định tính chất, bước xác trước tiên hạn chế thời gian cho việc nhận dạng, sau tăng ngữ nghĩa bổ sung cho việc nhận dạng Bước 2: nhận dạng ký tự dựa vào tính chất ký tự, ví dụ xếp theo - dòng, khoảng cách từ lớn khoảng cách ký tự, dùng trí tuệ nhân tạo để dự đoán ký tự kề phải nào, từ câu phải để câu có nghĩa Từ có nội dung để lưu trữ, quản lý… Trong thực tế trình nhận dạng trải qua hai bước trên, có nhiều tham số ảnh hưởng đến kết chương trình nhận dạng nhiễu, Font chữ, kích thước chữ, kiểu chữ nghiêng, đậm, gạch Ngồi dịng chữ trộn lẫn với đối tượng đồ họa, trước nhận dạng chữ, số thao tác tiền xử lý tác động lên ảnh như, lọc nhiễu, chỉnh góc nghiêng đặc biệt quan trọng phân tích trang tài liệu để xác định cấu trúc trang văn đồng thời tách biệt hai thành phần chữ đối tượng đồ họa Nội dung nghiên cứu 2.1.Mục tiêu nghiên cứu đề tài  Tìm hiểu cấu trúc trang tài liệu (cấu trúc vật lý, logic)  Tìm hiểu số kỹ thuật phân tích trang tài liệu (phân vùng, phân đoạn, topdown hay bottom-up, …)  Trình bày kỹ thuật phân tích trang văn Tab-Stop  Cài đặt thử nghiệm giải pháp phân tích trang văn kỹ thuật TabStop Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn  Từ kết nghiên cứu có chuẩn bị kiến thức đẩy đủ cho bước nghiên cứu nhận dạng ký tự quang 2.2.Ý nghĩa khoa học đề tài  Giải vấn đề học thuật: đề tài mang ý nghĩa cung cấp mặt lý thuyết để làm rõ phương pháp phân tích trang tài liệu  Đáp ứng yêu cầu thực tiễn: từ lý thuyết nghiên cứu, từ liên hệ gắn vào thực tiễn để áp dụng vào lĩnh vực như: Số hóa tài liệu, lưu trữ thư viện, điện tử hóa văn phịng, nhận dạng xử lý ảnh, … 2.3.Nhiệm vụ nghiên cứu Mục đích luận văn đề cập đến hai phần:  Phần lý thuyết: Nắm rõ trình bày sở lý thuyết liên quan đến cấu trúc trang tài liệu, số kỹ thuật phân tích trang tài liệu, từ có để xác định tính quan trọng bước nhận dạng ký tự, đồng thời hiểu công việc cần làm bước nhận dạng ký tự  Phần phát triển ứng dụng: Áp dụng thuật tốn trình bày phần lý thuyết từ lựa chọn giải pháp tối ưu cài đặt thử nghiệm chương trình phân tích trang tài liệu 2.4 Phƣơng pháp nghiên cứu  Tìm kiếm, tham khảo, tổng hợp tài liệu từ nguồn khác để xây dựng phần lý thuyết cho luận văn  Sử dụng kỹ thuật áp dụng phân tích trang tài liệu để làm rõ chất vấn đề đưa phần lý thuyết  Xây dựng chương trình Demo 2.5 Phạm vi nghiên cứu Bài tốn phân tích trang tài liệu phát triển với nhiều thành tựu thực tế, có nhiều thuật toán tối ưu nhà khoa học đề nghị Tuy nhiên nói chưa có chương trình “đọc” ảnh văn người, thực tế có nhiều kiểu trang văn khác nhau, khác cấu trúc Số hóa Trung tâm Học liệu – Đại học Thái Ngun http://www.lrc-tnu.edu.vn trình bày, ngơn ngữ, kiểu font, chữ viết tay,… Đây thực tốn lớn, phạm vi luận văn tìm hiểu số kỹ thuật phân tích trang văn tiêu biểu với mục đích để so sánh với thuật toán chưa đưa đề tài trước Cuối cùng, dựa vào để xây dựng Demo cho ứng dụng Các kết nghiên cứu dự kiến cần đạt được:  Tìm hiểu tài liệu liên quan đến lĩnh vực quan tâm để nắm bắt chất vấn đề đặt  Báo cáo lý thuyết  Chương trình Demo Bố cục luận văn Nội dung luận văn trình bày ba chương với nội dung sau: Chƣơng 1: Trình bày nội dung trang văn phương pháp tiền xử lý trang văn bản, cấu trúc trang tài liệu q trình phân tích trang tài liệu Chƣơng 2: Trình bày số phương pháp phân tích trang tài liệu, từ đánh giá ưu nhược điểm để lựa chọn kỹ thuật Tab-Stop cho chương trình thử nghiệm Chƣơng 3: Cài đặt chương trình Demo đánh giá kết chương trình Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn CHƢƠNG NỘI DUNG TRANG VĂN BẢN VÀ CÁC PHƢƠNG PHÁP TIỀN XỬ LÝ Chương đưa khái niệm đối tượng làm việc đề tài ảnh tài liệu, khái niệm cấu trúc vật lý cấu trúc logic Giới thiệu khâu hệ thống nhận dạng chữ viết hoàn chỉnh Đồng thời đưa số phần mềm nhận dạng Việt Nam Thế giới với mẫu kết phân tích nhằm mục đích so sánh xác định phạm vi cho đề tài 1.1 Ảnh tài liệu nhận dạng ảnh tài liệu 1.1.1 Tổng quan ảnh tài liệu Trang ảnh tài liệu đề cập file ảnh số hoá thu cách quét trang tài liệu dùng máy scanner, chụp từ máy ảnh số, hay nhận từ máy fax (Hình 1), file ảnh lưu giữ máy tính Ảnh tài liệu có nhiều loại: ảnh đen trắng, ảnh đa cấp xám, ảnh đa cấp xám với phần mở rộng TIF, BMP, PCX, …(Hình 2) ảnh tài liệu đưa luận văn ảnh đa cấp xám Tài liệu Thiết bị thu nhận ảnh Ảnh số tài liệu Hình 1: Sơ đồ tổng quan trình tạo ảnh tài liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Hình 2: Ví dụ ảnh tài liệu 1.1.2 Nhận dạng tài liệu vai trị phân tích ảnh tài liệu Ngày nay, máy tính phát triển mạnh mẽ, tốc độ xử lý khơng ngừng nâng lên Cùng với đời phần mềm thông minh khiến máy tính ngày gần gũi với người Một khả tuyệt vời người mà nhà khoa học máy tính muốn đạt khả nhận dạng lĩnh vực nhận dạng thu nhiều thành công nhận dạng ký tự quang OCR–Optical Character Recognition OCR hiểu trình chuyển đổi tài liệu dạng file ảnh số hố (là dạng có người đọc được) thành tài liệu dạng file văn (là tài liệu mà người máy đọc được) OCR có nhiều ứng dụng hữu ích sống như: - Sắp xếp thư tín, dựa vào việc nhận dạng mã bưu (Zipcode) hay địa gửi tới - Tự động thu thập liệu từ mẫu đơn/báo biểu hay từ hồ sơ lao động - Hệ thống tự động kiểm tra ngân hàng (tự động xác nhận chữ ký) - Tự động xử lý hóa đơn hay yêu cầu toán - Hệ thống tự động đọc kiểm tra passport - Tự động phục hồi copy tài liệu từ ảnh quét - Máy đọc cho người khiếm thính - Các ứng dụng Datamining - … Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Sơ đồ hệ thống OCR Hình Trong đó: - Scanner: Thiết bị quét ảnh - OCR hardware/software: o Document analysis: Phân tích tài liệu o Character recognition: Nhận dạng ký tự o Contexttual processor: Xử lý văn cảnh - Output interface: Đầu  Như vai trị khâu phân tích ảnh tài liệu việc phân đoạn trang, tách vùng văn khỏi đồ họa tạo mẫu chuẩn cho khâu nhận dạng Rõ ràng kết khâu phân tích ảnh hưởng lớn đến hiệu qủa khâu nhận dạng sử dụng mẫu hay chuỗi văn đầu Hình 3: Sơ đồ OCR 1.2 Cấu trúc ảnh tài liệu Một khái niệm mấu chốt xử lý tài liệu cấu trúc tài liệu Cấu trúc tài liệu thu từ việc liên tiếp chia nhỏ nội dung tài liệu thành phần nhỏ đơn vị (tức phân chia nữa) chúng gọi đối tượng sở (basic objects) Còn tất đối tượng khác gọi đối tượng hỗn hợp Có hai loại cấu trúc tài liệu quan tâm cấu trúc vật lý Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn (hay bố cục vật lý) cấu trúc logic mô tả mối quan hệ logic vùng đối tượng tài liệu 1.2.1 Cấu trúc vật lý Bố cục vật lý tài liệu mơ tả vị trí đường danh giới vùng có nội dung khác trang tài liệu[6] Q trình phân tích bố cục tài liệu thực việc tách từ trang tài liệu ban đầu thành vùng có nội dung sở hình ảnh nền, vùng văn bản,… Để mơ tả bố cục vật lý tài liệu người ta sử dụng cấu trúc hình học với đối tượng cấu trúc phần tử chứa nội dung đồng Các kiểu đối tượng hình học định nghĩa sau[4]:  Block đối tượng sở tương ứng với vùng hình chữ nhật chứa phần nội dụng tài liệu  Frame đối tượng hỗn hợp tương ứng với hình chữ nhật bao gồm nhiều block bao gồm frame  Page đối tượng hình học hỗn hợp thành phần sở tương ứng với vùng hình chữ nhật, đối tượng hỗn hợp chứa nhiều block, nhiều frame  Page set (tập trang) tập nhiều page  Điểm gốc cấu trúc (hay nút gốc) đối tượng mức cao sơ đồ phân cấp cấu trúc hình học tài liệu Hình 4(b) cho ví dụ cấu trúc hình học mơ tả bố cục vật lý trang tài liệu tương ứng Các thuật tốn phân tích bố cục tài liệu chia làm ba loại dựa theo phương pháp thực - Bottom-up: Ý tưởng thuật tốn loại phần tử nhỏ (như từ pixel hay phần tử liên thông) sau liên tục nhóm chúng lại thành vùng lớn - Top-down: Thuật toán vùng lớn chứa trang tài liệu sau liên tục phân chia thành vùng nhỏ Số hóa Trung tâm Học liệu – Đại học Thái Ngun http://www.lrc-tnu.edu.vn 10 - Các thuật tốn khơng theo thứ bậc: Fractal Signature, Adaptive splitand-merge … Hình 4: b-Cấu trúc vật lý: c,d-Cấu trúc logic tài liệu[4] 1.2.2 Cấu trúc logic Ngoài bố cục vật lý, trang tài liệu cịn chứa đựng nhiều thơng tin ngữ cảnh nội dung tiêu đề, đoạn văn, đề mục, …và vùng nội dung lại gán nhãn logic hay nhãn theo chức tương ứng, khác biệt hoàn toàn với nhãn bố cục vật lý Hầu hết tài liệu có quy tắc đọc để hiểu hết nội dung tài liệu Với số ngôn ngữ đặc biệt tiếng Trung, tiếng Ả rập lại có quy cách đọc khác biệt (như đọc từ phải qua trái, xuống) Tập hợp tất yếu tố logic chức tài liệu mối quan hệ chúng gọi cấu trúc logic tài liệu[6] Thơng thường pha phân tích cấu trúc logic tài liệu thực kết bước phân tích bố cục vật lý Tuy nhiên với số loại tài liệu phức tạp, pha phân tích bố cục vật lý lại cần thêm số thông tin logic liên quan đến vùng để phân đoạn cách xác Hình 4(c,d) mơ tả ví dụ cấu trúc logic tài liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 54 Hình 43: ảnh 024.InitialPartitions Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 55 Các Ảnh debug bước thuật tốn phân tích trang văn dựa Tab–Stop thể trình tìm bảng ảnh tài liệu Hình 44: ảnh 025.ColumnPartitionsAndNeighbors Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 56 Ảnh debug bước thuật tốn Tab-Stop thẻ q trình tìm vùng (regions) ảnh trang tài liệu Hình 45: ảnh 036.FindPartitionPartners Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 57 Hình 46: ảnh 038.RefinePartitionPartners Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 58 Hình 47: ảnh 040.Blocks 3.3 Đánh giá thực nghiệm Demo chương trình phân tích trang văn dựa tab-Stop thực mã nguồn C++ hồn chỉnh có sẵn phần hệ thống mã nguồn mở Tesseract OCR trang: http://code.google.com/p/tesseract-ocr Chương trình chạy nhanh ổn định cho kết phân tích trang văn khả tốt, đặc biệt chạy ảnh trang văn màu Phương pháp phân tích trang văn dựa Tab-Stop phân tích tốt ảnh trang văn Demo chương trình cài đặt phương pháp khoanh Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 59 vùng văn bản, đồ họa bảng biểu ảnh trang văn đầu vào Phương pháp phân tích khắc phục tốt hạn chế mà phương pháp phân tích trang văn Top – down như: 1- Kém hiệu với loại tài liệu có bố cục phức tạp 2- Làm việc tốt với ảnh nhị phân 3- Kém hiệu với trang tài liệu sử dụng nhiều loại font size khác 4- Thông thường top-down sử dụng cho loại tài liệu biết trước form bố cục, có bố cục vật lý đơn giản Trên hạn chế mà phương pháp phân tích ảnh trang tài liệu mà Top– Down khơng thể phân tích phương pháp phân tích văn dựa Tab– Stop lại làm tốt điều Ví dụ ảnh sau: Hình 48: ảnh đầu vào Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 60 Cũng Top-Down, phương pháp phân tích trang tài liệu Bottom-up có hạn chế tương tự như: 1- Cần phải phân đoạn để xác định thành phần sở trước nhóm lại 2- Tốc độ thực chậm phụ thuộc vào số thành phần trang tài liệu 3- Kém hiệu với trang tài liệu có cấu trúc phức tạp (nhiều bảng, tỷ lệ đồ họa lớn văn bản) 4- Kém hiệu với loại trang tài liệu có nhiều loại Font chữ (chứa nhiều size chữ khác nhau), với trang chứa nhiều font có size khác loại font chữ nghiêng Những hạn chế khắc phục tốt phương pháp phân tích trang văn dựa vào Tab-Stop Ví dụ ảnh có cấu trúc phức tạp nhiều kiểu font với size khác phân tích tốt cho ta kết sau: Hình 49: ảnh kết Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 61 Vậy qua cho thấy phương pháp phân tích trang văn dựa TabStop tốt phân tích ảnh trang văn Phương pháp cho thấy ưu điểm vượt trội so với phương pháp phân tích trang văn truyền thống như: Top-Down, Bottom-up, khắc phục tốt hạn chế mà hai phương pháp mắc phải phân tích ảnh trang tài liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 62 KẾT LUẬN Qua nhiều mẫu ảnh phân tích cho thấy phương pháp phân tích trang văn dựa Tab-Stop làm việc hiệu nhiệm vụ phát vùng văn bản, bảng biểu hay vùng đồ họa Đặc biệt Demo chương trình làm việc thành cơng với ảnh đầu vào trang văn màu có độ phức tạp cao Phương pháp phân tích trang văn dựa Tab-Stop phương pháp hay không phụ thuộc vào font chữ, nhiên giới hạn đề tài chưa trình bày cài đặt hồn thiện Demo chương trình thử nghiệm phân tích định dạng trang ảnh văn thô sơ, chủ yếu dùng để mô tả cho phần lý thuyết phân tích định dạng trang ảnh văn Để đưa chương trình áp dụng thực tế cịn phải qua đoạn đường dài, nhiên với kết q trình phân tích trang văn từ phương pháp phân tích trang văn dựa Tab – Stop cho thấy khả quan việc phân tích ảnh trang văn thành văn word chỉnh sửa Từ làm phong phú thêm nguồn tài liệu học tập nghiên cứu khoa học Hƣớng phát triển đề tài: - Đánh giá cách hệ thống phương pháp phân tích trang văn dựa Tab-Stop tập liệu chuẩn - Phát triển chương trình Demo thành chương trình hoàn chỉnh với đầy đủ chức phân tích ảnh trang văn bản, đưa chương trình vào làm việc thực tế Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 63 TÀI LIỆU THAM KHẢO Tiếng việt [2] Lƣơng Mạnh Bá, Ngô Thanh Thủy(1999) Nhập môn xử lý ảnh số : Nhà xuất khoa học kỹ thuật, Hà Nội Chương 4, Tr 83-87 [8] Ngô Quốc Tạo (2008) Xử lý nhận dạng ảnh : Bài giảng cao học, Viện Công nghệ Thông tin Hà Nội Tiếng Anh [6].Anoop M Namboodiri and Anil K Jain, Document Structure and Layout Analysis, Michigan State University, East Lansing, MI-48824, USA, pp 31-34, 3841 [7].Jiming Lui, Yuan Y Tang, Ching Y Suen (1997), Chinese document layout analysic based on adaptive Split-and-Merge and qualitation spatial reasoning, Elsevier Science, Oxford, ROYAUME-UNI, pp 4-9 [3].MathWorks (1997), Image Processing Toolbox User’s Guide MathWorks, 1997 [5] Sadhana (2002), Document image analysis: A primer, India, pp 3-7 [4].TANG, Yuan Y (2000), Documnet analysis and recogniton by computers Handbook of Pattern recognition and computer vision, World Scientific Company, pp 1-15 [1].Yuan Y Tang, Hong Mat, Xiaogang Maot, Dan Liu and Ching Y Suen (1997), A New Approach to Document Analysis Based on Modified Fractal Signature, Washington, DC, USA : IEEE Computer Society Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn i LỜI CAM ĐOAN Để hoàn thành luận văn thời gian quy định đáp ứng yêu cầu đề ra, thân cố gắng nghiên cứu, học tập làm việc thời gian dài Tôi tham khảo số tài liệu nêu phần “Tài liệu tham khảo” không chép nội dung từ luận văn khác Tồn luận văn thân tơi tự tìm hiểu Cho đến nội dung luận văn chưa công bố, xuất hình thức khơng chép từ luận văn học viên hay công trình nghiên cứu Tơi xin cam đoan lời khai đúng, thông tin sai lệch xin hoàn toàn chịu trách nhiệm trước Hội đồng Thái Nguyên, ngày 25 tháng 10 năm 2012 Học viên Bùi Phƣơng Thảo Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii MỤC LỤC LỜI CAM ĐOAN i MỤC LỤC ii DANH MỤC CÁC HÌNH ẢNH iv MỞ ĐẦU 1 Đặt vấn đề 2 Nội dung nghiên cứu 2.1.Mục tiêu nghiên cứu đề tài 2.2.Ý nghĩa khoa học đề tài 2.3.Nhiệm vụ nghiên cứu 2.4 Phương pháp nghiên cứu 2.5 Phạm vi nghiên cứu Bố cục luận văn .5 CHƢƠNG NỘI DUNG TRANG VĂN BẢN VÀ CÁC PHƢƠNG PHÁP TIỀN XỬ LÝ 1.1 Ảnh tài liệu nhận dạng ảnh tài liệu 1.1.1 Tổng quan ảnh tài liệu 1.1.2 Nhận dạng tài liệu vai trị phân tích ảnh tài liệu 1.2 Cấu trúc ảnh tài liệu 1.2.1 Cấu trúc vật lý 1.2.2 Cấu trúc logic 10 1.3 Quá trình phân tích tài liệu .11 1.3.1 Tiền xử lý (preprocessing): 12 1.3.2 Phân tích cấu trúc vật lý 13 1.3.3 Phân tích cấu trúc logic 15 1.4 Một số hệ thống phân tích tài liệu 15 1.4.1 VnDOCR 15 1.4.2 OminiPage .19 2.4.3 Finereader 21 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii CHƢƠNG MỘT SỐ KỸ THUẬT XỬ LÝ TRANG VĂN BẢN 24 2.1 Các phương pháp phân tích định dạng trang tài liệu 24 2.1.1 Top-down 24 2.1.2 Bottom-up 29 2.1.3 Phương pháp Tách Nối thích nghi (Adaptive Split – and – Merge) 31 2.1.4 Phương pháp phân tích trang văn dựa Tab-Stop 33 2.2 Lựa chọn giải pháp 47 CHƢƠNG CÀI ĐẶT THỬ NGHIỆM, ĐÁNH GIÁ KẾT QUẢ 48 3.1 Yêu cầu hệ thống 48 3.2 Một số anh debug chương trình 49 3.3 Đánh giá thực nghiệm 58 KẾT LUẬN 62 TÀI LIỆU THAM KHẢO 63 Số hóa Trung tâm Học liệu – Đại học Thái Ngun http://www.lrc-tnu.edu.vn iv DANH MỤC CÁC HÌNH ẢNH Hình 1: Sơ đồ tổng quan trình tạo ảnh tài liệu Hình 2: Ví dụ ảnh tài liệu Hình 3: Sơ đồ OCR Hình 4: b-Cấu trúc vật lý: c,d-Cấu trúc logic tài liệu[4] 10 Hình 5: Ví dụ loại tài liệu có bố cục phức tap 11 Hình 6: Sơ đồ nguyên lý hệ thống xử lý tài liệu[6] 12 Hình 7: a - Ảnh gốc b - Ảnh sau tách 13 Hình 8: Ví dụ ảnh tài liệu bị nghiêng góc độ 14 Hình 9: Ví dụ mơ tả cấu trúc logic trang tài liệu[5] 15 Hình 10: VnDOCR ví dụ nhận dạng 16 Hình 11: Ảnh mẫu có cấu trúc vật lý phức tạp 17 Hình 12: Kết hai vùng ảnh với ảnh mẫu 11 17 Hình 13: Mẫu ảnh có cấu trúc vật lý phức tạp, khối bao hình chữ nhật 18 Hình 14: Kết phân tích với ảnh 13 19 Hình 15: Đầu phân vùng có vùng văn 20 Hình 16: Đầu có vùng chứa ảnh text 21 Hình 17: Với ảnh 13 đạt hiệu 90% 22 Hình 18 Với ảnh I-15 hiệu đạt 100% 23 Hình 19: Với mẫu phức tạp Finereader cho kết 95% 23 Hình 20: Kết chiếu nghiêng theo phương ngang phương thẳng đứng trang tài liệu4 25 Hình 21: Phân tách cột dựa vào phép chiếu nghiêng theo phương ngang5 26 Hình 22: Phép chiếu nghiêng theo phương ngang để phân đoạn ký tự từ 26 Hình 23: Lược đồ chiếu ngang dòng chữ nghiêng - khó phân đoạn ký tự 27 Hình 24: Lược đồ chiếu đứng trang tài liệu bị nghiêng 28 Hình 25: Lược đồ chiếu đứng báo 28 Hình 26: Phương pháp Dostrum cho phân tích định dạng trang từ lên (a) Một phần Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn v nội dung văn gốc (b) Các thành phần lân cận gần xác định (c) Các hình chữ nhật tối thiểu tạo nên nhóm láng giềng gần từ xác định dịng văn 30 Hình 27: Mơ tả thuật tốn Tách Nối thích nghi 32 Hình 28: ảnh đầu vào 34 Hình 29 (a) Đường dọc, (b) Các thành phần hình 36 Hình 30: filtered CCs 37 Hình 31 (a) Các thành phần tab-stop phù hợp (b) Dòng tab hợp lý kết nối dấu vết 38 Hình 32: cho thấy phân đoạn dòng tab cuối 39 Hình 33: Cột chính(cps) 41 Hình 34: làm tab-stop 43 Hình 35: Typed partition chains 44 Hình 36: Các khối cuối 46 Hình 37: Kết số tiêu chí đánh giá đối tượng ICDAR2007 49 Hình 38: ảnh 002.LeaderNeighbours 49 Hình 39: ảnh 003.FindTabBoxes: Các thành phần tab-stop ứng cử (candidate tab-stop CCs) 50 Hình 40: ảnh 004.FindAllTabVectors_Finding 52 Hình 41: ảnh 017.ImproveColumnCandidates2_column 52 Hình 42: ảnh 020.MovePartitionsToGrid 53 Hình 43: ảnh 024.InitialPartitions 54 Hình 44: ảnh 025.ColumnPartitionsAndNeighbors 55 Hình 45: ảnh 036.FindPartitionPartners 56 Hình 46: ảnh 038.RefinePartitionPartners 57 Hình 47: ảnh 040.Blocks 58 Hình 48: ảnh đầu vào 59 Hình 49: ảnh kết 60 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Ngày đăng: 02/04/2023, 09:07

w