Phương pháp phân tích trang văn bản dựa trên tab stop

20 303 0
Phương pháp phân tích trang văn bản dựa trên tab stop

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG  BÙI PHƢƠNG THẢO PHƢƠNG PHÁP PHÂN TÍCH TRANG VĂN BẢN DỰA TRÊN TAB-STOP Chuyên ngành : Khoa học máy tính Mã số : 60.48.01 Luận văn thạc sĩ khoa học máy tính Ngƣời hƣớng dẫn khoa học: TS Nguyễn Đức Dũng Thái Nguyên, 2012 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỞ ĐẦU Đặt vấn đề Hiện nay, hầu hết tài liệu người số hóa lưu trữ máy tính, việc số hóa đảm bảo tính an toàn thuận tiện hẳn so với sử dụng tài liệu giấy Tuy nhiên việc sử dụng giấy để lưu trữ tài liệu số mục đích thay hoàn toàn (như sách, báo, tạp chí, công văn,…) Hơn nữa, lượng tài liệu tạo từ nhiều năm trước nhiều mà bỏ tính quan trọng chúng Việc chuyển đổi tài liệu điện tử sang tài liệu giấy thực dễ dàng cách in hay fax, công việc ngược lại chuyển từ tài liệu giấy sang tài liệu điện tử lại vấn đề không đơn giản Chúng ta mong muốn số hóa tất tài liệu, sách, báo lưu trữ chúng máy tính, việc tổ chức sử dụng chúng thuận tiện nhiều Vậy giải pháp gì? Công nghệ phát triển cách chóng mặt, máy scan với tốc độ hàng nghìn trang giờ, máy tính với công nghệ xử lí nhanh chóng xác cách siêu việt Vậy không quét trang tài liệu vào xử lý, chuyển chúng thành văn cách tự động? Nhưng vấn đề quét thu trang tài liệu dạng ảnh nên thao tác, sửa chữa, tìm kiếm Office được, máy tính không phân biệt đâu điểm ảnh chữ đâu điểm ảnh đối tượng đồ họa Một giải pháp đưa xây dựng hệ thống nhận dạng chữ ảnh chứa chữ đối tượng đồ họa, sau chuyển thành dạng trang văn mở, soạn thảo trình soạn thảo văn Một cách tổng quát cách thức hoạt động hệ thống nhận dạng chữ sau [5]: Chụp ảnh scan trang tài liệu lưu lại máy tính dạng hình ảnh Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Phân tích hình ảnh sau quét, đọc ký tự hình ảnh ghi lại vào máy tính theo cách mà máy tính quản lý thông tin liệu Bước 1: phân tích cấu trúc ảnh tài liệu, từ xác định đâu phần chứa ký - tự, đâu phần chứa ảnh lẫn ký tự đâu chứa hình ảnh Bước thực quan trọng cho bước nhận dạng Bởi định vị xác cho việc áp dụng thuật toán nhận dạng lên vùng xác định tính chất, bước xác trước tiên hạn chế thời gian cho việc nhận dạng, sau tăng ngữ nghĩa bổ sung cho việc nhận dạng Bước 2: nhận dạng ký tự dựa vào tính chất ký tự, ví dụ xếp theo - dòng, khoảng cách từ lớn khoảng cách ký tự, dùng trí tuệ nhân tạo để dự đoán ký tự kề phải nào, từ câu phải để câu có nghĩa Từ có nội dung để lưu trữ, quản lý… Trong thực tế trình nhận dạng trải qua hai bước trên, có nhiều tham số ảnh hưởng đến kết chương trình nhận dạng nhiễu, Font chữ, kích thước chữ, kiểu chữ nghiêng, đậm, gạch Ngoài dòng chữ trộn lẫn với đối tượng đồ họa, trước nhận dạng chữ, số thao tác tiền xử lý tác động lên ảnh như, lọc nhiễu, chỉnh góc nghiêng đặc biệt quan trọng phân tích trang tài liệu để xác định cấu trúc trang văn đồng thời tách biệt hai thành phần chữ đối tượng đồ họa Nội dung nghiên cứu 2.1.Mục tiêu nghiên cứu đề tài  Tìm hiểu cấu trúc trang tài liệu (cấu trúc vật lý, logic)  Tìm hiểu số kỹ thuật phân tích trang tài liệu (phân vùng, phân đoạn, topdown hay bottom-up, …)  Trình bày kỹ thuật phân tích trang văn Tab-Stop  Cài đặt thử nghiệm giải pháp phân tích trang văn kỹ thuật TabStop Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn  Từ kết nghiên cứu có chuẩn bị kiến thức đẩy đủ cho bước nghiên cứu nhận dạng ký tự quang 2.2.Ý nghĩa khoa học đề tài  Giải vấn đề học thuật: đề tài mang ý nghĩa cung cấp mặt lý thuyết để làm rõ phương pháp phân tích trang tài liệu  Đáp ứng yêu cầu thực tiễn: từ lý thuyết nghiên cứu, từ liên hệ gắn vào thực tiễn để áp dụng vào lĩnh vực như: Số hóa tài liệu, lưu trữ thư viện, điện tử hóa văn phòng, nhận dạng xử lý ảnh, … 2.3.Nhiệm vụ nghiên cứu Mục đích luận văn đề cập đến hai phần:  Phần lý thuyết: Nắm rõ trình bày sở lý thuyết liên quan đến cấu trúc trang tài liệu, số kỹ thuật phân tích trang tài liệu, từ có để xác định tính quan trọng bước nhận dạng ký tự, đồng thời hiểu công việc cần làm bước nhận dạng ký tự  Phần phát triển ứng dụng: Áp dụng thuật toán trình bày phần lý thuyết từ lựa chọn giải pháp tối ưu cài đặt thử nghiệm chương trình phân tích trang tài liệu 2.4 Phƣơng pháp nghiên cứu  Tìm kiếm, tham khảo, tổng hợp tài liệu từ nguồn khác để xây dựng phần lý thuyết cho luận văn  Sử dụng kỹ thuật áp dụng phân tích trang tài liệu để làm rõ chất vấn đề đưa phần lý thuyết  Xây dựng chương trình Demo 2.5 Phạm vi nghiên cứu Bài toán phân tích trang tài liệu phát triển với nhiều thành tựu thực tế, có nhiều thuật toán tối ưu nhà khoa học đề nghị Tuy nhiên nói chưa có chương trình “đọc” ảnh văn người, thực tế có nhiều kiểu trang văn khác nhau, khác cấu trúc Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn trình bày, ngôn ngữ, kiểu font, chữ viết tay,… Đây thực toán lớn, phạm vi luận văn tìm hiểu số kỹ thuật phân tích trang văn tiêu biểu với mục đích để so sánh với thuật toán chưa đưa đề tài trước Cuối cùng, dựa vào để xây dựng Demo cho ứng dụng Các kết nghiên cứu dự kiến cần đạt được:  Tìm hiểu tài liệu liên quan đến lĩnh vực quan tâm để nắm bắt chất vấn đề đặt  Báo cáo lý thuyết  Chương trình Demo Bố cục luận văn Nội dung luận văn trình bày ba chương với nội dung sau: Chƣơng 1: Trình bày nội dung trang văn phương pháp tiền xử lý trang văn bản, cấu trúc trang tài liệu trình phân tích trang tài liệu Chƣơng 2: Trình bày số phương pháp phân tích trang tài liệu, từ đánh giá ưu nhược điểm để lựa chọn kỹ thuật Tab-Stop cho chương trình thử nghiệm Chƣơng 3: Cài đặt chương trình Demo đánh giá kết chương trình Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn CHƢƠNG NỘI DUNG TRANG VĂN BẢN VÀ CÁC PHƢƠNG PHÁP TIỀN XỬ LÝ Chương đưa khái niệm đối tượng làm việc đề tài ảnh tài liệu, khái niệm cấu trúc vật lý cấu trúc logic Giới thiệu khâu hệ thống nhận dạng chữ viết hoàn chỉnh Đồng thời đưa số phần mềm nhận dạng Việt Nam Thế giới với mẫu kết phân tích nhằm mục đích so sánh xác định phạm vi cho đề tài 1.1 Ảnh tài liệu nhận dạng ảnh tài liệu 1.1.1 Tổng quan ảnh tài liệu Trang ảnh tài liệu đề cập file ảnh số hoá thu cách quét trang tài liệu dùng máy scanner, chụp từ máy ảnh số, hay nhận từ máy fax (Hình 1), file ảnh lưu giữ máy tính Ảnh tài liệu có nhiều loại: ảnh đen trắng, ảnh đa cấp xám, ảnh đa cấp xám với phần mở rộng TIF, BMP, PCX, …(Hình 2) ảnh tài liệu đưa luận văn ảnh đa cấp xám Tài liệu Thiết bị thu nhận ảnh Ảnh số tài liệu Hình 1: Sơ đồ tổng quan trình tạo ảnh tài liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Hình 2: Ví dụ ảnh tài liệu 1.1.2 Nhận dạng tài liệu vai trò phân tích ảnh tài liệu Ngày nay, máy tính phát triển mạnh mẽ, tốc độ xử lý không ngừng nâng lên Cùng với đời phần mềm thông minh khiến máy tính ngày gần gũi với người Một khả tuyệt vời người mà nhà khoa học máy tính muốn đạt khả nhận dạng lĩnh vực nhận dạng thu nhiều thành công nhận dạng ký tự quang OCR–Optical Character Recognition OCR hiểu trình chuyển đổi tài liệu dạng file ảnh số hoá (là dạng có người đọc được) thành tài liệu dạng file văn (là tài liệu mà người máy đọc được) OCR có nhiều ứng dụng hữu ích sống như: - Sắp xếp thư tín, dựa vào việc nhận dạng mã bưu (Zipcode) hay địa gửi tới - Tự động thu thập liệu từ mẫu đơn/báo biểu hay từ hồ sơ lao động - Hệ thống tự động kiểm tra ngân hàng (tự động xác nhận chữ ký) - Tự động xử lý hóa đơn hay yêu cầu toán - Hệ thống tự động đọc kiểm tra passport - Tự động phục hồi copy tài liệu từ ảnh quét - Máy đọc cho người khiếm thính - Các ứng dụng Datamining - … Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Sơ đồ hệ thống OCR Hình Trong đó: - Scanner: Thiết bị quét ảnh - OCR hardware/software: o Document analysis: Phân tích tài liệu o Character recognition: Nhận dạng ký tự o Contexttual processor: Xử lý văn cảnh - Output interface: Đầu  Như vai trò khâu phân tích ảnh tài liệu việc phân đoạn trang, tách vùng văn khỏi đồ họa tạo mẫu chuẩn cho khâu nhận dạng Rõ ràng kết khâu phân tích ảnh hưởng lớn đến hiệu qủa khâu nhận dạng sử dụng mẫu hay chuỗi văn đầu Hình 3: Sơ đồ OCR 1.2 Cấu trúc ảnh tài liệu Một khái niệm mấu chốt xử lý tài liệu cấu trúc tài liệu Cấu trúc tài liệu thu từ việc liên tiếp chia nhỏ nội dung tài liệu thành phần nhỏ đơn vị (tức phân chia nữa) chúng gọi đối tượng sở (basic objects) Còn tất đối tượng khác gọi đối tượng hỗn hợp Có hai loại cấu trúc tài liệu quan tâm cấu trúc vật lý Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn (hay bố cục vật lý) cấu trúc logic mô tả mối quan hệ logic vùng đối tượng tài liệu 1.2.1 Cấu trúc vật lý Bố cục vật lý tài liệu mô tả vị trí đường danh giới vùng có nội dung khác trang tài liệu[6] Quá trình phân tích bố cục tài liệu thực việc tách từ trang tài liệu ban đầu thành vùng có nội dung sở hình ảnh nền, vùng văn bản,… Để mô tả bố cục vật lý tài liệu người ta sử dụng cấu trúc hình học với đối tượng cấu trúc phần tử chứa nội dung đồng Các kiểu đối tượng hình học định nghĩa sau[4]:  Block đối tượng sở tương ứng với vùng hình chữ nhật chứa phần nội dụng tài liệu  Frame đối tượng hỗn hợp tương ứng với hình chữ nhật bao gồm nhiều block bao gồm frame  Page đối tượng hình học hỗn hợp thành phần sở tương ứng với vùng hình chữ nhật, đối tượng hỗn hợp chứa nhiều block, nhiều frame  Page set (tập trang) tập nhiều page  Điểm gốc cấu trúc (hay nút gốc) đối tượng mức cao sơ đồ phân cấp cấu trúc hình học tài liệu Hình 4(b) cho ví dụ cấu trúc hình học mô tả bố cục vật lý trang tài liệu tương ứng Các thuật toán phân tích bố cục tài liệu chia làm ba loại dựa theo phương pháp thực - Bottom-up: Ý tưởng thuật toán loại phần tử nhỏ (như từ pixel hay phần tử liên thông) sau liên tục nhóm chúng lại thành vùng lớn - Top-down: Thuật toán vùng lớn chứa trang tài liệu sau liên tục phân chia thành vùng nhỏ Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 10 - Các thuật toán không theo thứ bậc: Fractal Signature, Adaptive splitand-merge … Hình 4: b-Cấu trúc vật lý: c,d-Cấu trúc logic tài liệu[4] 1.2.2 Cấu trúc logic Ngoài bố cục vật lý, trang tài liệu chứa đựng nhiều thông tin ngữ cảnh nội dung tiêu đề, đoạn văn, đề mục, …và vùng nội dung lại gán nhãn logic hay nhãn theo chức tương ứng, khác biệt hoàn toàn với nhãn bố cục vật lý Hầu hết tài liệu có quy tắc đọc để hiểu hết nội dung tài liệu Với số ngôn ngữ đặc biệt tiếng Trung, tiếng Ả rập lại có quy cách đọc khác biệt (như đọc từ phải qua trái, xuống) Tập hợp tất yếu tố logic chức tài liệu mối quan hệ chúng gọi cấu trúc logic tài liệu[6] Thông thường pha phân tích cấu trúc logic tài liệu thực kết bước phân tích bố cục vật lý Tuy nhiên với số loại tài liệu phức tạp, pha phân tích bố cục vật lý lại cần thêm số thông tin logic liên quan đến vùng để phân đoạn cách xác Hình 4(c,d) mô tả ví dụ cấu trúc logic tài liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 11 1.3 Quá trình phân tích tài liệu Ảnh tài liệu chứa nhiều loại vùng thông tin khác block, lines, words, figures, tables background Ta gọi vùng theo chức tài liệu gán cho nhãn logic sentences, titles, captions, address,… Quá trình phân tích tài liệu thực việc tách tài liệu thành vùng theo tiêu chuẩn hay mối quan hệ lẫn Công việc thực qua nhiều bước tiền xử lý, tách vùng, lặp cấu trúc tài liệu,… Một số loại tài liệu báo, tạp chí, sách quảng cáo, chúng có cấu trúc bố cục phức tạp form chung (Hình 5) Với người để đọc hiểu trang tài liệu cần thêm nhiều kiến thức bổ sung ngôn ngữ, hoàn cảnh, luật ngầm định, việc tự động phân tích trang tài liệu cách tổng quát việc khó khăn chí không khả thi với hệ thống phân tích tài liệu tiên tiến nhất[6] Hình 5: Ví dụ loại tài liệu có bố cục phức tap Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 12 Sơ đồ nguyên lý hệ thống tự động phân tích tài liệu sau: Hình 6: Sơ đồ nguyên lý hệ thống xử lý tài liệu[6] 1.3.1 Tiền xử lý (preprocessing): Hầu hết ảnh tài liệu có nhiễu trình thu nhận ảnh gây (môi trường, chất lượng máy quét, máy ảnh), trình xây dựng thuật toán phân tích cần loại bỏ nhiễu công việc thường tiến hành trước bắt đầu phân tích bố cục hay cấu trúc gọi Tiền xử lý Nhiệm vụ bước loại bỏ nhiễu, tách khỏi nội dung, phát xoay góc nghiêng,…  Lọc nhiễu(noise removal): Nhiễu vấn đề hầu hết toán đọc hiểu tài liệu Nhiễu sinh không trình scan ảnh mà bao gồm nhiễu trắng gây từ sensor hay mạch thu nhận máy thu nhận ảnh số Nhiễu loại bớt sử dụng số kỹ thuật lọc trung bình, lọc trung vị, lọc thông thấp,…  Tách (Background separation): Đây vấn đề quan trọng ảnh hưởng trực tiếp đến hiệu thuật toán phân tích tài liệu Nếu loại tài liệu có đồng đa cấp Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 13 xám trắng đen việc tách thực đơn giản phép phân ngưỡng, nhiên thực tế nhiều ảnh tài liệu có phức tạp ảnh hay đồ họa (Hình 7) việc xác định pixel thực thuộc “phần nổi” công việc khó khăn Ta tách số kỹ thuật sau: - Gán điểm ảnh vào “phần nổi” hay phần dựa theo tiêu chí (như ngưỡng mức xám, …) - Dựa theo độ đo xác suất xuất điểm ảnh mà phân lớp vào hay phần - Dựa vào pixel liên thông kết hợp với mạng noron để phân tách Hình 7: a - Ảnh gốc b - Ảnh sau tách  Xác định góc nghiêng: Do trình thu nhận ảnh (như đặt lệch tài liệu scan,…) ảnh tài liệu thu bị nghiêng, tức trục dòng văn không song song với trục ngang (Hình 8) Việc xác định góc nghiêng xoay lại tài liệu khâu quan trọng ảnh hưởng đến hiệu số thuật toán phân tích Ví dụ thuật toán dựa theo biểu đồ sau phép chiếu nghiêng để tiến hành phân tích hoàn toàn thất bại văn bị nghiêng Tuy nhiên việc tự động ước lượng xác góc nghiêng ảnh tài liệu toán khó Có nhiều kỹ thuật để xác định góc nghiêng tài liệu, điểm chung hầu hết thuật toán xác định góc nghiêng việc xác định hướng dòng văn dựa vào vị trí số ký tự tài liệu 1.3.2 Phân tích cấu trúc vật lý Phân tích tài liệu định nghĩa trình xác định cấu trúc vật lý Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 14 tài liệu Trong khâu từ ảnh tài liệu đầu vào chia thành số khối (block) chứa nội dung thành phần tài liệu dòng văn bản, tiêu đề, đồ họa, với có không tri thức biết trước định dạng nó[6] Có số phương pháp phân tích phân làm hai loại sau:  Các phương thức có thứ bậc: Trong trình chia tài liệu thành block quan tâm đến mối quan hệ mặt hình học block Có ba phương pháp thuộc loại là: o Phân tích top-down (trên xuống) o o Phân tích buttom-up (dưới lên) Phân tích kiểu Adaptive split-and-merge (tách nối thích nghi)  Các phương pháp thứ bậc: Trong trình chia tài liệu thành khối không quan tâm đến mối quan hệ hình học block Hình 8: Ví dụ ảnh tài liệu bị nghiêng góc độ Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 15 1.3.3 Phân tích cấu trúc logic Từ kết pha phân tích cấu trúc vật lý, phân tích cấu trúc logic xác định mối quan hệ logic vùng gắn nhãn tiêu đề, văn bản, đề mục, hearder,… Bước sở cho việc nhận dạng ký tự Việc xác định vị trí xác vùng cấu trúc logic tăng thêm thông tin cho trình nhận dạng thông tin ngữ cảnh, đoán nhận kiểu font kích thước chữ biết thuộc vùng tiêu đề, đề mục hay đoạn văn,… (Hình 9) document(page) article(page) article(page) abstract sub-title sub-title sub-title paragraphs paragraphs paragraphs Hình 9: Ví dụ mô tả cấu trúc logic trang tài liệu[5] 1.4 Một số hệ thống phân tích tài liệu 1.4.1 VnDOCR Vndocr phần mềm nhận dạng tiếng Việt sản phẩm Viện công Nghệ thông tin VnDOCR thu thập thông tin nhờ trình quét loại sách báo thông qua máy quét thành tệp ảnh chuyển đổi thành tệp có định dạng *.doc, *.xls, *.txt, *.rtf, đọc chỉnh sửa phần mềm soạn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 16 thảo văn thông dụng Office, Wordpad,… (Hình 10) Môi trƣờng  PC với hệ điều hành Windows 9x, ME, 2000, XP, NT,… Tiện ích: Bộ gõ chữ Việt, font ABC, VNI, Unicode, Thông tin đƣa vào  Quét trực tiếp loại sách báo, văn qua máy quét (Scanner)  Đọc xử lý 30 dạng tệp tin ảnh phổ dụng PCX, BMP, TIF, GIF, JPG,  Có thể nhận dạng trực tiếp tài liệu quét qua Scanner không cần lưu trữ dạng tệp ảnh trung gian Các trang tài liệu quét lưu trữ dạng tệp tin nhiều trang Các chức chính: - Phân tích cấu trúc vật lý tài liệu đưa cấu trúc phân vùng - Phân tích nhận dạng chữ đầu text copy hay lưu trữ soạn thảo lại Hình 10: VnDOCR ví dụ nhận dạng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 17 Một số hạn chế: Tính đến phiên 4.0 - VnDOCR làm việc với ảnh đen trắng - Với ảnh có cấu trúc vật lý phức tạp VnDOCR cho kết hạn chế (Hinh 11, 12) Thí nghiệm 1: - Với ảnh đầu vào sau: Hình 11: Ảnh mẫu có cấu trúc vật lý phức tạp - Kết phân tích VnDOCR không tim thấy vùng văn mà khoanh vùng vùng ảnh (1,2) Hình 12 Hình 12: Kết hai vùng ảnh với ảnh mẫu 11 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 18 Thí nghiệm 2: Với ảnh đầu vào có cấu trúc vật lý đơn giản (các vùng sở có bao hình chữ nhật – Hình 13) Hình 13: Mẫu ảnh có cấu trúc vật lý phức tạp, nhƣng khối bao hình chữ nhật Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 19 Kết phân tích VnDOCR bỏ sót vùng văn gộp nhầm vùng ảnh vào vùng văn số (Hình 14) Hình 14: Kết phân tích với ảnh 13 1.4.2 OminiPage OmniPage phần mềm nhận dạng văn NUANCE Nó chuyển đổi file ảnh tài liệu hay file PDF sang dạng file văn đọc phần mềm soạn thảo Office, với khả nhận dạng ký tự la tinh xác tới 99% Một số đặc tính chính: - Nhận dạng xác tới 99% 119 ngôn ngữ khác - Nhận dạng file vào PDF - Nhận dạng trang có nhiều loại font, kiểu font có ảnh mầu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 20 - Một số hạn chế chính: Chưa hiệu với ảnh tài liệu có cấu trúc phức tạp Thí nghiệm 1: Với ảnh đầu vào Hình-11 có kết sau: Omnipage đoán nhận tất ảnh vùng văn (Hình-15) Thí nghiệm 2: Với ảnh đầu vào 13, tương tự VnDOCR OmniPage phân vùng sai (Hình 16) Hình 15: Đầu phân vùng có vùng văn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Ngày đăng: 01/09/2016, 15:58

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan