1. Trang chủ
  2. » Công Nghệ Thông Tin

Báo cáo công nghệ OCR

24 185 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 24
Dung lượng 2,75 MB

Nội dung

Tài liệu Công nghệ phần mềm Mỗi ngày nhân viên kho sẽ đi thống kê còn lại những gì trong kho nếu các mặt hàng đó không còn đủ để cung cấp cho ngày hôm sau thì nhân viên kho sẽ lập danh sách những mặt hàng cần để phục vụ nhu cầu sử dụng của khách hàng. Sau đó sẽ gửi nhà cung cấp, nhà cung cấp sẽ cung cấp những mặt hàng mà quản lý kho yêu cầu, gửi kèm theo hóa đơn thanh toán , nhân viên quản lý kho sẽ đến quầy thu ngân và đưa hóa đơn thanh toán đó cho nhân viên thu ngân, nhân viên thu ngân sẽ đưa tiền cho nhân viên quản lý kho và trả lại cho nhà cung cấp những dịch vụ đó.

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP HCM KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO MÔN HỌC Đề tài : TÌM HIỂU VỀ CƠNG NGHỆ OCR Giảng viên : Mạnh Thiên Lý Môn học: Công Nghệ Phần Mềm Danh sách thành viên: Trương Quốc Phong 2001170129 Nguyễn Xuân Nhật 2001170121 Nguyễn Chí Sanh 2001170149 Nguyễn Thị Phương Uyên 2001170230 Đặng Quốc Hải 2001170046 Tân Phú, Tháng 6/2020 BẢNG PHÂN CƠNG Thành Viên MSSV Cơng việc Xếp Loại Trương Tấn Phong 2001170129 Phân chia công việc cho thành viên,tìm video tài liệu OCR A+ Đặng Quốc Hải 2001170046 Tìm hiểu thiết kế PowerPoint, làm lại word(bổ sung) A Nguyễn Chí Sanh 2001170149 Demo ứng dụng công nghệ OCR A Nguyễn Xuân Nhật 2001170121 Tìm hiểu thiết kế Word đề tài OCR A Nguyễn Thị Phương Uyên 2001170230 Tổng hợp ý thuyết trình đề tài OCR A LỜI MỞ ĐẦU ♥♥♥ Thời đại công nghệ bước rẻ đầy ngoạn mục táo bạo khoa học nhân loại Đó thời điểm nhu cầu việc rút trích từ ngữ từ hình ảnh ngày phát triển, bên cạnh gia tăng nhu cầu phát triển công nghệ nhận dạng ký tự quang học(Optical Character Recognition) hay gọi tắt OCR Đây công nghệ giúp chuyển đổi hình ảnh chữ viết tay đánh máy thành ký tự mã hóa máy tính Giả sử cần chỉnh sửa số tài liệu giấy như: Các viết tạp chí, tờ rơi hay tập tin PDF hình ảnh Rõ rành sử dụng máy quét để chuyển tài liệu thành tập tin văn để chỉnh sửa Tất máy qt làm tạo hình ảnh chụp tài liệu Để giải nén giải nén sử dụng lại từ tài liệu quét, hình ảnh máy ảnh hình ảnh tập tin PDF, cần phần mềm OCR Nó sẻ xuất ký tự hình ảnh, ghép chúng thành từ sau ghép từ thành câu hồn chỉnh Nhờ vậy, truy cập chỉnh sửa nội dung tài liệu gốc Nhận thức điều nhóm sinh viên chúng em môn Công nghệ phần mềm Trường Đại học Cơng nghiệp Thực phẩm tìm hiểu biên soạn tài liệu với tiêu chí ngắn gọn, dể hiểu Từ tài liệu giúp độc giả hiểu rõ hơn, tạo điều kiện cho bạn học tập nghiên cứu công nghệ OCR Nội dung tài liệu gồm chương: Chương 1: Giới thiệu tổng quan công nghệ OCR Chương 2: Ưu điểm nhược điểm công nghệ OCR Chương 3: Ứng dụng số phần mềm phổ biến Chương 4: Giới thiệu hệ thống mã nguồn mở tesseract OCR Trong q trình biên soạn, chắn khơng tránh khỏi sai sót, kính mong q độc giả quan tâm góp ý chia sẻ nội dung khiếm khuyết để Nhóm chúng em bổ sung hồn thiện kịp thời đáp ứng tốt yêu cầu bạn đọc Trân trọng cảm ơn! MỤC LỤC Chương Giới thiệu công nghệ OCR 1.1 Tổng quan 1.2 Khái niêm 1.3 Lịch sử phát triển 1.4 Yêu cầu phần cứng, phần mềm 1.5 Yêu cầu giao diện chức Chương Ưu điểm nhược điểm công nghệ OCR 2.1 Ưu điểm công nghệ OCR 2.2 Nhược điểm công nghệ OCR .5 Chương Ứng dụng số phần mềm phổ biến 3.1 Phần mềm nhận dạng OCR- Soda PDF 3.2 Nuance OmniPage - Phần mềm nhận dạng chữ in OCR Windows 3.3 Phần mềm nhận dạng chữ Adobe Acrobat DC 3.4 Ứng dụng nhận dạng chữ Nuance PaperPort Professional 3.5 Ứng dụng phần mềm nhận dạng chữ IONE .9 Chương Giới thiệu hệ thống mã nguồn mở tesseract OCR 10 4.1 Giới thiệu nhận dạng ký tự quang học Tesseract .10 4.2 Lịch sử phát triển .10 4.3 Tiến trình nhận dạng sử dụng Tesseract OCR 14 4.4 Đánh giá độ xác nhận dạng Tesseract OCR 15 CHƯƠNG 1: GIỚI THIỆU VỀ CÔNG NGHỆ OCR 1.1 Tổng quan Qui trình chung hệ thống nhận dạng chữ có nhiều phương pháp để tạo phần mềm dạng OCR, độ xác phương pháp phụ thuộc vào công nghệ tạo nên phần mềm Các phương pháp đạt độ tin cậy hình ảnh có chất lượng tốt vừa Độ xác việc rút trích văn điều quan trọng Nhóm tác giả Kirill Safronov cho số sai sót q trình chuyển đổi thường khơng quan trọng trừ trường hợp rút trích số serial từ ảnh chụp, Để khắc phục tình trạng kết xuất khơng xác cơng nghệ OCR, nhiều công nghệ khác đời, tác giả A Vinutha M H ứng dụng định hướng robot (Optical Character Recognition Based Auto Navigation of Robot) Việc định hướng robot dựa vào bảng tính hiệu cột mốc đánh dấu đường robot Định hướng tự động robot vùng lớn đòi hỏi nhiều bảng tín hiệu khác với mơ hình nhận dạng Ngồi ra, hệ thống cho phép nhận diện vị trí tên riêng Bên cạnh việc cải thiện độ xác, cần có thay đổi kích thước thiết bị nhận dạng, tác giả Ali Ahmadi đề cập nghiên cứu mình, tốc độ xử lý độ xác cao yêu cầu lớn thiết bị nhận dạng ký tự dạng nhỏ, ví dụ bút biết nhận dạng Nhưng dù có nhiều mặt hàng loại chào bán thị trường khơng đáp ứng nhu cầu sử dụng kích thước thiết bị Ngồi đa dạng cách thức nhận dạng, OCR đa dạng cách dùng, chia thành hai cách, dùng online dùng offline, có nhận xét hai cách dùng sau:  Nhận dạng offline: nhận dạng văn in giấy viết tay đòi hỏi q trình scan mặt giấy mặt vật liệu có chữ Cách thường đòi hỏi người phải thực số thao tác phân loại, lưu trữ chỉnh sửa văn trước scan  Nhận dạng online: thường dùng cho nhận dạng chữ viết tay lưu trữ dạng kỹ thuật số, thông thường để scan dạng thường dùng loại bút đặc biệt thành công nghiên cứu gần mà có thiết bị khác thay Việc nhận dạng online nhằm giúp người giao tiếp với máy tính tốt cách viết tay thay gõ phím 1.2 Khái Niệm: Nhận dạng ký tự quang học (tên tiếng anh Optical Character Recognition – OCR) kỹ thuật sử dụng để chuyển đổi ảnh văn sang dạng văn chỉnh sửa máy tính Đầu vào q trình tập tin hình ảnh đầu tập tin văn chứa nội dung chữ viết, kí hiệu có hình ảnh Nhận dạng ký tự quang học (dùng kỹ thuật quang học chẳng hạn gương ống kính) nhận dạng ký tự số (sử dụng máy quét thuật tốn máy tính) lúc đầu xem xét hai lĩnh vực khác Bởi có ứng dụng tồn với kỹ thuật quang học thực sự, thuật ngữ Nhận dạng ký tự quang học mở rộng bao gồm ý nghĩa nhận dạng ký tự số 1.3 Lịch sử phát triển Khái niệm OCR lần đề xuất nhà khoa học người Đức Tausheck vào năm 1929 Trong giai đoạn đầu nghiên cứu, phương pháp nhận dạng văn chủ yếu nghiên cứu việc nhận dạng văn từ đến số.Từ năm 1965 đến 1970, bắt đầu có số sản phẩm đơn giản Phần mềm OCR ban đầu không đáp ứng yêu cầu thực tế nhiều yếu tố tỷ lệ nhận dạng sản xuất Trong đó, chi phí thiết bị phần cứng cao, tốc độ chạy chậm, không đạt mức thực tế Phần mềm OCR sử dụng phận riêng lẻ, chẳng hạn phận thơng tin tổ chức báo chí xuất Từ năm 1990, với ứng dụng rộng rãi máy quét tảng phổ biến tự động hóa thơng tin tự động hóa văn phòng Trung Quốc, công nghệ OCR thúc đẩy phát triển nó, làm cho độ xác tốc độ nhận dạng OCR đáp ứng yêu cầu đa số người dùng 1.4 Yêu cầu phần cứng, phần mềm Phần cứng: Window Phần mềm: Microsoft Visual Studio 2010 Đối tượng sử dụng: Mọi ngành, lĩnh vực tài chính, y tế, giáo dục, giải trí, văn hóa thể thao, cơng nghệ thơng tin, viễn thông cần xây dựng ứng dụng hệ thống cơng nghệ thơng tin có nhu cầu cần sử dụng công nghệ:  Đối với cá nhân: Sinh viên, học sinh, nhân viên dùng để lưu trữ văn bản,hình ảnh trở nên dễ dàng,sao lưu nhanh chóng,tiết kiệm liệu  Đối với tổ chức/doanh nghiệp: Ngân hàng, Y tế,Giáo dục,Tư Pháp đơn giản hóa thủ tục vào quy trình làm việc,tăng suất lao động,tối ưu hóa chi phí 1.5 u cầu giao diện chức Về giao diện có giao diện sau:         Giao diện menu Giao diện chọn ảnh đầu vào Giao diện ảnh đầu Giao diện lưu kết Các chức cần thiết giao diện Chức chọn ảnh đầu vào Chức xử lý ảnh đầu vào Chức lưu kết xử lý CHƯƠNG 2: ƯU VÀ NHƯỢC ĐIỂM CỦA CÔNG NGHỆ OCR 2.1 Ưu điểm công nghệ OCR: a) Hỗ trợ sống người già, người khiếm thị Vào năm 1970, công ty Kurzweil Computer Products Inc Mỹ cho đời hệ thống phông chữ Omni giới Phần mềm OCR có khả nhận dạng phông chữ Ngay lập tức, công nghệ OCR tích hợp với cơng nghệ tổng hợp giọng nói (giọng máy), giúp máy có khả đọc hiểu văn Nói cách khác, văn khơng phần mềm OCR giải mã, mà cơng cụ tổng hợp giọng nói đọc thành tiếng Giọng nói vi tính hóa ứng dụng vào việc đọc văn sách, báo, tạp chí cho người cao tuổi, người khiếm thị, giúp sống họ trở nên nhẹ nhàng b) Sắp xếp tài liệu cơng ty luật tồ án Trong vụ án, giấy tờ tài liệu pháp lí, hồ sơ nhiều phức tạp Để đảm bảo khơng bỏ sót chi tiết, giấy tờ quan trọng, luật sư phải xếp tìm kiếm nhiều thời gian Nhờ phần mềm OCR, luật sư số hóa tất văn cách vơ nhanh chóng Khi cần, họ dễ dàng tìm tài liệu theo từ khoá, ngày tháng, tên tệp… cách đơn giản, tiện lợi khoa học Điều đồng nghĩa với việc, luật sư thuê nhiều trợ lí để thực nhiệm vụ thủ cơng, mà đảm bảo giám sát công việc c) Bảo tồn văn có giá trị Các thư viện cổ, trung tâm văn hóa lịch sử hay viện bảo tàng… nơi lưu trữ nhiều thảo, tài liệu, hồi kí… Q trình cất giữ bảo quản tài liệu không đơn giản Chúng dễ bị mối mọt hư hại theo thời gian Việc nhập liệu thủ cơng xác đầy đủ lượng văn khổng lồ điều vơ khó khăn vất vả, tới hàng chục năm Tuy nhiên, công nghệ OCR đời giúp nhiều tổ chức giải tốn cách đơn giản Các văn bản, tài liệu quan trọng chuyển đổi từ dạng giấy sang file mềm, giúp việc lưu trữ bảo tồn nhiều di sản văn học trở nên dễ dàng d) Nhận dạng cá nhân Khi đăng kí mở tài khoản ngân hàng, mở thẻ thành viên hay hành động cần phải xác minh danh tính, bạn phải cung cấp thông tin cá nhân đầy đủ với bên đối tác Quá trình kê tờ khai thời gian bạn bên làm dịch vụ Đôi khi, nhập liệu sai dẫn đến rắc rối khơng đáng có sau Với phần mềm OCR, tài liệu pháp lí chứng minh nhân dân, hộ chiếu, lái xe nhiều loại giấy tờ khác quét nhanh chóng văn phòng cơng chứng, phòng cảnh sát, sân bay nhiều tổ chức, dịch vụ cần xử lí thơng tin cá nhân Đối với giấy tờ tùy thân khơng q nhiều kí tự, cơng nghệ OCR có khả nhận dạng xác gần tuyệt đối, giảm thiếu tối đa lỗi nhập liệu Hơn nữa, việc nhận dạng trích xuất thơng tin máy giúp quan, đơn vị, tổ chức dễ dàng lưu trữ thơng tin truy xuất thông tin người dùng lúc e) Xử lí hóa đơn nhiều loại chứng từ Tất quan, tổ chức có hàng nghìn loại giấy tờ, tài liệu, với nhiều định dạng khác văn in/viết tay giấy, file PDF, JPG… Các nhân viên khó nhập tất liệu vào hệ thống, phải tốn nhiều thời gian để xử lí khối lượng giấy tờ khơng hồi kết Hơn thế, xác suất sai sót nhập liệu lớn Nhiều quan, tổ chức chọn giải pháp chuyển đổi hợp đồng, hóa đơn, chứng từ nhiều loại giấy tờ khác thành văn dạng kĩ thuật số, để tiện sử dụng liệu cho báo cáo tài chính, lưu trữ hay trao đổi tài liệu Và phần mềm OCR lựa chọn tuyệt vời Hiện nay, 60% cơng ty lớn tồn giới sử dụng OCR để nhập liệu cho nhiều bước quy trình hoạt động doanh nghiệp Công nghệ OCR cho phép công ty tự động lưu trữ liệu vào hệ thống, dễ dàng tích hợp, chuyển đổi hay liên kết đến tảng khác qua email, fax EDI truyền thống Công nghệ OCR ngày trở nên phổ biến tiện ích mà mang lại cho quan tổ chức người dùng Trong tương lai khơng xa, OCR tích hợp với nhiều công nghệ tiên tiến khác, để tạo sản phẩm đột phá phục vụ nhiều hoạt động người Ở Việt Nam, sản phẩm tích hợp cơng nghệ OCR có tính xác cao thị trường FPT.AI Vision, phát triển Ban cơng nghệ, thuộc tập đồn FPT Đây giải pháp nhận dạng trích xuất thơng tin giấy tờ tùy nhân chứng minh nhân dân, giấy phép lái xe, hộ chiếu… có độ xác lên đến 98%, dẫn đầu thị trường chất lượng nhận diện Ngồi ra, cơng nghệ OCR FPT.AI có khả nhận dạng trích xuất thơng tin loại giấy tờ hóa đơn, hợp đồng nhiều yêu cầu riêng tùy nhu cầu đối tác FPT.AI Vision giúp doanh nghiệp số hóa giấy tờ nhận diện thơng tin khách hàng nhanh chóng Nhờ có OCR, thời gian nhập liệu rút ngắn, thơng tin có độ xác cao, giúp tiết kiệm thời gian, cơng sức chi phí hoạt động 2.2 Nhược điểm công nghệ OCR Những hạn chế OCR - Đa số phần mềm, ứng dụng chứa OCR có khả nhận dạng xác khoảng 80-90% dựa vào hình ảnh rõ nét Ngồi ra, thời điểm ngơn ngữ ngày trở nên phong phú cơng nghệ OCR lại chưa thể đáp ứng đa ngôn ngữ OCR chưa hỗ trợ support cho tất ngôn ngữ Các chương trình hỗ trợ OCR nhận dạng ký tự với tỷ lệ 90% chất lượng hình ảnh rõ nét font chữ thơng thường Đối với hình chất lượng kém, font chữ đặc biệt chữ viết tay kết cho khơng khả quan Đối với văn Tiếng Việt tỷ lệ phần trăm xác khơng cao so với văn ngôn ngữ khác CHƯƠNG 3: ỨNG DỤNG VÀ MỘT SỐ PHẦN MỀM PHỔ BIẾN Phần mềm nhận dạng OCR - Soda PDF Nền tảng: Windows, Mac, Web Hồ trợ: giấy, ảnh , file PDF, chỉnh sửa 1.1 Ưu điểm  Dành cho phiên bản: web máy tính  Hỗ trợ với 300 định dạng file 1.2 Nhược điểm  Chỉ xuất file PDF  Người dùng cần trả phí hàng năm Nếu bạn mong muốn tài liệu xuất ln lưu dạng file PDF, Soda ứng dụng hồn hảo để bạn cân nhắc Với hỗ trợ định dạng lên tới 300 file Bên cạnh đó, liệu scan thành PDF, bạn dễ dàng chỉnh sửa nội dung văn bản, thêm thích, diễn giải… Ứng dụng cung cấp tính gửi theo dõi hợp đồng Ngoài ra, ứng dụng cho phép bạn dùng thử trước định mua Vì vậy, cân nhắc để lựa chọn cho nhé! Nuance OmniPage - Phần mềm nhận dạng chữ in OCR tảng Windows Nền tảng: Windows Hỗ trợ: giấy, ảnh, PDF, chỉnh sửa Hỗ trợ đa thiết bị: Khơng 2.1 Ưu điểm  Hỗ trợ nhiều tảng  Giải khối lượng văn lớn lúc 2.2 Nhược điểm  Tính đơn giản sử dụng cho doanh nghiệp lớn  Chỉ hỗ trợ hệ windows Nuance công ty phần mềm Hoa Kỳ, tên uy tín lĩnh vực OCR Ứng dụng Omnipage phần mềm hàng đầu hãng hỗ trợ chuyển đổi scan sang máy tính cục hoặt network nhanh hiệu Bên cạnh đó, Nuance Omnipage giúp hỗ trợ giải số lượng tài liệu lớn từ nhiều thiết bị, nén liệu chuyển đổi liệu Thêm vào đó, bạn dễ dàng biến văn giấy, form, hay ảnh sang dạng file kỹ thuật dễ chỉnh sửa Phần mềm nhận dạng chữ Adobe Acrobat DC Nền tảng: Windows, Mac Hỗ trợ: giấy, ảnh, file PDF Có thể chỉnh sửa 3.1 Ưu điểm  Sản phẩm công ty uy tín, có thương hiệu Adobe  Nhiều tính đặc trưng hữu ích 3.2 Nhược điểm  Khơng hỗ trợ Ebook  Giá thành cao Adobe Acrobat phần mềm nhận dạng chữ OCR công nhận sử dụng rộng rãi Với giao diện thân thiện dễ dàng sử dụng, sản phẩm cho phép xuất liệu sang Microsoft Office nhanh chóng xác Mặc dù khơng thể tạo eBooks, bạn tạo thành file PDF thay Đặc biệt, Adobe Acrobat hỗ trợ thêm chữ ký điện tử thông tin quan trọng khác vào văn 4 Ứng dụng nhận dạng chữ Nuance PaperPort Professional Nền tảng: Windows Hỗ trợ: giấy , ảnh , file PDF Có thể chỉnh sửa Hỗ trợ đa thiết bị: Không 4.1 Ưu điểm  Mức giá phù hợp  Hoàn hảo chuyên nghiệp cho mục đích thân 4.2 Nhược điểm  Không đủ mạnh sử dụng cho doanh nghiệp  Chỉ hỗ windows Nuance PaperPort Professional phần mềm phù hợp cho doanh nghiệp nhỏ độc lập Sản phẩm cung cấp biện pháp scan, quản lý tìm kiếm chia sẻ tài liệu bao gồm văn giấy, file PDF, văn pháp lý ảnh 5 Ứng dụng phần mềm nhận dạng chữ IONE Nền tảng: Windows Hỗ trợ: giấy , ảnh , file PDF Có thể chỉnh sửa 5.1 Ưu điểm  Mức giá phù hợp  Hoàn hảo sử dụng cho cá nhân doanh nghiệp  Hỗ trợ nhiều tảng  Giải số lượng tài liệu lớn lúc 5.2 Nhược điểm  Người dùng cần trả phí năm Ứng dụng OCR bóc tách đc sổ đỏ, CMND, tờ trình văn hợp đồng… Việc áp dụng công nghệ OCR IONE giúp công việc quản lý, biên soạn lại tài liệu dạng ảnh, tìm kiếm tài liệu doanh nghiệp hay quan nhà nước trở nên đơn giản thuận tiện Đặc biệt với tài liệu có số lượng cực lớn sổ đó, CMND việc nhâp thơng tin lên hệ thống khơng cơng việc tốn thời gian, công sức quan nhà nước Sử dụng IONE giải pháp giúp nâng cao chất lượng làm việc phục vụ người dân khách hàng Cùng tìm hiểu thêm ứng dụng IONE qua viết: IONE - Cơng nghệ nhận dạng bóc tách thông tin vượt trội ứng dụng OCR CHƯƠNG 4: GIỚI THIỆU MÃ NGUỒN MỞ TESSERACT OCR 4.1 Giới thiệu nhận dạng ký tự quang học Tesseract Nhận dạng ký tự quang học (tên tiếng anh Optical Character Recognition – OCR) kỹ thuật sử dụng để chuyển đổi ảnh văn sang dạng văn chỉnh sửa máy tính Đầu vào trình tập tin hình ảnh đầu tập tin văn chứa nội dung chữ viết, ký hiệu có hình ảnh 4.2 Lịch sử Tesseract phần mềm mã nguồn mở ban đầu nghiên cứu phát triển hãng Hewlett Packet (HP) khoảng từ năm 1984 đến 1994 Vào năm 1995, Tesseract nằm nhóm ba nhận dạng OCR đứng đầu độ xác tham gia hội nghị thường niên tổ chức UNLV Lúc khởi động Tesseract dự án nghiên cứu tiến sĩ phòng thí nghiệm HP Bristol tích hợp vào dòng máy quét dạng phẳng hãng dạng add-on phần cứng phần mềm Nhưng thực tế dự án thất bại từ trứng nước làm việc hiệu tài liệu in có chất lượng tốt Sau đó, dự án với cộng tác phận máy quét HP bang Colorado đạt bước tiến quan trọng độ chuẩn xác nhận dạng vượt lên nhiều nhận dạng OCR thời dự án khơng thể trở thành sản phẩm hồn chỉnh độ cồng kềnh phức tạp Sau đó, dự án đưa phòng thí nghiệm HP để nghiên cứu cách thức nén tối ưu mã nguồn Dự án tập trung cải thiện hiệu làm việc Tesseract dựa độ xác có Dự án hồn tất vào cuối năm 1994 sau vào năm 1995 Tesseract gửi tham dự hội nghị UNLV thường niên độ xác OCR, vượt trội hẳn so với phần mềm OCR lúc Tuy nhiên, Tesseract trở thành sản phẩm thương mại hoàn chỉnh vào năm 2005, HP chuyển Tesseract sang mã nguồn mở hãng Google tài trợ Tesseract nhiều nhà phát triển cộng tác tiếp tục hoàn thiện Phiên nhận dạng Tesseract phiên 3.0.1 Phần mềm thương mại Bộ nhận dạng Tesseract Hỗ trợ 100 ngôn ngữ Hỗ trợ 40 ngôn ngữ tăng dần Có giao diện đồ họa Khơng hỗ trợ giao diện đồ họa (dùng Command Line để gõ lệnh) Hầu hết hỗ trợ tảng Windows Hỗ trợ Windows, Linux, Mac OS Độ xác cao Độ xác cao từ năm 1995 Chi phí cao 130$ - 500 $ Hồn tồn miễn phí (mã nguồn mở) So sánh phần mềm thương mại Tesseract Vì Tesseract thư viện mã nguồn mở hồn tồn miễn phí nên giới có nhiều phần mềm nhận dạng ký tự quang học đời dựa Tesseract với giao diện tính dễ sử dụng so với giao diện đơn giản Tesseract ban đầu như: VietOCR cho nhận dạng tiếng Việt, Tessenet2 nhận diện Tesseract Net Microsoft, giao diện Java (Java GUI frontend) cho Tesseract… Ngôn ngữ Tổng số ký tự (triệu) Tổng số từ (triệu) Lỗi ký tự (%) Lỗi từ (%) Tiếng Anh 39 0.5 3.72 Tiếng Nga 213 26 0.75 5.78 Tiếng Hoa giản thể 0.25 không xác định 3.77 không xác định Tiếng Hindi 1.4 0.33 15.41 69.44 Độ xác Tesseract số ngơn ngữ 2.1.2 Kiến trúc hoạt động đầu tiên, nhận diện Tesseract nhận đầu vào ảnh màu ảnh mức xám Ảnh chuyển đến phận phân tích ngưỡng thích ứng (adaptive thresholding) ảnh nhị phân Vì trước HP phát triển phận phân tích bố cục trang nên Tesseract khơng cần phải có thành phần thừa hưởng từ HP Vì mà Tesseract nhận đầu vào ảnh nhị phân với vùng đa giác tùy chọn xác định Ban đầu, Tesseract thiết kế làm việc ảnh nhị phân sau chương trình cải tiến để nhận dạng ảnh màu ảnh mức xám Chính mà cần phận phân tích ngưỡng thích ứng để chuyển đổi ảnh màu / ảnh mức xám sang ảnh nhị phân Sau q trình nhận dạng thực theo bước: + Bước phân tích thành phần liên thơng Kết bước tạo đường bao quanh ký tự · + Bước thứ hai tìm hàng tìm từ, kết bước giống bước tạo vùng bao quanh hàng chữ ký tự chứa vùng văn · + Bước nhận dạng từ Công đoạn nhận dạng từ xử lý qua giai đoạn Giai đoạn đầu nhận dạng từ theo lượt Các từ thỏa yêu cầu giai đoạn chuyển sang phân loại thích ứng (adaptive classifier) để làm liệu huấn luyện Chính nhờ mà phân loại thích ứng có khả nhận diện xác phần sau trang Sau phân loại thích ứng học thơng tin có ích từ giai đoạn đầu nhận dạng phần trang giai đoạn thứ việc nhận dạng thực Giai đoạn qt hết tồn trang, từ khơng nhận diện xác giai đoạn đầu nhận diện lại lần Cuối nhận diện tổng hợp lại thông tin cho kết nhận diện hoàn chỉnh 2.1.3 Huấn luyện liệu tesseract Tesseract ban đầu thiết kế để nhận dạng từ tiếng Anh ngôn ngữ hệ Latinh Sau này, nhờ cố gắng nhiều nhà phát triển mà phiên Tesseract nhận diện ngơn ngữ khác hệ Latinh tiếng Trung, tiếng Nhật tương thích với ký tự bảng mã UTF8 Việc nhận dạng ngơn ngữ Tesseract thực nhờ vào việc huấn luyện liệu Từ phiên 3.0 trở đi, Tesseract hỗ trợ thêm nhiều dạng ngôn ngữ mở rộng thêm việc huấn luyện theo font chữ Bởi ban đầu, Tesseract huấn luyện để nhận diện từ xác số loại font mặc định, sử dụng font chữ khác để nhận diện kết khơng có độ xác cao làm việc với loại font cài đặt sẵn liệu huấn luyện Để thực trình huấn luyện ta phải sử dụng cơng cụ có sẵn Tesseract Mặc định luận văn này, sử dụng công cụ Tesseract 3.01 cho việc thực huấn luyện ngôn ngữ font Để huấn luyện liệu Tesseract (hoặc ngôn ngữ mới) ta cần tập tập tin liệu chứa thư mục tessdata, sau kết hợp tập tin thành tập tin Các tập tin có thư mục tessdata có quy tắc đặt tên theo dạng: tên_ngơn_ngữ.tên_tập tin Ví dụ tập tin cần thiết thực việc huấn luyện tiếng Anh: tessdata/eng.config tessdata/eng.unicharset: Tập ký tự ngôn ngữ huấn luyện tessdata/eng.unicharambigs tessdata/eng.inttemp: Danh mục cho tập hợp ký tự tessdata/eng.pffmtable: Tập tin dạng hộp – sử dụng để xác định ký tự có tập tin huấn luyện tessdata/eng.normproto: Như tập tin pffmtable tessdata/eng.punc-dawg tessdata/eng.number-dawg tessdata/eng.freq-dawg: Danh sách từ tổng quát tessdata/eng.word-dawg: Danh sách từ thông thường · tessdata/eng.user-word: Danh sách từ người dùng (tùy chọn có khơng) + Bước cuối tổng hợp liệu từ bước phát sinh tập tin liệu có dạng: tessdata/eng.traineddata Các tập tin cần thiết cho việc huấn luyện liệu phát sinh ta sử dụng cơng cụ có sẵn để qua q trình huấn luyện Tổng hợp lại ta có: Sinh hình ảnh huấn luyện Tạo tập tin *.box Bắt đầu chạy huấn luyện Tesseract Clustering (tập hợp lại) Thêm liệu từ điển (tùy biến) Tổ hợp kết lại với nhau: Trong việc ứng dụng Tesseract enginer cho nhận dạng ký hiệu toán học, thực chất vấn đề khó khăn nằm khâu huấn luyện vấn đề lập trình tích hợp phần mềm Q trình huấn luyện ngơn ngữ font Để trải qua trình huấn luyện ngôn ngữ loại font Tesseract ta cần thực thông qua giai đoạn sau: Phát sinh tập tin hình ảnh cho việc huấn luyện: Đây bước nhầm xác định tập ký tự sử dụng việc huấn luyện Trước hết ta cần chuẩn bị sẵn tập tin văn chứa liệu huấn luyện (trường hợp cụ thể đoạn văn bản) Việc tạo tập tin huấn luyện cần theo quy tắc sau: Bảo đảm số lần xuất ký tự mẫu từ khoảng đến 10 lần cho ký tự Nên có nhiều mẫu cho từ xuất thường xuyên, 20 lần Các liệu huấn luyện nên chia theo kiểu font, tập tin huấn luyện nên chứa loại font huấn luyện nhiều loại font cho nhiều tập tin Không nên kết hợp nhiều loại font riêng tập tin huấn luyện Sau chuẩn bị mẫu văn dùng cho việc huấn luyện ta cần phát sinh ảnh từ tập tin Dùng phần mềm để chuyển tập tin mẫu văn sang dạng tập tin ảnh in mẫu văn sau qt thành tập tin hình ảnh dạng tif với độ phân giải 300dpi Tập tin cuối trước thực việc huấn luyện tập tin ảnh dạng tif Tạo tập tin dạng hộp box: Một dạng tập tin để Tesseract huấn luyện dựa liệu hình ảnh có bước đầu tập tin dạng hộp – box Tập tin dạng hộp tập tin văn chứa dãy ký tự từ đầu đến cuối tập tin hình ảnh, hàng chứa thông tin ký tự, tọa độ đường bao quanh ký tự tập tin ảnh Để tạo tập tin dạng hộp ta dùng cách gõ lệnh (trên Windows CMD Linux Terminal) sau (yêu cầu người dùng phải cài đặt công cụ Tesseract để chạy lệnh này): Sau thực câu lệnh ta tạo tập tin dạng hộp box Chạy công cụ Tesseract máy tính để thực việc huấn luyện liệu Sau tập tin box cần trình chỉnh sửa tập tin dạng hộp để kiểm tra lại chỉnh sửa lại thông số ký tự cho khớp với văn ban đầu tập tin ảnh huấn luyện Ở nhóm em dùng phần mềm jTextBoxEditor để chỉnh sửa trực tiếp tập tin dạng hộp Sau kiểm tra chỉnh sửa lại ký tự cho xác tập tin dạng hộp thực lệnh tiếp theo: Nếu thành cơng giai đoạn này, Tesseract phát sinh tập tin Ước lượng tập ký tự ngôn ngữ cần huấn luyện: Tesseract cần biết hết tập ký tự xuất liệu Ta dùng lệnh sau: Sau thực hiện, tập tin unicharset tạo Xác định kiểu font liệu (từ phiên 3.0.1 trở đi): Đây tính có từ phiên Tesseract 3.0.1 trở Với tính người dùng huấn luyện liệu với nhiều loại font khác thay dùng font mặc định sẵn phiên trước Ta cần tạo tập tin font_properties để quy định thông số kiểu font ta sử dụng mẫu văn huấn luyện Cấu trúc tập tin font_properties hàng chứa tên loại font huấn luyện đặc tính font đó: (đánh dấu có thuộc tính bit khơng có dùng bit 0) Ví dụ cấu trúc tập tin font_properties với liệu huấn luyện tiếng Anh: Gom nhóm liệu: Tại giai đoạn đường nét khung ký tự rút trích cần gom nhóm lại liệu ban đầu để tạo mẫu thử (prototype) Hình dạng, đường nét ký tự gom nhóm lại nhờ vào chương trình mftraining cntraining có sẵn cơng cụ Tesseract: Với lệnh mftraining tạo tập tin liệu: inttemp (chứa hình dạng mẫu), pffmtable Microfeat sử dụng) Cuối dùng công cụ cntraining tạo tập tin liệu normproto Tạo tập tin unicharambigs Kết hợp tập tin lại tạo thành tập tin huấn luyện liệu: Cuối sau có đủ tập tin huấn luyện cần thiết (inttemp, pffmtable, normproto, Microfeat) ta đổi tên tập tin lại cho dạng với tiền tố lang trước tên tập tin với lang ký tự đại diện cho ngôn ngữ huấn luyện theo chuẩn ISO 639- 10 Kết tạo tập tin lang.trainedata Bỏ tập tin vào thưc mục tessdata Tesseract Tesseract nhận diện ngơn ngữ font chữ (theo lý thuyết) 4.3 Tiến trình nhận dạng sử dụng Tesseract OCR Xác định dòng Mục đích bước nhận dạng dòng hình ảnh bị nghiêng, giúp giảm thơng tin nhận dạng ảnh nghiêng Các phận quan trọng q trình lọc dãy màu (còn gọi blobs) xây dựng dòng Bước giúp loại bỏ văn có dropcap 2.3.2 Thiết lập dòng sở Khi dòng văn tìm thấy, dòng sở thiết lập xác cách sử dụng đường có tên spline tồn phương (là dòng mà kết hợp từ nhiều đoạn) Nó giúp Tesseract xử lý trang có đường sở đường cong Các dòng sở thiết lập cách phân vùng blobs thành nhóm thay thích hợp liên tục đường sở thẳng ban đầu Một spline toàn phương thiết lập cho phân vùng dày đặc nhất, (giả định đường sở) hình có phương Spline có lợi tính tốn ổn định, nhược điểm gián đoạn xảy nhiều phân đoạn spline yêu cầu Cắt nhỏ từ Tesseract xác định xem có ký tự dính với từ hay khơng Nếu có cắt nhỏ ký tự thành ký tự riêng lẻ Nhận dạng khoảng cách chữ số Xác định khoảng cách số chữ vấn đề phức tạp Tesseract giải vấn đề cách đo khoảng cách phạm vi hạn chế theo chiều dọc dòng sở dòng trung bình Nhận dạng từ Quá trình nhận dạng từ q trình phân tích từ chia thành ký tự Hình 2.3 Quá trình nhận dạng từ Khi kết xuất từ mà khơng thỏa mãn nhu cầu Teseract cố gắng cải thiện kết cách cắt nhỏ từ có nghĩa khơng tốt Nếu việc cắt nhỏ khơng làm tăng chất lượng từ phục hồi lại từ trước 4.4 Đánh giá độ xác nhận dạng Tesseract OCR Hình ảnh muốn OCR cần quét độ phân giải từ 200 DPI (dot per inch) trở lên tới 400 trắng đen grayscale Quét ảnh với độ phân giải cao chưa hẳn tăng xác kết nhận dạng Hiện tại, mức xác lên 97% cho Tiếng Việt (ảnh chuẩn), phiên tới Tesseract nâng cao độ nhận dạng Dầu vậy, độ xác thực thụ tùy thuộc lớn vào phẩm chất ảnh quét Thông số tiêu biểu cho quét ảnh 300 DPI bpp (bit per pixel) trắng đen bpp grayscale dạng không nén (uncompressed) TIFF hay PNG PNG nhỏ gọn dạng ảnh khác mà giữ chất lượng cao nhờ sử dụng thuật tốn lossless data compression; TIFF có lợi điểm khả chứa nhiều trang ảnh (multipage) file 17 Chế độ Screenshot Mode cung cấp độ nhận dạng tốt cho hình ảnh có độ phân giải thấp, chẳng hạn ảnh in hình, cách rescaling chúng tới 300 DPI KẾT LUẬN Kết đạt  Về mặt lý thuyết: Tìm hiểu ứng dụng Tesseract Ocr  Về mặt ứng dụng thực tiễn: Hiện Việt Nam có chương trình nhận dạng phiên Tiếng Việt có tên VnDOCR Phòng nhận dạng Cơng nghệ Tri thức – Viện Công nghệ Thông tin nghiên cứu phát triển Bên cạnh có dự án OCR Tiếng Việt có tên VietOCR Dự án phát triển dựa tảng mã nguồn mở tesseract-ocr Google tài trợ Chúng em tìm hiểu cho ứng dụng nhỏ demo, chương trình giai đoạn khởi đầu, tính chất lượng nhận dạng mức trung bình Đối với văn viết tay khơng thể nhận dạng Vì thời gian triển khai có hạn, việc tìm hiểu cơng nghệ gặp nhiều khó khăn khơng có nhiều tài liệu nên khơng tránh sai sót Em mong nhận đóng góp ý kiến hướng dẫn thầy để đồ án thêm hồn thiện Em xin chân thành cảm ơn! TÀI LIỆU THAM KHẢO https://sharecode.vn/source-code/source-code-chuong-trinh-nhan-dang-chu-viet- su-dung-cong-nghe-ocr-nhan-dang-ky-tu-co-tien-xu-ly-va-hau-xu-ly-22300.htm? https://ionetech.vn/tin-tuc/noi-dung/ione-cong-nghe-nhan-dang-va-boc-tachthong-tin-vuot-troi-tich-hop-cong-nghe-ocr-19427.html https://tailieu.vn/tag/cong-nghe-ocr.html https://github.com/tesseract-ocr ... điểm nhược điểm công nghệ OCR 2.1 Ưu điểm công nghệ OCR 2.2 Nhược điểm công nghệ OCR .5 Chương Ứng dụng số phần mềm phổ biến 3.1 Phần mềm nhận dạng OCR- Soda PDF ... kiện cho bạn học tập nghiên cứu công nghệ OCR Nội dung tài liệu gồm chương: Chương 1: Giới thiệu tổng quan công nghệ OCR Chương 2: Ưu điểm nhược điểm công nghệ OCR Chương 3: Ứng dụng số phần mềm... CỦA CÔNG NGHỆ OCR 2.1 Ưu điểm công nghệ OCR: a) Hỗ trợ sống người già, người khiếm thị Vào năm 1970, công ty Kurzweil Computer Products Inc Mỹ cho đời hệ thống phông chữ Omni giới Phần mềm OCR

Ngày đăng: 21/06/2020, 11:19

TỪ KHÓA LIÊN QUAN

w