Quá trình ứng dụng phần mềm nhận dạng chữ in tiếng việt ABBYY ở trung tâm thông tin – thư viện đại học quốc gia hà nội

2 327 0
Quá trình ứng dụng phần mềm nhận dạng chữ in tiếng việt ABBYY ở trung tâm thông tin – thư viện đại học quốc gia hà nội

Đang tải... (xem toàn văn)

Thông tin tài liệu

18/12/2015 Quá trình ứng dụng phần mềm nhận dạng chữ in tiếng Việt ABBYY Trung tâm Thông tin – Thư viện Đại học Quốc gia Hà Nội | NGHIỆP VỤ THƯ VIỆN Quá trình ứng dụng phần mềm nhận dạng chữ in tiếng Việt ABBYY Trung tâm Thông tin – Thư viện Đại học Quốc gia Hà Nội Đặt vấn đề Trên giới Việt Nam có nhiều phần mềm quản trị thư viện khác nhau, phần mềm có tính ưu việt phù hợp với điều kiện thực tế thư viện Hiện số trung tâm thông tin thư viện sử dụng phần mềm nhận dạng chữ tiếng Việt ABBYY phần mềm sử dụng rộng rãi toàn giới Với tính ưu việt phần mềm này, số thư viện Việt Nam lựa chọn sử dụng để áp dụng cho thư viện Trung tâm thông tin thư viện Đại học Quốc gia Hà Nội thư viện Giới thiệu Trung tâm Thông tin thư viện Đại học Quốc gia Hà Nội Trung tâm thông tin thư viện Đại học Quốc gia Hà Nội thành lập theo nghị số 66/TCCP ngày 14/2/1997 Giám đốc Đại học Quốc gia Hà Nội sở hợp thư viện thành viên Sau 10 năm xây dựng phát triển, tới Trung tâm trang bị tương đối đầy đủ nguồn lực thông tin, phương tiện đại đáp ứng nhu cầu người dùng tin nhiều lĩnh vực khác Trung tâm đáp ứng tốt nhu cầu cung cấp tin tri thức cho việc học tập, nghiên cứu khoa học đội ngũ giảng viên sinh viên nói riêng, bồi dưỡng nhân tài cho quốc gia nói chung, có nhiệm vụ nghiên cứu, thu thập, xử lí, thông báo cung cấp tin, tư liệu khoa học, giáo dục, ngoại ngữ công nghệ phục vụ cán sinh viên ĐHQGHN Tình hình áp dụng phần mềm nhận dạng ABBYY Trung tâm thông tin thư viện Đại học Quốc gia Hà Nội ABBYY có dòng sản phẩm nhận dạng chính: ABBYY Recognition Server ABBYY FlexiCapture Hiện Trung tâm thông tin - thư viện Đại học Quốc gia Hà Nội sử dụng dòng sản phẩm ABBYY Recognition Server Phần mềm ABBYY Recognition Server nhận dạng tài liệu in 198 ngôn ngữ với độ xác 99%, bao gồm tiếng Việt; cấu trúc văn giữ nguyên; tốc độ nhận dạng cao, giây cho trang khổ A4 Sau nhận dạng, ABBYY Recognition Server cho phép kết xuất kết nhận dạng nhiều định dạng file tìm kiếm biên tập MS Word, MS Excel, PDF, PDF/A, HTML, XML Trong đó, định dạng PDF/A – loại định dạng PDF – định dạng giữ nguyên ảnh quét gốc nên đảm bảo tuyệt đối tính tin cậy thông tin cho người đọc, đồng thời cho phép người dùng biên tập tìm kiếm toàn văn a Ưu điểm phần mềm ABBYY - Lưu trữ: Khả chuyển đổi khối lượng lớn tài liệu giấy sang tài liệu số định dạng tìm kiếm biên tập MSWord, MS Excel, PDF, PDF/A - Nhân viên nhận dạng: Là giải pháp mạnh công nghệ, hiệu đầu tư cho toán nhận dạng văn chuyển đổi liệu trung tâm Sau cài đặt trụ sở trung tâm, nhân viên sử dụng dịch vụ nhà - Tích hợp hệ thống: Nó không cung cấp giao diện tích hợp dễ sử dụng mà hàm đóng gói mức độ cao, sẵn sàng cho chức nhận dạng tài liệu hay chuyển đổi sang PDF b Chức ABBYY Recognition Server thực sau: + Nhập ảnh: Trong khâu Server Manager truy xuất đọc ảnh từ nguồn lưu File trước: Thư mục chia sẻ mạng nội bộ, thư mục FPT, thư mục Mailbox trước đưa chúng vào hàng đợi để xử lý + Xử lý: File ảnh đến lượt xử lý phân luồng xử lý trạm xử lý Nếu hệ thống có nhiều trạm xử lý, Server Manager phân bổ công việc cách hợp lý cho trạm Sau trạm xử lý nhận dạng xong file ảnh, trả kết lại cho Server Manager tiếp tục nhận file ảnh khác xử lý + Soát lỗi: Nếu chức thiết lập, trang cần soát lỗi xếp vào hàng đợi sau kết soát lỗi trả Server Manager + Xuất bản: Sau tài liệu nhận dạng và chỉnh sửa lỗi, Server Manager trả tài liệu tới địa định, thư mục mạng LAN, thư viện Share point địa email + Xử lý lỗi: Các tài liệu có độ nhận dạng tin cậy thấp lọc lưu vào thư mục khác + Khả chịu lỗi: ABBYY Recognition Server thiết kế làm việc hoàn toàn tự động, có tính đặc biệt để đảm bảo khả chịu lỗi đem đến bền bỉ cho hệ thống c Quá trình chuyển đổi tài liệu công nhận Server chia làm phần hợp lý sau: + Quét/ nhập văn bản: Việc quét Station quét trạm cung cấp chức thực thi, chức quét chuẩn bị hình ảnh ABBYY Recognition Server tự động nhập hình ảnh từ tài nguyên mạng + Công nhận: OCR thực trạm xử lý tự động Có thể kết nối vài máy tính để quản lý máy chủ trạm xử lý, Server Manager cân khối lượng công việc số trạm đồng + Quản lý chất lượng: Chất lượng quét hoàn hảo, bị độ phân giải thấp không mong muốn Trong trường hợp quan trọng để có chế bảo đảm chất lượng đáng tin cậy + Tài liệu Separation: ABBYY Recognition Server cung cấp số tùy chọn tách xây dựng tài liệu: theo trống tờ, tờ mã vạch in trang data:text/html;charset=utf-8,%3Cbr%20class%3D%22Apple-interchange-newline%22%3E%3Cdiv%20id%3D%22ja-container%22%20class%3D%22clearfix%… 1/2 18/12/2015 Quá trình ứng dụng phần mềm nhận dạng chữ in tiếng Việt ABBYY Trung tâm Thông tin – Thư viện Đại học Quốc gia Hà Nội | NGHIỆP VỤ THƯ VIỆN tài liệu + Thiết loại tài liệu thuộc tính: Máy chủ công nhận ABBYY phần mềm mục tài liệu mạnh mẽ Phân loại tài liệu mục thực dễ dàng với diện trực quan mục Station cho phép nhà điều hành để chọn loại tài liệu danh sách xác định trước điền vào thuộc tính tài liệu + Xuất bản: Sự công nhận máy chủ chuyển đổi hình ảnh thành định dạng tìm kiếm chỉnh sửa loại: PDF, PDF/A, RTF, TXT, DOC(X), XLS(X), XML thành định dạng hình ảnh phổ biến: TIFF, multi-page TIFF JPEG d Kết đạt khó khăn * Những thuận lợi: Từ áp dụng phần mềm nhận dạng chữ tiếng Việt ABBYY hoạt động thông tin - thư viện giúp cho trình hoạt động nghiệp vụ thông tin - thư viện ngày đạt hiệu Chúng ta tưởng tượng có tay số tài liệu giấy sách, báo, tờ rơi quảng cáo, hợp đồng v.v… máy quét giúp biến tài liệu giấy thành tài liệu dạng ảnh Với tài liệu dạng ảnh, đọc mà biên tập lại chúng hệ soạn thảo điện tử nay; hệ thống tìm kiếm tìm đoạn văn tài liệu Với việc sử dụng phần mềm nhận dạng chữ in biên soạn lại tài liệu dạng ảnh thực đơn giản! ABBYY Recognition Server sản phẩm giúp cho Trung tâm ngày tăng số lượng thông tin cung cấp cho phép họ quản lý: tài liệu hình ảnh, tự động, xử lý lưu trữ thông tin có giá trị Sử dụng liệu nắm giữ sản phẩm, giúp quan thông tin - thư viện tiết kiệm tiền bạc công sức cho nhập liệu Khi sử dụng phần mềm bố cục văn giữ nguyên, giảm thiểu thời gian chỉnh sửa lại văn * Khó khăn: Tuy nhiên sử dụng phần mềm ABBYY Recognition Server Trung tâm gặp phải số khó khăn giá thành sản phẩm tương đối cao, đồng thời phần mềm nước nên trình sử dụng gặp nhiều khó khăn bảo trì hệ thống Đề xuất giải pháp nhằm nâng cao hiệu ứng dụng phần mềm nhận dạng chữ tiếng việt ABBYY Trung tâm Thông tin - Thư viện Đại học Quốc gia Hà Nội a Khai thác tính phần mềm nhận dạng chữ tiếng Việt ABBYY: Tận dụng tính ưu việt, lợi ích mà phần mềm mang lại cho phép quan thông tin - thư viện quản lý nắm giữ sản phẩm, tiết kiệm thời gian, tiền bạc, công sức cho việc nhập liệu b Xây dựng phát triển nguồn tin điện tử: Nguồn thông tin điện tử trở thành nguồn lực quan trọng tất quốc gia giới, đồng thời đóng vai trò trực tiếp tạo cải vật chất kinh tế xã hội c Nâng cao trình độ đội ngũ cán TT-TV • Có kiến thức chuyên môn nguồn thông tin, bao gồm khả đánh giá chọn lọc phần mềm thiết bị thông tin phù hợp • Các kỹ sử dụng công nghệ thông tin, khai thác thông tin, đặc biệt biết quản lý, bảo trì liệu khai thác cung cấp tài liệu qua mạng • Trình độ ngoại ngữ tốt để sử dụng phần mềm có hiệu có khả thu thập thông tin, số hóa tài liệu d Mở rộng mối quan hệ hợp tác trao đổi chia sẻ nguồn lực thông tin: Thư viện cần mở rộng hợp tác với thư viện trung tâm thông tin nước nhằm trao đổi học tập kinh nghiệm trình ứng dụng công nghệ thông tin Kết luận Trung tâm thông tin - thư viện Đại học Quốc gia Hà Nội ngày phát triển hoàn thiện hơn, hướng tới thư viện có tầm cỡ khu vực Đông Nam Á, qua góp phần tích cực vào nhiệm vụ nghiên cứu đào tạo Đại học Quốc gia Hiện nay, thị trường Việt Nam có số phần mềm nhận dạng chữ in (OCR) tiếng Việt giải pháp số hóa Tuy nhiên, thực tế sử dụng phần mềm cho thấy chúng bộc lộ nhiều hạn chế không đọc ảnh màu (chỉ làm việc với ảnh đen trắng), dàn trang tài liệu sau nhận dạng hay bị vỡ, công suất xử lý thấp, thao tác thủ công, làm việc với ngôn ngữ Xuất sau sản phẩm thị trường dù hệ sản phẩm hỗ trợ tiếng Việt thừa hưởng bí công nghệ mà tính phần mềm chuyên nghiệp phiên trước, phần mềm nhận dạng phiên ABBYY đánh giá giải pháp nhận dạng tiếng Việt xác toàn diện Trung tâm Thông tin - thư viện Đại học Quốc Gia Hà Nội Nguyễn Thị Thủy K53 Khoa TT-TV, trường ĐHKHXH& NV Nguồn: Tạp chí Thư viện Việt Nam số 5(31) – 2011 (tr.32- 34) data:text/html;charset=utf-8,%3Cbr%20class%3D%22Apple-interchange-newline%22%3E%3Cdiv%20id%3D%22ja-container%22%20class%3D%22clearfix%… 2/2

Ngày đăng: 11/11/2016, 08:24

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan