Chương 3 ỨNG DỤNG THỬ NGHIỆM
3.1. Bài toán ứng dụng
3.1.1. Yêu cầu thực tế
Để thực hiện chủ trương ứng dụng công nghệ thông tin trong các cơ quan nhà nước đặc biệt là trong việc xử lý công văn giấy tờ thì nhu cầu tạo lập nội dung số từ các văn bản tài liệu giấy (hay còn gọi là số hóa văn bản) là rất cấp thiết. Đã có nhiều đề tài nghiên cứu việc tạo lập nội dung số, nhưng đều chưa thực sự thành công do gặp phải những vấn đề về công nghệ, bản quyền và các yếu tố khách quan khác.
Hiện nay, có rất nhiều hình thức trong việc tạo lập nội dung số từ các văn bản tài liệu giấy như nhập liệu bằng phương pháp đánh máy, quét tài liệu giấy...
Đặc thù các công văn, giấy tờ trong các cơ quan nhà nước thường có con dấu và bút tích phê của lãnh đạo. Vì vậy, để đảm bảo tính toàn vẹn của văn bản, giấy tờ cũng như tính pháp lý, việc số hóa văn bản bằng công nghệ quét ảnh là lựa chọn tối ưu.
Vấn đề lưu trữ và tìm kiếm cũng là một thách thức lớn đối với các cơ quan, tổ chức nhà nước, cần giảm tối thiểu kho lưu trữ văn bản phát sinh hằng ngày trong nghiệp vụ hành chính, tăng phạm vi sử dụng. Để thực hiện vấn đề đó cần không gian lưu trữ trong bộ nhớ thay vì lưu trữ trong kho và phương pháp tìm kiếm và sử dụng lại văn bản một cách nhanh, chính xác nhất.
Từ yêu cầu thực tế đó đề tài lựa chọn công nghệ quét ảnh để thực hiện việc số hóa các văn bản giấy một các tự động và nhanh chóng. Hơn nữa, đề tài được nghiên cứu dựa trên công nghệ nguồn mở, vì vậy sẽ giải quyết được vấn đề làm chủ công nghệ và vấn đề bản quyền. Đồng thời, đề tài cũng nghiên cứu các cách thức tự động sinh ra các metadata cơ bản để lưu trữ cùng với ảnh quét của văn bản và thực hiện tìm kiếm một cách có hiệu quả.
3.1.2. Bài toán ứng dụng
Trong phạm vi luận văn tôi sử dụng thư viện Dynamic .Net TWAIN thực hiện quét văn bản: thư viện DynamicDotNetTwain.dll được tích hợp trong Visual Studio, sử dụng như một thành phần để lập trình, các tùy chọn về chế độ quét, độ sâu bit, độ phân giải được thiết lập trong quá trình thực hiện quét văn bản.
Sử dụng phần mềm mã nguồn mở GreenStone để xây dựng hệ thống lưu trữ và quản lý văn bản trường Đại học Hải Dương theo chuẩn Dublin Core. Hệ thống này được cấu hình và định dạng để thuận tiện cho việc lưu trữ, tra cứu văn bản một cách thuận tiện nhất. Giao diện web được hiệu chỉnh phù hợp để sử dụng tại trường Đại học Hải Dương.
Để giải bài toán này, tôi sẽ tiến hành các bước sau:
Bước 1: Xây dựng ứng dụng scan văn bản với các thiết lập tùy chọn về độ phân giải, chế độ màu scan, độ sâu bít khi scan.
Bước 2: Lưu văn bản đã scan bằng các định dạng khác nhau do người dùng tùy chọn: BMP, JPG, TIFF, PDF.
Bước 3: Tạo lập chỉ mục cho các văn bản đã scan theo chuẩn Dublin Core bằng công cụ GreenStone.
Bước 4: Tạo các tiêu chí hiển thị văn bản đã được lưu trữ phục vụ việc tìm kiếm văn bản một cách nhanh và chính xác nhất.