Nghiên cứu công nghệ số hóa và tạo lập chỉ số trong hệ quản trị nội dung Nguyễn Thị Hòa Trường Đại học công nghệ. Đại học Quốc gia Hà Nội Luận văn ThS. Công nghệ thông tin : 60 48 10 Người hướng dẫn : TS. Trần Minh Năm bảo vệ: 2013 72 tr . Abstract. Trình bày về khái niệm số hóa và tạo lập chỉ số, lý do tại sao cần số hóa, các ưu điểm, nhược điểm của việc số hóa dữ liệu, và đặc biệt là trình bày về công nghệ mã nguồn mở trong sao chụp tài liệu (thư viện Dynamic. Net TWAIN, thư viện mã nguồn mở SANE). Trình bày hai giai đoạn tạo lập metadata, metadata tạo lập (mang tính xác thực văn bản), metadata mô tả nội dung (Dublin Core - phục vụ trong quá trình tìm kiếm văn bản), nghiên cứu phương pháp tạo lập chỉ mục ngược để lưu trữ và tìm kiếm. Đưa ra ứng dụng scan văn bản, ứng dụng Greenstone trong việc lưu trữ, tạo lập chỉ mục văn bản đã được số hóa tại trường Đại học Hải Dương minh họa cho các nghiên cứu ở chương 1 và chương 2. Keywords.Công nghệ số hóa; Tạo lập chỉ số; Số hóa; Công nghệ phần mềm; Hệ quản trị nội dung Content. Lý do chọn đề tài Hiện nay công tác quản lý nhà nước tại các cơ quan các cấp đang phát sinh một số lượng lớn văn bản bằng giấy tờ hàng ngày cần được xử lý, chuyển giao và lưu trữ. Ứng dụng tin học trong quản lý hành chính đã được triển khai, nhiều phần mềm ứng dụng đã phát huy hiệu quả tích cực, nâng cao hiệu suất làm việc cho cơ quan, tổ chức và dần trở thành các công cụ không thể thiếu trong các nghiệp vụ hành chính của mỗi cơ quan, tổ chức. Phần mềm quản lý văn bản, điều hành tác nghiệp là một trong số những ứng dụng được triển khai rộng khắp các cơ quan, tổ chức hành chính, tuy nhiên khi triển khai đại trà các ứng dụng và kết nối, trao đổi dữ liệu giữa các cơ quan, đơn vị thì các phần mềm này bắt đầu xuất hiện không ít các bất cập. Một kết quả khảo sát tại các đơn vị cấp huyện của tỉnh Hải Dương cho thấy, hầu hết các đơn vị đều được triển khai và đang sử dụng có hiệu quả hệ thống phần mềm phục vụ quản lý văn bản, tuy nhiên theo đa số các cán bộ được phỏng vấn đều có ý kiến các cơ quan, tổ chức đều khó trao đổi được với nhau bằng văn bản điện tử. Nói rộng ra, ngoài những ưu điểm không thể phủ nhận, còn hiện hữu một số trục trặc và bất cập trong hầu hết các hệ thống tin học phục vụ quản lý hành chính. Các bất cập nêu trên xuất hiện như một đặc điểm chung trong các hệ thống tin học hiện nay đang triển khai ứng dụng tại các cơ quan, tổ chức hành chính. Điểm lưu ý là các bất cập nêu trên lại không xảy ra với hệ thống hành chính truyền thống. Câu hỏi đặt ra bản chất các bất cập nêu trên là gì, hệ thống tin học hiện nay thiết kế đã phù hợp với các yêu cầu của hệ thống hành chính chưa? Có nhiều nguyên nhân giải thích các bất cập tại sao các phần mềm ứng dụng cho các cơ quan, tổ chức chưa phát huy hết hiệu quả tại các cơ quan hành chính, nhiều trường hợp phần mềm chưa đáp ứng được yêu cầu người sử dụng mà nhiều công trình nghiên cứu đã chỉ ra: Trình độ người sử dụng, sự quan tâm của người đứng đầu cơ quan, tài chính, mức độ thân thiện của phần mềm, thói quen người sử dụng… Các nguyên nhân này dường như không đề cập đến phân tích hệ thống thông tin được thiết kế và triển khai cho các cơ quan, tổ chức nhà nước đã áp dụng yêu cầu của người sử dụng là các cán bộ hành chính hay chưa. Nói cách khác, hệ thống thông tin đã là một công cụ làm việc hành chính hay chưa. Hệ thống thông tin/ cơ sở dữ liệu/ phần mềm phục vụ nghiệp vụ hành chính của một cơ quan (như quản lý, lưu trữ, xử lý, trao đổi văn bản…) về bản chất là những công cụ được xem là một phần của hoạt động nghiệp vụ hành chính. Do đó phải tuân thủ và hoạt động như một thành phần của hệ thống hành chính, phải đáp ứng đầy đủ các qui định tại các văn bản pháp luật và các qui định do cơ quan có thẩm quyền ban hành. Để giải quyết các bất cập nêu trên tác giả đã nghiên cứu và nhận thấy rằng công nghệ số hóa và tạo lập chỉ mục sẽ giúp cho các cơ quan tổ chức quản lý và trao đổi văn bản điện tử một cách dễ dàng hơn và đặc biệt tuân thủ các quy phạm pháp luật về hành chính. Qua thực tế tại trường Đại học Hải Dương tác giả sẽ đưa ra mô hình quản lý, lưu trữ và trao đổi văn bản của Nhà trường với kết quả đã nghiên cứu được. Đối tượng và phạm vi nghiên cứu Đối tượng nghiên cứu: Công nghệ số hóa văn bản TWAIN, SANE (Scanner Access Now Easy), ứng dụng Greenstone trong việc lưu trữ và tạo lập chỉ mục. Phạm vi nghiên cứu: Luận văn tập trung nghiên cứu cơ sở xử lý, lưu trữ và chuyển giao văn bản tại trường Đại học Hải Dương bằng công nghệ số hóa văn bản TWAIN, SANE và tạo lập chỉ mục sử dụng ứng dụng Greenstone. Kết cấu của luận văn Phần còn lại của luận văn có cấu trúc như sau: Chương 1: Phân tích quá trình số hóa. Chương này trình bày về khái niệm số hóa và tạo lập chỉ số, lý do tại sao cần số hóa, các ưu điểm, nhược điểm của việc số hóa dữ liệu, và đặc biệt là trình bày về công nghệ mã nguồn mở trong sao chụp tài liệu (thư viện Dynamic .Net TWAIN, thư viện mã nguồn mở SANE). Chương 2: Lập metadata và chỉ mục ngược để lưu trữ và tìm kiếm. Chương này trình bày hai giai đoạn tạo lập metadata, metadata tạo lập (mang tính xác thực văn bản), metadata mô tả nội dung (Dublin Core - phục vụ trong quá trình tìm kiếm văn bản), nghiên cứu phương pháp tạo lập chỉ mục ngược để lưu trữ và tìm kiếm. Chương 3: Ứng dụng thử nghiệm. Chương này sẽ đưa ra ứng dụng scan văn bản, ứng dụng Greenstone trong việc lưu trữ, tạo lập chỉ mục văn bản đã được số hóa tại trường Đại học Hải Dương minh họa cho các nghiên cứu ở chương 1 và chương 2. TÀI LIỆU THAM KHẢO Tiếng Việt 1. Bộ Thông tin và Truyền thông (2011), Thông tư Quy định về việc tạo lập, sử dụng và lưu trữ dữ liệu đặc tả trên trang thông tin điện tử hoặc cổng thông tin điện tử của cơ quan nhà nước, Hà Nội. 2. Lã Thị Duyên, Vai trò của công tác lưu trữ trong nền hành chính nhà nước, Cục Văn thư – Lưu trữ Nhà nước, tr.1-4. 3. Chính Phủ (2007), Nghị định 79 về cấp bản sao từ sổ gốc, chứng thực bản sao từ bản chính, chứng thực chữ ký, Hà Nội, tr.4-7. 4. Phạm Minh Quân (2003), Hiểu và sử dụng Dublin Core, Bản tin, Phòng tài nguyên thông tin, Thư viện ĐH Khoa học Tự nhiên, ĐHQG TPHCM, tr.28-30, 32-36. 5. Viện Công nghiệp Phần mềm và Nội dung số Việt Nam – Bộ Thông tin và Truyền thông (2012), Phần mềm và nội dung số, Tạp chí số 3, Hà Nội, tr.32-44. 6. Vũ Thị Thu Trang (2009), Tìm hiểu về phần mềm mã nguồn mở GreenStone, Đồ án tốt nghiệp, ĐH Dân lập Hải Phòng, tr.22-47. Tiếng Anh 7. TWAIN Working Group on July 8 (2009), TWAIN Specification Version 2.1. Website 8. http://www.dynamsoft.com/help/TWAIN/.Net-TWAIN-Scanner/index.htm 9. http://www.greenstone.org 10. http://tailieutonghop.com/free/cac-phuong-phap-lap-chi-muc-tai-lieu-trong-he- tim-kiem-thong-tin_f240-28255.html 11. http://vanthuluutru.dongnai.gov.vn/View.aspx?Id=37 12. http://www.twain.org/ 13. http://www.sane-project.org . Nghiên cứu công nghệ số hóa và tạo lập chỉ số trong hệ quản trị nội dung Nguyễn Thị Hòa Trường Đại học công nghệ. Đại học Quốc gia Hà Nội Luận văn ThS. Công nghệ thông tin. nghiên cứu ở chương 1 và chương 2. Keywords .Công nghệ số hóa; Tạo lập chỉ số; Số hóa; Công nghệ phần mềm; Hệ quản trị nội dung Content. Lý do chọn đề tài Hiện nay công tác quản lý nhà nước tại. Trình bày về khái niệm số hóa và tạo lập chỉ số, lý do tại sao cần số hóa, các ưu điểm, nhược điểm của việc số hóa dữ liệu, và đặc biệt là trình bày về công nghệ mã nguồn mở trong sao chụp tài