10. Nội dung
1.3.3. Xây dựng siêu dữ liệu cho tài liệu số
a. Tạo lập siêu dữ liệu (metadata)
Siêu dữ liệu (metadata) dùng để mô tả tài nguyên thông tin. Thuật ngữ “meta” đề cập đến một cái gì đó có bản chất cơ bản hơn hoặc cao hơn. Vì vậy siêu dữ liệu là dữ liệu về dữ liệu.
Theo tiến sĩ Warwick Cathro (Thư viện Quốc gia Úc) thì “Siêu dữ liệu là những thành phần mô tả tài nguyên thông tin hoặc hỗ trợ thông tin truy cập đến tài nguyên thông tin”. Cụ thể trong tài liệu thì siêu dữ liệu được xác định là “dữ liệu mô tả các thuộc tính của đối tượng thông tin và trao cho các thuộc tính này ý nghĩa, khung cảnh và tổ chức. Siêu dữ liệu còn có thể được định nghĩa là dữ liệu có cấu trúc về dữ liệu”.
Theo Gail Hodge, siêu dữ liệu là “thông tin có cấu trúc mà nó mô tả, giải thích, định vị, hoặc làm cho nguồn tin trở nên dễ tìm kiếm, sử dụng và quản lý hơn. Siêu dữ liệu được hiểu là dữ liệu về dữ liệu hoặc thông tin về thông tin”.
Tóm lại, siêu dữ liệu là thông tin mô tả tài nguyên thông tin.
Đối với tài liệu lưu trữ: sách chỉ dẫn các phông lưu trữ; danh mục hồ sơ; ấn phẩm thông tin giới thiệu tài liệu lưu trữ là một dạng siêu dữ liệu của tài liệu lưu trữ. Thành phần siêu dữ liệu còn có thể được trình bày trong biểu ghi, vì vậy biểu ghi này được coi là biểu ghi siêu dữ liệu (metadata record) của đối tượng được cơ sở dữ liệu quản lý.
Hiện nay, việc xây dựng tiêu chuẩn Việt Nam về dữ liệu đặc tả cũng được dựa trên chuẩn Dublin Core (Công văn 839 ngày 29/09/2011 – Bộ Thông tin và Truyền thông).
Dublin Core Metadata là một trong những sơ đồ mục siêu dữ liệu phổ biến và được nhiều người biết đến. Bộ yếu tố này được hình thành lần đầu tiên vào năm 1995 bởi Sáng kiến Yếu tố Siêu dữ liệu Dublin Core (Dublin Core Metadata Element Initiative). Tập hợp yếu tố siêu dữ liệu này được gọi là “cốt lõi” (core) vì nó được thiết kế đơn giản và chỉ bao gồm 15 yếu tố mô tả cốt lõi nhất (trong khi Marc21 có hơn 200 trường và rất nhiều trường con).
Tháng 9/2001 bộ yếu tố siêu dữ liệu Dublin Core được ban hành thành tiêu chuẩn Mỹ, gọi là tiêu chuẩn “The Dublin Core Metadata Element Set” ANSI/NISO Z39.85-2001.
Bộ yếu tố siêu dữ liệu Dublin Core lúc đầu được thiết kế chủ yếu cho mục đích mô tả. Các yếu tố siêu dữ liệu Dublin Core có những ưu điểm sau:
- Tạo lập và sử dụng dễ dàng: Cho phép người dùng không chuyên có thể tạo các bản ghi mô tả đơn giản cho các tài nguyên thông tin và dễ dàng truy xuất chúng trong môi trường mạng
-Ngữ nghĩa dễ hiểu, sử dụng đơn giản: Việc khai thác thông tin trên mạng internet diện rộng thường gặp trở ngại bởi các thuật ngữ và mô tả thực tế khác nhau. Dublin Core Metadata giúp những người tìm thông tin không chuyên có thể tìm thấy thông tin mà họ quan tâm bằng cách hỗ trợ một tập hợp các phần tử thông dụng mà ngữ nghĩa của chúng được hiểu một cách phổ biến.
- Phạm vi phổ biến: Tập hợp các phần tử Dublin Core Metadata lúc đầu được phát triển bằng tiếng Anh, nhưng hiện đã được cập nhật thêm khoảng 25 ngôn ngữ khác nhau (phiên bản v1.1)
- Tính mở rộng: Các nhà phát triển Dublin Core đã cung cấp một cơ chế cho việc mở rộng tập các phần tử Dublin Core, phục vụ nhu cầu khai thác các tài nguyên bổ sung. Các phần tử Siêu dữ liệu từ tập các phần tử khác nhau có thể được liên kết với Siêu dữ liệu của Dublin Core. Điều này cho phép các tổ chức khác nhau có thể sử dụng các phần tử Dublin Core để mô tả thông tin thích hợp cho việc sử dụng tài nguyên trên Internet.
- Có khả năng liên tác (Interoperability), sử dụng lẫn nhau - Mở rộng thuận lợi
c. Các phương pháp tạo siêu dữ liệu cho tài liệu số
Sau đây là một số phương pháp tạo lập siêu dữ liệu cho tài liệu số: - Tự động (nội bộ)
- Sách hướng dẫn (thường do chuyên gia tạo) - Được tạo trong quá trình số hóa
- Do người dùng đóng góp
Nhìn chung, tất cả các phương pháp tạo lập siêu dữ liệu đều dựa theo trình tự sau:
Bước 1: Khi chuẩn bị mô tả tài liệu, có một số câu hỏi mà chúng ta nên
xem xét:
- Chúng ta đang mô tả những gì ?
- Chúng ta muốn ghi lại loại thông tin nào ?
Để trả lời cho câu hỏi trên, ta có thể trả lời một số câu hỏi cụ thể hơn như: Thông tin nào là cần thiết để xác định tài liệu? Thông tin nào là cần thiết để ngữ cảnh hóa nó một cách chính xác? Làm cách nào để ta muốn mọi người tìm thấy nó hoặc tương tác với nó? Làm cách nào để ta mong đợi họ tìm kiếm hoặc khám phá nó? Ta muốn sử dụng nó như thế nào? Làm thế nào để ta mong đợi những người khác sử dụng nó ngay bây giờ và trong tương lai? Thông tin nào là cần thiết để truyền đạt ai sở hữu nó, ai có thể sử dụng nó và ở mức độ nào?
Bước 2: Khi bắt đầu trả lời các câu hỏi được trình bày trong bước một,
hãy liệt kê ra thông tin mà ta muốn đưa vào dưới dạng điểm dữ liệu, ví dụ: tiêu đề, chủ đề, quyền truy cập, v.v. Ví dụ: nếu ta muốn phủ hình ảnh lên bản đồ, ta sẽ muốn ghi lại dữ liệu tọa độ. Đây là danh sách mong muốn siêu dữ liệu của chúng ta.
Bước 3: Xem xét thông tin mô tả hoặc siêu dữ liệu mà chúng ta có thể
Thông tin về tài liệu của ta có bị thiếu không? Có thông tin nào có thể gây khó khăn cho việc tìm kiếm hoặc tạo ra không?
Bước 4: Tìm "mức tối thiểu vàng" của chúng ta. Xác định thông tin nào là cần thiết để tạo điều kiện cho việc khám phá, xác định và cung cấp đầy đủ ngữ cảnh, nhưng không cần nhiều hơn. Chính xác mức tối thiểu vàng trong không gian dự án của chúng ta là bao nhiêu phụ thuộc vào mục tiêu dự án và nguồn lực sẵn có của chúng ta.
Bước 5: Hoàn thiện danh sách các điểm dữ liệu của chúng ta. Chọn mã
hóa danh sách này dưới dạng lược đồ siêu dữ liệu của riêng chúng ta hoặc ánh xạ nó với một lược đồ hiện có, chẳng hạn như Dublin Core.
Bước 6: Quyết định xem chúng ta có muốn sử dụng các tiêu chuẩn giá
trị dữ liệu (từ vựng được kiểm soát, mã hóa hoặc tiêu chuẩn định dạng) hay không. Nếu vậy, tiêu chuẩn nào sẽ áp dụng cho những lĩnh vực nào? Ngoài ra, chúng ta có thể tạo các tiêu chuẩn giá trị dữ liệu của riêng mình, chẳng hạn như từ vựng chủ đề cụ thể cho chủ đề của chúng ta hoặc bộ sưu tập tài nguyên hoặc danh sách tên được kiểm soát. Ghi lại các quyết định như là các phương pháp hay nhất.
Tiểu kết chương 1: Chương 1 khóa luận tập trung nêu một số khái niệm
cơ bản, các phương pháp quản lý tài liệu lưu trữ, các kỹ thuật số hóa và quản lý tài liệu lưu trữ, một số thiết bị chuyển đồi tài liệu. Khóa luận còn nêu thêm các thuộc tính của tài liệu, các kỹ thuật quét tài liệu và những yếu tố tác động đến chất lượng ảnh số. Bên cạnh đó, khóa luận còn làm rõ về Nhận dạng ký tự quang học (OCR) trong tài liệu số, thư viện nhận dạng Tesseract, siêu dữ liệu (metadata). Khóa luận sẽ đưa ra thực trạng công tác số hóa và quản lý tài liệu lưu trữ ở chương 2.
CHƯƠNG 2
THỰC TRẠNG CÔNG TÁC SỐ HÓA VÀ QUẢN LÝ TÀI LIỆU LƯU TRỮ 2.1. Khảo sát nhu cầu quản lý tài liệu lưu trữ
2.1.1. Nghiên cứu áp dụng bộ công cụ khảo sát
Với phương pháp khảo sát, điều tra, em đã xây dựng phiếu khảo sát và thực hiện phát phiếu khảo sát bằng hình thức trực tuyến để điều tra, khảo sát các vấn đề liên quan đến việc số hóa, quản lý tài liệu lưu trữ của các cá nhân và cơ quan.
2.1.2. Nội dung khảo sát
Để đánh giá thực trạng sử dụng các công cụ số hóa tài liệu, quản lý tài liệu cơ quan ở môi trường trực tuyến tại các cơ quan, tác giả đã tiến hành khảo sát ý kiến của cán bộ quản lý, các chuyên viên dưới hình thức sử dụng phiếu khảo sát trực tuyến. Mẫu phiếu được thiết kế kết cấu 2 phần:
- Phần 1: Thông tin người đánh giá
- Phần 2: Khảo sát dành cho cán bộ quản lý, chuyên viên
Tác giả đã gửi phiếu bằng cách gửi email đến lãnh đạo các đơn vị, các chuyên viên của các cơ quan đang thực hiện công tác quản lý lưu trữ tài liệu, đặc biệt là văn bản hành chính
Nội dung khảo sát tập trung giải quyết các vấn đề: khảo sát mức độ phổ biến của việc sử dụng phần mềm quản lý tài liệu lưu trữ, khảo sát một số công cụ, phương pháp quản lý lưu trữ, thuận lợi khó khăn khi áp dụng phương pháp, công cụ quản lý lưu trữ hiện tại,…
Trong phần 1 của phiếu đánh giá, người làm khảo sát cung cấp một số thông tin về bản thân như là cơ quan, nơi làm việc và chức vụ ở nơi làm việc.
Trong phần 2 của phiếu đánh giá, người làm khảo sát sẽ trả lời các câu hỏi có sẵn nhằm cung cấp thông tin về chuyên môn quản lý tài liệu lưu trữ, số hóa,…của bản thân, cơ quan mà mình đang làm việc.
2.1.3. Kết quả khảo sát
Tổng quan tình hình khảo sát của tác giả thu được như sau: - Tổng số phiếu thu về: 429 phiếu
- Số phiếu tính theo đối tượng khảo sát + Cán bộ quản lý: 36 phiếu
+ Chuyên viên: 217 phiếu + Giảng viên: 176 phiếu
Tỷ lệ ngưởi sử dụng phần mềm Quản lý tài liệu lưu trữ (Văn bản hành chính)
Khi khảo sát về tỷ lệ cán bộ, chuyên viên sử dụng phần mềm Quản lý tài liệu lưu trữ (Văn bản hành chính), tác giả thu được kết quả sau:
Biểu đồ 1 Tỷ lệ người có và không dùng phần mềm Quản lý tài liệu lưu trữ
Kết quả cho thấy có tới 52% cán bộ, chuyên viên sử dụng phần mềm và 48% không sử dụng.
Hình 2 Tên một số phần mềm quản lý văn bản mà người dùng sử dụng
Trong số các cán bộ, chuyên viên có sử dụng một số phần mềm như CloudOffice, V-Office, E-file, HRM,....
Biểu đồ 2 Thời gian thực hiện công việc quản lý văn bản
Có tới 46,2% số người sử dụng phần mềm đã thực hiện công việc từ 5 năm trở lên. Số người dùng thực hiện công việc này trong vòng từ 1 đến 3 năm bằng với số người thực hiện công việc dưới 1 năm và 3 đến 5 năm lần lượt là 15,4% và 23,1 %. Từ đó cho thấy, các cơ quan, đơn vị đã có khoảng thời gian và kinh nghiệm tương đối dài trong công tác sử dụng phần mềm.
Với 48% số người dùng còn lại không sử dụng phần mềm, họ chuyển sang sử dụng một số phương pháp, công cụ thay thế như sau:
Hình 3 Phương pháp, công cụ thay thế khi không sử dụng phần mềm quản lý văn bản
Như vậy, qua khảo sát các đối tượng liên quan đến việc có hay không sử dụng phần mềm Quản lý văn bản hành chính, về cơ bản việc sử dụng phần mềm quản lý văn bản ở một số tổ chức, cơ quan vẫn chưa thực sự phổ biến nhưng cũng có một số cơ quan, tổ chức đã thực hiện công việc này trong một thời gian dài. Các cơ quan, đơn vị không sử dụng phần mềm quản lý, họ thay thế bằng những phương pháp khác như sử dụng excel, google drive, phương pháp thủ công,… Vậy những thuận lợi và bất lợi khi sử dụng phần mềm quản lý và sử dụng những phương pháp, công cụ thay thế là gì? Để trả lời câu hỏi này, tác giả tiếp tục khảo sát ý kiến của các cán bộ quản lý và chuyên viên và đã thu được một số ý kiến như sau:
Thuận lợi và khó khăn khi áp dụng phương pháp, công cụ đang thực hiện
Khảo sát các thuận lợi và khó khăn khi áp dụng phương pháp, công cụ đang thực hiện tác giả nhận được 50 câu trả lời từ phía chuyên viên, giảng viên và cán bộ quản lý. Mặc dù các câu trả lời rất đa dạng và phong phú nhưng có thể nhóm các câu trả lời trong bảng dưới đây:
Thuận lợi Khó khăn
- Nhận văn bản trên hệ thống, phần mềm nhanh
- Chia sẻ được cho nhiều người sử dụng
- Dễ dàng thực hiện công việc như lưu trữ, xử lý văn bản, tìm kiếm văn bản dễ dàng,…
- Truy cập dễ dàng mọi lúc mọi nơi - Dễ dàng nắm được số lượng văn bản đi, văn bản đến
- Chưa mã hóa tài liệu theo tiêu chuẩn - Quên tài khoản, mật khẩu khi đăng nhập vào hệ thống
- Trình độ ứng dụng CNTT của hệ thống cán bộ chưa đồng đều
- Chi phí cao
- Khi mất mạng sẽ không thể truy cập được vào phần mềm
- Không thực sự hữu dụng vì không có khả năng xử lý dữ liệu lớn
- Do nhiều văn bản cần phải lưu trữ nên số lượng ngày càng nhiều và bị chất đầy trong tủ lưu trữ
Bảng 1 Tổng hợp các ý kiến nêu thuận lợi, khó khăn khi áp dụng phương pháp, công cụ đang thực hiện
Khảo sát số lần gặp khó khăn khi tìm kiếm tài liệu cũ trong vòng 1 năm trở lại
Trong quá trình quản lý văn bản, việc thất lạc tài liệu, khó khăn trong tìm kiếm tài liệu là điều không thể tránh khỏi. Để làm đánh giá vấn đề này tác giả đã tiến hành khảo sát các cán bộ, chuyên viên và giảng viên về số lần từng gặp khó khăn trong tìm kiếm tài liệu cũ và kết quả thu được như sau:
Hình 4 Khảo sát số lần gặp khó khăn khi tìm kiếm tài liệu cũ
Kết quả cho thấy có tới 56% người sử dụng chọn là mất dưới 5 lần, 16% chọn mất từ 5 đến 10 lần và 28% chọn mất trên 10 lần. Có thể thấy trong vòng 1 năm ở mỗi tổ chức, đơn vị, số lượng tài liệu bị thất thoát là tương đối lớn, điều này có thể gây ra nhiều hậu quả trong quá trình vận hành của các đơn vị, tổ chức, đặc biệt là các đơn vị, tổ chức có liên quan nhiều đến giấy tờ hành chính.
Một câu hỏi liên quan đến tình trạng tài liệu bị thất lạc cho kết quả như sau:
Hình 5 Một số lý do bị thất lạc
Tác giả nhận được một số lý do như sau: “Vì không có kĩ năng quản lý và lập hồ sơ theo từng công việc” hoặc là ”Quên số và ngày tháng năm của văn bản nên không tìm ra”
Khảo sát tỷ lệ chỉnh lý (sắp xếp) tài liệu của các cơ quan, tổ chức
Khi khảo sát về tỷ lệ cán bộ, chuyên viên, giảng viên thực hiện công việc chỉnh lý tài liệu, tác giả thu được kết quả sau:
Từ khảo sát trên có thể thấy đa số các cơ quan, tổ chức đều thực hiện công việc chỉnh lý tài liệu, tỉ lệ có chỉnh lý chiếm tới 80%. Chỉ có 20% tỉ lệ không chỉnh lý tài liệu.
Khảo sát tỷ lệ thực hiện số hóa tài liệu tại các cơ quan, tổ chức
Sau khi khảo sát tỷ lệ thực hiện số hóa tài liệu tại các cơ quan, tổ chức, tác giả thu được kết quả sau:
Biểu đồ 4 Khảo sát tỷ lệ số hóa ở các mức độ khác nhau
Kết quả cho thấy các cơ quan, tổ chức có thực hiện số hóa tài liệu nhưng chỉ ở mức “Số hóa một phần” chiếm 56%. Tuy nhiên, một số cơ quan, tổ chức