Theo Nghị định 79/2007/NĐ-CP [5], bản sao y văn bản là bản sao công chứng nội dung văn bản. Bản sao do cán bộ được quyền sao y, chịu trách nhiệm về nội dung bản sao trùng với nội dung bản chính. Toàn bộ cán bộ sao y, thời gian sao y được cơ quan sao y xác thực.
Căn cứ theo Nghị định 79, bản sao y bản gốc cần phải chứ đựng các thông tin xác thực, các thông tin xác thực sau sẽ tạo thành Metadata tạo lập (hay còn gọi là Metadata sao y):
1. Cán bộ thực hiện (sao y) 2. Cơ quan sao y
3. Thời điểm sao y
4. Bản sao điện tử nội dung (scan)
Metadata tạo lập sẽ được thiết lập thông qua quá trình scan văn bản. Tức là khi thực hiện scan văn bản, ngoài nội dung văn bản đã được scan thì chúng ta cần bổ sung 3 yếu tố đầu tiên trên.
2.3. Metadata tìm kiếm (Dublin Core)
Vấn đề số hóa văn bản với phương pháp quét ảnh đã được thực hiện phổ biến từ lâu. Tuy nhiên, việc số hóa chỉ dừng lại ở việc chuyển các văn bản giấy thành file ảnh quét mà không có thêm các thông tin nào khác. Các file ảnh quét này, sau đó, thường được lưu trữ trên file hệ thống mà không có bất cứ hình thức quản lý nào khác. Như
Văn bản gốc Văn bản điện tử sao y
Hệ thống tin học hành chính
vậy, việc khai thác và lưu trữ sẽ rất kém hiệu quả.
Các phần mềm quét ảnh (đi kèm với thiết bị, hoặc thuộc hãng thứ ba) có khả năng quét ảnh rất tốt. Tuy nhiên, các phần mềm này thường cũng chỉ cho ra các file ảnh quét (với nhiều định dạng khác nhau) mà chưa hỗ trợ việc tạo lập metadata trong quá trình quét.
Để đảm bảo khả năng quản lý, khai thác và lưu trữ các file ảnh quét được quét từ các văn bản giấy, thì các phần mềm số hóa phải có khả năng tạo lập metadata cho tài liệu được quét vào (tự động hoặc thông qua nhập liệu). Các thông tin metadata này phải được tạo lập ra cùng với file ảnh quét và được lưu trữ cùng với file ảnh quét.
2.3.1. Tạo lập metadata
Việc tạo lập metadata sẽ được thực hiện tự động và thông qua nhập liệu.
Đầu tiên, ngời dùng phải xác định loại tài liệu được quét vào để lựa chọn mẫu metadata (template) phù hợp.
File metadata cho tài liệu sẽ được tạo ra từ file template. Đồng thời các thông tin đặc tả kỹ thuật của file ảnh quét (ví dụ: kích thước, định dạng, số trang...) sẽ được tự động thu thập và ghi các trường tương ứng trong file metadata.
Đồng thời dựa trên file metadata, form nhập liệu sẽ được tạo để người dùng nhập thêm các thông tin đặc tả khác cùng tài liệu (ví dụ: Tiêu đề, ngày tháng …). Sau khi hoàn tất nhập liệu, các thông tin này sẽ được ghi vào các trường tương ứng trong file metadata.
Kết thúc ta có file metadata chứa các thông tin mô tả hoàn chỉnh cho tài liệu.
2.3.2. Lựa chọn chuẩn dữ liệu đặc tả
Dữ liệu đặc tả (Metadata) là thông tin mô tả các đặc tính của dữ liệu như nội dung, định dạng, chất lượng, điều kiện và các đặc tính khác nhằm tạo thuận lợi cho quá trình tìm kiếm, truy nhập, quản lý và lưu trữ dữ liệu.
Hiện nay, trên thế giới có rất nhiều chuẩn dữ liệu đặc tả đang được phát triển để đáp ứng các yêu cầu trên như là tiêu chuẩn trên toàn ngành, như khoa học thư viện, giáo dục, lưu trữ, thương mại điện tử, nghệ thuật. Sau đây là một số tiêu chuẩn dữ liệu đặc tả hiện có:
MARC (MAchine Readable Cataloging): Tiêu chuẩn để trình bày và trao đổi dữ liệu thư mục và các thông tin có liên quan theo một định dạng mà máy tính có thể đọc được.
METS (Metadata Encoding and Transmission Standard): Mã hóa dữ liệu đặc tả và Chuẩn truyền phát.
MODS (Metadata Object Description Schema): Hệ thống miêu tả đối tượng dữ liệu đặc tả.
TEI (The Text Encoding Initiative): Sáng kiến mã hóa văn bản. EAD (The Encoded Archival Description): Miêu tả lưu trữ mã hóa.
MPEG-7 quy định cụ thể một bộ mô tả để mô tả các loại hình thông tin đa phương tiện và được phát triển bởi Moving Picture Experts Group.
Metadata for Datasets - Dữ liệu đặc tả cho tập dữ liệu.
Ngoài ra còn có các tiêu chuẩn do tổ chức ISO (Tổ chức tiêu chuẩn hoá quốc tế - là tổ chức lớn nhất thế giới trong lĩnh vực phát triển và ban hành các tiêu chuẩn quốc tế) ban hành:
ISO Standard 15836:2009 - Chuẩn Dublin Core
ISO 23081 - đặc tả kỹ thuật xác định dữ liệu đặc tả cần thiết để quản lý hồ sơ. ISO/IEC 11179 Tiêu chuẩn mô tả dữ liệu đặc tả và các hoạt động cần thiết để quản lý các thành tố dữ liệu để tạo ra một sự hiểu biết chung về dữ liệu trên toàn bộ tổ chức và giữa các tổ chức với nhau.
ISO 2709 các mô tả thư mục, được định dạng cho trao đổi thông tin thư mục trên băng từ.
Trong các hệ thống tiêu chuẩn trên, thì chuẩn Dublin Core được sử dụng rộng rãi tại nhiều quốc gia như là phần cơ bản cho dữ liệu đặc tả của nước mình, ví dụ như tại các nước Canada, Australia, NewZealand, Denmark, Finland, Ireland, UK, …
Hiện nay, việc xây dựng quy chuẩn Việt Nam về dữ liệu đặc tả cũng được dựa trên chuẩn Dublin Core (Công văn 839 ngày 29/9/2011 – Bộ thông tin và truyền
thông).
Chuẩn Dublin Core [1, 2, 4] là chuẩn dùng để mô tả dữ liệu trong các dữ liệu đặc tả nhằm khai thác các tài liệu trong thư viện và trên các web site thông qua mạng Internet. Chuẩn đặc tả dữ liệu Dublin Core bao gồm 15 nhóm thành tố được thiết lập từ các cuộc hội thảo mang tầm cỡ quốc tế và mang ý nghĩa kết hợp của các ngành khoa học: thư viện, tin học, bảo tàng, mã hoá văn bản và các lĩnh vực khác có liên quan.
Bộ thành tố dữ liệu đặc tả Dublin Core lúc đầu được thiết kế chủ yếu cho mục đích mô tả. Các thành tố dữ liệu đặc tả Dublin Core có những ưu điểm sau:
Tạo lập và sử dụng dễ dàng: cho phép những người không chuyên nghiệp có thể tạo các bản ghi mô tả đơn giản cho các tài nguyên thông tin và truy xuất chúng trên môi trường mạng một cách dễ dàng.
Ngữ nghĩa dễ hiểu, sử dụng đơn giản: Việc khai thác thông tin trên mạng internet diện rộng thường gặp trở ngại bởi những sự khác nhau về thuật ngữ và sự mô tả thực tế. Chuẩn Dublin Core giúp những người dò tìm thông tin không chuyên có thể tìm thấy vấn đề mình quan tâm bằng cách hỗ trợ một tập hợp các phần tử thông dụng mà ngữ nghĩa của chúng được hiểu phổ biến.
Phạm vi phổ biến: Tập hợp các phần tử Dublin Core lúc đầu được phát triển bằng tiếng Anh, nhưng hiện nay nó được cập nhật thêm với khoảng 25 ngôn ngữ khác nhau.
Tính mở rộng: Những nhà phát triển Dublin Core đã cung cấp một cơ chế cho việc mở rộng tập các phần tử Dublin Core, phục vụ nhu cầu khai thác các tài nguyên bổ sung. Các phần tử dữ liệu đặc tả từ những tập các phần tử khác nhau có thể liên kết với các tập phần tử của Dublin Core. Điều này cho phép các tổ chức khác nhau có thể dùng các phần tử Dublin Core để mô tả thông tin thích hợp cho việc sử dụng tài nguyên trên Internet.
Giúp nâng cao độ chính xác của định chỉ số.
Có khả năng liên tác (Interoperability), sử dụng lẫn nhau. Mở rộng thuận lợi
Mỗi thành tố Dublin Core được đặt tên (Element Name) và quy định nhãn (label) để sử dụng ghi vào trong thẻ meta. Mỗi thành tố được định nghĩa cụ thể để mô tả đối tượng và có chú thích rõ ràng [4].
Bảng 2.1: Các thành tố đặc tả dữ liệu Dublin Core
S TT
Yếu tố dữ liệu đặc tả
Quy định áp dụng
Tiếng Việt Tiếng Anh
1 Tiêu đề Title Bắt buộc sử dụng
2 Người tạo Creator Bắt buộc sử dụng
3 Thời gian Date Bắt buộc sử dụng
4 Cơ quan ban hành Publisher Bắt buộc sử dụng 5 Mô tả Description Bắt buộc sử dụng 6 Định danh Identifier Bắt buộc sử dụng 7 Ngôn ngữ Language Khuyến nghị sử dụng
8 Nguồn Source Khuyến nghị sử dụng
9 Người cộng tác Contributor Khuyến nghị sử dụng 10 Chủ đề Subject Khuyến nghị sử dụng 11 Phạm vi Coverage Tùy chọn sử dụng
12 Dạng Type Tùy chọn sử dụng 13 Định dạng Format Tùy chọn sử dụng 14 Quan hệ Relation Tùy chọn sử dụng 15 Các quyền Rights Tùy chọn sử dụng
Mô tả từng yếu tố đặc tả:
- Tiêu đề (Title)
Tên yếu tố Title
Định nghĩa Thông tin về tên gọi của dữ liệu được mô tả.
Ví dụ <meta name=”DC.Title” content=”Bộ thông tin và Truyền thông ban hành Thông tư quy định về sử dụng dữ liệu đặc tả”> - Người tạo (Creator)
Tên yếu tố Creator
Định nghĩa Thông tin về cá nhân (một hoặc nhiều người) trực tiếp tham gia vào quá trình tạo lập dữ liệu được mô tả.
Ví dụ <meta name=”DC.Creator” content=”Nguyễn Văn A”> - Thời gian (Date)
Tên yếu tố Date
Định nghĩa Thông tin về thời gian gắn với các sự kiện liên quan đến dữ liệu được mô tả.
Khuyến nghị việc mã hóa giá trị ngày tháng theo tiêu chuẩn ISO 8601 [W3CDTF] bao gồm ngày, tháng, năm, giờ, phút, giây thao dạng YYYY-MM-DDTHH-MM-SS
Ví dụ <meta name=”DC.Date” scheme= “W3CDTF” content=”2013-05- 15T09-20-35”>
Các yếu tố con có thể sử dụng cùng yếu tố thời gian: 1. Date.Created Ngày tạo thông tin.
2. Date.Modified Ngày sửa đổi thông tin. 3. Date.Valid Ngày thông tin có hiệu lực.
4. Date.Issued Ngày phát hành chính thức (công bố) thông tin. - Cơ quan ban hành (Publisher)
Tên yếu tố Publisher
Định nghĩa Thông tin về cơ quan, tổ chức có liên quan đến việc ban hành, xuất bản, công bố nội dung của dữ liệu được mô tả.
Ví dụ <meta name=”DC.Publisher” content=”Cục ứng dụng công nghệ thông tin”>
- Mô tả (Description)
Tên yếu tố Description
Định nghĩa Thông tin tóm tắt về nội dung dữ liệu được mô tả.
Ví dụ <meta name=”DC.Description” content=”Xin ý kiến về dự thảo Thông tư quy định về sử dụng dữ liệu đặc tả cho cổng thông tin điện tử của cơ quan nhà nước”>
- Định danh (Identifier)
Tên yếu tố Identifier
Định nghĩa Thông tin tham chiếu duy nhất tới tài liệu được mô tả trong một bối cảnh cụ thể.
Thông thường giá trị URL (Uniform Resource Identifier) bao gồm URL (Uniform Resource Locator), DOI (Dgital Object Identifier) và ISBN (International Standard Book Number).
Ví dụ <meta name = ”DC.Identifier”
content=”http://diap.gov.vn/van_ban_quy_pham_phap_luat”> - Ngôn ngữ (Language)
Tên yếu tố Language
Sử dụng 3 chữ cái để mô tả theo chuẩn ISO 639-2. Ví dụ <meta name=”DC.Language” content=”vie”>
- Nguồn (Source)
Tên yếu tố Source
Định nghĩa Thông tin về xuất xứ, nguồn gốc, nơi truy cập,v.v… của dữ liệu được mô tả.
Ví dụ <meta name=”DC.Source” content=”www.chinhphu.vn”> - Người cộng tác (Contributor)
Tên yếu tố Contributor
Định nghĩa Thông tin về cá nhân (một hoặc nhiều người) tham gia đóng góp vào quá trình tạo lập dữ liệu được mô tả.
Ví dụ <meta name=”DC.Contributor” content=”Nguyễn Văn B”> - Chủ đề (Subject)
Tên yếu tố Subject
Định nghĩa Thông tin về tổng quát, ngắn gọn về nội dung của dữ liệu được mô tả.
Ví dụ <meta name=”DC.Subject” content=”Tin tức – Sự kiện”> - Phạm vi (Coverage)
Tên yếu tố Coverage
Định nghĩa Thông tin về quy mô, phạm vi hoặc mức độ bao quát của dữ liệu được mô tả.
Thông thường bao gồm vị trí không gian, khoảng thời gian. Ví dụ <meta name=”DC.Coverage” content=”Việt Nam”>
- Dạng (Type)
Định nghĩa Thông tin về bản chất, trạng thái nguyên thủy hoặc thể loại bao gồm các thuật ngữ miêu tả việc phân loại chung, chức năng của dữ liệu được mô tả.
Ví dụ <meta name=”DC.Type” content=”Text”> - Định dạng (Format)
Tên yếu tố Format
Định nghĩa Thông tin về định dạng vật lý của dữ liệu được mô tả. Ví dụ <meta name=”DC.Format” content=”text/html”>
- Quan hệ (Relation)
Tên yếu tố Relation
Định nghĩa Thông tin về liên quan giữa dữ liệu được mô tả với các dữ liệu khác. Thông thường là nhận biết nguồn liên quan bằng xâu ký tự hoặc số phù hợp với hệ thống nhận biết chính thức.
Ví dụ <meta name=”DC.Relation” content=”Nghị định số 43/2011/NĐ- CP ngày 13/6/2011 của Chính phủ”>
- Các quyền (Rights)
Tên yếu tố Rights
Định nghĩa Thông tin về các quyền sở hữu, truy xuất, chỉnh sửa,… liên quan đến dữ liệu được mô tả.
Ví dụ <meta name=”DC.Rights” content=”Được truy cập nếu là thành viên”>
2.4. Phƣơng pháp lập chỉ mục ngƣợc để tìm kiếm tài liệu
Để thực hiện việc tìm kiếm theo nội dung tệp văn bản hoặc theo các trường của các tệp metadata, cần lập chỉ mục cho các têp văn bản và chỉ mục ngược cho các trường metadata. Việc lập chỉ mục này sẽ được diễn ra thường xuyên mỗi khi cập nhật thêm các tệp văn bản vào Kho lưu trữ dữ liệu hoặc khi metadata của văn bản bị thay đổi.
Lập chỉ mục ngược [10] để tìm kiếm dữ liệu có nguyên tắc như máy tìm kiếm. Dưới đây trình bày nguyên tắc lập chỉ mục ngược theo cách của máy tìm kiếm lucene:
- Chỉ mục ngược trả lời cho câu hỏi “Những tài liệu nào chứa từ X”. - Ý tưởng: Với mỗi từ t, lưu một danh sách những tài liệu (DocID) chứa t. - Việc tạo ra và duy trì một chỉ mục đảo ngược (inverted index) là công việc trọng tâm khi xây dựng một công cụ tìm kiếm từ khóa có hiệu quả. Để tạo chỉ mục cho một tài liệu, trước tiên ta phải quét qua toàn bộ tài liệu đó để tạo ra một danh sách các postings. Các postings mô tả những lần xuất hiện của một từ ở trong một tài liệu; thông thường một posting là một bộ giá trị bao gồm: <từ, khóa của tài liệu chứa từ, [(các) vị trí/tần số của từ ở trong tài liệu]> (<word, document-id>)