Giới thiệu về metadata và chuẩn DublinCore

Một phần của tài liệu Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng việt của hệ thống FSCANNER (Trang 36)

Metadata – dữ liệu đặc tả: là những thông tin mô tả các đặc tính của dữ liệu như nội dung, định dạng, chất lượng, điều kiện và các đặc tính khác nhằm tạo thuận lợi cho quá trình tìm kiếm, truy cập, quản lý và lưu trữ dữ liệu [6].

Ví dụ trích rút metadata của thông tư số 24 của Bộ Thông Tin và Truyền thông ban hành ngày 20/9/2011 như ở bảng 2.6:

Bảng 2.6. Một ví dụ trích rút metadata

Số/Kí hiệu 24/2011/TT-BTTTT Ngày ban hành 20/9/2011

Người ký Thứ trưởng Nguyễn Minh Hồng

Trích yếu Quy định về việc tạo lập, sử dụng và lưu trữ dữ liệu đặc tả trên trang thông tin điện tử hoặc cổng thông tin điện tử của cơ quan nhà nước

Cơ quan ban hành

Bộ Thông Tin và Truyền Thông

Phân loại Thông tư

Dublin Core Metadata Element Set [18] – (Bộ yếu tố siêu dữ liệu Dublin Core) được ban hành thành tiêu chuẩn Mỹ tháng 9/2001 với tên tiêu chuẩn là ANSI/NISO Z39.85-2001- là tập hợp 15 yếu tố cốt lõi nhất để mô tả tài nguyên. Dublin Core là chuẩn dùng để mô tả dữ liệu trong các thẻ siêu dữ liệu nhằm khai thác các tài liệu trong thư viện và trên các web thông qua internet. Mỗi yếu tố Dublin Core được đặt tên (Element Name) và quy định nhãn (label) để sử dụng ghi vào trong thẻ meta. Mỗi yếu tố được định nghĩa cụ thể để mô tả đối tượng và có chú thích rõ ràng. Dublin core metadata bao gồm 15 yếu tố cơ bản thể hiện ở bảng 2.7.

Bảng 2.7. 15 yếu tố của Dublin Core Metadata.

STT Tên yếu tố Chú thích

1 Title Nhan đề (Title): Nhan đề của tài liệu

2 Creator Tác giả (Creator): Tác giả của tài liệu, bao gồm cả tác giả cá nhân và tác giả tập thể

3 Subject Chủ đề (Subject): Chủ đề tài liệu đề cập dùng để phân loại tài liệu. Có thể thể hiện bằng từ, cụm từ/(Khung chủ đề), hoặc chỉ số phân loại/ (Khung phân loại)

4 Description Tóm tắt (Description): Tóm tắt, mô tả nội dung tài liệu. Có thể bao gồm tóm tắt, chú thích, mục lục, đoạn văn bản để làm rõ nội dung...

5 Publisher Nhà xuất bản (Publisher): Nhà xuất bản, nơi ban hành tài liệu có thể là tên cá nhân, tên cơ quan, tổ chức, dịch vụ... 6 Contributor Tác giả phụ (Contributor): Tên những người cùng tham gia

cộng tác đóng góp vào nội dung tài liệu, có thể là cá nhân, tổ chức...

7 Date Ngày tháng (Date): Ngày, tháng ban hành tài liệu. Khuyến nghị sử dụng chuẩn ISO 8601 dạng YYYY – MM - DD (http://www.w3.org/TR/NOTE-datetime)

8 Type Loại (kiểu) (Type): Mô tả bản chất của tài liệu. Dùng các thuật ngữ mô tả phạm trù kiểu: trang chủ, bài báo, báo cáo, từ điển...

9 Format Khổ mẫu (Format): Mô tả sự trình bày vật lý của tài liệu, có thể bao gồm; vật mang tin, kích cỡ độ dài, kiểu dữ liệu (.doc, .html, .jpg, xls, phần mềm....)

Tham khảo chuẩn MIME tại:

http://www.utoronto.ca/webdocs/HTMLdocs/Book/Book- 3ed/appb/mimetype.html

10 Identifier Định danh (Identifier): Các thông tin về định danh tài liệu, các nguồn tham chiếu đến, hoặc chuỗi ký tự để định vị tài nguyên: URL (Uniform Resource Locators) (bắt đầu bằng http://), URN (Uniform Resource Name), ISBN

(International Standard Book Number), ISSN (International Standard Serial Number), SICI (Serial Item & Contribution Identifier), ...

11 Resource Nguồn (Resource): Các thông tin về xuất xứ của tài liệu, tham chiếu đến nguồn mà tài liệu hiện mô tả được trích ra/tạo ra, nguồn cũng có thể là: đường dẫn (URL), URN, ISBN, ISSN...

12 Language Ngôn ngữ (Language): Các thông tin về ngôn ngữ, mô tả ngôn ngữ chính của tài liệu: Có thể sử dụng chuẩn ISO 639

( tham khảo

http://www.w3.org/WAI/ER/IG/ert/iso639.htm) để mô tả ngôn ngữ cho tài liệu

13 Relation Liên kết (Relation): Mô tả các thông tin liên quan đến tài liệu khác. có thể dùng đường dẫn (URL), URN, ISBN, ISSN...

14 Coverage Diện bao quát (Coverage): Các thông tin liên quan đến phạm vi, quy mô hoặc mức độ bao quát của tài liệu. Phạm vi đó có thể là địa điểm, không gian hoặc thời gian, tọa độ... 15 Right Bản quyền (Right): Các thông tin liên quan đến bản quyền (adsbygoogle = window.adsbygoogle || []).push({});

của tài liệu

Một phần của tài liệu Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng việt của hệ thống FSCANNER (Trang 36)