Dữ liệu đặc tả (Metadata) là thông tin mô tả các đặc tính của dữ liệu như nội dung, định dạng, chất lượng, điều kiện và các đặc tính khác nhằm tạo thuận lợi cho quá trình tìm kiếm, truy nhập, quản lý và lưu trữ dữ liệu.
Hiện nay, trên thế giới có rất nhiều chuẩn dữ liệu đặc tả đang được phát triển để đáp ứng các yêu cầu trên như là tiêu chuẩn trên toàn ngành, như khoa học thư viện, giáo dục, lưu trữ, thương mại điện tử, nghệ thuật. Sau đây là một số tiêu chuẩn dữ liệu đặc tả hiện có:
MARC (MAchine Readable Cataloging): Tiêu chuẩn để trình bày và trao đổi dữ liệu thư mục và các thông tin có liên quan theo một định dạng mà máy tính có thể đọc được.
METS (Metadata Encoding and Transmission Standard): Mã hóa dữ liệu đặc tả và Chuẩn truyền phát.
MODS (Metadata Object Description Schema): Hệ thống miêu tả đối tượng dữ liệu đặc tả.
TEI (The Text Encoding Initiative): Sáng kiến mã hóa văn bản. EAD (The Encoded Archival Description): Miêu tả lưu trữ mã hóa.
MPEG-7 quy định cụ thể một bộ mô tả để mô tả các loại hình thông tin đa phương tiện và được phát triển bởi Moving Picture Experts Group.
Metadata for Datasets - Dữ liệu đặc tả cho tập dữ liệu.
Ngoài ra còn có các tiêu chuẩn do tổ chức ISO (Tổ chức tiêu chuẩn hoá quốc tế - là tổ chức lớn nhất thế giới trong lĩnh vực phát triển và ban hành các tiêu chuẩn quốc tế) ban hành:
ISO Standard 15836:2009 - Chuẩn Dublin Core
ISO 23081 - đặc tả kỹ thuật xác định dữ liệu đặc tả cần thiết để quản lý hồ sơ. ISO/IEC 11179 Tiêu chuẩn mô tả dữ liệu đặc tả và các hoạt động cần thiết để quản lý các thành tố dữ liệu để tạo ra một sự hiểu biết chung về dữ liệu trên toàn bộ tổ chức và giữa các tổ chức với nhau.
ISO 2709 các mô tả thư mục, được định dạng cho trao đổi thông tin thư mục trên băng từ.
Trong các hệ thống tiêu chuẩn trên, thì chuẩn Dublin Core được sử dụng rộng rãi tại nhiều quốc gia như là phần cơ bản cho dữ liệu đặc tả của nước mình, ví dụ như tại các nước Canada, Australia, NewZealand, Denmark, Finland, Ireland, UK, …
Hiện nay, việc xây dựng quy chuẩn Việt Nam về dữ liệu đặc tả cũng được dựa trên chuẩn Dublin Core (Công văn 839 ngày 29/9/2011 – Bộ thông tin và truyền
thông).
Chuẩn Dublin Core [1, 2, 4] là chuẩn dùng để mô tả dữ liệu trong các dữ liệu đặc tả nhằm khai thác các tài liệu trong thư viện và trên các web site thông qua mạng Internet. Chuẩn đặc tả dữ liệu Dublin Core bao gồm 15 nhóm thành tố được thiết lập từ các cuộc hội thảo mang tầm cỡ quốc tế và mang ý nghĩa kết hợp của các ngành khoa học: thư viện, tin học, bảo tàng, mã hoá văn bản và các lĩnh vực khác có liên quan.
Bộ thành tố dữ liệu đặc tả Dublin Core lúc đầu được thiết kế chủ yếu cho mục đích mô tả. Các thành tố dữ liệu đặc tả Dublin Core có những ưu điểm sau:
Tạo lập và sử dụng dễ dàng: cho phép những người không chuyên nghiệp có thể tạo các bản ghi mô tả đơn giản cho các tài nguyên thông tin và truy xuất chúng trên môi trường mạng một cách dễ dàng.
Ngữ nghĩa dễ hiểu, sử dụng đơn giản: Việc khai thác thông tin trên mạng internet diện rộng thường gặp trở ngại bởi những sự khác nhau về thuật ngữ và sự mô tả thực tế. Chuẩn Dublin Core giúp những người dò tìm thông tin không chuyên có thể tìm thấy vấn đề mình quan tâm bằng cách hỗ trợ một tập hợp các phần tử thông dụng mà ngữ nghĩa của chúng được hiểu phổ biến.
Phạm vi phổ biến: Tập hợp các phần tử Dublin Core lúc đầu được phát triển bằng tiếng Anh, nhưng hiện nay nó được cập nhật thêm với khoảng 25 ngôn ngữ khác nhau.
Tính mở rộng: Những nhà phát triển Dublin Core đã cung cấp một cơ chế cho việc mở rộng tập các phần tử Dublin Core, phục vụ nhu cầu khai thác các tài nguyên bổ sung. Các phần tử dữ liệu đặc tả từ những tập các phần tử khác nhau có thể liên kết với các tập phần tử của Dublin Core. Điều này cho phép các tổ chức khác nhau có thể dùng các phần tử Dublin Core để mô tả thông tin thích hợp cho việc sử dụng tài nguyên trên Internet.
Giúp nâng cao độ chính xác của định chỉ số.
Có khả năng liên tác (Interoperability), sử dụng lẫn nhau. Mở rộng thuận lợi
Mỗi thành tố Dublin Core được đặt tên (Element Name) và quy định nhãn (label) để sử dụng ghi vào trong thẻ meta. Mỗi thành tố được định nghĩa cụ thể để mô tả đối tượng và có chú thích rõ ràng [4].
Bảng 2.1: Các thành tố đặc tả dữ liệu Dublin Core
S TT
Yếu tố dữ liệu đặc tả
Quy định áp dụng Tiếng Việt Tiếng Anh
1 Tiêu đề Title Bắt buộc sử dụng
2 Người tạo Creator Bắt buộc sử dụng
3 Thời gian Date Bắt buộc sử dụng
4 Cơ quan ban hành Publisher Bắt buộc sử dụng 5 Mô tả Description Bắt buộc sử dụng 6 Định danh Identifier Bắt buộc sử dụng 7 Ngôn ngữ Language Khuyến nghị sử dụng
8 Nguồn Source Khuyến nghị sử dụng
9 Người cộng tác Contributor Khuyến nghị sử dụng 10 Chủ đề Subject Khuyến nghị sử dụng 11 Phạm vi Coverage Tùy chọn sử dụng
12 Dạng Type Tùy chọn sử dụng 13 Định dạng Format Tùy chọn sử dụng 14 Quan hệ Relation Tùy chọn sử dụng 15 Các quyền Rights Tùy chọn sử dụng
Mô tả từng yếu tố đặc tả:
- Tiêu đề (Title)
Tên yếu tố Title
Định nghĩa Thông tin về tên gọi của dữ liệu được mô tả.
Ví dụ <meta name=”DC.Title” content=”Bộ thông tin và Truyền thông ban hành Thông tư quy định về sử dụng dữ liệu đặc tả”> - Người tạo (Creator)
Tên yếu tố Creator
Định nghĩa Thông tin về cá nhân (một hoặc nhiều người) trực tiếp tham gia vào quá trình tạo lập dữ liệu được mô tả.
Ví dụ <meta name=”DC.Creator” content=”Nguyễn Văn A”> - Thời gian (Date)
Tên yếu tố Date
Định nghĩa Thông tin về thời gian gắn với các sự kiện liên quan đến dữ liệu được mô tả.
Khuyến nghị việc mã hóa giá trị ngày tháng theo tiêu chuẩn ISO 8601 [W3CDTF] bao gồm ngày, tháng, năm, giờ, phút, giây thao dạng YYYY-MM-DDTHH-MM-SS
Ví dụ <meta name=”DC.Date” scheme= “W3CDTF” content=”2013-05- 15T09-20-35”>
Các yếu tố con có thể sử dụng cùng yếu tố thời gian: 1. Date.Created Ngày tạo thông tin.
2. Date.Modified Ngày sửa đổi thông tin. 3. Date.Valid Ngày thông tin có hiệu lực.
4. Date.Issued Ngày phát hành chính thức (công bố) thông tin. - Cơ quan ban hành (Publisher)
Tên yếu tố Publisher
Định nghĩa Thông tin về cơ quan, tổ chức có liên quan đến việc ban hành, xuất bản, công bố nội dung của dữ liệu được mô tả.
Ví dụ <meta name=”DC.Publisher” content=”Cục ứng dụng công nghệ thông tin”>
- Mô tả (Description)
Tên yếu tố Description
Định nghĩa Thông tin tóm tắt về nội dung dữ liệu được mô tả.
Ví dụ <meta name=”DC.Description” content=”Xin ý kiến về dự thảo Thông tư quy định về sử dụng dữ liệu đặc tả cho cổng thông tin điện tử của cơ quan nhà nước”>
- Định danh (Identifier)
Tên yếu tố Identifier
Định nghĩa Thông tin tham chiếu duy nhất tới tài liệu được mô tả trong một bối cảnh cụ thể.
Thông thường giá trị URL (Uniform Resource Identifier) bao gồm URL (Uniform Resource Locator), DOI (Dgital Object Identifier) và ISBN (International Standard Book Number).
Ví dụ <meta name = ”DC.Identifier”
content=”http://diap.gov.vn/van_ban_quy_pham_phap_luat”> - Ngôn ngữ (Language)
Tên yếu tố Language
Sử dụng 3 chữ cái để mô tả theo chuẩn ISO 639-2. Ví dụ <meta name=”DC.Language” content=”vie”>
- Nguồn (Source)
Tên yếu tố Source
Định nghĩa Thông tin về xuất xứ, nguồn gốc, nơi truy cập,v.v… của dữ liệu được mô tả.
Ví dụ <meta name=”DC.Source” content=”www.chinhphu.vn”> - Người cộng tác (Contributor)
Tên yếu tố Contributor
Định nghĩa Thông tin về cá nhân (một hoặc nhiều người) tham gia đóng góp vào quá trình tạo lập dữ liệu được mô tả.
Ví dụ <meta name=”DC.Contributor” content=”Nguyễn Văn B”> - Chủ đề (Subject)
Tên yếu tố Subject
Định nghĩa Thông tin về tổng quát, ngắn gọn về nội dung của dữ liệu được mô tả.
Ví dụ <meta name=”DC.Subject” content=”Tin tức – Sự kiện”> - Phạm vi (Coverage)
Tên yếu tố Coverage
Định nghĩa Thông tin về quy mô, phạm vi hoặc mức độ bao quát của dữ liệu được mô tả.
Thông thường bao gồm vị trí không gian, khoảng thời gian. Ví dụ <meta name=”DC.Coverage” content=”Việt Nam”>
- Dạng (Type)
Định nghĩa Thông tin về bản chất, trạng thái nguyên thủy hoặc thể loại bao gồm các thuật ngữ miêu tả việc phân loại chung, chức năng của dữ liệu được mô tả.
Ví dụ <meta name=”DC.Type” content=”Text”> - Định dạng (Format)
Tên yếu tố Format
Định nghĩa Thông tin về định dạng vật lý của dữ liệu được mô tả. Ví dụ <meta name=”DC.Format” content=”text/html”>
- Quan hệ (Relation)
Tên yếu tố Relation
Định nghĩa Thông tin về liên quan giữa dữ liệu được mô tả với các dữ liệu khác. Thông thường là nhận biết nguồn liên quan bằng xâu ký tự hoặc số phù hợp với hệ thống nhận biết chính thức.
Ví dụ <meta name=”DC.Relation” content=”Nghị định số 43/2011/NĐ- CP ngày 13/6/2011 của Chính phủ”>
- Các quyền (Rights)
Tên yếu tố Rights
Định nghĩa Thông tin về các quyền sở hữu, truy xuất, chỉnh sửa,… liên quan đến dữ liệu được mô tả.
Ví dụ <meta name=”DC.Rights” content=”Được truy cập nếu là thành viên”>
2.4. Phƣơng pháp lập chỉ mục ngƣợc để tìm kiếm tài liệu
Để thực hiện việc tìm kiếm theo nội dung tệp văn bản hoặc theo các trường của các tệp metadata, cần lập chỉ mục cho các têp văn bản và chỉ mục ngược cho các trường metadata. Việc lập chỉ mục này sẽ được diễn ra thường xuyên mỗi khi cập nhật thêm các tệp văn bản vào Kho lưu trữ dữ liệu hoặc khi metadata của văn bản bị thay đổi.
Lập chỉ mục ngược [10] để tìm kiếm dữ liệu có nguyên tắc như máy tìm kiếm. Dưới đây trình bày nguyên tắc lập chỉ mục ngược theo cách của máy tìm kiếm lucene:
- Chỉ mục ngược trả lời cho câu hỏi “Những tài liệu nào chứa từ X”. - Ý tưởng: Với mỗi từ t, lưu một danh sách những tài liệu (DocID) chứa t. - Việc tạo ra và duy trì một chỉ mục đảo ngược (inverted index) là công việc trọng tâm khi xây dựng một công cụ tìm kiếm từ khóa có hiệu quả. Để tạo chỉ mục cho một tài liệu, trước tiên ta phải quét qua toàn bộ tài liệu đó để tạo ra một danh sách các postings. Các postings mô tả những lần xuất hiện của một từ ở trong một tài liệu; thông thường một posting là một bộ giá trị bao gồm: <từ, khóa của tài liệu chứa từ, [(các) vị trí/tần số của từ ở trong tài liệu]> (<word, document-id>)
Hình 2.3: Danh sách các posting cho từ Brutus, Caesar, Calpurnia 2.4.1. Đánh chỉ mục
Chỉ mục lưu trữ các thông tin thống kê về các từ chủ chốt để việc tìm kiếm dựa trên từ chủ chốt được hiệu quả hơn. Chỉ mục của Lucene thuộc về họ các chỉ mục có tên gọi là chỉ mục đảo ngược bởi vì nó có thể liệt kê ra theo từng từ chủ chốt các tài liệu có chứa nó. Điều này ngược lại theo quan hệ tự nhiên, trong đó các tài liệu liệt kê ra danh sách các từ chủ chốt.
Xây dựng các token:
Trong Lucene, các trường có thể mang kiểu stored (được lưu trữ), nội dung của nó được lưu trong chỉ mục theo nguyên bản, theo cách phi-đảo ngược. Các trường được lưu trữ theo cách đảo ngược có kiểu là indexed. Một trường có thể có cả hai kiểu stored và indexed.
Nếu một trường có kiểu là tokenized thì nội dung của trường đó được chia nhỏ thành các từ chủ chốt để đánh chỉ mục, nếu một trường không có kiểu là tokenized thì toàn bộ nội dung của trường đó được lưu theo nguyên bản và được xem như là một từ chủ chốt khi tạo chỉ mục. Hầu hết nội dung các trường đều được chia nhỏ, nhưng đôi khi những trường mà nội dung của nó mang tính chất dùng để phân biệt cho từng tài liệu thì nội dung của nó cần phải được tạo chỉ mục theo nguyên bản.
Quá trình xây dựng các token được thể hiện trong hình 2.4: dữ liệu đầu vào là tài liệu được biên mục theo chuẩn Dublin Core, từ dữ liệu đó ta phân tích thành các token, các token được xử lý bằng việc chuyển tất cả chữ hoa thành chữ thường, bước cuối cùng tương ứng với các token là danh sách các posting list.
Hình 2.4: Quá trình xây dựng các token
Dãy các token: Dãy các cặp (token đã được chỉnh sửa, DocID)
Term docID Term docID
I 1 So 2 did 1 let 2 enact 1 it 2 Julius 1 be 2 Caesar 1 with 2 I 1 Caesar 2 was 1 The 2 killed 1 noble 2 i’ 1 Brutus 2 the 1 hath 2 Capitol 1 told 2 Brutus 1 you 2 killed 1 Caesar 2 me 1 was 2 ambitious 2
Sắp xếp theo từ chỉ mục:
Với mỗi từ chỉ mục được sắp xếp theo thứ tự abc và đi kèm với DocID. Danh sách các từ được sắp xếp được thể hiện trong hình 2.6.
Term docID Term docID
I 1 ambitious 2 did 1 be 2 enact 1 brutus 1 Julius 1 brutus 2 Caesar 1 capitol 1 I 1 caesar 1 was 1 caesar 2 killed 1 caesar 2 i’ 1 did 1 the 1 enact 1 Capitol 1 hath 2 Brutus 1 i 1 killed 1 i 1 me 1 i’ 1 So 2 it 2 let 2 julius 1 it 2 killed 1 be 2 killed 1 with 2 let 2 Caesar 2 me 1 The 2 noble 2 noble 2 so 2 Brutus 2 the 1 hath 2 the 2 told 2 told 2 you 2 you 2 Caesar 2 was 1 was 2 was 2 ambitious 2 with 2 Hình 2.6: Sắp xếp theo từ chỉ mục Dictionary và Postings:
Những thực thể của cùng một từ chỉ mục được nhóm lại. Tách thành Dictionary và Postings.
Thông tin tần số xuất hiện tài liệu cũng chính là kích thước của mỗi posting list được thêm vào.
Kết quả ta có một danh sách các postings list tương ứng với từng token và được mô tả trong hình 2.7.
Hình 2.7: Dictionary và Postings
Xử lý truy vấn:
Thuật toán
Xác định Brutus trong Dictionary và truy tìm những posting của nó. Xác định Caesar trong Dictionary và truy tìm những posting của nó.
Sau khi xác định các posting, sử dụng thuật toán trộn để trộn hai danh sách các posting => Ta có kết quả là 2, 8 được thể hiện trong hình 2.8.
Hình 2.8: Kết quả truy vấn hai từ Brutus, Caesar 2.4.2. Truy vấn theo nhóm từ
Hầu hết các bộ máy tìm kiếm đều hỗ trợ kiểu truy vấn theo nhóm từ. Có 2 cách tiếp cận khác nhau:
Hướng tiếp cận 1:
Chỉ mục theo cặp từ:
Xem mỗi cặp từ liên tiếp nhau trong tài liệu là một nhóm từ. Ví dụ: Friends, Romans, Countrymen sẽ sinh ra những cặp từ:
friends romans romans countrymen
Mỗi cặp từ được xem là một từ chỉ mục.
Việc xử lý những truy vấn theo nhóm từ chỉ chứa hai từ được giải quyết.
Truy vấn theo nhóm từ nhiều hơn hai từ:
Với truy vấn theo nhóm từ chứa nhiều hơn 2 từ, ví dụ “Stanford university palo alto”.
Biểu diến dưới dạng truy vấn Boolean trên các cặp từ: Stanford university, university palo, palo alto.
Không thể kiểm chứng việc những tài liệu khớp với truy vấn trên thực sự chứa nhóm từ truy vấn hay không nếu không mở tài liệu ra xem.
Đánh giá:
Có thể có những khẳng định sai. Số lượng từ chỉ mục sẽ phình to.
Chỉ mục theo cặp từ không phải là giải pháp chuẩn. Tuy nhiên có thể sử dụng theo mô hình kết hợp với những hướng tiếp cận khác.
Ứng với mỗi từ chỉ mục, lưu lại vị trí mà nó xuất hiện theo cách thức sau: <từ chỉ mục, số tài liệu chứa từ chỉ mục;
doc1: vị_trí_1, vị_trí_2,…; doc2: vị_trí_1, vị_trí_2,…; …> <be: 993427; 1: 7, 18, 33, 72, 86, 231; 2: 3, 149; 4: 17, 191, 291, 430, 434; 5: 363, 367; ...>
Trộn tất cả các danh sách < Tài liệu: vị trí> để liệt kê tất cả các vị trí chứa nhóm