Các thành tố đặc tả dữ liệu Dublin Core

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu công nghệ số hóa và tạo lập chỉ số trong hệ quản trị nội dung 002 (Trang 41 - 53)

S TT

Yếu tố dữ liệu đặc tả

Quy định áp dụng

Tiếng Việt Tiếng Anh

1 Tiêu đề Title Bắt buộc sử dụng

2 Người tạo Creator Bắt buộc sử dụng

3 Thời gian Date Bắt buộc sử dụng

4 Cơ quan ban hành Publisher Bắt buộc sử dụng 5 Mô tả Description Bắt buộc sử dụng 6 Định danh Identifier Bắt buộc sử dụng 7 Ngôn ngữ Language Khuyến nghị sử dụng

8 Nguồn Source Khuyến nghị sử dụng

9 Người cộng tác Contributor Khuyến nghị sử dụng 10 Chủ đề Subject Khuyến nghị sử dụng 11 Phạm vi Coverage Tùy chọn sử dụng

12 Dạng Type Tùy chọn sử dụng 13 Định dạng Format Tùy chọn sử dụng 14 Quan hệ Relation Tùy chọn sử dụng 15 Các quyền Rights Tùy chọn sử dụng

Mô tả từng yếu tố đặc tả:

- Tiêu đề (Title)

Tên yếu tố Title

Định nghĩa Thông tin về tên gọi của dữ liệu được mô tả.

Ví dụ <meta name=”DC.Title” content=”Bộ thông tin và Truyền thông ban hành Thông tư quy định về sử dụng dữ liệu đặc tả”> - Người tạo (Creator)

Tên yếu tố Creator

Định nghĩa Thông tin về cá nhân (một hoặc nhiều người) trực tiếp tham gia vào quá trình tạo lập dữ liệu được mô tả.

Ví dụ <meta name=”DC.Creator” content=”Nguyễn Văn A”> - Thời gian (Date)

Tên yếu tố Date

Định nghĩa Thông tin về thời gian gắn với các sự kiện liên quan đến dữ liệu được mô tả.

Khuyến nghị việc mã hóa giá trị ngày tháng theo tiêu chuẩn ISO 8601 [W3CDTF] bao gồm ngày, tháng, năm, giờ, phút, giây thao dạng YYYY-MM-DDTHH-MM-SS

Ví dụ <meta name=”DC.Date” scheme= “W3CDTF” content=”2013-05- 15T09-20-35”>

Các yếu tố con có thể sử dụng cùng yếu tố thời gian: 1. Date.Created Ngày tạo thông tin.

2. Date.Modified Ngày sửa đổi thông tin. 3. Date.Valid Ngày thông tin có hiệu lực.

4. Date.Issued Ngày phát hành chính thức (công bố) thông tin. - Cơ quan ban hành (Publisher)

Tên yếu tố Publisher

Định nghĩa Thông tin về cơ quan, tổ chức có liên quan đến việc ban hành, xuất bản, công bố nội dung của dữ liệu được mô tả.

Ví dụ <meta name=”DC.Publisher” content=”Cục ứng dụng công nghệ thông tin”>

- Mô tả (Description)

Tên yếu tố Description

Định nghĩa Thông tin tóm tắt về nội dung dữ liệu được mô tả.

Ví dụ <meta name=”DC.Description” content=”Xin ý kiến về dự thảo Thông tư quy định về sử dụng dữ liệu đặc tả cho cổng thông tin điện tử của cơ quan nhà nước”>

- Định danh (Identifier)

Tên yếu tố Identifier

Định nghĩa Thông tin tham chiếu duy nhất tới tài liệu được mô tả trong một bối cảnh cụ thể.

Thông thường giá trị URL (Uniform Resource Identifier) bao gồm URL (Uniform Resource Locator), DOI (Dgital Object Identifier) và ISBN (International Standard Book Number).

Ví dụ <meta name = ”DC.Identifier”

content=”http://diap.gov.vn/van_ban_quy_pham_phap_luat”> - Ngôn ngữ (Language)

Tên yếu tố Language

Sử dụng 3 chữ cái để mô tả theo chuẩn ISO 639-2. Ví dụ <meta name=”DC.Language” content=”vie”>

- Nguồn (Source)

Tên yếu tố Source

Định nghĩa Thông tin về xuất xứ, nguồn gốc, nơi truy cập,v.v… của dữ liệu được mô tả.

Ví dụ <meta name=”DC.Source” content=”www.chinhphu.vn”> - Người cộng tác (Contributor)

Tên yếu tố Contributor

Định nghĩa Thông tin về cá nhân (một hoặc nhiều người) tham gia đóng góp vào quá trình tạo lập dữ liệu được mô tả.

Ví dụ <meta name=”DC.Contributor” content=”Nguyễn Văn B”> - Chủ đề (Subject)

Tên yếu tố Subject

Định nghĩa Thông tin về tổng quát, ngắn gọn về nội dung của dữ liệu được mô tả.

Ví dụ <meta name=”DC.Subject” content=”Tin tức – Sự kiện”> - Phạm vi (Coverage)

Tên yếu tố Coverage

Định nghĩa Thông tin về quy mô, phạm vi hoặc mức độ bao quát của dữ liệu được mô tả.

Thông thường bao gồm vị trí không gian, khoảng thời gian. Ví dụ <meta name=”DC.Coverage” content=”Việt Nam”>

- Dạng (Type)

Định nghĩa Thông tin về bản chất, trạng thái nguyên thủy hoặc thể loại bao gồm các thuật ngữ miêu tả việc phân loại chung, chức năng của dữ liệu được mô tả.

Ví dụ <meta name=”DC.Type” content=”Text”> - Định dạng (Format)

Tên yếu tố Format

Định nghĩa Thông tin về định dạng vật lý của dữ liệu được mô tả. Ví dụ <meta name=”DC.Format” content=”text/html”>

- Quan hệ (Relation)

Tên yếu tố Relation

Định nghĩa Thông tin về liên quan giữa dữ liệu được mô tả với các dữ liệu khác. Thông thường là nhận biết nguồn liên quan bằng xâu ký tự hoặc số phù hợp với hệ thống nhận biết chính thức.

Ví dụ <meta name=”DC.Relation” content=”Nghị định số 43/2011/NĐ- CP ngày 13/6/2011 của Chính phủ”>

- Các quyền (Rights)

Tên yếu tố Rights

Định nghĩa Thông tin về các quyền sở hữu, truy xuất, chỉnh sửa,… liên quan đến dữ liệu được mô tả.

Ví dụ <meta name=”DC.Rights” content=”Được truy cập nếu là thành viên”>

2.4. Phƣơng pháp lập chỉ mục ngƣợc để tìm kiếm tài liệu

Để thực hiện việc tìm kiếm theo nội dung tệp văn bản hoặc theo các trường của các tệp metadata, cần lập chỉ mục cho các têp văn bản và chỉ mục ngược cho các trường metadata. Việc lập chỉ mục này sẽ được diễn ra thường xuyên mỗi khi cập nhật thêm các tệp văn bản vào Kho lưu trữ dữ liệu hoặc khi metadata của văn bản bị thay đổi.

Lập chỉ mục ngược [10] để tìm kiếm dữ liệu có nguyên tắc như máy tìm kiếm. Dưới đây trình bày nguyên tắc lập chỉ mục ngược theo cách của máy tìm kiếm lucene:

- Chỉ mục ngược trả lời cho câu hỏi “Những tài liệu nào chứa từ X”. - Ý tưởng: Với mỗi từ t, lưu một danh sách những tài liệu (DocID) chứa t. - Việc tạo ra và duy trì một chỉ mục đảo ngược (inverted index) là công việc trọng tâm khi xây dựng một công cụ tìm kiếm từ khóa có hiệu quả. Để tạo chỉ mục cho một tài liệu, trước tiên ta phải quét qua toàn bộ tài liệu đó để tạo ra một danh sách các postings. Các postings mô tả những lần xuất hiện của một từ ở trong một tài liệu; thông thường một posting là một bộ giá trị bao gồm: <từ, khóa của tài liệu chứa từ, [(các) vị trí/tần số của từ ở trong tài liệu]> (<word, document-id>)

Hình 2.3: Danh sách các posting cho từ Brutus, Caesar, Calpurnia 2.4.1. Đánh chỉ mục 2.4.1. Đánh chỉ mục

Chỉ mục lưu trữ các thông tin thống kê về các từ chủ chốt để việc tìm kiếm dựa trên từ chủ chốt được hiệu quả hơn. Chỉ mục của Lucene thuộc về họ các chỉ mục có tên gọi là chỉ mục đảo ngược bởi vì nó có thể liệt kê ra theo từng từ chủ chốt các tài liệu có chứa nó. Điều này ngược lại theo quan hệ tự nhiên, trong đó các tài liệu liệt kê ra danh sách các từ chủ chốt.

Xây dựng các token:

Trong Lucene, các trường có thể mang kiểu stored (được lưu trữ), nội dung của nó được lưu trong chỉ mục theo nguyên bản, theo cách phi-đảo ngược. Các trường được lưu trữ theo cách đảo ngược có kiểu là indexed. Một trường có thể có cả hai kiểu stored và indexed.

Nếu một trường có kiểu là tokenized thì nội dung của trường đó được chia nhỏ thành các từ chủ chốt để đánh chỉ mục, nếu một trường không có kiểu là tokenized thì toàn bộ nội dung của trường đó được lưu theo nguyên bản và được xem như là một từ chủ chốt khi tạo chỉ mục. Hầu hết nội dung các trường đều được chia nhỏ, nhưng đôi khi những trường mà nội dung của nó mang tính chất dùng để phân biệt cho từng tài liệu thì nội dung của nó cần phải được tạo chỉ mục theo nguyên bản.

Quá trình xây dựng các token được thể hiện trong hình 2.4: dữ liệu đầu vào là tài liệu được biên mục theo chuẩn Dublin Core, từ dữ liệu đó ta phân tích thành các token, các token được xử lý bằng việc chuyển tất cả chữ hoa thành chữ thường, bước cuối cùng tương ứng với các token là danh sách các posting list.

Hình 2.4: Quá trình xây dựng các token

Dãy các token: Dãy các cặp (token đã được chỉnh sửa, DocID)

Term docID Term docID

I 1 So 2 did 1 let 2 enact 1 it 2 Julius 1 be 2 Caesar 1 with 2 I 1 Caesar 2 was 1 The 2 killed 1 noble 2 i’ 1 Brutus 2 the 1 hath 2 Capitol 1 told 2 Brutus 1 you 2 killed 1 Caesar 2 me 1 was 2 ambitious 2

Sắp xếp theo từ chỉ mục:

Với mỗi từ chỉ mục được sắp xếp theo thứ tự abc và đi kèm với DocID. Danh sách các từ được sắp xếp được thể hiện trong hình 2.6.

Term docID Term docID

I 1 ambitious 2 did 1 be 2 enact 1 brutus 1 Julius 1 brutus 2 Caesar 1 capitol 1 I 1 caesar 1 was 1 caesar 2 killed 1 caesar 2 i’ 1 did 1 the 1 enact 1 Capitol 1 hath 2 Brutus 1 i 1 killed 1 i 1 me 1 i’ 1 So 2 it 2 let 2 julius 1 it 2 killed 1 be 2 killed 1 with 2 let 2 Caesar 2 me 1 The 2 noble 2 noble 2 so 2 Brutus 2 the 1 hath 2 the 2 told 2 told 2 you 2 you 2 Caesar 2 was 1 was 2 was 2 ambitious 2 with 2 Hình 2.6: Sắp xếp theo từ chỉ mục Dictionary và Postings:

Những thực thể của cùng một từ chỉ mục được nhóm lại. Tách thành Dictionary và Postings.

Thông tin tần số xuất hiện tài liệu cũng chính là kích thước của mỗi posting list được thêm vào.

Kết quả ta có một danh sách các postings list tương ứng với từng token và được mô tả trong hình 2.7.

Hình 2.7: Dictionary và Postings

Xử lý truy vấn:

Thuật toán

Xác định Brutus trong Dictionary và truy tìm những posting của nó. Xác định Caesar trong Dictionary và truy tìm những posting của nó.

Sau khi xác định các posting, sử dụng thuật toán trộn để trộn hai danh sách các posting => Ta có kết quả là 2, 8 được thể hiện trong hình 2.8.

Hình 2.8: Kết quả truy vấn hai từ Brutus, Caesar 2.4.2. Truy vấn theo nhóm từ 2.4.2. Truy vấn theo nhóm từ

Hầu hết các bộ máy tìm kiếm đều hỗ trợ kiểu truy vấn theo nhóm từ. Có 2 cách tiếp cận khác nhau:

Hướng tiếp cận 1:

 Chỉ mục theo cặp từ:

Xem mỗi cặp từ liên tiếp nhau trong tài liệu là một nhóm từ. Ví dụ: Friends, Romans, Countrymen sẽ sinh ra những cặp từ:

friends romans romans countrymen

Mỗi cặp từ được xem là một từ chỉ mục.

 Việc xử lý những truy vấn theo nhóm từ chỉ chứa hai từ được giải quyết.

 Truy vấn theo nhóm từ nhiều hơn hai từ:

Với truy vấn theo nhóm từ chứa nhiều hơn 2 từ, ví dụ “Stanford university palo alto”.

Biểu diến dưới dạng truy vấn Boolean trên các cặp từ: Stanford university, university palo, palo alto.

 Không thể kiểm chứng việc những tài liệu khớp với truy vấn trên thực sự chứa nhóm từ truy vấn hay không nếu không mở tài liệu ra xem.

Đánh giá:

Có thể có những khẳng định sai. Số lượng từ chỉ mục sẽ phình to.

Chỉ mục theo cặp từ không phải là giải pháp chuẩn. Tuy nhiên có thể sử dụng theo mô hình kết hợp với những hướng tiếp cận khác.

Ứng với mỗi từ chỉ mục, lưu lại vị trí mà nó xuất hiện theo cách thức sau: <từ chỉ mục, số tài liệu chứa từ chỉ mục;

doc1: vị_trí_1, vị_trí_2,…; doc2: vị_trí_1, vị_trí_2,…; …> <be: 993427; 1: 7, 18, 33, 72, 86, 231; 2: 3, 149; 4: 17, 191, 291, 430, 434; 5: 363, 367; ...>

Trộn tất cả các danh sách < Tài liệu: vị trí> để liệt kê tất cả các vị trí chứa nhóm từ “to be”. to: 2: 1, 17, 74, 222, 551; 4: 8, 16, 190, 429, 433; 7: 13, 23, 191;… be: 1: 17, 19; 4: 17, 191, 291, 430, 434 5: 14, 19, 101;…

Những tài liệu chứa nhóm từ “to be”: Tài liệu có docID = 4, các vị trí 16 – 17, 190 – 191, 429 – 430, 433 – 434.

2.5. GreenStone trong tạo lập chỉ mục

2.5.1. Tổng quan về GreenStone

Greenstone [6, 9] là bộ phần mềm miễn phí cho việc xây dựng và phân phối bộ sưu tập thư viện số. Nó cung cấp phương pháp mới để tổ chức thông tin và xuất bản thông tin trên internet hay trên CD ROM.

Greenstone xuất phát từ Dự án Thư viện Số của New Zealand tại trường Đại học Waikato, và được phát triển và phân phối bởi sự hợp tác Với UNESCO và Human Info NGO.

cho các trường Đại học, thư viện và các viện nghiên cứu xây dựng các bộ sưu tập cho riêng mình.

Lý do sử dụng Greenstone để tạo lập chỉ mục [9]

Chạy được trên nhiều hệ điều hành (muliplatform): Windows, Linux,…. Tìm kiếm toàn văn bản và tìm kiếm theo từng trường riêng biệt

Tận dụng các metadata sẵn có trong tài liệu, giúp người tạo lập bộ sưu tập không phải làm bằng tay.

Khả năng linh động, dễ mở rộng hệ thống nhờ các thành phần như plugin, classifier.

Hỗ trợ xử lý tài liệu với nhiều ngôn ngữ. Xây dựng đơn giản, hiệu quả.

Các bộ sưu tập dễ dàng mang chuyển, phân phối, chia sẻ.

Một số khái niệm cơ bản trong Greenstone [6] - MetaData:

Là thông tin mô tả cho một tài liệu trong bộ sưu tập. Greenstone dùng các thẻ XML để mô tả thông tin cho tài liệu.

<Metadata name = “Tile”>Greenstone trong tạo lập chỉ số</Metadata> <Metadata name=“Author”>Nguyễn Thị Hòa</Metadata>

- Biên mục:

Là khái niệm nghiệp vụ để chỉ hành động cung cấp thông tin mô tả cho các tài liệu. Hiện nay biên mục tài liệu theo chuẩn Dublin Core, chuẩn này được trình bày cụ thể trong mục 2.3.

- Plugin:

Là một chương trình con được dùng trong quá trình xây dựng bộ sưu tập

Do nguồn vào có nhiều dạng tài liệu khác nhau (pdf, word, text,…) nên cần plugin để chuyển chúng về một loại thống nhất là XML của Greenstone và trích thông tin từ tài liệu nguồn đưa vào tệp tin XML này.

Các plugin được liệt kê trong tệp tin cấu hình collect.cfg. Tùy theo tài liệu nguồn dạng nào ta sẽ chọn plugin tương ứng.

Các plugin được đặt trong thư mục “Greenstone\perllib\plugins” [9].

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu công nghệ số hóa và tạo lập chỉ số trong hệ quản trị nội dung 002 (Trang 41 - 53)

Tải bản đầy đủ (PDF)

(74 trang)