1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu các phần tử siêu dữ liệu Dublin core như một phương thức xác định tài liệu điện tử trên World Wide Web

16 308 0
Tài liệu được quét OCR, nội dung có thể không chính xác

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 16
Dung lượng 7,05 MB

Nội dung

Trang 1

TIM HIEU CAC PHAN TU SIEU DU LIEU DUBLIN CORE NHU MOT PHUONG THUC XAC DINH TAI LIEU DIEN TU TREN WORLD

WIDE WEB (WWW)

Tran Thi Hoang Hanh

K43 - B6 m6én Thong tin - Thu vién GVHD: ThS Cao Minh Kiém

I- PHAN MO DAU

1 Tính cấp thiết của đề tài

Cuộc cách mạng công nghệ thông tin trong vài

chục năm cuối thế kỷ XX đã tác động vô cùng mạnh mẽ

đến nhiều lĩnh vực đời sống xã hội, đồng thời tạo cơ sở

cho việc hình thành một số yếu tố của xã hội thông tin và nền kinh tế tri thức Đặc biệt sự phát triển của

Internet, trong đó mạnh hơn cả là sự bùng nổ dịch vụ

WWVW trong thời gian gần đây đã tác động to lớn đến

hoạt động của các cơ quan thông tin - thư viện Nhiều cơ

quan thông tin - thư viện đã và đang từng bước xây

dựng và hoàn thiện thư viện hiện: đại, trong vốn tài liệu

Trang 2

gia tăng và đóng vai trò quan trọng Tài liệu điện tử

ngày càng phổ biến và phát triển mạnh đã được người dùng tin hưởng ứng và đón nhận Tuy nhiên vấn đề đặt

ra là cần phải mô tả, biên mục để quản lý chúng như thế nào nhằm phát huy hết ưu điểm của chúng, đảm bảo việc truy cập tìm kiếm có hiệu quả, góp phần nâng

cao chất lượng phục vụ người dùng tin

Xuất phát từ xu thế xây dựng thư viện điện tử và cho rằng sự hiểu biết về Dublin Core ở Việt Nam còn chưa nhiều chúng tôi mạnh dạn chọn đề tài “Từm hiểu

các phần tử siêu dữ liệu Dublin Core như một phương

thức xác định tài liệu điện tử trên Worid Wide Web” làm báo cáo khoa học

2 Mục tiêu nghiên cứu

Khổ mẫu tiêu chuẩn siêu dữ liệu cho tài liệu điện tử, trong đó có khổ mẫu Dublin Core được ra đời gần

đây, và vẫn là một vấn đề mới đối với Việt Nam Bản

báo cáo này nhằm tìm hiểu những vấn để cơ bản về

Dublin Core, và đề xuất suy nghĩ về ứng dụng Dublin

Core trong mô tả siêu dữ liệu

3 Đối tượng, phạm vi

Do phạm vi của đề tài báo cáo, nên tài liệu điện tử

trên WWW chỉ giới hạn ở dạng HTML, và chúng tôi chỉ xin tập trung tìm hiểu, giới thiệu những nét cơ bản của

Trang 3

- Cấu trúc và thành phần của Dublin Core - Đối tượng ứng dụng Dublin Core

- Vấn đề đặt ra với Việt Nam

4 Phương pháp nghiên cứu

Phương pháp nghiên cứu chủ yếu được sử dụng

trong bản báo cáo là phương pháp phân tích và tổng hợp

tài liệu, kết hợp hỏi ý kiến chuyên gia

5 Kết cấu của báo cáo

Ngoài bảng giải thích từ viết tắt, mục lục, tài liệu tham khảo, phụ lục, báo cáo có 3 phần sau:

e Phần mở đều: nội dung chính của phần này được

trình bày ở trên

e Phần nội dung: phần này có 3 chương:

+ Chương 1: Nêu những đặc điểm của tài liệu điện tử, từ đó nảy sinh những uấn đề xử lý thông tin tài

liệu điện tử uò tạo siêu dữ liệu

+ Chương 2: Chương này có 3 mục lần lượt trình bày khói niệm, các đặc điểm, uà cấu trúc của Dublin Core

+ Chương 8: Nêu những đối tượng sử dụng Dublin

Core, uà cách thức ứng dụng DublÌin Core

e Phần kết luận: Đề xuất suy nghĩ của tác giả uề uiệc ứng dụng Dublin Core ở Việt Nam

II- PHẦN TÓM TẮT NỘI DUNG BÁO CÁO

Cùng với sự phát triển vô cùng mạnh mẽ của

Trang 4

cách nhanh chóng, và được người dùng tin hưởng ứng

bởi những ưu điểm như nhanh chóng, thuận tiện, vô

biên giới Tuy nhiên, khác với những tài liệu trên giấy được các nhà xuất bản phát hành, tài liệu điện tử có những đặc điểm khác biệt làm cho việc xử lý thông tin

về chúng gặp nhiều khó khăn Có thể nêu ra một số đặc điểm sau:

e Sự không tuân thủ những chuẩn mực xuất bản:

Tài liệu điện tử được nhiều người tham gia biên soạn và

tự phát hành trên WWW nên thường không tuân thủ những chuẩn mực xuất bản đã được xác lập cho các tài liệu trên giấy như khổ mẫu, cách thức trình bày,

e Chất lượng thông tin có thể không được đảm bảo:

Việc kiểm soát chất lượng nội dung tài liệu điện tử trên

WWW thường không được thực hiện, một phần là do các cá nhân có thể tự mình xuất bản các tài liệu Web và

đưa chúng lên Internet, nên chất lượng thông tin có thể phải được đặt ra để xem xét

e Tính không ổn định: Tài liệu trên giấy một khi

đã được xử lý và nhập vào thư viện thì có thể tổn tại lâu

dài, trong khi tài liệu điện tử được tạo ra nhanh chóng,

dễ dàng bị sửa đổi và có thể biến mất bất cứ lúc nào

e Tính phân tán, khó xử lý bằng chuyên gia: Tài

liệu điện tử bị phân tán trên toàn mạng Internet, không

tập trung, khó có thể sử dụng chuyên gia để tìm kiếm

và xử lý thông tin đưa vào CSDL mà phải dùng các

Trang 5

+ Những đặc điểm trên cũng làm cho việc

quản lý thông tin về tài liệu điện tử trở nên khó

khăn và phải được quan tâm

Đối uới các tài liệu truyền thống như ấn phẩm,

băng đĩa, để xây dựng các hệ tuống thông tin về chúng

đòi hỏi phải có sự tham gia của các chuyên gia thông tin, xử lý tin qua các quá trình: biên mục mơ tả, định từ

khố, làm tóm tắt chú giải, lập phiếu thư mục, hoặc lập các biểu ghi CSDL thư mục Trong đó, quá trình biên

mục mô tả tài liệu truyền thống được tiến hành dựa

trên một số tiêu chuẩn phổ biến như: AACRI, AACR2,

ISBD, TCVN 4743-89, và gần đây là việc ứng dụng các

chuẩn MARC trong quá trình tin học hoá thư viện Tuy

các tiêu chuẩn này có đặc điểm khác nhau, song chúng

đều dựa trên các yếu tố thông thường của tài liệu

truyền thống, ví dụ như tiêu đề, tác giả, nhà xuất bản Các thông tin mô tả này rất gần với khái niệm "siêu dữ liệu" (metadata) và có thể coi đó là một dạng siêu dữ liệu ở nghĩa rộng Siêu dữ liệu (metadata), hiểu một cách đơn giản nhất, là "Dữ liệu có cấu trúc uê dữ liệu" Nó là dữ liệu mô tả nội dung và các đặc trưng của

tài liệu điện tử Vì vậy dữ liệu về tài liệu điện tử được

coi là siêu dữ liệu, hay dữ liệu về dữ liệu Ở một chừng

mực nào đó, có thể coi siêu dữ liệu của tài liệu điện tử

Trang 6

liệu thông thường Nó có ý nghĩa quan trọng trong việc định vị nguồn tài nguyên điện tử nhằm quản lý và khai

thác chúng dễ dàng hơn

Đối với các ấn phẩm, biểu ghi thư mục hoặc phiếu mục lục thư viện là tách hoàn toàn Phiếu mục lục thư

viện sẽ ở trên hộp phiếu mục lục, biểu ghi thư mục nằm trong cơ sở dữ liệu, còn tài liệu ở trong kho Với tài liệu điện tử, siêu dữ liệu và tài nguyên được nó mô tả có một

trong hai dạng liên hệ:

e Các phần tử này được thể hiện trong các biểu ghi riêng biệt hẳn với tài liệu, chẳng hạn trong trường hợp

này là các biểu ghi thư mục

e Siêu dữ liệu được nhúng trực tiếp ngay trong bản thân tài nguyên

Việc tra cứu thông tin trên WWW không đơn giản

như tra cứu thông tin trong một thư viện/ kho tư liệu truyền thống, bởi vì hiện nay hầu hết các tài liệu trực

tuyến không có siêu dữ liệu mô tả (metadata) một cách

đây đủ và chuẩn Các tài liệu trực tuyến trên WWW tồn

tại phổ biến dưới dạng thức HTML (kể cả các cơ sở dữ

liệu hoặc các website tương tác cũng có hình thức thể hiện là các trang HTML)

Một trang tài liệu HTML điển hình bao gồm một

tập những thẻ (tag) nhằm hỗ trợ trình duyệt trên máy

Trang 7

khác nhau phục vụ các mục đích khác nhau, song mọi

tài liệu HTML thường bắt đầu bang mét thé mo <html> và kết thúc bởi một thẻ đóng </htm> Bên trong cặp thẻ

<htm]> </htmÌl>, tài liệu HTML được chia thành hai

đoạn, đoạn đầu dược bao trong cặp thẻ <head> </head> và đoạn thân tài liệu trong cặp thẻ

<body> </body> Đoạn đầu gồm những thẻ phản ánh

thông tin cơ bản như tiêu đề tài liệu (title), phiên bản ngôn ngữ HTML sử dụng, công cụ xuất bản tài liệu Trong đó, các thẻ <meta>, một loại thẻ không có thẻ đóng, thường được dùng để phản ánh các thuộc tính của tài liệu Đây chính là siêu dữ liệu cho tài liệu điện tử

Tuy nhiên, không phải tất cả những người tạo ra nguồn

tin điện tử trên Internet đều thiết kế loại thẻ này, mặt khác nếu loại thẻ này được sinh ra cũng không đầy đủ, hoặc tuân theo một chuẩn nhất định Điều này càng gây ra những khó khăn trong việc thu thập, quản lý, và

khai thác nguồn tài liệu điện tử phong phú trên [nternet

Hiện nay, để tra cứu thông tin trên Internet chúng ta vẫn thường dùng các máy tìm kiếm (hay còn gọi là Search Engine) như: Google, Altavista, Yahoo và máy

tìm kiếm Việt Nam như Vinaseek, PanVietnam Việc thực hiện tìm kiếm thông tin trên Internet của các công

Trang 8

Web được các chương trình đặc biệt của các máy tìm tin này tạo ra các siêu dữ liệu của tài liệu điện tử (trang Web) và văn bản trong trang Web Công việc này được thực hiện hoàn toàn tự động nhờ các phần mềm dùng để

đánh chỉ mục các tài liệu bằng các kỹ thuật thường được

gọi là spider hoặc các robo¿s Nếu không có các quy định thống nhất cho các khổ mẫu siêu dữ liệu thì việc tạo ra các thông tin chính xác để đưa vào CSDL máy tìm tin sẽ không đảm bảo chất lượng, ảnh hưởng đến chất lượng tìm tin

Chính vì lý do này, với mong muốn các tài liệu

xuất bản trên WWW có thể được biên mục tự động một cách nhanh chóng thuận tiện người ta đã kiến nghị đưa ra các chuẩn khổ mẫu về siêu dữ liệu Tháng

3/1995 tại thành phố Dublin, bang Ohio của Mỹ, một

cuộc hội thảo nhằm thiết lập được một bộ khung cốt lõi

ngữ nghĩa, giúp ích cho việc biên mục các nguồn tài

nguyên trên WWW Đó chính là các yếu tố siêu dữ liệu

Dublin Core Khổ mẫu tiêu chuẩn Dublin Core là một

tập hợp các phần tử siêu dữ liệu uới mục đích mô tả nội

dung các nguồn tài nguyên điện tử (trên mạng) Những

sáng kiến ban đầu về mô tả tài nguyên điện tử thu hút sự quan tâm của nhiều nhóm chuyên gia mô tả tài

Trang 9

Các đặc điểm của Dublin Core + Tạo lập và duy trì dế dàng

Tập hợp các yếu tố Dublin Core chỉ giữ lại những gì ahỏ nhất và đơn giản nhất có thể được, cho phép

những người không có chuyên môn cũng dễ dàng tạo lập các bản ghi mô tả nguồn tài nguyên thông tin, khi được curg cấp đầy đủ thông tin thu thập từ những nguồn tài

nguyên này trên môi trường mạng Dublin Core chỉ có 15 yếu tố Ứng dụng chuẩn mô tả siêu dữ liệu Dublin

Co*e cho phép tiết kiệm những khoảng thời gian cần có

kh sử dụng kỹ thuật mô td thư mục truyền thống như

đọc, nghe hay xem toàn bộ tài hiệu

+ Ngữ nghĩa dễ hiểu

Việc khai thác thông tin trong tài nguyên điện tử

gặ› nhiều khó khăn bởi sự khác biệt về thuật ngữ và kỹ năag mô tả từng lĩnh vực tri thức cụ thể Dublin Core có th hỗ trợ một "người du lịch số " ('digital tourist') - một

ngiời tìm kiếm không có chuyên môn, tìm được "đường" bằ›g cách cung cấp một tập hợp các yếu tố phổ biến ma ngi nghĩa của chúng rất dễ hiểu và được hỗ trợ ở mọi

Trang 10

+ Phạm vi sử dụng quốc tế rộng lớn

Tập hợp yếu tố Dublin Core khởi đầu được phát triển trên tiếng Anh, nhưng các phiên bản được tạo lập

trên nhiều ngôn ngữ: Phần Lan, Na Uy, Thái, Nhật

Bản, Pháp, Bồ Đào Nha, Đức, Huy Lạp, Indonesia, Tây

Ban Nha Mặc dù những thách thức về mặt kỹ thuật của việc quốc tế hoá trên World Wide Web không trực tiếp liên quan đến sự phát triển của Dublin Core, song sự phát triển và áp dụng tiêu chuẩn này có ý nghĩa đến

bản chất đa dạng ngôn ngữ và đa dạng văn hoá của thông tin điện tử toàn nhân loại

+ Khả năng mở rộng thuận lợi

Khi cân bằng giữa nhu cầu đơn giản hố việc mơ tả

tài nguyên điện tử với nhu cầu thu thập chính xác

thông tin, những người phát triển Dublin Core đã ghi

nhận tầm quan trọng của việc cung cấp một cơ chế mở

rộng tập hợp các yếu tố Dublin Core đế bổ sung thêm

những yêu cầu khai phá dữ liệu Điều này được trông đợi vào việc một nhóm chuyên gia siêu dữ liệu sẽ tạo lập

và quản lý các tập siêu dữ liệu bổ sung Các yếu tố siêu dữ liệu từ những tập này sẽ được liên kết với siêu dữ

liệu Dublin Core, để thoả mãn khả năng mở rộng

III- CẤU TRÚC VÀ CÁC YẾU TỐ

CỦA DUBLIN CORE

Trang 11

bang 1), trong từng trường hợp cụ thể, các yếu này không nhất thiết bắt buộc phải có đầy đủ và có thể lặp

Bảng 1 So sánh sự tương ứng các yếu tố thư mục giữa Dublin Core và một số trường của MARC 21 Tác giã 100, 110, 700 Creator Nhan đề 245 Title Chu dé 600, 610, 650, 651, 653 | Subject Mô tả 520 Description Nhà xuất bản 260 Publisher Người cộng tác 720 Contributor Thời gian xuất bản | 260 Date Kiểu 655 Type Khổ mẫu 856 Format Định danh 024 Identifier | Nguồn 786 Source Ngôn ngữ 546

| Liên quan 787 Relation

| Bao quát 500 Coverage

Quyền 540 Rights

* DUBLIN CORE VÀ MARC 21

Khổ mẫu MARC 21 - khổ mẫu thư mục của thế

kỷ XXI có nhiều ưu điểm và được dùng phổ biến (tại Hội

Trang 12

thảo Quốc gia về MARC Việt Nam tổ chức vào cuối năm

2001 tại Trung tâm Thông tin - Tư liệu Khoa học và

Công nghệ, MARC 21 được khuyến nghị sử dụng), tuy

nhiên, nó không đáp ứng được những yêu cầu đặt ra đối

với nguồn tài liệu điện tử Có thể thấy rằng, các dữ liệu

mô tả nội dung và các đặc trưng của nguồn tài liệu điện

tử không đầy đủ, và hồn tồn khơng giống như các đặc

trưng của tài liệu thông thường Do vậy gần 300 trường

của MARC 21 trở nên thừa, và phức tạp đối với tài liệu

điện tử (xem bảng 1) Trong khi đó, Dublin Core, có cấu trúc đơn giản, lại phù hợp, chuẩn xác với những đặc

trưng của tài liệu điện tử, nhằm tạo ra siêu dữ liệu đáp

ứng được những yêu cầu đặt ra trong việc thu thập và khai thác nguồn tài liệu điện tử trên WWW

Đối tượng sử dụng Dublin Core: Ai cũng có thể sử

dụng siêu dữ liệu Dublin Core để mô tả nguồn tài

nguyên điện tử để phục vụ hệ thống thông tin, từ những

cán bộ thư viện, các chuyên gia về siêu dữ liệu, các

chuyên gia biên mục đến tất cả những người tạo ra tài

nguyên

Các trang Web chỉ là một trong những dạng tài nguyên phổ biến nhất được ứng dụng các mô tả Dublin

Core, tẰong các thẻ meta ở đầu các tài liệu HTML sẽ

được thêm một số thông tin mô tả để có thể sử dụng cho

Dublin Core

Trang 13

các hệ thống mô tả cho nhiều nhóm lĩnh vực khác nhau:

tô chức giáo dục, thư viện, cơ quan chính phủ, lĩnh vực nghiên cứu khoa học, xuất bản Web, những công việc yéu cầu nhiều đến hoạt động tìm kiếm định vị, các công

ty với hệ thống quản trị trì thức rất rộng

Ứng dụng Dublin Core như thế nào ?

Siêu dữ liệu Dublin Core có thể được tạo ra bằng

hai cách:

- Ngay từ khi tài nguyên được tạo lập hoặc trong

quá trình cập nhật tài nguyên, theo những nguyên tắc, cú pháp nhất định

- Được bổ sung vào tài nguyên nhờ những chương

trình phần mềm tự động

Một số dịch vụ như DG (http://www.ukoln

ac.uk/metadata/dcdot/) "thu" một trang Web và tự động tạo siêu dữ liệu Dublin Core tương ứng cho trang Web

đó, dưới hình thức các thẻ <meta> của ngôn ngữ HTML, hoặc RDF/XML, thích hợp để nhúng vào đoạn đầu của mỗi trang Web (ứng với cặp thẻ <head> </head>) Quá trình sử dụng những dịch vụ này như sau:

se Bước 1: Nhập vào địa chỉ trang chủ của dịch vụ

Trang 14

e Bước 3: Trên màn hình xuất hiện siêu dữ liệu Dublin Core do máy chủ dịch vụ xử lý và trả kết quả về

e Bước 4: Tình chỉnh nội dung siêu dữ liệu Dublin Core nếu dịch vụ cho phép chỉnh sửa và đưa vào cơ sở

dữ liệu hoặc nhúng vào tài nguyên (nếu có đủ thẩm quyền)

Ví dụ: Khổ mẫu tiêu chuẩn mô tả siêu dữ liệu

Dublin Core tương ứng với một số trang Web cụ thể (chưa thực hiện bước 4)

e Trang chủ của website Đại học Khoa học Xã hội và Nhân văn

<link rel="schema.DC" href="http://purl.org/dc"> <meta name="DC.Title" content="dhkhxhnv"> <meta name="DC.Subject" content= "Nghiên cứu Khoa học; Tổ chức; Khoa Lịch sử; Bộ môn Thông tin Thư viện; Bộ mơn

tiếng nước ngồi; Khoa Tâm lý học; Đào tạo; Khoa Triết

học; Khoa Quốc tế học; Trung tâm -Ngoại ngữ; Khoa Ngôn ngữ học; Trung tâm Tin học ứng dụng; Khoa Lưu trữ học và Quản trị văn phòng; Hợp tác Quốc tế; Khoa

Du lịch; Khoa Giáo dục quốc phòng; Bộ môn Tư tưởng

Hồ Chí Minh và Khoa học Chính trị; Khoa Báo chí; Trung tâm Nghiên cứu Châu Á - Thái Bình Dương; Giới thiệu;

Khoa Tiếng Việt và Văn hóa Việt Nam cho người nước

Trang 15

hoc"> <meta name="DC.Publisher" content="Asia Pacific Network Information Center"> <meta name="DC.Date" scheme="W3CDTF" content="2001-03-15"> <meta name="DC.Type" scheme="DCMIType" ontent="Text"> <meta name="DC.Format" content="text/html"> <meta name="DC.Format" content="10339 bytes"> <meta name="DC Identifier"

content="http://www.vnu.edu.vn/dhkhxhnv/">

e Trang chủ của website Đại học Quốc gia Hà Nội

<link rel="schema.DC" href="http://purl.org/dc"> <meta name="DC.Title" content="Vietnam National University, Hanoi"> <meta name="DC.Publisher" content="Asia Pacific Network Information Center"> <meta name="DC.Date" scheme="W3CDTF" content= "2002-01-18"> <meta name="DC.Type" scheme=

"DCMIType" content="Text"> <meta name="DC Format"

content="text/html"> <meta name="DC.Format" content="3741 bytes"> <meta name="DC.Identifier" content="http://www.vnu.edu.vn/">

PHAN KET LUAN

Trang 16

Core Mặt khác, thông tin mơ tả trên, khơng hồn toàn

đúng và đầy đủ, chắng hạn thiếu thông tin ngôn ngữ,

thông tin nhà xuất bản không cụ thể Điều đó chứng tỏ,

khi áp dụng Dublin Core vẫn cần có sự tinh chỉnh của

chuyên gia thông tin thư viện, và Dublin Core phải được

bổ sung hoàn thiện hơn Tuy nhiên, hiện nay nó vẫn là

một công cụ đắc lực nhằm hỗ trợ người cán bộ thông

tin - thư viện trong quá trình xử lý tài liệu điện tử Một câu hỏi đặt ra, khi nào có thể thực hiện đầy đủ các yếu tố của khổ mẫu tiêu chuẩn siêu dữ liệu Dublin Core, và

Ngày đăng: 17/03/2015, 09:39

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w