TIM HIEU CAC PHAN TU SIEU DU LIEU DUBLIN CORE NHU MOT PHUONG THUC XAC DINH TAI LIEU DIEN TU TREN WORLD
WIDE WEB (WWW)
Tran Thi Hoang Hanh
K43 - B6 m6én Thong tin - Thu vién GVHD: ThS Cao Minh Kiém
I- PHAN MO DAU
1 Tính cấp thiết của đề tài
Cuộc cách mạng công nghệ thông tin trong vài
chục năm cuối thế kỷ XX đã tác động vô cùng mạnh mẽ
đến nhiều lĩnh vực đời sống xã hội, đồng thời tạo cơ sở
cho việc hình thành một số yếu tố của xã hội thông tin và nền kinh tế tri thức Đặc biệt sự phát triển của
Internet, trong đó mạnh hơn cả là sự bùng nổ dịch vụ
WWVW trong thời gian gần đây đã tác động to lớn đến
hoạt động của các cơ quan thông tin - thư viện Nhiều cơ
quan thông tin - thư viện đã và đang từng bước xây
dựng và hoàn thiện thư viện hiện: đại, trong vốn tài liệu
Trang 2gia tăng và đóng vai trò quan trọng Tài liệu điện tử
ngày càng phổ biến và phát triển mạnh đã được người dùng tin hưởng ứng và đón nhận Tuy nhiên vấn đề đặt
ra là cần phải mô tả, biên mục để quản lý chúng như thế nào nhằm phát huy hết ưu điểm của chúng, đảm bảo việc truy cập tìm kiếm có hiệu quả, góp phần nâng
cao chất lượng phục vụ người dùng tin
Xuất phát từ xu thế xây dựng thư viện điện tử và cho rằng sự hiểu biết về Dublin Core ở Việt Nam còn chưa nhiều chúng tôi mạnh dạn chọn đề tài “Từm hiểu
các phần tử siêu dữ liệu Dublin Core như một phương
thức xác định tài liệu điện tử trên Worid Wide Web” làm báo cáo khoa học
2 Mục tiêu nghiên cứu
Khổ mẫu tiêu chuẩn siêu dữ liệu cho tài liệu điện tử, trong đó có khổ mẫu Dublin Core được ra đời gần
đây, và vẫn là một vấn đề mới đối với Việt Nam Bản
báo cáo này nhằm tìm hiểu những vấn để cơ bản về
Dublin Core, và đề xuất suy nghĩ về ứng dụng Dublin
Core trong mô tả siêu dữ liệu
3 Đối tượng, phạm vi
Do phạm vi của đề tài báo cáo, nên tài liệu điện tử
trên WWW chỉ giới hạn ở dạng HTML, và chúng tôi chỉ xin tập trung tìm hiểu, giới thiệu những nét cơ bản của
Trang 3- Cấu trúc và thành phần của Dublin Core - Đối tượng ứng dụng Dublin Core
- Vấn đề đặt ra với Việt Nam
4 Phương pháp nghiên cứu
Phương pháp nghiên cứu chủ yếu được sử dụng
trong bản báo cáo là phương pháp phân tích và tổng hợp
tài liệu, kết hợp hỏi ý kiến chuyên gia
5 Kết cấu của báo cáo
Ngoài bảng giải thích từ viết tắt, mục lục, tài liệu tham khảo, phụ lục, báo cáo có 3 phần sau:
e Phần mở đều: nội dung chính của phần này được
trình bày ở trên
e Phần nội dung: phần này có 3 chương:
+ Chương 1: Nêu những đặc điểm của tài liệu điện tử, từ đó nảy sinh những uấn đề xử lý thông tin tài
liệu điện tử uò tạo siêu dữ liệu
+ Chương 2: Chương này có 3 mục lần lượt trình bày khói niệm, các đặc điểm, uà cấu trúc của Dublin Core
+ Chương 8: Nêu những đối tượng sử dụng Dublin
Core, uà cách thức ứng dụng DublÌin Core
e Phần kết luận: Đề xuất suy nghĩ của tác giả uề uiệc ứng dụng Dublin Core ở Việt Nam
II- PHẦN TÓM TẮT NỘI DUNG BÁO CÁO
Cùng với sự phát triển vô cùng mạnh mẽ của
Trang 4cách nhanh chóng, và được người dùng tin hưởng ứng
bởi những ưu điểm như nhanh chóng, thuận tiện, vô
biên giới Tuy nhiên, khác với những tài liệu trên giấy được các nhà xuất bản phát hành, tài liệu điện tử có những đặc điểm khác biệt làm cho việc xử lý thông tin
về chúng gặp nhiều khó khăn Có thể nêu ra một số đặc điểm sau:
e Sự không tuân thủ những chuẩn mực xuất bản:
Tài liệu điện tử được nhiều người tham gia biên soạn và
tự phát hành trên WWW nên thường không tuân thủ những chuẩn mực xuất bản đã được xác lập cho các tài liệu trên giấy như khổ mẫu, cách thức trình bày,
e Chất lượng thông tin có thể không được đảm bảo:
Việc kiểm soát chất lượng nội dung tài liệu điện tử trên
WWW thường không được thực hiện, một phần là do các cá nhân có thể tự mình xuất bản các tài liệu Web và
đưa chúng lên Internet, nên chất lượng thông tin có thể phải được đặt ra để xem xét
e Tính không ổn định: Tài liệu trên giấy một khi
đã được xử lý và nhập vào thư viện thì có thể tổn tại lâu
dài, trong khi tài liệu điện tử được tạo ra nhanh chóng,
dễ dàng bị sửa đổi và có thể biến mất bất cứ lúc nào
e Tính phân tán, khó xử lý bằng chuyên gia: Tài
liệu điện tử bị phân tán trên toàn mạng Internet, không
tập trung, khó có thể sử dụng chuyên gia để tìm kiếm
và xử lý thông tin đưa vào CSDL mà phải dùng các
Trang 5+ Những đặc điểm trên cũng làm cho việc
quản lý thông tin về tài liệu điện tử trở nên khó
khăn và phải được quan tâm
Đối uới các tài liệu truyền thống như ấn phẩm,
băng đĩa, để xây dựng các hệ tuống thông tin về chúng
đòi hỏi phải có sự tham gia của các chuyên gia thông tin, xử lý tin qua các quá trình: biên mục mơ tả, định từ
khố, làm tóm tắt chú giải, lập phiếu thư mục, hoặc lập các biểu ghi CSDL thư mục Trong đó, quá trình biên
mục mô tả tài liệu truyền thống được tiến hành dựa
trên một số tiêu chuẩn phổ biến như: AACRI, AACR2,
ISBD, TCVN 4743-89, và gần đây là việc ứng dụng các
chuẩn MARC trong quá trình tin học hoá thư viện Tuy
các tiêu chuẩn này có đặc điểm khác nhau, song chúng
đều dựa trên các yếu tố thông thường của tài liệu
truyền thống, ví dụ như tiêu đề, tác giả, nhà xuất bản Các thông tin mô tả này rất gần với khái niệm "siêu dữ liệu" (metadata) và có thể coi đó là một dạng siêu dữ liệu ở nghĩa rộng Siêu dữ liệu (metadata), hiểu một cách đơn giản nhất, là "Dữ liệu có cấu trúc uê dữ liệu" Nó là dữ liệu mô tả nội dung và các đặc trưng của
tài liệu điện tử Vì vậy dữ liệu về tài liệu điện tử được
coi là siêu dữ liệu, hay dữ liệu về dữ liệu Ở một chừng
mực nào đó, có thể coi siêu dữ liệu của tài liệu điện tử
Trang 6liệu thông thường Nó có ý nghĩa quan trọng trong việc định vị nguồn tài nguyên điện tử nhằm quản lý và khai
thác chúng dễ dàng hơn
Đối với các ấn phẩm, biểu ghi thư mục hoặc phiếu mục lục thư viện là tách hoàn toàn Phiếu mục lục thư
viện sẽ ở trên hộp phiếu mục lục, biểu ghi thư mục nằm trong cơ sở dữ liệu, còn tài liệu ở trong kho Với tài liệu điện tử, siêu dữ liệu và tài nguyên được nó mô tả có một
trong hai dạng liên hệ:
e Các phần tử này được thể hiện trong các biểu ghi riêng biệt hẳn với tài liệu, chẳng hạn trong trường hợp
này là các biểu ghi thư mục
e Siêu dữ liệu được nhúng trực tiếp ngay trong bản thân tài nguyên
Việc tra cứu thông tin trên WWW không đơn giản
như tra cứu thông tin trong một thư viện/ kho tư liệu truyền thống, bởi vì hiện nay hầu hết các tài liệu trực
tuyến không có siêu dữ liệu mô tả (metadata) một cách
đây đủ và chuẩn Các tài liệu trực tuyến trên WWW tồn
tại phổ biến dưới dạng thức HTML (kể cả các cơ sở dữ
liệu hoặc các website tương tác cũng có hình thức thể hiện là các trang HTML)
Một trang tài liệu HTML điển hình bao gồm một
tập những thẻ (tag) nhằm hỗ trợ trình duyệt trên máy
Trang 7khác nhau phục vụ các mục đích khác nhau, song mọi
tài liệu HTML thường bắt đầu bang mét thé mo <html> và kết thúc bởi một thẻ đóng </htm> Bên trong cặp thẻ
<htm]> </htmÌl>, tài liệu HTML được chia thành hai
đoạn, đoạn đầu dược bao trong cặp thẻ <head> </head> và đoạn thân tài liệu trong cặp thẻ
<body> </body> Đoạn đầu gồm những thẻ phản ánh
thông tin cơ bản như tiêu đề tài liệu (title), phiên bản ngôn ngữ HTML sử dụng, công cụ xuất bản tài liệu Trong đó, các thẻ <meta>, một loại thẻ không có thẻ đóng, thường được dùng để phản ánh các thuộc tính của tài liệu Đây chính là siêu dữ liệu cho tài liệu điện tử
Tuy nhiên, không phải tất cả những người tạo ra nguồn
tin điện tử trên Internet đều thiết kế loại thẻ này, mặt khác nếu loại thẻ này được sinh ra cũng không đầy đủ, hoặc tuân theo một chuẩn nhất định Điều này càng gây ra những khó khăn trong việc thu thập, quản lý, và
khai thác nguồn tài liệu điện tử phong phú trên [nternet
Hiện nay, để tra cứu thông tin trên Internet chúng ta vẫn thường dùng các máy tìm kiếm (hay còn gọi là Search Engine) như: Google, Altavista, Yahoo và máy
tìm kiếm Việt Nam như Vinaseek, PanVietnam Việc thực hiện tìm kiếm thông tin trên Internet của các công
Trang 8Web được các chương trình đặc biệt của các máy tìm tin này tạo ra các siêu dữ liệu của tài liệu điện tử (trang Web) và văn bản trong trang Web Công việc này được thực hiện hoàn toàn tự động nhờ các phần mềm dùng để
đánh chỉ mục các tài liệu bằng các kỹ thuật thường được
gọi là spider hoặc các robo¿s Nếu không có các quy định thống nhất cho các khổ mẫu siêu dữ liệu thì việc tạo ra các thông tin chính xác để đưa vào CSDL máy tìm tin sẽ không đảm bảo chất lượng, ảnh hưởng đến chất lượng tìm tin
Chính vì lý do này, với mong muốn các tài liệu
xuất bản trên WWW có thể được biên mục tự động một cách nhanh chóng thuận tiện người ta đã kiến nghị đưa ra các chuẩn khổ mẫu về siêu dữ liệu Tháng
3/1995 tại thành phố Dublin, bang Ohio của Mỹ, một
cuộc hội thảo nhằm thiết lập được một bộ khung cốt lõi
ngữ nghĩa, giúp ích cho việc biên mục các nguồn tài
nguyên trên WWW Đó chính là các yếu tố siêu dữ liệu
Dublin Core Khổ mẫu tiêu chuẩn Dublin Core là một
tập hợp các phần tử siêu dữ liệu uới mục đích mô tả nội
dung các nguồn tài nguyên điện tử (trên mạng) Những
sáng kiến ban đầu về mô tả tài nguyên điện tử thu hút sự quan tâm của nhiều nhóm chuyên gia mô tả tài
Trang 9Các đặc điểm của Dublin Core + Tạo lập và duy trì dế dàng
Tập hợp các yếu tố Dublin Core chỉ giữ lại những gì ahỏ nhất và đơn giản nhất có thể được, cho phép
những người không có chuyên môn cũng dễ dàng tạo lập các bản ghi mô tả nguồn tài nguyên thông tin, khi được curg cấp đầy đủ thông tin thu thập từ những nguồn tài
nguyên này trên môi trường mạng Dublin Core chỉ có 15 yếu tố Ứng dụng chuẩn mô tả siêu dữ liệu Dublin
Co*e cho phép tiết kiệm những khoảng thời gian cần có
kh sử dụng kỹ thuật mô td thư mục truyền thống như
đọc, nghe hay xem toàn bộ tài hiệu
+ Ngữ nghĩa dễ hiểu
Việc khai thác thông tin trong tài nguyên điện tử
gặ› nhiều khó khăn bởi sự khác biệt về thuật ngữ và kỹ năag mô tả từng lĩnh vực tri thức cụ thể Dublin Core có th hỗ trợ một "người du lịch số " ('digital tourist') - một
ngiời tìm kiếm không có chuyên môn, tìm được "đường" bằ›g cách cung cấp một tập hợp các yếu tố phổ biến ma ngi nghĩa của chúng rất dễ hiểu và được hỗ trợ ở mọi
Trang 10+ Phạm vi sử dụng quốc tế rộng lớn
Tập hợp yếu tố Dublin Core khởi đầu được phát triển trên tiếng Anh, nhưng các phiên bản được tạo lập
trên nhiều ngôn ngữ: Phần Lan, Na Uy, Thái, Nhật
Bản, Pháp, Bồ Đào Nha, Đức, Huy Lạp, Indonesia, Tây
Ban Nha Mặc dù những thách thức về mặt kỹ thuật của việc quốc tế hoá trên World Wide Web không trực tiếp liên quan đến sự phát triển của Dublin Core, song sự phát triển và áp dụng tiêu chuẩn này có ý nghĩa đến
bản chất đa dạng ngôn ngữ và đa dạng văn hoá của thông tin điện tử toàn nhân loại
+ Khả năng mở rộng thuận lợi
Khi cân bằng giữa nhu cầu đơn giản hố việc mơ tả
tài nguyên điện tử với nhu cầu thu thập chính xác
thông tin, những người phát triển Dublin Core đã ghi
nhận tầm quan trọng của việc cung cấp một cơ chế mở
rộng tập hợp các yếu tố Dublin Core đế bổ sung thêm
những yêu cầu khai phá dữ liệu Điều này được trông đợi vào việc một nhóm chuyên gia siêu dữ liệu sẽ tạo lập
và quản lý các tập siêu dữ liệu bổ sung Các yếu tố siêu dữ liệu từ những tập này sẽ được liên kết với siêu dữ
liệu Dublin Core, để thoả mãn khả năng mở rộng
III- CẤU TRÚC VÀ CÁC YẾU TỐ
CỦA DUBLIN CORE
Trang 11bang 1), trong từng trường hợp cụ thể, các yếu này không nhất thiết bắt buộc phải có đầy đủ và có thể lặp
Bảng 1 So sánh sự tương ứng các yếu tố thư mục giữa Dublin Core và một số trường của MARC 21 Tác giã 100, 110, 700 Creator Nhan đề 245 Title Chu dé 600, 610, 650, 651, 653 | Subject Mô tả 520 Description Nhà xuất bản 260 Publisher Người cộng tác 720 Contributor Thời gian xuất bản | 260 Date Kiểu 655 Type Khổ mẫu 856 Format Định danh 024 Identifier | Nguồn 786 Source Ngôn ngữ 546
| Liên quan 787 Relation
| Bao quát 500 Coverage
Quyền 540 Rights
* DUBLIN CORE VÀ MARC 21
Khổ mẫu MARC 21 - khổ mẫu thư mục của thế
kỷ XXI có nhiều ưu điểm và được dùng phổ biến (tại Hội
Trang 12thảo Quốc gia về MARC Việt Nam tổ chức vào cuối năm
2001 tại Trung tâm Thông tin - Tư liệu Khoa học và
Công nghệ, MARC 21 được khuyến nghị sử dụng), tuy
nhiên, nó không đáp ứng được những yêu cầu đặt ra đối
với nguồn tài liệu điện tử Có thể thấy rằng, các dữ liệu
mô tả nội dung và các đặc trưng của nguồn tài liệu điện
tử không đầy đủ, và hồn tồn khơng giống như các đặc
trưng của tài liệu thông thường Do vậy gần 300 trường
của MARC 21 trở nên thừa, và phức tạp đối với tài liệu
điện tử (xem bảng 1) Trong khi đó, Dublin Core, có cấu trúc đơn giản, lại phù hợp, chuẩn xác với những đặc
trưng của tài liệu điện tử, nhằm tạo ra siêu dữ liệu đáp
ứng được những yêu cầu đặt ra trong việc thu thập và khai thác nguồn tài liệu điện tử trên WWW
Đối tượng sử dụng Dublin Core: Ai cũng có thể sử
dụng siêu dữ liệu Dublin Core để mô tả nguồn tài
nguyên điện tử để phục vụ hệ thống thông tin, từ những
cán bộ thư viện, các chuyên gia về siêu dữ liệu, các
chuyên gia biên mục đến tất cả những người tạo ra tài
nguyên
Các trang Web chỉ là một trong những dạng tài nguyên phổ biến nhất được ứng dụng các mô tả Dublin
Core, tẰong các thẻ meta ở đầu các tài liệu HTML sẽ
được thêm một số thông tin mô tả để có thể sử dụng cho
Dublin Core
Trang 13các hệ thống mô tả cho nhiều nhóm lĩnh vực khác nhau:
tô chức giáo dục, thư viện, cơ quan chính phủ, lĩnh vực nghiên cứu khoa học, xuất bản Web, những công việc yéu cầu nhiều đến hoạt động tìm kiếm định vị, các công
ty với hệ thống quản trị trì thức rất rộng
Ứng dụng Dublin Core như thế nào ?
Siêu dữ liệu Dublin Core có thể được tạo ra bằng
hai cách:
- Ngay từ khi tài nguyên được tạo lập hoặc trong
quá trình cập nhật tài nguyên, theo những nguyên tắc, cú pháp nhất định
- Được bổ sung vào tài nguyên nhờ những chương
trình phần mềm tự động
Một số dịch vụ như DG (http://www.ukoln
ac.uk/metadata/dcdot/) "thu" một trang Web và tự động tạo siêu dữ liệu Dublin Core tương ứng cho trang Web
đó, dưới hình thức các thẻ <meta> của ngôn ngữ HTML, hoặc RDF/XML, thích hợp để nhúng vào đoạn đầu của mỗi trang Web (ứng với cặp thẻ <head> </head>) Quá trình sử dụng những dịch vụ này như sau:
se Bước 1: Nhập vào địa chỉ trang chủ của dịch vụ
Trang 14e Bước 3: Trên màn hình xuất hiện siêu dữ liệu Dublin Core do máy chủ dịch vụ xử lý và trả kết quả về
e Bước 4: Tình chỉnh nội dung siêu dữ liệu Dublin Core nếu dịch vụ cho phép chỉnh sửa và đưa vào cơ sở
dữ liệu hoặc nhúng vào tài nguyên (nếu có đủ thẩm quyền)
Ví dụ: Khổ mẫu tiêu chuẩn mô tả siêu dữ liệu
Dublin Core tương ứng với một số trang Web cụ thể (chưa thực hiện bước 4)
e Trang chủ của website Đại học Khoa học Xã hội và Nhân văn
<link rel="schema.DC" href="http://purl.org/dc"> <meta name="DC.Title" content="dhkhxhnv"> <meta name="DC.Subject" content= "Nghiên cứu Khoa học; Tổ chức; Khoa Lịch sử; Bộ môn Thông tin Thư viện; Bộ mơn
tiếng nước ngồi; Khoa Tâm lý học; Đào tạo; Khoa Triết
học; Khoa Quốc tế học; Trung tâm -Ngoại ngữ; Khoa Ngôn ngữ học; Trung tâm Tin học ứng dụng; Khoa Lưu trữ học và Quản trị văn phòng; Hợp tác Quốc tế; Khoa
Du lịch; Khoa Giáo dục quốc phòng; Bộ môn Tư tưởng
Hồ Chí Minh và Khoa học Chính trị; Khoa Báo chí; Trung tâm Nghiên cứu Châu Á - Thái Bình Dương; Giới thiệu;
Khoa Tiếng Việt và Văn hóa Việt Nam cho người nước
Trang 15hoc"> <meta name="DC.Publisher" content="Asia Pacific Network Information Center"> <meta name="DC.Date" scheme="W3CDTF" content="2001-03-15"> <meta name="DC.Type" scheme="DCMIType" ontent="Text"> <meta name="DC.Format" content="text/html"> <meta name="DC.Format" content="10339 bytes"> <meta name="DC Identifier"
content="http://www.vnu.edu.vn/dhkhxhnv/">
e Trang chủ của website Đại học Quốc gia Hà Nội
<link rel="schema.DC" href="http://purl.org/dc"> <meta name="DC.Title" content="Vietnam National University, Hanoi"> <meta name="DC.Publisher" content="Asia Pacific Network Information Center"> <meta name="DC.Date" scheme="W3CDTF" content= "2002-01-18"> <meta name="DC.Type" scheme=
"DCMIType" content="Text"> <meta name="DC Format"
content="text/html"> <meta name="DC.Format" content="3741 bytes"> <meta name="DC.Identifier" content="http://www.vnu.edu.vn/">
PHAN KET LUAN
Trang 16Core Mặt khác, thông tin mơ tả trên, khơng hồn toàn
đúng và đầy đủ, chắng hạn thiếu thông tin ngôn ngữ,
thông tin nhà xuất bản không cụ thể Điều đó chứng tỏ,
khi áp dụng Dublin Core vẫn cần có sự tinh chỉnh của
chuyên gia thông tin thư viện, và Dublin Core phải được
bổ sung hoàn thiện hơn Tuy nhiên, hiện nay nó vẫn là
một công cụ đắc lực nhằm hỗ trợ người cán bộ thông
tin - thư viện trong quá trình xử lý tài liệu điện tử Một câu hỏi đặt ra, khi nào có thể thực hiện đầy đủ các yếu tố của khổ mẫu tiêu chuẩn siêu dữ liệu Dublin Core, và