Vận hành MODS

Một phần của tài liệu Tìm hiểu ngôn ngữ XML một số ứng dụng trong lĩnh vực thông tin thư viện (Trang 49 - 65)

6. Bố cục của Khóa luận

3.3.2. Vận hành MODS

MODS có nhiệm vụ điều hòa các yêu cầu xung đột về độ lớn và nét đặc trưng đã ảnh hưởng trong Dublin Core và cản trở tính ứng dụng của nó trong việc trung hòa cho siêu dữ liệu. Mặc dù giống với chuẩn Dublin Core, MODS có chứa cơ chế kỹ thuật để mở rộng, nó đưa ra bộ phần tử chi tiết hơn nhiều so với Dublin Core. Vì vậy, MODS cho phép mô tả một khối lượng tài liệu lớn mà không cần viện dùng đến các phần tử bên ngoài. Từ đó, MODS sẵn sàng hơn cho việc chuyển đổi liên thông với các biểu ghi MODS khác, và thông qua sơ đồ cụ thể có thể liên thông tới các lược đồ siêu dữ liệu khác.

MODS, giống với METS và nhiều chuẩn siêu dữ liệu khác, được viết bằng XML, điều này đảm bảo rằng nó mạnh và không bị phụ thuộc vào bất kỳ gói phần mềm nào. Nó dựa trên một tập hợp trường của MARC, nhưng khác ở chỗ MODS sử dụng từ ngữ chứ không để tên trường bằng số như MARC. Điều này giúp dễ dàng hơn cho người sử dụng vì không đòi hỏi họ phải có kiến thức về chuẩn MARC và các quy tắc của nó. MODS cũng dễ dàng cho việc sử dụng hơn MARC vì nó đã cắt giảm để bộ phần tử nhỏ hơn và tổ chức lại các trường, nhóm chúng vào các hợp phần logic hơn.

So sánh với Dublin Core, MODS cung cấp bộ phần tử đầy đủ và cụ thể hơn: Theo phiên bản 3.3, có 20 phần tử cấp cao (top-level element), 2 phần tử gốc (root element) và 64 phần tử dưới nữa cho phép các biểu ghi mang tính mô tả cụ thể có thể được tạo ra đối với nhiều loại tài liệu. Website của MODS

cung cấp trên trang chủ các file mẫu cho 9 loại tài liệu, bao gồm: sách, ấn phẩm tiếp tục, bản đồ, tài liệu âm thanh, hình ảnh và tài liệu đa phương tiện, minh họa đầy đủ dòng đối tượng có thể xử lý được bằng chuẩn MODS.

Ví dụ về file MODS mô tả tài liệu sách lấy từ website MODS của Thư viện Quốc hội Mỹ:

<mods> <titleInfo>

<title>Sound and fury :</title>

<subTitle>the making of the punditocracy /</subTitle> </titleInfo> <name type="personal"> <namePart>Alterman, Eric</namePart> <role> <text>creator</text> </role> </name> <typeOfResource>text</typeOfResource> <genre authority="marc">bibliography</genre> <originInfo> <place> <code authority="marc">nyu</code> <text>Ithaca, N.Y</text> </place>

<publisher>Cornell University Press</publisher> <dateIssued>c1999</dateIssued> <dateIssued encoding="marc">1999</dateIssued> <issuance>monographic</issuance> </originInfo> <language authority="iso639-2b">eng</language> <physicalDescription> <form authority="marcform">print</form> <extent>vii, 322 p. ; 23 cm.</extent> </physicalDescription>

<note>

Includes bibliographical references (p. 291-312) and index. </note> <subject authority="lcsh"> <topic>Journalism</topic> <topic>Political aspects</topic> <geographic>United States.</geographic> </subject> <subject authority="lcsh"> <geographic>United States</geographic> <topic>Politics and government</topic> <temporal>20th century.</temporal> </subject> <subject authority="lcsh"> <topic>Mass media</topic> <topic>Political aspects</topic> <geographic>United States.</geographic> </subject> <subject authority="lcsh">

<topic>Television and politics</topic> <geographic>United States.</geographic> </subject>

<subject authority="lcsh"> <topic>Press and politics</topic>

<geographic>United States.</geographic> </subject> <subject authority="lcsh"> <topic>Talk shows</topic> <geographic>United States.</geographic> </subject>

<classification authority="lcc">PN4888.P6 A48 1999</classification> <classification edition="21" authority="ddc">071/.3</classification>

<identifier type="isbn">0801486394 (pbk. : acid-free, recycled paper)</identifier> <identifier type="lccn">99042030</identifier>

<recordContentSource>DLC</recordContentSource> <recordCreationDate encoding="marc">990730</recordCreationDate> <recordChangeDate encoding="iso8601">20000406144503.0</recordChangeDate> <recordIdentifier>11761548</recordIdentifier> </recordInfo> </mods>

MODS cung cấp 20 phần tử cấp cao để mô tả đầy đủ nhất các yếu tố của một tài liệu. Nhìn ví dụ trên có thể thấy phạm vi và nội dung của các phần tử cấp cao này được nhận biết rõ ràng qua tên của chúng. Các phần tử lớn bọc ngoài chia thành các phần tử hẹp hơn với phạm vi ngữ nghĩa cụ thể hơn.

Phần tử cấp cao:  titleInfo  name  typeOfResource  genre  originInfo  language  physicalDescription  abstract  tableOfContents  targetAudience  note  subject  classification  relatedItem  identifier  location  accessCondition  part  extension  recordInfo Phần tử gốc: mods modsCollection

Dưới đây xin đưa ra nét chính về một số phần tử quan trọng trong số các phần tử kể trên.

Đây là phần tử cấp cao duy nhất bắt buộc phải có. Là phần tử cha của 5 phần tử con: title (nhan đề chính), subtitle (nhan đề phụ), partNumber (số thứ tự tập), partName (tên tập) và nonSort (yếu tố không sắp xếp); trong đó, title cũng là bắt buộc. Phần tử cuối cùng, nonSort, chỉ ra những phần của nhan đề sẽ được tính là ký tự không sắp xếp vào khi lập chỉ mục.

titleInfo có thể được bổ sung thêm bởi một số thuộc tính như: chỉ rõ

loại nhan đề được nhập vào biểu ghi (nhan đề chính hay nhan đề song song), ngôn ngữ biên mục…

name (thông tin trách nhiệm):

Tương đương với các trường Creator (người tạo lập) và Contributor (người đóng góp) của Dublin Core, phần tử name được sử dụng để ghi tên cá nhân hoặc tổ chức chịu trách nhiệm việc tạo lập nội dung trí tuệ của tài liệu, hoặc để ghi tên những người đóng góp một phần vào đó (ví dụ: làm minh họa, in ấn…). Đi kèm có thuộc tính type chỉ ra tên đó là tên tác giả cá nhân hay tập thể, có thể là tên hội nghị.

Tên có thể phân chia thành họ và tên và được ghi vào với dạng thức không có cấu trúc, phục vụ cho mục đích hiển thị. Vai trò tác giả cũng được định theo nhiều cách ghi, có thể theo bảng mã tác giả (như bảng mã của MARC) hoặc bằng văn bản thường. Mô tả nguyên văn theo tài liệu cũng có thể được dùng để mô tả về tác giả một cách chi tiết hơn, đây là đặc điểm không có trong MARC.

originInfo (thông tin xuất bản):

originInfo là một phần tử cha khác, cho thông tin về nguồn gốc của tài

liệu hoặc thông tin xuất bản. Các phần tử con cho thông tin về thời gian bắt đầu tài liệu, đó là thời gian xuất bản hoặc thời gian tạo lập tài liệu (trong trường hợp tài liệu là tài liệu viết tay, không xuất bản). Khu vực này cũng cho ghi thông tin về nhà xuất bản, lần xuất bản, tài liệu là tài liệu chuyên khảo hay

tiếp tục, định kỳ xuất bản của nó. Siêu dữ liệu có thể nhập trong khu vực này mang tính mở rộng và linh hoạt.

Một số phần tử con như: place (nơi xuất bản), publisher (nhà xuất bản), dateIssued (thời gian xuất bản), dateCreated (thời gian tạo lập), dateValid (thời gian có giá trị), dateModified (thời gian chỉnh sửa), edition (lần xuất bản), frequency (tần suất).

physicalDescription (Mô tả vật lý):

physicalDescription là phần tử cha, chứa nhiều phần tử con cho phép

mô tả về cơ bản đặc điểm vật lý của tài liệu. Nhiều phần tử trong số này chỉ phù hợp mô tả tài liệu điện tử, gồm có:

- internetMediaType: mô tả kiểu dữ liệu

- reformattingQuality: mô tả về chất lượng (mức độ xử lý, độ phân giải…)

- digitalOrigin: cho biết thông tin tài liệu là dạng số từ đầu hay được số hóa, định dạng lại.

Các phần tử con khác: - form: dạng tài liệu

- extent: thông tin về số trang, minh họa…

- note: thông tin khác về đặc điểm vật lý của tài liệu.

subject (Chủ đề):

Phần tử subject dùng để mô tả nội dung trí tuệ của tài liệu bằng cách sử dụng các thuật ngữ chủ đề. Phần tử subject chia nhỏ thành các phần tử phụ xác định các loại khác nhau của thuật ngữ chủ đề: phụ đề nội dung, phụ đề địa lý, hay phụ đề thời gian.

Phần tử phụ hierarchicalGeographic xác định một hệ thống thứ bậc

của thuật ngữ chủ đề địa lý, đi từ khái quát (như Châu lục) đến cụ thể (như Thành phố).

Một phần tử phụ khác, cartographic, cho phép mô tả chi tiết tọa độ

không gian, cùng với tỉ lệ và phép chiếu dùng cho bản đồ.

Nhìn chung, MODS cung cấp bộ thuật ngữ đa dạng và linh hoạt cho việc mô tả chủ đề.

Extension (Mở rộng):

Mặc dù MODS cung cấp bộ phần tử rộng hơn nhiều so với Dublin Core, vẫn có thể xảy ra khả năng nó không đáp ứng đủ tất cả các yêu cầu về siêu dữ liệu cho một tài liệu nào đó. Trong trường hợp đó, MODS cũng tạo điều kiện thuận lợi cho việc mở rộng bộ phần tử bằng cách cho phép dữ liệu ghi trong các lược đồ khác được gắn vào biểu ghi của MODS. Những dữ liệu thêm này được mô tả bởi một không gian tên XML khác (namespace).

Các phần tử MODS khác:

typeOfResource: Loại tài liệu được mô tả (văn bản, bản đồ, tài liệu

đa phương tiện…).

genre: thể loại, thuật ngữ mô tả chi tiết hơn so với typeOfResource.

language: mô tả ngôn ngữ của tài liệu, sử dụng mã ngôn ngữ.

abstract: tóm tắt nội dung tài liệu.

tableOfContents: mục lục nội dung tài liệu, có thể mô tả trực tiếp

hoặc đưa một liên kết (link) đến danh mục đó.

targetAudience: thuật ngữ xác định đối tượng người sử dụng (ví dụ:

người lớn, thiếu niên…), lấy từ danh mục có kiểm soát của MARC.  note: phần tử này dành cho việc ghi chú thêm thông tin liên quan mà

classification: số phân loại, lấy từ LCC hoặc DDC.

identifier: số định danh (như ISBN hoặc ISSN).

location: mã xếp giá, chỉ tới vị trí của tài liệu.

accessRestriction: thông tin về mức độ hạn chế truy cập tài liệu, bao

gồm cả thông tin bản quyền.

recordInfo: thông tin về việc tạo lập biểu ghi MODS, gồm ngày

tháng tạo lập, số kiểm soát…

CHƯƠNG 4

ĐÁNH GIÁ VÀ KIẾN NGHỊ

Đẩy mạnh ứng dụng công nghệ thông tin vào hoạt động nghề nghiệp của mình đã và đang giúp cho ngành Thông tin - Thư viện nước ta thực hiện chuẩn hóa nghiệp vụ. Các công nghệ được áp dụng để có thể tăng cường khả năng trao đổi các nguồn dữ liệu trên các cơ sở dữ liệu khác nhau về cấu trúc cũng như ngôn ngữ.

Giai đoạn đầu tin học hóa hoạt động nghiệp vụ thư viện, chuẩn MARC nói chung và MARC 21 nói riêng đóng vai trò rất quan trọng, tạo ra hiệu quả

xã hội không nhỏ, đáp ứng nhu cầu lưu trữ và tìm kiếm thông tin. Tuy nhiên, trong quá trình sử dụng, MARC đã bộc lộ nhiều hạn chế như:

- Quá phức tạp cho những người sử dụng không được đào tạo sâu về nghiệp vụ thư viện.

- Có nhiều khổ mẫu MARC khác nhau. - Thiếu tính linh hoạt.

- Rất chậm khi cần thay đổi.

- Không phù hợp để mô tả tài liệu số và nguồn thông tin từ Web.

Môi trường thông tin đang dần thay đổi, từ các tài liệu vật lý sang các nguồn tin điện tử, từ các biểu ghi thư mục sang nguồn thông tin web, từ các tài liệu cố định không thay đổi đến các thông tin cập nhật nhanh chóng, tức thì. Nguồn thông tin phong phú hiện nay đã dần vượt khỏi mức độ kiểm soát của thư viện, và việc tiếp cận tới chúng chỉ cần qua một giao diện duy nhất là yêu cầu rất cao đặt ra đối với công tác thư viện. Với MARC, công việc này là không thể thực hiện, chính vì vậy một công nghệ hiện đại hơn đã xuất hiện cùng với ngôn ngữ XML tỏ ra hiệu quả hơn rất nhiều. Nếu như MARC là ngôn ngữ đánh dấu chỉ dành cho thông tin thư mục thì XML là ngôn ngữ đánh dấu vượt trội hơn nhiều vì nó có thể áp dụng đối với bất kỳ loại dữ liệu nào. Ưu thế của XML so với MARC có thể kể đến:

- Thay vì định dạng ngôn ngữ mặc định là UTF-8, ngôn ngữ sử dụng trong XML rất đa dạng, chỉ cần gắn thuộc tính xml:lang cho bất kỳ phần tử nào trong tài liệu.

- Tính mở rộng.

- Khả năng liên thông.

- Xử lý tốt hơn đối với các dữ liệu thư mục mang tính thứ bậc. - Cho phép liên kết giữa các dữ liệu.

- Tăng cường khả năng chia sẻ dữ liệu.

- Nhanh chóng trở thành định dạng dữ liệu phổ biến cho nguồn thông tin web.

Việc sử dụng XML đã mở ra nhiều cơ hội cho lĩnh vực thư viện:

- Dữ liệu có thể tạo ra một lần và xuất bản với nhiều định dạng khác nhau.

- Biểu ghi thư mục có thể được xem trực tiếp bằng các trình duyệt web, các máy tìm tin.

- Biểu ghi có thể chuyển đổi giữa XML và MARC mà không bị mất dữ liệu.

- Các nguồn tin truyền thống có thể hợp nhất với các kho dữ liệu phát triển nhanh chóng về văn bản số, cơ sở dữ liệu, và biểu ghi siêu dữ liệu.

TS. Hoàng Lê Minh phát biểu trong bài tham luận “Giải pháp công nghệ hỗ trợ Liên thông” tại Lễ kỷ niệm một năm thành lập Liên hiệp Thư

viện các trường Đại học khu vực phía Nam đã nhấn mạnh tầm quan trọng của việc ứng dụng các giải pháp công nghệ nguồn mở và các chuẩn mở trong việc xây dựng các kho dữ liệu mở để quản lý và chia sẻ thông tin trên Internet và đặc biệt lưu ý rằng XML là lựa chọn tất yếu để thay thế cho MARC trong bối cảnh Việt Nam.

XML là một công nghệ mới, song với khả năng ứng dụng cao nó đã khẳng định được vai trò của mình trong nhiều lĩnh vực trong đó có lĩnh vực Thông tin - Thư viện. Các thư viện trên thế giới, đặc biệt là Thư viện Quốc hội Mỹ đã và đang ứng dụng công nghệ này và đạt nhiều thành tựu lớn thúc đẩy sự phát triển của hoạt động thư viện. Đối với Việt Nam, trong điều kiện phát triển chưa cao và kinh phí còn hạn chế nên việc ứng dụng XML trong lĩnh vực Thông tin - Thư viện còn chưa được phổ biến.

Với một số hiểu biết có được sau khi nghiên cứu thực hiện Khóa luận này, tôi xin đưa ra một số kiến nghị như sau:

- Về công nghệ:

Đầu tư kinh phí về máy móc, trang thiết bị hiện đại, nâng cao hiệu quả hoạt động, đồng thời tăng cường vốn tài liệu thư viện, đặc biệt đối với dạng tài liệu điện tử, tài liệu số.

Lựa chọn ứng dụng công nghệ phù hợp với tình hình phát triển thư viện nước ta, đặc biệt lưu ý đến XML vì đây là một công nghệ ưu việt đã được chứng minh từ nhiều nước trên thế giới.

Nên sử dụng MARC XML Schema vì nó đơn giản hơn MARC DTD, cho phép trao đổi thông tin giữa các nguồn khác nhau bằng các kỹ thuật khác nhau.

Phát triển tập hợp siêu dữ liệu XML, tạo điều kiện thuận lợi cho việc chia sẻ thông tin với các ứng dụng bên ngoài khác.

- Về con người:

Tăng cường đào tạo đội ngũ cán bộ về trình độ tin học cũng như nghiệp vụ chuyên môn, có thể nhanh chóng tiếp cận và sử dụng công nghệ hiện đại.

Giao lưu học hỏi kinh nghiệm với các nước tiên tiến trên thế giới, khảo sát các mô hình thư viện hiện đại để thấy được cách thức tổ chức hoạt động, vận hành hệ thống thư viện của họ.

Mời các ý kiến đóng góp của các chuyên gia nước ngoài về việc lựa chọn công nghệ phù hợp, có thể áp dụng đạt hiệu quả cao.

KẾT LUẬN

Sự ra đời của ngôn ngữ đánh dấu nói chung và ngôn ngữ đánh dấu mở rộng - XML nói riêng đã làm thay đổi rõ rệt đối với lĩnh vực công nghệ thông tin cũng như các lĩnh vực khác đã ứng dụng nó. XML, với sự kế thừa những ưu điểm và khắc phục những nhược điểm của SGML và HTML, đã trở thành một ngôn ngữ đánh dấu linh hoạt với nhiều tính năng mở rộng phù hợp với mục đích sử dụng.

Lĩnh vực Thông tin - Thư viện cũng là một trong những lĩnh vực đã ứng dụng thành công ngôn ngữ đánh dấu mở rộng XML. Thư viện Quốc hội Hoa Kỳ đã và đang nghiên cứu và biến đổi nó trở thành công cụ đặc trưng cho ngành Thông tin - Thư viện. Về khía cạnh biên mục hiện đại, các khổ mẫu thư mục sử dụng XML làm khuôn dạng để mã hóa các trường thông tin siêu dữ liệu của tư liệu được biên mục, ví dụ như: Dublin Core, MARC XML, MODS, METS, ONIX, TEI…

XML là một công nghệ mới, với nhiều tính năng ưu việt nên đã được ứng dụng rất nhiều đối với các thư viện trên thế giới. Song, đối với Việt Nam việc ứng dụng công nghệ này chưa được phổ biến. Việc ứng dụng công nghệ thông tin là rất quan trọng, giúp cho hệ thống thư viện Việt Nam được kéo lại gần hơn với các thư viện trên thế giới. Hy vọng rằng trong tương lai không xa, thư viện Việt Nam có thể tiếp cận, sử dụng công nghệ XML cũng như các

Một phần của tài liệu Tìm hiểu ngôn ngữ XML một số ứng dụng trong lĩnh vực thông tin thư viện (Trang 49 - 65)

Tải bản đầy đủ (PDF)

(65 trang)