XML và HTML

Một phần của tài liệu Tìm hiểu ngôn ngữ XML một số ứng dụng trong lĩnh vực thông tin thư viện (Trang 29)

6. Bố cục của Khóa luận

2.5. XML và HTML

XML có nguồn gốc giống như HTML, cùng bắt nguồn từ ngôn ngữ đánh dấu tổng quát chuẩn - SGML. Văn bản XML và HTML đều sử dụng các thẻ (tags), các phần tử được đặt trong cặp dấu “<” và “>” (mở và đóng) và

dùng thuộc tính của các phần tử với cú pháp name= “value”.

XML là ngôn ngữ mở rộng so với HTML. HTML là một ứng dụng của SGML, còn XML là một tập con của SGML. Hầu hết tài liệu HTML có thể định nghĩa được trong XML, chính vì vậy, dễ dàng để tương thích XML với các trang HTML có sẵn.

Trong khi HTML đặc biệt chú ý tới việc từng thẻ và thuộc tính có ý nghĩa gì và phần văn bản giữa các thẻ đó hiển thị như thế nào trên trình duyệt thì XML sử dụng các thẻ chỉ để phân định ranh giới giữa các đoạn dữ liệu còn

việc đọc và xử lý dữ liệu hoàn toàn là nhiệm vụ của các ứng dụng. Khác với HTML, số lượng và tên gọi các phần tử trong XML là không hạn chế.

XML là một văn bản nhưng không giống với những loại văn bản thông thường mà ta có thể đọc được. Một thuận lợi của khuôn dạng văn bản là cho phép người đọc có thể đọc nó với bất kỳ bộ soạn thảo văn bản nào tùy thích. Các khuôn dạng văn bản cũng cho phép tìm lỗi dễ dàng hơn trong các ứng dụng. Giống như HTML, các file XML là những file văn bản được tạo ra không phải với mục đích đề đọc, nhưng vẫn có thể đọc nếu thấy cần thiết. Tuy nhiên XML có điểm không bằng HTML, các luật dùng trong XML rất khắt khe, chỉ cần quên một thẻ, hay một thuộc tính không đi kèm với nội dung sẽ làm cho toàn bộ file XML đó ngừng hoạt động, trong khi đó lỗi này ở file HTML có thể được bỏ qua.

XML được xem như là ngôn ngữ mạnh hơn HTML do nó mang lại thông tin đầy đủ về dữ liệu. XML cung cấp “siêu dữ liệu” metadata hay còn được gọi là “dữ liệu về dữ liệu” (data about data). XML cho phép các nhà phát triển và quản trị công nghệ thông tin mô tả thông tin có liên quan tới các nguồn thông tin khác. Ngôn ngữ XML là giải pháp tích hợp cho vấn đề trao đổi dữ liệu tự động giữa các kho thông tin trên mạng Internet.

CHƯƠNG 3

MỘT SỐ ỨNG DỤNG XML TRONG LĨNH VỰC THÔNG TIN - THƯ VIỆN

3.1. MARC XML

Như chúng ta đã biết, khổ mẫu MARC (Machine Readable Catalog) là khổ mẫu mô tả tài liệu đang được sử dụng phổ biến. Trung tâm phát triển mạng và tiêu chuẩn MARC của Thư viện Quốc hội Hoa Kỳ đã nghiên cứu và phát triển một khổ mẫu để làm việc với dữ liệu MARC trong môi trường XML. Khổ mẫu này linh hoạt và mở rộng cho phép người sử dụng làm việc với dữ liệu MARC theo những cách tiếp cận cụ thể mà họ muốn. Khổ mẫu bao gồm nhiểu thành tố như lược đồ, bảng định kiểu, và các công cụ phần mềm được phát triển và duy trì bởi Thư viện Quốc hội.

Có thể hình dung MARC-XML như hai cái cổng của một ngôi nhà. Cổng MARC kèm theo giao thức Z39.50 là cổng được sử dụng từ trước đến giờ để trao đổi biểu ghi thư mục. Ngày nay yêu cầu trao đổi thông tin không dừng lại ở thông tin dạng thư mục mà cần cao cấp hơn (hình ảnh, hình động, âm thanh…), cổng MARC không đảm đương được việc này, cần có một cổng hiện đại hơn, và đó chính là cổng XML có thể trao đổi được tất cả các dạng thông tin.

MARC XML được sử dụng cho các vấn đề như sau:

 Mô tả một biểu ghi MARC hoàn chỉnh trong môi trường XML.

 Sử dụng như một lược đồ mở rộng cho Chuẩn mã hóa và truyền tải siêu dữ liệu (Metadata Encoding and Transmission Standard - METS).

 Dùng để mô tả siêu dữ liệu cho giao thức “gặt hái siêu dữ liệu” OAI

 Có thể bao gói siêu dữ liệu XML. Một vài thuận lợi của MARC XML:

 Lược đồ MARC XML hỗ trợ tất cả các định dạng dữ liệu mã hóa của MARC.

 Khổ mẫu MARC XML là một thành phần có định hướng, cấu trúc mở rộng cho phép người sử dụng thực hiện bằng nhiều mảnh phần mềm khác nhau để xây dựng giải pháp.

Giới hạn đối với MARC XML: Tính hợp lệ của MARC không bị chi phối bởi lược đồ cấu trúc mà bởi phần mềm bên ngoài.

3.1.1. MARC DTD

Thuật ngữ MARC DTD (Machine Readable Catalog Document Type Definition) liên quan đến việc áp dụng SGML - ngôn ngữ đánh dấu tổng quát

chuẩn. SGML là một kỹ thuật để biểu diễn dữ liệu ở dạng đọc máy, đã được công nhận là chuẩn quốc tế - ISO 8879. Nó được phát triển để đáp ứng nhu cầu về một chuẩn phi độc quyền cho việc mã hóa văn bản, từ đó dữ liệu đọc máy có thể dễ dàng trao đổi trong môi trường văn bản mã hóa. SGML được dùng rộng rãi trong công nghiệp xuất bản nơi sử dụng các hệ tin học khác nhau để tạo ra các tư liệu. SGML hỗ trợ cho việc xác định các tập hợp yếu tố (kể cả bài tóm tắt) hình thành các dạng tư liệu riêng (thí dụ, các bài báo/tạp chí). MARC DTD xử lý các biểu ghi biên mục đọc máy như là một dạng tư liệu riêng biệt. Cấu trúc dữ liệu này xác định tất cả các yếu tố có thể hình thành biểu ghi MARC song song với danh mục các yếu tố dữ liệu đã được xác định trong 5 khổ mẫu USMARC: Khổ mẫu thư mục (Bibliographic); Khổ

mẫu nhất quán (Authority); Khổ mẫu lưu trữ (Holdings); Khổ mẫu phân loại (Classification); và Khổ mẫu cộng đồng (Community).

MARC-SGML được thiết kế để làm cấu trúc thay thế cho thông tin trong các biểu ghi cấu trúc MARC chuẩn (ISO 2709). Việc ứng dụng MARC- SGML cung cấp sơ đồ cấu trúc đầy đủ giữa hai chuẩn dữ liệu. MARC-SGML

được phát triển bởi vì trong nhiều trường hợp người sử dụng nhận thấy cấu trúc SGML thích hợp hơn MARC. Có những quy trình xử lý mà người sử dụng muốn mã hóa dữ liệu theo cấu trúc MARC, trong trường hợp khác họ lại muốn sử dụng SGML, do đó, sẽ là rất hữu ích nếu có công cụ chuyển đổi qua lại giữa hai tiêu chuẩn tùy theo nhu cầu.

Động lực của Dự án MARC DTD là nguyện vọng muốn chuyển đổi bằng máy một cách chuẩn mực, không vi phạm quyền sở hữu trí tuệ, giữa các dữ liệu mã hoá theo MARC và SGML. Dự án có 2 nhiệm vụ chính:

Một là, phát triển các cấu trúc định dạng tư liệu theo ngôn ngữ đánh dấu tổng quát hoá chuẩn (SGML DTD) tương ứng với 5 khổ mẫu USMARC. Hai là, phát triển các phần mềm tiện ích có khả năng chuyển đổi giữa hai tiêu chuẩn mã hoá. Văn phòng phát triển mạng và tiêu chuẩn MARC thuộc Thư viện quốc hội Mỹ đã đảm nhiệm cả hai nhiệm vụ này.

3.1.2. MARC XML DTD

Với sự phát triển của ứng dụng ngôn ngữ XML trong tạo lập tài liệu điện tử, Thư viện Quốc hội Mỹ đã phát triển MARC XML DTD. MARC XML DTD đã xác định mỗi yếu tố dữ liệu MARC được thể hiện bằng một yếu tố theo XML.

Để áp dụng cho dữ liệu XML theo MARC, mọi thẻ quy định yếu tố dữ liệu trong XML đều sử dụng tiền tố “mrc” (viết tắt của MARC). Điều này để đảm bảo không có sự trùng lặp với những DTD có thể sử dụng một số yếu tố MARC trong tạo lập tài liệu điện tử.

Mọi dữ liệu liên quan đến dữ liệu mô tả thư mục đều sử dụng tiền tố “mrcb”. Mọi yếu tố trong nhóm DTD về kiểm soát tính nhất quán (MARC Authority DTD Group) bắt đầu bằng tiền tố “mrca”.

Để đảm bảo đặc trưng của tên theo SGML, mọi tên yếu tố đều được viết kiểu chữ thường, bao gồm các ký tự từ a-z, 0-9 và dấu hai chấm. Độ dài tối đa 32 ký tự.

Để làm cho DTD thể hiện được tính chất MARC, các trường dữ liệu được thể hiện bằng số của nhãn trường trong MARC và đi kèm với tiền tố như trên. Ví dụ: “mrca100” là nhãn quy định cho yếu tố Tiêu đề tác giả, tương ứng với trường 100 của MARC.

Hầu hết các nhãn trường theo MARC đều có trường con. Trong MARC DTD người ta cũng sử dụng một mã ký tự làm thẻ cho trường con. Trường con sẽ được gán cùng với thẻ nhãn trường bằng dấu gạch ngang. Ví dụ: mrcb245-a, mrcb245-b, mrcb245-c.

Trong các biểu ghi MARC, ngoài nhãn trường, trường con, còn có chỉ thị. Để chỉ dẫn rằng đây là dữ liệu liên quan đến chỉ thị, người ta đã đề xuất sử dụng các định danh “i1” và “i2”.

Một đặc trưng khác của dữ liệu MARC là sự có mặt của một số trường có độ dài cố định (có liên quan tới chỉ thị “0” - chỉ thị đầu tiên trong trường và trường con). Ví dụ những trường này là trường 006 - 008, cú pháp với các trường này sẽ như sau:

 Tiền tố được sử dụng cho nhãn trường là: “mrcb” hoặc “mrca”  3 chữ số chỉ thị nhãn trường

 Mã dữ liệu và dấu gạch ngang

 Định danh vị trí của trường dữ liệu theo MARC  mrcb008-BK-22

Đối với trường đầu biểu (Leader), người ta sử dụng tiền tố “ldr”, mã dữ liệu và vị trí của mã để làm thẻ meta. Quy định như sau:

 Mã dữ liệu theo MARC và dấu gạch ngang  Số định danh thông báo vị trí đối với mã dữ liệu  mrcbldr-bd-05

Ngoài các thành phần như tiền tố, mã dữ liệu, vị trí, phần tử, còn có các giá trị thuộc tính. Giá trị có thể là “EMPTY” hoặc “VALUE” (nghĩa là có giá trị hoặc không có giá trị).

3.2. Chuẩn mã hóa và truyền tải siêu dữ liệu - METS

3.2.1. Khái quát về METS

Lược đồ METS (Metadata Encoding and Transmission Standard) là

một chuẩn đối với siêu dữ liệu mô tả mã hóa, mang tính quản trị và có cấu trúc, dùng cho tài liệu thư viện số. METS được hiển thị sử dụng ngôn ngữ XML. METS ra đời từ dự án MOA2 (Making of America II) của trường đại học California tại Berkeley. Một trong những kết quả của dự án này là MOA2 DTD dựa trên SGML cho các đối tượng thư viện số, thích hợp cho việc kết hợp giữa văn bản và hình ảnh. MOA2 DTD không cho phép làm việc với các siêu dữ liệu kỹ thuật và siêu dữ liệu mô tả. Điều đó là không phù hợp với các công việc số hóa mà một thư viện số cần phải làm. Việc đưa ra một ngôn ngữ chuẩn XML để mã hóa các đối tượng thư viện số là việc làm cần thiết. Các thành viên của Liên đoàn Thư viện số đã quyết định nghiên cứu đưa ra một định dạng mới, đó là METS XML. METS được duy trì và phát triển bởi Văn phòng phát triển mạng và tiêu chuẩn MARC của Thư viện Quốc hội Mỹ. Hiện tại, METS đang được phát triển như một sáng kiến của Liên đoàn Thư viện số.

Việc duy trì bộ sưu tập số đòi hỏi cũng phải duy trì siêu dữ liệu về các tài liệu số này. Siêu dữ liệu cần thiết cho việc quản trị và sử dụng hiệu quả tài liệu số khác biệt và mở rộng hơn nhiều đối với siêu dữ liệu dùng để quản lý bộ sưu tập tài liệu in ấn. Đối với một cuốn sách in, nếu thư viện có sai sót

vào các trang không liên kết được, hoặc giả nếu thư viện có sai sót trong việc ghi chú việc xuất bản cuốn sách thì các nhà nghiên cứu cũng không phải sẽ không thể đánh giá đúng giá trị của nó. Nhưng sẽ không như vậy đối với phiên bản số hóa cũng của cuốn sách này. Không có siêu dữ liệu cấu trúc, không có hình ảnh, file văn bản kèm theo, tài liệu số sẽ ít được sử dụng; và không có siêu dữ liệu kỹ thuật về quá trình số hóa, các nhà nghiên cứu sẽ không thể chắc chắn được mức độ phản ánh chính xác tài liệu gốc của bản số hóa. Về mục đích quản trị, một thư viện phải có truy nhập tới các siêu dữ liệu kỹ thuật để theo dõi và làm mới (refresh) định kỳ, di trú dữ liệu, đảm bảo tính lâu dài cho các nguồn thông tin giá trị.

Với vai trò của các siêu dữ liệu kỹ thuật, cấu trúc, và quản trị trong thao tác số hóa dựa trên hình ảnh và văn bản, METS ngày càng có ưu thế trong việc sử dụng để lưu trữ, trao đổi và phổ biến thông tin. Dựa trên mục đích sử dụng, một tài liệu METS có thể được sử dụng với vai trò là:

- gói thông tin đệ trình (Submission Information Package - SIP) - gói thông tin lưu trữ (Archival Information Package - AIP)

- gói thông tin phổ biến (Dissemination Information Package - DIP) nằm trong Mô hình tham khảo hệ thống thông tin lưu trữ mở - Open Archival

Information System (OAIS) Reference Model.

Một tài liệu METS gồm có 7 phần chính:

 Đầu tài liệu (METS Header): Đầu tài liệu chứa các siêu dữ liệu mô tả chính bản thân tài liệu METS đó, gồm những thông tin như: người tạo lập, người chỉnh sửa…

 Siêu dữ liệu mô tả (Descriptive Metadata): Vùng siêu dữ liệu mô tả có thể chỉ ra siêu dữ liệu mô tả bên ngoài tới tài liệu METS, hoặc siêu dữ liệu mô tả gắn bên trong tài liệu, hoặc cả hai.

 Siêu dữ liệu quản trị (Administrative Metadata): Vùng siêu dữ liệu

quản trị cung cấp thông tin về cách thức file dữ liệu được tạo ra và lưu trữ, quyền sở hữu trí tuệ, siêu dữ liệu về tài liệu gốc mà từ đó thư viện số thực hiện số hóa, và thông tin về các file dữ liệu có trong đối tượng tài liệu số. Cũng như siêu dữ liệu mô tả, siêu dữ liệu quản trị có thể từ bên ngoài hoặc gắn bên trong tài liệu METS.

 Vùng dữ liệu (File section): Vùng dữ liệu liệt kê tất cả các file có

trong nội dung tài liệu. Các phần tử <file> có thể được nhóm trong các phần tử <fileGrp>, cung cấp cho việc chia nhỏ các file.

 Bản đồ cấu trúc (Structural Map): Bản đồ cấu trúc là phần trọng tâm của một tài liệu METS. Nó vạch ra cấu trúc thứ bậc cho đối tượng số, và liên kết các phần tử của cấu trúc đó tới các file nội dung và các siêu dữ liệu gắn liền với từng phần tử.

 Liên kết cấu trúc (Structural Links): Vùng liên kết cấu trúc của METS cho phép người tạo lập ghi lại sự tồn tại của các siêu liên kết giữa các nút (node) trong sơ đồ thứ bậc của Bản đồ cấu trúc. Đây là giá trị đặc biệt trong việc sử dụng METS để lưu trữ các website.

 Thuộc tính (Behavior): Vùng thuộc tính dùng để kết hợp các thuộc

tính có thể thực hiện được với nội dung đối tượng METS. Mỗi thuộc tính trong vùng thuộc tính có một phần tử định nghĩa giao diện mô tả tóm tắt định nghĩa của tập hợp thuộc tính trong vùng thuộc tính cụ thể. Dưới đây là giải thích chi tiết hơn cho từng thành phần và quan hệ liên đới giữa chúng.

3.2.2. Các thành phần của METS

3.2.2.1. Đầu tài liệu (METS header):

Phần tử METS header cho phép ghi lại siêu dữ liệu mô tả tối thiểu về tài liệu METS. Siêu dữ liệu này bao gồm: ngày tạo lập tài liệu METS, ngày

chỉnh sửa cuối cùng, và trạng thái của tài liệu. Ta có thể ghi thêm tên của những người khác có đóng vai trò trách nhiệm đối với tài liệu METS, ghi cụ thể vai trò của họ. Cuối cùng, có thể ghi vào các thông tin nhận diện cho tài liệu METS.

Ví dụ về đầu tài liệu (METS header):

<metsHdr CREATEDATE="2003-07-04T15:00:00" RECORDSTATUS="Complete"> <agent ROLE="CREATOR" TYPE="INDIVIDUAL">

<name>Jerome McDonough</name> </agent>

<agent ROLE="ARCHIVIST" TYPE="INDIVIDUAL"> <name>Ann Butler</name>

</agent> </metsHdr>

Ví dụ trên chứa 2 thuộc tính trong phần tử <metsHdr>, CREATEDATE chỉ ra ngày tạo lập biểu ghi và RECORDSTATUS chỉ ra trạng thái biểu ghi. Thông tin trách nhiệm gồm có hai người, người tạo lập biểu ghi và người lưu trữ tài liệu gốc. Thuộc tính ROLE (vai trò tác giả) và TYPE (loại tác giả cá nhân hay tập thể) trong phần tử <agent> sử dụng thuật ngữ có kiểm soát. Các giá trị cho phép đối với thuộc tính ROLE gồm có: ARCHIVIST (người lưu trữ), CREATOR (người tạo lập), CUSTODIAN (người quản lý tài liệu), DISSEMINATOR (người phổ biến), EDITOR (người hiệu đính), IPOWNER (người sở hữu công nghệ), và OTHER (các vai trò khác). Các giá trị cho phép đối với thuộc tính TYPE gồm có: INDIVIDUAL

Một phần của tài liệu Tìm hiểu ngôn ngữ XML một số ứng dụng trong lĩnh vực thông tin thư viện (Trang 29)

Tải bản đầy đủ (PDF)

(65 trang)