Web ngữ nghĩa và thư viện số

Một phần của tài liệu LUẬN VĂN: ỨNG DỤNG WEB NGỮ NGHĨA TRONG LƯU TRỮ VÀ QUẢN LÍ CÁC TÀI LIỆU SỐ docx (Trang 35 - 68)

2.1.1 Thư viện số ngữ nghĩa

Đối tượng quản lí chính của thư viện số là các tài liệu số (sách, báo, tạp chí điện tử, các tài nguyên đa phương tiện, v.v...). Trong thư viện số, số lượng tài liệu có thể lên tới hàng trăm triệu tài liệu, ngoài chức năng lưu trữ tài liệu, còn phải hỗ trợ người dùng tra cứu tài nguyên trong một kho dữ liệu khổng lồ với thời gian nhanh nhất và chính xác nhất.

Các thư viện số truyền thống cho phép người dùng tìm kiếm thông qua cấu trúc phân mục tài liệu hoặc qua tìm kiếm từ khóa nhờ kĩ thuật lập chỉ mục cho nội dung trong tài liệu. Cơ chế phân mục trả lại danh sách các tài liệu tương ứng với câu truy vấn kiểu như: “Liệt kê ra tất cả các tài liệu có tiêu đề bắt đầu bằng chứ A” hoặc “Liệt kê các tài liệu về Mạng chia sẻ ngang hàng”, còn cơ chế tìm kiếm theo từ khóa trả lại danh các tài liệu mà nội dung có chứa từ khóa trong câu truy vấn, chẳng hạn “Các tài liệu có chứa cụm từ [Khoa học máy tính] nhưng không chứa cụm từ

25

[Phần cứng máy tính]”. Tuy nhiên cả hai cơ chế này đều không hỗ trợ đầy đủ cho các câu truy vấn kiểu như: “liệt kê các tài liệu liên quan đến ngôn ngữ lập trình hướng đối tướng”. Nếu truy vấn trong hệ thống thư viện tìm kiếm theo từ khóa, thì hệ thống sẽ trả lại một tập các danh sách có chứa từ khóa trên, nếu kho tài nguyên có chứa tài liệu “Xây dựng ứng dụng Windows với C#” (C# là một ngôn ngữ lập trình hướng đối tượng) mà nội dung tài liệu không chứa cụm từ “lập trình hướng đối tượng” thì hệ thống sẽ không tìm thấy. Hoặc với truy vấn “liệt kê các tài liệu mạng đồng đẳng” thì máy tính không hiểu được [Mạng ngang hàng] và [Mạng đồng đẳng] là hai khái niệm tương đương.

Như vậy cơ chế tìm kiếm theo từ khóa và theo kiểu duyệt thư mục không giải quyết được các câu truy vấn phức tạp và mang tính trừu tượng cao. Để hỗ trợ các câu truy vấn loại này, một trong các giải pháp là thêm dữ liệu ngữ nghĩa cho hệ thống thư viện số.

Các thông tin tin ngữ nghĩa được biểu diễn bởi các siêu dữ liệu đi kèm với mỗi đối tượng tài liệu, cùng với một hay nhiều bản thể luận được cung cấp với ngữ cảnh ngữ nghĩa tương ứng, sẽ trả lời được (phần nào) các câu truy vấn mang tính trừu tượng.

Một thư viện số được tích hợp thêm ngữ nghĩa cho các tài nguyên được gọi là thư viện số ngữ nghĩa. Thư viện số ngữ nghĩa các các đặc điểm chung sau [6]:

- Tích hợp nhiều nguồn thông tin dựa trên các siêu dữ liệu khác nhau (các tài liệu, hồ sơ người dùng, đánh dấu, phân loại,...)

- Cung cấp khả năng tương tác với các hệ thống khác (không chỉ các thư viện số với nhau) thông qua các siêu dữ liệu (RDF là một trong những tài nguyên thông dụng được dùng để trao đổi dữ liệu giữa các thư viện số với các dịch vụ khác).

- Cung cấp khả năng tìm kiếm theo ngữ nghĩa mạnh mẽ hơn so với các cách tìm kiếm thông thường và tra cứu tài liệu một cách dễ dàng.

Các thành phần hỗ trợ để xây dựng thư viện số ngữ nghĩa bao gồm: Web ngữ nghĩa, Thu viện số, và Công nghệ Web 2.0 [6]. Cũng giống như web và web ngữ nghĩa, thư viện số ngữ nghĩa là sự mở rộng của thư viện số bởi việc mô tả và trình bày các nguồn tài nguyên theo định dạng mà máy tính có thể hiểu và xử lí được.

26

Thư viện số ngữ nghĩa cũng có thể xem là sự mở rộng của thư viện số, nhờ ứng dụng của web ngữ nghĩa (hay còn gọi là thư viện số 2.0).

Web ngũ nghĩa Web 2.0 Thư viện số Thư viện số ngũ nghĩa

Hình 2.1. Các thành phần hỗ trợ thư viện số ngữ nghĩa

2.1.2. Tổ chức tri thức trong thư viện

Hệ thống tổ chức tri thức nhằm mục đích làm rõ cơ cấu tổ chức bên trong của một hệ thống. Nó biểu diễn các mối quan hệ (ngữ nghĩa) giữa các đối tượng, các khái niệm trong một hệ thống, nhằm mục đích tổ chức, trao đổi thông tin và quản lí tri thức một cách hiệu quả.

Trong thư viện số ngữ nghĩa, các tri thức bao gồm [6]:

 Lược đồ phân loại và biên mục các tài liệu

 Nội dung tiêu đề tài liệu (tên tài liệu)

 Các tệp tin xác minh (quan lí phiên bản các tài liệu, các thông tin quan trọng (từ khóa), tên của tác giả, nơi xuất xứ tài liệu, v.v...)

 Tập các từ vựng (chẳng hạn các từ điển)

 Các lược đồ (ngữ nghĩa, bản thể luận)

2.1.3. Web ngữ nghĩa trong thư viện số

Ta biết rằng nguyên liệu chính để xây dựng web ngữ nghĩa là các siêu dữ liệu, trong các thư viện số cũng vậy, các tài liệu cũng phải được biểu diễn bởi các siêu dữ liệu. Nếu tài liệu là những khối xây dựng căn bản của thư viện số, thì ngôn ngữ đánh dấu và các siêu dữ liệu là những yếu tố tổ chức. Ngôn ngữ đánh dấu được dùng để chỉ rõ cấu trúc của tài liệu riêng lẻ và kiểm soát phương thức trình bày cho

27

người sử dụng. Các siêu dữ liệu được dùng để xúc tiến việc truy cập đến những phần thích hợp của tài liệu qua việc tìm kiếm. Trong các thư viện số có sự khác biệt quan trọng giữa siêu dữ liệu hiện và siêu dữ liệu ẩn. Siêu dữ liệu hiện được xác định bởi con người sau khi xem xét cẩn thận và phân tích tài liệu. Siêu dữ liệu ẩn được trích xuất tự động từ nội dung tài liệu nhờ kĩ thuật khai thác văn bản. Công việc này thường khó thực hiện chính xác. Khai thác văn bản, được định nghĩa như một tiến trình phân tích văn bản để trích thông tin hữu ích cho mục đích cụ thể, đó là một đề tài nghiên cứu nóng bỏng hiện nay.

Một trong những chuẩn siêu dữ liệu thông dụng và nổi tiếng là DublinCore. Chuẩn Dublin Core là một tập hợp những thành phần siêu dữ liệu được thiết kế đặc biệt cho việc sử dụng không chuyên. Được dùng chủ yếu cho việc mô tả tài liệu số. Chuẩn Dublin Core bao gồm 15 yếu tố cơ bản và các yếu mỏ rộng bao gồm:

Nhan đề (Title): Nhan đề của tài liệu

Tác giả (Creator): Tác giả của tài liệu, bao gồm cả tác giả cá nhân và tác giả tập thể.

Chủ đề (Subject): Chủ đề tài liệu đề cập dùng để phân loại tài liệu. Có thể thể hiện bằng từ, cụm từ/(Khung chủ đề), hoặc chỉ số phân loại/ (Khung phân loại).

Tóm tắt (Description): Tóm tắt, mô tả nội dung tài liệu. Có thể bao gồm tóm tắt, chú thích, mục lục, đoạn văn bản để làm rõ nội dung

Nhà xuất bản (Publisher): Nhà xuất bản, nơi ban hành tài liệu có thể là tên cá nhân, tên cơ quan, tổ chức, dịch vụ...

Tác giả phụ (Contributor): Tên những người cùng tham gia cộng tác đóng góp vào nội dung tài liệu, có thể là cá nhân, tổ chức...

Ngày tháng (Date): Ngày, tháng ban hành tài liệu. Có thể dùng chuẩn ISO 8601

Loại (kiểu) (Type): Mô tả bản chất của tài liệu. Dùng các thuật ngữ mô tả phạm trù kiểu: trang chủ, bài báo, báo cáo, từ điển...

Khổ mẫu (Format): Mô tả sự trình bày vật lý của tài liệu, có thể bao gồm; vật mang tin, kích cỡ độ dài, kiểu dữ liệu (.doc, .html, .jpg, xls, phần mềm....)

Định danh (Identifier): Các thông tin về định danh tài liệu, các nguồn tham chiếu đến, hoặc chuỗi ký tự để định vị tài nguyên: URL (Uniform Resource Locators) (bắt đầu bằng http://), URN (Uniform Resource Name), ISBN

28

(International Standard Book Number), ISSN (International Standard Serial Number), SICI (Serial Item & Contribution Identifier), ...

Nguồn (Resource): Các thông tin về xuất xứ của tài liệu, tham chiếu đến nguồn mà tài liệu hiện mô tả được trích ra/tạo ra, nguồn cũng có thể là: đường dẫn (URL), URN, ISBN, ISSN...

Ngôn ngữ (Language): Các thông tin về ngôn ngữ, mô tả ngôn ngữ chính của tài liệu

Liên kết (Relation): Mô tả các thông tin liên quan đến tài liệu khác. có thể dùng đường dẫn (URL), URN, ISBN, ISSN...

Diện bao quát (Coverage): Các thông tin liên quan đến phạm vi, quy mô hoặc mức độ bao quát của tài liệu. Phạm vi đó có thể là địa điểm, không gian hoặc thời gian, tọa độ...

Bản quyền (Right): Các thông tin liên quan đến bản quyền của tài liệu

Các yếu tố mở rộng: Thực tế sử dụng Dublin Core cho thấy mỗi yếu tố cơ bản còn gộp chứa trong nó một vài thành tố phụ nhằm diễn đạt chi tiết hơn nội dung chính yếu tố đó. Các thành tố phụ được coi là các yếu tố mở rộng và được thể hiện thông qua những khung mã hóa cụ thể. Ví dụ, khi thể hiện nội dung của một tài liệu, người ta cung cấp một vài cách tiếp cận khác nhau như qua ký hiệu phân loại, tiêu đề đề mục, từ khoá, …

Cú pháp chung nhất cho Dublin Core như sau:

<meta name= “nhãn trường”> content= “giá trị trường”>

Tương tự như đối với các tài liệu truyền thống, mỗi tài liệu số cần có một biểu ghi thư mục mô tả làm cơ sở cho việc tìm kiếm và quản lý tài liệu đó. Đối với các hệ thống thư viện số giản đơn biểu ghi thư mục chứa thông tin liên kết trực tiếp tới địa chỉ tệp tin tài liệu số, người đọc đến thư viện, tìm một biểu ghi thư mục và đưa cho thủ thư để lấy ra tài liệu cần tham khảo. Trong hệ thống thư viện số, các biểu ghi thư mục siêu dữ liệu được dùng để trình bày về các siêu dữ liệu tài liệu. Các biểu ghi thư mục cũng được biểu diễn dưới dạng RDF.

29

Hình 2.2. Biểu diễn cấu trúc tài liệu dưới dạng RDF

Các bản thể luận cũng đóng vai trò quan trong trọng các thư viện số ngữ nghĩa. Bản thể luận không chỉ làm cho tri thức có thể sử dụng lại dễ dàng hơn, nó còn là nền tảng của việc tạo ra các chuẩn bởi vì nó làm rõ các khái niệm bên cạnh một thuật ngữ hoặc một mô hình. Việc tìm kiếm các tài liệu trong thư viện số ngữ nghĩa là tìm kiếm các tài liệu có ý nghĩa tương tự nhau chứ không chỉ là những từ ngữ tương tự nhau.

Cho ví dụ, với một biểu ghi thư mục siêu dữ liệu sau:

Nhan đề Lập trình Java cho các thiết bị di động

Tác giả Nguyễn Văn Anh

Chủ đề Ngôn ngữ Java Tóm tắt Hướng dẫn viết các ứng dụng cho các thiết bị di động sử dụng ngôn ngữ lập trình Java

Nhà xuất bản Đại học Quốc Gia Hà Nội

Tác giả phụ ...

30

“Nhà xuất bản=Đại học Quốc Gia Hà nội” AND “Tác giả=Nguyễn Văn Anh” AND “Chủ đề=Ngôn ngữ lập trình hướng đối tượng”

Nếu được truy vấn trong các hệ thống tìm kiếm theo từ khóa thì sẽ không thấy được tài liệu [Học các ngôn ngữ lập trình hiện đại qua các dự án]. Ngược lại nếu ta có tri thức “Java là ngôn ngữ Lập trình hướng đối” được mô hình hóa trong bản thể luận (quan hệ kế thừa) thì khi truy vấn trong thư viện số ngữ nghĩa sẽ ra được chính xác tài liệu.

Từ ví dụ nhỏ trên ta thấy rằng, các ứng dụng ngữ nghĩa có thuận lợi rất lớn cho người dùng không phải là chuyên gia về lĩnh vực cụ thể.

Các tài liệu số chỉ chứa các siêu dữ liệu, phục vụ cho việc quản lí và tìm kiếm đơn giản. Để trả lời các câu truy vấn phức tạp từ người dùng ta cần phải làm cho máy tính hiểu và xử lí được các thông tin chứa trong các siêu dữ liệu. Cụ thể hơn, ta cần phải có biểu diễn được ngữ nghĩa trong các tài liệu.

Tương tự như trong web ngữ nghĩa, các biểu ghi thư mục siêu dữ liệu bản thân nó đã chứa tri thức về tài liệu (dạng đơn giản, tiềm ẩn), nhưng nó chưa đủ để máy tính “suy luận” được, chỉ con người mới có thể suy luận được. Các siêu dữ liệu trong thư viện số mới chỉ là những nguyên liệu ban đầu để xây dựng một thư viện ngữ nghĩa, do đó ta cần phải bổ sung bản thể luận vào các biểu ghi thư mục siêu dữ liệu. Các ngôn ngữ bản thể luận trong Web ngữ nghĩa như: lược đồ RDF, Ngôn ngữ bản thể luận web (OWL) được áp dụng để xây dựng ngữ nghĩa cho các tài liệu số.

Trong thư viện số ngữ nghĩa, ý nghĩa của nội dung tài liệu được thể hiện tốt hơn, và những liên kết logic được thực hiện giữa những thông tin liên quan với nhau. Tuy nhiên, việc xây dựng bản thể luận cho một lĩnh vực cụ thể là một công việc đầy khó khăn và thách thức.

2.2. Kiến trúc của thư viện số ngữ nghĩa

Các đối tượng bắt buộc phải có trong một thư viện ngữ nghĩa là các siêu dữ liệu và các tài nguyên, và một hệ thống thư viện ngữ nghĩa cần phải cung cấp các dịch vụ: trao đổi dữ liệu với hệ thống khác, chú giải cho người dùng, các dịch vụ tìm kiếm.

Kiến trúc của thư viện số ngữ nghĩa cần phải có các thành phần tương ứng để đảm bao cung cấp các dịch vụ trên một cách thống nhất, hình vẽ dưới đây mô tả

31

một kiến trúc cơ bản của thư viện số ngữ nghĩa (dựa trên hệ thống thư viện số Alexandria và DELOS) [9].

Hình 2.3. Kiến trúc thư viện số ngữ nghĩa

Đây là một kiểu kiến trúc bao gồm ba tầng chính:

 Tầng Dữ liệu trừu tượng : Cung cấp cơ chế để truy cập vào các nguồn tài nguyên.

 Tầng Truy cập và thao tác dữ liệu: Hỗ trợ viện quản lí thư viện, Các dịch vụ cơ bản, Các dịch vụ truy cập thông tin, Hỗ trợ trao đổi dữ liệu.

 Tầng Trình diễn dữ liệu: Cung cấp giao diện hỗ trợ người dùng.

2.3. Bản thể luận cho thư viện số ngữ nghĩa

2.3.1. Bản thể luận biểu ghi thư mục

Với công nghệ web ngữ nghĩa, sự biểu diễn của các chuẩn mô tả biểu ghi thư mục như các bản thể luận là một sự lựa chọn tất yếu. Các định dạng siêu dữ liệu có thể được tăng thêm tính ngữ nghĩa khi được biểu diễn bởi các khái niệm trong bản thể luận, nó cung cấp khả năng sử dụng các khái niệm đã được định nghĩa và có thể suy diễn dữ liệu tiềm ẩn từ các mô tả thư mục.

Thông thường một thư viện số các sử dụng các chuẩn siêu dữ liệu để tổ chức các biểu ghi thư mục. Một trong những định dạng biểu ghi thư mục phổ biến là

32

MART21, BibTeX và Dublin Core..., tuy nhiên các chuẩn này được định nghĩa cho quá trình sử dụng của con người, chỉ có con người mới hiểu được, không định nghĩa ngữ nghĩa của các siêu dữ liệu để máy tính hiểu được.

Ví dụ Một bản thể luận biểu ghi thư mục của BiBTeX được biểu diễn như hình dưới đây:

Hình 2.4. Bản thể luận BibTeX

Việc chuyển đổi từ biểu ghi thư mục sang Bản thể luận bao gồm ba bước chính [8].

- Bước 1: Chuyển các biểu ghi thư mục truyền thống (MART21, Dublin Core, BibTeX) sang các tệp tin XML.

- Bước 2: Chuyển các tệp tin XML từ bước 1 sang các bộ ba RDF. Các bộ ba RDF chưa có các thông tin ngữ nghĩa, chúng đơn thuần chỉ biểu diễn các trường và các giá trị của đối tượng.

Ví dụ: Ta có một bản ghi BibTeX như sau: @Article{LeA:vnucs_1_1:editorial, author = “Lê A”,

title =”{Cơ sở dữ liệu động và ứng dụng}”,

journal =”Tạp chí khoa học máy tính – Đại học Quốc Gia”, year = ”2011”,

33 volumn =”1”,

number =”1”, pages =”6”, months = Tháng 1,

note =”path|http://www.vnu.vn/vnucs_1_1/ editorial|”}

Được viết dưới dạng RDF như sau:

<rdf:Description rdf:about="Ma LeA:vnucs_1_1:editorial"> <rdf:type rdf:resource="http://vnu.edu/bibtex#Article"/> <bibtex:author>Lê A</bibtex:author>

<bibtex:title> Cơ sở dữ liệu động và ứng dụng </bibtex:title> <bibtex:journal> Tạp chí khoa học máy tính – Đại học Quốc Gia </bibtex:journal> <bibtex:year>2011</bibtex:year> <bibtex:volume>1</bibtex:volume> <bibtex:number>1</bibtex:number> <bibtex:pages>6</bibtex:pages> <bibtex:month>January</bibtex:month> <bibtex:note>\path|http://www.vnu.vn/vnucs_1_1/editorial| </bibtex:note> </rdf:Description>

Bước 3: Chuyển các bộ ba RDF sang dạng Bản thể luận. Bước này thực hiện tương đối phức tạp, yêu cầu cần phải định nghĩa ra các nguyên tắc cụ thể để chuyển đổi.

2.3.2. Bản thể luận cho cấu trúc nội dung

Các thư viện số hiện đại không chỉ lưu trữ các siêu dữ liệu thư mục, nó còn có

Một phần của tài liệu LUẬN VĂN: ỨNG DỤNG WEB NGỮ NGHĨA TRONG LƯU TRỮ VÀ QUẢN LÍ CÁC TÀI LIỆU SỐ docx (Trang 35 - 68)