2.1.1 Thư viện số ngữ nghĩa
Đối tƣợng quản lí chính của thƣ viện số là các tài liệu số (sách, báo, tạp chí điê ̣n tƣ̉, các tài nguyên đa phƣơng tiện , v.v...). Trong thƣ viê ̣n số , số lƣợng tài liê ̣u có thể lên tới hàng trăm triệu tài liệu , ngoài chức năng lƣu trữ tài liệu , còn phải hỗ trơ ̣ ngƣời dùng tra cƣ́u tài nguyên trong mô ̣t kho dƣ̃ liê ̣u khổng lồ với thời gian nhanh nhất và chính xác nhất.
Các thƣ viện số truyền thống cho phép ngƣời dùng tìm kiếm thông qua cấu trúc phân mục tài liệu hoặc qua tìm kiếm từ khóa nhờ kĩ thuật lập chỉ mục cho nội dung trong tài liê ̣u. Cơ chế phân mu ̣c trả la ̣i danh sách các tài liệu tƣơng ứng với câu truy vấn kiểu nhƣ: ―Liê ̣t kê ra tất cả các tài liê ̣u có tiêu đề b ắt đầu bằng chứ A‖ hoặc ―Liệt kê các tài liệu về Mạng chia sẻ ngang hàng‖, còn cơ chế tìm kiếm theo từ khóa trả lại danh các tài liê ̣u mà nô ̣i dung có chƣ́a tƣ̀ khóa trong câu truy vấn , chẳng hạn ―Các tài liệu có chứa cụm từ [Khoa ho ̣c máy tính ] nhƣng không chƣ́a cu ̣m tƣ̀
25
[Phần cƣ́ ng máy tính ]‖. Tuy nhiên cả hai cơ chế này đều không hỗ trơ ̣ đầy đủ cho các câu truy vấn kiểu nhƣ : ―liê ̣t kê các tài liê ̣u liên quan đến ngôn ngƣ̃ lâ ̣p trình hƣớng đối tƣớng‖. Nếu truy vấn trong hê ̣ thống thƣ viê ̣n tìm kiếm theo tƣ̀ khóa , thì hê ̣ thống sẽ trả la ̣i mô ̣t tâ ̣p các danh sách có chƣ́a tƣ̀ khóa t rên, nếu kho tài nguyên có chứa tài liệu ―Xây dựng ứng dụng Windows với C #‖ (C# là một ngôn ngữ lập trình hƣớng đối tƣợng) mà nội dung tài liệu không chứa cụm từ ―lập trình hƣớng đối tƣơ ̣ng‖ thì hê ̣ thống sẽ không tìm thấy . Hoă ̣c với truy vấn ―liê ̣t kê các tài liê ̣u mạng đồng đẳng‖ thì máy tính không hiểu đƣợc [Mạng ngang hàng] và [Mạng đồng đẳng] là hai khái niệm tƣơng đƣơng.
Nhƣ vâ ̣y cơ chế tìm kiếm theo tƣ̀ khóa và theo kiểu duyê ̣t thƣ mu ̣c không giải quyết đƣợc các câu truy vấn phức tạp và mang tính trừu tƣợng cao . Để hỗ trợ các câu truy vấn loa ̣i này , mô ̣t trong các giải pháp là thêm dƣ̃ liê ̣u ngƣ̃ nghĩa cho hê ̣ thống thƣ viê ̣n số.
Các thông tin tin ngữ nghĩa đƣợc biểu diễn bởi các siêu dữ liệu đi kèm với mỗi đối tƣơ ̣ng tài liê ̣u, cùng với một hay nhiều bản thể luận đƣợc cung cấp với ngữ cảnh ngƣ̃ nghĩa tƣơng ƣ́ng , sẽ trả lời đƣợc (phần nào) các câu truy vấn mang tính trừu tƣơ ̣ng.
Mô ̣t thƣ viê ̣n số đƣơ ̣c tích hợp thêm ngƣ̃ nghĩa cho các tài nguyên đƣợc go ̣i là thƣ viê ̣n số ngƣ̃ nghĩa. Thƣ viê ̣n số ngƣ̃ nghĩa các các đă ̣c điểm chung sau [6]:
- Tích hợp nhiều nguồn thông tin dựa trên các siêu dữ liệu khác nhau (các tài liê ̣u, hồ sơ ngƣời dùng, đánh dấu, phân loa ̣i,...)
- Cung cấp khả năng tƣơng tác với các hê ̣ thống khác (không chỉ các thƣ viê ̣n số với nhau) thông qua các siêu dƣ̃ liê ̣u (RDF là mô ̣t trong nhƣ̃ng tài nguyên thông du ̣ng đƣơ ̣c dùng để trao đổ i dƣ̃ liê ̣u giƣ̃a các thƣ viê ̣n số với các di ̣ch vụ khác).
- Cung cấp khả năng tìm kiếm theo ngƣ̃ nghĩa ma ̣nh mẽ hơn so với các cách tìm kiếm thông thƣờng và tra cứu tài liệu một cách dễ dàng .
Các thành phần hỗ trợ để xây dự ng thƣ viê ̣n số ngƣ̃ nghĩa bao gồm : Web ngƣ̃ nghĩa, Thu viê ̣n số , và Công nghệ Web 2.0 [6]. Cũng giống nhƣ web và web ngữ nghĩa, thƣ viê ̣n số ngƣ̃ nghĩa là sƣ̣ mở rô ̣ng của thƣ viê ̣n số bởi viê ̣c mô tả và trình bày các nguồn tài nguyên theo đi ̣nh da ̣ng mà máy tính có thể hiểu và xƣ̉ lí đƣợc .
26
Thƣ viê ̣n số ngƣ̃ nghĩa cũng có thể xem là sƣ̣ mở rô ̣ng của thƣ viê ̣n số , nhờ ƣ́ng dụng của web ngữ nghĩa (hay còn go ̣i là thƣ viê ̣n số 2.0).
Web a Web 2.0 T v n s T v n s a
Hình 2.1. Các thành phần hỗ trợ thƣ viện số ngữ nghĩa
2.1.2. Tổ chứ c tri thức trong thư viê ̣n
Hê ̣ thống tổ chƣ́c tri thƣ́c nhằm mu ̣c đích làm rõ cơ cấu tổ chƣ́c bên trong của mô ̣t hê ̣ thống . Nó biểu diễn cá c mối quan hê ̣ (ngƣ̃ nghĩa ) giƣ̃a các đối tƣợng , các khái niệm trong một hệ thống , nhằm mu ̣c đích tổ chƣ́c , trao đổi thông tin và quản lí tri thƣ́c mô ̣t cách hiê ̣u quả.
Trong thƣ viê ̣n số ngƣ̃ nghĩa, các tri thức bao gồm [6]:
Lƣơ ̣c đồ phân loa ̣i và biên mu ̣c các tài liê ̣u
Nô ̣i dung tiêu đề tài liê ̣u (tên tài liê ̣u)
Các tệp tin xác minh (quan lí phiên bản các tài liê ̣u , các thông tin quan trọng (tƣ̀ khóa), tên của tác giả, nơi xuất xƣ́ tài liê ̣u, v.v...)
Tâ ̣p các tƣ̀ vƣ̣ng (chẳng ha ̣n các tƣ̀ điển)
Các lƣợc đồ (ngƣ̃ nghĩa, bản thể luận)
2.1.3. Web ngữ nghi ̃a trong thư viê ̣n số
Ta biết rằng nguyên liê ̣u chính để xây dƣ̣ng web ngƣ̃ nghĩa là các siêu dƣ̃ liê ̣u , trong các thƣ viê ̣n số cũng vâ ̣y, các tài liệu cũng phải đƣợc biểu diễn bởi các siêu dữ liê ̣u. Nếu tài liệu là những khối xây dựng căn bản của thƣ viện số, thì ngôn ngƣ̃ đánh dấu và các siêu dƣ̃ liê ̣u là những yếu tố tổ chức. Ngôn ngƣ̃ đánh dấu đƣợc dùng để chỉ rõ cấu trúc của tài liệu riêng lẻ và kiểm soát phƣơng thức trình bày cho
27
ngƣời sử dụng. Các siêu dữ liệu đƣợc dùng để xúc tiến việc truy cập đến những phần thích hợp của tài liệu qua việc tìm kiếm. Trong các thƣ viê ̣n số có sƣ̣ khác biê ̣t quan tro ̣ng giƣ̃a siêu dƣ̃ liê ̣u hiê ̣n và siêu dƣ̃ liê ̣u ẩn. Siêu dƣ̃ liê ̣u hiện đƣợc xác định bởi con ngƣời sau khi xem xét cẩn thận và phân tích tài liệu. Siêu dƣ̃ liê ̣u ẩn đƣợc trích xuất tự động từ nội dung tài liệu nhờ kĩ thuâ ̣t khai thác văn bản. Công việc này thƣờng khó thực hiện chính xác. Khai thác văn bản, đƣợc định nghĩa nhƣ một tiến trình phân tích văn bản để trích thông tin hữu ích cho mục đích cụ thể, đó là một đề tài nghiên cứu nóng bỏng hiện nay.
Mô ̣t trong nhƣ̃ng chuẩn siêu dƣ̃ liê ̣u thông dụng và nổi tiếng là DublinCore . Chuẩn Dublin Core là một tập hợp những thành phần siêu dƣ̃ liê ̣u đƣợc thiết kế đặc biệt cho việc sử dụng không chuyên. Đƣợc dùng chủ yếu cho việc mô tả tài liệu số. Chuẩn Dublin Core bao gồm 15 yếu tố cơ bản và các yếu mỏ rộng bao gồm:
Nhan đề (Title): Nhan đề của tài liệu
Tác giả (Creator): Tác giả của tài liệu, bao gồm cả tác giả cá nhân và tác giả
tập thể.
Chủ đề (Subject): Chủ đề tài liệu đề cập dùng để phân loại tài liệu. Có thể
thể hiện bằng từ, cụm từ/(Khung chủ đề), hoặc chỉ số phân loại/ (Khung phân loại).
Tóm tắt (Description): Tóm tắt, mô tả nội dung tài liệu. Có thể bao gồm tóm
tắt, chú thích, mục lục, đoạn văn bản để làm rõ nội dung
Nhà xuất bản (Publisher): Nhà xuất bản, nơi ban hành tài liệu có thể là tên
cá nhân, tên cơ quan, tổ chức, dịch vụ...
Tác giả phụ (Contributor): Tên những ngƣời cùng tham gia cộng tác đóng
góp vào nội dung tài liệu, có thể là cá nhân, tổ chức...
Ngày tháng (Date): Ngày, tháng ban hành tài liệu. Có thể dùng chuẩn ISO
8601
Loại (kiểu) (Type): Mô tả bản chất của tài liệu. Dùng các thuật ngữ mô tả
phạm trù kiểu: trang chủ, bài báo, báo cáo, từ điển...
Khổ mẫu (Format): Mô tả sự trình bày vật lý của tài liệu, có thể bao gồm;
vật mang tin, kích cỡ độ dài, kiểu dữ liệu (.doc, .html, .jpg, xls, phần mềm....) Định danh (Identifier): Các thông tin về định danh tài liệu, các nguồn tham
chiếu đến, hoặc chuỗi ký tự để định vị tài nguyên: URL (Uniform Resource Locators) (bắt đầu bằng http://), URN (Uniform Resource Name), ISBN
28
(International Standard Book Number), ISSN (International Standard Serial Number), SICI (Serial Item & Contribution Identifier), ...
Nguồn (Resource): Các thông tin về xuất xứ của tài liệu, tham chiếu đến
nguồn mà tài liệu hiện mô tả đƣợc trích ra/tạo ra, nguồn cũng có thể là: đƣờng dẫn (URL), URN, ISBN, ISSN...
Ngôn ngữ (Language): Các thông tin về ngôn ngữ, mô tả ngôn ngữ chính
của tài liệu
Liên kết (Relation): Mô tả các thông tin liên quan đến tài liệu khác. có thể
dùng đƣờng dẫn (URL), URN, ISBN, ISSN...
Diện bao quát (Coverage): Các thông tin liên quan đến phạm vi, quy mô
hoặc mức độ bao quát của tài liệu. Phạm vi đó có thể là địa điểm, không gian hoặc thời gian, tọa độ...
Bản quyền (Right): Các thông tin liên quan đến bản quyền của tài liệu
Các yếu tố mở rộng: Thực tế sử dụng Dublin Core cho thấy mỗi yếu tố cơ
bản còn gộp chứa trong nó một vài thành tố phụ nhằm diễn đạt chi tiết hơn nội dung chính yếu tố đó. Các thành tố phụ đƣợc coi là các yếu tố mở rộng và đƣợc thể hiện thông qua những khung mã hóa cụ thể. Ví dụ, khi thể hiện nội dung của một tài liệu, ngƣời ta cung cấp một vài cách tiếp cận khác nhau nhƣ qua ký hiệu phân loại, tiêu đề đề mục, từ khoá, …
Cú pháp chung nhất cho Dublin Core nhƣ sau:
<meta name= ―nhãn trường‖> content= ―giá trị trường‖>
Tƣơng tự nhƣ đối với các tài liệu truyền thống, mỗi tài liệu số cần có một biểu ghi thƣ mục mô tả làm cơ sở cho việc tìm kiếm và quản lý tài liệu đó. Đối với các hệ thống thƣ viện số giản đơn biểu ghi thƣ mục chứa thông tin liên kết trực tiếp tới địa chỉ tệp tin tài liệu số, ngƣời đo ̣c đến thƣ viê ̣n , tìm một biểu ghi thƣ mục và đƣa cho thủ thƣ để lấy ra tài liê ̣u cần tham khảo . Trong hê ̣ thống thƣ viê ̣n số , các biểu ghi thƣ mu ̣c siêu dƣ̃ liê ̣u đƣợc dùng để trình bày về các siêu dữ liệu tài liệu. Các biểu ghi thƣ mu ̣c cũng đƣợc biểu diễn dƣới da ̣ng RDF.
29 T i nguyên ch PDF 1 2 N i dung t m t t tr N i dung ơ ơ tr N i dung B sung N i dung M v i mô t Mô t Ki u t m t t nh ng
Hình 2.2. Biểu diễn cấu trú c tài liê ̣u dƣới da ̣ng RDF
Các bản thể luận cũng đóng vai trò quan trong trọ ng các thƣ viê ̣n số ngƣ̃ nghĩa. Bản thể luận không chỉ làm cho tri thức có thể sử dụng lại dễ dàng hơn , nó còn là nền tảng của việc tạo ra các chuẩn bởi vì nó làm rõ các khái niệm bên cạnh mô ̣t thuâ ̣t ngƣ̃ hoă ̣c mô ̣t mô hình. Viê ̣c tìm kiếm các tài liê ̣u trong thƣ viê ̣n số ngƣ̃ nghĩa là tìm kiếm các tài liệu có ý nghĩa tƣơng tự nhau chứ không chỉ là những từ ngƣ̃ tƣơng tƣ̣ nhau.
Cho ví du ̣, với mô ̣t biểu ghi thƣ mu ̣c siêu dƣ̃ liê ̣u sau:
Nhan đề Lập trình Java cho các thiết bị di động Tác giả Nguyễn Văn Anh
Chủ đề Ngôn ngƣ̃ Java
Tóm tắt
Hƣớng dẫn viết các ƣ́ng dụng cho các thiết bị di động sƣ̉ du ̣ng ngôn ngƣ̃ lâ ̣p trình Java
Nhà xuất bản Đa ̣i ho ̣c Quốc Gia Hà Nô ̣i
Tác giả phụ ...
30
―Nhà xuất bản=Đa ̣i ho ̣c Quốc Gia Hà nô ̣i‖ AND ― Tác giả=Nguyễn Văn Anh‖ AND ―Chủ đề=Ngôn ngƣ̃ lâ ̣p trình hƣớng đối tƣợng‖
Nếu đƣơ ̣c truy vấn trong các hê ̣ thống tìm kiếm theo tƣ̀ khóa thì sẽ không thấy đƣơ ̣c tài liê ̣u [Học các ngôn ngữ lập trình hiện đại qua các dự án ]. Ngƣợc la ̣i nếu ta có tri thức ―Java là ngôn ngữ Lập trình hƣớng đối‖ đƣợc mô hình hóa trong bản thể luâ ̣n (quan hê ̣ kế thƣ̀a) thì khi truy vấn trong thƣ viê ̣n số ngƣ̃ nghĩa sẽ ra đƣợc chính xác tài liệu.
Tƣ̀ ví du ̣ nhỏ trên ta thấy rằng , các ứng dụng ngữ nghĩa có thuận lợi rất lớn cho ngƣời dùng không phải là chuyên gia về lĩnh vƣ̣c cu ̣ thể.
Các tài liệu số chỉ chƣ́a các siêu dƣ̃ liê ̣u, phục vụ cho việc quản lí và tìm kiếm đơn giản. Để trả lời các câu truy vấn phƣ́c ta ̣p tƣ̀ ngƣời dùng ta cần phải làm cho máy tính hiểu và xử lí đƣợc các thông tin chứa trong các siêu dữ liệu . Cụ thể hơn, ta cần phải có biểu diễn đƣợc ngƣ̃ nghĩa trong các tài liê ̣u.
Tƣơng tƣ̣ nhƣ trong web ngƣ̃ nghĩa, các biểu ghi thƣ mục siêu dữ liệu bản thân nó đã chứa tri thức về tài liệu (dạng đơn giản , tiềm ẩn), nhƣng nó chƣa đủ để máy tính ―suy luận‖ đƣợc , chỉ con ngƣời mới có thể suy luận đƣợc . Các siêu dữ liệu trong thƣ viê ̣n số mới chỉ là nhƣ̃ng nguyên liê ̣u ban đầu để xây dƣ̣ng mô ̣t thƣ viê ̣n ngƣ̃ nghĩa, do đó ta cần phải bổ sung bản thể luâ ̣n vào c ác biểu ghi thƣ mục siêu dữ liê ̣u. Các ngôn ngữ bản thể luận trong Web ngữ nghĩa nhƣ : lƣơ ̣c đồ RDF, Ngôn ngƣ̃ bản thể luận web (OWL) đƣơ ̣c áp du ̣ng để xây dƣ̣ng ngƣ̃ nghĩa cho các tài liê ̣u số.
Trong thƣ viê ̣n số ngƣ̃ nghĩa , ý nghĩa của nô ̣i dung tài liê ̣u đƣợc thể hiê ̣n tốt hơn, và những liên kết logic đƣợc thực hiện giữa những thông tin liên quan với nhau. Tuy nhiên, việc xây dƣ̣ng bản thể luâ ̣n cho mô ̣t lĩnh vƣ̣c cu ̣ thể là mô ̣t công viê ̣c đầy khó khăn và thách thức.
2.2. Kiến trúc của thƣ viện số ngƣ̃ nghi ̃a
Các đối tƣợng bắt buộc phải có trong một thƣ viện ngữ nghĩa là các siêu dữ liê ̣u và các tài nguyên , và một hệ thống thƣ viện ngữ nghĩa cần phải cung cấp các dịch vụ : trao đổi dƣ̃ liê ̣u với hê ̣ thống khác , chú giải cho ngƣời dùng , các dịch vụ tìm kiếm.
Kiến trúc của thƣ viê ̣n số ngƣ̃ nghĩa cần phải có các thành phần tƣơng ƣ́ng để đảm bao cung cấp các di ̣ch vu ̣ trên mô ̣t cách thống nhất , hình vẽ dƣới đây mô tả
31
mô ̣t kiến trúc cơ bản của thƣ viê ̣n số ngƣ̃ nghĩa (dƣ̣a trên hê ̣ thống thƣ viê ̣n số Alexandria và DELOS) [9].
Ngu n t i nguyên c ch v ơ n c ch v truy c p d thông tin c ch v chia s d li u c ch v qu n T ng d li u tr u t ng T ng tr nh di n d li u T ng truy nh p v thao t c d li u t tri n Yêu c u ch v T c t Ng i ng Thi t k t v n u n tr t v n
Hình 2.3. Kiến trú c thƣ viê ̣n số ngƣ̃ nghĩa
Đây là mô ̣t kiểu kiến trúc bao gồm ba tầng chính:
Tầng Dƣ̃ liê ̣u trƣ̀u tƣợng : Cung cấp cơ chế để truy câ ̣p vào các nguồn tài nguyên.
Tầng Truy câ ̣p và thao tác dƣ̃ liê ̣u : Hỗ trợ viê ̣n quản lí thƣ viê ̣n , Các dịch vụ cơ bản, Các dịch vụ truy cập thông tin, Hỗ trơ ̣ trao đổi dƣ̃ liê ̣u. Tầng Trình diễn dƣ̃ liê ̣u: Cung cấp giao diê ̣n hỗ trợ ngƣời dùng.
2.3. Bản thể luận cho thƣ viện số ngữ nghĩa 2.3.1. Bản thể luận biểu ghi thư mu ̣c
Với công nghê ̣ web ngƣ̃ nghĩa , sự biểu diễn của các chuẩn mô tả biểu ghi thƣ mục nhƣ các bản thể luận là một sự lựa chọn tất yếu . Các định dạng siêu dữ liệu có thể đƣợc tăng thêm tính ngƣ̃ nghĩa khi đƣợc biểu diễn bởi các khái niệm trong bản thể luận, nó cung cấp khả năng sƣ̉ du ̣ng các khái niê ̣m đã đƣợc đi ̣nh nghĩa và có thể suy diễn dƣ̃ liê ̣u tiềm ẩn tƣ̀ các mô tả thƣ mục.
Thông thƣờng mô ̣t thƣ viê ̣n số các sƣ̉ du ̣ng các chuẩn siêu dƣ̃ liê ̣u để tổ chƣ́c các biểu ghi thƣ mục . Mô ̣t tr ong nhƣ̃ng đi ̣nh da ̣ng biểu ghi thƣ mu ̣ c phổ biến là
32
MART21, BibTeX và Dublin Core..., tuy nhiên các chuẩn này đƣơ ̣c đi ̣nh nghĩa cho quá trình sử dụng của con ngƣời, chỉ có con ngƣời mới hiểu đƣợc, không đi ̣nh nghĩa ngƣ̃ nghĩa của các siêu dữ liệu để máy tính hiểu đƣợc.
Ví dụ Một bản thể luận biểu ghi thƣ mu ̣c của BiBTeX đƣợc biểu diễn nhƣ hình dƣới đây: PublicationList Publication Book entry Article rdfs:subClassOf String String rdfs:subClassOf author title
Hình 2.4. Bản thể luận BibTeX
Viê ̣c chuyển đổi t ừ biểu ghi thƣ mục sang Bản thể luận bao gồm ba bƣớc chính [8].
- Bƣớ c 1: Chuyển các biểu ghi thƣ mu ̣c truyền thố ng (MART21, Dublin Core, BibTeX) sang các tê ̣p tin XML.
- Bƣớ c 2: Chuyển các tê ̣p tin XML tƣ̀ bƣớc 1 sang các bô ̣ ba RDF . Các bô ̣ ba RDF chƣa có các thông tin ngƣ̃ nghĩa , chúng đơn thuần chỉ biểu diễn các trƣờng và