Chương 2. TIẾP CẬN WEB NGỮ NGHI ̃A TRONG
2.1 Web ngƣ̃ nghi ̃a và thƣ viện số
2.1.3. Web ngư ̃ nghi ̃a trong thư viê ̣n số
Ta biết rằng nguyên liê ̣u chính để xây dƣ̣ng web ngƣ̃ nghĩa là các siêu dƣ̃ liê ̣u , trong các thƣ viê ̣n số cũng vâ ̣y, các tài liệu cũng phải đƣợc biểu diễn bởi các siêu dữ
liê ̣u. Nếu tài liệu là những khối xây dựng căn bản của thƣ viện số, thì ngôn ngƣ̃
đánh dấu và các siêu dƣ̃ liê ̣u là những yếu tố tổ chức. Ngôn ngƣ̃ đánh dấu đƣợc dùng để chỉ rõ cấu trúc của tài liệu riêng lẻ và kiểm soát phương thức trình bày cho
người sử dụng. Các siêu dữ liệu được dùng để xúc tiến việc truy cập đến những phần thích hợp của tài liệu qua việc tìm kiếm. Trong các thƣ viê ̣n số có sƣ̣ khác biê ̣t quan tro ̣ng giƣ̃a siêu dƣ̃ liê ̣u hiê ̣n và siêu dƣ̃ liê ̣u ẩn. Siêu dƣ̃ liê ̣u hiện đƣợc xác định bởi con người sau khi xem xét cẩn thận và phân tích tài liệu. Siêu dữ liê ̣u ẩn được trích xuất tự động từ nội dung tài liệu nhờ kĩ thuâ ̣t khai thác văn bản. Công việc này thường khó thực hiện chính xác. Khai thác văn bản, được định nghĩa như một tiến trình phân tích văn bản để trích thông tin hữu ích cho mục đích cụ thể, đó là một đề tài nghiên cứu nóng bỏng hiện nay.
Mô ̣t trong nhƣ̃ng chuẩn siêu dƣ̃ liê ̣u thông dụng và nổi tiếng là DublinCore . Chuẩn Dublin Core là một tập hợp những thành phần siêu dƣ̃ liê ̣u đƣợc thiết kế đặc biệt cho việc sử dụng không chuyên. Đƣợc dùng chủ yếu cho việc mô tả tài liệu số.
Chuẩn Dublin Core bao gồm 15 yếu tố cơ bản và các yếu mỏ rộng bao gồm:
Nhan đề (Title): Nhan đề của tài liệu
Tác giả (Creator): Tác giả của tài liệu, bao gồm cả tác giả cá nhân và tác giả
tập thể.
Chủ đề (Subject): Chủ đề tài liệu đề cập dùng để phân loại tài liệu. Có thể
thể hiện bằng từ, cụm từ/(Khung chủ đề), hoặc chỉ số phân loại/ (Khung phân loại).
Tóm tắt (Description): Tóm tắt, mô tả nội dung tài liệu. Có thể bao gồm tóm tắt, chú thích, mục lục, đoạn văn bản để làm rõ nội dung
Nhà xuất bản (Publisher): Nhà xuất bản, nơi ban hành tài liệu có thể là tên cá nhân, tên cơ quan, tổ chức, dịch vụ...
Tác giả phụ (Contributor): Tên những người cùng tham gia cộng tác đóng góp vào nội dung tài liệu, có thể là cá nhân, tổ chức...
Ngày tháng (Date): Ngày, tháng ban hành tài liệu. Có thể dùng chuẩn ISO 8601
Loại (kiểu) (Type): Mô tả bản chất của tài liệu. Dùng các thuật ngữ mô tả
phạm trù kiểu: trang chủ, bài báo, báo cáo, từ điển...
Khổ mẫu (Format): Mô tả sự trình bày vật lý của tài liệu, có thể bao gồm;
vật mang tin, kích cỡ độ dài, kiểu dữ liệu (.doc, .html, .jpg, xls, phần mềm....)
Định danh (Identifier): Các thông tin về định danh tài liệu, các nguồn tham chiếu đến, hoặc chuỗi ký tự để định vị tài nguyên: URL (Uniform Resource Locators) (bắt đầu bằng http://), URN (Uniform Resource Name), ISBN
(International Standard Book Number), ISSN (International Standard Serial Number), SICI (Serial Item & Contribution Identifier), ...
Nguồn (Resource): Các thông tin về xuất xứ của tài liệu, tham chiếu đến nguồn mà tài liệu hiện mô tả đƣợc trích ra/tạo ra, nguồn cũng có thể là:
đường dẫn (URL), URN, ISBN, ISSN...
Ngôn ngữ (Language): Các thông tin về ngôn ngữ, mô tả ngôn ngữ chính của tài liệu
Liên kết (Relation): Mô tả các thông tin liên quan đến tài liệu khác. có thể
dùng đường dẫn (URL), URN, ISBN, ISSN...
Diện bao quát (Coverage): Các thông tin liên quan đến phạm vi, quy mô hoặc mức độ bao quát của tài liệu. Phạm vi đó có thể là địa điểm, không gian hoặc thời gian, tọa độ...
Bản quyền (Right): Các thông tin liên quan đến bản quyền của tài liệu
Các yếu tố mở rộng: Thực tế sử dụng Dublin Core cho thấy mỗi yếu tố cơ bản còn gộp chứa trong nó một vài thành tố phụ nhằm diễn đạt chi tiết hơn nội dung chính yếu tố đó. Các thành tố phụ đƣợc coi là các yếu tố mở rộng và đƣợc thể hiện thông qua những khung mã hóa cụ thể. Ví dụ, khi thể hiện nội dung của một tài liệu, người ta cung cấp một vài cách tiếp cận khác nhau nhƣ qua ký hiệu phân loại, tiêu đề đề mục, từ khoá, …
Cú pháp chung nhất cho Dublin Core nhƣ sau:
<meta name= ―nhãn trường‖> content= ―giá trị trường‖>
Tương tự như đối với các tài liệu truyền thống, mỗi tài liệu số cần có một biểu ghi thƣ mục mô tả làm cơ sở cho việc tìm kiếm và quản lý tài liệu đó. Đối với các hệ thống thƣ viện số giản đơn biểu ghi thƣ mục chứa thông tin liên kết trực tiếp tới địa chỉ tệp tin tài liệu số, người đo ̣c đến thư viê ̣n , tìm một biểu ghi thư mục và đưa cho thủ thƣ để lấy ra tài liê ̣u cần tham khảo . Trong hê ̣ thống thƣ viê ̣n số , các biểu ghi thư mu ̣c siêu dữ liê ̣u được dùng để trình bày về các siêu dữ liệu tài liệu. Các biểu ghi thư mu ̣c cũng được biểu diễn dưới da ̣ng RDF.
T i nguyên
ch PDF
1
2
N i dung t m t t tr
N i dung
ơ
ơ
tr N i dung
B sung
N i dung
M v i mô t Mô t
Ki u t m t t nh ng
Hình 2.2. Biểu diễn cấu trú c tài liê ̣u dưới da ̣ng RDF
Các bản thể luận cũng đóng vai trò quan trong trọ ng các thƣ viê ̣n số ngƣ̃
nghĩa. Bản thể luận không chỉ làm cho tri thức có thể sử dụng lại dễ dàng hơn , nó còn là nền tảng của việc tạo ra các chuẩn bởi vì nó làm rõ các khái niệm bên cạnh mô ̣t thuâ ̣t ngƣ̃ hoă ̣c mô ̣t mô hình. Viê ̣c tìm kiếm các tài liê ̣u trong thƣ viê ̣n số ngƣ̃
nghĩa là tìm kiếm các tài liệu có ý nghĩa tương tự nhau chứ không chỉ là những từ ngữ tương tự nhau.
Cho ví du ̣, với mô ̣t biểu ghi thƣ mu ̣c siêu dƣ̃ liê ̣u sau:
Nhan đề Lập trình Java cho các thiết bị di động
Tác giả Nguyễn Văn Anh Chủ đề Ngôn ngƣ̃ Java
Tóm tắt
Hướng dẫn viết các ứng dụng cho các thiết bị di động sƣ̉ du ̣ng ngôn ngƣ̃ lâ ̣p trình Java
Nhà xuất bản Đa ̣i ho ̣c Quốc Gia Hà Nô ̣i Tác giả phụ
...
Với câu truy vấn sau:
―Nhà xuất bản=Đa ̣i ho ̣c Quốc Gia Hà nô ̣i‖ AND ― Tác giả=Nguyễn Văn Anh‖
AND ―Chủ đề=Ngôn ngữ lâ ̣p trình hướng đối tượng‖
Nếu đươ ̣c truy vấn trong các hê ̣ thống tìm kiếm theo từ khóa thì sẽ không thấy đươ ̣c tài liê ̣u [Học các ngôn ngữ lập trình hiện đại qua các dự án ]. Ngược la ̣i nếu ta có tri thức ―Java là ngôn ngữ Lập trình hướng đối‖ được mô hình hóa trong bản thể
luâ ̣n (quan hê ̣ kế thừa) thì khi truy vấn trong thư viê ̣n số ngữ nghĩa sẽ ra được chính xác tài liệu.
Tƣ̀ ví du ̣ nhỏ trên ta thấy rằng , các ứng dụng ngữ nghĩa có thuận lợi rất lớn cho người dùng không phải là chuyên gia về lĩnh vực cu ̣ thể.
Các tài liệu số chỉ chƣ́a các siêu dƣ̃ liê ̣u, phục vụ cho việc quản lí và tìm kiếm đơn giản. Để trả lời các câu truy vấn phức ta ̣p từ người dùng ta cần phải làm cho máy tính hiểu và xử lí đƣợc các thông tin chứa trong các siêu dữ liệu . Cụ thể hơn, ta cần phải có biểu diễn được ngữ nghĩa trong các tài liê ̣u.
Tương tự như trong web ngữ nghĩa, các biểu ghi thư mục siêu dữ liệu bản thân nó đã chứa tri thức về tài liệu (dạng đơn giản , tiềm ẩn), nhƣng nó chƣa đủ để máy tính ―suy luận‖ được , chỉ con người mới có thể suy luận được . Các siêu dữ liệu trong thƣ viê ̣n số mới chỉ là nhƣ̃ng nguyên liê ̣u ban đầu để xây dƣ̣ng mô ̣t thƣ viê ̣n ngƣ̃ nghĩa, do đó ta cần phải bổ sung bản thể luâ ̣n vào c ác biểu ghi thƣ mục siêu dữ
liê ̣u. Các ngôn ngữ bản thể luận trong Web ngữ nghĩa như : lươ ̣c đồ RDF, Ngôn ngữ
bản thể luận web (OWL) đươ ̣c áp du ̣ng để xây dựng ngữ nghĩa cho các tài liê ̣u số.
Trong thư viê ̣n số ngữ nghĩa , ý nghĩa của nô ̣i dung tài liê ̣u được thể hiê ̣n tốt hơn, và những liên kết logic đƣợc thực hiện giữa những thông tin liên quan với nhau. Tuy nhiên, việc xây dƣ̣ng bản thể luâ ̣n cho mô ̣t lĩnh vƣ̣c cu ̣ thể là mô ̣t công viê ̣c đầy khó khăn và thách thức.
2.2. Kiến trúc của thƣ viện số ngƣ̃ nghi ̃a
Các đối tƣợng bắt buộc phải có trong một thƣ viện ngữ nghĩa là các siêu dữ
liê ̣u và các tài nguyên , và một hệ thống thƣ viện ngữ nghĩa cần phải cung cấp các dịch vụ : trao đổi dữ liê ̣u với hê ̣ thống khác , chú giải cho người dùng , các dịch vụ tìm kiếm.
Kiến trúc của thư viê ̣n số ngữ nghĩa cần phải có các thành phần tương ứng để
đảm bao cung cấp các di ̣ch vu ̣ trên mô ̣t cách thống nhất , hình vẽ dưới đây mô tả
mô ̣t kiến trúc cơ bản của thƣ viê ̣n số ngƣ̃ nghĩa (dƣ̣a trên hê ̣ thống thƣ viê ̣n số
Alexandria và DELOS) [9].
Ngu n t i nguyên c ch v
ơ n c ch v
truy c p d thông tin c ch v
chia s d li u
c ch v qu n
T ng d li u tr u t ng T ng tr nh di n d li u
T ng truy nh p v thao t c d li u t tri n
Yêu c u ch v
T c t Ng i ng
Thi t k t v n
u n tr t v n
Hình 2.3. Kiến trú c thƣ viê ̣n số ngƣ̃ nghĩa Đây là mô ̣t kiểu kiến trúc bao gồm ba tầng chính:
Tầng Dữ liê ̣u trừu tượng : Cung cấp cơ chế để truy câ ̣p vào các nguồn tài nguyên.
Tầng Truy câ ̣p và thao tác dƣ̃ liê ̣u : Hỗ trợ viê ̣n quản lí thƣ viê ̣n , Các dịch vụ cơ bản, Các dịch vụ truy cập thông tin, Hỗ trơ ̣ trao đổi dƣ̃ liê ̣u.
Tầng Trình diễn dữ liê ̣u: Cung cấp giao diê ̣n hỗ trợ người dùng.