1. Trang chủ
  2. » Giáo án - Bài giảng

Nghiên cứu công nghệ semantic web và chuẩn dublin core metadata, ứng dụng trong việc triển khai hệ thống tài liệu số chuyên ngành tích hợp trên cổng thông tin điện tử của khoa công nghệ thô

69 180 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 69
Dung lượng 2,13 MB

Nội dung

Có thể nhận thấy rằng khi sử dụng công nghệ Web ngữ nghĩa, với việc biểu diễn của các chuẩn mô tả tài nguyên có thể kể đến như RDF hay Ontology là một phương pháp giải quyết được yêu cầu

Trang 1

BỘ GIAO THÔNG VẬN TẢI BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM

LÊ HOÀNG DƯƠNG

NGHIÊN CỨU CÔNG NGHỆ SEMANTIC WEB VÀ CHUẨN DUBLIN CORE METADATA, ỨNG DỤNG TRONG VIỆC TRIỂN KHAI HỆ THỐNG TÀI LIỆU SỐ CHUYÊN NGÀNH TÍCH HỢP TRÊN CỔNG THÔNG TIN ĐIỆN TỬ CỦA KHOA CÔNG NGHỆ THÔNG TIN – TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM

LUẬN VĂN THẠC SỸNGÀNH KỸ THUẬT

HẢI PHÒNG - 2015

Trang 2

BỘ GIAO THÔNG VẬN TẢI BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM

LÊ HOÀNG DƯƠNG

NGHIÊN CỨU CÔNG NGHỆ SEMANTIC WEB VÀ CHUẨN DUBLIN CORE METADATA, ỨNG DỤNG TRONG VIỆC TRIỂN KHAI HỆ THỐNG TÀI LIỆU SỐ CHUYÊN NGÀNH TÍCH HỢP TRÊN CỔNG THÔNG TIN ĐIỆN TỬ CỦA KHOA CÔNG NGHỆ THÔNG TIN – TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM

LUẬN VĂN THẠC SĨ NGÀNH KỸ THUẬT

NGÀNH: CÔNG NGHỆ THÔNG TIN; MÃ SỐ: CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN

Người hướng dẫn khoa học: TS Trần Đăng Hoan

HẢI PHÒNG - 2015

Trang 3

Lời cam đoan

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác

Tôi xin cam đoan rằng các thông tin trích dẫn trong luận văn đều đã được chỉ rõ nguồn gốc

Hải Phòng, ngày 15 tháng 09 năm 2015

Trang 4

Mặc dù đã có nhiều cố gắng để thực hiện đề tài một cách hoàn chỉnh nhất, song do vẫn còn như hạn chế về kiến thức và kinh nghiệm nên không thể tránh khỏi những thiếu sót nhất định mà bản thân chưa thấy được Tôi rất mong được sự góp ý của quý thầy, cô giáo và các bạn đồng nghiệp để luận văn được hoàn chỉnh hơn

Tôi xin chân thành cảm ơn

Trang 5

Mục lục

Lời cam đoan i

Lời cám ơn ii

DANH MỤC CÁC CHỮ VIẾT TẮT VÀ KÝ HIỆU vi

DANH MỤC CÁC BẢNG vii

DANH MỤC CÁC HÌNH viii

Mở đầu 1

Chương 1: Tổng quan về thư viện số ngữ nghĩa 3

1.1 Thư viện số là gì? 3

1.2 Thư viện số ngữ nghĩa là gì 5

1.3 Nội dung nghiên cứu của đề tài 7

Kết luận 8

Chương 2 Công nghệ Web ngữ nghĩa trong hệ thống thư viện số 9

2.1 Web ngữ nghĩa (Semantic Web) 9

2.1.1 Khái niệm về Web ngữ nghĩa 9

2.1.2 Kiến trúc của Web ngữ nghĩa 10

2.1.3 RDF, RDF Schema và Ontology 12

a RDF (Resource Description Framework) 12

b RDFs (Resource Description Framework Schema) 18

c Ontology 25

2.2 Dublin Core Metadata 27

2.2.1 Siêu dữ liệu (Metadata) 27

2.2.2 Siêu dữ liệu Dublin Core 29

a Đặc điểm của Dublin Core 29

Trang 6

c Các yếu tố của Dublin Core 30

d Các yếu tố mở rộng 32

2.3 Web ngữ nghĩa và thư viện số 33

2.3.1 Thư viện số ngữ nghĩa 33

2.3.2 Tổ chức tri thức trong thư viện số ngữ nghĩa 34

2.3.3 Web ngữ nghĩa trong thư viện số 35

2.3.4 Kiến trúc của thư viện số ngữ nghĩa 36

2.3.5 Ontology cho thư viện số ngữ nghĩa 37

a Ontology biểu ghi thư mục 37

b Ontology cho cấu trúc nội dung 38

c Nguyên tắc xây dựng Ontology cho hệ thống thư viện số 38

2.3.6 Tìm kiếm trong thư viện số ngữ nghĩa 39

a Tìm kiếm dựa trên sự phân loại 39

b Tìm kiếm ngữ nghĩa 40

Kết luận 41

Chương 3 Phân tích, thiết kế và cài đặt hệ thống tài liệu số chuyên ngành công nghệ thông tin 42

3.1 Phân tích và thiết kế hệ thống 42

3.1.1 Phân tích yêu cầu thực tế của bài toán 42

3.1.2 Phân tích chức năng của bài toán 43

3.1.3 Xây dựng Ontology cho hệ thống thư viện số: 44

3.1.3.1 Ontology cho tài nguyên trong thư viện số: 44

3.1.3.2 Ontology thông tin người dùng trên hệ thống: 49

3.2 Cài đặt hệ thống 51

3.2.1 Công cụ và ngôn ngữ 51

Trang 7

3.2.2 Kết quả cài đặt: 52

Kết luận: 56

KẾT LUẬN 57

Tài liệu tham khảo 59

Trang 8

DANH MỤC CÁC CHỮ VIẾT TẮT VÀ KÝ HIỆU

RDFs Resource Description Framework Schema

Trang 9

3.1 Danh sách các thuộc tính trong Ontology của

hệ thống thư viện số ngữ nghĩa

48

Trang 10

2.5 Kiến trúc của hệ thống thư viện số ngữ nghĩa

đề xuất

37

2.6 Tìm kiếm ngữ nghĩa trong thư viện số 40 3.1 Mô hình Ontology của hệ thống thư viện số 46

3.3 Giao diện quản lý danh sách tài liệu 52 3.4 Giao diện thêm siêu dữ liệu cho tài liệu 53

3.6 Giao diện danh sách tài liệu trong 1 chuyên

ngành

55

Trang 11

Mở đầu

Ngày nay, việc xây dựng các cổng thông tin điện tử là một nhu cầu cấp thiết đối với các trường đại học nhằm cung cấp công cụ truy cập đến các tài nguyên thông tin của Nhà trường cho người dùng, đặc biệt là đối tượng giảng viên và sinh viên Tài liệu học tập, giáo trình, luận văn, tài liệu tham khảo là những tài nguyên

vô cùng quan trọng nhằm phục vụ cho nhu cầu nghiên cứu và học tập của giảng viên và sinh viên của Nhà trường Giải pháp xây dựng các thư viện tài liệu số để tích hợp vào trong cổng thông tin của Nhà trường đang được rất nhiều trường đại học quan tâm và phát triển Tuy nhiên, vấn đề đặt ra hiện nay cho các thư viện tài liệu số là việc quản lý các tài nguyên khổng lồ của thư viện như thế nào để hỗ trợ việc tìm kiếm thông tin dễ dàng hơn, chính xác hơn, tìm kiếm theo ngữ cảnh của người sử dụng

Để giải quyết các yêu cầu trên thì thư viện số phải sử dụng siêu dữ liệu chung

để mô tả các bản ghi của danh mục và các từ vựng điều khiển chung cho phép gán định danh các tài liệu Các thư viện tài liệu số thường sử dụng một chuẩn siêu dữ liệu nào đó để tổ chức các mô tả tài nguyên Các chuẩn định dạng mô tả tài nguyên phổ biến như MARC, Dublin Core, BibTex,… Trong giới hạn của nghiên cứu này, tác giả tập trung vào việc xây dựng siêu dữ liệu theo chuẩn Dublin Core Tuy nhiên, chuẩn siêu dữ liệu này được định nghĩa cho quá trình sử dụng của con người, chỉ có con người mới hiểu được, không định nghĩa được ngữ nghĩa của các trường siêu dữ liệu theo cách máy tính có thể hiểu được

Có thể nhận thấy rằng khi sử dụng công nghệ Web ngữ nghĩa, với việc biểu diễn của các chuẩn mô tả tài nguyên có thể kể đến như RDF hay Ontology là một phương pháp giải quyết được yêu cầu xây dựng tính ngữ nghĩa cho các tài nguyên Các siêu dữ liệu có ngữ nghĩa được biểu diễn thông qua RDF và Ontology cung cấp khả năng sử dụng các khái niệm đã được định nghĩa và suy diễn dữ liệu từ các

mô tả của tài nguyên Việc tìm kiếm tài nguyên sẽ mang lại kết quả chính xác hơn nếu hệ thống cung cấp cho người dùng một khung nhìn duy nhất về tên của các tài nguyên trong thư viện Các nguồn dữ liệu lớn có thể hoạt động liên thông thông

Trang 12

qua sự hỗ trợ của Ontology, đồng thời Ontology cũng cung cấp một khung nhìn chung cho các tài nguyên Bằng cách xây dựng và truy xuất các Ontology, các hệ thống thư viện số sẽ dễ dàng hơn trong việc định nghĩa và hiểu được ngữ nghĩa của các tài nguyên, từ đó đưa ra được kết quả tìm kiếm chính xác hơn

Thấy rõ được vai trò và tầm quan trọng của một hệ thống thư viện tài liệu số trong trường Đại học, cũng như việc áp dụng chuẩn siêu dữ liệu Dublin Core Metadata và công nghệ Semantic Web để triển khai một hệ thống thư viện số hiệu quả và phù hợp với việc phát triển của công nghệ hiện nay, tác giả đã lựa chọn đề

tài “Nghiên cứu công nghệ Semantic Web và chuẩn Dublin Core Metadata, ứng

dụng trong việc triển khai hệ thống tài liệu số chuyên ngành tích hợp trên cổng thông tin điện tử của khoa Công nghệ thông tin – Trường Đại học Hàng hải Việt Nam” để tìm hiểu, nghiên cứu cho luận văn thạc sỹ của mình Quy mô của đề tài

hiện tại mới chỉ dừng lại ở việc triển khai hệ thống tài liệu số cho một đơn vị thuộc Nhà trường, tuy nhiên hướng phát triển của đề tài trong tương lai là hoàn toàn khả thi để có thể xây dựng được hệ thống thư viện số cho toàn bộ các ngành học thuộc

trường

Trang 13

Chương 1: Tổng quan về thư viện số ngữ nghĩa 1.1 Thư viện số là gì?

Thư viện số (Digital Library): là một thư viện mà tại đó các bộ sưu tập được lưu trữ ở định dạng số và cho phép truy nhập bởi máy tính.Thuật ngữ "Thư viện số" được sử dụng để chỉ một loạt các hệ thống, từ đối tượng số và kho siêu dữ liệu, tài liệu tham khảo liên kết hệ thống, đến hệ thống quản lý nội dung cho các hệ thống phức tạp mà có thể tích hợp các dịch vụ thư viện số nâng cao và hỗ trợ cho việc nghiên cứu và thực hành Một thư viện số có thể cung cấp nhiều chức năng công nghệ và dịch vụ hỗ trợ người sử dụng, cả thông tin của người sản xuất cũng như thông tin của người sử dụng.Ở mức tốt nhất, một thư viện số cần:

 Tích hợp quyền truy cập vào tài liệu và quyền truy cập vào công cụ để xử lý tài liệu, như vậy thư viện số bao gồm tài liệu và các công cụ

 Hỗ trợ thông tin cho cá nhân và cộng đồng thông qua các chức năng để lựa chọn, chú thích, đóng góp và hợp tác

 Tìm kiếm ngữ nghĩa tăng cường nhằm lấy từ nội dung văn bản và hình ảnh

 Tìm kiếm trên nhiều ngôn ngữ

 Tìm kiếm trên nhiều hệ thống, cú pháp và ngữ nghĩa, có khả năng tương tác

 Tìm câu trả lời, không chỉ tài liệu mà còn có khả năng lý luận và suy luận Một vấn đề chính cho một hệ thống thư viện số toàn diện cần xem xét ở đây

Trang 14

 Tích hợp các nền tảng xuất bản và truyền thông

Bên cạnh đó, vấn đềbản quyền và việc truy cập thông tin cũng là một vấn đề đáng được quan tâm khi triển khai các hệ thống thư viện số Việc sử dụng bản quyền là một cách làm truyền thống để bảo vệ quyền sở hữu thông tin và sự kiểm soát đối với việc phổ biến thông tin và thông qua đó đưa ra các cơ chế thu phí sử dụng hay truy cập Có thể thấy rằng lý do trên đã tác động đến sự tăng trưởng của công nghiệp xuất bản cả các ấn phẩm in và ấn phẩm điện tử như ta đã thấy hiện nay.Vấn đề bản quyền trong thế giới số thực sự là một thách thức docác nguồn tài nguyên số không giống như các nguồn tài nguyên truyền thống như sách, báo, đĩa CD, Theo Luật Bản quyền số của Hoa Kỳ (The Digital Copyright Act) thì các thư viện có quyền được tạo ra 3 bản sao của một tài liệu chưa xuất bản để lưu trữ,

dự phòng và lưu chiểu dành cho việc nghiên cứu tại một thư viện khác Nhưng một bản sao dạng số hóa của một tài liệu chưa xuất bản mà có bản quyền không được phép truy cập bên ngoài thư viện hoặc cơ quan lưu trữ, vì thế sẽ không được cung cấp trên Internet Ngoài ra, việc số hóa các tài liệu cũ cũng là mối quan tâm của các thư viện và cơ quan lưu trữ Những tài liệu này có thể không còn được bán trên thị trường, tuy nhiên các tài liệu đó vẫn còn bản quyền Nếu các thư viện muốn số hoá những tài liệu này, họ phải có giấy phép từ người giữ bản quyền đồng

ý cho phép số hóa tài liệu, nếu không khi họ tiến hành số hóa sẽ có thể bị kiện bởi người giữ bản quyền Những người giữ bản quyền thường rất ít khi cấp phép số hoá cho các tài liệu hiện vẫn đang còn trong thời hạn bản quyền nếu họ vẫn muốn

in lại hoặc tái bản có sửa chữa, bổ sung cho tài liệu đó, hoặc xuất bản điện tử tài liệu Tình thế này sẽ càng trở nên khó khăn hơn nếu những người giữ bản quyền là các nhà xuất bản, bởi vì họ xem các thư viện số là mối đe doạ cho thị trường của họ; Chính vì vậy để giải quyết được vấn đề bản quyền đối với các thư viện số là một vấn đề phức tạp và cần được giải quyết bằng nhiều biện pháp

Hỗ trợ người dùng tìm kiếm thông tin là một trong những chức năng quan trọng của các thư viện số Điều này đồng thời cũng tạo ra một thách thức lớn cho các cán bộ phát triển thư viện số, những người phải thực hiện xây dựng chức năng

Trang 15

hỗ trợ

Bên cạnh những thách thức trên, để có thể cung cấp nguồn tài liệu số phong phú, thư viện số còn phải đối mặt với nhiều thách thức khác, ví dụ như sự thay đổi của công nghệ diễn ra liên tục; sự phát triển của các công nghệ hỗ trợ việc tìm kiếm thông tin trên mạng; tuân thủ và phát triển các tiêu chuẩn về tính năng tương

Trang 16

1.2 Thƣ viện số ngữ nghĩa là gì

Thư viện số ngữ nghĩa là thư viện số áp dụng công nghệ Web ngữ nghĩa vào trong việc triển khai xây dựng hệ thống Với sự hỗ trợ của công nghệ Web ngữ nghĩa,

của kỹ thuật này là làm cho thao tác giữa các phần có thể xử lý thông minh, nhất quán, mạch lạc tương tự các lớp của đối tượng số và các dịch vụ

Ứng dụng Ontology trong mô tả hệ thống thư mục: thông thường các dữ liệu

mô tả có cấu trúc được sử dụng trong thư viện số để mô tả hệ thống thư mục tuy nhiên vấn đề gặp phải là các trường trong dữ liệu mô tả lại không được định nghĩa

Trang 17

của Ontology và sử dụng nó trong việc mô tả dữ liệu, chúng ta đã cung cấp một tầng tổng quát dữ liệu mô tả và nội dung

1.3 Nội dung nghiên cứu của đề tài

Mục đích nghiên cứu trong luận văn này là:

- Nghiên cứu các khái niệm tổng quan về Web ngữ nghĩa (semantic Web), chuẩn siêu dữ liệu Dublin Core, các công cụ, ứng dụng hỗ trợ xây dựng Web ngữ nghĩa và các chuẩn siêu dữ liệu

- Nghiên cứu hệ thống lưu trữ và quản lý thông tin thư viện và các mô hình hiện nay của hệ thống thư viện Phân tích các nền tảng lý thuyết trong việc áp dụng Web ngữ nghĩa vào hệ thống thư viện số

- Phân tích và thiết kế hệ thống và xây dựng hệ thống tài liệu số chuyên ngành tích hợp trên cổng thông tin điện tử của khoa Công nghệ thông tin – Trường Đại học Hàng hải Việt Nam theo công nghệ Web ngữ nghĩa và chuẩn siêu dữ liệu Dublin Core Metadata

Đối tượng nghiên cứu của luận văn gồm: các khái niệm Web ngữ nghĩa, các

thành phần chính dùng để xây dựng Web ngữ nghĩa, cơ sở lý thuyết và nền tảng để xây dựng một ứng dụng Semantic Web; chuẩn siêu dữ liệu Dublin Core; hệ thống thư viện số và việc triển khai ứng dụng Semantic Web vào lĩnh vực tìm kiếm thông

Trang 18

tin về thư viện, đồng thời xây dựng và kiểm thử hệ thống tài liệu số chuyên ngành Công nghệ thông tin được triển khai trên công nghệ Semantic Web

Bố cục của luận văn:

Luận văn bao gồm các nội dung theo các phần chính như sau:

Chương 1 “Tổng quan về thư viện số ngữ nghĩa”: Trình bày tổng quan về khái niệm về thư viện số, thư viện số ngữ nghĩa, các vấn đề thách thức gặp phải khi triển khai hệ thống và nội dung nghiên cứu của luận văn

Chương 2 “Công nghệ Web ngữ nghĩa trong thư viện số”: Trình bày các khái niệm về Web ngữ nghĩa, siêu dữ liệu Dublin Core, RDF, RDFs, Ontology, cách tổ chức tri thức trong thư viện số và thư viện số ngữ nghĩa Phân tích và trình bày kiến trúc của thư viện số ngữ nghĩa, Ontology của thư viện số ngữ nghĩa và việc tìm kiếm trong thư viện số ngữ nghĩa

Chương 3 “Phân tích và xây dựng hệ thống tài liệu số chuyên ngành công nghệ thông tin” : Phân tích bài toán thực tế, xây dựng các siêu dữ liệu theo chuẩn Dublin Core và các Ontology, xây dựng và triển khai hệ thống Website theo công nghệ Semantic Web, đánh giá kết quả và hướng phát triển của đề tài trong tương lai

Kết luận

Trong chương này đã trình bày tổng quan các khái niệm về thư viện số, thư viện số ngữ nghĩa, nội dung nghiên cứu của luận văn, các thách thức đặt ra đối với một hệ thống thư viện số và các ưu điểm của một hệ thống thư viện số áp dụng

công nghệ Web ngữ nghĩa

Trang 19

Chương 2 Công nghệ Web ngữ nghĩa trong hệ thống thư viện số

Trong chương này, tác giả sẽ giới thiệu về các công nghệ được sử dụng trong việc triển khai hệ thống thư viện số ngữ nghĩa Nội dung của chương sẽ tập trung giới thiệu về: Web ngữ nghĩa, siêu dữ liệu Dublin Core, RDF (Resource Description Frame Work), RDFS (Resource Description Framework Schema), Ontology và công nghệ Web ngữ nghĩa trong thư viện số

2.1 Web ngữ nghĩa (Semantic Web)

Phần này sẽ làm rõ khái niệm Web ngữ nghĩa (Semantic Web), phân tích kiến trúc của Web ngữ nghĩa, giới thiệu về các thành phần cốt lõi tạo nên tính ngữ nghĩa của hệ thống: RDF, RDFS, Ontolgy

2.1.1 Khái niệm về Web ngữ nghĩa

Những ưu điểm của Web ngữ nghĩa so với Web hiện tại bao gồm:

 Máy tính có thể hiểu được thông tin trên Web ngữ nghĩa: Với việc định nghĩa các khái niệm và bổ sung các quan hệ dưới dạng máy tính có thể hiểu được

Trang 20

2.1.2 Kiến trúc của Web ngữ nghĩa

Semantic Web là một tập hợp/một chồng các lớp và các giao thức Tất cả các lớp của Semantic Web được sử dụng để đảm bảo độ an toàn và giá trị thông tin trở nên tốt nhất Hình 2.1 thể hiện kiến trúc của một hệ thống Web ngữ nghĩa với các chồng giao thức và lớp cụ thể

Hình 2.1 Kiến trúc hệ thống Web ngữ nghĩa

Lớp Unicode & URI:URI - Uniform Resource Identifier: định danh tài

Trang 21

nguyên (có thể là con người, quyển sách, hay bất kỳ đối tượng nào) trên mạng internet giúp phân biệt giữa các tài nguyên với nhau URI là nền tảng của Web ngữ nghĩavà không thể thay thế được Lớp Unicode & URI giúp nhằm bảo đảm việc sử dụng tập kí tự quốc tế và cung cấp phương tiện nhằm định danh các đối tượng trong Web ngữ nghĩa

Lớp RDF [RDF] và RDFSchema [RDFS]: ta có thể tạo các phát biểu

(statement) để mô tả các đối tượng bằng những từ vựng hay các URI Các

đối tượng này có thể được tham chiếu đến bởi những từ vựng và định nghĩa của URI ở trên Đây cũng là lớp quan trọng nhất trong kiến trúc Semantic Web

Lớp Digital Signature: được dùng để xác định chủ thể của tài liệu

Các lớpLogic, Proof, Trust: đang trong giai đoạn nghiên cứu và các thể hiện của các ứng dụng giản đơn đang được xây dựng Lớp Logic cho phép tạo ra các luật (Rule) trong khi lớp Proofsẽ thi hành các luật và cùng với lớp

Trang 22

tin tưởng(Trust) chứng cứ (Proof)

2.1.3 RDF, RDF Schema và Ontology

a RDF (Resource Description Framework)

Ngôn ngữ biểu diễn dữ liệu và tri thức là một khía cạnh quan trọng của Semantic Web RDF được dùng để mã hóa các siêu dữ liệu của các tài nguyên vào một bộ ba (RDF Triple): chủ ngữ (Subject), vị ngữ (Predicate) và đối tượng (Object) Ta biết rằng mỗi một thực thể hay khái niệm đều có các thuộc tính, mỗi thuộc tính đều có các giá trị, vì vậy mọi tài nguyên cũng đều có thể được biểu diễn qua ngôn ngữ RDF

XML cung cấp cú pháp để mã hóa dữ liệu, RDF là một cơ cấu chỉ ra điều gì

đó về dữ liệu RDF cung cấp một mô hình dữ liệu, và một cú pháp đơn giản sao cho các hệ thống độc lập có thể trao đổi và sử dụng nó RDF được thiết kế sao cho

hệ thống máy tính có thể hiểu được và có thể đọc được thông tin, chứ không phải

để trình bày dữ liệu cho người dùng Là một thành phần của Web ngữ nghĩa, được đặt trên XML, RDF sử dụng cú pháp của XML để biểu diễn thông tin, điều này có nghĩa là các tài liệu RDF được viết bằng XML Ngôn ngữ XML dùng để biểu diễn thông tin trong RDF được gọi là RDF/XML Thông qua định dạng này, các thông tin trong RDF có thể được trao đổi dễ dàng giữa các hệ thống máy tính cũng như các hệ điều hành hay các ngôn ngữ lập trình ứng dụng khác nhau

RDF mô tả các nguồn tài nguyên bởi bộ ba [chủ ngữ], [vị ngữ], [ đối tượng] Một [vị ngữ] là một khía cạnh, tính chất, thuộc tính, hay mối liên hệ mô tả cho một tài nguyên Một phát biểu bao gồm một tài nguyên riêng biệt, một thuộc tính được đặt tên, và giá trị thuộc tính cho tài nguyên đó ([đối tượng]) Giá trị này cơ bản có thể là một tài nguyên khác hay một giá trị mang tính nghĩa đen hay dạng chuỗi văn bản tùy ý

[Chủ ngữ] là đối tượng được xác định qua định danh tài nguyên thống nhất – URI, chẳng hạn chúng có thể là một liên kết của một trang Web Các [vị ngữ] cũng được xác định qua URI, do đó bất kì ai cũng có thể định nghĩa ra một khái niệm mới, một thuộc tính mới, bằng cách chỉ cần định nghĩa URI cho chúng Bởi

Trang 23

vì RDF sử dụng URI để biểu diễn các thông tin trong một tài liệu, các URI đảm bảo rằng các khái niệm không chỉ chứa văn bản thuần túy mà nó còn là định danh tài nguyên duy nhất mà tất cả người dùng có thể tìm kiếm được trên mạng Trong RDF, các URI đóng một vai trò rất quan trọng: Chúng ta có thể tạo ra các (siêu)

dữ liệu dựa trên bất kỳ một nguồn tài nguyên nào trên Web, ngữ nghĩa được đưa vào các nguồn tài nguyên Web thông qua các URI, và URI cho phép liên kết giữa các phần tử dữ liệu thông qua các thuộc tính

(1) Mô hình dữ liệu RDF

Sự kết hợp của một nguồn tài nguyên ([chủ ngữ]), một thuộc tính ([vị ngữ])

và một giá trị của thuộc tính được ([đối tượng]) được đặt trong một Phát_biểu Cho một câu sau: “CEO của công ty Apple là Tim Cook” Như vậy, ta có thể biểu diễn bởi một phát biểu với các thông tin sau:

- Chủ ngữ của phát biểu RDF là: “công ty Apple”

- Tính chất là: “CEO”

- Đối tượng là: “Tim Cook”

Mô hình cơ bản của RDF gồm ba bộ phận sau:

 Tài nguyên: là tất cả những gì được mô tả bằng biểu thức RDF

 Thuộc tính: là đặc tính hay quan hệ mô tả tính chất tài nguyên

 Phát biểu: mỗi phát biểu gồm ba thành phần sau:

- [Chủ ngữ]: địa chỉ hay vị trí tài nguyên muốn mô tả

- [Vị ngữ]: xác định tính chất của tài nguyên

- [Đối tượng]: nội dung gán cho thuộc tính

(2) RDF và Cơ sở dữ liệu quan hệ

Trong các cơ sở dữ liệu quan hệ truyền thống, dữ liệu được lưu dưới dạng các bảng Trong mỗi bảng, mỗi hàng là một bản ghi không có giới hạn về số lượng các trường

Ví dụ ta có bảng sau:

ISBN Tên Tác giả NXB Số trang Giá bán

1001111 Lập trình C Nguyễn VănA ĐHQG 150 30.000

Trang 24

So với CSDL quan hệ, cách lưu trữ dưới dạng RDF có những ưu điểm sau:

 Tổ chức dữ liệu đơn giản, đồng nhất nên thông tin dễ dàng chỉnh sửa

 Cấu trúc bộ ba giúp ta dễ truy xuất các thông tin bởi các hệ thống suy luận, tìm kiếm ngữ nghĩa Cũng nhờ vậy mà những bộ xử lí RDF có thể suy ra những tri thức mới

 Chia sẻ dữ liệu trên mạng nhờ sự đồng nhất

(3) Đồ thị RDF

Tập hợp các bộ ba tạo thành đồ thị RDF (đồ thị có hướng) Các nút trong đồ thị là [chủ ngữ] và [đối tượng], các cung trong đồ thị là [Vị ngữ] và luôn có hướng từ [chủ ngữ] tới [đối tượng] Dùng đồ thị làm cho thông tin thể hiện rõ ràng

Ta xét một ví dụ: xét một phát biểu RDF

{thongtinlichthi.html,datecourse,”09-08-2015”}

Chủ ngữ

Đối tượng

Vị ngữ

Trang 25

Cú phát RDF được biểu diễn như sau:

1: <?xml version="1.0"?>

2: <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" 3: xmlns:exterms="http://www.abc.vn/">

4: <rdf:Description rdf:about="http://www.abc.vn/thongtinlichthi.html"> 5: <exterms:datecourse>09-08-2015</exterms:datecourse>

Dòng 2 và 3: Bắt đầu với thẻ rdf:RDF , cho biết rằng nội dung XML tiếp theo

mô tả RDF Từ khóa này xác định tài liệu này được biểu diễn dưới dạng RDF

Tiếp theo là phần khai báo không gian tên XML được sử dụng trong tài liệu, tùy vào nhu cầu và mục đích sử dụng mà ta có thể dùng các không gian tên khác nhau

cho từng tài liệu

Dòng 4, 5, 6: Mô tả những mệnh đề RDF Để mô tả bất kỳ phát biểu nào dạng RDF/XML có thể dùng rdf:Description, và rdf:about , đây chính là [chủ ngữ] của phát biểu Thẻ bắt đầu rdf:Description trong dòng 4 cho biết bắt đầu mô tả về một tài nguyên, và tiếp tục định danh tài nguyên này dùng thuộc tính rdf:about để chỉ ra URI của tài nguyên

Dòng 5 cung cấp 1 phần tử thuộc tính, với Qname là exterms:creation-date như là thẻ của nó Nội dung của phần tử thuộc tính này là [đối tượng] của Phát_biểu, có giá trị là kiểu chuỗi kí tự “10 tháng 10 năm 2010 “

Dòng 7: Cho biết kết thúc của thẻ rdf:RDF bắt đầu ở dòng 2 và cũng là thẻ kết thúc của tài liệu RDF

(5) Bộ chứa RDF

Để mô tả tập hợp của nhiều đối tượng như một bài báo khoa học được viết bởi nhiều tác giả, danh sách các sinh viên trong một khóa học, v.v RDF cung cấp

Trang 26

nhiều kiểu và nhiều thuộc tính tích hợp sẵn giúp mô tả được những tập như vậy, trong đó có kiểu khai báo “bộ chứa” (container), dùng để lưu danh sách các tài nguyên hoặc các kiểu giá trị (Một bộ chứa là một nguồn tài nguyên chứa những cái

gì đó, những cái gì đó được đặt trong bộ chứa được gọi là các thành viên).Các phần

tử của một bộ chứa có thể là các tài nguyên URI (có thể là rỗng) hay là các giá trị kiểu chuỗi kí tự RDF định nghĩa 3 loại đối tượng “bộ chứa”: Bag, Sequence, và Alternative

<rdf:Bag> là danh sách không có thứ tự của các tài nguyên hoặc các giá trị

Bag cho phép những giá trị có thể trùng lặp nhau

<?xml version="1.0"?>

<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:group="http://www.abc.vn/group#">

<rdf:Description

rdf:about="http://www.caohoc.com.vn/database"><group:member>

<rdf:Bag>

<rdf:li>Nguyễn Văn A</rdf:li>

<rdf:li>Lê Thi C̣ </rdf:li>

<rdf:Seq> là danh sách có thứ tự của các tài nguyên hoặc các giá trị Chẳng

hạn dùng Sequence để lưu trữ các giá trị theo thứ tự bảng chữ cái Sequence cho phép những giá trị có thể trùng lặp nhau

<?xml version="1.0"?>

<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:class="http://www.abc.vn/class#">

<rdf:Description

Trang 27

<rdf:Alt> là một danh sách các tài nguyên hoặc các giá trị, được dùng để

biểu diễn các giá trị lựa chọn của một thuộc tính (người dùng chỉ có thể được lựa chọn một trong các giá trị đó)

<?xml version="1.0"?>

<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns: paper ="http://www.abc.vn/paper#">

Trang 28

Tập hợp RDF (Collection RDF) được sử dụng để mô tả các nhóm chỉ chứa những thành viên đã được đặc tả Như ta đã biết, trong RDF, một bộ chứa RDF cho thấy các thành viên của nó là các nguồn tài nguyên, nó không cho biết rằng những thành viên nào không được phép

Một tập hợp được mô tả bởi thuộc tính rdf:parseType="Collection"

b RDFs (Resource Description Framework Schema)

RDF cung cấp một cách để mô tả các phát biểu đơn giản về các resource, sử dụng các thuộc tính và giá trị đã được định nghĩa trước Tuy nhiên, RDF chỉ cho phép định nghĩa các quan hệ, chứ không nói rõ chỉ có thể có các loại quan hệ nào, hay các kiểu đối tượng có thể có trong miền hiện tại Để làm được điều này, chúng

ta phải dùng một phiên bản mở rộng của RDF, được gọi là lược đồ RDF (RDF Schema - RDFS) Lược đồ RDF là một ngôn ngữ Ontology dạng đơn giản nhất, nócấp một khung để mô tả các lớp, thuộc tính của ứng dụng cụ thể Các lớp trong RDFS giống như các lớp trong lập trình hướng đối tượng, cho phép các tài nguyên được định nghĩa như là một thực thể của lớp, hay lớp con của lớp

Trang 29

Để thực hiện phân chia các lớp và các lớp con, RDFS sử dụng các phần tử như: rdfs:Class và rdfs:subClassOf

Ví dụ: Xét lược đồ sau: lớp B là con của lớp A

Hình 2.3 Quan hệ kế thừa

Sử dụng RDFS để định nghĩa, chú thích các mối quan hệ trên, ta có:

<?xml version="1.0"?>

<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"

Trang 31

Bảng 2.1 Các lớp trong RDFS

(2) Định nghĩa thuộc tính

Mô tả các tính chất của khái niệm Lược đồ RDF cung cấp một bộ từ vựng để

mô tả làm thế nào mà các thuộc tính và lớp có thể được sử dụng cùng nhau trong RDF Bảng 2.2 mô tả các thuộc tính của RDFs đồng thời chỉ rõ domain và range tương ứng của từng thuộc tính

rdfs:range Hạn chế các đối tượng rdf:Property rdfs:Class

rdfs:domain Hạn chế các đối tượng rdf:Property rdfs:Class

rdf:type Thể hiện của rdfs: Resource rdfs:Class

Trang 32

rdfs:subClassOf Lớp con của rdfs:Class rdfs:Class

rdfs:subPropertyOf Thuộc tính con của rdf:Property rdf:Property

rdfs:label

Nhãn có nghĩa (dành cho người dùng dễ hiểu) rdfs: Resource rdfs:Literal

rdfs:comment

Lời chú giải (dành cho người dùng dễ hiểu) rdfs: Resource rdfs:Literal rdfs:member Thành viên của container rdfs: Resource rdfs: Resource rdf:first Phần tử đầu tiên rdf:List rdfs: Resource

Bảng 2.2 Các thuộc tính trong RDFs

2 Thuộc tính cần chú ý là range và domain:

<rdfs:range> dùng để chỉ giá trị của một thuộc tính là thể hiện của một lớp

Ví dụ ta có phát biểu sau:

ex:person rdf:type rdfs:Class

ex:creator rdf:type rdf:Property

ex:creator rdfs:range ex:person

Phát biểu này chỉ rằng ex:person là một lớp, ex:creator là một thuộc tính, và thuộc tính ex:creator là thể hiện của lớp ex:person Tuy nhiên một thuộc tính có thể có nhiều rdfs:range, chẳng hạn:

ex:hasMother rdfs:range ex:Female

Trang 33

ex:hasMother rdfs:range ex:Person

Thuộc tính rdfs:range có thể được sử dụng để chỉ ra giá trị của kiểu chuỗi kí tự

ex:creator rdf:type rdf:Property

ex:creator rdfs:range xsd:string

<rdfs:domain> được sử dụng để chỉ rằng một thuộc tính là thuộc tính của

một lớp nào đó Ví dụ như ta muốn thuộc tính ex:creator là thuộc tính của lớp ex:book,ta có phát biểu sau:

ex:book rdf:type rdfs:Class ex:creator rdf:type rdf:Property ex:creator rdfs:domain ex:book

Và một thuộc tính cũng có nhiều thuộc tính rdfs:domain khác:

ex:title rdfs:domain ex:book

Ex:title rdfs:domain ex:magazine

(3) Các luật suy diễn trong lƣợc đồ RDF

Có 6 trường hợp suy diễn theo các cấp loại lớp, thuộc tính, lớp con, thuộc tính con, miền, giới hạn

Trường hợp 1: Suy diễn về loại của lớp

IF (c2, subClassOf, c1) AND (x, type, c2) THEN (x, type, c1)

Ví dụ:

IF (Book, subClassOf, Resource) AND (“Lập trình C#”, type, Book) THEN (“Lập trình C#”, type, Resource)

Trường hợp 2: Suy diễn về thuộc tính của lớp

IF (p2, subPropertyOf, p1) AND (x, p2, y)

THEN (x, p1, y)

Ví dụ:

Trang 34

IF (author, subPropertyOf, creator) AND (“Nguyễn Thúc Hải”, author, “Mạng máy tính và các hệ thống mở”)

THEN (“Nguyễn Thúc Hải”, creator, “Mạng máy tính và các hệ thống mở”)

Trường hợp 3: Suy diễn về lớp con của lớp

IF (c2, subClassOf, c1) AND (c3, subClassOf, c2) THEN (c3, subClassOf, c1)

Ví dụ:

IF (IssueOfPeriodical,subClassOf, Resource) AND (Magazine, subClassOf, IssueOfPeriodical) THEN (Magazine, subClassOf, Resource)

Trường hợp 4: Suy diễn về thuộc tính con của thuộc tính

IF (p2, subPropertyOf, p1) AND (p3, subPropertyOf, p2) THEN (p3, subPropertyOf, p1)

Ví dụ:

IF (parent, subPropertyOf, ancestor) AND (father, subPropertyOf, parent) THEN (father, subPropertyOf, ancestor)

Trường hợp 5: Suy diễn trong miền (domain)

IF (p1, domain, c1) AND (x, p1, y) THEN (x, type, c1)

Ví dụ:

IF (creator, domain, person) AND (“Nguyễn Thúc Hải”, author, “Mạng máy tính và các hệ thống mở”)

Ngày đăng: 14/10/2017, 16:19

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w