Trang 1 rss BO GIAO DUC VA DAO TAQ PAI HOC HUE TRUONG DAI HOC KHOA HOC DANG VAN CHINH NGHIEN CUU RDF TRONG WEB NGU NGHIA VA UNG DUNG XAY DUNG HE THONG TRA CUU THONG TIN CHUYEN NGANH: KHO
Trang 1rss BO GIAO DUC VA DAO TAQ PAI HOC HUE
TRUONG DAI HOC KHOA HOC
DANG VAN CHINH
NGHIEN CUU RDF TRONG WEB NGU NGHIA VA UNG DUNG XAY DUNG
HE THONG TRA CUU THONG TIN
CHUYEN NGANH: KHOA HOC MAY TINH
MA SO: 8.48.01.01
LUAN VAN THAC SI KHOA HOC
DINH HUONG NGHIEN CUU
Trang 2LOI CAM DOAN
Tôi xin cam đoan: Luận văn thạc sĩ khoa học định hướng nghiên cứu với đề tài “Nghiên cứu RDF trong Web ngữ nghĩa và ứng dụng xây dựng Hệ thông tra cứu thông tin” là công trình nghiên cứu của cá nhân tôi Các kết quả nêu trong luận văn là trung thực, đảm bảo độ chuẩn xác cao nhất Các tài liệu tham khảo, trích dẫn có xuất xứ rõ ràng
Tôi xin chịu mọi trách nhiệm về công trình nghiên cứu của riêng mình! Thừa Thiên Huế, thang 10 nam 2019
Tac gia luan van
Trang 3LOI CAM ON
Để hoàn thành luận văn “Wghiên cứu RDF trong Web ngữ nghĩa và ứng dụng xây dựng Hệ thống tra cứu thông tin”, tôi đã nhận được sự giúp đỡ hết sức quý báu của quý thầy cô giáo, gia đình và bạn bè đồng nghiệp
Trước hết, tôi xin bày tỏ lòng biết ơn sâu sắc đến PGS.TS Lê Mạnh Thạnh -
người Thầy đã đã luôn tận tình hướng dẫn, chỉ bảo, giúp đỡ và động viên tôi trong suốt quá trình nghiên cứu và hoàn thành đề tài nghiên cứu này
Tôi xin chân thành cám ơn quý thầy cô Khoa Công nghệ Thông tin, Phòng
Đào tạo sau Đại học thuộc trường Đại học Khoa học, Đại học Huế, Văn phòng
HĐND&UBND thành phố Huế đã tạo mọi điều kiện thuận lợi cho tôi trong suốt
quá trình học tập, nghiên cứu và thực hiện luận văn
Xin được biết ơn gia đình, người thân, bạn bè đồng nghiệp và thầy TS Nguyễn Văn Trung đã luôn là điểm tựa vững chắc để tơi hồn thành luận văn này
Mặc dù đã có nhiều cố gắng trong suốt quá trình thực hiện đề tài, song có thể còn có những mặt hạn chế, thiếu sót Tôi rất mong nhận được ý kiến đóng góp và sự chỉ dẫn của quý thầy cô giáo và các bạn đồng nghiệp
Thừa Thiên Huế, thang 10 nam 2019 Tac gia luan van
Trang 4MUC LUC
5/9/819837190/ 7777 9 PHẢN NỘI DUNG
Chuong 1 TONG QUAN VE WEB NGỮ NGHĨA, RDF 12 1, Gidi thied Web i280 Nig bitwise 12
1.1.1 Web hiện tại ¿St HH re 12
1.1.2 Các khái niệm Wb Hgữ TỊBHHả ác: ccc:ccccciccc022266102 1ã 142 6ãx 12
1.1.3 Cấu trúc của Web ngữ nghĩa ccccccccrrrrece 15
1.2 Tài nguyên, URL, URI, IRI và Không gian tên 16 1.2.1 Tài nguyên (RÑeSOUTC€), 5+ c1 2+ S222 se rse
123;
1.4
135s
1.2.2 URL (Uniform Resource Locator) 1.2.3 URI (Uniform Resource Identifier) 1.2.4 IRI (International Resource Identifier)
1.3.5 Không gian tôn (HAHIESDBCE cong g0 210064533336845 4355388448 17 Khung Tô tả tài nguyên (R DĐ] ii 666444644440440ãã5533998ã83388z8 18
1.3.1 Giới thiệu RDE -¿ S2 S+ S222 18 1.3.2 Mô hình dữ liệu RDE - 55555 c+c+<ccscsreersee 18 1:3:3: Bộ Ba REisvssidindttosbigittttitidftqtilgfiitiäldtdgspybpwssauyasa 19 1.3.4 Đồ thị RDE 1.3.5 RDF Liternal 1.3.6 Nút trắng (Blank node)
1:3.7: Lưu trế dữ liệu RDE:::::::: -ss:2ccsesiszistisueecseseSiigceEstatssbs 23
Trang 5Chương 2 TRUY VAN DU LIEU RDF VGI SPARQL
2.1 GiGi thigu SPARQL cssesssesesssesssseesseesssecssecesneessseesseeesueeesneeesneess 32 2.1.1 Giới thiệu - 25-22 t2 2 22 112221122111221122112111 111 re 32 2.2 Truy vấn đồ thị có tên -:-+:©++2++22+22k22xeExerxvzxrrrsrkrrrrree 32 2.2.1 Viết một truy vấn đơn giản -:¿©5¿©5+©5+2cvccxccxcrx 32 2.2.2 Cú pháp của IRI 2.2.3 Cú pháp của Literal 2.2.4 Cú pháp các biến ¿5:52 22222t2eExeExrErrerrrrrerrerrrer 2.2.5 Cú pháp các mẫu bộ ba ¿- ¿5225222 2++z++xvzxerxesee 35 2.2.6 Những thành phần khác - + + +©5+55++cx+zxczx 36 2.2.7 Truy van véi RDF Literal
2.2.8 Két hop nhiétng RDF Literal 2.2.9 Những ràng buộc giá trỊ 2.3 Sap xép, tổng hợp, gộp nhóm dữ liệu khi truy vấn 2 38 2.3.1 DISTINCT TH, 30 2332 353 °“ n9) 0 .Ả 42 2.3.5 Lựa chọn biến được trả về ¿- + + s+x+cc+x2Ezrxzkcreree 2.3.6 Xây dựng một đồ thị ở kết quả đầu ra
2.3.7 Những mô tả về tài nguyên
2.3.8 Những câu hỏi “yes hay no” -.-c-cccsc Sex 5.4 Tiện kết Chữ: song tan88EGDEUL ASBGSHEGU18G3338938AAgUB- sau 45 Chuong 3 BO SUNG NGU NGHIA CHO WEBSITE TRUYEN THONG VA UNG DUNG CHO CONG THONG TIN DIEN TU THANH PHO TUE cececsccccsscssessssessessssscsussessssvssscsssussessssussussessssucsesessussesassussessesussesseessanese 46
3.1 Dat van dé
Trang 6
3.3.4 Hiệu quả giải pháp mang lại: ‹ cccccc ecciie 53 3.4 Cài đặt khung giải pháp hỗ trợ quản lý và tìm kiếm theo ngữ nghĩa
S010) 117 54 3.4.1 CMS KB - cơ sở tri thức về siêu đữ liệu của CMS 56
3.4.2 SMnS - thành phần quản lý và tìm kiếm theo ngữ nghĩa cho
e1 62
Trang 7DANH MUC CAC HINH
Trang
Hình 1.1 Sự phát triển tính thông minh của dữ liệu :-©c55ccc-e: 12
Hình 1.2 Các thành phần trong web ngữ nghĩa ss-cscsxnstsirtseerererrrree 14 Hình 1.3 Mối quan hệ giữa các thành phần trong bộ ba RDE 19 Hình 1.4 Mô tả một phát biểu đơn giản bằng đồ thị -2ccccccccccceccee 19
Hình 1.5 Giá trị literal biểu diễn cho tuổi của John Smith - 19
Hình 1.6 Kiểu typed literal biểu diễn cho tuổi ông John Smith - 20
Hình 1.7 Tạo địa chỉ cho Mr John Smith - c5 5c 22 ‡ S22 ‡<£‡+v+zeexeexseexzss+ 21 Hình 1.8 Sử dụng nút trắng
Hinh 1.9 Cée chiing loal OWL isiscssisiscsssecssssiniscssecsvesseccenssvessissiawstesevescosavwonserceeresexs 23
Binh 1210; Chudi thuse ttt scones 0888 29 Hình 3.1 Cổng thông tin điện tử tỉnh Thừa Thiên Huế :- +: 44
Hình 3.2 Cổng thông tin điện tử của Bộ Giáo dục và Đào tạo + 45 Hình 3.3 Website thông tin CNN của Mỹ ác như 45
Hình 3.4 Các thành phần logic của khung giải pháp -c55cccc: 51
Hinh 3.5 Minh hoa cay danh muc thể loại nội b0) 53 Hình 3.6 Biểu diễn vị trí đăng bài viết trong một danh mục thể loại nội dung 54 Hình 3.7 Đặc tả siêu dữ liệu cho một bài viết tf6úB GMSIKP:sciisccttctawsswa 55 Hình 3.8 Biểu diễn sự liên quan về mặt nội dung giữa hai bài viết
Hình 3.9 Biểu diễn các bản dịch của một bài viết ccccrrrrree 57
Hình 3.10 Mô tả các tính chất khác của bài viết trong ontology CMS KB 58
Hình 3.11 Định nghĩa lớp SnsKB ¿ ¿c5 S2 S+SSxSststrerrrrrrrek 61
Trang 8DANH MUC CAC CHU VIET TAT
Viết tắt | Nội dung
API Application Programming Interface (Giao diện lập trình ứng dụng) CMS Content Management System (Hé quan tri nội dung)
CSDL Cơ sở dữ liệu
CSDLQG | Cơ sở dữ liệu Quốc gia
DAM DARPA Agent Markup Language (Một loại ngôn ngữ đánh dấu) IRI International Resource Identifier (M4 dinh danh tài nguyên quốc tế) KB Knowledge base (Co sé tri thức)
OWL Ontology Web Language (Ngén ngtt Ontology)
QPPL Quy phạm pháp luật
RDF Resource Description Framework (Khung mé ta tai nguyén)
RDFS Resource Description Framework Schema (Luroc đồ khung mô tả tài nguyên) SMnS Semantic Management and Search for CMS (Quản trị ngữ nghĩa cho CMS) SOA Service-Oriented Architecture (Kiến trúc hướng dịch vụ)
SPARQL | Ngôn ngữ truy vấn cho RDE
SQL Structured Query Language (Ngôn ngữ truy vấn có cầu trúc)
URI Uniform Resource Identifier (Tai nguyên được định danh bằng URI) URL Uniform Resource Locator (Dia chi mạng hay Liên két mang) XML eXtensible Markup Language (Ng6n ngtt dinh dấu mở rộng)
Trang 9PHAN MO DAU
Ly do chon dé tai
Word Wide Web 1a kho tàng lưu chứa và chuyển tải thông tin khổng lồ của nhân loại Sự bùng no thông tin trên Web hiện tại đòi hỏi một phương pháp giúp xử
lý và khai thác thông tin tự động bằng máy tính Có một thực tế là, thông tin trên
Web hiện tại chỉ thích hợp để con người đọc, tổng hợp và xử lý Máy tìm kiếm không ngừng được xây dựng và phát triển trong thập niên vừa qua (bao gồm máy tìm kiếm Google, Bing, Yandex, .) chỉ là nỗ lực nhằm giúp con người tiếp cận nhanh hơn dữ liệu được tạo ra và lưu trữ trên web Những thế hệ máy tìm kiếm này có bản chất dựa trên từ khoá và đơn thuần trả về địa chỉ của tài liệu được lưu trữ dựa theo từ khoá đầu vào Do không (hoặc không thể) xét đến yếu tố ngữ nghĩa khi thực hiện tìm kiếm nên số lượng kết quả trả về của các máy tìm kiếm dựa trên từ khoá hoặc là rất nhiều, hoặc là rất ít, và do đó đem lại ít giá trị cho người dùng Trên thực tế, nếu các tài liệu được lưu trữ theo định dạng mà máy-có-thể-hiểu-được thì việc tìm kiếm và tổng hợp thông tin có thể hoàn toàn được máy tính xử lý Đó cũng chính là tầm nhìn của Web ngữ nghĩa, được đề xuất bởi Tim Berners-Lee [5]
Có hai vấn đề đặt ra đối với một hệ thống thông tin của tổ chức, doanh
nghiệp: Thứ nhất là, phải tổ chức thu thập, quản lý được dữ liệu và thứ hai là phải
tìm kiếm được thông tin một cách hiệu quả Việc tổ chức, thu thập và quản lý dữ liệu hoàn toàn có thể được giải quyết một cách hiệu quả bằng các công nghệ cơ sở
dữ liệu hiện nay Trong khi đó, bài toán tìm kiếm (và tổng hợp) thông tin, mặc dù
với sự phát triển của Khoa học Máy tính trong những năm gần đây (Web ngữ nghĩa, Trí tuệ nhân tạo), lại gặp nhiều thách thức: Người ta không thể xây dựng mới hoàn toàn dữ liệu mới theo kiểu web ngữ nghĩa để thuận tiên cho việc tìm kiếm thông tin, đồng thời, dữ liệu đang lưu trữ khó có thể được áp dụng những công nghệ mới tận dụng khả năng khai thác thông minh của máy tính - do mỗi tổ chức, doanh nghiệp có một đặc thù riêng Nói cách khác, xây dựng giải pháp tìm kiếm có hiệu quả cho các hệ thống thông tin hiện tại là một như cầu thực tiễn và thực sự bức thiết hiện
Trang 10Hiện tại, việc tìm kiếm, tra cứu trên web các thông tin trong công việc, học tập, nghiên cứu gặp nhiều hạn chế, người dùng sẽ phải thông qua nhiều công đoạn khác nhau mới có thể tìm được tương đối đầy đủ đến nguồn tài liệu mà họ muốn Và với cách xây dựng các công cụ tìm kiếm theo từ khóa hiện nay, việc tiếp cận thông tin với các văn bản, tài liệu rất đa dạng về thể loại, hình thức thật sự khó khăn
cho người sử dụng Vì vậy, cần có một phương pháp tiếp cận tốt hơn dé có thé giúp
người dùng quan tâm đến tài liệu, tin tức đễ dàng hơn trong tìm kiếm thông tin
Trên thế giới, đã có nhiều nghiên cứu và bài báo về bài toán ứng dụng Web ngữ
nghĩa trong tìm kiếm thông tin về tin tức, tài liệu, nhưng tại Việt Nam, việc ứng dụng Web ngữ nghĩa trong lĩnh vực tra cứu tìm kiếm thông tin là rất ít, đặc biệt là các thông tin trên các Cổng thông tin điện tử của các cơ quan chính quyên là chưa
có Vì thế, dưới sự hướng dẫn của Thầy Phó Giáo sư - Tiến sĩ Lê Mạnh Thạnh, tôi
chọn tìm hiểu về Web ngữ nghĩa, một trong những công nghệ mới và đang phát triển hiện nay để làm cơ sở thực hiện công cụ hỗ trợ tìm kiếm thông tin về tài nguyên nói chung và tìm kiếm tin tức, sự kiện trên Cổng thông tin điện tử thành phó Huế nói riêng
Bồ cục luận văn như sau:
PHÀN MỞ ĐÀU
Phần này trình bày các nội dung: I) Lý do chọn đề tài, 2) Mục tiêu nghiên cứu, 3) Đối tượng nghiên cứu, 4) Phương pháp nghiên cứu và 5) Phạm vi nghiên cứu
PHAN NOI DUNG
Chuong 1 TONG QUAN VE WEB NGU NGHIA, RDF
Chương này trình bày các nội dung: Tổng quan về web hiện tại và web ngữ nghĩa, các thành phần trong web ngữ nghĩa, RDE, Ontology
Chuong 2 TRUY VAN DU LIEU RDF VOI SPARQL
Chương này trình bày các nội dung: Tim hiểu về SPARQL: nguyên lý hoạt động và các cú pháp truy vấn cơ bản của SPARQL để truy vấn đữ liệu RDE
Chương 3 BÖ SUNG NGỮ NGHĨA CHO WEBSITE TRUYEN THONG
VA UNG DUNG CHO CONG THONG TIN DIEN TU THANH PHO HUE
Trang 11Chương này trình bày các nội dung: Đặt vấn đề và mơ tả bài tốn, mô hình và cách thức xây dựng khung bổ sung ngữ nghĩa cho Cổng thông tin điện trử TP Huế
KET LUAN VA HUONG PHAT TRIEN CUA DE TAI
Trang 12PHAN NOI DUNG
Chuong 1 TONG QUAN VE WEB NGU NGHIA, RDF
1.1 Giới thiệu Web ngữ nghĩa 1.1.1 Web hiện tại
Web đã làm thay đổi cách thức con người trao đổi thông tin với nhau cũng như điều hành công việc và kinh doanh, thay đổi cách giao tiếp giữa con người với nhau Sự thay đổi này là một cuộc cách mạng: chuyền đổi thế giới phát triển sang một nền kinh tế tri thức, hay nói rộng hơn là một xã hội tri thức Sự phát triển này cũng thay đổi cách con người nghĩ về chiếc máy tính Lúc đầu, chúng được tạo ra để thực hiện các phép tính toán số học (computer) Nhung hién nay, may tính hau như được sử dụng cho việc xử lý thông tin, các ứng dụng đặc thù là các cơ sở dữ liệu (CSDL), xử lý văn bản, bảng tính và trò chơi điện tử
1.1.2 Các khái niệm Web ngữ nghĩa
Năm 2001, Tim Berners-Lee đề xuất Web ngữ nghĩa, là “một nền tảng đữ liệu mà trong đó thông tin được lưu ở dạng định nghĩa tường minh, cho phép máy tính và con người có thể làm việc được cùng nhau” Kể từ đó rất nhiều công trình nghiên cứu cũng như công nghệ mới được đưa ra để hiện thực những mực tiêu của Web ngữ nghĩa Theo quan điểm ban đầu, Web ngữ nghĩa sẽ đóng vai trò như sự bổ sung cho Web hiện tại, thêm chức năng làm sao để máy có thể “hiểu” được nội dung trình bày, mở rộng sự nhận thức cuả thông tin Web vào các máy tính Web ngữ nghĩa cho phép biểu diễn thông tin của WWW, CSDL và các kho dữ liệu có cấu trúc khác theo một thể thống nhất mà nó được hiểu và xử lí được
Vậy làm cách nào dé có thể tạo ra web có đữ liệu mà máy có thể xử lý được? Trước hết là sự thay đổi bản chất theo cách thông thường chúng ta nghĩ về dữ liệu Từ trước đến nay, đữ liệu bị khóa ngay trong các ứng dụng độc quyền Dữ liệu được xem như là thành phần thứ yếu trong việc xử lý dữ liệu Quan điểm không đúng này đã đưa đến thành ngữ “Garbage in, garbage out” hay còn gọi là GIGO (GIGO là “từ lóng” máy tính phổ biến nhằm ám chỉ rằng “nếu người dùng nhập sai dữ liệu, kết quả cũng sẽ là sai”) GIGO bộc lộ những sai sót cơ bản trong luận cứ gốc bằng việc
Trang 13thiét lập sự phụ thuộc giữa xử lý và dữ liệu Hay nói cách khác, phần mềm tốt thì hoàn toàn phụ thuộc vào dữ liệu tốt Với các hệ tính toán chuyên nghiệp thì ngay khi bắt đầu thực hiện đã nhận ra dữ liệu là quan trọng và nó phải được xác minh và bảo vệ Các ngôn ngữ lập trình bắt đầu đạt được khả năng hướng đối tượng để tạo ra
các thành phần dữ liệu tốt nhất Với Web (XML) và bây giờ là sự xuất hiện web
ngữ nghĩa, sự thay đổi sức mạnh đang di chuyền từ các ứng dụng sang dữ liệu Vấn đề này cũng giúp đưa ra mau chét dé hiểu web ngữ nghĩa Con đường để máy có thé xử lý được dữ liệu là làm cho dữ liệu thông minh hon
Ví dụ sau minh họa sơ đồ gồm bốn giai đoạn phát triển tính thông minh của đỡ liệu: aS XML Ontology va cAc ) luật ` XML Taxonomy va tài liệu với các từ vựng kết hợp Văn bản và cơ sở dữ liệu “E (pre-XML)
Hình 1.1 Sự phát triển tính thông minh của dữ liệu
Bốn giai đoạn trong sơ đồ này phát triển từ những dữ liệu với độ thông minh thấp nhất đến đữ liệu được biểu diễn với đầy đủ thông tin ngữ nghĩa cho máy để tạo sự suy luận về nó Trong đó:
- Văn bản và cơ sở dữ liệu (pre-XML): là giai đoạn khởi đầu, hầu hết dữ liệu
chỉ thuộc ứng dụng Do đó, “tính thông minh” nằm trong ứng dụng chứ không phải là trong dữ liệu
Trang 14chuyén giữa các ứng dung trong miền đơn Ví dụ như các chuẩn XML trong chăm sóc sức khỏe, lĩnh vực bảo hiểm hay lĩnh vực bất động sản
- XML taxonomy và tài liệu với các từ vựng kết hợp: ở giai đoạn này, dữ liệu được biên soạn từ nhiều lĩnh vực (đa miền) và được phân lớp chuẩn xác theo một nguyên tắc phân loại có thứ bậc Thực tế, sự phân lớp có thể được sử dụng để khai phá dữ liệu Các quan hệ đơn giản giữa các lớp trong phân loại (taxonomy) có thể được sử dụng để liên kết và theo đó kết hợp dữ liệu Do vậy, lúc này dữ liệu đủ
thông minh đề dễ dàng khai phá và kết hợp một cách hợp lý với các đữ liệu khác
- XML ontology và các luật: ở giai đoạn này, đữ liệu mới có thể được suy ra từ những dữ liệu đã có theo các luật logic Thực chất, dữ liệu lúc này đủ thông minh
để được mô tả với các quan hệ cụ thể và các dạng hình thức phức tạp mà các tính
toán logic có thể được thực hiện dựa trên “đại số học ngữ nghĩa” Điều này cho
phép kết hợp hoặc tái kết hợp dữ liệu ở mức nguyên tử hơn và sự phân tích về dữ
liệu mịn hơn Ví dụ như dịch tự động một tài liệu của miền này sang một tài liệu tương đương của miền khác
Theo định nghĩa của tổ chức W3C, Web ngữ nghĩa được hiểu như sau: “Web ngữ nghĩa là một cách nhìn về cách tổ chức dữ liệu: đó là ý tưởng về việc dữ liệu trên Web được định nghĩa là liên kết theo cách mà nó có thể được xử dụng bởi máy tính, với mục đích không chỉ cho việc hiển thị mà còn các tự động hóa, tích hợp và sử dụng lại dữ liệu qua các ứng dụng khác nhau”
Như vậy Web ngữ nghĩa là một mạng lưới các thông tin toàn cầu được liên
kết theo một cách thức để máy tính dễ dàng xử lí Có thể hiểu đơn giản nó là một
cách trình bày dữ liệu có hiệu quả trên mạng toàn cầu Web ngữ nghĩa có khả năng làm việc với dữ liệu, điều này đã trở mở ra một lớp ứng dụng mới trên nền Web ngữ nghĩa
Web ngữ nghĩa hứa hẹn cung cấp một mô hình để liên kết những nguồn thông tin khác nhau chẳng hạn như những trang Web, các CSDL hay ngay cả luồng dữ liệu và thông tin trong cuộc sống hằng ngày Các ứng dụng của Web ngữ nghĩa trong các lĩnh vực khác nhau đã thu hút nhiều nhóm nghiên cứu Do đó các ứng dụng được thiết kế dựa trên các khái niệm đã đề cập và sử dụng các thông tin có thể
Trang 15xử lí được máy tính, để tạo ra động lực lớn hơn cho việc phát triển của một thế hệ các công cụ và các ứng dụng Web mới
1.1.3 Cấu trúc của Web ngữ nghĩa
Web ngữ nghĩa được xây dựng trên nền hệ thống Web hiện tại Web ngữ nghĩa được xem là sự mở rộng của web hiện tại có bổ sung thêm ngữ nghĩa vào dữ liệu trên Web Cấu trúc của web ngữ nghĩa được Tim BernersLee đề xuất ở Hình 1 (https:/www.w3.org/2001/sw/): User Interface & Applications ! Trust | = _ | Crypto URI/IRI J
Hình 1.2 Các thành phần trong web ngữ nghĩa
Các thành phần của kiến trúc Web ngữ nghĩa đã được quy chuẩn với các chuẩn W3C, được cộng đồng nghiên cứu trên cơ sở trên XML, mô hình hóa bằng RDF và được chọn là chuẩn trao đổi dữ liệu trên Web ngữ nghĩa Ngôn ngữ Ontology được chuẩn hóa là OWL dựa trên cơ sở của RDES Cho đến nay chuẩn ngôn ngữ cho các luật vẫn chưa đồng nhất được Bên cạnh đó, ngôn ngữ truy vấn SPARQL đã được sử dụng rộng rãi và là khuyến nghị của W3C, tuy nó chưa thật sự trở thành chuẩn Ở ba tầng trên vẫn đang là những vấn đề được nghiên cứu trong tương lai
- Tầng URI & IRI: đảm bảo cung cấp lớp định danh các tài nguyên trong Web ngữ nghĩa URI (định danh tài nguyên thống nhất) đơn giản chỉ là một định danh Web Bất kỳ ai cũng có thể tạo một URI, và có quyền sở hữu chúng Vì vậy chúng đã hình thành nên một công nghệ nền tảng lý tưởng để xây dựng một hệ
Trang 16thống mạng tồn cầu thơng qua đó IRI (định danh tài nguyên được quốc tế hóa),
URI là một phần của IRI
- Tầng RDF và XML: Tạo các phát biểu (statement) để mô tả các đối tượng với những từ vựng và định nghĩa của URI, các đối tượng này có thể được tham chiếu đến bởi những từ vựng và định nghĩa của URI ở trên
- Tầng Ontology OWL, Query SPARQL, Rule RIP: Bộ từ vựng được xây
dựng trên cơ sở tầng RDF và RDES, cho phép thể hiện ngữ nghĩa hình thức, định
nghĩa mối liên hệ giữa các khái niệm với nhau SPARQL là ngôn ngữ truy vấn khai béo cho RDF va RDF Schema cho phép diễn giải đồ thị và đánh giá kết quả chính xác và hoàn chỉnh về mặt ngữ nghĩa
- Tầng Logic: Xây dựng tập luật, được xem như là cơ sở luật trên Web ngữ nghĩa hỗ trợ cho quá trình suy diễn
- Tầng Proof: Chứng minh suy diễn của hệ thống bằng cách liên kết các sự kiện Hiện nay các nhà nghiên cứu đang xây dựng các ngôn ngữ luật cho nó như:
SWRL, RuleML
- Tầng Trust: Đảm bảo tính tin cậy của các ứng dụng trên Web ngữ nghĩa, giúp ứng dụng quyết định nên hay không nên dùng tài nguyên
- Tầng User interface và Applications: Giao diện người dùng và các ứng dụng thể hiện
1.2 Tài nguyén, URL, URI, IRI va Khong gian tên 1.2.1 Tai nguyén (Resource)
Thuật ngữ “tài nguyên” hay “resource” trên Web là một phạm trù rộng dùng để chỉ mọi đối tượng có thể tìm thấy trên Web như khái niệm, từ vựng, thực thể, tính chất và quan hệ giữa các đối tượng Tài nguyên trên Web cũng chính là dữ liệu của trang Web đó và là mục tiêu nghiên cứu của Web ngữ nghĩa
Tài nguyên trên Web là khái niệm rộng hơn thực thể có tên Cũng như thực thể có tên, cùng một tài nguyên nhưng có thể được đặt nhiều tên khác nhau trong khi có nhiều tài nguyên bản chất khác nhau lại có cùng tên Điều đó nây sinh yêu
Trang 17cầu định danh mỗi tài nguyên bằng một định danh duy nhất Các tài nguyên khác nhau sẽ có định danh khác nhau Định danh này được gọi là một URI (Uniform Resource Identifier — Dinh danh tài nguyên đồng nhất)
Ví dụ: Cho URI: www.somesite.com/rdf-syntax-ns#Statement, trong đó,
Statement là tài nguyên thuộc lớp rdf-syntax-ns được tìm thấy trên trang Web www.somesite.com Ký tự “#” được gọi là identifier fragment (mẫu định danh) 1.2.2 URL (Uniform Resource Locator)
URL, viét tat cua Uniform Resource Locator, duoc ding để tham chiếu tới tài nguyên trên Internet URL mang lại khả năng siêu liên kết cho các trang mạng Các tài nguyên khác nhau được tham chiếu tới bằng địa chỉ, chính là URL, còn được gọi là địa chỉ mạng hay là liên kết mạng
1.2.3 URI (Uniform Resource Identifier)
Tài nguyên được định danh bằng URI URI là một chuỗi các kí tự dùng để
định danh tài nguyên trên Internet Những định danh này có khả năng tương tác với sự biểu diễn của tài nguyên trên mạng sử dụng giao thức cụ thể và phổ biến nhất là
HTTP, do đó thường gọi là lược đồ HTTP URI Có nhiều lược đồ khác ngoài HTTP
URI như: FTP, TEL, URN, MAILTO 1.2.4 IRI (International Resource Identifier)
IRI (M& định danh tài nguyên quốc tế) là một mở rộng của URI Với URI chỉ hỗ trợ mã hóa ASCI, còn IRI hỗ trợ đầy đủ các ký tự quốc tế Trong thực té, UTF-8 là mã hóa phổ biến nhất được sử dụng cho IRI Hiểu sự khác biệt giữa URI va IRI
rất quan trọng để xác nhận và trong việc chọn định danh chính xác cho ứng dụng Mặc dù IRI mạnh mẽ hơn nhưng điều này không phải lúc nào cũng có lợi Bằng cách chấp nhận các ký tự quốc tế, các IRI dễ làm cho người dùng không chú ý đến các ký tự dường như gần giống nhau (ví dụ ä so với a) Chẳng hạn, người dùng có
thể lầm tưởng rằng http:/www.päypal.com thực su 1a http://www.paypal.com Diéu
Trang 18Với nghĩa chung chung, không gian tên (namespace) là một vật chứa trừu tượng cung cấp ngữ cảnh cho đối tượng (tên, thuật ngữ kỹ thuật, hay từ) Nó cho phép phân biệt các đối tượng có cùng tên (ở các không gian tên khác nhau)
Theo quy tắc, các tên nằm trong một không gian tên không thể nhiều hơn một nghĩa Nghĩa là, hai hoặc nhiều đối tượng không thể cùng chia sẻ một tên Một không gian tên còn được gọi là một ngữ cảnh, với một ý nghĩa hợp lệ của tên có thể thay đổi phụ thuộc vào việc đang sử dụng không gian tên nào Các tên trong không
gian tên đó có thể đại diện cho đối tượng hoặc khái niệm, cho dù đó là ngôn ngữ tự
nhiên, thuật ngữ kỹ thuật chuyên ngành, phương ngữ, hay một ngôn ngữ nhân tạo (chẳng hạn ngôn ngữ lập trình)
1.3 Khung mô tả tài nguyên (RDE)
1.3.1 Giới thiệu RDF
RDF (Resource Description Framework) là ngôn ngữ mô tả thông tin về các
tài nguyên trên web RDE đặc biệt dùng để mô tả siêu dữ liệu về tài nguyên Web
như là tiêu đề, tác giả, ngày tháng tạo lập và chỉnh sửa trang Web, thông tin bản quyền và các thông tin đăng ký về tài liệu Web hoặc có thể được dùng để lên kế hoạch cho một số tài nguyên được chia sẻ RDE sử dụng các URI dùng để định danh các nguồn tài nguyên Web và các thuộc tính để mô tả các nguồn tài nguyên Trong RDF, các tài nguyên trên web được định danh bởi các URI và str dung URI để tạo ra các phát biểu về tài nguyên Để làm cho máy dễ xử lý, RDF kế thừa cú pháp dựa trên XML Do đó, RDF cung cấp khả năng tương tác giữa các ứng dụng và trao đổi thông tin trên web mà máy có thể hiểu được RDF nhắn mạnh các cơ sở để cung cấp cho siêu dữ liệu ngữ nghĩa và cho phép xử lý tự động các tài nguyên trên web Điều này dẫn đến độ chính xác khi tìm kiếm tài nguyên tốt hơn tìm kiếm với nguyên cụm văn bản
1.3.2 Mô hình dữ liệu RDF
Mô hình cơ bản của RDF gồm ba đối tượng sau:
- Tài nguyên (Resoures): là tất cả những gì được mô tả bằng biểu thức RDF, nó có thể là một trang Web, một phần của trang Web hay tập hợp các trang Web
Trang 19- Thuéc tinh (Properties): 1a đặc tính hoặc quan hệ dùng để mô tả tính chất của tài nguyên
- Giá trị (Value): là giá trị được gán cho thuộc tính
Mô hình RDF mô tả các tài nguyên thông qua các phát biểu (Statements), mỗi phát biểu gồm ba thành phần Sau:
- Chủ thể (Subject): dia chi hay vị trí tài nguyên muốn mô tả, được xác định bởi URI - Vị từ (predicaie): xác định tính chất của tài nguyên, cũng được xác định bởi URI - Déi twong (Object): ndi dung gan cho thuộc tính 1.3.3 B6 ba RDF
Mỗi phát biéu (Subject, predicate, object) con goi 14 mét bé ba (triple) Vi du: Xét phat biéu sau: “http:www.exmple.org/index.html has a cerator whose value is John Smith”
Phat biéu trén duoc phân thành các thành phần sau: Subject 1a http:/Avww.exmple.org/index.html Predicate 1a http://purl.org/dc/elments/1.1/creator Object 1a hitp:/Avww.example.org/staffid/85740
Chúng ta đã biết URI dùng để mô tả bất cứ cái gì trên Web, cho nên ở phát
biểu trên thay vì dùng từ “creator” va “John Smith”, ta sé ding URI http://purt.org/dc/element/1.1/creator va http://www.example.org/staffid/8570 dé mô tả cho từng khái niệm trên
Phát biểu trên được biểu diễn dưới đạng một bộ ba như sau: <http://www.example.org/index.html>
<http://pourl.org/de/elements/1.1/creato> http://www.example.org/staffid/85740
Trang 20Tập các bộ ba hợp lại tao thành đồ thi RDF (RDF Graph) Cac nút trong đồ
thị có thé là các thủ thể (subject) và đối tượng (object) trong bộ ba và các cung trong đồ thị là các vị từ (predicate)
Một bộ ba còn có thể có được mô tả dưới dạng nút - cung - nút Hướng của đồ thị rất quan trọng Cung của đồ thị luôn bắt đầu từ chủ thể subject đến đối tượng — Í Hình 1.3 Mối quan hệ giữa các thành phần trong b6 ba RDF http://www.example.org/index.html http://purl.org/dc/elements/1.1/creator h, http://www.example.org/staffid/85740 Hình 1.4 Mô tả một phát biểu đơn giản bằng đồ thị 1.3.5 RDF Liternal
Liternal được sử dụng để biểu diễn các giá trị như con số, ngày tháng,
chuỗi Bất cứ cái gì có thể biểu diễn bởi một giá trị literal cũng có thể được biểu diễn dưới dạng một URI Một literal có thể là đối tượng (object) của một phát biểu
nhưng không thể là chủ thể (subject) hay là vị từ (predicate) Literal có hai kiểu sau: liternal thuần hay là litenal định kiểu:
- Một litenal thuần là một chuỗi được kết hợp với một thẻ tùy ý Trong ngôn ngữ tự nhiên ta có thể gọi nó là một kiểu text
Ví dụ:
Trang 21http://www.example.org/staffid/85740 http://www.example.org/tems/age 27
Hình 1.5 Giá trị literal biểu diễn cho tuổi của John Smith
Giá trị 27 ở đây chỉ là một chuỗi hai ký tự “2” và “7” Nhưng nếu ta muốn biểu diễn nó là một số nguyên thì phải dùng kiểu literal định kiểu
Một literal định kiểu được hình thành bằng cách kết hợp một chuỗi với một
định danh URI để biểu diễn một kiểu dữ liệu đặc biệt nào đó Kết quả trả về là một
nút trong đồ thị tương ứng như kiểu literal Kiểu giá trị được biểu diễn bằng liternal định kiểu sẽ được ánh xạ đến kiểu giá trị đặc biệt mà ta khai báo thông qua URI Ở ví dụ trên, khi muốn biểu diễn tuổi của ông John là một kiểu số nguyên thì ta có cách khai báo như sau: Subject 1 http:/www.example.org/staffid/85740 Predicat 1a http:/Awww.example.org/terms/age Object 1a “27” <http:/www.w3org/2001/XMLSchema#integer> Lược đồ được biêu diễn như sau: http://www.example.org/staffid/85740 http://www.example.org/terms/age Ỷ #27”^^<http://www.w3org/2001/XMLSchema#integer>
Hình 1.6 Kiểu typed literal biéu dién cho tuổi ông John Smith
1.3.6 Nút trang (Blank node)
Trang 22Chẳng hạn, trong trường hợp thông tin cá nhân cua “Mr John Smith”, gia su mô tả địa chỉ của “Mr John Smith” thì giá trị của nó sẽ được viết dưới dạng một literal thuần, như bộ ba sau:
Exstaff: 85740 exterms: address
“1501 Grant Avenue, Bedford, Massachusetts 01730” httn-/Awwiw avamnla arafetaffil/§S http://www.example.org/term httn-//www examnle aro/addressid/R http://www.example.org/ter http://www.example.org/terms/posta/Code http://www.example.org/terms/stree http:/www.example.ors/terms 1501 Grant Avenue Massachusetts
Hinh 1.7 Tạo địa chỉ cho Mr John Smith
Cách biểu diễn thông tin có cầu trúc như vậy đòi hỏi phải có một địa chi URI exaddressid: 85740 để mô tả khái niệm kết hợp, những khái niệm như thế này có thể
Trang 23Ở đây ta sử dụng <?> để chỉ sự hiện diện của các nút trắng Trong trường hợp một dé thi sử dung nhiều nút trắng, để phân biệt các nút trắng ta dùng một định danh nút trắng, có dạng _:name, để chỉ sự hiện diện cuả một nút trắng
1.3.7 Lưu trữ dữ liệu RDF
RDF hỗ trợ việc tạo và xử lý siêu dữ liệu bằng việc định nghĩa một cấu trúc mặc định Cấu trúc này có thể được sử dụng cho một số dữ liệu, độc lập với đặc tính của chúng Vì vậy, các lĩnh vực ứng dụng RDF là rất nhiều, chẳng hạn như: các dịch vụ web, các mạng ngang hàng, và các mô hình bắt ngữ nghĩa (semantic catching model) Tất cả chúng đều có điểm chung là lượng lớn dữ liệu phải được xử lý khi truy vấn dữ liệu RDE Do đó, để sử dụng rộng dữ liệu RDE, các ứng dụng cần các hệ thống lưu trữ hiệu quả Một vài hệ thống được phát triển cho việc lưu trữ và
truy vấn dữ liéu RDF, vi du nhu Sesame va RDFSuite
Dé ligu RDF cé thé được biểu diễn bằng cách sử dụng XML, một cấu trúc triple hay một đồ thị; nhưng chỉ với biểu diễn đồ thị là cho phép tích hợp ngữ nghĩa vào RDF Schema Tat ca céc hé thống RDF đang có lưu trữ đữ liệu RDE dưới dạng
các tripple trong một cơ sở dữ liệu quan hệ đối tượng Đề hỗ trợ tích hợp ngữ nghĩa, các thực thi hiện tại ánh xạ mô hình đồ thị hình thức vào cấu trúc lưu trữ Để truy vấn ngữ nghĩa, đồ thị này phải được cấu trúc từ các triple
1.3.8 Truy vẫn dữ liệu RDF
SPARQL là một ngôn ngữ truy vấn khai báo cho RDE và RDE Schema cho phép diễn giải đồ thị và đánh giá kết quả chính xác và hoàn chỉnh về mặt ngữ nghĩa
Vì thế, một hệ thống lưu trữ RDF hiệu quả nên hỗ trợ SPARQL và mô hình đồ thị
đã được ánh xạ vào cấu trúc lưu trữ
Trang 241.4 Ngén ng Web Ontology (OWL)
Ngôn ngữ Web Ontology mô tả các lớp, các thuộc tính và các quan hệ giữa các đối tượng này theo cách mà máy có thể hiểu được nội dung web OWL là kết quả nghiên cứu của nhóm Web Ontology Working Group và kế thừa của RDFS va
DAM+OIL OWL được định nghĩa như một từ vựng, giống RDE và RDF Schema,
nhưng giàu ngữ nghĩa hơn Do đó, một Ontology trong OWL là một tập các bộ ba RDF sw dung từ vung dé OWL duoc phân thành ba chủng loại khác nhau với khả năng biểu ngữ tăng dần như trong hình sau:
Hình 1.9 Các chung loai OWL
- OWL Lite: cung cấp các lớp và các thuộc tính có phân cấp, các ràng buộc
đơn giản với đủ khả năng biểu đạt mô hình từ vựng và các Ontology đơn giản - OWL DL: tăng khả năng biểu đạt và tính quyết định của vấn đề phân lớp,
cho phép hỗ trợ suy diễn hiệu quả OWL DL cung cấp tất cả các cú pháp OWL dưới
các giới hạn xác định
- OWL Full: là ngôn ngữ đầy đủ, không có các giới hạn, nhưng nó không đưa ra khả năng quyết định
OWL Full có thể được xem như là sự mở rong cua RDF, OWL Lite va OWL DL là các mở rộng có hạn chế của RDF Mỗi tài liệu RDF/XML là một tài liệu OWL (Full, DL, Lite) 12 mét tai liệu RDF/XML; mỗi tài liệu RDF/XML là một
a http://www.daml.org/
Trang 25OWL Full nhưng không phải tất cả tài liệu RDF/XML đều là tài liệu OWL DL (hay
OWL Lite) Ở đây chúng ta tìm hiểu phiên bản mới nhất của OWL là OWL2
1.4.1 Cú pháp
OWL2 xây dựng trên luge dé RDF và RDE và do đó có thể được thể hiện bằng cách str dung tất cả các cú pháp RDF hợp lê Tuy nhiên, nhiều cú pháp tồn tại cho OWL2, mỗi cú pháp đều có những lợi ích và nhược điểm riêng:
Cú pháp kiểu chức năng: Cú pháp này liên quan chặt chẽ đến cầu trúc chính thức của Ontology Nó được sử dụng trong tài liệu đặc tả ngôn ngữ, trong các định nghĩa về ngữ nghĩa của các Ontology OWL2, ánh xạ từ và vào các cú phap RDF va các cấu hình khác nhau của OWL2 Nó nhỏ gọn và dễ đọc hơn nhiều so với các cú
pháp khác Ví dụ, hạn chế lớp trên có thể được viết theo cú pháp này như:
EquivalentClass (:Person ObjectUnionOf (:Man:Woman))
OWL/XML đây là một cú pháp XML cho OWL2 không tuân theo các triệu
tập RDF, nhưng ánh xạ chặt chẽ vào cú pháp kiểu chức năng Lợi ích chính của cú pháp này là nó cho phép chúng ta tương tác với các Ontology bằng cách sử dụng
các công cụ soạn thảo XML tiêu chuẩn Ví dụ, cú pháp OWL/XML của tiên đề lớp tương đương là: <EquivalentClasses> <Class abbreviatedIRI=":Person"/> <ObjectUnionOf> <Class IRI="#Man"/> <Class IRI="#Woman"/> </ObjectUnionOf> </EquivalentClasses>
Manchester Syntax Được phát triển bởi Đại học Manchester, cú pháp này được thiết kế sao cho dễ đọc nhất có thể Đây là cú pháp được sử dụng trong giao diện người dùng của hầu hết các trình soạn thảo Ontology hiện tại như Protégé
Class: Person
Trang 26Ngoài các cú pháp này, tat cả các cú pháp RDF có thể được sử dụng cho
OWL Do đó, trong phần này, chúng ta sẽ tiếp tục sử dụng cú pháp Bộ ba được giới
thiệu trong các phần trước
1.4.2 Tài liệu Onfology
Khi sử dụng cú pháp Bộ ba, các tài liệu Ontology OWL2, hoặc đơn giản là các Ontology, cũng giống như bất kỳ tài liệu RDF nào khác Các Ontology của
OWL2 giới thiệu tối thiểu các không gian tên sau: @prefix owl:<http://www.w3.org/2002/07/owl#>
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> @prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> @prefix xsd: <http://www.w3.org/2001/XMLSchema#>
Một Ontology OWL2 bắt đầu với một tập hợp các xác nhận cho mục đích nội bộ Các xác nhận này giới thiệu một không gian tên cơ sở, Ontology, tên của nó, các nhận xét có thể, kiểm soát phiên bản và bao gồm các Ontology khác Ví dụ: @prefix : <http://www.semanticwebprimer.org/ontologies/apartments.ttl#> @prefix dbpedia-owl:<http://dbpedia.org/ontology/> @prefix dbpedia: <http://dbpedia.org/resource/> @base <http://www.semanticwebprimer.org/ontologies/apartments.ttl> <http://www.semanticwebprimer.org/ontologies/apartments.ttl> rdf:type owl:Ontology; wn rdfs:label "Apartments Ontology""xsd:strmg; mm rdfs:comment "An example OWL2 oritology""xsd:string; owl:versionIRI<http://www.semanticwebprimer.org/ontologies/apartments.ttl#1 0>; owl:imports <http://dbpedia.org/ontology/>; owl:imports <http://dbpedia.org/resource/>
Imports Chi một trong những khẳng định này có bất kỳ hệ quả nào đối với ý nghĩa logic của Ontology: owl:imports, chỉ ra các Ontology khác có tiên đề là một phần cla Ontology hiện tại Trong Ontology chúng ta import zấr cả các tiên đề được xác định trong Ontology DBPedia, cũng như mọi thứ trong chính DBPedia Điều
Trang 27này nêu bật một trong những vấn đề với owl:imporrs: đễ có thể sử dụng thông tin trong DBPedia, chúng ta phải nhập tất cả 672 triệu bộ ba được mô tả trong đó
Trong khi các không gian tên chỉ được sử dụng cho định hướng, các Ontology imports cung cap định nghĩa có thể được sử dụng Thông thường một Ontology chứa một câu lệnh imporrs cho mọi không gian tên mà nó sử dụng, nhưng có thể nhập các Ontology bổ sung - ví dụ, các Ontology cung cấp các định nghĩa mà không đưa ra bất kỳ tên mới nào owl:imporzs là bắc cầu; nghĩa là, néu ontology O; imports ontology Oj, va ontology Oj; imports ontology Oy, thi ontology Oj; cting imports ontology Ox
1.4.3 Các loại thuộc tính
Chúng ta đã thảo luận trong phần 1.4.2 rang OWL2 phan biệt hai loại thuộc
tính: thuộc tính đối tượng và thuộc tính kiểu dữ liệu Trong thực tế, có một số đặc tính của các thuộc tính mà các loại bổ sung được cung cấp bởi OWL2
Giống như trong RDF, OWL2 cho phép một người sử dụng các kiểu dữ liệu lược dd XML dé chi ra loai chữ hoặc chỉ định phạm vi của thuộc tính kiểu dữ liệu Các kiểu dữ liệu do người dùng định nghĩa có thể được chỉ định trong một lược đồ XML va sau đó được sử dụng trong một Ontology OWL2 (xem phần 1.4.5)
Thuộc tính bắc cầu, mỗi lớp là một lớp con của tất cả các siêu lớp của siêu
lớp trực tiếp của nó Rõ ràng có những mối quan hệ khác cũng mang tính bắc cầu, chẳng hạn như: isPartOf hoặc: isCheaperThan Chúng ta có thể định nghĩa một
thuộc tính là bắc cầu như sau:
:isPartOf rdŸ:type owl:ObjectProperty; rdf:type owl:TransitiveProperty Thuộc tính tổng hợp:
+ Các thuộc tính trên và dưới đều là tổng hợp
Trang 28* Bat ky thuéc tinh nao cé một subproperty transitive, hoặc subproperty
nghịch đảo của nó là transitive
» Bất kỳ thuộc tính nào là siêu cấp của chuỗi thuộc tính, hoặc là thuộc tính nghịch đảo của siêu sản phẩm của chuỗi bất động sản
s Bất kỳ thuộc tính nào là thuộc tính tương đương của một trong những thuộc tính trên hoặc là siêu sản phẩm của một thuộc tính tương đương với một trong những thuộc tính trên
Thuộc tính hỗn hợp đôi khi được gọi là vai trò phức tạp hoặc thuộc tính
không đơn giản
Chúng có thể không được chỉ định các loại thuộc tính sau: s Chức năng hoặc chức năng nghịch dao;
s Không phản xạ; s Không đối xứng
Thuộc tính bắc cầu được gọi là thuộc tính tổng hợp: chúng có thể được gọi là
kết hợp của nhiều bước
Thuộc tính đối xứng và bất đối xứng: Một số thuộc tính, chẳng hạn như: isAdjighborTo, 1a déi xứng; nghĩa là, nếu a: isAdjighborTo b, thi nghịch đáo cũng giữ nguyên Nói cách khác, tính chất đối xứng tương đương với nghịch đảo của chúng (xem 4.1.4) Đối với một số thuộc tính khác, sẽ không có trường hợp nào là đối xứng Chẳng hạn, mối quan hệ: isCheaperThan không đối xứng owl:ObjectProperty; rdf:type owl:SymmetricProperty :isCheaperThan rdf:type owl:ObjectProperty; rdf:type owl:AsymmetricProperty; rdf:type owl:TransitiveProperty
Các thuộc tính chức năng và nghịch đảo: Đối với một số thuộc tính, chúng ta biết rằng mỗi cá thể luôn có thể có nhiều nhất một cá thể khác có liên quan thông qua quyền lợi đó
Trang 29Thuộc tính phan xa va bat phan xạ: Phản xạ của một thuộc tính có nghĩa là mọi cá thể đều có liên quan thông qua thuộc tính đó với chính nó Ví dụ, mọi thứ: isPartOf chính nó Mặt khác, bất phản xạ có nghĩa là không có cá thể nào liên quan đến chính nó thông qua thuộc tính đó Hầu hết các thuộc tính với miền và phạm vi rời rạc thực sự là bất phản xạ Một ví dụ là: thuộc tính thuế:
:isPartOf rdf:type owl:ObjectProperty ; rdf:type owl:ReflexiveProperty :renfs rdf:type owl:ObjectProperty ; rdf:type owl:IrreflexiveProperty 1.4.4 Định nghĩa thuộc tính
Ngoài các loại thuộc tính được nêu trong phần trước, chúng ta có thể chỉ định các đặc tính bổ sung của các thuộc tính theo cách chúng liên quan đến các lớp và các thuộc tính khác
Miền và Phạm vi như chúng ta đã thấy trong phần 4.4.3, cách thức mà OWL2 xử lý miền và phạm vi cho các thuộc tính hoàn toàn giống như trong Lược đề RDE Nếu có nhiều hơn một rdfs: pham vi hoặc rdfs: tên miền được xác nhận cho một thuộc tính, thì phạm vi hoặc miễn thực tế là giao điểm của các lớp được chỉ định trong tiên để thuộc tính
Thuộc tính nghịch đảo: OWL2 cho phép chúng ta xác định nghịch đảo của các thuộc tính
Thuộc tính tương đương: Thuộc tính cũng có thể được định nghĩa là tương đương
Các thuộc tính rời rạc: Đối với một số thuộc tính, chúng ta biết rằng không có hai cá thể nào có liên quan thông qua một thuộc tính có thể liên quan với nhau: các nhóm các cá thể mà các thuộc tính có thể giữ là rời rạc với nhau
Chuỗi thuộc tính: Một tính năng phức tạp hơn của OWL2 là khả năng xác
định chuỗi thuộc tính Đôi khi rất hữu ích khi chỉ định các phím tắt đọc theo biểu đồ
Trang 30:BaronWayApartment Ƒ— :isPartOf :BaronWayBuilding | _ ilivesin ~~ _ | ⁄ dbpedia-owl:location :rents J z ` | ` \ :Paul ‘Amsterdam
Hình 1.10 Chuỗi thuộc tinh (các đường chấm chấm được suy ra bởi lý do) Hình 1.10 cho thấy sự tồn tại của mối quan hệ: lifeIn có thể được suy ra từ ví dụ căn hộ Lưu ý rằng tiên đề chuỗi thuộc tính không làm cho thuộc tính được đặt tên (:lifeIn) tương đương với chuỗi thuộc tính; nó là một phần phụ của chuỗi Trong OWL2 DL, chuỗi thuộc tính chỉ có thể liên quan đến các thuộc tính đối tượng, mặc
dù hầu hết các lý do có thể xử lý các chuỗi có thuộc tính kiểu dữ liệu như bước cuối
cùng
1.4.5 Định nghĩa lớp
Các lớp được định nghĩa bằng cách khẳng định một tài nguyên thuộc loại owl:Class Quan hệ lớp con được định nghĩa như trong Lược đồ RDE Ví dụ: chúng ta có thể định nghĩa một lớp: LuxuryApemony như sau:
:LuxuryApartment rdf:type owl:Class ; rdfs:subClassOf :Apartment
Lớp tương đương với các lớp có nghĩa là mọi thành viên của một lớp cũng
phải là thành viên của lớp tương đương và ngược lại Nói cách khác, cả hai lớp bao
gồm chính xác cùng một tập hợp các cá nhân Tương đương lớp có thể được xác định bằng cách sử dụng một thuộc tính owl:equivalent:
:Apartment owl:equivalentClass dbpedia: Apartment
Mặc dù ngữ nghĩa trực tiếp của OWL2 không cho phép mô hình hóa meta,
nhưng OWL2 DL đã hạn chế giới hạn này bằng một thủ thuật cú pháp gọi là picky
hoặc "chơi chữ" Điều này có nghĩa là bất cứ khi nào URI đbpedia: Căn hộ xuất
hiện trong một tiên dé của lớp, nó được coi là một lớp và khi nó xuất hiện trong một xác nhận riêng lẻ, nó được coi là một cá nhân
1.4.6 Định nghĩa lớp trên thuộc tính
Trang 31OWL2 cho phép kiểm soát chi tiết hơn các định nghĩa lớp hơn chúng ta đã
thấy trong các phần trước Chúng ta có thể chỉ định các tiên đề lớp bổ sung hạn chế
tập hợp các cá nhân có thể được coi là thành viên của một lớp bằng cách xem xét
các thuộc tính của chúng Điều này cho phép chúng tôi, ví dụ, tự động suy luận
thành viên lớp Các tiên đề hạn chế lớp được gắn vào một con owl:Class bằng cách
liên kết chúng với một loại lớp ẩn danh đặc biệt, thu thập tất cả các cá nhân thỏa
mãn hạn chế
OWL2 cho phép sử dụng Lược đồ XML để xác định kiểu dữ liệu Tuy nhiên,
chỉ các kiểu dữ liệu được xác định bằng các khía cạnh Lược đồ XML có thể được sử dụng trong các hạn chế
1.5 Tiểu kết Chương 1
Trang 32Chương 2 TRUY VẤN DỮ LIỆU RDE VỚI SPARQL 2.1 Giới thiệu SPARQL
2.1.1 Giới thiệu
Như đã được giới thiệu ở chương trước, RDE là một cách thức mở rộng đề biểu diễn thông tin về những tài nguyên web một cách linh động Nó được dùng để mô tả nhiều loại thông tin ví dụ như thông tin về cá nhân, về hệ thống mạng toàn cầu, “siêu đữ liệu” về multimedia như âm nhạc và hình ảnh cũng như cung cấp một phương tiện để tích hợp các nguồn tài nguyên khác Với một lượng thông tin quá lớn như vậy, làm thế nào đữ liệu có thể được truy vấn nhanh chóng và chính xác? Vì vậy tổ chức W3C đã phát triển một ngôn ngữ chuẩn đề truy vấn dữ liệu RDF với việc cung cấp nhiều chức năng cho các nhà phát triển và người dùng cuối cách thức để viết và thực thi một câu truy vấn Chương này mô tả ngôn ngữ truy vấn
SPARQL để truy cập dữ liệu RDF được phát triển bởi nhóm RDF Data Access Working Group
Một đồ thị RDF là một tập những bộ ba mà mỗi bộ ba lại chứa đựng chủ thể,
vị ngữ và đối tượng Điều này đã được giới thiệu trong chương 1 Những bộ ba có thể xuất phát từ nhiều tài nguyên khác nhau Ví dụ, chúng có thể đến trực tiếp từ tài liệu RDEF, chúng cũng có thể được suy luận từ những bộ ba RDF khác hay chúng có
thể là biểu thức đữ liệu RDF được lưu trong nhiều định dạng khác, như XML hay
quan hệ cơ sở dữ liệu SPARQL là một ngôn ngữ để lây thông tin từ nhiều đồ thị Nó cung cấp những tính năng sau:
Trang 33Một câu truy vấn bao gồm hai phần, mệnh đề SELECT và mệnh đề WHERE Mệnh đề SELECT xác định biến nào xuất hiện trong những kết quả truy vấn, còn mệnh đề WHERE bao gồm các mẫu bộ ba (tripple pattern) Một mẫu bộ ba là một bộ ba RDF nhưng mỗi thành phần (chủ thể, vị từ, đối tượng) đều có thể là một biến
truy van
Một mẫu đồ thị cơ bản (basic graph pattern) là một tập các mẫu bộ ba
Ngôn ngữ SPARQL dựa trên nền tảng so sánh các mẫu đồ thị Kết quả truy
vấn là tất cả các giải pháp mà một truy vấn có thé phù hợp với đồ thị được truy vấn
Một câu truy vấn có thể có không, một hay nhiều kết quả
Trang 34Những giá trị duoc nim trong dau “< >” 1a nhting tham chiéu IRI Chúng đại điện cho những IRI, hoặc trực tiếp hoặc có mối liên hệ đến một IRI cơ sở Những TRI là một sự tổng hợp của URI và hoàn toàn tương thích với URI và URL
SPARQL cung cấp hai cơ chế viết tắt cho những IRI đó là: những tiếp đầu ngữ namespace va quan hé IRI
Từ khóa tiếp đầu ngữ kết hợp một tiếp đầu ngữ với một namespace IRI Một
tiếp đầu ngữ gắn kết những ứng dụng tới một số những QName trong truy vấn với tiếp đầu ngữ đó; một tiếp đầu ngữ có thể chỉ được định nghĩa một lần Một QName được ánh xạ tới một IRI bằng cách thêm tên cục bộ tới namespace IRI tương ứng
với tiếp đầu ngữ
2.2.3 Cú pháp của Literal
Những thuật ngữ truy vấn có thể là những chuỗi kí tự (được đóng trong dấu “ ” hay ‘’), với một thẻ ngôn ngữ tùy chọn (mở đầu bởi @) hay loại dữ liệu IRI tùy chọn hay QName (mở đầu bằng ^^) Như một qui ước, những số nguyên có thể được viết một cách trực tiếp và được hiển thị như những kí tự mẫu của loại dữ liệu xsd:integer; những số thập phân được hiển thị như xsd:decimal và một số với một số mũ đựơc biểu thị như xsd:double Những giá trị của loại xsd:boolean cũng có thể được viết như true hay false
2.2.4 Cú pháp các biến
Những biến trong truy vấn SPARQL có phạm vi toàn cục; các biến giống nhau ở bắt kỳ nơi nào trong truy vấn nếu nó có tên giống nhau Những biến được diễn tả bằng “2” hay “$”
Ví dụ: những biểu thức bên dưới mô tả cùng một truy vấn:
Trang 35
Những tiếp đầu ngữ có cú pháp: tên tiếp đầu ngữ, chúng không ảnh hưởng đến truy vấn, cũng không làm cho những tên tiếp đầu ngữ trong truy vấn cần thiết phải giống nhau như được sử dụng cho dữ liệu Truy vấn sau tương đương với những ví dụ bên trên và đưa ra cùng kết quả khi áp dụng cùng dữ liệu:
Trong luận văn này, sử dụng dữ liệu được định dạng ở dạng Tutle, nó được sử dụng để diễn tả mỗi bộ ba một cách rõ ràng Turtle cho ràng buộc những URI được rút gọn với những tiếp đầu ngữ:
Thuật ngữ gắn kết được sử dụng như một thuật ngữ mô tả để đề cập đến một cặp (biến, thuật ngữ RDEF) Và trong trong luận văn này cũng mô tả những kết quả trong định dạng bảng Nếu biến x là Alice thì biến y là Bob, như sau: + y "Alice" | "Bob" 2.2.5 Cú pháp các mẫu bộ ba
Trang 362.2.6 Những thành phân khác
Từ khóa “a” có thể được dùng như một vị từ trong một mẫu bộ ba và là một
cách khác cho IRI rdftype mà là http://www.w3.org/1999/02/22-rdf-syntax-
ns#type
2.2.7 Truy van véi RDF Literal
Trong SPARQL một kí tự RDF được viết như một chuỗi mà chứa các mẫu từ vựng hoặc của kí tự, theo sau bởi một thẻ ngôn ngữ tùy ý hay một loại dữ liệu tùy ý Có những hình thức tiện lợi cho những kí tự thuộc loại số như xsd:integer, xsd:decimal, xsd:double va xsd:boolean
Sau đây là các ví dụ của kí tự trong SPARQL:
2.2.8 Kết hợp những RDF Literal
Trang 37* Ket hop so nguyén Mẫu truy vấn dưới đây có một lời giải :x vì 42 là cú pháp cho “42”^^<http://www.w3.org/2001/XMLSchema#integer>
* Kết hợp những loại dữ liệu tùy ý
Truy vấn sau có lời giải với biến v trở thành :y các bộ xử lý truy vấn không cần phải hiểu giá trị trong không gian của loại dữ liệu vì trong trường hợp này mẫu từ vựng và loại dữ liệu IRI cả hai đều kết hợp một cách chính xác
+ Kết hợp thẻ ngôn ngữ
Truy vấn sau không có lời giải vì “cat” không giống như kí tự RDE “cat” @en:
SELECT ?x WHERE { ?x ?p "cat" } SELECT ?x WHERE { ?x ?p "cat"@en }
2.2.9 Những ràng buộc giá trị
Trang 38¢ Dé liéu: @prefix dc: <http://purl.org/dc/elements/1.1/> @prefix: <http:/example.org/book/> @prefix ns: <http://example.org/ns#> :bookl dc:title "SPARQL Tutorial" :tbookl ns:price 42 :book2 de:title "The Semantic web" :tbook2 ns:price 23 * Truy vấn: * Két qua: title price "The Semantic web”
Bằng cách ràng buộc biến “price”, chỉ có book2 thích hợp với truy vấn vì có một giới hạn dựa vào gía trị được phép của “price”
2.3 Sắp xếp, tổng hợp, gộp nhóm dữ liệu khi truy vấn Các dạng kết quả truy vấn
SPARQL có bốn mẫu kết quả truy vấn, những mấu truy vấn này sử dụng những lời giải từ việc kết hợp pattern để tạo ra những tập kết quả hay những đồ thị RDF Những mẫu truy vấn gồm:
Trang 39* CONSTRUCT: trả về một đồ thị RDF được tạo bằng cách thay thế những
biến trong một tập những mẫu bộ ba
* DESCRIBE: tra về một đồ thị RDF mà mô tả những tài nguyên tìm thấy
+ ASK: tra về một giá trị đúng hay sai để cho biết một mẫu truy vẫn có phù hợp hay không
Tập những lời giải và kết quả
Những mẫu truy vấn tạo ra một tập những lời giải không theo thứ tự, mỗi lời giải là một hàm từ những biến tới những thuật ngữ RDE Những lời giải này sau đó được xử lý như một chuỗi, mà không theo một thứ tự gì hết; bất kỳ những từ bổ nghĩa chuỗi nào được thêm vào sẽ tạo ra một chuỗi khác Cuối cùng, chuỗi sau cùng được sử dụng để tạo ra một trong những mẫu kết quả SPARQL
2.3.1 DISTINCT
Với từ khóa này thì chuỗi kết quả có thể bị thay đổi, từ khóa này đảm bảo
rằng mọi sự kết hợp của những ràng buộc về biến trong chuỗi những kết quả là duy nhất
Ví dụ:
@prefix foaf: <http://xmlns.com/foaf/0.1/> _ta_ foaf:name "Alice"