ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lương Đỗ Long ỨNG DỤNG WEB NGỮ NGHĨA TRONG LƢU TRƢ̃ VÀ QUẢN LÍ CÁC TÀI LIỆU SỐ LUẬN VĂN THẠC SĨ KHOA HỌC HÀ NỘI - 2011 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lương Đỗ Long ỨNG DỤNG WEB NGỮ NGHĨA TRONG LƢU TRƢ̃ VÀ QUẢN LÍ CÁC TÀI LIỆU SỚ Ngành: Cơng nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60.48.05 LUẬN VĂN THẠC SĨ KHOA HỌC Cán bộ hướng dẫn khoa học : PGS TS Đỗ Trung Tuấ n HÀ NỘI - 2011 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC Chƣơng TỔNG QUAN VỀ WEB NGƢ̃ NGHĨA 1.1 Khái niệm Web ngữ nghĩa và Siêu dữ liệu .1 1.1.1 Khái niệm 1.1.2 Siêu dƣ̃ liê ̣u .2 1.2 Kiế n trúc Web ngƣ̃ nghiã .3 1.3 Ngôn ngƣ̃ Cơ cấ u mô tả tài nguyên và Bản thể luâ ̣n 1.3.1 Ngôn ngƣ̃ mô tả tài nguyên RDF 1.3.2 Bản thể luận 15 1.3.3 Lƣơ ̣c đồ RDF và truy vấ n RDF 16 Kết luận 23 Chƣơng TIẾP CẬN WEB NGƢ̃ NGHĨA TRONG LƢU TRƢ̃ VÀ QUẢN LÍ TÀI LIỆU SỐ 24 2.1 Web ngƣ̃ nghiã và thƣ viê ̣n số 24 2.1.1 Thƣ viê ̣n số ngƣ̃ nghiã 24 2.1.2 Tổ chƣ́c tri thƣ́c thƣ viê ̣n 26 2.1.3 Web ngƣ̃ nghiã thƣ viê ̣n số 26 2.2 Kiế n trúc của thƣ viê ̣n số ngƣ̃ nghiã 30 2.3 Bản thể luận cho thƣ viện số ngữ nghĩa 31 2.3.1 Bản thể luâ ̣n biể u ghi thƣ mu ̣c 31 2.3.2 Bản thể luận cho cấu trúc nội dung 33 2.3.3 Cơ bản về sƣ̣ phân loa ̣i 34 2.3.4 Xây dƣ̣ng Bản thể luâ ̣n 36 2.4 Thƣ viê ̣n số ngữ nghĩa và mạng xã hội 37 2.5 Tìm kiếm thƣ viện ngữ nghĩa 38 2.5.1 Tìm kiếm dựa sự phân loại 38 i LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 2.5.2 Tìm kiếm ngữ nghĩa 38 Kết luận 40 Chƣơng Xây dƣ̣ng thƣ viê ̣n số ngƣ̃ nghiã dƣ̣a phầ n mề m JeromeDL 41 3.1 Giới thiê ̣u phầ n mề m JeromeDL 41 3.2 Kiến trúc và Bản thể luận JeromeDL 42 3.2.1 Kiến trúc JeromeDL 42 3.2.2 Bản thể luận JeromeDL 44 3.3 Truy vấn JeromeDL 48 3.4 Sử dụng JeromeDL 51 Kết luận 53 KẾT LUẬN VÀ HƢỚNG PHÁ T TRIỂN 54 TÀI LIỆU THAM KHẢO 56 ii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bảng kí hiệu thuật ngữ viết tắt Tên viế t tắ t WWW Tiế ng Viêṭ Mạng toàn cầu Tiế ng Anh W3C Tổ chức Mạng toàn cầu World Wide Web World Wide Web Consortium RDF Cơ cấu mô tả tài nguyên Resource Description Framework RDFS Lƣợc đồ Cơ cấu mô tả tài Resource Description Framework nguyên Scheme XML Ngôn ngữ đánh dấu mở rộng eXtensible Markup Language iii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh mục hình ảnh Hình 1.1 Kiến trúc Web ngữ nghĩa Hình 1.2 Đồ thị RDF 11 Hình 1.3 Quan hệ kế thừa 17 Hình 1.4 Không gian miền và giới hạn tḥc tính RDFS 20 Hình 2.1 Các thành phần hỗ trợ thƣ viện số ngữ nghĩa 26 Hình 2.2 Biể u diễn cấ u trúc tài liê ̣u dƣới da ̣ng RDF 29 Hình 2.3 Kiế n trúc thƣ viê ̣n số ngữ nghĩa 31 Hình 2.4 Bản thể luận BibTeX 32 Hình 2.5 Một dạng phân cấp 35 Hình 2.6 Một Bản thể luận Cys 35 Hình 2.7 Quá trình tìm kiếm th ƣ viê ̣n số ngữ nghĩa 39 Hình 2.8 Quá trình chia sẻ dữ liê ̣u RDF 39 Hình 3.1 Giao diện JeromeDL 42 Hình 3.2 Kiến trúc JeromeDL 43 Hình 3.3 Bản thể luận MarcOnt 44 Hình 3.4 Bản thể luận cấu trúc nội dung 46 Hình 3.5 Mạng xã hội JeromeDL 48 Hình 3.6 Các bƣớc truy vấn JeromeDL 49 Hình 3.7 Giao diện chức tìm kiếm ngữ nghĩa 52 Hình 3.8 Giao diện chức xuất bản tài liệu 52 iv LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh mục bảng biểu Bảng Các lớp RDFS 18 Bảng Các tḥc tính RDFS 19 Bảng Các lớp, thuộc tính, thể hiện Bản thể luận MarcOnt 45 Bảng Các lớp, tḥc tính, thể hiện Bản thể ḷn cấu trúc nội dung 47 v LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỞ ĐẦU Web ngƣ̃ nghiã (hay Semantic Web) là hệ mở rộng Web hiện tại đƣợc đƣa Tim Berners-Lee vào khoảng năm 1998 Mục tiêu ban đầu Semantic Web là để hỗ trợ ngƣời dùng tìm kiếm thông tin mạng mợt cách nhanh chóng, chuẩn xác và thông minh so với các công cụ tìm kiếm truyền thống Theo đinh ̣ nghiã của tổ chƣ́c World Wide Web Consort ium (W3C), web ngƣ̃ nghĩa là sự mở rộng WWW hiê ̣n ta ̣i bằ ng cách thêm vào các mô tả ý nghiã (hay ngƣ̃ nghiã ) thông tin dƣới dạng mà chƣơng trình mà máy tính có thể hiểu đƣợc và vậy cho phép xử lí thơng tin có hiệu quả Web ngƣ̃ nghiã cố gắ ng làm để máy tính hiểu đƣợc các khái niệm , mớ i quan ̣ giƣ̃a các khái niê ̣m , các thuộc tính và các tiến trình chúng Trong trƣờng hơ ̣p này , máy tính có khả kết luâ ̣n và trić h xuấ t thông tin mới và có giá tri ̣tƣ̀ các dƣ̃ liê ̣u đã tồ n ta ̣i Web ngƣ̃ nghĩa khơng phải là Trí ṭ nhân tạo (AI), nhƣng nó có thể xem là mô ̣t loa ̣i web thông minh, hay thế ̣ phát triể n tiế p theo của web Nề n tảng bản làm nên web ngƣ̃ nghiã là các siêu dƣ̃ liê ̣u (metadata) và bản thể luận Siêu dƣ̃ liê ̣u có thể hiể u đơn giản là dƣ̃ liê ̣u về dƣ̃ liê ̣u , còn bản thể luận định nghĩa các từ vựng đƣợc sử dụng các miền ứng dụng khác nha u Các siêu dữ liệu có thể dùng để biểu diễn cho mo ̣i loa ̣i tài nguyên (thƣ̣c thể hoă ̣c các khái niê ̣m ) Mô ̣t cách để biể u diễn các khái niệm, và mối quan hệ giữa chúng một tài liệu là sử dụng ngôn ngữ mô tả tài nguyên RDF (Resource Description Framework) Các tài liệu số (tài nguyên ) thƣờng đƣờng lƣu trƣ̃ và truy câ ̣p qua các cổ ng thông tin và các thƣ viê ̣n số Các thƣ viện số ngoài chức lƣu trữ các tài liệu sớ , còn có chức cho phé p ngƣời sƣ̉ du ̣ng tim ̀ kiế m các tài liê ̣u có liên quan mô ̣t cách nhanh nhất Các siêu dữ liệu là một những cách tiếp cận cho việc biên mục, phân loa ̣i và hỗ trơ ̣ tim ̀ kiế m các tài liê ̣u số Trong cách biể u diễn bởi các s iêu dƣ̃ liê ̣u, các tài liệu sớ đƣợc ―cấu trúc hóa‖ vào các siêu dữ liệu Bấ t kì thông tin nào các thƣ viê ̣n số cũng có thể đƣơ ̣c biể u diễn bởi các siêu dƣ̃ liê ̣u , với cách biể u diễn này sẽ thuâ ̣n lơ ̣i cho viê ̣c quản lí và ngƣời dùng dễ dàng tìm kiếm các tài liệu gố c Ngoài , cách tiếp cận này cho phép các thƣ viện số dễ dàng chia sẻ các tài nguyên với dƣ̣a mô ̣t chuẩ n đă ̣c tả chung Viê ̣c tić h hơ ̣p ngƣ̃ nghiã vào các vi LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com thƣ viê ̣n số dƣ̣a kiế n trúc của Web ngƣ̃ nghiã làm cho thƣ viê ̣n số có nhiề u ƣu điể m so với cách tiế p câ ̣n thông thƣờng Luâ ̣n văn này tìm hiể u chung nhấ t về kiế n trúc của web ngƣ̃ nghiã , dƣ̣a cách tiếp cận web ngữ nghĩa , tìm hiể u cách tić h hơ ̣p ngƣ̃ nghiã vào các thƣ viên số Cấ u trúc của luâ ̣n văn gồ m chƣơng: Chương 1: Tổ ng quan về Web ngữ nghiã Tìm hiểu chung nhất kiến trúc web ngữ nghĩa , các thành phần bản làm nên web ngữ nghĩa Chương 2: Tiế p câ ̣n Web ngữ lưu trữ và quản lí tài liêụ số Tìm hiểu mô ̣t nhƣ̃ng cách quản lí tài liê ̣u sớ đ ó là thƣ viện sớ Nghiên cƣ́u cách tích hợp ngữ nghĩa vào các tài nguyên thƣ viê ̣n số : chế biên mu ̣c và phân loại dựa ngữ nghĩa Chương 3: Xây dựng thư viê ̣ n số ngữ nghiã dựa phầ n mề m JeromeDL Giới thiê ̣u phầ n mề m mã nguồ n mở JeromeDL viê ̣c xây dƣ̣ng các thƣ viê ̣n số ngƣ̃ nghiã vii LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chƣơng TỔNG QUAN VỀ WEB NGƢ̃ NGHĨA Trong chƣơng này , sẽ giới thiệu công nghệ bản đƣợc sử dụng luận văn, bao gồ m đinh ̣ nghiã về web ngƣ̃ nghiã , nhƣ̃ng nồ lƣ̣c viê ̣c xây dƣ̣ng web ngƣ̃ nghiã tƣ̀ web hiê ̣n ta ̣i , giới thiê ̣u kiế n trúc web ngƣ̃ nghiã tổ chức World WideWeb Consortium (W3C) Tìm hiểu Bản thể luận và ngôn ngữ bản thể luận 1.1 Khái niệm Web ngƣ̃ nghiã và Siêu dữ liệu 1.1.1 Khái niệm Sau đời của Internet và World Wide Web (WWW), rấ t nhiề u nhƣ̃ng nỗ lƣ̣c đã đƣơ ̣c thƣ̣c hiê ̣n và các công nghê ̣ đƣơ ̣c phát triể n nhằ m mu ̣c đić h làm cho World Wide Web tố t , nhanh hơn, và thông minh Nhiề u công nghê ̣ , kiế n nghị sau xuất hiện đã trở thành chuẩn chung chỉ mô ̣t thời gi an ngắ n Mô ̣t nhƣ̃ng nỗ lƣ̣c này là web ngƣ̃ nghiã Web ngƣ̃ nghiã có thể đƣơ ̣c xem là sƣ̣ mở rô ̣ng của web hiê ̣n ta ̣i Web ngƣ̃ nghiã không phải là Trí tuê ̣ nhân ta ̣o , nhƣng có thể xem là mô ̣t da ̣ng web thông minh Web ngƣ̃ nghiã là sự mở rộng WWW cách thêm vào các mô tả ngữ nghĩa thông tin dƣới dạng mà chƣơng trình máy tính có thể ―hiểu‖ và vậy cho phép xử lý thông tin hiệu quả [3] Xét mặt bản chất, Semantic Web ngƣ̃ nghĩa chỉ là một công cụ để ngƣời nhƣ máy tính sử dụng để biểu diễn thơng tin, hay nói xác thì Web ngƣ̃ nghiã chỉ là mợt dạng dữ liệu Web Khác với các dạng thức dữ liệu đƣợc trình bày HTML, dữ liệu Semantic Web đƣợc đánh dấu, phân lớp, mơ hình hóa, đƣợc bổ sung thêm các tḥc tính, các mới liên hệ… theo các lĩnh vực cụ thể, qua giúp cho các phần mềm máy tính có thể hiểu đƣợc dữ liệu và tự động xử lý đƣợc những dữ liệu Có thể kể những ƣu điểm web ngữ nghĩa so với web hiện tại: Máy tính có thể hiểu đƣợc thơng tin Web: Web ngữ nghĩa định nghĩa các khái niệm và bổ sung quan hệ dƣới dạng máy tính có thể hiểu đƣợc Do LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com uyê uyê u t tr t v u T u t Duy t t t t k k t uyê uyê u An Ninh t u t X u D u t t u trú u u u RDF Tài nguyên T p ỉ Hình 3.2 Kiến trúc JeromeDL Trong kiến trúc JeromeDL đặc biệt nhấn mạnh vào phần ứng dụng Web ngữ nghĩa dựa các siêu dữ liệu Các phần JeromeDL bao gồm: Quản lí tài nguyên: Các tài nguyên đƣợc miêu tả ngữ nghĩa theo bản thể luận Jerome (đề cập phần sau), cộng với một tập chỉ mục nội dung tài nguyên và các miêu tả các biểu ghi thƣ mục MARC21 và BibTeX Trong JeromeDL, ngƣời dùng bình thƣờng chỉ có thể thêm tài nguyên vào CSDL thông qua giao diện Web, để thực hiện việc quản trị, JeromeDL cung cấp riêng một giao diện cho quản trị viên, cho phép quản li và thêm các siêu dữ liệu (Các biểu ghi thƣ mục MARC21, BibTeX, Bản thể luận) vào sở tri thức, mợt tài liệu đƣợc đƣa lên, phải đƣợc quản tri viên phê duyệt thì đƣợc xuất bản cho ngƣời dùng Tìm kiếm và duyệt tài nguyên: thực hiên truy vấn tài nguyên theo yêu cầu ngƣời dùng dựa các dữ liệu ngữ nghĩa Quản lí hồ sơ ngƣời dùng: Quản lí ngƣời sử dụng thƣ viện, và mối quan hệ ngƣời dùng với cộng đồng sử dụng thƣ viện 43 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Quản lí chia sẻ tài nguyên: Cung cấp một cổng giao tiếp với các hệ thống khác Cơ sở dữ liệu JeromeDL không chỉ đƣợc truy vấn nội bộ hệ thống mà còn cho phép các thƣ viện và ứng dụng khác sử dụng 3.2.2 Bản thể luận JeromeDL Trong JeromeDL có loại Bản thể luận, là Bản thể luận các Biểu ghi thƣ mục, Bản thể luận cấu trúc các tài liệu, Bản thể luận FOAFRealm (dựa Bản thể luận FOAF, mô tả mối quan hệ giữa ngƣời dùng và sự tƣơng tác họ với các tài nguyên) i Bản thể luận Biểu ghi thư mục Mục đích việc xây dựng các Bản thể luận Biểu ghi thƣ mục là để chú giải cho các tài nguyên, vì vậy không cần thiết phải mô tả đầy đủ toàn bộ nợi dung tài liệu Hiện tại có rất nhiều định dạng cho việc xây dựng các biểu ghi thƣ mục (Dublin Core, BibTeX, MARC21), JeromeDL đề xuất một Bản thể ḷn có thể bao quát đƣợc toàn bợ các định dạng biểu ghi thƣ mục khác nhau, là MarcOnt Với MarcOnt ta có thể dễ dàng chuyển đổi qua lại giữa các định dạng, vì đƣợc kế thừa từ Dublin Core, BibTeX, MARC21 Literal sE or dit legacyProperties hasCreator hasPublisher Person Book hasKeyword hasDomain Keyword Topic narrower broader synonym Hình 3.3 Bản thể luận MarcOnt Trong JeromeDL để chuyển đổi từ các định dạng biểu ghi thƣ mục sang dạng ngữ nghĩa bao gồm ba bƣớc Cho ví dụ, để chủn đổi mợt biểu ghi thƣ mục MARC21 sang dạng ngữ nghĩa MartOnt gồm các bƣớc sau: (1) Chuyển các têp 44 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com tin MARC21 sang định dạng XML, gọi là tệp tin MARC-XML; (2) Chuyển các tệp tin MARC21-XML dạng RDF (tệp tin MARC-RDF); (3) Chuyển đồ thị RDF tới dạng MartOnt Các lớp, các tḥc tính và các thể hiện cụ thể MarcOnt đƣợc liệt kê chi tiết nhƣ dƣới Bảng Các lớp, tḥc tính, thể hiện Bản thể luận MarcOnt Các lớp Các thuộc tính marcont:AccessMedium, marcont:Article, marcont:Book, marcont:Booklet, marcont:Cluster, marcont:Collection, marcont:Conference, marcont:Coverage, marcont:DemoSession, marcont:Event, marcont:Faculty, marcont:Inbook, marcont:Incollection, marcont:Inproceedings, marcont:Institute, marcont:Journal, marcont:Lab, marcont:LightingTalk, marcont:Manual, marcont:Mastersthesis, marcont:Meeting, marcont:Misc, marcont:Organization, marcont:PhDthesis, marcont:PosterSession, marcont:Presentation, marcont:Proceedings, marcont:PublicationMedium, marcont:Resource, marcont:Review, marcont:ShortTalk, marcont:SocialMedium, marcont:Talk, marcont:Techreport, marcont:Tutorial, marcont:University, marcont:Unpublished, marcont:WebSite, marcont:Workshop marcont:hasAbstract, marcont:hasAddress, marcont:hasAffiliation, marcont:hasAuthor, marcont:hasBeginDate, marcont:hasContents, marcont:hasContributor, marcont:hasCoverage, marcont:hasCreator, marcont:hasDCMIType, marcont:hasDOI, marcont:hasDate, marcont:hasDescription, marcont:hasDomain, marcont:hasEdition, marcont:hasEditor, marcont:hasEndDate, marcont:hasHumanCreator, marcont:hasISBN, marcont:hasISSN, marcont:hasIdentifier, marcont:hasJournal, marcont:hasKeyword, marcont:hasMonth, marcont:hasNote, marcont:hasNumber, marcont:hasOrder, marcont:hasOrganization, marcont:hasOriginalPublicationMedium, marcont:hasPages, marcont:hasPagesFrom, marcont:hasPagesTo, marcont:hasPublisher, marcont:hasRelatedEvent, marcont:hasReview, marcont:hasReviewDate, marcont:hasReviewer, marcont:hasReviewComment, marcont:hasSchool, marcont:hasSeries, marcont:hasSource, marcont:hasSponsor, marcont:hasTitle, marcont:hasTopic, marcont:hasURL, marcont:hasVolume, marcont:hasYear, marcont:howPublished, marcont:isPartOf, marcont:isPeerOf, marcont:presentedAt, marcont:publishedIn 45 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Các thể ii marcont:IElectronic, marcont:IInternational, marcont:IInternet, marcont:ILocal, marcont:INational, marcont:IPrinted Bản thể luận Cấu trúc nội dung Không chỉ xây dựng các bản thể luận cho các biểu ghi thƣ mục, JeromeDL xây dựng bản thể luận cho cấu trúc nội dung tài liệu Cấu trúc nợi dung tài liệu có thể đƣợc tổ chức khác tùy theo vào loại tài liệu, ví dụ: mợt qủn sách có thể đƣợc chia thành các chƣơng, một tài liệu video lại đƣợc chia thành các phần, các tập khác smallerContent isAfter MediaPart hasMediaPart content uploader attactment File page Person Chapter Book hasChapter abstract href filesrc Physical file cover uploadDate Literal Hình 3.4 Bản thể luận cấu trúc nội dung JeromeDL cố gắng xây dựng Bản thể luận cấu trúc nội dung một cách uyển chuyển nhất cho thêm hay bớt một khái niệm không ảnh hƣởng đến các dữ liệu đã tồn tại trƣớc đo Bản thể luận Cấu trúc nội dung với biểu ghi thƣ mục đã cung cấp một cách nhìn tổng thể mô tả các tài liệu và hỗ trợ đủ cho việc tìm kiếm 46 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bảng Các lớp, tḥc tính, thể hiện Bản thể luận cấu trúc nội dung Các lớp jeromedl:BinaryResource, jeromedl:Chapter, jeromedl:ComputedResource, jeromedl:Context, jeromedl:DynamicCollection, jeromedl:DynamicCollectionType, jeromedl:ImageResource, jeromedl:InformationObject, jeromedl:MediaPart, jeromedl:MediaResource, jeromedl:Page, jeromedl:Part, jeromedl:Resource, jeromedl:ResourceType, jeromedl:ResourcesAggregationService, jeromedl:SubmissionStatusType Các thuộc tính jeromedl:actsOn, jeromedl:hasAttachment, jeromedl:hasBookType, jeromedl:hasCollectionOrder, jeromedl:hasCollectionSpecification, jeromedl:hasCollectionType, jeromedl:hasContext, jeromedl:hasCopyrightsOwner, jeromedl:hasCover, jeromedl:hasCurrentVersion, jeromedl:hasDescription, jeromedl:hasFileSize, jeromedl:hasInvocationParam, jeromedl:hasMimeType, jeromedl:hasNumberOfPages, jeromedl:hasPages, jeromedl:hasPart, jeromedl:hasParts, jeromedl:hasPosition, jeromedl:hasPreviousVersion, jeromedl:hasRepresentation, jeromedl:hasSimplerRepresentation, jeromedl:hasSpecification, jeromedl:hasSubmissionStatus, jeromedl:hasUploadDate, jeromedl:hasVersionComment, jeromedl:hasVersionCreator, jeromedl:hasVersionDate, jeromedl:hasVersionNumber, jeromedl:invokesService, jeromedl:isPeerReviewed, jeromedl:isPreprintVersion, jeromedl:isScaledToFit, jeromedl:isSizeWithSubCollections, jeromedl:isUnion, jeromedl:isUploadedBy, jeromedl:isVisible, jeromedl:publishedAt iii Bản thể luận FOAFRealm Để quản lí hồ sơ ngƣời dùng, JeromeDL sử dụng bản thể luận FOAFRealm FOAFTRealm là sự cải tiến FOAF với nhiều khái niệm cho phù hợp với mạng xã hội gắn liền với các siêu dữ liệu thƣ viện Chi tiết FOAFRealm có thể xem tại [15] JeromeDL đã tận dụng lợi tối đa mạng xã hội việc hỗ trợ ngƣời dùng Ngƣời dùng có thể tạo bookmarks các tài liệu, bình luận gợi ý cho ngƣời các tài liệu thuộc lĩnh vực mà họ quan tâm, và những ngƣời bạn họ có thể tham chiếu đến 47 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Resource Marcont:hasCreator creator_A xfoaf:isln xfoaf:Annotation xfoaf:Directory foaf:knows xfoaf:owns xfoaf:linksTo foaf:knows creator_B foaf:knows user_D user_C Hình 3.5 Mạng xã hợi JeromeDL 3.3 Truy vấn JeromeDL Thuật toán tìm kiếm JeromeDL bao gồm ba bƣớc chình, đƣợc mơ tả nhƣ hình 3.6 Trong bƣớc yêu cầu các siêu dữ liệu khác [7]: Bước A: Đầu tiên là tìm kiếm qua tập chỉ mục nội dung tài nguyên và nội dung chú giải ngƣời Bước B: Tìm kiếm các mô tả biểu ghi thƣ mục Bước C: Bƣớc cuối là tìm kiếm theo ngữ nghĩa với định hƣớng ngƣời dùng, bƣớc này dựa mô tả ngữ nghĩa tài nguyên và thông tin sự phân loại 48 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com BibTeX JeromeDL ontology MARC21 B C RESULTS user’s interaction fulltext index A other user’s profiles user’ annotations user’s profiles book contents Extrapolated user's profile other user’s profiles other user’s profiles QUERY Hình 3.6 Các bƣớc truy vấn JeromeDL Thuật toán tìm kiếm JeromeDL đƣợc thiết kế nhằm thỏa mãn các mục tiêu sau [7]: - Các kết quả trả truy vấn có thể không chứa trực tiếp các giá trị câu truy vấn - Các giá trị cấu truy vấn phải đƣợc phân giải dƣới ngữ cảnh ngƣời dùng Các mục tiêu có thể đặt đƣợc việc tổ hợp kĩ thuật tìm kiếm nội dung văn bản, tìm kiếm các biểu ghi thƣ mục, và tìm kiếm ngữ nghĩa dựa mô tả ngữ nghĩa tài nguyên Giai đoạn tìm kiếm ngữ nghĩa đƣợc chuẩn bị các truy vấn RDF, ngoài câu truy vấn đƣợc công thêm các thông tin sở thích ngƣời dùng nhằm loại bỏ các kết quả khơng cần thiết Mợt ngƣời dùng có thể chỉ các lĩnh vực mà ngƣời quan tâm hồ sơ mình, thông tin bình luận, chú giải ngƣời dùng các tài nguyên mạng lƣới bạn bè đƣợc sử dụng để tim kiếm Giả mã thuật toán tìm kiếm đƣợc mô tả chi tiết nhƣ dƣới procedure SEMANTIC_SEARCH(QO) : RO 49 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com // – fulltext search – phase A – RO.results ←FULLTEXT_QUERY(QO.fulltext); // – properties search – for each p ∈ QO.properties begin if p.name == ”keyword” then for each v ∈ p.values values ←GET_SIMPLE_FORM(v); end for end if RO ←FIND_RESOURCES(p); end for end procedure SEMANTIC_SEARCH procedure FIND_RESOURCES(property) : RO // – phase B – RO.results ←XMLQ(property, Type.Marc21); RO.results ←RO.results ∨ XMLQ(property, Type.BibTeX); // – phase C – RO.results ←RO.results ∨ RDFQ(property); if not SizeOf(RO.results)∈ then RO ←EXPAND_QUERY(property, RO); end if end procedure FIND_RESOURCES Ở QO là đối tƣợng truy vấn với tên các tḥc tính và giá trị làm tiêu chí tìm kiếm; RO là đới tƣợng kết quả trả Thủ tục FULLTEXT_QUERY (bƣớc A) tìm kiếm các tài nguyên dựa các tập chỉ mục văn bản mang nội dung tài liệu Trƣờng hợp chỉ mục nợi dung khơng tƣơng thích, hệ thớng sẽ tìm kiếm các lời bình luận, chú giải ngƣời dùng Ở bƣớc C, thủ tục RDFQ thực hiện truy vấn vào kho chứa RDF Trƣờng hợp số bản ghi trả (số lƣợng tài liệu) nằm ngoài phạm vi , thủ tục EXPAND_QUERY đƣợc gọi Trƣờng hợp số bản ghi nhỏ giá trị MIN, hệ thống sẽ tìm kiếm dựa các khái niệm tƣơng đƣơng cao hơn, chẳng hạn với mợt từ khóa ngƣời dùng đƣa vào sẽ tìm kiếm mợt miền các từ khóa có nghĩa tƣơng tự (ví dụ: P2P ~ Mạng chia sẻ ~ Mạng đồng đẳng) Trƣờng hợp số bản ghi lớn giá trị MAX, hệ thống sẽ loại bỏ tài nguyên mà có các khái niệm tƣơng đƣơng, lấy các kết quả mức thấp phân loại [7] JeromeDL cung cấp một sở hạ tầng truyền thông cho các hệ thống khác truy nhập vào hệ thống JeromeDL dựa giao thức SOAP, sử dụng Web 50 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com services để xây dựng một mạng chia sẻ ngang hàng P2P cho phép JeromeDL kết nối với các dịch vụ khác 3.4 Sử dụng JeromeDL JeromeDL chia đối tƣợng sử dụng thành bốn loại khác nhau: - Ngƣời dùng khơng đăng kí: Đới tƣợng loại này khơng có hồ sơ CSDL hệ thớng Họ có thể dụt và tìm kiếm tài liệu, nhƣng khơng thể sử dụng các chức nhƣ tạo bookmarks - Ngƣời dùng đã đăng kí (thành viên): Đới tƣợng này có mợt tài khoản CSDL và đƣợc quản lí bản thể luận FOAFRealm - Các nhóm ngƣời dùng: Là tập hợp các thành viên mợt nhóm liên kết nào Các thành viên nhóm này có thể xuất bản các tài liệu lên thƣ viện - Quản trị hệ thớng: Đây là các thành viên có quyền lực cao nhất hệ thớng Họ có sử dụng tất cả các chức hệ thống, chẳng hạn phê duyệt các tài liệu, đánh lại chỉ mục, làm CSDL, cấu hình mạng, v.v Hệ thống JeromeDL cung cấp cho ngƣời dùng các kiểu tìm kiếm sau: - Tìm kiếm đơn giản dựa từ khóa - Tìm kiếm nâng cao dựa các biểu ghi thƣ mục - Tìm kiếm ngữ nghĩa: ngƣời dùng có thể cung cấp trực tiếp câu truy vấn RDF sử dụng các mẫu truy vấn có sẵn, chẳng hạn: ―Show me all resources written by a friends of mine‖ (Liệt kê tất cả các tài liệu đƣợc viết bạn tôi) 51 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hình 3.7 Giao diện chức tìm kiếm ngữ nghĩa Sau tìm kiếm kết quả, có thể hiển thị tài liệu việc chọn một kết quả từ danh sách trả về, sau có thể đánh giá, tạo bookmarks Để xuất bản tài liệu, ngƣời dùng chọn tài liệu cần xuất bản và cung cấp các thông tin (các siêu dữ liệu) mà JeromeDL đề xuất Hình 3.8 Giao diện chức xuất bản tài liệu 52 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kết luận Trong chƣơng này đã giới thiệu hệ thống thƣ viện số ngữ nghĩa JeromeDL Đây là một hệ thống phần mềm mã nguồn mở cung cấp khá đầy đủ các chức một thƣ viện số ngữ nghĩa JeromeDL xây dựng ba loại bản thể luận: Bản thể luận các biểu ghi thƣ mục MarcOnt, Bản thể luận cấu trúc nội dung tài liệu, Bản thể luận FOAFRealm quản lí các thành viên mạng xã hội Dựa các bản thể luận này, cho phép xây dựng nên một công cụ tìm kiếm ngữ nghĩa (bao gồm cả tìm kiếm theo từ khóa dựa chỉ mục) 53 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com KẾT LUẬN VÀ HƢỚNG PHÁ T TRIỂN Web ngữ nghĩa đời đã đánh dấu một bƣớc phát triển cơng nghệ Web, tạo mợt cách thức việc tiếp cận thông tin Tuy nhiên việc ứng dụng Web ngữ nghĩa vào cách lĩnh vực cụ thể vẫn còn nhiều thách thức, và cần sự hỗ trợ những lĩnh vực chuyên ngành khác Luận văn này đã trình bày một ứng dụng điển hình và cụ thể nhất Web ngữ nghĩa là thƣ viện sớ ngữ nghĩa Tuy chƣa bao hàm đƣợc hết các vấn đề, song từ những kết quả đặt đƣợc có thể rút mợt sớ kết luận: Web ngữ nghĩa cung cấp một chế cho phép máy tính ―hiểu‖ và xử lí đƣợc các thông tin Thƣ viện số ngữ nghĩa là sự kết hợp công nghệ Web ngữ nghĩa và Web 2.0 Bằng cách tích hợp ngữ nghĩa vào các thƣ viện số làm cho thƣ viện số ngữ nghĩa có nhiều ƣu điểm trợi so với các thƣ viện khác, hỗ trợ chế tìm kiếm ngữ nghĩa và chia sẻ các tài nguyên với hệ thống khác một cách thuận lợi Các biểu ghi thƣ mục là một những siêu dữ liệu quan trọng, việc xây dựng Bản thể luận cho các biểu ghi thƣ mục là vấn đề then chốt việc xây dựng thƣ viện số ngữ nghĩa Mạng xã hợi với nhƣng ƣu nó, tích hợp vào các thƣ viện số làm cho thƣ viện không chỉ đơn là nơi cung cấp thông tin một chiều mà là nơi tạo các nhóm liên kết, chia sẻ và tạo tri thức, thúc đẩy sự phát triển tổ chức Trong luận văn này chỉ dừng lại mức bao quát một ứng dụng thƣ viện số ngữ nghĩa, kế thừa từ mô hình thƣ viện số ngữ nghĩa đã đề cập, có thể chỉ mợt sớ vấn đề còn tồn đọng cần đƣợc phát triển: - Xây dựng các bản thể luận mạnh việc biểu diễn ngữ nghĩa các tài liệu, chẳng hạn bản thể luận nội dung tài liệu Tăng cƣờng khả suy luận ngữ nghĩa 54 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com - Áp dụng kĩ tḥt xử lí ngơn ngữ tự nhiên việc phân tích câu truy vấn một cách đầy đủ - Xây dựng mạng xã hội ảo có sự tƣơng tác cao, phát huy đƣợc sức mạnh cá nhân việc chia sẻ tri thức cho cộng đồng thông qua thƣ viện 55 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÀI LIỆU THAM KHẢO Tiếng Việt Hà Quang Thụy , Phan Xuân Hiế u , Đoàn Sơn, Nguyễn Trí Thành , Nguyễn Thu Trang, Nguyễn Cẩ m Tú (2009) ―Giáo trình khai phá dƣ̃ liê ̣u Web‖ Nhà xuấ t bản Giáo dục Việt Nam Nguyễn Thị Mỹ Trang, Hoàng Hữu Hạnh (2009) ―Xây dựng Ontology cho thƣ viện số‖ Tạp chí Khoa học, Đại học Huế, Sớ 53 Tiếng Anh H Peter Alesso, Craig F Smith (2006) ―Thinking on the Web: Berners-Lee, Godel and Turing‖ John Wiley & Sons, Inc Thomas B Passin (2004) ―Explorer‘s Guide to the Semantic Web‖ Manning Publications Co Grigoris Antoniou, Frank van Harmelen (2008) ―A Semantic Web Primer‖ Massachusetts Institute of Technology Sebastian Ryszard Kruk, Bill McDaniel (2009) ―Semantic Digital Libraries‖ Springer Sebastian Ryszard Kruk (2005) ―JeromeDL – A Digital Library on the Semantic Web‖ Digital Enterprise Research Institute Sebastian Ryszard Kruk, Bernhard Haslhofer, Piotr Piotrowski, Adam Westerski, Tomasz Woroniecki (2006) ―Role of Ontologies in Semantic Digital Libraries‖ NKOS Workshop Sebastian R Kruk, Stefan Decker, Bernhard Haslhofer, Predrag Kneževic, Sandy Payette, Dean Krafft (2007) ―Tutorial – Semantic Digital Libraries‖ DERI NUI Galway, University of Vienna, Fraunhofer IPSI, Cornell University 10 Sebastian Ryszard Kruk, Stefan Decker, Lech Zieborak (2005) ―JeromeDL Adding Semantic Web Technologies to Digital Libraries ‖ Digital Enterprise Research Institute , NUI Galway, Ireland 56 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 11 Sebastian Ryszard Kruk, Tomasz Woroniecki, Adam Gzella, Maciej Dąbrowski (2005) ―JeromeDL – a Semantic Digital Library‖ Digital Enterprise Research Institute , NUI Galway, Ireland 12 Sebastian Ryszard Kruk, Mariusz Cygan, Ewelina Kruk, Sławomir, Grzonkowski, Tomasz Woroniecki (2007) ―JeromeDL 2.0.1 User Guide ‖ Digital Enterprise Research Institute , NUI Galway, Ireland Internet 13 http://semanticweb.org 14 http://www.w3schools.com/semweb/default.asp 15 http://semdl.info/ 16 http://www.jeromedl.org 17 http://xmlns.com/foaf/spec/ 57 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... cảnh ứng dụng Web có ngữ nghĩa Chia sẻ sự hiểu biết chung giữa các ứng dụng và ngƣời Cho phép sử dụng lại tri thức Ví dụ, mợt bản thể ḷn đã đƣơ ̣c phát triển các ứng dụng. .. TỔNG QUAN VỀ WEB NGƢ̃ NGHĨA Trong chƣơng này , sẽ giới thiệu công nghệ bản đƣợc sử dụng luận văn, bao gồ m đinh ̣ nghiã về web ngƣ̃ nghiã , nhƣ̃ng nồ lƣ̣c viê ̣c xây dƣ̣ng web ngƣ̃ nghiã... là web ngƣ̃ nghiã Web ngƣ̃ nghiã có thể đƣơ ̣c xem là sƣ̣ mở rô ̣ng của web hiê ̣n ta ̣i Web ngƣ̃ nghiã không phải là Trí tuê ̣ nhân ta ̣o , nhƣng có thể xem là mô ̣t da ̣ng web