Bản thể luận trong JeromeDL

Một phần của tài liệu LUẬN VĂN: ỨNG DỤNG WEB NGỮ NGHĨA TRONG LƯU TRỮ VÀ QUẢN LÍ CÁC TÀI LIỆU SỐ docx (Trang 55 - 68)

Trong JeromeDL có 3 loại Bản thể luận, đó là Bản thể luận về các Biểu ghi thư mục, Bản thể luận về cấu trúc của các tài liệu, Bản thể luận FOAFRealm (dựa trên Bản thể luận FOAF, mô tả về mối quan hệ giữa người dùng và sự tương tác của họ với các tài nguyên).

i. Bản thể luận Biểu ghi thư mục

Mục đích chính của việc xây dựng các Bản thể luận Biểu ghi thư mục là để chú giải cho các tài nguyên, vì vậy không cần thiết phải mô tả đầy đủ toàn bộ nội dung của tài liệu. Hiện tại có rất nhiều định dạng cho việc xây dựng các biểu ghi thư mục (Dublin Core, BibTeX, MARC21), JeromeDL đề xuất một Bản thể luận có thể bao quát được toàn bộ các định dạng biểu ghi thư mục khác nhau, đó là MarcOnt. Với MarcOnt ta có thể dễ dàng chuyển đổi qua lại giữa các định dạng, bởi vì nó được kế thừa từ Dublin Core, BibTeX, MARC21.

ha sE

d itor

Hình 3.3. Bản thể luận MarcOnt

Trong JeromeDL để chuyển đổi từ các định dạng biểu ghi thư mục sang dạng ngữ nghĩa cũng bao gồm ba bước chính. Cho ví dụ, để chuyển đổi một biểu ghi thư mục MARC21 sang dạng ngữ nghĩa MartOnt gồm các bước sau: (1) Chuyển các têp

45

tin MARC21 sang định dạng XML, gọi là tệp tin MARC-XML; (2) Chuyển các tệp tin MARC21-XML về dạng RDF (tệp tin MARC-RDF); (3) Chuyển đồ thị RDF tới dạng MartOnt. Các lớp, các thuộc tính và các thể hiện cụ thể của MarcOnt được liệt kê chi tiết như dưới đây.

Bảng 3. Các lớp, thuộc tính, thể hiện của Bản thể luận MarcOnt

Các lớp marcont:AccessMedium, marcont:Article, marcont:Book, marcont:Booklet, marcont:Cluster, marcont:Collection, marcont:Conference, marcont:Coverage,

marcont:DemoSession, marcont:Event, marcont:Faculty, marcont:Inbook, marcont:Incollection,

marcont:Inproceedings, marcont:Institute, marcont:Journal, marcont:Lab, marcont:LightingTalk, marcont:Manual, marcont:Mastersthesis, marcont:Meeting, marcont:Misc, marcont:Organization, marcont:PhDthesis,

marcont:PosterSession, marcont:Presentation, marcont:Proceedings, marcont:PublicationMedium, marcont:Resource, marcont:Review, marcont:ShortTalk, marcont:SocialMedium, marcont:Talk, marcont:Techreport, marcont:Tutorial, marcont:University, marcont:Unpublished, marcont:WebSite, marcont:Workshop

Các thuộc tính marcont:hasAbstract, marcont:hasAddress, marcont:hasAffiliation, marcont:hasAuthor, marcont:hasBeginDate, marcont:hasContents, marcont:hasContributor, marcont:hasCoverage,

marcont:hasCreator, marcont:hasDCMIType, marcont:hasDOI, marcont:hasDate, marcont:hasDescription,

marcont:hasDomain, marcont:hasEdition, marcont:hasEditor, marcont:hasEndDate, marcont:hasHumanCreator,

marcont:hasISBN, marcont:hasISSN, marcont:hasIdentifier, marcont:hasJournal, marcont:hasKeyword,

marcont:hasMonth, marcont:hasNote, marcont:hasNumber, marcont:hasOrder, marcont:hasOrganization, marcont:hasOriginalPublicationMedium, marcont:hasPages, marcont:hasPagesFrom, marcont:hasPagesTo, marcont:hasPublisher, marcont:hasRelatedEvent, marcont:hasReview, marcont:hasReviewDate, marcont:hasReviewer, marcont:hasReviewComment, marcont:hasSchool, marcont:hasSeries, marcont:hasSource, marcont:hasSponsor, marcont:hasTitle, marcont:hasTopic, marcont:hasURL, marcont:hasVolume, marcont:hasYear, marcont:howPublished, marcont:isPartOf, marcont:isPeerOf, marcont:presentedAt, marcont:publishedIn

46

Các thể hiện marcont:IElectronic, marcont:IInternational,

marcont:IInternet, marcont:ILocal, marcont:INational, marcont:IPrinted

ii. Bản thể luận Cấu trúc nội dung

Không chỉ xây dựng các bản thể luận cho các biểu ghi thư mục, JeromeDL cũng xây dựng bản thể luận cho cấu trúc nội dung tài liệu. Cấu trúc của nội dung tài liệu có thể được tổ chức khác nhau tùy theo vào loại tài liệu, ví dụ: một quyển sách có thể được chia thành các chương, một tài liệu video lại được chia thành các phần, các tập khác nhau.

Hình 3.4. Bản thể luận cấu trúc nội dung

JeromeDL cố gắng xây dựng Bản thể luận cấu trúc nội dung một cách uyển chuyển nhất sao cho khi thêm hay bớt một khái niệm không ảnh hưởng đến các dữ liệu đã tồn tại trước đo. Bản thể luận Cấu trúc nội dung cùng với biểu ghi thư mục đã cung cấp một cách nhìn tổng thể trong mô tả các tài liệu và hỗ trợ đây đủ cho việc tìm kiếm.

47

Bảng 4. Các lớp, thuộc tính, thể hiện của Bản thể luận cấu trúc nội dung Các lớp jeromedl:BinaryResource, jeromedl:Chapter,

jeromedl:ComputedResource, jeromedl:Context, jeromedl:DynamicCollection,

jeromedl:DynamicCollectionType, jeromedl:ImageResource, jeromedl:InformationObject, jeromedl:MediaPart,

jeromedl:MediaResource, jeromedl:Page, jeromedl:Part, jeromedl:Resource, jeromedl:ResourceType,

jeromedl:ResourcesAggregationService, jeromedl:SubmissionStatusType

Các thuộc tính jeromedl:actsOn, jeromedl:hasAttachment,

jeromedl:hasBookType, jeromedl:hasCollectionOrder, jeromedl:hasCollectionSpecification, jeromedl:hasCollectionType, jeromedl:hasContext, jeromedl:hasCopyrightsOwner, jeromedl:hasCover, jeromedl:hasCurrentVersion, jeromedl:hasDescription, jeromedl:hasFileSize, jeromedl:hasInvocationParam, jeromedl:hasMimeType, jeromedl:hasNumberOfPages, jeromedl:hasPages, jeromedl:hasPart, jeromedl:hasParts, jeromedl:hasPosition, jeromedl:hasPreviousVersion, jeromedl:hasRepresentation, jeromedl:hasSimplerRepresentation, jeromedl:hasSpecification, jeromedl:hasSubmissionStatus, jeromedl:hasUploadDate, jeromedl:hasVersionComment, jeromedl:hasVersionCreator, jeromedl:hasVersionDate, jeromedl:hasVersionNumber, jeromedl:invokesService, jeromedl:isPeerReviewed, jeromedl:isPreprintVersion, jeromedl:isScaledToFit, jeromedl:isSizeWithSubCollections, jeromedl:isUnion, jeromedl:isUploadedBy, jeromedl:isVisible, jeromedl:publishedAt

iii. Bản thể luận FOAFRealm

Để quản lí hồ sơ người dùng, JeromeDL sử dụng bản thể luận FOAFRealm. FOAFTRealm là sự cải tiến của FOAF với nhiều khái niệm mới cho phù hợp với mạng xã hội gắn liền với các siêu dữ liệu trong thư viện. Chi tiết về FOAFRealm có thể xem tại [15]. JeromeDL đã tận dụng lợi thế tối đa của mạng xã hội trong việc hỗ trợ người dùng. Người dùng có thể tạo ra bookmarks các tài liệu, bình luận gợi ý cho mọi người các tài liệu thuộc lĩnh vực mà họ quan tâm, và những người bạn của họ có thể tham chiếu đến.

48

Hình 3.5. Mạng xã hội trong JeromeDL 3.3. Truy vấn trong JeromeDL

Thuật toán tìm kiếm trong JeromeDL bao gồm ba bước chình, được mô tả như hình 3.6. Trong mỗi bước yêu cầu các siêu dữ liệu khác nhau [7]:

Bước A: Đầu tiên là tìm kiếm qua tập chỉ mục của nội dung tài nguyên và nội dung chú giải của người

Bước B: Tìm kiếm trên các mô tả biểu ghi thư mục.

Bước C: Bước cuối cùng là tìm kiếm theo ngữ nghĩa với định hướng người dùng, bước này dựa trên mô tả ngữ nghĩa về tài nguyên và thông tin về sự phân loại

49

Hình 3.6. Các bước trong truy vấn JeromeDL

Thuật toán tìm kiếm trong JeromeDL được thiết kế nhằm thỏa mãn các mục tiêu sau [7]:

-Các kết quả trả về của truy vấn có thể không chứa trực tiếp các giá trị trong câu truy vấn

-Các giá trị trong cấu truy vấn phải được phân giải dưới ngữ cảnh người dùng. Các mục tiêu trên có thể đặt được bởi việc tổ hợp của kĩ thuật tìm kiếm trên nội dung văn bản, tìm kiếm trên các biểu ghi thư mục, và tìm kiếm ngữ nghĩa dựa trên mô tả ngữ nghĩa của tài nguyên. Giai đoạn tìm kiếm ngữ nghĩa được chuẩn bị bởi các truy vấn RDF, ngoài ra câu truy vấn được công thêm các thông tin về sở thích của người dùng nhằm loại bỏ các kết quả không cần thiết. Một người dùng có thể chỉ ra các lĩnh vực mà người đó quan tâm trong hồ sơ của mình, các thông tin bình luận, chú giải của người dùng trên các tài nguyên của mạng lưới bạn bè cũng được sử dụng để tim kiếm.

Giả mã của thuật toán tìm kiếm được mô tả chi tiết như dưới đây.

50

// – fulltext search – phase A –

RO.results ←FULLTEXT_QUERY(QO.fulltext); // – properties search –

for each p ∈ QO.properties do

begin

if p.name == ”keyword” then

for each v ∈ p.values do

values ←GET_SIMPLE_FORM(v);

end for

end if

RO ←FIND_RESOURCES(p);

end for

end procedure SEMANTIC_SEARCH

procedure FIND_RESOURCES(property) : RO

// – phase B –

RO.results ←XMLQ(property, Type.Marc21);

RO.results ←RO.results ∨ XMLQ(property, Type.BibTeX);

// – phase C –

RO.results ←RO.results ∨ RDFQ(property);

if not SizeOf(RO.results)∈<Const.MIN, Const.MAX> then

RO ←EXPAND_QUERY(property, RO);

end if

end procedure FIND_RESOURCES

Ở đây QO là đối tượng truy vấn với tên các thuộc tính và giá trị của nó làm tiêu chí tìm kiếm; RO là đối tượng kết quả trả về. Thủ tục FULLTEXT_QUERY (bước A) tìm kiếm các tài nguyên dựa trên các tập chỉ mục văn bản mang nội dung

51

tài liệu. Trường hợp chỉ mục nội dung không tương thích, hệ thống sẽ tìm kiếm trong các lời bình luận, chú giải của người dùng. Ở bước C, thủ tục RDFQ thực hiện truy vấn vào kho chứa RDF. Trường hợp số bản ghi trả về (số lượng tài liệu) nằm ngoài phạm vi <MIN, MAX>, thủ tục EXPAND_QUERY được gọi. Trường hợp số bản ghi nhỏ hơn giá trị MIN, hệ thống sẽ tìm kiếm dựa trên các khái niệm tương đương hoặc cao hơn, chẳng hạn với một từ khóa người dùng đưa vào sẽ tìm kiếm trong một miền các từ khóa có nghĩa tương tự nhau (ví dụ: P2P ~ Mạng chia sẻ ~ Mạng đồng đẳng). Trường hợp số bản ghi lớn hơn giá trị MAX, hệ thống sẽ loại bỏ các tài nguyên mà có các khái niệm tương đương, hoặc lấy các kết quả ở mức thấp hơn trong cây phân loại [7].

JeromeDL cũng cung cấp một cơ sở hạ tầng truyền thông cho các hệ thống khác truy nhập vào hệ thống. JeromeDL dựa trên giao thức SOAP, sử dụng Web services để xây dựng một mạng chia sẻ ngang hàng P2P cho phép JeromeDL kết nối với các dịch vụ khác.

3.4. Sử dụng JeromeDL

JeromeDL chia đối tượng sử dụng thành bốn loại khác nhau:

- Người dùng không đăng kí: Đối tượng loại này không có hồ sơ trong CSDL của hệ thống. Họ có thể duyệt và tìm kiếm tài liệu, nhưng không thể sử dụng các chức năng như tạo bookmarks.

- Người dùng đã đăng kí (thành viên): Đối tượng này có một tài khoản trong CSDL và được quản lí trong bản thể luận FOAFRealm.

- Các nhóm người dùng: Là tập hợp các thành viên trong một nhóm liên kết nào đó. Các thành viên trong nhóm này có thể xuất bản các tài liệu lên thư viện.

- Quản trị hệ thống: Đây là các thành viên có quyền lực cao nhất trong hệ thống. Họ có sử dụng tất cả các chức năng trong hệ thống, chẳng hạn phê duyệt các tài liệu, đánh lại chỉ mục, làm mới CSDL, cấu hình mạng, v.v...

Hệ thống JeromeDL cung cấp cho người dùng các kiểu tìm kiếm sau: - Tìm kiếm đơn giản dựa trên từ khóa

52

- Tìm kiếm ngữ nghĩa: người dùng có thể cung cấp trực tiếp câu truy vấn RDF hoặc sử dụng các mẫu truy vấn có sẵn, chẳng hạn: “Show me all resources written by a friends of mine” (Liệt kê tất cả các tài liệu được viết bởi bạn tôi)

Hình 3.7. Giao diện chức năng tìm kiếm ngữ nghĩa

Sau khi tìm kiếm kết quả, có thể hiển thị tài liệu bởi việc chọn một kết quả từ danh sách trả về, sau đó có thể đánh giá, tạo bookmarks.

Để xuất bản tài liệu, người dùng chọn tài liệu cần xuất bản và cung cấp các thông tin (các siêu dữ liệu) mà JeromeDL đề xuất.

53

Hình 3.8. Giao diện chức năng xuất bản tài liệu Kết luận

Trong chương này đã giới thiệu về hệ thống thư viện số ngữ nghĩa JeromeDL. Đây là một hệ thống phần mềm mã nguồn mở cung cấp khá đầy đủ các chức năng của một thư viện số ngữ nghĩa. JeromeDL xây dựng ba loại bản thể luận: Bản thể luận về các biểu ghi thư mục MarcOnt, Bản thể luận về cấu trúc nội dung tài liệu, Bản thể luận FOAFRealm quản lí các thành viên trong mạng xã hội. Dựa trên các bản thể luận này, cho phép xây dựng nên một công cụ tìm kiếm ngữ nghĩa (bao gồm cả tìm kiếm theo từ khóa dựa trên chỉ mục).

54

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Web ngữ nghĩa ra đời đã đánh dấu một bước phát triển mới trong công nghệ Web, nó tạo ra một cách thức mới trong việc tiếp cận thông tin. Tuy nhiên việc ứng dụng Web ngữ nghĩa vào cách lĩnh vực cụ thể vẫn đang còn nhiều thách thức, và cần sự hỗ trợ của những lĩnh vực chuyên ngành khác nhau. Luận văn này đã trình bày về một ứng dụng điển hình và cụ thể nhất của Web ngữ nghĩa đó là thư viện số ngữ nghĩa. Tuy chưa bao hàm được hết các vấn đề, song từ những kết quả đặt được có thể rút ra một số kết luận:

 Web ngữ nghĩa cung cấp một cơ chế cho phép máy tính “hiểu” và xử lí được các thông tin.

 Thư viện số ngữ nghĩa là sự kết hợp của công nghệ Web ngữ nghĩa và Web 2.0. Bằng cách tích hợp ngữ nghĩa vào các thư viện số làm cho thư viện số ngữ nghĩa có nhiều ưu điểm nổi trội so với các thư viện khác, nó hỗ trợ cơ chế tìm kiếm ngữ nghĩa và chia sẻ các tài nguyên với các hệ thống khác một cách thuận lợi.

 Các biểu ghi thư mục là một trong những siêu dữ liệu quan trọng, việc xây dựng Bản thể luận cho các biểu ghi thư mục là vấn đề then chốt trong việc xây dựng thư viện số ngữ nghĩa.

 Mạng xã hội với nhưng ưu thế của nó, khi tích hợp vào các thư viện số làm cho thư viện không chỉ đơn thuần là nơi cung cấp thông tin một chiều mà là nơi tạo ra các nhóm liên kết, cùng nhau chia sẻ và tạo ra tri thức, thúc đẩy sự phát triển của tổ chức.

Trong luận văn này mới chỉ dừng lại ở mức bao quát về một ứng dụng thư viện số ngữ nghĩa, kế thừa từ mô hình thư viện số ngữ nghĩa đã đề cập, có thể chỉ ra một số vấn đề còn tồn đọng cần được phát triển:

- Xây dựng các bản thể luận mạnh hơn trong việc biểu diễn ngữ nghĩa của các tài liệu, chẳng hạn bản thể luận về nội dung tài liệu. Tăng cường khả năng suy luận ngữ nghĩa

55

- Áp dụng kĩ thuật xử lí ngôn ngữ tự nhiên trong việc phân tích câu truy vấn một cách đầy đủ.

- Xây dựng mạng xã hội ảo có sự tương tác cao, phát huy được sức mạnh của từng cá nhân trong việc chia sẻ tri thức cho cộng đồng thông qua thư viện.

56

TÀI LIỆU THAM KHẢO

Tiếng Việt

1. Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009). “Giáo trình khai phá dữ liệu Web”. Nhà xuất bản Giáo dục Việt Nam.

2. Nguyễn Thị Mỹ Trang, Hoàng Hữu Hạnh (2009). “Xây dựng Ontology cho thư viện số”. Tạp chí Khoa học, Đại học Huế, Số 53.

Tiếng Anh

3. H. Peter Alesso, Craig F. Smith (2006). “Thinking on the Web: Berners-Lee, Godel and Turing”. John Wiley & Sons, Inc.

4. Thomas B. Passin (2004). “Explorer’s Guide to the Semantic Web”. Manning Publications Co.

5. Grigoris Antoniou, Frank van Harmelen (2008). “A Semantic Web Primer”. Massachusetts Institute of Technology.

6. Sebastian Ryszard Kruk, Bill McDaniel (2009). “Semantic Digital Libraries”. Springer.

7. Sebastian Ryszard Kruk (2005). “JeromeDL – A Digital Library on the Semantic Web”. Digital Enterprise Research Institute

8. Sebastian Ryszard Kruk, Bernhard Haslhofer, Piotr Piotrowski, Adam Westerski, Tomasz Woroniecki (2006). “Role of Ontologies in Semantic Digital Libraries”. NKOS Workshop.

9. Sebastian R. Kruk, Stefan Decker, Bernhard Haslhofer, Predrag Kneževic, Sandy Payette, Dean Krafft (2007). “Tutorial – Semantic Digital Libraries”. DERI NUI Galway, University of Vienna, Fraunhofer IPSI, Cornell University.

10. Sebastian Ryszard Kruk, Stefan Decker, Lech Zieborak (2005). “JeromeDL - Adding Semantic Web Technologies to Digital Libraries ”. Digital Enterprise Research Institute, NUI Galway, Ireland.

57

11. Sebastian Ryszard Kruk, Tomasz Woroniecki, Adam Gzella, Maciej Dąbrowski (2005). “JeromeDL – a Semantic Digital Library”. Digital Enterprise Research Institute, NUI Galway, Ireland.

12. Sebastian Ryszard Kruk, Mariusz Cygan, Ewelina Kruk, Sławomir, Grzonkowski, Tomasz Woroniecki (2007). “JeromeDL 2.0.1 User Guide ”. Digital Enterprise Research Institute, NUI Galway, Ireland.

Internet 13. http://semanticweb.org 14. http://www.w3schools.com/semweb/default.asp 15. http://semdl.info/ 16. http://www.jeromedl.org 17. http://xmlns.com/foaf/spec/

Một phần của tài liệu LUẬN VĂN: ỨNG DỤNG WEB NGỮ NGHĨA TRONG LƯU TRỮ VÀ QUẢN LÍ CÁC TÀI LIỆU SỐ docx (Trang 55 - 68)