Các bƣớc trong truy vấn JeromeDL

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Ứng dụng Web ngữ nghĩa trong lưu trữ và quản lí các tài liệu số (Trang 58)

Thuật toán tìm kiếm trong JeromeDL đƣợc thiết kế nhằm thỏa mãn các mục tiêu sau [7]:

- Các kết quả trả về của truy vấn có thể không chứa trực tiếp các giá trị trong câu truy vấn

- Các giá trị trong cấu truy vấn phải đƣợc phân giải dƣới ngữ cảnh ngƣời dùng. Các mục tiêu trên có thể đặt đƣợc bởi việc tổ hợp của kĩ thuật tìm kiếm trên nội dung văn bản, tìm kiếm trên các biểu ghi thƣ mục, và tìm kiếm ngữ nghĩa dựa trên mô tả ngữ nghĩa của tài nguyên. Giai đoạn tìm kiếm ngữ nghĩa đƣợc chuẩn bị bởi các truy vấn RDF, ngoài ra câu truy vấn đƣợc công thêm các thông tin về sở thích của ngƣời dùng nhằm loại bỏ các kết quả không cần thiết. Một ngƣời dùng có thể chỉ ra các lĩnh vực mà ngƣời đó quan tâm trong hồ sơ của mình, các thông tin bình luận, chú giải của ngƣời dùng trên các tài nguyên của mạng lƣới bạn bè cũng đƣợc sử dụng để tim kiếm.

// – fulltext search – phase A –

RO.results ←FULLTEXT_QUERY(QO.fulltext); // – properties search –

for each p ∈ QO.properties do

begin

if p.name == ”keyword” then

for each v ∈ p.values do

values ←GET_SIMPLE_FORM(v);

end for

end if

RO ←FIND_RESOURCES(p);

end for

end procedure SEMANTIC_SEARCH

procedure FIND_RESOURCES(property) : RO

// – phase B –

RO.results ←XMLQ(property, Type.Marc21);

RO.results ←RO.results ∨ XMLQ(property, Type.BibTeX);

// – phase C –

RO.results ←RO.results ∨ RDFQ(property);

if not SizeOf(RO.results)∈<Const.MIN, Const.MAX> then

RO ←EXPAND_QUERY(property, RO);

end if

end procedure FIND_RESOURCES

Ở đây QO là đối tƣợng truy vấn với tên các thuộc tính và giá trị của nó làm tiêu chí tìm kiếm; RO là đối tƣợng kết quả trả về. Thủ tục FULLTEXT_QUERY (bƣớc A) tìm kiếm các tài nguyên dựa trên các tập chỉ mục văn bản mang nội dung tài liệu. Trƣờng hợp chỉ mục nội dung không tƣơng thích, hệ thống sẽ tìm kiếm trong các lời bình luận, chú giải của ngƣời dùng. Ở bƣớc C, thủ tục RDFQ thực hiện truy vấn vào kho chứa RDF. Trƣờng hợp số bản ghi trả về (số lƣợng tài liệu) nằm ngoài phạm vi <MIN, MAX>, thủ tục EXPAND_QUERY đƣợc gọi. Trƣờng hợp số bản ghi nhỏ hơn giá trị MIN, hệ thống sẽ tìm kiếm dựa trên các khái niệm tƣơng đƣơng hoặc cao hơn, chẳng hạn với một từ khóa ngƣời dùng đƣa vào sẽ tìm kiếm trong một miền các từ khóa có nghĩa tƣơng tự nhau (ví dụ: P2P ~ Mạng chia sẻ ~ Mạng đồng đẳng). Trƣờng hợp số bản ghi lớn hơn giá trị MAX, hệ thống sẽ loại bỏ các tài nguyên mà có các khái niệm tƣơng đƣơng, hoặc lấy các kết quả ở mức thấp hơn trong cây phân loại [7].

JeromeDL cũng cung cấp một cơ sở hạ tầng truyền thông cho các hệ thống khác truy nhập vào hệ thống. JeromeDL dựa trên giao thức SOAP, sử dụng Web

services để xây dựng một mạng chia sẻ ngang hàng P2P cho phép JeromeDL kết nối với các dịch vụ khác.

3.4. Sử dụng JeromeDL

JeromeDL chia đối tƣợng sử dụng thành bốn loại khác nhau:

- Ngƣời dùng không đăng kí: Đối tƣợng loại này không có hồ sơ trong CSDL của hệ thống. Họ có thể duyệt và tìm kiếm tài liệu, nhƣng không thể sử dụng các chức năng nhƣ tạo bookmarks.

- Ngƣời dùng đã đăng kí (thành viên): Đối tƣợng này có một tài khoản trong CSDL và đƣợc quản lí trong bản thể luận FOAFRealm.

- Các nhóm ngƣời dùng: Là tập hợp các thành viên trong một nhóm liên kết nào đó. Các thành viên trong nhóm này có thể xuất bản các tài liệu lên thƣ viện.

- Quản trị hệ thống: Đây là các thành viên có quyền lực cao nhất trong hệ thống. Họ có sử dụng tất cả các chức năng trong hệ thống, chẳng hạn phê duyệt các tài liệu, đánh lại chỉ mục, làm mới CSDL, cấu hình mạng, v.v...

Hệ thống JeromeDL cung cấp cho ngƣời dùng các kiểu tìm kiếm sau: - Tìm kiếm đơn giản dựa trên từ khóa

- Tìm kiếm nâng cao dựa trên các biểu ghi thƣ mục

- Tìm kiếm ngữ nghĩa: ngƣời dùng có thể cung cấp trực tiếp câu truy vấn RDF hoặc sử dụng các mẫu truy vấn có sẵn, chẳng hạn: ―Show me all resources written by a friends of mine‖ (Liệt kê tất cả các tài liệu đƣợc viết bởi bạn tôi)

Hình 3.7. Giao diện chức năng tìm kiếm ngữ nghĩa

Sau khi tìm kiếm kết quả, có thể hiển thị tài liệu bởi việc chọn một kết quả từ danh sách trả về, sau đó có thể đánh giá, tạo bookmarks.

Để xuất bản tài liệu, ngƣời dùng chọn tài liệu cần xuất bản và cung cấp các thông tin (các siêu dữ liệu) mà JeromeDL đề xuất.

Kết luận

Trong chƣơng này đã giới thiệu về hệ thống thƣ viện số ngữ nghĩa JeromeDL. Đây là một hệ thống phần mềm mã nguồn mở cung cấp khá đầy đủ các chức năng của một thƣ viện số ngữ nghĩa. JeromeDL xây dựng ba loại bản thể luận: Bản thể luận về các biểu ghi thƣ mục MarcOnt, Bản thể luận về cấu trúc nội dung tài liệu, Bản thể luận FOAFRealm quản lí các thành viên trong mạng xã hội. Dựa trên các bản thể luận này, cho phép xây dựng nên một công cụ tìm kiếm ngữ nghĩa (bao gồm cả tìm kiếm theo từ khóa dựa trên chỉ mục).

KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN

Web ngữ nghĩa ra đời đã đánh dấu một bƣớc phát triển mới trong công nghệ Web, nó tạo ra một cách thức mới trong việc tiếp cận thông tin. Tuy nhiên việc ứng dụng Web ngữ nghĩa vào cách lĩnh vực cụ thể vẫn đang còn nhiều thách thức, và cần sự hỗ trợ của những lĩnh vực chuyên ngành khác nhau. Luận văn này đã trình bày về một ứng dụng điển hình và cụ thể nhất của Web ngữ nghĩa đó là thƣ viện số ngữ nghĩa. Tuy chƣa bao hàm đƣợc hết các vấn đề, song từ những kết quả đặt đƣợc có thể rút ra một số kết luận:

 Web ngữ nghĩa cung cấp một cơ chế cho phép máy tính ―hiểu‖ và xử lí đƣợc các thông tin.

 Thƣ viện số ngữ nghĩa là sự kết hợp của công nghệ Web ngữ nghĩa và Web 2.0. Bằng cách tích hợp ngữ nghĩa vào các thƣ viện số làm cho thƣ viện số ngữ nghĩa có nhiều ƣu điểm nổi trội so với các thƣ viện khác, nó hỗ trợ cơ chế tìm kiếm ngữ nghĩa và chia sẻ các tài nguyên với các hệ thống khác một cách thuận lợi.

 Các biểu ghi thƣ mục là một trong những siêu dữ liệu quan trọng, việc xây dựng Bản thể luận cho các biểu ghi thƣ mục là vấn đề then chốt trong việc xây dựng thƣ viện số ngữ nghĩa.

 Mạng xã hội với nhƣng ƣu thế của nó, khi tích hợp vào các thƣ viện số làm cho thƣ viện không chỉ đơn thuần là nơi cung cấp thông tin một chiều mà là nơi tạo ra các nhóm liên kết, cùng nhau chia sẻ và tạo ra tri thức, thúc đẩy sự phát triển của tổ chức.

Trong luận văn này mới chỉ dừng lại ở mức bao quát về một ứng dụng thƣ viện số ngữ nghĩa, kế thừa từ mô hình thƣ viện số ngữ nghĩa đã đề cập, có thể chỉ ra một số vấn đề còn tồn đọng cần đƣợc phát triển:

- Xây dựng các bản thể luận mạnh hơn trong việc biểu diễn ngữ nghĩa của các tài liệu, chẳng hạn bản thể luận về nội dung tài liệu. Tăng cƣờng khả năng suy luận ngữ nghĩa

- Áp dụng kĩ thuật xử lí ngôn ngữ tự nhiên trong việc phân tích câu truy vấn một cách đầy đủ.

- Xây dựng mạng xã hội ảo có sự tƣơng tác cao, phát huy đƣợc sức mạnh của từng cá nhân trong việc chia sẻ tri thức cho cộng đồng thông qua thƣ viện.

TÀI LIỆU THAM KHẢO Tiếng Việt

1. Hà Quang Thụy , Phan Xuân Hiếu , Đoàn Sơn, Nguyễn Trí Thành , Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009). ―Giáo trình khai phá dƣ̃ liê ̣u Web‖ . Nhà xuất bản Giáo dục Việt Nam.

2. Nguyễn Thị Mỹ Trang, Hoàng Hữu Hạnh (2009). ―Xây dựng Ontology cho thƣ viện số‖. Tạp chí Khoa học, Đại học Huế, Số 53.

Tiếng Anh

3. H. Peter Alesso, Craig F. Smith (2006). ―Thinking on the Web: Berners-Lee, Godel and Turing‖. John Wiley & Sons, Inc.

4. Thomas B. Passin (2004). ―Explorer‘s Guide to the Semantic Web‖. Manning Publications Co.

5. Grigoris Antoniou, Frank van Harmelen (2008). ―A Semantic Web Primer‖. Massachusetts Institute of Technology.

6. Sebastian Ryszard Kruk, Bill McDaniel (2009). ―Semantic Digital Libraries‖. Springer.

7. Sebastian Ryszard Kruk (2005). ―JeromeDL – A Digital Library on the Semantic Web‖. Digital Enterprise Research Institute

8. Sebastian Ryszard Kruk, Bernhard Haslhofer, Piotr Piotrowski, Adam Westerski, Tomasz Woroniecki (2006). ―Role of Ontologies in Semantic Digital Libraries‖. NKOS Workshop.

9. Sebastian R. Kruk, Stefan Decker, Bernhard Haslhofer, Predrag Kneževic, Sandy Payette, Dean Krafft (2007). ―Tutorial – Semantic Digital Libraries‖. DERI NUI Galway, University of Vienna, Fraunhofer IPSI, Cornell University.

10. Sebastian Ryszard Kruk, Stefan Decker, Lech Zieborak (2005). ―JeromeDL - Adding Semantic Web Technologies to Digital Libraries ‖. Digital Enterprise Research Institute, NUI Galway, Ireland.

11. Sebastian Ryszard Kruk, Tomasz Woroniecki, Adam Gzella, Maciej Dąbrowski (2005). ―JeromeDL – a Semantic Digital Library‖. Digital Enterprise Research Institute, NUI Galway, Ireland.

12. Sebastian Ryszard Kruk, Mariusz Cygan, Ewelina Kruk, Sławomir, Grzonkowski, Tomasz Woroniecki (2007). ―JeromeDL 2.0.1 User Guide ‖. Digital Enterprise Research Institute, NUI Galway, Ireland.

Internet 13. http://semanticweb.org 14. http://www.w3schools.com/semweb/default.asp 15. http://semdl.info/ 16. http://www.jeromedl.org 17. http://xmlns.com/foaf/spec/

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Ứng dụng Web ngữ nghĩa trong lưu trữ và quản lí các tài liệu số (Trang 58)