Jena Framework và ngôn ngữ truy vấn dữliệu SPARQL:- 123docz.net

4. Bố cục trình bày của luận văn:

4.3.2. Jena Framework và ngôn ngữ truy vấn dữliệu SPARQL:

Jena Framework[17] được phát triển bởi Apache giúp cho việc xử lý ontology trên java và tích hợp tốt với Sesame sever, đặc biệt Jena hỗ trợ việc truy vấn dữ liệu ontology bằng ngôn ngữ SPARQL rất tốt. Trong luận văn tác giả đã sử dụng Jena và SPARQL để truy vấn dữ liệu lưu trên Sesame để thực hiện việc truy vấn dữ liệu hỗ trợ cho việc tìm kiếm theo ngữ nghĩa. Sau đây là câu truy vấn SPARQL mà tác giả đã dùng cho chương trình:

PREFIXe: <http://www.semanticweb.org/thuong/ontologies/2014/4/untitled- ontology-16#>

SELECT distinct * where {

?TopicWord e:TopicWordHasWord ?TopicWordHasWord. ?TopicWordHasWord e:WordName ?WordName.

?TopicWord e:TopicWordRate ?TopicWordRate.

?TopicWord e:TopicWordHasTopic ?TopicWordHasTopic. ?TopicWordHasTopic e:TopicName ?TopicName.

FILTER (REGEX(STR(?WordName), '"+strSearch+"', 'i')) {

select ?Title ?Link ?WordName ("1" as ?DocumentTopicRate) where{ ?DocumentWordDetail e:HasDocument ?HasDocument.

?HasDocument e:Title ?Title. ?HasDocument e:Link ?Link.

?DocumentWordDetail e:HasWord ?HasWord. ?HasWord e:WordName ?WordName.

FILTER (REGEX(STR(?WordName), '"+strSearch+"', "i")) }

order byDESC(?Rate) ?Title }

union

{select * where{

?DocumentTopic e:DocumentTopicHasTopic ?DocumentTopicHasTopic. ?DocumentTopicHasTopic e:TopicName ?TopicName.

?DocumentTopic e:DocumentTopicRate ?DocumentTopicRate. ?DocumentTopic e:DocumentTopicHasDocument

?DocumentTopicHasDocument.

?DocumentTopicHasDocument e:Link ?Link.

} order byDESC(?DocumentTopicRate) ?Title limit 100 }}order byDESC(?TopicWordRate)

 Trong câu truy vấn trên thực hiện từng bước như sau:

 Đầu tiên ta sẽ tìm những chủ đề chứa các từ mà người dùng cần tìm

 Sau đó ta tiến hành tìm những tài liệu chứa các từ trong chủ đề đó, nếu tài liệu nào chứa những từ đó sẽ được ưu tiên trọng số là 1

 Kế đến là tìm những tài liệu chứa các chủ đề trên có cùng tựa đề và liên kết trang với các tài liệu có chứa các từ mà người dùng nhập vào, và đồng thời để hạn chế số lượng các tài liệu đó bằng cách lấy giới hạn tối đa chỉ 100 tài liệu không chứa từ nhập vào nhưng chứa các chủ đề có chứa các từ đó.

 Sau cùng ta sắp xếp các trọng số của chúng giảm dần để hỗ trợ người xem ưu tiên những kết quả chính xác nhất. Tuy nhiên với cách sắp xếp trọng số giảm dần như trên thì ta đã ưu tiên trọng số của các từ trong chủ đề rồi mới ưu tiên trọng số của các tài liệutrong chủ đềđó .

Jena Framework và ngôn ngữ truy vấn dữliệu SPARQL:

WebCrawler áp dụng cho luận văn:

Tìm hiểu web ngữ nghĩa: