Truy vấn gần đúng

Một phần của tài liệu Nghiên cứu phát triển các kỹ thuật xây dựng và khai thác thông tin web có ngữ nghĩa (Trang 110 - 115)

Như với truy vấn chính xác, đồ thị khái niệm cũng được sử dụng làm ngôn ngữ truy vấn gần đúng. Theo kỹ thuật biến đổi truy vấn, một đồ thị khái niệm truy vấn trước tiên được tổng quát hoá bằng cách thay thế các kiểu khái niệm và quan hệ của nó bằng các kiểu cha.

Truy vấn đã được tổng quát hoá này được ánh xạ sang một truy vấn SeRQL tương đương để truy hồi các đồ thị tri thức mà nó bao phủ, tận dụng động cơ so trùng chính xác của Sesame. Tuy nhiên, một sự tổng quát hoá như vậy phải tuân theo đặc tả của các kiểu quan hệ trong truy vấn. Lưu ý là, nếu đồ thị khái niệm [C1]→(R)→[C2] là hợp lệ, thì [C1]→(R')→[C2] với R' là kiểu cha hoặc trên của R cũng hợp lệ.

Từ nhận xét này, với một đồ thị khái niệm truy vấn, tất cả các kiểu quan hệ của nó có thể được thay thế bằng các kiểu cha của chúng. Sau đó, với mỗi quan hệ mới, kiểu của mỗi khái niệm kết nối với nó được thay bằng kiểu cha nếu và chỉ nếu đồ thị khái niệm thu được là hợp lệ. Chú ý rằng, nếu một khái niệm có tham chiếu cá thể, thì kiểu của nó không thay đổi. Ví dụ, giả sử người ta muốn tìm các công ty dịch vụ y tế và chăm sóc sắc đẹp, là doang nghiệp nhà nước (DNNN), đăng kí tại các thành phố cấp một là một phần của quốc gia Việt Nam. Hình 5.3.1 cho thấy đồ thị khái niệm cho truy vấn này và đồ thị tổng quát hoá của nó, với Y_tế_và_chăm_sóc_sức_khỏe, được_định_vị_ở, Đơn_vị_hành_chính_cấp_một tương ứng là các kiểu cha của Dịch_vụ_y_tế_và_chăm_sóc_sắc_đẹp, được_đăng_kí_tại, Thành_phố_cấp_một.

Hình 5.3.1 Một đồ thị khái niệm truy vấn và sự tổng quát hoá của nó

Đối với các thuộc tính trong một đồ thị khái niệm truy vấn, chúng sẽ được thay bằng tham chiếu truy vấn ‘?’ để truy hồi các giá trị thuộc tính tương ứng trong các đồ thị trả lời.

Sau đó, cả các kiểu thực thể và giá trị thuộc tính trong các đồ thị trả lời đó được so trùng với các kiểu thực thể và giá trị thuộc tính tương ứng trong đồ thị truy vấn gốc, cho biết độ so trùng giữa các đồ thị.

Ví dụ, để tìm kiếm chính xác, đồ thị khái niệm truy vấn đã tổng quát hoá trong Hình 5.3.1 có thể được ánh xạ sang truy vấn SeRQL sau:

SELECT x1, z1 FROM

{x1} rdfs:label {z1},

{x1} rdf:type {<www.dit.hcmut.edu.vn/vnkim/vnkimo_rdfs#

Y_tế_và_chăm_sóc_sức_khỏe>}, {x1} <http://www.dit.hcmut.edu.vn/vnkim/vnkimo.rdfs#

loại_hình_doanh_nghiệp> {p1},

{y1} rdf:type {<www.dit.hcmut.edu.vn/vnkim/vnkimo_rdfs#

Đơn_vị_hành_chính_cấp_một>},

{x1} <www.dit.hcmut.edu.vn/vnkim/vnkimo_rdfs#được_định_vị_ở> {y1}, {y1} <www.dit.hcmut.edu.vn/vnkim/vnkimo_rdfs#là_một_phần_của>

{<www.dit.hcmut.edu.vn/vnkim/vnkimkb_rdf#Quốc_gia_1>}

WHERE p1 like “DNNN”.

Để tìm kiếm gần đúng, p1 được thêm vào mệnh đề SELECT, và mệnh đề WHERE được bỏ ra. Chuỗi “DNNN” sẽ được so trùng với giá trị của p1 trong câu trả lời. Hình 5.3.2 trình bày giải thuật tổng quát hoá và dịch một đồ thị khái niệm truy vấn sang các phát biểu SeRQL tương đương.

Generalize the query CG and replace its attribute values by ‘?’

For each relation in the generalized query CG do {

Get all neighbour concepts of the current relation // process each concept sequentially

For each concept do {

If the concept is new // i.e. not processed before {

If the concept referent is ‘?’ or ‘*’

{

If the concept referent is ‘?’

{

Assign to it a variable starting with ‘x’ // e.g., x1, x2, x3, … Assign to it a label variable starting with ‘z’ // e.g., z1, z2, z3, … Append these variables to the SELECT clause

Append the “rdfs:label” statement for this concept to the FROM clause }

If the concept referent is ‘*’

{

Assign to it a variable starting with ‘y’ // e.g., y1, y2, y3, … }

Append the “rdf:type” statement for this concept to the FROM clause

Append the constrained property statements for this concept to the FROM clause Assign to the constrained properties variables starting with ‘p’ // e.g., p1, p2, p3, … Append the property constraints to the WHERE clause

}

If the concept referent is specific, assign to it its identifier as a dummy variable Remember this concept having been processed

}

} // end of process concepts

Assign to the current relation its URI

Append the statement for the current relation with its neighbour concepts to the FROM clause

}

// process the disconnected concept nodes

For each concept that has not been visited yet, process it as above.

.

Hình 5.3.2 Giải thuật tổng quát hoá và dịch đồ thị khái niệm truy vấn sang SeRQL Các đồ thị trả lời cho đồ thị truy vấn đã tổng quát hoá sẽ được so trùng với đồ thi truy vấn gốc để trả về mức độ gần đúng của các câu trả lời, sử dụng các độ bao phủ định nghĩa ở Mục 5.2. Độ bao phủ của một đồ thị tri thức trên một đồ thị khác là trung bình cộng của các độ bao phủ giữa các kiểu khái niệm, kiểu quan hệ và tên thực thể.

Ví dụ, giả sử đồ thị trả lời cho đồ thị truy vấn đã tổng quát hoá ở Hình 5.3.2 như mô tả ở Hình 5.3.3, và Pop(Dịch_vụ_y_tế_và_chăm_sóc_sắc_đẹp) = 21, Pop(Y_tế_và_chăm_sóc_sức_khỏe) = 465, Pop(được_đăng_kí_tại) = 20.121, Pop(được_định_vị_ở) = 88.858. Độ bao phủ của đồ thị truy vấn gốc trên đồ thị trả lời này được tính như sau:

DistS(Dịch_vụ_y_tế_và_chăm_sóc_sắc_đẹp → Y_tế_và_chăm_sóc_sức_khỏe)

= − log(Pop(Dịch_vụ_y_tế_và_chăm_sóc_sắc_đẹp)/Pop(Y_tế_và_chăm_sóc_sức_khỏe)) DistS(được_đăng_kí_tại → được_định_vị_ở)

= − log(Pop(được_đăng_kí_tại)/Pop(được_định_vị_ở)) SubDegree

= (Sub(Dịch_vụ_y_tế_và_chăm_sóc_sắc_đẹp → Y_tế_và_chăm_sóc_sức_khỏe) + Sub(được_đăng_kí_tại → được_định_vị_ở) + 1 + 1 + 1)/5

= (0.0452 + 0.2264 + 1 + 1 + 1)/5

= 0.6543.

Bây giờ, giả sử một đồ thị truy vấn tương tự như đồ thị trả lời ở Hình 5.3.3 và một đồ thị trả lời tương tự như đồ thị truy vấn ở Hình 5.3.1, như vẽ ra ở Hình 5.3.4. Trong trường hợp này, độ bao phủ của đồ thị truy vấn trên đồ thị trả lời bằng 1.

Hình 5.3.3 Một đồ thị trả lời gần đúng

Hình 5.3.4 Một ví dụ khác về đồ thị truy vấn và trả lời

Thành phần truy vấn gần đúng trình bày ở trên cũng đã được tích hợp vào phần mềm soạn thảo truy vấn của VN-KIM. Ví dụ, đồ thị truy vấn được soạn thảo như ở Hình 5.3.5 là để tìm một người là đại biểu quốc hội và có tên là “NÔNG ĐỨC MẠNH”. Bảng

Trả lời:

Truy vấn:

bên dưới cho thấy các kết quả trả lời khác nhau và độ bao phủ tương ứng. Hình 5.3.6 cho thấy cùng một đồ thị truy vấn, nhưng với tìm kiếm chính xác và chỉ có một kết quả trả lời.

Hình 5.3.5 Đồ thị khái niệm truy vấn và tìm kiếm gần đúng

Hình 5.3.6 Đồ thị khái niệm truy vấn và tìm kiếm chính xác

Một phần của tài liệu Nghiên cứu phát triển các kỹ thuật xây dựng và khai thác thông tin web có ngữ nghĩa (Trang 110 - 115)

Tải bản đầy đủ (PDF)

(208 trang)