1. Trang chủ
  2. » Mẫu Slide

Tìm kiếm từ khóa dựa trên ngữ nghĩa liên kết

28 382 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 28
Dung lượng 1,03 MB

Nội dung

Tìm kiếm từ khóa dự trên ngữ nghĩa liên kết và ngữ nghĩa suy ra trong tài liệu XML, phân loại các ngữ nghĩa liên kết, mô hình cây XML, thuật toán tìm kiếm từ khóa dựa trên ngữ nghĩa suy ra từ cây XML

Nhóm sinh viên: Nguyễn Đình Tài Phạm Văn Tiệp TÌM KIẾM TỪ KHÓA DỰA TRÊN NGỮ NGHĨA LIÊN KẾT TRONG XML • Kiến thức cơ bản • Ngữ nghĩa liên kết • Ngữ nghĩa suy ra • Liệt kê mô hình Nội dung bài báo 2 Mục đích của bài báo là tìm hiểu cách dùng các nhãn của các tài liệu XML để xác định xem sự xuất hiện của các từ khóa có liên kết với nhau về mặt ngữ nghĩa không. Giới thiệu 3 4 KIẾN THỨC CƠ BẢN • Đồ thị và cây • Đồ thị: là một cặp G = (V,E) với V là tập các điểm, E là tập các cạnh. Một đồ thị có thể là có hướng cũng có thể là vô hướng. • Một đồ thị có gốc là một đồ thị có hướng với nút gốc là nút r, mọi nút v sẽ kết nối tới r bằng các đường có hướng. • Cây: có 2 loại cây • Cây có gốc là một đồ thị có hướng mà các nút v, chỉ có 1 đường có hướng duy nhất từ nút gốc r tới v. • Cây vô hướng là một đồ thị kết nối không trực tiếp mà không có kết nối vòng (và không có gốc) Khi nói đến “cây”, chúng ta ám chỉ đồng thời cả 2 loại trên. Kiến thức cơ bản 5 • O-Graphs (hoặc o-tree) • o-graph là đồ thị có các nút là các đối tượng. Các đối tượng có 1 định danh cho đối tượng đó (kí hiệu oid) và được gán nhãn (label), và có thể có giá trị Kiến thức cơ bản 6 Hình bên mô tả 1 đồ thị có gốc o-graph. Trong đó, các số nguyên được dùng làm oid, mỗi nút có 1 nhãn và các lá đều có giá trị • L-Graphs (hoặc l-tree) • l-graph là đồ thị có các nút là các nhãn (label). Kiến thức cơ bản 7 Hình bên mô tả đồ thị có gốc l-graph S1, 2 cây có gốc l-tree C1, C2 và cây vô hướng l-tree C3. • Một đồ thị có gốc o-graph D đồng dạng (conform) với đồ thị có gốc l-graph S nếu: • Với r là gốc của D thì l(r) là gốc của S và • Nếu (o1, o2) là 1 cạnh của D thì (l(o1), l(o2)) là một cạnh của S Ví dụ, D1 đồng dạng với S1 • Cây có gốc o-tree T đồng hình (isomorphic) với cây có gốc l-tree C nếu T được dán nhãn một cách duy nhất, các nhãn của T chính là các nút của C và T đồng dạng với C Ví dụ, cây con có gốc của D1 chứa 3 đối tượng 4, 5, 6 đồng hình với C1 Kiến thức cơ bản 8 • Tài liệu và lược đồ • Một tài liệu là một đồ thị có gốc o-graph và một lược đồ là một đồ thị có gốc l-graph • D1 là một tài liệu còn S1 là một lược đồ Kiến thức cơ bản 9 10 NGỮ NGHĨA LIÊN KẾT [...]... của O và đồng hình với C Ngữ nghĩa liên kết Ví dụ, 2 mô hình có gốc ({Name,Email}, C1) và ({Name,Email}, C2) mô tả khi 2 đối tượng với nhãn Name và Email có liên kết trong tài liệu D1 Tài liệu D1 Ngữ nghĩa liên kết • Một ngữ nghĩa liên kết là một tập P của các mô hình • Chúng ta nói rằng P là có gốc nếu tất cả các mô hình của nó là có gốc • Theo lý thuyết, một ngữ nghĩa liên kết cũng có thể là hỗn hợp,... là một ngữ nghĩa liên kết Khi đó, O được liên kết bởi P (P-interconnected) nếu P chứa một mẫu p mà các đối tượng O liên kết bởi p trong D Lưu ý: p = (L, C) liên kết các đối tượng O trong D nếu l(O) = L và D có một cây con có gốc T mà T chứa tất cả các đối tượng của O và đồng hình với C NGỮ NGHĨA SUY RA Ngữ nghĩa suy ra • Biểu diễn một cách hoàn chỉnh tất cả các mô hình của một ngữ nghĩa liên kết không... số ngữ nghĩa liên kết mà chúng có thể suy ra tự động từ lược đồ S của tài liệu D cho trước • Có 2 vấn đề trong việc suy ra các ngữ nghĩa liên kết cho lược đồ S: • Liệt kê mô hình (Enumerating Patterns): Tạo ra tất cả các mô hình phù hợp với tập các nhãn chúng ta có, bằng cách ấy ta sẽ có các ngữ nghĩa rõ ràng • Ngữ nghĩa suy ra (Derived Semantics): Suy ra các ngữ nghĩa từ lược đồ S cho trước Ngữ nghĩa. .. (thực tế đây là 2 mô hình nhỏ nhất về mặt cấu trúc duy nhất trong S1) Ngữ nghĩa suy ra • • là tập tất cả các mô hình có gốc nhỏ nhất về mặt cấu trúc Với tài liệu D1 và lược đồ S1, kết quả của truy vấn {Name, Email} của ngữ nghĩa là các cặp (5, 6), (19, 20) và (11,13) Ngữ nghĩa suy ra • So sánh ngữ nghĩa suy ra Biểu đồ Venn cho ngữ nghĩa suy ra LIỆT KÊ MÔ HÌNH Liệt kê mô hình • Cho tài liệu D đồng hình.. .Ngữ nghĩa liên kết • Mô hình • Một mô hình có gốc là một cặp p = (L, C) trong đó L là tập các nhãn và C một cây có gốc l-tree được phát triển từ các nhãn của L Lưu ý, L sẽ bao gồm ít nhất là tất cả các lá của C • Một mô hình xác định khi các đối tượng có các nhãn của L có liên quan với nhau về ngữ nghĩa • Giả sử O là tập các đối tượng xuất hiện trong tài liệu D Một mô hình có gốc p = (L, C) liên kết. .. l-tree chứa cạnh đơn từ Project đến URL • Tương tự với , ngữ nghĩa là tập các mô hình vô hướng có chứa các cây con vô hướng của S Ngữ nghĩa suy ra • • Ngữ nghĩa và có thể có thể làm mất các đối tượng có liên quan tốt chỉ vì chúng hơi xa nhau Ví dụ sẽ không chứa cặp (11, 13) là tập các nhãn {Name, Email} vì mô hình ({Name, Email}, C2) không phải mô hình nhỏ nhất • Chúng ta cần tìm một cách khác để... • • Là tập tất cả các mô hình vô hướng (L, C) với L là tập các nhãn xuất hiện trong S và C là cây con vô hướng của S được phát triển từ L Ngữ nghĩa suy ra • • Ngữ nghĩa liên kết chứa nhiều mô hình có sự tương tác yếu Thường thì các cây nhỏ có mối tương quan mạnh • Ngữ nghĩa chỉ chứa, với mỗi tập các nhãn L, các mô hình (L, C) của mà cây con nhỏ nhất của S có chứa tất cả các nhãn của L Khi đó mỗi mô... Name}, C1) là mô hình nhỏ nhất còn ({Email, Name}, C2) thì không vì cây con C1 nhỏ hơn C2 Ngữ nghĩa suy ra • • Ngữ nghĩa xử lý tốt việc mất mát thông tin: Xét tài liệu D1 và lược đồ S1, • Trong S1 có một đường thẳng kết nối từ Project tới URL và nó bị mất trong D1 • Điều này có thể nhận ra bởi đó là không có kết nối từ đối tượng 10 tới một đối tượng nào được dán nhãn URL bởi vì mô hình có gốc nhỏ nhất... các ngữ nghĩa từ lược đồ S cho trước Ngữ nghĩa suy ra • • Cho 1 tài liệu D đồng dạng với 1 lược đồ S thi ngữ nghĩa liên kết bao gồm tất cả các mẫu (L, C) mà L là tập các nhãn xuất hiện trong S và C là một cây con có gốc của S được phát triển từ L • Dễ nhận thấy là nếu O là tập các đối tượng liên kết bởi trong D khi và chỉ khi D có 1 cây con có gốc T được dán nhãn duy nhất mà chứa O • • Là tập tất cả... cạnh đi ra từ nút đó trong τ • Với tất cả các cạnh e = (u, v) ∈ Eτ thì trọng số wτ(e) bằng với trọng số của đường đi ngắn nhất từ u tới v trong G Hình bên mô tả một đồ thị G1 và 3 hình trạng của {u, v, w} Hình trạng τ1 là nhỏ nhất Liệt kê mô hình • Thuật toán tìm cây Steiner sẽ sử dụng hàm đệ quy MaterializeTopology(G, τ) để tìm ra các cây con nhỏ nhất • Tất cả các hình trạng U của G sẽ được tìm ra trong

Ngày đăng: 24/05/2015, 01:42

TỪ KHÓA LIÊN QUAN

w