Khoảng cách Google và tính chất

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu một số mô hình học ontology và ứng dụng trong miền dầu khí (Trang 45 - 48)

1.3. ĐỘ ĐO KHOẢNG CÁCH GOOGLE

1.3.3. Khoảng cách Google và tính chất

R. Cilibrasi và P. M. B. Vitányi [16] đề xuất các độ đo khoảng cách Google, thay thế các độ đo khoảng cách nén trong việc xấp xỉ khoảng cách thông tin. Thay vì sử dụng các hàm nén trong các độ đo khoảng cách nén, các độ đo khoảng cách Google sử dụng thông tin được cung cấp từ hệ thống tìm kiếm Google. Sau này, khái niệm “khoảng cách Google” được mở rộng thành “khoảng cách Web” [50], [17], [20].

1.3.3.1. Xác suất Google đối với một xâu và một cặp xâu

Gọi S là tập các từ khóa tìm kiếm đơn, khi đó tập các cặp từ khóa tìm kiếm là {(𝑥, 𝑦): 𝑥, 𝑦𝜖 𝑆} . Gọi Ω là tập các trang web được Google lập chỉ mục, khi đó, số lượng các trang web được Google lập chỉ mục là M = |Ω|. Giả sử rằng

(một cách lý tưởng) các trang web này có xác suất được tìm thấy là như nhau và bằng 1/M. Mỗi tập con của tập Ω được gọi là một biến cố.

Với mỗi từ khóa tìm kiếm đơn x, Google sẽ trả lại một tập các trang chứa

x như một biến cố ex. Xác suất của biến cố ex là: L(ex) = | ex |/M , trong đó |ex| là số lượng trang web kết quả trả về theo từ khóa tìm kiếm x. Với hai từ khóa tìm kiếm x y, xác suất của cặp biến cố ex ey được tính là 𝐿(𝑒𝑥 ∩ 𝑒𝑦 ) = |𝑒𝑥 ∩ 𝑒𝑦 |/𝑀là xác suất tìm trang web mà có cả x y xuất hiện.

1.3.3.2. Ngữ nghĩa Google

Định nghĩa 1.6 ([16], [50]). Ngữ nghĩa Google của một từ khóa x là biến cố ex

tương ứng với tập tất cả các trang web trả về từ máy tìm kiếm Google theo truy vấn x. Ngữ nghĩa Google của x thể hiện tất cả các ngữ cảnh có liên quan trực tiếp đến x.

Lưu ý rằng, một trang web dù không chứa từ khóa tìm kiếm x vẫn có thể chứa nội dung liên quan tới từ khóa x, chẳng hạn như các trang web có chỉ dẫn (được chỉ dẫn) trực tiếp tới (từ) các trang web thuộc ex có thể chứa ngữ cảnh liên quan tới x. Các trang web như vậy được gọi là có ngữ cảnh gián tiếp liên quan đến x. Dù ngữ cảnh gián tiếp cũng quan trọng khi tìm kiếm ngữ nghĩa, tuy nhiên, ngữ cảnh gián tiếp không được xem xét ở đây.

Xác suất của các biến cố như giới thiệu trên đây cũng được sử dụng để xác định xác suất trên tập {(𝑥, 𝑦): 𝑥, 𝑦𝜖 𝑆}các cặp từ khóa tìm kiếm. Như vậy, có

|S| các từ khóa tìm kiếm đơn và 𝐶|𝑆|2 các cặp từ khóa tìm kiếm mà các từ khóa trong mỗi cặp là khác nhau. Chúng ta nhận được

𝑁 = ∑𝑥,𝑦𝑆 |𝑒𝑥 ∩ 𝑒𝑦| (1.10)

là tổng số các trang web tìm được từ hai từ khóa xy bất kỳ trong S. Với 𝑥, 𝑦𝑆và x ≠ y, mỗi trang web z𝜖 𝑒𝑥 ∩ 𝑒𝑦 sẽ được đếm đến ba lần trong các tập 𝑒𝑥, 𝑒𝑥 ∩ 𝑒𝑦 và 𝑒𝑦. Mỗi trang web được Google đánh chỉ mục phải chứa ít nhất một từ khóa tìm kiếm, do đó N ≥ M. Ngược lại, mỗi trang web chứa trung bình α

từ khóa nên cũng nhận được N ≤ α.M.

Định nghĩa 1.7 ([16], [50]). Phân phối xác suất Google g được định nghĩa theo hai công thức (1.11) và (1.12) dưới đây:

g(x, y) = 𝐿(𝑒𝑥 ∩ 𝑒𝑦 )𝑀/𝑁 =|𝑒𝑥 ∩ 𝑒𝑦|/𝑁 (1.11)

𝑔(𝑥) = 𝑔(𝑥, 𝑥), (1.12)

Rõ ràng tổng xác suất ∑𝑥,𝑦𝑆 𝑔(𝑥, 𝑦) = 1.

Định nghĩa 1.8 ([16], [50]). Cho hai xâu x, y. Mã Google G của một xâu và một cặp hai xâu được định nghĩa theo hai công thức (1.13) và (1.14) dưới đây:

G(x, y) = log (1/g(x, y)) (1.13)

G(x) = G(x, x). (1.14)

1.3.3.3. Khoảng cách Google chuẩn hóa và tính chất

Theo R. Cilibrasi và P. M. B. Vitányi [16], M. và P. M. B. Vitányi [50], mã Google G(x) biểu diễn độ dài từ có mã ngắn nhất được mong đợi của biến cố

ex. Giá trị kỳ vọng này nhận được từ phân phối Google g. Do đó, phân phối Google được sử dụng như bộ nén cho ngữ nghĩa Google. Định nghĩa khoảng cách Google chuẩn là kết quả từ các định nghĩa trên đây.

Định nghĩa 1.9. Khoảng cách Google chuẩn hóa NCDG (Normalized Compress Distance) được định nghĩa như sau:

𝑁𝐶𝐷𝐺(𝑥, 𝑦) = (𝐺(𝑥, 𝑦) − min(𝐺(𝑥), 𝐺(𝑦)))/ max(𝐺(𝑥), 𝐺(𝑦)) (1.15) Kết hợp công thức (1.15) với các công thức (1.11) - (1.14) ở trên và thực hiện một số biến đổi đơn giản, nhận được:

𝑁𝐶𝐷𝐺(𝑥, 𝑦) = 𝑚𝑎𝑥 (𝑙𝑜𝑔|𝑒𝑥|, 𝑙𝑜𝑔|𝑒𝑦|) − 𝑙𝑜𝑔|𝑒𝑥 ∩ 𝑒𝑦|

log𝑁 − 𝑚𝑖𝑛(log|𝑒𝑥|, log|𝑒𝑦|) (1.16)

1.3.3.4. Tính chất của độ đo Google

Độ đo Google có hai tính chất điển hình sau đây [16], [17], [20].

Tính chất 1.2. Khoảng giá trị của 𝑁𝐶𝐷𝐺 từ 0 đến 1.0.

- Nếu x=y hoặc x ≠ y nhưng |𝑒𝑥|= |𝑒𝑥 ∩ 𝑒𝑦| = |𝑒𝑦| > 0 thì NCDG (x, y) = 0, tức là x và y có cùng ngữ nghĩa Google.

- Nếu |𝑒𝑥| = 0 thì với mọi từ khóa tìm kiếm y ta luôn có |𝑒𝑥 ∩ 𝑒𝑦| , do đó

NCDG (x, y) = ∞/∞. Trong trường họp này, giá trị của NCDG (x, y) được gán là 1.

Tính chất 1.3.NCDG là một khoảng cách nhưng không là metric.

NCDG luôn không âm và NCDG (x, x) = 0 với mọi từ khóa tìm kiếm x;

NCDGcó tính chất đối xứng. Điều này là hiển nhiên vì theo công thức (6) vai trò của x và y là như nhau.

NCDG không thỏa mãn tính chất tách biệt, tức là NCDG (x, y) > 0 với mọi cặp x ≠ y và NCDG cũng không thỏa mãn tính chất tam giác.

Ví dụ 1.1. Độ đo khoảng cách Google của hai khái niệm "dầu khí" và "chế biến" Kết quả trả về của Google theo các truy vấn tương ứng, có khoảng 7.810.000 trang Web chứa từ khóa "dầu khí", có khoảng 25.400.000 trang Web chứa từ khóa "chế biến" và khoảng 855.000 trang Web chứa đồng thời hai từ khóa "dầu khí" và "chế biến", đồng thời, Google cũng cho biết có khoảng 25.270.000.000 trang Web trong không gian tìm kiếm (số lượng này xuất hiện khi bắt đầu vào trang tìm kiếm Google).

Áp dụng công thức (1.16), nhận được:

NCDG ("dầu khí", "chế biến") = (24,59832516 - 19,70556489)/(34,55670661 - 22,89689112) = 0,419625874.

Tiện ích tính độ đo khoảng cách Google chuẩn hóa trong bộ công cụ CompLearn do Rudi Cilibrasi và cộng sự phát triển6 cho phép tính toán tự động hóa độ đo khoảng cách Google trong các phần mềm ứng dụng.

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu một số mô hình học ontology và ứng dụng trong miền dầu khí (Trang 45 - 48)

Tải bản đầy đủ (PDF)

(150 trang)