Phức tạp Kolmogorov, khoảng cách thông tin và khoảng cách

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu một số mô hình học ontology và ứng dụng trong miền dầu khí (Trang 42 - 44)

1.3. ĐỘ ĐO KHOẢNG CÁCH GOOGLE

1.3.1. phức tạp Kolmogorov, khoảng cách thông tin và khoảng cách

tin chuẩn hóa

Định nghĩa 1.1 ([50]). Cho một xâu x X. Độ phức tạp Kolmogorov của xâu x

(được ký hiệu là K(x)) là độ dài tính theo bít của chương trình ngắn nhất sinh ra xâu x trên một hệ thống lập trình được tham chiếu (chẳng hạn, máy Turing phổ dụng).

Như vậy, độ phức tạp Kolmogorov K(x) là giá trị giới hạn dưới về độ dài các chương trình sinh ra x, đó là độ dài của chương trình “lý tưởng” sinh ra xâu x

trong một hệ thống lập trình cụ thể. Theo M. Li và P. Vitányi [50], việc lựa chọn các hệ thống lập trình khác nhau chỉ làm thay đổi giá trị của K(x) theo một hằng số cộng. Điều đó có nghĩa là sự khác biệt độ phức tạp Kolmogorov K(x) giữa hai hệ thống lập trình được tham chiếu chi là một hằng số.

Định nghĩa 1.2 ([50]). Cho hai xâu x, yX. Độ phức tạp Kolmogorov có điều kiện (conditional Kolmogorov complexity) của xâu x so với xâu y

(được ký hiệu là K(x|y)) là độ dài tính theo bít của chương trình ngắn nhất biến đổi xâu y thành xâu x trên một hệ thống lập trình được tham chiếu.

Xâu ghép nối hai xâu x, yX được ký hiệu là <x, y> và độ phức tạp Kolmogorov của xâu ghép nối <x, y> được ký hiệu là K(x,y).

Công thức (1.7) dưới đây biểu thị tính chất “đối xứng thông tin” (symmetry of information) là một tính chất quan trọng trong lý thuyết độ phức tạp Kolmogorov:

K(x, y) = K(x) + K(y|x) = K(y) + K(x|y) (1.7)

Định nghĩa 1.3 ([50]). Cho hai xâu x, y X. Khoảng cách thông tin (Information Distance: ID) giữa hai xâu xy (được ký hiệu là E(x, y)) là độ dài của chương trình ngắn nhất δ chuyển đổi các xâu thuộc X (δ: X X) mà thỏa mãn điều kiện δ(x) = yδ(y) = x.

Khoảng cách thông tin E(x, y) giữa hai xâu x, y được tính theo công thức sau đây ([50]):

E(x, y) = K(x, y) - min{K(x), K(y)} (1.8)

Tính chất 1.1. Khoảng cách thông tin E(x, y) là một metric do thỏa mãn các tính chất sau đây: x, y, z X:

(i) E(x, y) > 0 với x ≠ y và E(x, x) = 0; (ii) E(x, y) = E(y, x);

(iii) E(x, y) + E(y, z) ≥ E(x, z).

Các tính chất (i), (ii), (iii) nhận được trực tiếp từ định nghĩa hoặc từ một suy luận từ công thức (1.7).

quan tâm đến độ dài của các xâu đầu vào x y, dẫn tới nếu có cùng một khoảng cách thông tin, hai xâu nhỏ có thể rất khác nhau trong khi hai xâu lớn lại có thể rất giống nhau. Do đó, khoảng cách thông tin không phản ánh đầy đủ được về sự tương đồng giữa các xâu. Do vậy, việc chuẩn hóa khoảng cách thông tin là cần thiết.

Định nghĩa 1.4 ([50]). Cho hai xâu x, yX. Khoảng cách thông tin chuẩn hóa (Normalized Information Distance: NID) của hai xâu xy, ký hiệu là NID (x, y), là một hàm hai ngôi trên X được chuẩn hóa có dạng

NID: X × X [0,1], có giá trị được tính toán theo công thức sau: 𝑁𝐼𝐷(𝑥, 𝑦) = (𝐾(𝑥, 𝑦) − 𝑚𝑖𝑛(𝐾(𝑥), 𝐾(𝑦)))/ 𝑚𝑎𝑥(𝐾(𝑥), 𝐾(𝑦)) (1.8) M. Li và P. Vitányi [50] đưa ra một số tính chất của khoảng cách thông tin chuẩn hóa và chứng minh khoảng cách này là một metric.

Theo định nghĩa, độ phức tạp Kolmogorov của một xâu x được xác định theo độ dài các chương trình sinh ra xâu x trên một hệ thống lập trình được tham chiếu. Định nghĩa này có một nền tảng lý thuyết tốt, tuy nhiên, nó lại rất khó khăn khi thực thi các áp dụng trong thực tiến. M. Li, P. Vitányi và cộng sự đã đề xuất các phương án ước tính độ phức tạp Kolmogorov và các độ đo liên quan. Hai phương án ước tính phổ biến nhất là ước tính theo tiếp cận nén ngôn ngữ và ước tính qua máy tìm kiếm Google (sau này được khái quát hóa là ước tính qua hệ thống Web).

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu một số mô hình học ontology và ứng dụng trong miền dầu khí (Trang 42 - 44)

Tải bản đầy đủ (PDF)

(150 trang)