1.3. ĐỘ ĐO KHOẢNG CÁCH GOOGLE
1.3.2. Khoảng cách nén chuẩn hóa
Tiếp cận ước tính độ phức tạp xâu Kolmogorov và các độ đo liên quan dựa trên việc sử dụng hàm nén được đề cập trong nhiều công trình nghiên cứu.
Hàm nén nhận vào một xâu ký tự và trả lại một xâu kết quả sau khi nén. Xâu kết quả (qua một hàm nén bất kỳ) có độ dài (theo bít) nhỏ hơn độ dài theo bít của xâu đầu vào và giá trị độ dài (theo bít) của xâu đầu vào này luôn là một cận trên của độ phức tạp Kolmogorov đối với xâu đầu vào.
độ dài của xâu kết quả nén nhận được.
M. Li và P. Vitányi [50], R. Cilibrasi và cộng sự [15] lập luận rằng độ phức tạp Kolmogorov không vượt qua độ dài nhỏ nhất của các xâu nén mà theo đó các chương trình giải nén có thể sinh ra xâu x. Ví dụ, với cùng một xâu x cho trước, thuật toán gzip cho xâu xg, thuật toán rar tốt hơn cho xr, ta có K(x) ≤ |xr |≤ |
xg | ≤ |x|, trong đó ký hiệu |s| biểu diễn độ dài theo bít của xâu s. Như vậy, các chương trình nén dữ liệu thực được sử dụng để ước lượng các độ phức tạp Kolmogorov K(x) và các độ đo liên quan khác. Khoảng cách nén chuẩn hóa giữa hai xâu, một ước tính cho khoảng cách thông tin chuẩn hóa, có ý nghĩa ứng dụng rộng rãi.
Gọi C là một hàm nén và C(x) trả kết quả là xâu được nén của x.
Định nghĩa 1.5 ([50]). Cho hai xâu x, yX. Khoảng cách nén chuẩn hóa (Normalized Compression Distance: NCD) của hai xâu x và y, ký hiệu là NCD (x, y), được xác định theo công thức sau:
𝑁𝐶𝐷𝐶(𝑥, 𝑦) = (𝐶(𝑥𝑦) − min(𝐶(𝑥), 𝐶(𝑦)))/ max(𝐶(𝑥), 𝐶(𝑦)) (1.9) Lưu ý, ở công thức (1.9), C(xy) thay thế cho C(x, y), trong đó C(xy) nhận đầu vào là xâu <x, y> nhận được bằng cách ghép xâu x với xâu y. Hơn nữa, nếu C và C’
là hai hàm nén xâu và C là “tốt hơn” C’, tức là C(x) ≤ C’(x) thì cũng nhận được
NCDC(x, y) ≤ NCDC’(x, y).