1. 2 Dữ liệu chuỗi thời gian:
3.6. Bảng băm tìm kiếm (Locality-Sensitive Hashing):
Như chúng ta đã nói trước đây, để tối ưu các vòng lặp bên ngoài và bên trong, chúng ta cần phải nhanh chóng gần đúng sự giống nhau giữa tất cả các hình dạng. Phương pháp sử dụng bảng băm để tìm kiếm được nhóm Keogh đề nghị vào năm 2006 (nguồn [1]).
Hàm băm vị trí (Locality-sensitive Hash Function ): Xem xét một chuỗi có độ dài là w
trên một chỉ số và bảng chữ cái Σ. Chọn k phần tử ngẫu nhiên từ tập {1, ..., w}. Định nghĩa hàm băm tìm kiếm địa phương là f: w k với:
Nói cách khác, các hàm băm vị trí nối ít nhất k ký tự từ k vị trí khác biệt lại với nhau. Chiều dài chuỗi kết quả k được gọi là một giá trị LSH. Rõ ràng, các chuỗi tương tự với nhau có nhiều khả năng được băm với giá trị cùng LSH. Đây là vấn đề quan trọng nhất của băm vị trí, nó cho phép tìm kiếm hiệu quả, lập chỉ mục, và nhiều công trình khác (Indyk, 1997). Thật không may, điều này không đúng với hình dạng vì những sai khác quay hình. Ví dụ, hai đầu mũi tên ở dưới đây là khá giống nhau nhưng biểu diễn chuỗi dữ liệu thời gian bị dời và kết quả từ (word) SAX là hoàn toàn khác nhau. Chúng sẽ không được băm với cùng giá trị LSH cho dù k vị trí nào được chọn đi nữa.
Hình 3.2: Từ SAX khác nhau do hình dạng bị quay (nguồn [1])
Hàm băm vị trí bất biến với xoay (Rotation invariant Locality-sensitive Hash Function):
Xem xét một chuỗi có độ dài là w trên một chỉ số và bảng chữ cái Σ. Chọn k phần tử ngẫu nhiên từ tập {1, ..., w}. Định nghĩa hàm băm tìm kiếm địa phương là ' : w ( k)w
f với:
(3.4)
trong đó LSHIFTS (s) là tập hợp của tất cả khả năng dịch chuyến trái có thể có của chuỗi s.
Bằng cách này, hình dạng tương tự (kể cả với hướng quay khác nhau) có nhiều khả năng được sắp xếp với nhau với cùng một giá trị LSH. Ví dụ hai hình ảnh tương tự trong hình 3.3. Sử dụng băm bất biến đối với xoay, hình ảnh A ánh xạ tới B {aa, đ} và hình ảnh B được ánh xạ tới {aa, dc, cd}. Chúng có chung giá trị LSH giá trị là "aa".
Hình 3.3: Bảng băm sử dụng LSH (nguồn [1])
Trong ví dụ trên ta thấy hai hình ảnh tương tự ánh xạ tới giá trị LSH là "aa". Ở đây w = 4, Σ = {a, b, c, d}, và k = 2. Các chỉ số được lựa chọn bởi các hàm băm là {1, 3}.