đo tương tự

3.4 đo tương tự

công trình khác nhau. Trong đó, độ đo khoảng cách Euclid thường hay được sử dụng nhất. Độ đo khoảng cách Euclid cho thấy sự đơn giản, dễ hiểu, dễ tính toán, dễ mở rộng cho nhiều bài toán khai phá dữ liệu chuỗi thời gian khác như gom cụm, phân lớp và đủ tốt để tính độ tương tự của hai chuỗi thời gian.

Cho hai chuỗi thời gian Q = q1,…,qm và C = c1,…,cm , độ đo khoảng cách Euclid giữa hai chuỗi thời gian này được cho bởi công thức:

( , ) = ( − )

Công thức trên không thể dùng để tính độ tương tự giữa hai chuỗi thời gian Q

và C đã được biểu diễn dưới dạng ký hiệu và bằng cách rời rạc hóa với giải thuật SAX. Chúng ta sẽ dùng một công thức mở rộng trả về khoảng cách tối thiểu của hai chuỗi thời gian ban đầu của hai từ. Công thức này có dạng như sau:

, = ( ( , ̂ ))

Giá trị trả về của hàm dist() có thể được tra trong một bảng giá trị. Bảng này được minh họa như trong bảng 3-2.

Bảng 3-2: Bảng tra giá trị hàm dist() trong công thức tính MINDIST. Bảng dùng cho tập ký hiệu có 4 chữ cái. Giá trị của hàm dist() là giá trị của ô với dòng và cột

tương ứng của hai ký hiệu. Ví dụ: dist(a,b) = 0, dist(a,c) = 0.67.

Để xây dựng bảng tra này, chúng ta cần sử dụng bảng tra các điểm ngắt trên phân bố Gauss. Giá trị mỗi ô(r,c) trong bảng được tính theo công thức sau:

ôr,c = β 0, nếu |r – c |≤1

max(r,c) -1 - βmin (r,c), trường hơp khác

Ví dụ giá trị ô(c,a) = ô(3,1) = β2 – β1 = 0 – (-0.67) = 0.67. Tương tự, ta tính được giá trị của các ô còn lại trong bảng.

Ứng với một tập ký hiệu có kích thước a, bảng tra dist() được tính một lần duy nhất và được lưu lại để giúp tra cứu nhanh. Hình 3-7 minh họa khoảng cách giữa hai chuỗi thời gian sau khi được rời rạc hóa.

Hình 3-8: Khoảng cách giữa hai chuỗi thời gian được biểu diễn dưới dạng từ.

3.5 Giải thuật chiếu ngẫu nhiên

Chuỗi thời gian T sau khi sử dụng phương pháp PAA để thu giảm số và sử dụng phương pháp SAX để rời rạc hóa chuỗi con thành chuỗi ký tự, chúng tôi sẽ sử dụng giải thuật chiếu ngẫu nhiên để xây dựng ma trận đụng độ.

Giải thuật chiếu ngẫu nhiên (Random Projection) được Jeremy Buhler và Martin Tompa đưa ra vào năm 2001 [2] nhằm giải quyết bài toán planted(w,d)-motif

do Pevzner và Sze đưa ra [15]. Sau đó, Bill Chiu, Eamonn Keogh và các cộng sự sử dụng giải thuật này để tìm mô típ trên dữ liệu chuỗi thời gian vào năm 2003 [4].

Các chuỗi con sau khi được ký hiệu hóa bằng giải thuật SAX sẽ được đặt vào một ma trận . Mỗi chuỗi con sẽ là một dòng của ma trận này. Hình 3-8 minh họa cách xây dựng ma trận .

Hình 3-9: Xây dựng ma trận từ chuỗi thời gian T có chiều dài m= 1000, chiều dài mô típ có trong chuỗi thời gian là 16, chiều dài từ là 4, tập ký hiệu gồm 3 ký tự. Số

lượng chuỗi con là (1000 -16 + 1) = 985, đây cũng là số dòng của ma trận (nguồn [4]).

Sau khi có được ma trận , quá trình chiếu ngẫu nhiên sẽ được thực hiện nhằm xây dựng một ma trận đụng độ CM. Ma trận đụng độ sẽ có các dòng và cột là các chuỗi con trong . Ban đầu giá trị các ô trong ma trận CM được gán giá trị 0.

Giải thuật sẽ thực hiện k lần lặp. Tại mỗi lần lặp, chọn một số cột ngẫu nhiên trong ma trận làm mặt nạ (ví dụ cột 1, 2 trong dữ liệu hình 3-8). Sau đó, giá trị của các chuỗi con ứng với mặt nạ (các ký tự ở các cột 1,2) này sẽ được tính toán bởi một hàm băm. Các chuỗi con có giá trị giống nhau sẽ được băm vào cùng một túi. Nếu hai chuỗi con i và j được băm vào cùng một túi thì giá trị của ô ứng với hai chuỗi con đó ô(i,j) trong ma trận CM sẽ được tăng giá trị lên 1. Quá trình chiếu và tạo ma trận đụng độ được minh họa như trong hình 3-9 với cột 1 và cột 2 được chọn trong lằn lần lặp đầu tiên.

Hình 3-10: Các chuỗi con trong được băm vào các túi với mặt nạ được chọn là cột 1,2 (hình bên trái) và trạng thái ma trận đụng độ với ô(1,58) và ô(2,985) được

tăng giá trị lên 1 (hình bên phải) (nguồn [4]).

Quá trình cứ lặp lại như thế cho đến khi kết thúc k lần lặp, ta sẽ thu được ma trận đụng độ kết quả cuối cùng. Vì CM có tính đối xứng nên ta bỏ qua phần trên bên phải của ma trận. Hình 3-10 minh họa một lần lặp tiếp theo với cột được chọn là cột 2 và cột 4 và trạng thái ma trận đụng độ lúc này.

Hình 3-11: Các chuỗi con trong được băm vào các túi với mặt nạ được chọn là cột 2,4 (hình bên trái) và trạng thái ma trận đụng độ với ô(1,58) có giá trị là 2 vì

được tăng giá trị thêm 1 (hình bên phải) (nguồn [4]).

Giải thuật chiếu ngẫu nhiên

Rời rạc hóa dữ liệu