Đo tương tự

Một phần của tài liệu Ứng dụng nhận dạng motif hỗ trợ phân lớp dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động (Trang 56 - 58)

CHƯƠNG 3 : CÁC CÔNG TRÌNH CÓ LIÊN QUAN

3.4. Phát hiện motif cho dữ liệu chuỗi thời gian

3.4.4.2. đo tương tự

Một vấn đề quan trọng của việc nhận diện motif trong khai phá dữ liệu chuỗi thời gian là xác định độ đo tương tự. Thông thường thì độ đo Euclid hay phương pháp phức tạp hơn là xoắn thời gian động được sử dụng. Tuy nhiên, cả hai phương pháp này rất nhạy cảm với biên độ (range) của hai chuỗi dữ liệu.

Công thức tính độ đo tương tự dưới đây sẽ xem xét đến phép biến đổi tuyến tính với những hằng số được nguời dùng định nghĩa.

Cho hai chuỗi dữ liệu thời gian T(t1,t2,….tN) và Q(q1,q2…qN) cùng có chiều dài N. Độ đo cực tiểu dmin(T,Q) của T và Q được cho bởi :

a ϵ [ amin,amax]

b ϵ [bmin,bmax]

Các giá trị amin, amaxvà bmin, bmax được định nghĩa bởi người dùng. Thường thì a

dao động quanh giá trị 1 và b sẽ quanh giá trị 0. Trong trường hợp hai T và Q giống nhau hoàn toàn, a=1 và b=0 sẽ được xác định. Rõ ràng công thức trên không có tính đối xứng, nghĩa là dmin(T,Q) # dmin(Q,T).

Dab(T,Q) = min(dmin(T,Q),dmin(Q,T)). (3.8)

Công thức trên phụ thuộc vào chiều dài của T và Q. Chuẩn hóa công thức trên ta có công thức sau:

Để ý rằng không thỏa mãn bất đẳng thức tam giác.

Thông thường, hai chuỗi dữ liệu T và Q sẽ không có cùng chiều dài. Để áp dụng công thức trên chúng ta phải biến đổi để hai chuỗi có cùng chiều dài. Phương pháp biến đổi được thực hiện như sau: Cho hai chuỗi T = (T1...TN) và Q = (Q1 … QM) với

M>N. Khi đó chuỗi có chiều dài lớn hơn Q sẽ được lấy mẫu lại để có cùng chiều dài với T bằng phương pháp nội suy spline (spline interpolation technique). Độ đo tương tự của T và Q được cho bởi công thức sau :

Trong luận văn này, chúng tôi đã dùng phương pháp nội suy spline bậc một để lấy mẫu lại chuỗi Q. Giải thuật lấy mẫu lại như sau:

Trong khi chiều dài Q vẫn còn lớn hơn T thì làm các bước sau:

Q[i] = (Q[i] + Q[i+1] ) /2 nếu i < length(Q) length(Q) = length(Q)-1

Ý tưởng chính của giải thuật này là lặp lại việc lấy giá trị trung điểm của Q cho đến khi chiều dài bằng với chuỗi T. Sau mỗi lần lặp, chiều dài của Q sẽ giảm đi 1

Một phần của tài liệu Ứng dụng nhận dạng motif hỗ trợ phân lớp dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động (Trang 56 - 58)

Tải bản đầy đủ (PDF)

(94 trang)