Độ đo khoảng cách Euclide cĩ ưu điểm là dễ hiểu, dễ tính tốn, dễ mở rộng cho nhiều bài tốn khai phá dữ liệu chuỗi thời gian khác như gom cụm, phân lớp, nhận dạng mơ típ, v.v.. Nhưng độ đo khoảng cách này cĩ nhược điểm là nhạy cảm với nhiễu, và khơng thích hợp khi dữ liệu cĩ đường căn bản khác nhau hay cĩ biên độ dao động khác nhau.
2.3.1.2 Chuẩn hố chuỗi thời gian
Trong nhiều ứng dụng, người ta xem kiểu của dãy con như là hệ số chính trong việc xác định khoảng cách. Hai dãy con về bản chất cĩ thể cùng kiểu mặc dù chúng cĩ thể khác về biên độ, ranh giới. Phương pháp dưới đây dùng độ đo Euclide trên các dạng đã chuẩn hố của chuỗi thời gian là độ đo tương tự
Cho chuỗi thời gian X = (x1, x2, …, xn), chuẩn hố của chuỗi thời gian X, ký hiệu là X = ( 1, 2, …, n) và được định nghĩa i = xi – Ex; Trong đĩ Ex =
n 1 n i i x 1 là giá trị trung bình của tất cả các giá trị của chuỗi thời gian X.
47
Ví dụ: X = (2, 3, 5, 4, 6) thì Ex = 4, X = (-2, -1, 1, 0, 2). Sau khi chuẩn hố chuỗi thời gian, ta sử dụng khoảng cách Euclide giữa hai dạng chuẩn hố để định nghĩa độ đo tương đồng giữa hai chuỗi thời gian tương ứng. Cho hai chuỗi thời gian X và Y lần lượt cĩ chuẩn hố là X và Y, độ đo tương đồng hai chuỗi thời gian X, Y được định nghĩa là khoảng cách giữa hai dạng chuẩn hố d (X , Y).
Ví dụ: Cho 2 chuỗi thời gian X = (2, 3, 5, 4, 6) và Y = (5, 6, 8, 7, 9). Tính d(X ,Y) = 0, do đĩ 2 chuỗi thời gian X, Y là tương đồng với nhau. Nếu sử dụng độ đo tương đồng xây dựng theo cơng thức Eclide thì X và Y cĩ thể khơng tương đồng. Với khái niệm tương đồng thơng qua việc chuẩn hố chuỗi thời gian, “kiểu biến thiên” của chuỗi thời gian được chú trọng hơn là giá trị trong chuỗi thời gian.
2.3.1.3 Độ đo tƣơng đồng dựa trên dãy con chung dài nhất
Độ đo dãy con chung dài nhất (Longest common subsequence) được đề xuất bởi Vlachos và các cộng sự năm 2004. Điểm nổi bật của phương pháp chuỗi con chung dài nhất là nĩ cho phép bỏ qua những điểm bất thường khi so sánh. Tư tưởng chính của phương pháp này là tìm những chuỗi con chung. Hai chuỗi cĩ chuỗi con chung càng dài thì càng giống nhau. Độ đo này cĩ ưu điểm là thể hiện tính trực quan của dữ liệu và cho phép bỏ qua những điểm bất thường.
Định nghĩa: Cho hai chuỗi thời gian X = (x1, x2, …, xn), và Y = (y1, y2, …, yn). Đặt X’ = (xi1, xi2, …, xil), và Y’ = (yj1, yj2, …, yjl) lần lượt là hai dãy con của X, Y tương ứng. Ta nĩi X’ và Y’ là LCS nếu:
(1) ik < ik+1; jk < jk+1 với 1≤ k ≤ l-1 (2) xik = yjk với 1≤ k≤ l
Độ tương đồng của X và Y được định nghĩa là số lượng các phần tử trong LCS: d (X, Y) = |LCS| hoặc giá trị trung bình d (X, Y) =
Ví dụ, cho 2 chuỗi thời gian X, Y với . Chuỗi con chung là LCS = (2, 5, 7, 10) và độ tương tự giữa X, và Y là d (X,Y) = |LCS| = 4 hoặc d (X,Y) = 0.5
2.3.1.4 Độ đo xoắn thời gian động
Việc so trùng 2 đường biểu diễn dữ liệu bằng cách tính khoảng cách từng cặp điểm 1-1(điểm thứ i của đường thứ nhất so với điểm thứ i của đường thứ hai) là khơng phù hợp trong trường hợp hai đường này khơng hồn tồn giống nhau nhưng hình dạng biến đổi rất giống nhau. Như trong hình 2.7, hai đường biểu diễn rất giống nhau về hình dạng nhưng lệch nhau về thời gian. Trong trường hợp này, nếu tính khoảng cách bằng cách ánh xạ 1-1 giữa 2 đường thì kết quả rất khác nhau và cĩ thể dẫn đến kết quả cuối cùng khơng giống như mong muốn.
Vì vậy để khắc phục nhược điểm này, thì một điểm cĩ thể ánh xạ với nhiều điểm và ánh xạ này khơng thẳng hàng (xem hình 2.11). Phương pháp này gọi là xoắn
thời gian động (Dynamic Time Warping - DTW) được đề xuất bởi Bernt và Clifford,
1994.