5. Ý nghĩa thực tiễn của đề tài
2.3 Các phương pháp thu giảm số chiều
Dữ liệu chuỗi thời gian thường rất lớn, có thể chứa lượng dữ liệu lên đến terabytes. Do đó, quá trình khai phá dữ liệu có thể sẽ chạy rất lâu (rất mất thời gian) trên toàn bộ tập dữ liệu gốc. Để khắc phục vấn đề này ta nên áp dụng một số phương pháp biến đổi để thu giảm độ lớn của dữ liệu (Data reduction).
Thu giảm số chiều là phương pháp biểu diễn chuỗi thời gian n chiều X = {x1, x2,…, xn} thành chuỗi thời gian có N chiều Y = {y1, y2,…, yN} với N << n, sao cho vẫn giữ được các đặc trưng cần quan tâm của chuỗi thời gian ban đầu. [18] [19]
Các phương pháp thu giảm số chiều (dimensionnality reduction) của dữ liệu chuỗi thời gian có thể là:
2.3.1 Phương pháp xấp xỉ gộp từng đoạn
Phương pháp xấp xỉ gộp từng đoạn (piecewise aggregate approximation) do E.Keogh và cộng sự đề nghị năm 2001 [18]. Phương pháp này rất đơn giản, ta tuần tự xấp xỉ k giá trị liền kề nhau thành cùng một giá trị bằng trung bình cộng của k điểm đó. Quá trình cứ tiếp tục như vây từ trái sang phải.
( 1) 1 n i N i j n j i N N X x n (2-11) Ưu điểm:
Thời gian tính toán rất nhanh.
Hỗ trợ nhiều độ đo khoảng cách (Khoảng cách Euclid, DTW).
Hỗ trợ dạng câu truy vấn có chiều dài khác nhau.
Nhược điểm:
Xây dựng lại chuỗi gốc rất khó và thường sinh lỗi lớn.
Không quan tâm đến những điểm đặc biệt trong từng đoạn xấp xỉ.
Hình 2.14 Thu giảm số chiều DWT và PAA
2.3.2 Phương pháp xấp xỉ từng đoạn thích nghi
Phương pháp xấp xỉ hằng số từng đoạn thích nghi (adaptive piecewise constant approximation –APCA) do E. Keogh và cộng sự đề nghị năm 2001 [20] . Phương pháp APCA giống như phương pháp PAA là xấp xỉ dữ liệu ban đầu thành những đoạn thẳng nằm ngang. Tuy nhiên, nó khác với PAA là các đoạn này ở PAA có kích thước bằng nhau, còn ở APCA thì kích thước của các đoạn là khác nhau tùy theo dữ liệu. Những vùng nào trên chuỗi thời gian có biến động nhấp nhô nhiều thì được phân thành những đoạn ngắn, còn những vùng nào ít biến động thì được phân thành những đoạn dài hơn.
Ưu điểm:
+ Tỷ lệ nén cao hơn phương pháp PAA.
+ Tỷ lệ lỗi khi xây dựng lại dữ liệu nhỏ hơn PAA.
+ Hỗ trợ phát hiện bất thường dữ liệu chuỗi thời gian trên tập dữ liệu xấp xỉ và phát hiện bất thường dữ liệu chuỗi thời gian trên tập dữ liệu chính xác.
Nhược điểm:
+ Độ phức tạp phép biến đổi O(nlogn).