Thu giảm số chiều chuỗi thời gian

Dữ liệu chuỗi thời gian thƣờng rất lớn nên việc tìm kiếm trực tiếp trên dữ liệu chuỗi thời gian gốc sẽ không hiệu quả. Để khắc phục vấn đề này, cách tiếp cận chung thƣờng đƣợc sử dụng bao gồm các bƣớc sau:

1. Áp dụng một số phƣơng pháp biến đổi xấp xỉ để thu giảm độ lớn của dữ liệu sao cho vẫn giữ đƣợc các đặc trƣng của dữ liệu. Các phƣơng pháp biến đổi xấp xỉ này thƣờng đƣợc gọi là những phƣơng pháp thu giảm số chiều (dimensionality reduc-

tion).

2. Thực hiện bài toán trên dữ liệu xấp xỉ, ta thu đƣợc tập kết quả xấp xỉ.

3. Dựa trên tập kết quả xấp xỉ này, thực hiện truy cập đĩa để thực hiện hậu kiểm trên dữ liệu gốc nhằm loại bỏ các chuỗi tìm sai trong tập kết quả xấp xỉ.

2.2.1 Điều kiện chặn dưới.

Do khi xấp xỉ dữ liệu sẽ gây ra mất mát thông tin, nên khi thực hiện trên dữ liệu xấp xỉ có thể xảy ra lỗi tìm sót (false dismissal) và/hoặc tìm sai (false alarm). Để đảm bảo có kết quả chính xác, lỗi tìm sót không đƣợc phép xảy ra. Mặt khác, lỗi tìm sai cũng nên thấp để giảm chi phí trong quá trình hậu kiểm.

Lỗi tìm sót xảy ra khi một chuỗi S trong cơ sở dữ liệu tƣơng tự với chuỗi cần tìm

nhƣng kết quả tìm kiếm không có chuỗi S. Lỗi tìm sai xảy ra khi một chuỗi S trong cơ sở dữ liệu khác với chuỗi cần tìm nhƣng kết quả tìm kiếm lại có chuỗi S. Hậu kiểm là quá trình kiểm tra lại trên dữ liệu gốc các chuỗi tìm đƣợc trong không gian thu giảm tƣơng tự với chuỗi cần tìm nhằm loại bỏ các chuỗi tìm sai

Một kết quả quan trọng đã đƣợc Faloutsos và các cộng sự chứng minh là để không xảy ra lỗi tìm sót thì độ đo khoảng cách sử dụng trong không gian xấp xỉ (đặc

trƣng) phải là chặn dƣới của độ đo khoảng cách sử dụng trong không gian gốc [35]. Nghĩa là, Dfeature (X’, Y’) ≤ D(X, Y) với Dfeature (X’, Y’) là độ đo khoảng cách giữa hai chuỗi xấp xỉ của hai chuỗi ban đầu X, Y và D(X, Y) là độ đo khoảng cách giữa hai

chuỗi X, Y. Điều kiện này đƣợc gọi là bổ đề chặn dưới (lower bounding lemma).

 Bổ đề (Chặn dƣới). Để đảm bảo không xảy ra lỗi tìm sót khi truy vấn tầm (range

query), phƣơng pháp thu giảm số chiều (rút trích đặc trƣng) phải thỏa mãn công thức

sau đây:

Dfeature (Q’, O’) ≤ D(Q, O)

Chứng minh

Gọi Q là chuỗi truy vấn, O là một đối tƣợng tƣơng tự với truy vấn Q, và Q’, O’ là hai chuỗi thu giảm tƣơng ứng của Q, O và  là dung sai. Chúng ta muốn chứng minh rằng nếu đối tƣợng O thực sự khớp với truy vấn, thì O’ sẽ đƣợc trả về khi ta thực hiện truy vấn tầm trên không gian đặc trƣng. Tức là chúng ta mong muốn chứng minh rằng:

D(Q, O) ≤   Dfeature (Q’, O’) ≤  Điều này sẽ hiển nhiên khi

Dfeature (Q’, O’) ≤ D(Q, O) ≤ 

Do đó chúng ta bắt buộc phải có: Dfeature (Q’, O’) ≤ D(Q, O) □ Ngoài ra, nếu Dfeature (Q’, O’) càng gần với D(Q, O) thì đảm bảo sự xấp xỉ càng ít mất mát thông tin và lỗi tìm sai sẽ càng ít. Khi đó tỉ số Dfeature (Q’, O’)/ D(Q, O) sẽ càng gần giá trị 1. Tỉ số này còn đƣợc gọi là độ chặt của chặn dưới (the tightness of

lower bound).

2.2.2 Các phương pháp thu giảm số chiều dựa vào rút trích đặc trưng.

Thu giảm số chiều là phƣơng pháp biểu diễn chuỗi thời gian n chiều X = {x1, x2, …, xn} thành chuỗi thời gian có N chiều Y = {y1, y2, …, yN} với N << n, sao cho vẫn

giữ đƣợc các đặc trƣng cần quan tâm của chuỗi thời gian ban đầu. Phƣơng pháp tổng quát để thu giảm số chiều có thể tóm tắt nhƣ sau:

1. Thiết lập một độ đo tƣơng tự D

2. Thiết kế một kỹ thuật thu giảm số chiều để rút trích đặc trƣng có chiều dài N trong một chuỗi thời gian có chiều dài n (N << n), với N có thể đƣợc xử lý một cách hữu hiệu nhờ một cấu trúc chỉ mục không gian (đa chiều).

3. Cung cấp một độ đo tƣơng tự dN trên một không gian đặc trƣng N chiều và chứng

minh rằng nó tuân thủ điều kiện chặn dƣới: DN (X’, Y’) ≤ D(X, Y).

Có ba nhóm phƣơng pháp chính để thu giảm số chiều là: (1) các phƣơng pháp biến đổi sang miền tần số nhƣ biến đổi Fourier rời rạc (Discrete Fourier Transform - DFT) [36], biến đổi Wavelet rời rạc (Discrete Wavelet Transform - DWT) [37]; (2)

các phƣơng pháp xấp xỉ tuyến tính từng đoạn nhƣ xấp xỉ gộp từng đoạn (Piecewise

Aggregate Approximation - PAA) [38], xấp xỉ hằng số từng đoạn thích nghi (Adaptive Piecewise Constant Approximation - APCA) [39]; và (3) các phƣơng pháp dựa vào điểm quan trọng nhƣ mô hình điểm mốc (Landmark Model) [22], phương pháp điểm cực trị (Major Extrema) [25] [26], phương pháp PIP (Perceptually Important Points)

[23]. Dƣới đây chúng tôi sẽ trình bày một số phƣơng pháp tiêu biểu.

 Phƣơng pháp biến đổi Fourier rời rạc.

Kỹ thuật thu giảm số chiều áp dụng phƣơng pháp DFT do Agrawal và các cộng sự đề xuất đầu tiên năm 1993 [36]. Ý tƣởng cơ bản của phƣơng pháp này là để thu giảm số chiều một chuỗi thời gian X có chiều dài n vào không gian đặc trƣng N chiều

(N << n), chuỗi thời gian ban đầu đƣợc biến đổi thành tập các hệ số (gọi là hệ số Fourier), các hệ số này có dạng sóng hình sin (và/hoặc cosin) và đƣợc tính theo công thức sau:

Trong đó, Ck là số phức với k = 0, …, n-1, xt là giá trị thứ t của chuỗi thời gian,

t = 0, …, n-1 và .

Hình 2.3 Minh họa phương pháp DFT ( [38]). 1   j (2.4) kt j n t t k xe n C 2 1 0 1     

Sau đó tổ hợp tuyến tính các sóng này ta có đƣợc dạng biểu diễn mong muốn (Hình 2.3). Một chuỗi thời gian đƣợc biến đổi theo cách này gọi là biến đổi vào miền

tần số. Độ phức tạp của phép biến đổi Fourier nhanh (Fast Fourier Transform-FFT) là O(nlogn) với n là số lƣợng điểm và phƣơng pháp này thích hợp với các loại đƣờng

biểu diễn dữ liệu khác nhau, tuy nhiên chúng cũng có nhƣợc điểm là khó giải quyết khi các chuỗi có chiều dài khác nhau.

 Phƣơng pháp biến đổi Wavelet rời rạc.

Phƣơng pháp DWT do Chan và Fu đề xuất năm 1999 [37]. Phƣơng pháp này giống nhƣ DFT, tuy nhiên trong khi hàm cơ sở của phƣơng pháp DFT có dạng hình sin và các hệ số Fourier luôn biểu diễn sự phân bố toàn cục của dữ liệu, thì hàm cơ sở thƣờng đƣợc dùng trong phƣơng pháp DWT là hàmHaar nhƣ trong Hình 2.4 và các hệ số Wavelet là những đoạn con cục bộ theo thời gian của dữ liệu đƣợc nghiên cứu. Ngoài sử dụng hàm Haar, phƣơng pháp DWT có thể sử dụng các hàm cơ sở khác nhƣ

Daubechies, Coiflet, Symmlet, … . Tuy nhiên, Haar Wavalet đã đƣợc sử dụng rất nhiều

trong khai phá dữ liệu chuỗi thời gian [40].

Hình 2.4 Minh họa phương pháp Haar Wavelet ( [38]).

Phƣơng pháp DWT rất hiệu quả vì nó mã hóa đơn giản và nhanh. Phƣơng pháp này cũng thích hợp với những dữ liệu tĩnh ít thay đổi do đƣờng Haar không thay đổi liên tục. Độ phức tạp của phép biến đổi DWT là O(n), với n là chiều dài của chuỗi thời gian. Nhƣợc điểm của phƣơng pháp này là chiều dài chuỗi dữ liệu ban đầu phải là một số lũy thừa 2.

 Phƣơng pháp xấp xỉ gộp từng đoạn.

Phƣơng pháp xấp xỉ gộp từng đoạn (PAA) do Keogh và cộng sự đề xuất năm 2000 [38]. Theo phƣơng pháp này, chuỗi thời gian ban đầu đƣợc chia thành N đoạn con có kích thƣớc bằng nhau, sau đó tính trung bình của các điểm dữ liệu nằm trong mỗi đoạn con. Nhƣ vậy, chuỗi thời gian đƣợc xấp xỉ bằng N giá trị trung bình đó. Kết quả cuối cùng là đƣờng thẳng có dạng bậc thang.

Cho chuỗi dữ liệu thời gian X = (x1, x2,…, xn ), phƣơng pháp PAA sẽ biến đổi chuỗi này thành chuỗi với (N<<n) theo công thức sau:

Hình 2.5 minh họa phƣơng pháp này.

Hình 2.5 Minh họa phương pháp PAA ( [38]).

Ƣu điểm của phƣơng pháp này là đơn giản, thời gian tính toán rất nhanh và cách biểu diễn của nó hỗ trợ nhiều phƣơng pháp tính khoảng cách (Euclid, DTW). Nhƣng nhƣợc điểm của nó là phƣơng pháp có thể bỏ qua những điểm đặc biệt trong từng đoạn xấp xỉ của chuỗi thời gian. Vì vậy, trong nhiều trƣờng hợp các đoạn có giá trị trung bình bằng nhau nhƣng về khoảng cách Euclid rất khác nhau.

Hình 2.6 là hai ví dụ minh họa cho các trƣờng hợp này. Nhƣợc điểm này làm cho PAA không thích hợp với một số dữ liệu chuỗi thời gian trong lĩnh vực tài chính [41]. Ngoài ra, chặn dƣới của phƣơng pháp PAA cũng chƣa thật sự chặt.

( 1) 1 n i N i j n j i N N x x n      ) ,..., , (x1 x2 xN X  (2.5)

Hình 2.6 Các trường hợp hai đoạn có cùng giá trị trung bình nhưng khoảng cách Euclid khác nhau.

Năm 2001, Keogh và các cộng sự đƣa ra một cách tiếp cận tổng quát hơn so với PAA. Phƣơng pháp này đƣợc gọi là xấp xỉ hằng số từng đoạn thích nghi (APCA –

Adaptive Piecewise Constant Approximation) [39], nó cho phép các đoạn con có chiều dài khác nhau nhằm xấp xỉ tốt hơn chuỗi thời gian.

 Phƣơng pháp xấp xỉ tuyến tính từng đoạn.

Phƣơng pháp xấp xỉ tuyến tính từng đoạn (Piecewise Linear Approximation –

PLA) do Keogh và cộng sự đề nghị từ năm 1998 ( [42], [43]). Trong phƣơng pháp này ta sẽ biểu diễn dữ liệu ban đầu bằng chuỗi các đoạn thẳng tuyến tính. Mỗi đoạn thẳng tuyến tính nối cặp điểm ở hai đầu đoạn thẳng là xấp xỉ tốt nhất (best-fit) những điểm có trong đoạn chuỗi thời gian đó. Các đoạn thẳng này có thể rời nhau hoặc liên tục. Cách biểu diễn này rất trực quan và phù hợp để thu giảm số chiều cho tất cả các loại dữ liệu chuỗi thời gian.

PLA là một phƣơng pháp thu giảm số chiều đƣợc ƣa chuộng từ khi nó ra đời mặc dù nó không hề đƣợc chứng minh thỏa điều kiện chặn dƣới và cũng không hề có cấu trúc chỉ mục đa chiều nào hỗ trợ. Mãi đến năm 2007, Chen và các cộng sự [44] đã nghiên cứu cải tiến phƣơng pháp PLA thành phƣơng pháp PLA khả chỉ mục (indexable PLA) và họ đã chứng minh đƣợc PLA khả chỉ mục thỏa điều kiện chặn dƣới và có thể sử dụng với R-tree nhƣ là cấu trúc chỉ mục hỗ trợ.

 Các phƣơng pháp thu giảm số chiều dựa vào điểm quan trọng.

- Phương pháp điểm mốc.

Năm 2000, Perng và các cộng sự đã đƣa ra một mô hình điểm mốc [22]. Các điểm mốc (landmark) trong một chuỗi thời gian là các điểm có độ quan trọng lớn. Ý

chính của mô hình này là sử dụng các điểm mốc để xử lý thay vì làm việc với chuỗi thời gian ban đầu. Tùy theo lĩnh vực ứng dụng mà sẽ có những điểm mốc khác nhau, và định nghĩa của các điểm mốc có thể đi từ các khái niệm đơn giản (nhƣ các điểm cực đại, cực tiểu địa phƣơng hoặc điểm uốn) đến các cấu trúc phức tạp hơn. Một điểm

Đƣờng trung bình

(b)

Đƣờng trung bình

đƣợc gọi là điểm mốc cấp n của một đƣờng cong nếu đạo hàm cấp n của điểm đó bằng 0. Nhƣ vậy, các điểm cực đại, cực tiểu địa phƣơng là các điểm mốc cấp 1, còn các điểm uốn là các điểm mốc cấp 2. Càng nhiều loại điểm mốc khác nhau đƣợc dùng thì chuỗi thời gian đƣợc biểu diễn càng chính xác, tuy nhiên điều này sẽ làm cho cây chỉ mục lớn lên.

Một kỹ thuật làm trơn (smoothing) cũng đƣợc đƣa vào phƣơng pháp điểm mốc để giúp loại bỏ những điểm mốc không quan trọng, chẳng hạn, một cực trị địa phƣơng biểu diễn sự dao động nhỏ không thể quan trọng nhƣ các điểm cực trị toàn cục.

- Phương pháp điểm cực trị.

Năm 2003, Fink and Pratt đã đề xuất một kỹ thuật thu giảm số chiều dựa trên việc trích các điểm quan trọng trong chuỗi thời gian [25]. Các điểm quan trọng đƣợc lấy là các điểm cực đại và cực tiểu quan trọng và bỏ qua các điểm biến đổi nhỏ. Tỉ số nén đƣợc kiểm soát bằng tham số R > 1. Khi tăng R sẽ có ít điểm đƣợc lấy hơn. Các điểm cực trị quan trọng đƣợc định nghĩa nhƣ sau:

Điểm am trong chuỗi a1,…, an đƣợc gọi là một cực tiểu quan trọng nếu có một

cặp chỉ số i, j sao cho i  m  j, mà: am là cực tiểu trong đoạn ai…aj và ai /am  R và aj /am R.

Tƣơng tự, điểm am trong chuỗi a1,…, an đƣợc gọi là một cực đại quan trọng nếu

có một cặp chỉ số i, j sao cho i  m  j, mà: am là cực đại trong đoạn ai…aj và am /ai R

và am /aj R.

Fink và Gandhi [26] đã đề xuất giải thuật trích ra những điểm cực trị quan trọng, giải thuật này có độ phức tạp O(n). Nó quét qua chuỗi thời gian một lần và không cần qua giai đoạn tiền xử lý.

- Phương pháp điểm PIP.

Năm 2001, Chung và các cộng sự đƣa ra kỹ thuật thu giảm số chiều dựa vào các điểm PIP (Perceptually Important Points) [23]. Giải thuật xác định các điểm PIP nhƣ sau:

Với một chuỗi thời gian T đã đƣợc chuẩn hóa, hai điểm PIP đầu tiên đƣợc chọn là điểm đầu tiên và điểm cuối cùng của chuỗi T. Điểm PIP thứ ba đƣợc chọn là điểm trong T có khoảng cách lớn nhất so với hai điểm PIP đầu tiên. Điểm PIP thứ tƣ đƣợc chọn là điểm trong T có khoảng cách lớn nhất so với hai điểm PIP kế cận đã chọn (có

thể là điểm đầu và điểm thứ ba hoặc điểm thứ ba và điểm cuối). Tiến trình xác định các điểm PIP tiếp tục cho đến khi số điểm PIP đạt đƣợc số điểm yêu cầu. Khoảng cách giữa một điểm trong T với hai điểm PIP kế cận đã chọn là khoảng cách thẳng đứng

(Vertical Distance) từ điểm cần tính tới đƣờng nối hai điểm PIP kế cận đã chọn.

Những ƣu điểm của phƣơng pháp thu giảm số chiều dựa vào điểm quan trọng là (1) phù hợp với trực giác, (2) các chuỗi thời gian có chiều dài khác nhau có thể so trùng và (3) có thể thu giảm số chiều ở nhiều mức phân giải khác nhau. Thông qua thực nghiệm các tác giả cho thấy rằng cách tiếp cận dựa vào các điểm quan trọng là hiệu quả. Tuy nhiên, họ chƣa chứng minh về mặt lý thuyết tính chính xác của phƣơng pháp này, tức là thỏa đƣợc điều kiện chặn dƣới. Ngoài ra, các phƣơng pháp thu giảm số chiều dựa vào điểm quan trọng còn có một nhƣợc điểm khác là không đề xuất đƣợc cấu trúc chỉ mục đa chiều nào hỗ trợ.

Hình 2.7 minh họa quá trình nhận dạng các điểm PIP trên một chuỗi thời gian.

Hình 2.7 Minh họa quá trình nhận dạng các điểm PIP ( [23]).

 Phƣơng pháp xén dữ liệu.

Phƣơng pháp xén dữ liệu (Clipping) do Ratanamahatana và các cộng sự đề xuất năm 2005 [27]. Xén dữ liệu là một tiến trình biến đổi các giá trị số thực của một chuỗi thời gian C = (c1, …, cn) thành một chuỗi bit b tùy thuộc giá trị đó nằm trên hay dƣới

đƣờng trung bình của chuỗi. Quá trình biến đổi đƣợc thực hiện theo công thức sau:

trong đó,  là giá trị trung bình của chuỗi. Không mất tính tổng quát, tác giả giả định

rằng  = 0. Hình 2.8 minh họa kỹ thuật xén dữ liệu một chuỗi thời gian có chiều dài là

64. (2.6)     0 1 t b nếu ct >  ngƣợc lại

Ƣu điểm của kỹ thuật xén dữ liệu là (1) giữ đƣợc đặc trƣng về hình dạng xấp xỉ của chuỗi thời gian, (2) có tỉ số nén cao tối thiểu là 32:1, (3) cho phép so sánh trực tiếp giữa chuỗi truy vấn gốc và biễu diễn xấp xỉ đồng thời vẫn thỏa điều kiện chặn dƣới, (4) có thể sử dụng các phép toán chuyên dụng trên chuỗi bit. Tuy nhiên, kỹ thuật này có một số nhƣợc điểm là (1) không hỗ trợ ngƣời dùng tùy chọn tỉ lệ thu giảm số chiều, (2) không có cấu trúc chỉ mục đa chiều hỗ trợ cho bài toán tìm kiếm tƣơng tự trong cơ sở dữ liệu chuỗi thời gian lớn.

Hình 2.8 Minh họa kỹ thuật xén dữ liệu một chuỗi thời gian có chiều dài 64 ( [27]).

2.2.3 Về tính đúng đắn và tính khả chỉ mục của các phương pháp thu giảm số

chiều.

Bảng 2.1 Tổng kết về tính đúng đắn và tính khả chỉ mục của một số phương pháp thu giảm

Cấu trúc của luận án

Rời rạc hóa chuỗi thời gian