Do tính chất đặc thù của dữ liệu chuỗi thời gian, định nghĩa một phƣơng pháp thu giảm số chiều đúng đắn và hữu hiệu vẫn là một vấn đề thời sự trong lĩnh vực khai phá dữ liệu chuỗi thời gian [84]. Khi đánh giá một phƣơng pháp thu giảm số chiều, ngƣời ta quan tâm đến ba vấn đề chính là sự chính xác, sự hữu hiệu khi tìm kiếm trong không gian đặc trƣng và chi phí hậu kiểm. Để đảm bảo chính xác, lỗi tìm sót (false dismissal) không đƣợc phép xảy ra, nghĩa là độ đo trong không gian đặc trƣng phải thỏa điều kiện chặn dƣới. Để việc tìm kiếm trong không gian đặc trƣng đạt hiệu quả, phƣơng pháp thu giảm số chiều cần có tính khả chỉ mục và chi phí hậu kiểm thấp. Để chi phí hậu kiểm thấp, lỗi tìm sai (false alarm) phải càng ít càng tốt. Lỗi tìm sai nhiều hay ít đƣợc thể hiện qua độ chặt của chặn dƣới và tỉ lệ thu giảm truy xuất. Phƣơng pháp thu giảm số chiều có độ chặt chặn dƣới càng cao (càng gần 1) và/hoặc tỉ lệ thu giảm truy xuất càng thấp (càng gần 0) thì phƣơng pháp đó càng có ít lỗi tìm sai.
Từ những ƣu điểm của phƣơng pháp PAA, các phƣơng pháp dựa vào điểm quan trọng và phƣơng pháp xén dữ liệu (xem mục 2.2), chúng tôi tiến hành kết hợp ý tƣởng của các phƣơng pháp này để hình thành một phƣơng pháp thu giảm số chiều mới, gọi là MP_C, nhằm tận dụng những ƣu điểm của các phƣơng pháp trên, đồng thời khắc phục nhƣợc điểm còn tồn tại của chúng.
47
Phƣơng pháp MP_C dựa trên việc chia chuỗi có chiều dài n thành N đoạn (seg-
ment) với N << n. Một số điểm trong mỗi đoạn sẽ đƣợc chọn. Việc chọn các điểm này nhằm mục đích tăng độ chặt chặn dƣới của phƣơng pháp đề xuất so với phƣơng pháp thông dụng PAA đồng thời có thể lƣu trữ hình dạng xấp xỉ của chuỗi. Số đoạn càng lớn và số điểm trong mỗi đoạn đƣợc chọn càng nhiều thì độ chặt chặn dƣới càng cao (điều này đƣợc thể hiện qua độ đo DMP_C(Q’, C’) (mục 3.2)). Để tiết kiệm không gian lƣu trữ, các điểm đƣợc chọn này đƣợc biến đổi thành chuỗi nhị phân, trong đó mỗi bit đƣợc lƣu trữ là 0 hay 1 tùy thuộc giá trị của điểm nằm trên hay dƣới đƣờng trung bình của đoạn chứa điểm đó. Chuỗi bit cùng với giá trị trung bình của các đoạn sẽ đƣợc lƣu giữ làm đặc trƣng của chuỗi.
Các điểm trong mỗi đoạn có thể đƣợc chọn theo một qui luật nào đó theo trục thời gian, chẳng hạn để lấy l điểm trong mỗi đoạn, ta có thể lấy l điểm đầu hoặc cuối mỗi đoạn hoặc chọn l điểm quan trọng (nhƣ của phƣơng pháp PIP) hay chia đoạn
thành l đoạn con rồi chọn điểm giữa của mỗi đoạn con. Nếu chọn l điểm đầu hay cuối trong mỗi đoạn tuy làm cho tăng độ chặt chặn dƣới nhƣng vì các điểm dữ liệu đƣợc chọn không phân bố đều trên đoạn nên không thể hiện đƣợc hình dạng xấp xỉ của đoạn đó. Nếu chọn theo l điểm PIP, tuy có thể thể hiện hình dạng xấp xỉ của đoạn nhƣng phí tổn về thời gian sẽ tăng cao khi số điểm đƣợc chọn tăng (thu giảm số chiều theo cách này có độ phức tạp là O(nlog2k), với n là chiều dài chuỗi thời gian và k là số điểm quan
trọng đƣợc chọn trong mỗi đoạn). Nếu chọn theo điểm giữa của l đoạn con, ngoài việc tăng độ chặt của chặn dƣới ta có thể lƣu đƣợc hình dạng xấp xỉ của đoạn, nhƣng độ phức tạp tính toán vẫn là O(n) (mục 3.3), tƣơng đƣơng với độ phức tạp tính toán của phƣơng pháp PAA hay xén dữ liệu. Trong luận án này, chúng tôi thực hiện theo cách chọn điểm giữa của l đoạn con.
Với phƣơng pháp MP_C, khi xem xét độ tƣơng tự giữa hai chuỗi, ta có thể xem xét độ tƣơng tự về mặt giá trị kết hợp với tƣơng tự về mặt hình dạng bằng cách tịnh tiến cho hai đƣờng trung bình của các đoạn tƣơng ứng trùng nhau rồi so sánh các điểm đƣợc chọn dựa trên các bit biểu diễn và cộng thêm khoảng cách giữa các trung bình đoạn.
48
Cho một cơ sở dữ liệu S gồm k chuỗi thời gian S = {C1, …, Ck} và một chuỗi truy vấn Q = q1, …, qn. Không mất tính tổng quát, giả sử các chuỗi trong cơ sở dữ liệu S có cùng chiều dài n và mỗi chuỗi coi nhƣ một đoạn. Chia đoạn Ci= (c1, …,cn) thành l
đoạn con bằng nhau (l ≤ n), chọn ra các điểm giữa của l đoạn con và tính trung bình
của đoạn. Để giảm thiểu dung lƣợng bộ nhớ cần lƣu các đặc trƣng cho đoạn, kỹ thuật MP_C lƣu các điểm giữa đƣợc chọn dƣới dạng chuỗi bit b theo công thức sau:
(3.1) Trong đó, là giá trị trung bình của đoạn.
ct là giá trị điểm giữa của đoạn con t, với t = 1, …, l.
Ý tƣởng chính khi so sánh chuỗi truy vấn Q với một chuỗi thời gian C trong cơ
sở dữ liệu là biến đổi Q vào cùng không gian đặc trƣng nhƣ C ngoại trừ các điểm giữa không cần chuyển sang chuỗi bit. Sau đó di chuyển đƣờng trung bình của Q trùng với đƣờng trung bình của C nhằm so sánh sự giống nhau về hình dạng của hai chuỗi.
Ngoài ra, cần cộng thêm khoảng cách giữa hai đƣờng trung bình của hai chuỗi để tính toán sự sai biệt về mặt giá trị.
Nhƣ vậy, với kỹ thuật MP_C, khi số đoạn đƣợc chọn là một và số điểm đƣợc chọn bằng đúng chiều dài chuỗi thì kỹ thuật này trở thành kỹ thuật xén dữ liệu. Do vậy kỹ thuật MP_C cũng có các ƣu điểm nhƣ của kỹ thuật xén dữ liệu. Ngoài ra kỹ thuật MP_C còn có tính chất đa mức phân giải, có sự uyển chuyển trong việc chọn số điểm đƣợc xén và có thể kết hợp với chỉ mục đƣờng chân trời hỗ trợ việc tìm kiếm tƣơng tự hữu hiệu mà kỹ thuật xén dữ liệu không có (điều này đƣợc trình bày chi tiết trong mục 3.4).
Tổng quát, để tăng độ chính xác của biểu diễn xấp xỉ theo phƣơng pháp MP_C, chúng ta có thể chia mỗi chuỗi thời gian thành N (N << n) đoạn có độ dài w và thực
hiện biến đổi nhƣ trên cho mỗi đoạn. Trƣờng hợp này, với mỗi chuỗi ta chỉ cần lƣu N giá trị trung bình và l * N bits. Hình 3.1 minh họa trực quan phƣơng pháp này với số đoạn N = 3 và số điểm giữa đƣợc chọn trong mỗi đoạn l = 4. Trong ví dụ này ta sẽ lƣu
1 và 1100 ; 2 và 1100; 3 và 1100. Hình 3.2 minh họa thuật toán thu giảm số chiều chuỗi thời gian bằng kỹ thuật MP_C.
0 1 t b Nếu ct > ngƣợc lại
49
Hình 3.1 Minh họa phương pháp MP_C. Thuật toán: Thu giảm số chiều chuỗi thời gian bằng phƣơng pháp MP_C. // C = (c1, c2,…, cn ) là chuỗi thời gian, N là số đoạn, m là chiều dài mỗi đoạn. // l là số điểm giữa đƣợc chọn trong mỗi đoạn.
// µ mảng chứa các giá trị trung bình của các đoạn.
// b mảng chứa các chuỗi bit tƣơng ứng với các điểm giữa đƣợc chọn trong mỗi đoạn. Khởi tạo các biến µ, b
Forj = 0 toN-1
{
Fork = j * mtom*(j+1)-1 // tính trung bình đoạn j. µj = µj + ck
µj = µj /m
For i = 0 tol-1 {
si = giá trị điểm giữa của đoạn con i đƣợc lấy tại vị trí trong đoạn j.
if (si > µj) bji = 1 else bji = 0 }
}
Hình 3.2 Thuật toán thu giảm số chiều chuỗi thời gian bằng phương pháp MP_C.