Rời rạc hóa chuỗi thời gian

Một phần của tài liệu Khai phá dữ liệu chuỗi thời gian dựa vào rút trích đặc trưng bằng phương pháp điểm giữa và kỹ thuật xén ( 167 trang ) (Trang 39 - 40)

Rời rạc hóa (discretization) chuỗi thời gian là quá trình biến đổi chuỗi thời gian

thành một chuỗi các ký tự. Phƣơng pháp rời rạc hóa tiêu biểu là phương pháp xấp xỉ

gộp ký hiệu hóa (Symbolic Aggregate approXimation - SAX) [45] và các biến thể của

nó nhƣ phương pháp xấp xỉ gộp ký hiệu hóa mở rộng (Extended SAX - ESAX) [41],

phương pháp xấp xỉ gộp ký hiệu có thể được lập chỉ mục (indexable SAX - iSAX)

[46].

Phƣơng pháp xấp xỉ gộp ký hiệu hóa do Lin và cộng sự đã đề xuất năm 2003. Phƣơng pháp này đƣợc thực hiện nhƣ sau: đầu tiên dữ liệu chuỗi thời gian đƣợc thu giảm số chiều theo phƣơng pháp PAA. Sau đó, dựa trên giá trị trung bình cộng của từng đoạn, phƣơng pháp này sẽ ánh xạ chúng thành một chuỗi các ký hiệu rời rạc bằng cách sử dụng các điểm ngắt (breakpoint). Các giá trị điểm ngắt đƣợc lựa chọn dựa trên bảng xác suất của phân bố Gauss nhằm có một xác suất bằng nhau cho mỗi ký hiệu đƣợc sử dụng trong bộ ký hiệu đƣợc dùng để rời rác hóa chuỗi thời gian. Giả sử, gọi a là kích thƣớc bộ ký hiệu đƣợc dùng để rời rạc hóa chuỗi thời gian, cho αi là ký hiệu thứ i trong bộ ký hiệu và ta đã tìm đƣợc các điểm ngắt có giá trị 1, 2,…, a-1 với 1 <2 <…<a-1. Chuỗi thời gian T = t1,…, tw sẽ đƣợc rời rạc hóa thành chuỗi ký hiệu

22

C =c1c2…cw. Trong đó mỗi phần tử ci đƣợc ánh xạ thành một ký hiệu trong bộ ký hiệu theo công thức sau:

Phƣơng pháp này biểu diễn dữ liệu chuỗi thời gian thành dạng chuỗi nên từ đó có thể áp dụng các kỹ thuật xử lý trên dữ liệu chuỗi ký tự để thực hiện xử lý, phân tích dữ liệu chuỗi thời gian. Tuy nhiên phƣơng pháp này không hỗ trợ tốt việc tính khoảng cách Euclid và dữ liệu chuỗi thời gian đƣợc giả định là phải thỏa phân bố xác suất Gauss. Hình 2.9 minh họa phƣơng pháp SAX.

Hình 2.9 Minh họa phương pháp SAX với a = 3 ( [45]).

Các phƣơng pháp rời rạc hóa thƣờng đƣợc sử dụng trong bài toán phát hiện motif hoặc phát hiện bất thƣờng trên chuỗi thời gian. Chẳng hạn nhƣ phƣơng pháp SAX đƣợc sử dụng trong phƣơng pháp chiếu ngẫu nhiên, phƣơng pháp iSAX đƣợc sử dụng trong phƣơng pháp MrMotif (các phƣơng pháp chiếu ngẫu nhiên và MrMotif đƣợc giới thiệu trong mục 2.7.2).

Một phần của tài liệu Khai phá dữ liệu chuỗi thời gian dựa vào rút trích đặc trưng bằng phương pháp điểm giữa và kỹ thuật xén ( 167 trang ) (Trang 39 - 40)

Tải bản đầy đủ (PDF)

(167 trang)