Rời rạc hóa (discretization) chuỗi thời gian là quá trình biến đổi chuỗi thời gian
thành một chuỗi các ký tự. Phƣơng pháp rời rạc hóa tiêu biểu là phương pháp xấp xỉ
gộp ký hiệu hóa (Symbolic Aggregate approXimation - SAX) [45] và các biến thể của
nó nhƣ phương pháp xấp xỉ gộp ký hiệu hóa mở rộng (Extended SAX - ESAX) [41],
phương pháp xấp xỉ gộp ký hiệu có thể được lập chỉ mục (indexable SAX - iSAX)
[46].
Phƣơng pháp xấp xỉ gộp ký hiệu hóa do Lin và cộng sự đã đề xuất năm 2003. Phƣơng pháp này đƣợc thực hiện nhƣ sau: đầu tiên dữ liệu chuỗi thời gian đƣợc thu giảm số chiều theo phƣơng pháp PAA. Sau đó, dựa trên giá trị trung bình cộng của từng đoạn, phƣơng pháp này sẽ ánh xạ chúng thành một chuỗi các ký hiệu rời rạc bằng cách sử dụng các điểm ngắt (breakpoint). Các giá trị điểm ngắt đƣợc lựa chọn dựa trên bảng xác suất của phân bố Gauss nhằm có một xác suất bằng nhau cho mỗi ký hiệu đƣợc sử dụng trong bộ ký hiệu đƣợc dùng để rời rác hóa chuỗi thời gian. Giả sử, gọi a là kích thƣớc bộ ký hiệu đƣợc dùng để rời rạc hóa chuỗi thời gian, cho αi là ký hiệu thứ i trong bộ ký hiệu và ta đã tìm đƣợc các điểm ngắt có giá trị 1, 2,…, a-1 với 1 <2 <…<a-1. Chuỗi thời gian T = t1,…, tw sẽ đƣợc rời rạc hóa thành chuỗi ký hiệu
22
C =c1c2…cw. Trong đó mỗi phần tử ci đƣợc ánh xạ thành một ký hiệu trong bộ ký hiệu theo công thức sau:
Phƣơng pháp này biểu diễn dữ liệu chuỗi thời gian thành dạng chuỗi nên từ đó có thể áp dụng các kỹ thuật xử lý trên dữ liệu chuỗi ký tự để thực hiện xử lý, phân tích dữ liệu chuỗi thời gian. Tuy nhiên phƣơng pháp này không hỗ trợ tốt việc tính khoảng cách Euclid và dữ liệu chuỗi thời gian đƣợc giả định là phải thỏa phân bố xác suất Gauss. Hình 2.9 minh họa phƣơng pháp SAX.
Hình 2.9 Minh họa phương pháp SAX với a = 3 ( [45]).
Các phƣơng pháp rời rạc hóa thƣờng đƣợc sử dụng trong bài toán phát hiện motif hoặc phát hiện bất thƣờng trên chuỗi thời gian. Chẳng hạn nhƣ phƣơng pháp SAX đƣợc sử dụng trong phƣơng pháp chiếu ngẫu nhiên, phƣơng pháp iSAX đƣợc sử dụng trong phƣơng pháp MrMotif (các phƣơng pháp chiếu ngẫu nhiên và MrMotif đƣợc giới thiệu trong mục 2.7.2).