Cán bộ chấm nhận xét 2: TS Phạm Văn Chung
5. Uỷ viên: PGS TS Dương Tuấn Anh
3.2 Phương pháp phát hiện motif không cần xác định chiều dài dựa trên nguyên
3.2.2 Chuyển đổi chuỗi thời gian sang dạng ký hiệu
Nguyên lý MDL được dùng để rút trích một mẫu được mong đợi là motif. Tuy
nhiên, có một vấn đề là các mẫu giống nhau rất ít khi xuất hiện trong chuỗi thời
gian. Hơn nữa, các mẫu được rút trích được mong đợi là không bị ảnh hưởng nhiễu của chuỗi thời gian. Vì những lý do đó, chuỗi thời gian sang sẽ được chuyển sang dạng biểu diễu ký hiệu mà nó biểu diễn hành vi không bị ảnh hưởng nhiễu. Giải
thuật chuyển đổi được minh hoạ như Hình 3.4.
Hình 3.4 Mơ tả trực quan giải thuật chuyển đổi một chuỗi thời gian sang dạng ký hiệu. (a) Các chuỗi
con thu được bằng cách dịch chuyển cửa sổ phân tích. (b) Mỗi chuỗi con được chuyển sang một ký
hiệu SAX. (c) ‘Ký hiệu hành vi’ được gán cho mỗi ký chuỗi SAX [5]
Đầu tiên, chuẩn bị một cửa sổ phân tích có chiều dài Tmin (Hình 3.4(a)). Tmin
là chiều dài tối thiểu của motif. Bằng cách dịch chuyển cửa sổ phân tích sẽ thu được analysis window region 3 region 2 region 3 break point 2 break point 1 PAA symbol 1-dimentional time-series data behavior symbol (BS)
behavior symbol sequence
Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 34
tất cả các chuỗi con với chiều dài là Tmin. Tiếp theo, mỗi chuỗi con sẽ được chuyển
đổi sang dạng biểu diễn PAA (Hình 3.4(b)). Biểu diễn PAA là một biểu thức vector
thu được bằng cách chia chuỗi thời gian thành một số phân đoạn và tính tốn giá trị trung bình của mỗi phân đoạn. Trong Hình 3.4(b), mỗi chuỗi con được chia thành 4 phân đoạn. Bằng cách dùng dạng biểu diễn PAA, một chuỗi thời gian T = x1, …, xn
có chiều dài n có thể được biểu diễn như không gian w – chiều bằng vector ̅ = ̅1,…, ̅w như sau ∋ ( )∗ D+ , − + −, ! . 3.1 Trong Hình 3.4(b), dạng biểu diễn PAA của mỗi chuỗi con được biểu bởi
vector ̅. Sau đó, các điểm cắt được xác định để chuyển đổi vector w– chiều sang
dạng biểu diễn ký hiệu SAX. Theo như ví dụ trong Hình 3.4, có hai điểm cắt được xác định và chia thành ba vùng. Sau đó mỗi vùng sẽ được gán một ký hiệu SAX
duy nhất. Theo như ví dụ, ̅ của chuỗi con thứ nhất được chuyển sang dạng ký hiệu
SAX là ‘cbba’.
Tới thời điểm này, chuỗi thời gian ban đầu đã được chuyển sang một chuỗi
các ký hiệu SAX. Để thu được một chuỗi các ký hiệu mà biểu diễn hành vi của T,
mỗi chuỗi ký hiệu SAX được chuyển đổi sang một ký hiệu duy nhất. Ký hiệu đó được gọi là ký hiệu hành vi (Behavior Symbol – BS), vì mỗi chuỗi ký hiệu SAX
biểu diễn hành vi của mỗi chuỗi con. Ví dụ, theo như Hình 3.4(c), ký hiệu hành vi
‘A’ được gán cho chuỗi ký hiệu SAX ‘cbba’, và ‘B’ được gán cho chuỗi ký hiệu
SAX ‘bcba’, … Cuối cùng, từ chuỗi thời gian T thu được một chuỗi ký hiệu hành
vi.