Chuyển đổi chuỗi thời gian sang dạng ký hiệu

Một phần của tài liệu Nhận dạng motif trên dữ liệu chuỗi thời gian không cần xác định thông số chiều dài (Trang 49 - 50)

Cán bộ chấm nhận xét 2: TS Phạm Văn Chung

5. Uỷ viên: PGS TS Dương Tuấn Anh

3.2 Phương pháp phát hiện motif không cần xác định chiều dài dựa trên nguyên

3.2.2 Chuyển đổi chuỗi thời gian sang dạng ký hiệu

Nguyên lý MDL được dùng để rút trích một mẫu được mong đợi là motif. Tuy

nhiên, có một vấn đề là các mẫu giống nhau rất ít khi xuất hiện trong chuỗi thời

gian. Hơn nữa, các mẫu được rút trích được mong đợi là không bị ảnh hưởng nhiễu của chuỗi thời gian. Vì những lý do đó, chuỗi thời gian sang sẽ được chuyển sang dạng biểu diễu ký hiệu mà nó biểu diễn hành vi không bị ảnh hưởng nhiễu. Giải

thuật chuyển đổi được minh hoạ như Hình 3.4.

Hình 3.4 Mơ tả trực quan giải thuật chuyển đổi một chuỗi thời gian sang dạng ký hiệu. (a) Các chuỗi

con thu được bằng cách dịch chuyển cửa sổ phân tích. (b) Mỗi chuỗi con được chuyển sang một ký

hiệu SAX. (c) ‘Ký hiệu hành vi’ được gán cho mỗi ký chuỗi SAX [5]

Đầu tiên, chuẩn bị một cửa sổ phân tích có chiều dài Tmin (Hình 3.4(a)). Tmin

là chiều dài tối thiểu của motif. Bằng cách dịch chuyển cửa sổ phân tích sẽ thu được analysis window region 3 region 2 region 3 break point 2 break point 1 PAA symbol 1-dimentional time-series data behavior symbol (BS)

behavior symbol sequence

Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh

Nguyễn Văn Nhất_10070490 Trang 34

tất cả các chuỗi con với chiều dài là Tmin. Tiếp theo, mỗi chuỗi con sẽ được chuyển

đổi sang dạng biểu diễn PAA (Hình 3.4(b)). Biểu diễn PAA là một biểu thức vector

thu được bằng cách chia chuỗi thời gian thành một số phân đoạn và tính tốn giá trị trung bình của mỗi phân đoạn. Trong Hình 3.4(b), mỗi chuỗi con được chia thành 4 phân đoạn. Bằng cách dùng dạng biểu diễn PAA, một chuỗi thời gian T = x1, …, xn

có chiều dài n có thể được biểu diễn như không gian w – chiều bằng vector ̅ = ̅1,…, ̅w như sau ∋ ( )∗ D+ , − + −, ! . 3.1 Trong Hình 3.4(b), dạng biểu diễn PAA của mỗi chuỗi con được biểu bởi

vector ̅. Sau đó, các điểm cắt được xác định để chuyển đổi vector w– chiều sang

dạng biểu diễn ký hiệu SAX. Theo như ví dụ trong Hình 3.4, có hai điểm cắt được xác định và chia thành ba vùng. Sau đó mỗi vùng sẽ được gán một ký hiệu SAX

duy nhất. Theo như ví dụ, ̅ của chuỗi con thứ nhất được chuyển sang dạng ký hiệu

SAX là ‘cbba’.

Tới thời điểm này, chuỗi thời gian ban đầu đã được chuyển sang một chuỗi

các ký hiệu SAX. Để thu được một chuỗi các ký hiệu mà biểu diễn hành vi của T,

mỗi chuỗi ký hiệu SAX được chuyển đổi sang một ký hiệu duy nhất. Ký hiệu đó được gọi là ký hiệu hành vi (Behavior Symbol – BS), vì mỗi chuỗi ký hiệu SAX

biểu diễn hành vi của mỗi chuỗi con. Ví dụ, theo như Hình 3.4(c), ký hiệu hành vi

‘A’ được gán cho chuỗi ký hiệu SAX ‘cbba’, và ‘B’ được gán cho chuỗi ký hiệu

SAX ‘bcba’, … Cuối cùng, từ chuỗi thời gian T thu được một chuỗi ký hiệu hành

vi.

Một phần của tài liệu Nhận dạng motif trên dữ liệu chuỗi thời gian không cần xác định thông số chiều dài (Trang 49 - 50)

Tải bản đầy đủ (PDF)

(112 trang)