Chỉnh sửa dữ liệu thời gian dạng ký hiệu hành vi BS

Một phần của tài liệu Nhận dạng motif trên dữ liệu chuỗi thời gian không cần xác định thông số chiều dài (Trang 54 - 57)

Cán bộ chấm nhận xét 2: TS Phạm Văn Chung

5. Uỷ viên: PGS TS Dương Tuấn Anh

3.3 Mở rộng và cải tiến giải thuật

3.3.1 Chỉnh sửa dữ liệu thời gian dạng ký hiệu hành vi BS

Chuỗi ký hiệu hành vi Ε biểu diễn hành vi của dữ liệu chuỗi thời gian. Vì vậy, nên tiến hành tìm kiếm các mẫu từ chuỗi ký hiệu hành vi. Tuy nhiên, tất cả các mẫu

được rút trích từ Ε ln ln có cùng chiều dài. Ví dụ, giả sử rằng một chuỗi con

BS ‘ABC’ được rút trích từ một chuỗi BS được mô tả trong

Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh

Nguyễn Văn Nhất_10070490 Trang 39

Ở đây, ta nhớ lại rằng mỗi ký hiệu hành vi biểu diễn một hành vi của mỗi

chuỗi con có chiều dài Tmin. Do đó, tất cả các chuỗi con tương ứng với mẫu BS

‘ABC’ có chiều dài là Tmin + 3 và có chiều dài bằng nhau.

Hình 3.6 (a) Chuỗi BS thu được từ chuỗi thời gian. (b) Chuỗi BS được chỉnh sửa [5]

Để giải quyết vấn đề này, chuỗi BS ban đầu cần được chỉnh sửa lại. Trước

tiên, tiến hành dị tìm tất cả chuỗi con BS mà chỉ chứa các ký hiệu giống nhau và xuất hiện lặp lại, và đếm số lượng của ký hiệu này (gọi là chiều dài BS). Ví dụ,

trong

Hình 3.6(a), ký hiệu hành vi thứ ba và thứ tư là ‘C’, nên chuỗi con BS ‘CC’

được chuyển sang ‘C’ với chiều dài BS là 2. Chuỗi BS này được gọi là chuỗi BS đã được chỉnh sửa. Bằng cách rút trích các mẫu BS từ chuỗi BS đã được chỉnh sửa, có

thể dị tìm được các mẫu có chiều dài khác nhau.

Một điều cần lưu ý là các mẫu có chiều dài khác nhau được rút trích từ chuỗi BS đã được chỉnh sửa phải thoả mãn ràng buộc hành vi. Trong Hình 3.7(a), ký hiệu

hành vi ‘A’ đầu tiên biểu diễn hành vi trong khu vực từ 1 tới 3. Chuỗi con trong khu

vực này từ 2 tới 4 có cùng hành vi. Vì vậy, ký hiệu hành vi thứ hai cũng được gán là

‘A’. Các chuỗi con trong khu vực từ 1 tới 4 hầu như có cùng hành vi. Do đó, có thể

chuyển đổi hai ký hiệu ‘AA’ đầu tiên thành một ký hiệu ‘A’. Tương tự ví dụ này, có thể chuyển đổi phần còn lại của chuỗi BS như thế thành một ký hiệu.

BS sequence

analysis window

length of TSS Tmin+3 Tmin+3 Tmin+3

Tmin+4 Tmin+3 Tmin+3

Modified BS sequence

BS length length of TSS

Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh

Nguyễn Văn Nhất_10070490 Trang 40

Như đã được đề cập ở phần trên, các mẫu có chiều dài khác nhau có thể được rút trích. Nhưng khơng thể tiến hành tính tốn khoảng cách Euclid giữa hai chuỗi thời gian có chiều dài khác nhau.

Hình 3.7 (a) Chuỗi BS ban đầu và (b) chuỗi BS đã được chỉnh sửa [5]

Tác giả đã đề nghị dùng độ đo xoắn thời gian động để tính khoảng cách giữa hai chuỗi thời gian bất kỳ. Tuy nhiên, độ phức tạp của hàm tính tốn này thường rất lớn và mất nhiều thời gian để tính tốn khoảng cách giữa hai chuỗi thời gian. Vì

vậy, chúng tôi đã dùng phép vị tự kết hợp với độ đo Euclid để tính tốn khoảng

cách giữa hai chuỗi thời gian bất kỳ. Phép vị tự này cho phép co giãn một chuỗi thời gian ban đầu thành một chuỗi thời gian với một chiều dài xác định nào đó. Do đó

hai chuỗi thời gian có độ dài khác nhau có thể được chuyển thành hai chuỗi có độ analysis

Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh

Nguyễn Văn Nhất_10070490 Trang 41

dài bằng nhau bằng phép vị tự. Sau đó, tiếp tục dùng hàm tính tốn khoảng cách

Euclid để tính khoảng cách giữa chúng.

Một phần của tài liệu Nhận dạng motif trên dữ liệu chuỗi thời gian không cần xác định thông số chiều dài (Trang 54 - 57)

Tải bản đầy đủ (PDF)

(112 trang)