Cán bộ chấm nhận xét 2: TS Phạm Văn Chung
5. Uỷ viên: PGS TS Dương Tuấn Anh
3.3 Mở rộng và cải tiến giải thuật
3.3.1 Chỉnh sửa dữ liệu thời gian dạng ký hiệu hành vi BS
Chuỗi ký hiệu hành vi Ε biểu diễn hành vi của dữ liệu chuỗi thời gian. Vì vậy, nên tiến hành tìm kiếm các mẫu từ chuỗi ký hiệu hành vi. Tuy nhiên, tất cả các mẫu
được rút trích từ Ε ln ln có cùng chiều dài. Ví dụ, giả sử rằng một chuỗi con
BS ‘ABC’ được rút trích từ một chuỗi BS được mô tả trong
Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 39
Ở đây, ta nhớ lại rằng mỗi ký hiệu hành vi biểu diễn một hành vi của mỗi
chuỗi con có chiều dài Tmin. Do đó, tất cả các chuỗi con tương ứng với mẫu BS
‘ABC’ có chiều dài là Tmin + 3 và có chiều dài bằng nhau.
Hình 3.6 (a) Chuỗi BS thu được từ chuỗi thời gian. (b) Chuỗi BS được chỉnh sửa [5]
Để giải quyết vấn đề này, chuỗi BS ban đầu cần được chỉnh sửa lại. Trước
tiên, tiến hành dị tìm tất cả chuỗi con BS mà chỉ chứa các ký hiệu giống nhau và xuất hiện lặp lại, và đếm số lượng của ký hiệu này (gọi là chiều dài BS). Ví dụ,
trong
Hình 3.6(a), ký hiệu hành vi thứ ba và thứ tư là ‘C’, nên chuỗi con BS ‘CC’
được chuyển sang ‘C’ với chiều dài BS là 2. Chuỗi BS này được gọi là chuỗi BS đã được chỉnh sửa. Bằng cách rút trích các mẫu BS từ chuỗi BS đã được chỉnh sửa, có
thể dị tìm được các mẫu có chiều dài khác nhau.
Một điều cần lưu ý là các mẫu có chiều dài khác nhau được rút trích từ chuỗi BS đã được chỉnh sửa phải thoả mãn ràng buộc hành vi. Trong Hình 3.7(a), ký hiệu
hành vi ‘A’ đầu tiên biểu diễn hành vi trong khu vực từ 1 tới 3. Chuỗi con trong khu
vực này từ 2 tới 4 có cùng hành vi. Vì vậy, ký hiệu hành vi thứ hai cũng được gán là
‘A’. Các chuỗi con trong khu vực từ 1 tới 4 hầu như có cùng hành vi. Do đó, có thể
chuyển đổi hai ký hiệu ‘AA’ đầu tiên thành một ký hiệu ‘A’. Tương tự ví dụ này, có thể chuyển đổi phần còn lại của chuỗi BS như thế thành một ký hiệu.
BS sequence
analysis window
length of TSS Tmin+3 Tmin+3 Tmin+3
Tmin+4 Tmin+3 Tmin+3
Modified BS sequence
BS length length of TSS
Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 40
Như đã được đề cập ở phần trên, các mẫu có chiều dài khác nhau có thể được rút trích. Nhưng khơng thể tiến hành tính tốn khoảng cách Euclid giữa hai chuỗi thời gian có chiều dài khác nhau.
Hình 3.7 (a) Chuỗi BS ban đầu và (b) chuỗi BS đã được chỉnh sửa [5]
Tác giả đã đề nghị dùng độ đo xoắn thời gian động để tính khoảng cách giữa hai chuỗi thời gian bất kỳ. Tuy nhiên, độ phức tạp của hàm tính tốn này thường rất lớn và mất nhiều thời gian để tính tốn khoảng cách giữa hai chuỗi thời gian. Vì
vậy, chúng tôi đã dùng phép vị tự kết hợp với độ đo Euclid để tính tốn khoảng
cách giữa hai chuỗi thời gian bất kỳ. Phép vị tự này cho phép co giãn một chuỗi thời gian ban đầu thành một chuỗi thời gian với một chiều dài xác định nào đó. Do đó
hai chuỗi thời gian có độ dài khác nhau có thể được chuyển thành hai chuỗi có độ analysis
Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 41
dài bằng nhau bằng phép vị tự. Sau đó, tiếp tục dùng hàm tính tốn khoảng cách
Euclid để tính khoảng cách giữa chúng.