CHƯƠNG 3 : CÁC CÔNG TRÌNH CÓ LIÊN QUAN
3.4. Phát hiện motif cho dữ liệu chuỗi thời gian
3.4.4.6. Lấy mẫu các ứng viên motif bằng phép vị tự
Trong luận văn này chúng tôi đã thực hiện một phép biến hình vị tự trên tất cả các ứng viên motif. Sau khi thực hiện phép biến hình này, mỗi ứng viên motif sẽ được đại diện bởi một chuỗi dữ liệu tương ứng. Các chuỗi dữ liệu đại diện có cùng một chiều dài được cho bởi người dùng.
Một vấn đề cần quan tâm là việc chọn tâm vị tự của ứng viên motif. Để ý rằng các ứng viên Motif của chúng ta sẽ bắt đầu từ điểm cực đại (hay cực tiểu) và kết thúc bằng điểm cực đại (hay cực tiểu) tiếp theo. Như thế chúng ta sẽ dễ dàng tìm được hình chữ nhật bao quanh ứng viên motif này. Tâm của phép vị tự sẽ là tâm của hình chữ nhật bao này. Hệ số vị tự sẽ là tỷ số giữa chiều dài mong muốn với chiều dài thực của ứng viên motif.
Giải thuật tìm các motif đại diện bằng phép biến hình của ứng viên motif có chiều dài N: T={Y1…..Yn} thành T’ có chiều dài N’
1. Y_Max = MAX{Y1….. YN};Y_Min= MIN{Y1….. YN}
2. Tìm kiếm tâm I của phép biến hình vị tự:
X_Center= N/2, Y_Center=(Y_Max+Y_min)/2
3. Thực hiện phép biến hình vị tự với tâm I, hệ số vị tự k=N’/N
Việc ứng dụng phép biến hình sẽ triệt tiêu được độ ‘tỷ lệ’ hai ứng viên motif. Tuy nhiên, phép vị tự không thể tìm ra được hai motif giống nhau nếu chúng có biên độ khác nhau.
Cho hai chuỗi dữ liệu thời gian T’: {T’1,T’2…. T’N’} và Q’: {Q’1,Q’2,…. Q’N’} có cùng chiều dài N’. Thông thường độ tương tự T’ và Q’ sẽ được tính bằng công thức Euclid như sau:
Hình 3-27: Chuỗi dữ liệu sau khi lấy mẫu có chiều dài 150 điểm dùng phương pháp vị tự
Giả sử như hai chuỗi T và Q giống nhau về hình dạng, nhưng biên độ bị lệch nhau một khoảng cách nhất định. Khi đó công thức (3.11) sẽ không thể cho kết quả mong muốn. Để loại bỏ điều này chúng tôi đưa ra một thông số để triệt tiêu độ lệch b như sau:
Ta dễ dàng xác định được giá trị của b như sau: