Phương pháp tìm kiếm mẩu lặp thường xuyên (motif) do E. Keogh và các cộng sự đưa ra vào năm 2002 [1] cho chuỗi thời gian là một trong những phương pháp thường được sử dụng nhiều nhất. Mục đích của phương pháp này là tìm ra những mẩu dữ liệu thường xuất hiện trong chuỗi thời gian ban đầu, từ đó đưa ra những tóm lược và phản ánh đặc trưng cho chuỗi thời gian. Việc tìm kiếm các chuỗi thời gian con này thường phục vụ cho quá trình gom cụm dữ liệu (clustering), khám phá các luật kết hợp cũng như phân lớp (classification) dữ liệu. Các ứng dụng tìm chuỗi con xuất hiện được áp dụng trong các lĩnh vực y khoa, điều khiển tự động, chế tạo người máy…
o Chuỗi con trùng khớp (Match) : Cho một số thực dương R và một chuỗi thời gian
R thì C khớp (matching) với M.
Cách định nghĩa chuỗi con trùng khớp như trên là rõ ràng về mặt trực giác.
Nhưng cách định nghĩa này phản ánh sự khớp nhau một cách tầm thường. Chúng ta sẽ
quan tâm như thế nào là khớp tốt nhất (best matches) giữa các chuỗi con. Và chúng ta có hai chuỗi con khớp với chuỗi con hiện có tại hai điểm bên trái và bên phải.
Từ sự quan sátHình 3-10, ta đưa ra định nghĩa khớp tầm thường như sau:
Hình 3-9 Mô phỏng phát hiện motif dữ liêu chuỗi thời gian. 3 chuỗi dữ liệu con bên dưới thường xuất hiện trong chuỗi dữ liệu ban đầu ở phía trên.
Hình 3-10 Mô phỏng chuỗi con trùng khớp (matching) giữa hai chuỗi con
C và M. Chuỗi thời gian T là đường màu đen nhỏ, chuỗi con C có hình màu đen in đậm và chuỗi M có hình màu xám.
một chuỗi con trùng khớp tầm thường với C nếu p=q hoặc không tồn tại chuỗi con M’ bắt đầu từ vị trí p’ mà D(C,M’)>R và q<q’<p hay p<q’<q.
Hình 3-11 Trong hầu hết các chuỗi con C, sẽ có hai chuỗi con khớp (match) tốt nhất nằm ở phía bên trái và bên phải chuỗi này.
Ngoài ra, ta cũng đưa ra định nghĩa Motif-bậc-K như sau : Cho chuỗi thời gian
T, một chuỗi con có chiều dài n và một ngưỡng R, một motif tốt nhất trong T (gọi là
motif-bậc-nhất) là một chuỗi con C1 sao cho số lượng khớp không tầm thường (none- trivial matches) là lớn nhất. Và Kth mẫu khớp tốt nhất trong T (gọi là motif-bậc-K) là một dãy con Ck có số lượng khớp không tầm thường lớn nhất thỏa điều kiện D(Ck, Ci) >2R với mọi 1<i<K.
Dựa vào Hình 3-12 ta thấy khoảng cách giữa hai chuỗi Ck và Ci thỏa D(Ck, Ci) > 2R vì nếu ngược lại, hai chuỗi con này sẽ có giá trị chung.