Cán bộ chấm nhận xét 2: TS Phạm Văn Chung
5. Uỷ viên: PGS TS Dương Tuấn Anh
2.4 Một số định nghĩa
2.4.1 Chuỗi thời gian
Định nghĩa: Một chuỗi thời gian (time serries) T = t1,…,tm là một tập có thứ tự gồm
m biến giá trị số thực.
Chuỗi thời gian có thể rất dài, đơi khi chứa hàng tỷ quan sát. Các thuộc tính tồn cục của một chuỗi thời gian thường không được quan tâm, thay vào đó, các chuyên viên khai thác dữ liệu thường giới hạn quan tâm của họ tới các phần
Chương 2: Cơ sở lý thuyết và các cơng trình liên quan GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 14
2.4.2 Chuỗi con
Định nghĩa: Cho một chuỗi thời gian T có chiều dài m, một chuỗi con C của T là
một dãy bất kì chiều dài n < m của các giá trị liên tục của T, đó là, C = tp, ...,tp+n-1
cho 1 ≤ p ≤ m - n+ 1.
Một nhiệm vụ có liên quan với chuỗi con là xác định xem một chuỗi con nào
đó có tương tự như các chuỗi con khác hay không. Ý tưởng này được thể hiện trong định nghĩa của chuỗi con so trùng (match).
2.4.3 Chuỗi con so trùng
Định nghĩa: Cho một số thực dương R (được gọi là phạm vi), và một chuỗi thời
gian T có chứa một chuỗi con C bắt đầu tại vị trí p và một chuỗi con M bắt đầu
từ q, nếu D(C, M) ≤ R, vậy thì M được gọi là chuỗi con so trùng của C.
Ba định nghĩa trên được tóm tắt trong Hình 2.8, minh họa một chuỗi thời gian có chiều dài 500, và hai chuỗi con có chiều dài 128.
Hình 2.8 Minh hoạ trực quan chuỗi thời gian T (nét nhỏ), một chuỗi con C (nét đậm, màu đen) và một chuỗi con so trùng M (nét đậm màu xám) [1]
Định nghĩa của chuỗi con so trùng là khá rõ ràng và trực quan, nhưng nó là
cần thiết cho định nghĩa của chuỗi con so trùng tầm thường (trivial match).
Người ta có thể quan sát thấy rằng các chuỗi con so trùng tốt nhất cho một chuỗi con (ngồi chính bản thân nó) có xu hướng là một chuỗi con mà bắt đầu ở chỉ
Chương 2: Cơ sở lý thuyết và các cơng trình liên quan GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 15
một vài điểm ở phía bên trái hoặc bên phải của chuỗi con đang xem xét. Hình 2.9
minh họa ý tưởng này.
Hình 2.9 Đối với hầu hết các chuỗi con C trong một chuỗi thời gian, chuỗi con so trùng tốt nhất là
những chuỗi con thông thường ngay bên trái và bên phải của C [1]
2.4.4 Chuỗi con so trùng tầm thường
Định nghĩa: Cho một chuỗi thời gian T, có chứa một chuỗi con C bắt đầu tại vị trí
p và một chuỗi con so trùng M bắt đầu tại q, M được gọi là một chuỗi con so trùng tầm thường của C nếu một trong hai điều kiện sau đây thỏa mãn p = q hoặc không
tồn tại một chuỗi con M bắt đầu tại q' sao cho D(C, M')>R, và hoặc là
q<q’<p hay p <q'<q.
2.4.5 Motif bậc K
Định nghĩa: Cho một chuỗi thời gian T, một chuỗi con chiều dài n và phạm vi R,
motif quan trọng nhất trong T (gọi là motif bậc 1, ký hiệu là 1-Motifs) là chuỗi con
C1 mà có số lượng các chuỗi con so trùng không tầm thường cao nhất. Motif quan trọng nhất thứ K trong T (gọi là motif bậc K, ký hiệu là K-Motifs) là chuỗi con CK
mà có số lượng cao nhất các chuỗi con so trùng không tầm thường, và đáp
Chương 2: Cơ sở lý thuyết và các cơng trình liên quan GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 16
Lưu ý rằng định nghĩa này ép buộc tập các chuỗi con trong mỗi motif phải là loại trừ lẫn nhau. Điều này quan trọng bởi vì nếu khơng thì hai motif có thể chia sẻ phần lớn các thành phần, và do đó về cơ bản là giống nhau. Hình 2.10 minh họa sự cần thiết cho tình trạng này trên một tập đơn giản của chuỗi thời gian chiếu lên
khơng gian 2-D.
Hình 2.10 Một giải thích trực quan của lý do tại sao định nghĩa của motif bậc K yêu cầu rằng mỗi
motif phải cách nhau ít nhất 2R. Nếu các motif chỉ cần thiết cách nhau R như trong A, vậy thì hai motif có thể chia sẻ phần lớn các thành phần của chúng. Ngược lại, B cho thấy rằng việc yêu cầu các tâm cách nhau ít nhất 2R đảm bảo rằng các motif là duy nhất [1]