Một số định nghĩa

Một phần của tài liệu Nhận dạng motif trên dữ liệu chuỗi thời gian không cần xác định thông số chiều dài (Trang 29 - 32)

Cán bộ chấm nhận xét 2: TS Phạm Văn Chung

5. Uỷ viên: PGS TS Dương Tuấn Anh

2.4 Một số định nghĩa

2.4.1 Chuỗi thời gian

Định nghĩa: Một chuỗi thời gian (time serries) T = t1,…,tm là một tập có thứ tự gồm

m biến giá trị số thực.

Chuỗi thời gian có thể rất dài, đơi khi chứa hàng tỷ quan sát. Các thuộc tính tồn cục của một chuỗi thời gian thường không được quan tâm, thay vào đó, các chuyên viên khai thác dữ liệu thường giới hạn quan tâm của họ tới các phần

Chương 2: Cơ sở lý thuyết và các cơng trình liên quan GVHD: PSG. TS. Dương Tuấn Anh

Nguyễn Văn Nhất_10070490 Trang 14

2.4.2 Chuỗi con

Định nghĩa: Cho một chuỗi thời gian T có chiều dài m, một chuỗi con C của T là

một dãy bất kì chiều dài n < m của các giá trị liên tục của T, đó là, C = tp, ...,tp+n-1

cho 1 ≤ p ≤ m - n+ 1.

Một nhiệm vụ có liên quan với chuỗi con là xác định xem một chuỗi con nào

đó có tương tự như các chuỗi con khác hay không. Ý tưởng này được thể hiện trong định nghĩa của chuỗi con so trùng (match).

2.4.3 Chuỗi con so trùng

Định nghĩa: Cho một số thực dương R (được gọi là phạm vi), và một chuỗi thời

gian T có chứa một chuỗi con C bắt đầu tại vị trí p và một chuỗi con M bắt đầu

từ q, nếu D(C, M) ≤ R, vậy thì M được gọi là chuỗi con so trùng của C.

Ba định nghĩa trên được tóm tắt trong Hình 2.8, minh họa một chuỗi thời gian có chiều dài 500, và hai chuỗi con có chiều dài 128.

Hình 2.8 Minh hoạ trực quan chuỗi thời gian T (nét nhỏ), một chuỗi con C (nét đậm, màu đen) và một chuỗi con so trùng M (nét đậm màu xám) [1]

Định nghĩa của chuỗi con so trùng là khá rõ ràng và trực quan, nhưng nó là

cần thiết cho định nghĩa của chuỗi con so trùng tầm thường (trivial match).

Người ta có thể quan sát thấy rằng các chuỗi con so trùng tốt nhất cho một chuỗi con (ngồi chính bản thân nó) có xu hướng là một chuỗi con mà bắt đầu ở chỉ

Chương 2: Cơ sở lý thuyết và các cơng trình liên quan GVHD: PSG. TS. Dương Tuấn Anh

Nguyễn Văn Nhất_10070490 Trang 15

một vài điểm ở phía bên trái hoặc bên phải của chuỗi con đang xem xét. Hình 2.9

minh họa ý tưởng này.

Hình 2.9 Đối với hầu hết các chuỗi con C trong một chuỗi thời gian, chuỗi con so trùng tốt nhất là

những chuỗi con thông thường ngay bên trái và bên phải của C [1]

2.4.4 Chuỗi con so trùng tầm thường

Định nghĩa: Cho một chuỗi thời gian T, có chứa một chuỗi con C bắt đầu tại vị trí

p và một chuỗi con so trùng M bắt đầu tại q, M được gọi là một chuỗi con so trùng tầm thường của C nếu một trong hai điều kiện sau đây thỏa mãn p = q hoặc không

tồn tại một chuỗi con M bắt đầu tại q' sao cho D(C, M')>R, và hoặc là

q<q’<p hay p <q'<q.

2.4.5 Motif bậc K

Định nghĩa: Cho một chuỗi thời gian T, một chuỗi con chiều dài n và phạm vi R,

motif quan trọng nhất trong T (gọi là motif bậc 1, ký hiệu là 1-Motifs) là chuỗi con

C1 mà có số lượng các chuỗi con so trùng không tầm thường cao nhất. Motif quan trọng nhất thứ K trong T (gọi là motif bậc K, ký hiệu là K-Motifs) là chuỗi con CK

mà có số lượng cao nhất các chuỗi con so trùng không tầm thường, và đáp

Chương 2: Cơ sở lý thuyết và các cơng trình liên quan GVHD: PSG. TS. Dương Tuấn Anh

Nguyễn Văn Nhất_10070490 Trang 16

Lưu ý rằng định nghĩa này ép buộc tập các chuỗi con trong mỗi motif phải là loại trừ lẫn nhau. Điều này quan trọng bởi vì nếu khơng thì hai motif có thể chia sẻ phần lớn các thành phần, và do đó về cơ bản là giống nhau. Hình 2.10 minh họa sự cần thiết cho tình trạng này trên một tập đơn giản của chuỗi thời gian chiếu lên

khơng gian 2-D.

Hình 2.10 Một giải thích trực quan của lý do tại sao định nghĩa của motif bậc K yêu cầu rằng mỗi

motif phải cách nhau ít nhất 2R. Nếu các motif chỉ cần thiết cách nhau R như trong A, vậy thì hai motif có thể chia sẻ phần lớn các thành phần của chúng. Ngược lại, B cho thấy rằng việc yêu cầu các tâm cách nhau ít nhất 2R đảm bảo rằng các motif là duy nhất [1]

Một phần của tài liệu Nhận dạng motif trên dữ liệu chuỗi thời gian không cần xác định thông số chiều dài (Trang 29 - 32)

Tải bản đầy đủ (PDF)

(112 trang)