Cán bộ chấm nhận xét 2: TS Phạm Văn Chung
5. Uỷ viên: PGS TS Dương Tuấn Anh
3.1 Phương pháp giải quyết vấn đề
Vấn đề phát hiện motif trên dữ liệu chuỗi thời gian được xem như đã được giải
quyết. Tuy nhiên, các giải pháp hiện tại phát hiện motif đòi hỏi phải chỉ rõ chiều dài của motif và hoặc là chất lượng cao và rất tốn kém, hoặc chất lượng thấp và chi phí thấp. Phương pháp phát hiện motif mà không cần xác định trước chiều dài của motif
được giới thiệu như sau.
Trước tiên, cần nhận biết được định nghĩa mẫu của chuỗi thời gian. Tất cả
các chuỗi con thuộc cùng một mẫu phải thoả mãn ba ràng buộc sau đây
• Ràng buộc hành vi (Behavior constraint): Các chuỗi con phải có cùng hành
vi như được mơ tả trong Hình 3.1(a).
• Ràng buộc khoảng cách (Distance constraint): Khoảng cách giữa hai chuỗi
Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 30
dùng định nghĩa. Ví dụ, Hình 3.1(b) biểu diễn tất cả khoảng cách giữa B và các chuỗi con nhỏ hơn R. Vì vậy, các chuỗi con này thoả mãn ràng buộc khoảng cách. B được gọi là trung tâm của mẫu (center of pattern).
• Ràng buộc không chồng lấp lên nhau (Non-overlapping constraint): Các
chuỗi con không được chồng lấp lên nhau. Ví dụ, hai chuỗi con được mơ tả trong Hình 3.1(c) có hành vi giống nhau. Tuy nhiên, các chuỗi con này chồng lấp lên nhau (được biểu diễn bằng đường in đậm). Vì vậy, chúng
không thuộc về cùng một mẫu. Bằng cách giới thiệu ràng buộc không chồng lấp lên nhau, giải thuật phát hiện motif có thể được phân loại như là một
công cụ cho việc phân đoạn chuỗi thời gian. Ví dụ, nếu việc chồng lấp lên
nhau được chấp nhận, đối với chuỗi ‘CABBBABBBAA’ thì ABBBA có thể
được rút trích như là một motif. Nhưng, trong trường hợp này, hai chuỗi có
chung A, và có thể có hai phân đoạn: một phân đoạn là C, ABBBA và
BBBAA. Một phân đoạn khác là CABBB, ABBBA và A. Trong khi đó, nếu
áp dụng ràng buộc không được chồng lấp lên nhau, ABBB có thể được rút
trích như một motif. Trong trường hợp này, chuỗi này có thể được phân đoạn như C, ABBB, ABBB và AA.
Hình 3.1 Ràng buộc của mẫu: (a) ‘ràng buộc hành vi’, (b) ‘ràng buộc khoảng cách’ và (c) ‘ràng buộc không chồng lấp lên nhau’. (c) biểu diễn một ví dụ của vi phạm ràng buộc chồng lấp lên nhau [5]
time-series subsequences Distance(B,D) <R Distance(B, C) Distance(B, A) <R
(= center of the pattern)
overlapping B T T t t
Chương 3: Phương pháp th
Nguyễn Văn Nhất_100704
Giải thuật được chiều dài n sẽ được thu dưới dạng biểu diễn PA rời rạc hoá SAX để ch dạng biểu diễn ký hi cách,… đặc biệt là áp d Các mẫu được xem là
đặc biệt ở đây là nguyê
motif tìm được sẽ thu
thời gian. Hình 3.2 min
3.2 Phương pháp dài dựa trên ngu
3.2.1 Sơ đồ giải t
Sơ đồ tổng quan của
chiều dài dựa trên nguy
thực hiện GVHD: PSG.
0490
c tiến hành như sau: từ một dữ liệu chuỗi t thu giảm số chiều thành w chiều (với w < n PAA. Tiếp theo, từ dạng biểu diễn PAA, sử chuyển sang dạng biểu diễn dưới dạng ký h hiệu này, sử dụng các phương pháp tính p dụng nguyên lý MDL để phát hiện được c là motif phải thoả mãn ba ràng buộc như đư yên lý MDL sẽ xác định một cách động chi hu được motif dưới dạng biểu diễn ban đầ
inh hoạ quá trình này.
Hình 3.2 Quá trình phát hiện motif
háp phát hiện motif khơng cần x guyên lý MDL
i thuật MD
a giải thuật phát hiện motif MD khơng cầ gun lý MDL được mơ tả như Hình 3.3.
G. TS. Dương Tuấn Anh
Trang 31
i thời gian ban đầu có
< n, thường thì w<<n)
ử dụng phương pháp
ý hiệu hành vi BS. Từ ính tốn, tính khoảng c các motif mong đợi.
ư được nêu ở trên. Điều
chiều dài của motif. Từ
ầu của dữ liệu chuỗi
n xác định chiều
Chương 3: Phương pháp th
Nguyễn Văn Nhất_100704
Hình 3
thực hiện GVHD: PSG.
0490
3.3 Sơ đồ tổng quan của giải thuật phát hiện motif M
G. TS. Dương Tuấn Anh
Trang 32
Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 33
3.2.2 Chuyển đổi chuỗi thời gian sang dạng ký hiệu
Nguyên lý MDL được dùng để rút trích một mẫu được mong đợi là motif. Tuy
nhiên, có một vấn đề là các mẫu giống nhau rất ít khi xuất hiện trong chuỗi thời
gian. Hơn nữa, các mẫu được rút trích được mong đợi là không bị ảnh hưởng nhiễu của chuỗi thời gian. Vì những lý do đó, chuỗi thời gian sang sẽ được chuyển sang dạng biểu diễu ký hiệu mà nó biểu diễn hành vi không bị ảnh hưởng nhiễu. Giải
thuật chuyển đổi được minh hoạ như Hình 3.4.
Hình 3.4 Mơ tả trực quan giải thuật chuyển đổi một chuỗi thời gian sang dạng ký hiệu. (a) Các chuỗi
con thu được bằng cách dịch chuyển cửa sổ phân tích. (b) Mỗi chuỗi con được chuyển sang một ký
hiệu SAX. (c) ‘Ký hiệu hành vi’ được gán cho mỗi ký chuỗi SAX [5]
Đầu tiên, chuẩn bị một cửa sổ phân tích có chiều dài Tmin (Hình 3.4(a)). Tmin
là chiều dài tối thiểu của motif. Bằng cách dịch chuyển cửa sổ phân tích sẽ thu được analysis window region 3 region 2 region 3 break point 2 break point 1 PAA symbol 1-dimentional time-series data behavior symbol (BS)
behavior symbol sequence
Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 34
tất cả các chuỗi con với chiều dài là Tmin. Tiếp theo, mỗi chuỗi con sẽ được chuyển
đổi sang dạng biểu diễn PAA (Hình 3.4(b)). Biểu diễn PAA là một biểu thức vector
thu được bằng cách chia chuỗi thời gian thành một số phân đoạn và tính tốn giá trị trung bình của mỗi phân đoạn. Trong Hình 3.4(b), mỗi chuỗi con được chia thành 4 phân đoạn. Bằng cách dùng dạng biểu diễn PAA, một chuỗi thời gian T = x1, …, xn
có chiều dài n có thể được biểu diễn như không gian w – chiều bằng vector ̅ = ̅1,…, ̅w như sau ∋ ( )∗ D+ , − + −, ! . 3.1 Trong Hình 3.4(b), dạng biểu diễn PAA của mỗi chuỗi con được biểu bởi
vector ̅. Sau đó, các điểm cắt được xác định để chuyển đổi vector w– chiều sang
dạng biểu diễn ký hiệu SAX. Theo như ví dụ trong Hình 3.4, có hai điểm cắt được xác định và chia thành ba vùng. Sau đó mỗi vùng sẽ được gán một ký hiệu SAX
duy nhất. Theo như ví dụ, ̅ của chuỗi con thứ nhất được chuyển sang dạng ký hiệu
SAX là ‘cbba’.
Tới thời điểm này, chuỗi thời gian ban đầu đã được chuyển sang một chuỗi
các ký hiệu SAX. Để thu được một chuỗi các ký hiệu mà biểu diễn hành vi của T,
mỗi chuỗi ký hiệu SAX được chuyển đổi sang một ký hiệu duy nhất. Ký hiệu đó được gọi là ký hiệu hành vi (Behavior Symbol – BS), vì mỗi chuỗi ký hiệu SAX
biểu diễn hành vi của mỗi chuỗi con. Ví dụ, theo như Hình 3.4(c), ký hiệu hành vi
‘A’ được gán cho chuỗi ký hiệu SAX ‘cbba’, và ‘B’ được gán cho chuỗi ký hiệu
SAX ‘bcba’, … Cuối cùng, từ chuỗi thời gian T thu được một chuỗi ký hiệu hành
vi.
3.2.3 Đánh giá ứng viên motif dựa trên nguyên lý MDL
Để đánh giá sự tối ưu hoá của các mẫu được rút trích từ chuỗi Ε bằng cách dùng nguyên lý MDL, các tác giả đã đưa ra định nghĩa chiều dài mô tả của chuỗi ký hiệu.
Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 35
Giả sử rằng np là chiều dài của chuỗi con SC xuất hiện trong chuỗi Ε và sp là số ký hiệu khác nhau được dùng trong SC. Trước tiên, để mã hoá số ký hiệu của SC thì
cần ΦΓΗ ∗Ι bít. Sau đó, mã hố các nhãn của tất cả np ký hiệu u cầu npΦΓΗ >Ι bít. Vì vậy, chiều dài mô tả của SC được định nghĩa như sau
ϑ 1 log ∗Ι + ∗Ιlog >Ι 3.2 Tiếp theo, tác giả đưa ra định nghĩa chiều dài mô tả DL(Ε|SC). Đây là chiều
dài mô tả của Ε trong đó chuỗi con SC được thay thế bởi một ký hiệu. Chiều dài của chuỗi như vậy là ∗Ο, số ký hiệu duy nhất của chuỗi là sa và tần suất xuất hiện của
SC trong Ε là q. Chiều dài mơ tả DL(Ε|SC) được tính tốn như sau
ϑΒ ΕΠ1 Χ log ∗Ο + ∗Οlog >Ο + 3.3 Trong đó, ΦΓΗ ∗Ο là số bít cần thiết để mã hoá số ký hiệu của Ε. ∗ΟΦΓΗ >Ο + là số bít cần thiết để mã hoá các nhãn của tất cả ∗Ο. Cuối cùng, hàm đánh giá MDL của Ε đối với SC được định nghĩa như sau
(3.4)
Chuỗi con SC mà có giá trị nhỏ nhất của hàm đánh giá MDL được gọi là
‘mẫu MDL’ của Ε. Nó tương ứng với motif của chuỗi thời gian.
3.2.4 Rút trích motif từ chuỗi ký hiệu hành vi BS
Hình 3.5(a) là một chuỗi ký hiệu hành vi Ε. Tại đây, chuẩn bị một cửa sổ phân tích (analysis window) với một chiều dài cho trước. Bằng cách dịch cửa sổ phân tích này, sẽ thu được các chuỗi con BS (BSS) mà chiều dài của chúng bằng với chiều
dài cửa sổ. Ví dụ, tiến hành dịch chuyển cửa sổ phân tích với chiều dài bằng 3, và thu được các chuỗi con BS như là ‘ABC’, ‘BCB’ và ‘CBC’. Sau đó, tiến hành rút
trích những chuỗi con BS mà có tần suất xuất hiện nhiều nhất trong Ε. Trong Hình Θ ϑΒ ΕΠ1 Χ ϑΒ ΕΠ1 Χ + ϑ 1
Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 36
3.5(b), ‘BCB’ xuất hiện 5 lần, vì vậy ‘BCB’ được rút trích vì xuất hiện nhiều nhất
trong Ε.
Ở đây, ta nên nhớ lại tất cả các chuỗi con mà thuộc cùng một mẫu phải thoả
mãn ràng buộc khoảng cách. Tuy nhiên, tất cả các chuỗi con tương ứng với các
chuỗi con BS được rút trích khơng phải lúc nào cũng thoả mãn ràng buộc khoảng
cách. Vì vậy, để thu được một mẫu mà thoả mãn ràng buộc khoảng cách, cần tiến
hành tính tốn khoảng cách giữa mỗi cặp chuỗi con.
Hình 3.5(c) biểu diễn chuỗi con tương ứng với mẫu BS là ‘BCB’. Sau đó,
tiến hành tính tốn khoảng cách Euclid giữa mỗi hai chuỗi con trong mẫu và lập một ma trận khoảng cách như mô tả trong Hình 3.5(d). Ví dụ, ma trận khoảng cách thể hiện rằng các khoảng cách Euclid giữa chuỗi con thứ nhất với các chuỗi con khác tương ứng là 10, 50, 20 và 45. Tiếp theo, tiến hành tính số lượng các chuỗi con mà khoảng cách của chúng nhỏ hơn ngưỡng R. Giả sử rằng trong ví dụ này R = 30 do đó số lượng đếm được của chuỗi con thứ nhất là 2.
Hơn nữa, để xác định các thành viên của một mẫu, cần tiến hành xác định
trung tâm của mẫu. Trong cách tiếp cận này, các chuỗi con có số đếm lớn nhất được xem là ứng viên của trung tâm của mẫu. Trong Hình 3.5(d), số đếm lớn nhất là 2, và ba chuỗi con (thứ nhất, thứ hai và thứ tư) được xem là các ứng viên của trung tâm
của mẫu. Tiếp theo, tiến hành tính tốn tổng các khoảng cách mà nhỏ hơn R. Ví dụ, giá trị tổng của chuỗi con thứ nhất là 10 + 20 = 30, chuỗi con thứ hai là 10 + 25 = 35, và chuỗi con thứ tư là 20 + 25 = 45. 30 là giá trị nhỏ nhất trong ba giá trị 30, 35 và 45. Vì vậy, chuỗi con thứ nhất được xem là trung tâm của mẫu. Cuối cùng, các
chuỗi con mà khoảng cách của nó so với trung tâm nhỏ hơn R được rút trích. Những chuỗi con này được xem là những thành viên của mẫu. Theo như trong Hình 3.5(e), các chuỗi con thứ nhất, thứ hai và thứ tư được rút trích như là thành viên của mẫu. Sau đó, trong Hình 3.5(f), các chuỗi con BS tương ứng với các chuỗi con được xem như là các thành viên của mẫu BS ‘BCB’.
Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 37
Hình 3.5 Mơ tả trực quan giải thuật dị tìm các mẫu bằng nguyên lý MDL [5]
pointer 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1819 2021 22 23 24 25 26 27 28 29 30 31 32 33 pointer 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1819 2021 22 23 24 25 26 27 28 29 30 31 32 33 pointer 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1819 2021 22 23 24 25 26 27 28 29 30 31 32 33 pointer 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1819 2021 22 23 24 25 26 27 28 29 30 31 32 33 pointer 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1819 2021 22 23 24 25 26 27 28 29 30 31 32 33 pointer 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1819 2021 22 23 24 25 26 27 28 29 30 31 32 33 analysis window analysis window analysis window <distance matrix> Extracted BS sequence: IF min(M1, M2, M3,…) = Mi
THEN i-th pattern is the MDL pattern in CΣ
• length of motif Tmotif = Tmin + Li
• pointer of motif P = Pi The number of O The sum of distances of O M1 = MDL (ΤΣ|”B C B”) L1 = 3, P1= [2, 9, 21] M2 = MDL (ΤΣ|”D D B”) L2 = 3, P2= [12, 26] M3 = MDL (ΤΣ|”B C B C”) L3 = 4, P3= [2, 21] analysis finihsed!
Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 38
Tiếp theo, tiến hành tính tốn khoảng cách dựa vào hàm ước tính MDL M1
của mẫu BS ‘BCB’. Tại thời điểm đó, cũng tiến hành tính tốn chiều dài của mẫu L1 và vị trí con trỏ P1 mà lưu giữ vị trí bắt đầu của mỗi chuỗi con BS. Ví dụ, trong
Hình 3.5(f), chiều dài L1 là 3 và lưu giữ con trỏ tại các vị trí 2, 9 và 21. Tiếp theo, trong Hình 3.5(g), một mẫu khác ‘DDB’ với chiều dài bằng 3 được rút trích và tính toán hàm ước lượng MDL M2 và con trỏ P2 của mẫu này. Nếu tất cả các mẫu mà chiều dài bằng 3 đã được tìm thấy, như trong Hình 3.5(h), bằng cách sử dụng cửa sổ phân tích với chiều dài bằng 4, mẫu ‘BCBC’ sẽ được rút trích. Trong Hình 3.5,
chiều dài của một mẫu BS được xác định bằng nguyên lý MDL. Và miền của chiều dài của mẫu sẽ bắt đầu từ 3 cho tới chiều dài của Ε. Vì vậy, sự phân tích sẽ dừng việc tìm kiếm các mẫu khác nếu nó khơng tìm được thêm mẫu nào nữa đối với một chiều dài cụ thể nào đó.
Việc phân tích trên cứ lặp đi lặp lại cho tới khi tìm được tất cả các mẫu với
một chiều dài nào đó trong Ε. Khi việc này hoàn thành, mẫu nào có giá trị của hàm MDL nhỏ nhất được xem như mẫu MDL của Ε. Sử dụng chiều dài của mẫu MDL
Li, chiều dài của motif Tmotif được tính tốn như sau
<Υς W < + ϑ 3.5 Cuối cùng, mẫu MDL được xem là một motif của T.
3.3 Mở rộng và cải tiến giải thuật
3.3.1 Chỉnh sửa dữ liệu thời gian dạng ký hiệu hành vi BS
Chuỗi ký hiệu hành vi Ε biểu diễn hành vi của dữ liệu chuỗi thời gian. Vì vậy, nên tiến hành tìm kiếm các mẫu từ chuỗi ký hiệu hành vi. Tuy nhiên, tất cả các mẫu
được rút trích từ Ε ln ln có cùng chiều dài. Ví dụ, giả sử rằng một chuỗi con
BS ‘ABC’ được rút trích từ một chuỗi BS được mô tả trong
Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 39
Ở đây, ta nhớ lại rằng mỗi ký hiệu hành vi biểu diễn một hành vi của mỗi
chuỗi con có chiều dài Tmin. Do đó, tất cả các chuỗi con tương ứng với mẫu BS
‘ABC’ có chiều dài là Tmin + 3 và có chiều dài bằng nhau.
Hình 3.6 (a) Chuỗi BS thu được từ chuỗi thời gian. (b) Chuỗi BS được chỉnh sửa [5]
Để giải quyết vấn đề này, chuỗi BS ban đầu cần được chỉnh sửa lại. Trước
tiên, tiến hành dị tìm tất cả chuỗi con BS mà chỉ chứa các ký hiệu giống nhau và xuất hiện lặp lại, và đếm số lượng của ký hiệu này (gọi là chiều dài BS). Ví dụ,