háp phát hiện motif không cần x guyên lý MDL
i thuật MD
a giải thuật phát hiện motif MD không cầ guyên lý MDL được mơ tả như Hình 3.3.
G. TS. Dương Tuấn Anh
Trang 31
i thời gian ban đầu có
< n, thường thì w<<n)
ử dụng phương pháp
ý hiệu hành vi BS. Từ ính tốn, tính khoảng c các motif mong đợi.
ư được nêu ở trên. Điều
chiều dài của motif. Từ
ầu của dữ liệu chuỗi
n xác định chiều
Chương 3: Phương pháp th
Nguyễn Văn Nhất_100704
Hình 3
thực hiện GVHD: PSG.
0490
3.3 Sơ đồ tổng quan của giải thuật phát hiện motif M
G. TS. Dương Tuấn Anh
Trang 32
Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 33
3.2.2 Chuyển đổi chuỗi thời gian sang dạng ký hiệu
Nguyên lý MDL được dùng để rút trích một mẫu được mong đợi là motif. Tuy
nhiên, có một vấn đề là các mẫu giống nhau rất ít khi xuất hiện trong chuỗi thời
gian. Hơn nữa, các mẫu được rút trích được mong đợi là khơng bị ảnh hưởng nhiễu của chuỗi thời gian. Vì những lý do đó, chuỗi thời gian sang sẽ được chuyển sang dạng biểu diễu ký hiệu mà nó biểu diễn hành vi không bị ảnh hưởng nhiễu. Giải
thuật chuyển đổi được minh hoạ như Hình 3.4.
Hình 3.4 Mơ tả trực quan giải thuật chuyển đổi một chuỗi thời gian sang dạng ký hiệu. (a) Các chuỗi
con thu được bằng cách dịch chuyển cửa sổ phân tích. (b) Mỗi chuỗi con được chuyển sang một ký
hiệu SAX. (c) ‘Ký hiệu hành vi’ được gán cho mỗi ký chuỗi SAX [5]
Đầu tiên, chuẩn bị một cửa sổ phân tích có chiều dài Tmin (Hình 3.4(a)). Tmin
là chiều dài tối thiểu của motif. Bằng cách dịch chuyển cửa sổ phân tích sẽ thu được analysis window region 3 region 2 region 3 break point 2 break point 1 PAA symbol 1-dimentional time-series data behavior symbol (BS)
behavior symbol sequence
Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 34
tất cả các chuỗi con với chiều dài là Tmin. Tiếp theo, mỗi chuỗi con sẽ được chuyển
đổi sang dạng biểu diễn PAA (Hình 3.4(b)). Biểu diễn PAA là một biểu thức vector
thu được bằng cách chia chuỗi thời gian thành một số phân đoạn và tính tốn giá trị trung bình của mỗi phân đoạn. Trong Hình 3.4(b), mỗi chuỗi con được chia thành 4 phân đoạn. Bằng cách dùng dạng biểu diễn PAA, một chuỗi thời gian T = x1, …, xn
có chiều dài n có thể được biểu diễn như không gian w – chiều bằng vector ̅ = ̅1,…, ̅w như sau ∋ ( )∗ D+ , − + −, ! . 3.1 Trong Hình 3.4(b), dạng biểu diễn PAA của mỗi chuỗi con được biểu bởi
vector ̅. Sau đó, các điểm cắt được xác định để chuyển đổi vector w– chiều sang
dạng biểu diễn ký hiệu SAX. Theo như ví dụ trong Hình 3.4, có hai điểm cắt được xác định và chia thành ba vùng. Sau đó mỗi vùng sẽ được gán một ký hiệu SAX
duy nhất. Theo như ví dụ, ̅ của chuỗi con thứ nhất được chuyển sang dạng ký hiệu
SAX là ‘cbba’.
Tới thời điểm này, chuỗi thời gian ban đầu đã được chuyển sang một chuỗi
các ký hiệu SAX. Để thu được một chuỗi các ký hiệu mà biểu diễn hành vi của T,
mỗi chuỗi ký hiệu SAX được chuyển đổi sang một ký hiệu duy nhất. Ký hiệu đó được gọi là ký hiệu hành vi (Behavior Symbol – BS), vì mỗi chuỗi ký hiệu SAX
biểu diễn hành vi của mỗi chuỗi con. Ví dụ, theo như Hình 3.4(c), ký hiệu hành vi
‘A’ được gán cho chuỗi ký hiệu SAX ‘cbba’, và ‘B’ được gán cho chuỗi ký hiệu
SAX ‘bcba’, … Cuối cùng, từ chuỗi thời gian T thu được một chuỗi ký hiệu hành
vi.
3.2.3 Đánh giá ứng viên motif dựa trên nguyên lý MDL
Để đánh giá sự tối ưu hoá của các mẫu được rút trích từ chuỗi Ε bằng cách dùng nguyên lý MDL, các tác giả đã đưa ra định nghĩa chiều dài mô tả của chuỗi ký hiệu.
Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 35
Giả sử rằng np là chiều dài của chuỗi con SC xuất hiện trong chuỗi Ε và sp là số ký hiệu khác nhau được dùng trong SC. Trước tiên, để mã hoá số ký hiệu của SC thì
cần ΦΓΗ ∗Ι bít. Sau đó, mã hố các nhãn của tất cả np ký hiệu yêu cầu npΦΓΗ >Ι bít. Vì vậy, chiều dài mơ tả của SC được định nghĩa như sau
ϑ 1 log ∗Ι + ∗Ιlog >Ι 3.2 Tiếp theo, tác giả đưa ra định nghĩa chiều dài mô tả DL(Ε|SC). Đây là chiều
dài mơ tả của Ε trong đó chuỗi con SC được thay thế bởi một ký hiệu. Chiều dài của chuỗi như vậy là ∗Ο, số ký hiệu duy nhất của chuỗi là sa và tần suất xuất hiện của
SC trong Ε là q. Chiều dài mơ tả DL(Ε|SC) được tính tốn như sau
ϑΒ ΕΠ1 Χ log ∗Ο + ∗Οlog >Ο + 3.3 Trong đó, ΦΓΗ ∗Ο là số bít cần thiết để mã hoá số ký hiệu của Ε. ∗ΟΦΓΗ >Ο + là số bít cần thiết để mã hoá các nhãn của tất cả ∗Ο. Cuối cùng, hàm đánh giá MDL của Ε đối với SC được định nghĩa như sau
(3.4)
Chuỗi con SC mà có giá trị nhỏ nhất của hàm đánh giá MDL được gọi là
‘mẫu MDL’ của Ε. Nó tương ứng với motif của chuỗi thời gian.
3.2.4 Rút trích motif từ chuỗi ký hiệu hành vi BS
Hình 3.5(a) là một chuỗi ký hiệu hành vi Ε. Tại đây, chuẩn bị một cửa sổ phân tích (analysis window) với một chiều dài cho trước. Bằng cách dịch cửa sổ phân tích này, sẽ thu được các chuỗi con BS (BSS) mà chiều dài của chúng bằng với chiều
dài cửa sổ. Ví dụ, tiến hành dịch chuyển cửa sổ phân tích với chiều dài bằng 3, và thu được các chuỗi con BS như là ‘ABC’, ‘BCB’ và ‘CBC’. Sau đó, tiến hành rút
trích những chuỗi con BS mà có tần suất xuất hiện nhiều nhất trong Ε. Trong Hình Θ ϑΒ ΕΠ1 Χ ϑΒ ΕΠ1 Χ + ϑ 1
Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 36
3.5(b), ‘BCB’ xuất hiện 5 lần, vì vậy ‘BCB’ được rút trích vì xuất hiện nhiều nhất
trong Ε.
Ở đây, ta nên nhớ lại tất cả các chuỗi con mà thuộc cùng một mẫu phải thoả
mãn ràng buộc khoảng cách. Tuy nhiên, tất cả các chuỗi con tương ứng với các
chuỗi con BS được rút trích khơng phải lúc nào cũng thoả mãn ràng buộc khoảng
cách. Vì vậy, để thu được một mẫu mà thoả mãn ràng buộc khoảng cách, cần tiến
hành tính tốn khoảng cách giữa mỗi cặp chuỗi con.
Hình 3.5(c) biểu diễn chuỗi con tương ứng với mẫu BS là ‘BCB’. Sau đó,
tiến hành tính tốn khoảng cách Euclid giữa mỗi hai chuỗi con trong mẫu và lập một ma trận khoảng cách như mơ tả trong Hình 3.5(d). Ví dụ, ma trận khoảng cách thể hiện rằng các khoảng cách Euclid giữa chuỗi con thứ nhất với các chuỗi con khác tương ứng là 10, 50, 20 và 45. Tiếp theo, tiến hành tính số lượng các chuỗi con mà khoảng cách của chúng nhỏ hơn ngưỡng R. Giả sử rằng trong ví dụ này R = 30 do đó số lượng đếm được của chuỗi con thứ nhất là 2.
Hơn nữa, để xác định các thành viên của một mẫu, cần tiến hành xác định
trung tâm của mẫu. Trong cách tiếp cận này, các chuỗi con có số đếm lớn nhất được xem là ứng viên của trung tâm của mẫu. Trong Hình 3.5(d), số đếm lớn nhất là 2, và ba chuỗi con (thứ nhất, thứ hai và thứ tư) được xem là các ứng viên của trung tâm
của mẫu. Tiếp theo, tiến hành tính tốn tổng các khoảng cách mà nhỏ hơn R. Ví dụ, giá trị tổng của chuỗi con thứ nhất là 10 + 20 = 30, chuỗi con thứ hai là 10 + 25 = 35, và chuỗi con thứ tư là 20 + 25 = 45. 30 là giá trị nhỏ nhất trong ba giá trị 30, 35 và 45. Vì vậy, chuỗi con thứ nhất được xem là trung tâm của mẫu. Cuối cùng, các
chuỗi con mà khoảng cách của nó so với trung tâm nhỏ hơn R được rút trích. Những chuỗi con này được xem là những thành viên của mẫu. Theo như trong Hình 3.5(e), các chuỗi con thứ nhất, thứ hai và thứ tư được rút trích như là thành viên của mẫu. Sau đó, trong Hình 3.5(f), các chuỗi con BS tương ứng với các chuỗi con được xem như là các thành viên của mẫu BS ‘BCB’.
Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 37
Hình 3.5 Mơ tả trực quan giải thuật dị tìm các mẫu bằng nguyên lý MDL [5]
pointer 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1819 2021 22 23 24 25 26 27 28 29 30 31 32 33 pointer 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1819 2021 22 23 24 25 26 27 28 29 30 31 32 33 pointer 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1819 2021 22 23 24 25 26 27 28 29 30 31 32 33 pointer 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1819 2021 22 23 24 25 26 27 28 29 30 31 32 33 pointer 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1819 2021 22 23 24 25 26 27 28 29 30 31 32 33 pointer 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1819 2021 22 23 24 25 26 27 28 29 30 31 32 33 analysis window analysis window analysis window <distance matrix> Extracted BS sequence: IF min(M1, M2, M3,…) = Mi
THEN i-th pattern is the MDL pattern in CΣ
• length of motif Tmotif = Tmin + Li
• pointer of motif P = Pi The number of O The sum of distances of O M1 = MDL (ΤΣ|”B C B”) L1 = 3, P1= [2, 9, 21] M2 = MDL (ΤΣ|”D D B”) L2 = 3, P2= [12, 26] M3 = MDL (ΤΣ|”B C B C”) L3 = 4, P3= [2, 21] analysis finihsed!
Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 38
Tiếp theo, tiến hành tính tốn khoảng cách dựa vào hàm ước tính MDL M1
của mẫu BS ‘BCB’. Tại thời điểm đó, cũng tiến hành tính tốn chiều dài của mẫu L1 và vị trí con trỏ P1 mà lưu giữ vị trí bắt đầu của mỗi chuỗi con BS. Ví dụ, trong
Hình 3.5(f), chiều dài L1 là 3 và lưu giữ con trỏ tại các vị trí 2, 9 và 21. Tiếp theo, trong Hình 3.5(g), một mẫu khác ‘DDB’ với chiều dài bằng 3 được rút trích và tính tốn hàm ước lượng MDL M2 và con trỏ P2 của mẫu này. Nếu tất cả các mẫu mà chiều dài bằng 3 đã được tìm thấy, như trong Hình 3.5(h), bằng cách sử dụng cửa sổ phân tích với chiều dài bằng 4, mẫu ‘BCBC’ sẽ được rút trích. Trong Hình 3.5,
chiều dài của một mẫu BS được xác định bằng nguyên lý MDL. Và miền của chiều dài của mẫu sẽ bắt đầu từ 3 cho tới chiều dài của Ε. Vì vậy, sự phân tích sẽ dừng việc tìm kiếm các mẫu khác nếu nó khơng tìm được thêm mẫu nào nữa đối với một chiều dài cụ thể nào đó.
Việc phân tích trên cứ lặp đi lặp lại cho tới khi tìm được tất cả các mẫu với
một chiều dài nào đó trong Ε. Khi việc này hồn thành, mẫu nào có giá trị của hàm MDL nhỏ nhất được xem như mẫu MDL của Ε. Sử dụng chiều dài của mẫu MDL
Li, chiều dài của motif Tmotif được tính tốn như sau
<Υς W < + ϑ 3.5 Cuối cùng, mẫu MDL được xem là một motif của T.
3.3 Mở rộng và cải tiến giải thuật
3.3.1 Chỉnh sửa dữ liệu thời gian dạng ký hiệu hành vi BS
Chuỗi ký hiệu hành vi Ε biểu diễn hành vi của dữ liệu chuỗi thời gian. Vì vậy, nên tiến hành tìm kiếm các mẫu từ chuỗi ký hiệu hành vi. Tuy nhiên, tất cả các mẫu
được rút trích từ Ε ln ln có cùng chiều dài. Ví dụ, giả sử rằng một chuỗi con
BS ‘ABC’ được rút trích từ một chuỗi BS được mơ tả trong
Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 39
Ở đây, ta nhớ lại rằng mỗi ký hiệu hành vi biểu diễn một hành vi của mỗi
chuỗi con có chiều dài Tmin. Do đó, tất cả các chuỗi con tương ứng với mẫu BS
‘ABC’ có chiều dài là Tmin + 3 và có chiều dài bằng nhau.
Hình 3.6 (a) Chuỗi BS thu được từ chuỗi thời gian. (b) Chuỗi BS được chỉnh sửa [5]
Để giải quyết vấn đề này, chuỗi BS ban đầu cần được chỉnh sửa lại. Trước
tiên, tiến hành dị tìm tất cả chuỗi con BS mà chỉ chứa các ký hiệu giống nhau và xuất hiện lặp lại, và đếm số lượng của ký hiệu này (gọi là chiều dài BS). Ví dụ,
trong
Hình 3.6(a), ký hiệu hành vi thứ ba và thứ tư là ‘C’, nên chuỗi con BS ‘CC’
được chuyển sang ‘C’ với chiều dài BS là 2. Chuỗi BS này được gọi là chuỗi BS đã được chỉnh sửa. Bằng cách rút trích các mẫu BS từ chuỗi BS đã được chỉnh sửa, có
thể dị tìm được các mẫu có chiều dài khác nhau.
Một điều cần lưu ý là các mẫu có chiều dài khác nhau được rút trích từ chuỗi BS đã được chỉnh sửa phải thoả mãn ràng buộc hành vi. Trong Hình 3.7(a), ký hiệu
hành vi ‘A’ đầu tiên biểu diễn hành vi trong khu vực từ 1 tới 3. Chuỗi con trong khu
vực này từ 2 tới 4 có cùng hành vi. Vì vậy, ký hiệu hành vi thứ hai cũng được gán là
‘A’. Các chuỗi con trong khu vực từ 1 tới 4 hầu như có cùng hành vi. Do đó, có thể
chuyển đổi hai ký hiệu ‘AA’ đầu tiên thành một ký hiệu ‘A’. Tương tự ví dụ này, có thể chuyển đổi phần còn lại của chuỗi BS như thế thành một ký hiệu.
BS sequence
analysis window
length of TSS Tmin+3 Tmin+3 Tmin+3
Tmin+4 Tmin+3 Tmin+3
Modified BS sequence
BS length length of TSS
Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 40
Như đã được đề cập ở phần trên, các mẫu có chiều dài khác nhau có thể được rút trích. Nhưng khơng thể tiến hành tính tốn khoảng cách Euclid giữa hai chuỗi thời gian có chiều dài khác nhau.
Hình 3.7 (a) Chuỗi BS ban đầu và (b) chuỗi BS đã được chỉnh sửa [5]
Tác giả đã đề nghị dùng độ đo xoắn thời gian động để tính khoảng cách giữa hai chuỗi thời gian bất kỳ. Tuy nhiên, độ phức tạp của hàm tính tốn này thường rất lớn và mất nhiều thời gian để tính tốn khoảng cách giữa hai chuỗi thời gian. Vì
vậy, chúng tôi đã dùng phép vị tự kết hợp với độ đo Euclid để tính tốn khoảng
cách giữa hai chuỗi thời gian bất kỳ. Phép vị tự này cho phép co giãn một chuỗi thời gian ban đầu thành một chuỗi thời gian với một chiều dài xác định nào đó. Do đó
hai chuỗi thời gian có độ dài khác nhau có thể được chuyển thành hai chuỗi có độ analysis
Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 41
dài bằng nhau bằng phép vị tự. Sau đó, tiếp tục dùng hàm tính tốn khoảng cách
Euclid để tính khoảng cách giữa chúng.
3.3.2 Phép vị tự trên dữ liệu thời gian
Khái niệm: Phép vị tự (Homothetic Transformation) là một phép biến hình trong khơng gian affine.
Cho một điểm I và một số k ≠ 0. Một phép biến đổi điểm M thành M’ sao
cho ΞΘ′ΖΖΖΖΖΖΖΖ[ 5.ΞΘΖΖΖΖΖΖ[ được gọi là phép vị tự tâm O tỷ số k. Hình 3.8 mô tả một phép vị tự tâm O với tỷ số k = ½. Qua phép vị tự này, tam giác MNP trở thành tam giác
M’N’P’.
Hình 3.8 Minh hoạ phép vị tự tâm O, hệ số vị tự k= ½
Đặc điểm phép vị tự
Phép vị tự có một số đặc điểm sau
• Ảnh của 3 điểm thẳng hàng là 3 điểm thẳng hàng. • Ảnh của hình trịn là hình trịn với bán kính R’ = k.R • Ảnh của đoạn thẳng AB là đoạn thẳng A’B’ = k.AB
Nói cách khác, phép vị tự không bảo tồn về ‘kích thước’ nhưng lại bảo toàn về