Phương pháp giải quyết vấn đề

Một phần của tài liệu Nhận dạng motif trên dữ liệu chuỗi thời gian không cần xác định thông số chiều dài (Trang 45)

Cán bộ chấm nhận xét 2: TS Phạm Văn Chung

5. Uỷ viên: PGS TS Dương Tuấn Anh

3.1 Phương pháp giải quyết vấn đề

Vấn đề phát hiện motif trên dữ liệu chuỗi thời gian được xem như đã được giải

quyết. Tuy nhiên, các giải pháp hiện tại phát hiện motif đòi hỏi phải chỉ rõ chiều dài của motif và hoặc là chất lượng cao và rất tốn kém, hoặc chất lượng thấp và chi phí thấp. Phương pháp phát hiện motif mà không cần xác định trước chiều dài của motif

được giới thiệu như sau.

Trước tiên, cần nhận biết được định nghĩa mẫu của chuỗi thời gian. Tất cả

các chuỗi con thuộc cùng một mẫu phải thoả mãn ba ràng buộc sau đây

Ràng buộc hành vi (Behavior constraint): Các chuỗi con phải có cùng hành

vi như được mơ tả trong Hình 3.1(a).

Ràng buộc khoảng cách (Distance constraint): Khoảng cách giữa hai chuỗi

Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh

Nguyễn Văn Nhất_10070490 Trang 30

dùng định nghĩa. Ví dụ, Hình 3.1(b) biểu diễn tất cả khoảng cách giữa B và các chuỗi con nhỏ hơn R. Vì vậy, các chuỗi con này thoả mãn ràng buộc khoảng cách. B được gọi là trung tâm của mẫu (center of pattern).

Ràng buộc không chồng lấp lên nhau (Non-overlapping constraint): Các

chuỗi con không được chồng lấp lên nhau. Ví dụ, hai chuỗi con được mơ tả trong Hình 3.1(c) có hành vi giống nhau. Tuy nhiên, các chuỗi con này chồng lấp lên nhau (được biểu diễn bằng đường in đậm). Vì vậy, chúng

không thuộc về cùng một mẫu. Bằng cách giới thiệu ràng buộc không chồng lấp lên nhau, giải thuật phát hiện motif có thể được phân loại như là một

công cụ cho việc phân đoạn chuỗi thời gian. Ví dụ, nếu việc chồng lấp lên

nhau được chấp nhận, đối với chuỗi ‘CABBBABBBAA’ thì ABBBA có thể

được rút trích như là một motif. Nhưng, trong trường hợp này, hai chuỗi có

chung A, và có thể có hai phân đoạn: một phân đoạn là C, ABBBA và

BBBAA. Một phân đoạn khác là CABBB, ABBBA và A. Trong khi đó, nếu

áp dụng ràng buộc không được chồng lấp lên nhau, ABBB có thể được rút

trích như một motif. Trong trường hợp này, chuỗi này có thể được phân đoạn như C, ABBB, ABBB và AA.

Hình 3.1 Ràng buộc của mẫu: (a) ‘ràng buộc hành vi’, (b) ‘ràng buộc khoảng cách’ và (c) ‘ràng buộc không chồng lấp lên nhau’. (c) biểu diễn một ví dụ của vi phạm ràng buộc chồng lấp lên nhau [5]

time-series subsequences Distance(B,D) <R Distance(B, C) Distance(B, A) <R

(= center of the pattern)

overlapping B T T t t

Chương 3: Phương pháp th

Nguyễn Văn Nhất_100704

Giải thuật được chiều dài n sẽ được thu dưới dạng biểu diễn PA rời rạc hoá SAX để ch dạng biểu diễn ký hi cách,… đặc biệt là áp d Các mẫu được xem là

đặc biệt ở đây là nguyê

motif tìm được sẽ thu

thời gian. Hình 3.2 min

3.2 Phương pháp dài dựa trên ngu

3.2.1 Sơ đồ giải t

Sơ đồ tổng quan của

chiều dài dựa trên nguy

thực hiện GVHD: PSG.

0490

c tiến hành như sau: từ một dữ liệu chuỗi t thu giảm số chiều thành w chiều (với w < n PAA. Tiếp theo, từ dạng biểu diễn PAA, sử chuyển sang dạng biểu diễn dưới dạng ký h hiệu này, sử dụng các phương pháp tính p dụng nguyên lý MDL để phát hiện được c là motif phải thoả mãn ba ràng buộc như đư yên lý MDL sẽ xác định một cách động chi hu được motif dưới dạng biểu diễn ban đầ

inh hoạ quá trình này.

Hình 3.2 Quá trình phát hiện motif

háp phát hiện motif khơng cần x guyên lý MDL

i thuật MD

a giải thuật phát hiện motif MD khơng cầ gun lý MDL được mơ tả như Hình 3.3.

G. TS. Dương Tuấn Anh

Trang 31

i thời gian ban đầu có

< n, thường thì w<<n)

ử dụng phương pháp

ý hiệu hành vi BS. Từ ính tốn, tính khoảng c các motif mong đợi.

ư được nêu ở trên. Điều

chiều dài của motif. Từ

ầu của dữ liệu chuỗi

n xác định chiều

Chương 3: Phương pháp th

Nguyễn Văn Nhất_100704

Hình 3

thực hiện GVHD: PSG.

0490

3.3 Sơ đồ tổng quan của giải thuật phát hiện motif M

G. TS. Dương Tuấn Anh

Trang 32

Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh

Nguyễn Văn Nhất_10070490 Trang 33

3.2.2 Chuyển đổi chuỗi thời gian sang dạng ký hiệu

Nguyên lý MDL được dùng để rút trích một mẫu được mong đợi là motif. Tuy

nhiên, có một vấn đề là các mẫu giống nhau rất ít khi xuất hiện trong chuỗi thời

gian. Hơn nữa, các mẫu được rút trích được mong đợi là không bị ảnh hưởng nhiễu của chuỗi thời gian. Vì những lý do đó, chuỗi thời gian sang sẽ được chuyển sang dạng biểu diễu ký hiệu mà nó biểu diễn hành vi không bị ảnh hưởng nhiễu. Giải

thuật chuyển đổi được minh hoạ như Hình 3.4.

Hình 3.4 Mơ tả trực quan giải thuật chuyển đổi một chuỗi thời gian sang dạng ký hiệu. (a) Các chuỗi

con thu được bằng cách dịch chuyển cửa sổ phân tích. (b) Mỗi chuỗi con được chuyển sang một ký

hiệu SAX. (c) ‘Ký hiệu hành vi’ được gán cho mỗi ký chuỗi SAX [5]

Đầu tiên, chuẩn bị một cửa sổ phân tích có chiều dài Tmin (Hình 3.4(a)). Tmin

là chiều dài tối thiểu của motif. Bằng cách dịch chuyển cửa sổ phân tích sẽ thu được analysis window region 3 region 2 region 3 break point 2 break point 1 PAA symbol 1-dimentional time-series data behavior symbol (BS)

behavior symbol sequence

Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh

Nguyễn Văn Nhất_10070490 Trang 34

tất cả các chuỗi con với chiều dài là Tmin. Tiếp theo, mỗi chuỗi con sẽ được chuyển

đổi sang dạng biểu diễn PAA (Hình 3.4(b)). Biểu diễn PAA là một biểu thức vector

thu được bằng cách chia chuỗi thời gian thành một số phân đoạn và tính tốn giá trị trung bình của mỗi phân đoạn. Trong Hình 3.4(b), mỗi chuỗi con được chia thành 4 phân đoạn. Bằng cách dùng dạng biểu diễn PAA, một chuỗi thời gian T = x1, …, xn

có chiều dài n có thể được biểu diễn như không gian w – chiều bằng vector ̅ = ̅1,…, ̅w như sau ∋ ( )∗ D+ , − + −, ! . 3.1 Trong Hình 3.4(b), dạng biểu diễn PAA của mỗi chuỗi con được biểu bởi

vector ̅. Sau đó, các điểm cắt được xác định để chuyển đổi vector w– chiều sang

dạng biểu diễn ký hiệu SAX. Theo như ví dụ trong Hình 3.4, có hai điểm cắt được xác định và chia thành ba vùng. Sau đó mỗi vùng sẽ được gán một ký hiệu SAX

duy nhất. Theo như ví dụ, ̅ của chuỗi con thứ nhất được chuyển sang dạng ký hiệu

SAX là ‘cbba’.

Tới thời điểm này, chuỗi thời gian ban đầu đã được chuyển sang một chuỗi

các ký hiệu SAX. Để thu được một chuỗi các ký hiệu mà biểu diễn hành vi của T,

mỗi chuỗi ký hiệu SAX được chuyển đổi sang một ký hiệu duy nhất. Ký hiệu đó được gọi là ký hiệu hành vi (Behavior Symbol – BS), vì mỗi chuỗi ký hiệu SAX

biểu diễn hành vi của mỗi chuỗi con. Ví dụ, theo như Hình 3.4(c), ký hiệu hành vi

‘A’ được gán cho chuỗi ký hiệu SAX ‘cbba’, và ‘B’ được gán cho chuỗi ký hiệu

SAX ‘bcba’, … Cuối cùng, từ chuỗi thời gian T thu được một chuỗi ký hiệu hành

vi.

3.2.3 Đánh giá ứng viên motif dựa trên nguyên lý MDL

Để đánh giá sự tối ưu hoá của các mẫu được rút trích từ chuỗi Ε bằng cách dùng nguyên lý MDL, các tác giả đã đưa ra định nghĩa chiều dài mô tả của chuỗi ký hiệu.

Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh

Nguyễn Văn Nhất_10070490 Trang 35

Giả sử rằng np là chiều dài của chuỗi con SC xuất hiện trong chuỗi Ε và sp là số ký hiệu khác nhau được dùng trong SC. Trước tiên, để mã hoá số ký hiệu của SC thì

cần ΦΓΗ ∗Ι bít. Sau đó, mã hố các nhãn của tất cả np ký hiệu u cầu npΦΓΗ >Ι bít. Vì vậy, chiều dài mô tả của SC được định nghĩa như sau

ϑ 1 log ∗Ι + ∗Ιlog >Ι 3.2 Tiếp theo, tác giả đưa ra định nghĩa chiều dài mô tả DL(Ε|SC). Đây là chiều

dài mô tả của Ε trong đó chuỗi con SC được thay thế bởi một ký hiệu. Chiều dài của chuỗi như vậy là ∗Ο, số ký hiệu duy nhất của chuỗi là sa và tần suất xuất hiện của

SC trong Ε là q. Chiều dài mơ tả DL(Ε|SC) được tính tốn như sau

ϑΒ ΕΠ1 Χ log ∗Ο + ∗Οlog >Ο + 3.3 Trong đó, ΦΓΗ ∗Ο là số bít cần thiết để mã hoá số ký hiệu của Ε. ∗ΟΦΓΗ >Ο + là số bít cần thiết để mã hoá các nhãn của tất cả ∗Ο. Cuối cùng, hàm đánh giá MDL của Ε đối với SC được định nghĩa như sau

(3.4)

Chuỗi con SC mà có giá trị nhỏ nhất của hàm đánh giá MDL được gọi là

‘mẫu MDL’ của Ε. Nó tương ứng với motif của chuỗi thời gian.

3.2.4 Rút trích motif từ chuỗi ký hiệu hành vi BS

Hình 3.5(a) là một chuỗi ký hiệu hành vi Ε. Tại đây, chuẩn bị một cửa sổ phân tích (analysis window) với một chiều dài cho trước. Bằng cách dịch cửa sổ phân tích này, sẽ thu được các chuỗi con BS (BSS) mà chiều dài của chúng bằng với chiều

dài cửa sổ. Ví dụ, tiến hành dịch chuyển cửa sổ phân tích với chiều dài bằng 3, và thu được các chuỗi con BS như là ‘ABC’, ‘BCB’ và ‘CBC’. Sau đó, tiến hành rút

trích những chuỗi con BS mà có tần suất xuất hiện nhiều nhất trong Ε. Trong Hình Θ ϑΒ ΕΠ1 Χ ϑΒ ΕΠ1 Χ + ϑ 1

Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh

Nguyễn Văn Nhất_10070490 Trang 36

3.5(b), ‘BCB’ xuất hiện 5 lần, vì vậy ‘BCB’ được rút trích vì xuất hiện nhiều nhất

trong Ε.

Ở đây, ta nên nhớ lại tất cả các chuỗi con mà thuộc cùng một mẫu phải thoả

mãn ràng buộc khoảng cách. Tuy nhiên, tất cả các chuỗi con tương ứng với các

chuỗi con BS được rút trích khơng phải lúc nào cũng thoả mãn ràng buộc khoảng

cách. Vì vậy, để thu được một mẫu mà thoả mãn ràng buộc khoảng cách, cần tiến

hành tính tốn khoảng cách giữa mỗi cặp chuỗi con.

Hình 3.5(c) biểu diễn chuỗi con tương ứng với mẫu BS là ‘BCB’. Sau đó,

tiến hành tính tốn khoảng cách Euclid giữa mỗi hai chuỗi con trong mẫu và lập một ma trận khoảng cách như mô tả trong Hình 3.5(d). Ví dụ, ma trận khoảng cách thể hiện rằng các khoảng cách Euclid giữa chuỗi con thứ nhất với các chuỗi con khác tương ứng là 10, 50, 20 và 45. Tiếp theo, tiến hành tính số lượng các chuỗi con mà khoảng cách của chúng nhỏ hơn ngưỡng R. Giả sử rằng trong ví dụ này R = 30 do đó số lượng đếm được của chuỗi con thứ nhất là 2.

Hơn nữa, để xác định các thành viên của một mẫu, cần tiến hành xác định

trung tâm của mẫu. Trong cách tiếp cận này, các chuỗi con có số đếm lớn nhất được xem là ứng viên của trung tâm của mẫu. Trong Hình 3.5(d), số đếm lớn nhất là 2, và ba chuỗi con (thứ nhất, thứ hai và thứ tư) được xem là các ứng viên của trung tâm

của mẫu. Tiếp theo, tiến hành tính tốn tổng các khoảng cách mà nhỏ hơn R. Ví dụ, giá trị tổng của chuỗi con thứ nhất là 10 + 20 = 30, chuỗi con thứ hai là 10 + 25 = 35, và chuỗi con thứ tư là 20 + 25 = 45. 30 là giá trị nhỏ nhất trong ba giá trị 30, 35 và 45. Vì vậy, chuỗi con thứ nhất được xem là trung tâm của mẫu. Cuối cùng, các

chuỗi con mà khoảng cách của nó so với trung tâm nhỏ hơn R được rút trích. Những chuỗi con này được xem là những thành viên của mẫu. Theo như trong Hình 3.5(e), các chuỗi con thứ nhất, thứ hai và thứ tư được rút trích như là thành viên của mẫu. Sau đó, trong Hình 3.5(f), các chuỗi con BS tương ứng với các chuỗi con được xem như là các thành viên của mẫu BS ‘BCB’.

Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh

Nguyễn Văn Nhất_10070490 Trang 37

Hình 3.5 Mơ tả trực quan giải thuật dị tìm các mẫu bằng nguyên lý MDL [5]

pointer 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1819 2021 22 23 24 25 26 27 28 29 30 31 32 33 pointer 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1819 2021 22 23 24 25 26 27 28 29 30 31 32 33 pointer 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1819 2021 22 23 24 25 26 27 28 29 30 31 32 33 pointer 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1819 2021 22 23 24 25 26 27 28 29 30 31 32 33 pointer 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1819 2021 22 23 24 25 26 27 28 29 30 31 32 33 pointer 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1819 2021 22 23 24 25 26 27 28 29 30 31 32 33 analysis window analysis window analysis window <distance matrix> Extracted BS sequence: IF min(M1, M2, M3,…) = Mi

THEN i-th pattern is the MDL pattern in

length of motif Tmotif = Tmin + Li

pointer of motif P = Pi The number of O The sum of distances of O M1 = MDL (ΤΣ|”B C B”) L1 = 3, P1= [2, 9, 21] M2 = MDL (ΤΣ|”D D B”) L2 = 3, P2= [12, 26] M3 = MDL (ΤΣ|”B C B C”) L3 = 4, P3= [2, 21] analysis finihsed!

Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh

Nguyễn Văn Nhất_10070490 Trang 38

Tiếp theo, tiến hành tính tốn khoảng cách dựa vào hàm ước tính MDL M1

của mẫu BS ‘BCB’. Tại thời điểm đó, cũng tiến hành tính tốn chiều dài của mẫu L1 và vị trí con trỏ P1 mà lưu giữ vị trí bắt đầu của mỗi chuỗi con BS. Ví dụ, trong

Hình 3.5(f), chiều dài L1 là 3 và lưu giữ con trỏ tại các vị trí 2, 9 và 21. Tiếp theo, trong Hình 3.5(g), một mẫu khác ‘DDB’ với chiều dài bằng 3 được rút trích và tính toán hàm ước lượng MDL M2 và con trỏ P2 của mẫu này. Nếu tất cả các mẫu mà chiều dài bằng 3 đã được tìm thấy, như trong Hình 3.5(h), bằng cách sử dụng cửa sổ phân tích với chiều dài bằng 4, mẫu ‘BCBC’ sẽ được rút trích. Trong Hình 3.5,

chiều dài của một mẫu BS được xác định bằng nguyên lý MDL. Và miền của chiều dài của mẫu sẽ bắt đầu từ 3 cho tới chiều dài của Ε. Vì vậy, sự phân tích sẽ dừng việc tìm kiếm các mẫu khác nếu nó khơng tìm được thêm mẫu nào nữa đối với một chiều dài cụ thể nào đó.

Việc phân tích trên cứ lặp đi lặp lại cho tới khi tìm được tất cả các mẫu với

một chiều dài nào đó trong Ε. Khi việc này hoàn thành, mẫu nào có giá trị của hàm MDL nhỏ nhất được xem như mẫu MDL của Ε. Sử dụng chiều dài của mẫu MDL

Li, chiều dài của motif Tmotif được tính tốn như sau

<Υς W < + ϑ 3.5 Cuối cùng, mẫu MDL được xem là một motif của T.

3.3 Mở rộng và cải tiến giải thuật

3.3.1 Chỉnh sửa dữ liệu thời gian dạng ký hiệu hành vi BS

Chuỗi ký hiệu hành vi Ε biểu diễn hành vi của dữ liệu chuỗi thời gian. Vì vậy, nên tiến hành tìm kiếm các mẫu từ chuỗi ký hiệu hành vi. Tuy nhiên, tất cả các mẫu

được rút trích từ Ε ln ln có cùng chiều dài. Ví dụ, giả sử rằng một chuỗi con

BS ‘ABC’ được rút trích từ một chuỗi BS được mô tả trong

Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh

Nguyễn Văn Nhất_10070490 Trang 39

Ở đây, ta nhớ lại rằng mỗi ký hiệu hành vi biểu diễn một hành vi của mỗi

chuỗi con có chiều dài Tmin. Do đó, tất cả các chuỗi con tương ứng với mẫu BS

‘ABC’ có chiều dài là Tmin + 3 và có chiều dài bằng nhau.

Hình 3.6 (a) Chuỗi BS thu được từ chuỗi thời gian. (b) Chuỗi BS được chỉnh sửa [5]

Để giải quyết vấn đề này, chuỗi BS ban đầu cần được chỉnh sửa lại. Trước

tiên, tiến hành dị tìm tất cả chuỗi con BS mà chỉ chứa các ký hiệu giống nhau và xuất hiện lặp lại, và đếm số lượng của ký hiệu này (gọi là chiều dài BS). Ví dụ,

Một phần của tài liệu Nhận dạng motif trên dữ liệu chuỗi thời gian không cần xác định thông số chiều dài (Trang 45)

Tải bản đầy đủ (PDF)

(112 trang)