Định nghĩa chiều dài mô tả mới cho chuỗi thời gian

Một phần của tài liệu Nhận dạng motif trên dữ liệu chuỗi thời gian không cần xác định thông số chiều dài (Trang 59 - 62)

Cán bộ chấm nhận xét 2: TS Phạm Văn Chung

5. Uỷ viên: PGS TS Dương Tuấn Anh

3.3 Mở rộng và cải tiến giải thuật

3.3.3 Định nghĩa chiều dài mô tả mới cho chuỗi thời gian

Vì chuỗi BS đã được chỉnh sửa nên định nghĩa chiều dài mơ tả trước đó khơng cịn phù hợp vơi chuỗi BS đã được chỉnh sửa này. Bởi vì mục đích rút trích motif của

các mẫu có chiều dài khác nhau, nên ba tác giả Tanaka, Iwamoto và Uehara đã đưa ra định nghĩa mới cho chiều dài mô tả của dữ liệu chuỗi thời gian. Tác giả giả sử

rằng nếu dùng motif để phân đoạn một chuỗi thời gian, thì chi phí cho việc phân đoạn này là nhỏ nhất. Do đó, một giả định mới cho việc phát hiện motif được xem

xét là : ‘mơ hình tốt nhất của chuỗi thời gian là sự phân đoạn tốt nhất bằng motif.’ Dựa trên sự giả định này, tác giả đã định nghĩa lại chiều dài mô tả của chuỗi thời

gian bằng cách dùng chi phí cho việc phân đoạn.

Chuỗi BS có thể được mã hố bằng cách sử dụng các bít. Motif dùng ít bít thì đơn giản, càng nhiều bít thì càng phức tạp và có nghĩa. Thứ hai, theo nguyên lý MDL, chiều dài của motif nên ngắn. Cuối cùng, số lượng các phân đoạn nên nhỏ. Để diễn đạt ý tưởng này, tác giả đã định nghĩa chiều dài mô tả mới dựa trên

Chakrabarti, Sarawagi, và Dom (1998).

Định nghĩa chiều dài mô tả này được áp dụng cho chuỗi BS đã được chỉnh

sửa. Định nghĩa chiều dài mô tả mới cho chuỗi thời gian bao gồm ba loại chi phí,

chi phí mã hố dữ liệu, chi phí mã hố thơng số và chi phí phân đoạn. Chi phí mã

hố được tính dựa trên lý thuyết Shannon. Chi phí mã hố thơng số là chiều dài mô tả được yêu cầu để mô tả trật tự của ký hiệu hành vi trong mỗi phân đoạn. Chi phí phân đoạn là chi phí được u cầu để mơ tả vị trí của tất cả các phân đoạn.

Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh

Nguyễn Văn Nhất_10070490 Trang 44

Hình 3.9 sẽ minh hoạ việc tính tốn các chi phí này. Giả sử rằng một chuỗi BS đã được chỉnh sửa Ε được rút trích từ một chuỗi thời gian trong Hình 3.9(a).

Ngồi ra, cũng giả sử rằng mẫu BS ‘BCD’ được tìm thấy. Sau đó, Ε được chia

thành m phân đoạn bởi ‘BCD’. Ví dụ, trong Hình 3.9(b), thu được 7 phân đoạn.

Tiếp theo, tiến hành tính tốn chi phí mã hố dữ liệu và chi phí mã hố thơng số cho mỗi phân đoạn.

Trong trường hợp, tính tốn chi phí mã hố dữ liệu của phân đoạn thứ i, tiến hành tính tốn chiều dài ti của phân đoạn thứ i. Ví dụ, trong Hình 3.9(c), chiều dài

của phân đoạn đầu tiên là t1= 2, chiều dài của phân đoạn thứ hai là t2 = 8, … Hơn nữa, giả sử rằng ký hiệu BS thứ j có chiều dài là lij. Chiều dài mã hố dữ liệu cho ký hiệu thứ j trong phân đoạn thứ i được tính tốn như sau

−Φ+ΦΓΗ Φφ 3.9+ Ví dụ, trong Hình 3.9(c), ký hiệu BS đầu tiên của phân đoạn thứ hai là ‘B’,

và chi phí mã hố dữ liệu của ‘B’ là −2ΦΓΗ η . Bằng cách tính tốn chi phí mã hố dữ liệu của tất cả các ký hiệu duy nhất BS trong phân đoạn thứ i, chi phí mã hố dữ liệu của phân đoạn được tính như sau

−Φ+ΦΓΗ Φφ+ +

3.10 Bằng cách sử dụng cơng thức này, chi phí mã hố DL1(Ε | SC) của Ε được

phân đoạn bởi mẫu SC được tính như sau

ϑ1Β ΕΠ1 Χ −Φ+ΦΓΗ Φφ+ +

<

3.11 Mặc khác, chi phí mã hố thơng số của mỗi phân đoạn được tính như sau

Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh

Nguyễn Văn Nhất_10070490 Trang 45

Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh

Nguyễn Văn Nhất_10070490 Trang 46

Ví dụ, trong Hình 3.9(c), chi phí mã hố thơng số của phân đoạn đầu tiên là log22, phân đoạn thứ hai là log28, …Vì vậy, DL2( Ε | SC) của Ε được tính như sau

ϑ2Β ΕΠ1 ΦΓΗ φ <

3.13 Tiếp theo, tiến hành tính chi phí phân đoạn DL3(Ε | SC) của Ε như sau

ϑ3Β ΕΠ1 ϕΦΓΗ κ φ <

λ 3.14 Ví dụ, trong Hình 3.9(c), chiều dài của Ε là 44, vì vậy chi phí phân đoạn là 7log244. Cuối cùng, trong Hình 3.9(d), chiều dài mô tả của Ε đã được phân đoạn bởi mẫu SC

được tính như sau

Θ ϑΒ ΕΠ1 Χ ϑ1Β ΕΠ1 Χ + ϑ2Β ΕΠ1 Χ + ϑ3Β ΕΠ1 Χ 3.15 Công thức 3.15 được dùng như là hàm ước lượng MDL cho giải thuật phát

hiện motif. Vì vậy, giải thuật EMD này có thể rút trích được các mẫu motif có chiều dài khác nhau.

Một phần của tài liệu Nhận dạng motif trên dữ liệu chuỗi thời gian không cần xác định thông số chiều dài (Trang 59 - 62)

Tải bản đầy đủ (PDF)

(112 trang)