Đánh giá ứng viên motif dựa trên nguyên lý MDL

Một phần của tài liệu Nhận dạng motif trên dữ liệu chuỗi thời gian không cần xác định thông số chiều dài (Trang 50 - 51)

Cán bộ chấm nhận xét 2: TS Phạm Văn Chung

5. Uỷ viên: PGS TS Dương Tuấn Anh

3.2 Phương pháp phát hiện motif không cần xác định chiều dài dựa trên nguyên

3.2.3 Đánh giá ứng viên motif dựa trên nguyên lý MDL

Để đánh giá sự tối ưu hoá của các mẫu được rút trích từ chuỗi Ε bằng cách dùng nguyên lý MDL, các tác giả đã đưa ra định nghĩa chiều dài mô tả của chuỗi ký hiệu.

Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh

Nguyễn Văn Nhất_10070490 Trang 35

Giả sử rằng np là chiều dài của chuỗi con SC xuất hiện trong chuỗi Ε và sp là số ký hiệu khác nhau được dùng trong SC. Trước tiên, để mã hoá số ký hiệu của SC thì

cần ΦΓΗ ∗Ι bít. Sau đó, mã hố các nhãn của tất cả np ký hiệu u cầu npΦΓΗ >Ι bít. Vì vậy, chiều dài mô tả của SC được định nghĩa như sau

ϑ 1 log ∗Ι + ∗Ιlog >Ι 3.2 Tiếp theo, tác giả đưa ra định nghĩa chiều dài mô tả DL(Ε|SC). Đây là chiều

dài mô tả của Ε trong đó chuỗi con SC được thay thế bởi một ký hiệu. Chiều dài của chuỗi như vậy là ∗Ο, số ký hiệu duy nhất của chuỗi là sa và tần suất xuất hiện của

SC trong Ε là q. Chiều dài mơ tả DL(Ε|SC) được tính tốn như sau

ϑΒ ΕΠ1 Χ log ∗Ο + ∗Οlog >Ο + 3.3 Trong đó, ΦΓΗ ∗Ο là số bít cần thiết để mã hoá số ký hiệu của Ε. ∗ΟΦΓΗ >Ο + là số bít cần thiết để mã hoá các nhãn của tất cả ∗Ο. Cuối cùng, hàm đánh giá MDL của Ε đối với SC được định nghĩa như sau

(3.4)

Chuỗi con SC mà có giá trị nhỏ nhất của hàm đánh giá MDL được gọi là

‘mẫu MDL’ của Ε. Nó tương ứng với motif của chuỗi thời gian.

Một phần của tài liệu Nhận dạng motif trên dữ liệu chuỗi thời gian không cần xác định thông số chiều dài (Trang 50 - 51)

Tải bản đầy đủ (PDF)

(112 trang)