Cán bộ chấm nhận xét 2: TS Phạm Văn Chung
5. Uỷ viên: PGS TS Dương Tuấn Anh
3.2 Phương pháp phát hiện motif không cần xác định chiều dài dựa trên nguyên
3.2.3 Đánh giá ứng viên motif dựa trên nguyên lý MDL
Để đánh giá sự tối ưu hoá của các mẫu được rút trích từ chuỗi Ε bằng cách dùng nguyên lý MDL, các tác giả đã đưa ra định nghĩa chiều dài mô tả của chuỗi ký hiệu.
Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 35
Giả sử rằng np là chiều dài của chuỗi con SC xuất hiện trong chuỗi Ε và sp là số ký hiệu khác nhau được dùng trong SC. Trước tiên, để mã hoá số ký hiệu của SC thì
cần ΦΓΗ ∗Ι bít. Sau đó, mã hố các nhãn của tất cả np ký hiệu u cầu npΦΓΗ >Ι bít. Vì vậy, chiều dài mô tả của SC được định nghĩa như sau
ϑ 1 log ∗Ι + ∗Ιlog >Ι 3.2 Tiếp theo, tác giả đưa ra định nghĩa chiều dài mô tả DL(Ε|SC). Đây là chiều
dài mô tả của Ε trong đó chuỗi con SC được thay thế bởi một ký hiệu. Chiều dài của chuỗi như vậy là ∗Ο, số ký hiệu duy nhất của chuỗi là sa và tần suất xuất hiện của
SC trong Ε là q. Chiều dài mơ tả DL(Ε|SC) được tính tốn như sau
ϑΒ ΕΠ1 Χ log ∗Ο + ∗Οlog >Ο + 3.3 Trong đó, ΦΓΗ ∗Ο là số bít cần thiết để mã hoá số ký hiệu của Ε. ∗ΟΦΓΗ >Ο + là số bít cần thiết để mã hoá các nhãn của tất cả ∗Ο. Cuối cùng, hàm đánh giá MDL của Ε đối với SC được định nghĩa như sau
(3.4)
Chuỗi con SC mà có giá trị nhỏ nhất của hàm đánh giá MDL được gọi là
‘mẫu MDL’ của Ε. Nó tương ứng với motif của chuỗi thời gian.