Cán bộ chấm nhận xét 2: TS Phạm Văn Chung
5. Uỷ viên: PGS TS Dương Tuấn Anh
3.2 Phương pháp phát hiện motif không cần xác định chiều dài dựa trên nguyên
3.2.4 Rút trích motif từ chuỗi ký hiệu hành vi BS
Hình 3.5(a) là một chuỗi ký hiệu hành vi Ε. Tại đây, chuẩn bị một cửa sổ phân tích (analysis window) với một chiều dài cho trước. Bằng cách dịch cửa sổ phân tích này, sẽ thu được các chuỗi con BS (BSS) mà chiều dài của chúng bằng với chiều
dài cửa sổ. Ví dụ, tiến hành dịch chuyển cửa sổ phân tích với chiều dài bằng 3, và thu được các chuỗi con BS như là ‘ABC’, ‘BCB’ và ‘CBC’. Sau đó, tiến hành rút
trích những chuỗi con BS mà có tần suất xuất hiện nhiều nhất trong Ε. Trong Hình Θ ϑΒ ΕΠ1 Χ ϑΒ ΕΠ1 Χ + ϑ 1
Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 36
3.5(b), ‘BCB’ xuất hiện 5 lần, vì vậy ‘BCB’ được rút trích vì xuất hiện nhiều nhất
trong Ε.
Ở đây, ta nên nhớ lại tất cả các chuỗi con mà thuộc cùng một mẫu phải thoả
mãn ràng buộc khoảng cách. Tuy nhiên, tất cả các chuỗi con tương ứng với các
chuỗi con BS được rút trích khơng phải lúc nào cũng thoả mãn ràng buộc khoảng
cách. Vì vậy, để thu được một mẫu mà thoả mãn ràng buộc khoảng cách, cần tiến
hành tính tốn khoảng cách giữa mỗi cặp chuỗi con.
Hình 3.5(c) biểu diễn chuỗi con tương ứng với mẫu BS là ‘BCB’. Sau đó,
tiến hành tính tốn khoảng cách Euclid giữa mỗi hai chuỗi con trong mẫu và lập một ma trận khoảng cách như mô tả trong Hình 3.5(d). Ví dụ, ma trận khoảng cách thể hiện rằng các khoảng cách Euclid giữa chuỗi con thứ nhất với các chuỗi con khác tương ứng là 10, 50, 20 và 45. Tiếp theo, tiến hành tính số lượng các chuỗi con mà khoảng cách của chúng nhỏ hơn ngưỡng R. Giả sử rằng trong ví dụ này R = 30 do đó số lượng đếm được của chuỗi con thứ nhất là 2.
Hơn nữa, để xác định các thành viên của một mẫu, cần tiến hành xác định
trung tâm của mẫu. Trong cách tiếp cận này, các chuỗi con có số đếm lớn nhất được xem là ứng viên của trung tâm của mẫu. Trong Hình 3.5(d), số đếm lớn nhất là 2, và ba chuỗi con (thứ nhất, thứ hai và thứ tư) được xem là các ứng viên của trung tâm
của mẫu. Tiếp theo, tiến hành tính tốn tổng các khoảng cách mà nhỏ hơn R. Ví dụ, giá trị tổng của chuỗi con thứ nhất là 10 + 20 = 30, chuỗi con thứ hai là 10 + 25 = 35, và chuỗi con thứ tư là 20 + 25 = 45. 30 là giá trị nhỏ nhất trong ba giá trị 30, 35 và 45. Vì vậy, chuỗi con thứ nhất được xem là trung tâm của mẫu. Cuối cùng, các
chuỗi con mà khoảng cách của nó so với trung tâm nhỏ hơn R được rút trích. Những chuỗi con này được xem là những thành viên của mẫu. Theo như trong Hình 3.5(e), các chuỗi con thứ nhất, thứ hai và thứ tư được rút trích như là thành viên của mẫu. Sau đó, trong Hình 3.5(f), các chuỗi con BS tương ứng với các chuỗi con được xem như là các thành viên của mẫu BS ‘BCB’.
Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 37
Hình 3.5 Mơ tả trực quan giải thuật dị tìm các mẫu bằng nguyên lý MDL [5]
pointer 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1819 2021 22 23 24 25 26 27 28 29 30 31 32 33 pointer 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1819 2021 22 23 24 25 26 27 28 29 30 31 32 33 pointer 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1819 2021 22 23 24 25 26 27 28 29 30 31 32 33 pointer 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1819 2021 22 23 24 25 26 27 28 29 30 31 32 33 pointer 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1819 2021 22 23 24 25 26 27 28 29 30 31 32 33 pointer 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1819 2021 22 23 24 25 26 27 28 29 30 31 32 33 analysis window analysis window analysis window <distance matrix> Extracted BS sequence: IF min(M1, M2, M3,…) = Mi
THEN i-th pattern is the MDL pattern in CΣ
• length of motif Tmotif = Tmin + Li
• pointer of motif P = Pi The number of O The sum of distances of O M1 = MDL (ΤΣ|”B C B”) L1 = 3, P1= [2, 9, 21] M2 = MDL (ΤΣ|”D D B”) L2 = 3, P2= [12, 26] M3 = MDL (ΤΣ|”B C B C”) L3 = 4, P3= [2, 21] analysis finihsed!
Chương 3: Phương pháp thực hiện GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 38
Tiếp theo, tiến hành tính tốn khoảng cách dựa vào hàm ước tính MDL M1
của mẫu BS ‘BCB’. Tại thời điểm đó, cũng tiến hành tính tốn chiều dài của mẫu L1 và vị trí con trỏ P1 mà lưu giữ vị trí bắt đầu của mỗi chuỗi con BS. Ví dụ, trong
Hình 3.5(f), chiều dài L1 là 3 và lưu giữ con trỏ tại các vị trí 2, 9 và 21. Tiếp theo, trong Hình 3.5(g), một mẫu khác ‘DDB’ với chiều dài bằng 3 được rút trích và tính tốn hàm ước lượng MDL M2 và con trỏ P2 của mẫu này. Nếu tất cả các mẫu mà chiều dài bằng 3 đã được tìm thấy, như trong Hình 3.5(h), bằng cách sử dụng cửa sổ phân tích với chiều dài bằng 4, mẫu ‘BCBC’ sẽ được rút trích. Trong Hình 3.5,
chiều dài của một mẫu BS được xác định bằng nguyên lý MDL. Và miền của chiều dài của mẫu sẽ bắt đầu từ 3 cho tới chiều dài của Ε. Vì vậy, sự phân tích sẽ dừng việc tìm kiếm các mẫu khác nếu nó khơng tìm được thêm mẫu nào nữa đối với một chiều dài cụ thể nào đó.
Việc phân tích trên cứ lặp đi lặp lại cho tới khi tìm được tất cả các mẫu với
một chiều dài nào đó trong Ε. Khi việc này hồn thành, mẫu nào có giá trị của hàm MDL nhỏ nhất được xem như mẫu MDL của Ε. Sử dụng chiều dài của mẫu MDL
Li, chiều dài của motif Tmotif được tính tốn như sau
<Υς W < + ϑ 3.5 Cuối cùng, mẫu MDL được xem là một motif của T.