Cán bộ chấm nhận xét 2: TS Phạm Văn Chung
5. Uỷ viên: PGS TS Dương Tuấn Anh
2.6 Các cơng trình liên quan
2.6.1 Giải thuật phát hiện motif dựa vào phương pháp chiếu ngẫu nhiên
ngẫu nhiên
Năm 2003, Chiu và các cộng sự đã đề xuất phương pháp chiếu ngẫu nhiên để phát
hiện motif [2].
Đầu tiên, Chiu sử dụng phương pháp PAA để thu giảm số chiều. Sau đó, tác
giả tiếp tục sử dụng phương pháp SAX để rời rạc hoá chuỗi dữ liệu thu giảm.
Giả sử chuỗi thời gian T gồm 1000 điểm, chứa hai chuỗi con chiều dài 16 là
T1 và T58 giống nhau, nhưng vì lý do nào đó xảy ra nhiễu ở vị trí 8 đến 12.
Đầu tiên tiến hành rút trích ra các chuỗi con bằng cách sử dụng cửa sổ trượt
n. Tiếp theo, sử dùng phương pháp PAA và SAX để biến đổi các chuỗi con thành
các kí hiệu để lập thành ma trận 1%. Chú ý rằng các chỉ số hàng của 1% cho biết vị trí các chuỗi con tương ứng trong T. Hình 2.12 minh hoạ quá trình này.
Tiếp theo, sẽ khởi tạo một ma trận đụng độ [985, 985] có giá trị khởi tạo
bằng 0. Sau khi xây dựng ma trận 1%, tiến hành thực hiện phép chiếu ngẫu nhiên như sau
• Chọn ngẫu nhiên hai cột của 1% (ví dụ trong Hình 2.13, hai cột {1, 2} được chọn, Hình 2.14 hai cột {2, 4} được chọn). Nếu giá trị của hai cột 1 và 2 của hai hàng i và j của chuỗi S giống nhau thì vị trí [i, j] của ma trận va chạm sẽ được tăng lên một đơn vị.
• Lặp lại bước trên với một số lần nhất định sẽ thu được một ma trận đụng
độ. Số bước lặp này lớn hay nhỏ tuỳ thuộc vào số ký tự được mã hoá và
cửa sổ trượt trong giải thuật SAX. Nếu tất cả các giá trị trong ma trận 1% là giống nhau thì khơng có motif nào được tìm thấy. Ngược lại rất có thể là
Chương 2: Cơ sở lý thuyết và các cơng trình liên quan GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 19
[58, 1] là rất lớn so với các giá trị khác. Từ ma trận đụng độ này, dễ dàng tìm được motif bậc 1 của T.
Hình 2.13 và Hình 2.14 mơ tả quá trình chọn ngẫu nhiên hai cột và thay đổi giá trị của ma trận đụng độ ở các vị trí tương ứng.
Hình 2.12 Minh hoạ việc xây dựng ma trận S ̂ với a = 3, w = 4 và n = 16 [2]
Hình 2.13 Trái) Các cột 1, 2 được chọn ngẫu nhiên. Phải) Tăng giá trị các ô tương ứng trong cột 1, 2 [2]
Chương 2: Cơ sở lý thuyết và các cơng trình liên quan GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 20
Hình 2.14 Trái) Các cột 2, 4 được chọn ngẫu nhiên. Phải) Tăng giá trị các ô tương ứng trong cột 2, 4 [2]
Tuy nhiên, nhược điểm của phương pháp này là người sử dụng phải chọn các thông số để thu giảm số chiều PAA, số lượng ký tự mã hoá trong SAX và chiều dài cửa sổ trượt w cho giải thuật chiếu ngẫu nhiên hợp lý. Nếu các thông số này không
được chọn hợp lý thì chương trình chạy rất lâu, đồng thời có thể khơng phát hiện được motif.