Giải thuật Mueen-Keogh

2.3.3 Giải thuật Mueen-Keogh

Một giải thuật khác được đưa ra để phát hiện mô típ trong chuỗi thời gian là giải thuật Mueen-Keogh (MK). Giải thuật được Abdullah Mueen , Eamonn Keogh và các cộng sự đưa ra vào năm 2009 [6]. Mueen-Keogh thể hiện một cách tiếp cận khác để tìm ra mô típ.

Giải thuật dựa vào việc tính khoảng cách giữa các chuỗi con để tìm ra mô típ. Một chuỗi con bất kỳ sẽ được chọn làm điểm tham khảo (điểm 1 trong hình 2-5 A). Từ điểm tham khảo này, khoảng cách đến các chuỗi con khác sẽ được tính toán. Sau đó, các chuỗi con sẽ được sắp xếp vào một danh sách tuyến tính theo thứ tự tăng dần khoảng cách so với điểm tham khảo đã chọn (hình 2-5 B).

Hình 2-5: Minh họa ý tưởng giải thuật MK (nguồn [6]).

Trong quá trình sắp xếp thứ tự các chuỗi con, khoảng cách tương đối giữa các chuỗi con cũng được xác định dựa vào khoảng cách so với điểm tham khảo. Khoảng cách tương đối này chỉ là độ khác biệt giữa hai khoảng cách so với điểm tham khảo

chứ không phải là khoảng cách thực tế của các chuỗi con. Hay nói cách khác, khoảng cách tương đối giữa các chuỗi con chính là cận dưới của khoảng cách thực giữa chúng (hình 2-5 C).

Khoảng cách từ điểm tham khảo (chuỗi con đầu tiên) đến chuỗi con thứ hai trong danh sách vừa sắp xếp là ngắn nhất và khoảng cách này được gọi là khoảng cách tốt nhất hiện tại (best-so-far).

Ý tưởng chính của giải thuật là dựa vào tính chất hai chuỗi con gần nhau trong thực tế cũng sẽ gần nhau trong danh sách tuyến tính. Ở chiều ngược lại thì không đúng, hai chuỗi con gần nhau trong danh sách tuyến tính có thể có khoảng cách rất xa nhau trong thực tế. Dựa vào ý tưởng này, giải thuật sẽ duyệt qua các cặp chuỗi con kế cận nhau. Nếu khoảng cách tương đối giữa chúng nhỏ hơn khoảng cách tốt nhất hiện tại thì khoảng cách thực tế giữa chúng sẽ được tính. Nếu khoảng cách thực tế này cũng nhỏ hơn khoảng cách tốt nhất hiện tại thì cập nhật nó làm khoảng cách tốt nhất hiện tại. Hình 2-6 minh họa việc duyệt và cập nhật best-so-far. Sau khi kết thúc quá trình duyệt, mô típ tìm được chính là hai chuỗi con có khoảng cách tốt nhất hiện tại.

Hình 2-6: Minh họa việc cập nhật best-so-far của giải thuật MK (nguồn [6]). Tất cả các độ đo khoảng cách được sử dụng trong giải thuật là khoảng cách Euclid. Đây cũng chính là một trong những ưu điểm của giải thuật này vì khoảng cách Euclid đơn giản, tốc độ tính toán nhanh, đặc biệt có ích trong những tập dữ liệu lớn.

Một ưu điểm khác là việc phát hiện tính chất hai chuỗi con gần nhau trong thực tế cũng sẽ gần nhau trong danh sách tuyến tính giúp giải thuật hạn chế việc tính toán những khoảng cách không cần thiết. Giải thuật chỉ tập trung xem xét những chuỗi con kế cận nhau trong danh sách tuyến tính.

Khoảng cách tương đối là cận dưới của khoảng cách thực tế cũng là một tính chất giúp tăng tốc độ giải thuật. Nếu khoảng cách tốt nhất hiện tại nhỏ hơn khoảng cách tương đối của hai chuỗi con đang xét thì giải thuật sẽ bỏ qua chúng mà không cần tính khoảng cách thực tế.

Với những ưu điểm trên thì giải thuật Mueen-Keogh có tốc độ tìm ra lời giải nhanh. Theo các tác giả thì giải thuật của họ có tốc độ nhanh hơn tất cả các giải thuật được chọn để so sánh vào thời điểm công bố.

Bên cạnh những ưu điểm trên thì giải thuật Mueen-Keogh cũng có những hạn chế. Hạn chế chính của giải thuật là phải xác định trước chiều dài của mô típ. Do đó, giải thuật chỉ có thể tìm ra những mô típ có chiều dài được truyền vào.

Một hạn chế khác là việc chọn một chuỗi con làm điểm tham khảo là một công việc khó. Việc chọn điểm tham khảo tốt sẽ giúp tăng tốc độ giải thuật và ngược lại. Giải pháp được các tác giả đưa ra là chọn nhiều điểm tham khảo. Tuy nhiên, việc này cũng sẽ ảnh hưởng đến tốc độ giải thuật cũng như nên chọn số lượng điểm tham khảo bao nhiêu là hơp lý.

Giải thuật chiếu ngẫu nhiên

Rời rạc hóa dữ liệu