2.
4.1.2 Phát hiện mô típ dựa vào điểm cực trị quan trọng
Việc hiện thực và thử nghiệm giải thuật phát hiện mô típ dựa vào điểm cực trị quan trọng (gọi tắt là giải thuật EP_C) dựa vào ý tưởng giải thuật do Gruber và các cộng sự đề ra vào năm 2006 [16]. Ngoài ra, phần này cũng có tham khảo luận văn thạc sĩ về đề tài “Nhận diện motif trên dữ liệu chuỗi thời gian dựa vào điểm cực trị quan trọng” của tác giả Huỳnh Nguyễn Tín tại Đại học Bách Khoa TP.HCM vào năm 2012 [18].
Hình 4-2: Mô hình hoạt động của phương pháp phát hiện mô típ dựa vào điểm cực trị quan trọng.
Đầu tiên, phương pháp này sẽ tìm ra các điểm cực trị quan trọng. Tiếp theo, giải thuật sẽ đưa ra những ứng viên mô típ dựa vào các điểm cực trị quan trọng tìm được. Cuối cùng, mô hình này sẽ gom cụm các ứng viên mô típ dựa vào giải thuật gom cụm phân cấp từ dưới lên HAC hoặc K-means. Trong thực nghiệm này chúng tôi sử dụng phương pháp gom cụm K-Means. Mô hình của phương pháp này như hình 4-2.
Các thông số của phương pháp này bao gồm:
Hệ số nén R: đây là hệ số cho phép chúng tôi quyết định hệ số nén. Nếu R
càng lớn thì số điểm cực trị được chọn càng ít và ngược lại.
Chiều dài cực tiểu l_min của các ứng viên motif: nếu một ứng viên mô típ có chiều dài nhỏ hơn l_min thì sẽ được bỏ qua.
Chiều dài lấy mẫu lại l_resample của các ứng viên mô típ: chiều dài của các ứng viên mô típ qua phép vị tự sẽ được xác định bằng thông số này.
Hệ số r là tổng số các cụm trên tổng số các điểm cực trị (0 <r<1): đây là thông số cho phép chúng tôi xác định số lượng các cụm trong phương pháp K- Means.