Mô hình hiện thực

Một phần của tài liệu Phát hiện mô típ với chiều dài khác nhau trên dữ liệu chuỗi thời gian (Trang 45 - 48)

CHƯƠNG 4 : HIỆN THỰC VÀ THỬ NGHIỆM

4.1 Mô hình hiện thực

Phần này sẽ đưa ra một cái nhìn tổng quát về hoạt động của mô hình phát hiện mô típ có chiều dài khác nhau dựa vào giải thuật chiếu ngẫu nhiên và giải thuật phát hiện mô típ dựa vào điểm cực trị quan trọng.

4.1.1 Phát hiện mô típ có chiều dài khác nhau

Chúng ta tìm hiểu mô hình hoạt động của giải thuật phát hiện mô típ có chiều dài khác nhau (gọi tắt là giải thuật MC). Đầu tiên, dữ liệu ban đầu sẽ được tiến hành chuẩn hóa về dạng zero-mean và unit-norm. Chuỗi thời gian sẽ được thu giảm số chiều sử dụng phương pháp PAA, rời rạc hóa sử dụng phương pháp SAX. Sau đó, giải thuật chiếu ngẫu nhiên sẽ được sử dụng để tạo ra ma trận đụng độ các chuỗi con.

Từ ma trận đụng độ thu được, giải thuật nối mô típ được sử dụng để tạo các phân đoạn chứa các mô típ có chiều dài nhỏ. Việc nối tất cả các mô típ nhỏ trong mỗi phân đoạn sẽ tạo ra một mô típ dài hơn.

Cuối cùng, từ tập hợp các phân đoạn thu được, ta tính toán sự trùng lắp của các phân đoạn để xác định mô típ cuối cùng và đưa ra mẫu chung của mô típ. Trong phần hiện thực này chúng tôi chọn thể hiện có chiều dài ngắn nhất làm mẫu chung.

Mô hình tổng quát của phương pháp sẽ như hình 4-1.

Hình 4-1: Mô hình hoạt động của phương pháp phát hiện mô típ có chiều dài khác nhau.

Các thông số của phương pháp này bao gồm:

 Chiều dài khung w_PAA sử dụng thu giảm số chiều PAA.  Hệ số a thể hiện độ lớn bảng chữ cái dùng trong SAX.  Chiều dài chuỗi con w trong giải thuật chiếu ngẫu nhiên.

 Số mặt nạ k trong giải thuật chiếu ngẫu nhiên.

 Số cột c của mỗi mặt nạ trong giải thuật chiếu ngẫu nhiên.  Hệ số d là không gian tìm kiếm trong giải thuật nối mô típ.

 Hệ số α1, α2 là hai hệ số góc giới hạn phạm vi tìm kiếm trong giải thuật nối mô típ.

 Hệ số trùng lắp θ dùng để phân hoạch các phân đoạn vào các lớp tương đương.

4.1.2 Phát hiện mô típ dựa vào điểm cực trị quan trọng

Việc hiện thực và thử nghiệm giải thuật phát hiện mô típ dựa vào điểm cực trị quan trọng (gọi tắt là giải thuật EP_C) dựa vào ý tưởng giải thuật do Gruber và các cộng sự đề ra vào năm 2006 [16]. Ngoài ra, phần này cũng có tham khảo luận văn thạc sĩ về đề tài “Nhận diện motif trên dữ liệu chuỗi thời gian dựa vào điểm cực trị quan trọng” của tác giả Huỳnh Nguyễn Tín tại Đại học Bách Khoa TP.HCM vào năm 2012 [18].

Hình 4-2: Mô hình hoạt động của phương pháp phát hiện mô típ dựa vào điểm cực trị quan trọng.

Đầu tiên, phương pháp này sẽ tìm ra các điểm cực trị quan trọng. Tiếp theo, giải thuật sẽ đưa ra những ứng viên mô típ dựa vào các điểm cực trị quan trọng tìm được. Cuối cùng, mô hình này sẽ gom cụm các ứng viên mô típ dựa vào giải thuật gom cụm phân cấp từ dưới lên HAC hoặc K-means. Trong thực nghiệm này chúng tôi sử dụng phương pháp gom cụm K-Means. Mô hình của phương pháp này như hình 4-2.

Các thông số của phương pháp này bao gồm:

 Hệ số nén R: đây là hệ số cho phép chúng tôi quyết định hệ số nén. Nếu R

càng lớn thì số điểm cực trị được chọn càng ít và ngược lại.

 Chiều dài cực tiểu l_min của các ứng viên motif: nếu một ứng viên mô típ có chiều dài nhỏ hơn l_min thì sẽ được bỏ qua.

 Chiều dài lấy mẫu lại l_resample của các ứng viên mô típ: chiều dài của các ứng viên mô típ qua phép vị tự sẽ được xác định bằng thông số này.

 Hệ số r là tổng số các cụm trên tổng số các điểm cực trị (0 <r<1): đây là thông số cho phép chúng tôi xác định số lượng các cụm trong phương pháp K- Means.

Một phần của tài liệu Phát hiện mô típ với chiều dài khác nhau trên dữ liệu chuỗi thời gian (Trang 45 - 48)

Tải bản đầy đủ (PDF)

(82 trang)