Tìm mẫu chung của các mô típ

Một phần của tài liệu Phát hiện mô típ với chiều dài khác nhau trên dữ liệu chuỗi thời gian (Trang 43 - 45)

2.

3.7 Tìm mẫu chung của các mô típ

Sau khi đã tìm được các mô típ dài hơn bằng giải thuật nối mô típ, công việc tiếp theo là ta cần xác định các mô típ có một dạng mẫu chung và tìm ra mẫu tổng quát của chúng. Việc này được thực hiện nhờ tính chất trùng lắp của các phân đoạn.

Nếu hai phân đoạn segi và segj có sự trùng lắp trên trục y thì rất có khả năng chúng có nguồn gốc từ một mẫu chung. Vì ma trận đụng độ có tính chất đối xứng nên ta cũng có điều tương tự trên trục x. Ta sẽ xem xét định nghĩa về trùng lắp phân đoạn.

Định nghĩa 10: Trùng lắp phân đoạn

Cho hai phân đoạn segi = <Mi1,Mi2,…,Mip> = <(si1,ti1), (si2,ti2),…,(sip,tip)> và segj = <(sj1,tj1), (sj2,tj2),…,(sjp,tjp)> độ trùng lắp phân đoạn của segi và segj được tính như sau:

x_overlap(segi,segj) = 2 x (min(sjp,sip) – max(sj1, si1))/ (sjp + sip –si1 –sj1) y_overlap(segi,segj) = 2 x (min(tjp,tip) – max(tj1, ti1))/ (tjp + tip –ti1 –tj1)

Hình 3-13 minh họa sự trùng lắp của hai phân đoạn. Giá trị x_overlap và

y_overlap trả về tỷ lệ trùng lắp của hai phân đoạn so với tổng chiều dài của hai phân đoạn. Chúng được dùng để phân hoạch các phân đoạn vào các lớp tương đương. Nếu segi và segj có x_overlap hoặc y_overlap lớn hơn một hằng số θ thì chúng sẽ được phân hoạch vào cùng một lớp tương đương các phân đoạn.

Sau khi ta thu được tất cả các lớp tương đương, mỗi lớp sẽ chứa các phân đoạn có cùng một mẫu chung và ta sẽ đi tìm mẫu chung tổng quát này. Để tìm mẫu tổng quát, các phân đoạn trong cùng một lớp sẽ được xếp lại với nhau. Những phân đoạn nào có phần dư thừa ở hai đầu sẽ được cắt bỏ như trong hình 3-14. Sau đó, giá trị trung bình của chúng tại từng vị trí sẽ được tính để tìm ra mẫu tổng quát của mô típ.

Hình 3-15: Tìm mẫu tổng quát bằng cách cắt bỏ phần dư thừa và tính giá trị trung bình của các phân đoạn (nguồn [7]).

3.8 Kết luận

Hướng tiếp cận của đề tài là sử dụng phương pháp PAA để thu giảm số chiều, phương pháp SAX để rời rạc hóa dữ liệu, độ đo Euclid để tính độ tương tự, giải thuật chiếu ngẫu nhiên để xây dựng ma trận đụng độ, giải thuật nối mô típ để tìm ra mô típ dài hơn, phương pháp phân hoạch các phân đoạn vào các lớp tương đương để tìm mẫu tổng quát của các mô típ.

Với phương pháp tiếp cận nối mô típ thì đề tài sẽ khắc phục những hạn chế của các phương pháp khác trong việc tìm mô típ. Phương pháp này có khả năng tìm ra mô típ bất kỳ có chiều dài bất kỳ trong chuỗi thời gian. Đồng thời, phương pháp cũng có khả năng tìm ra mẫu tổng quát của các mô típ nếu có.

CHƯƠNG 4: HIỆN THỰC VÀ THỬ NGHIỆM

Trong chương này, chúng tôi sẽ hiện thực giải thuật phát hiện mô típ có chiều dài khác nhau trên dữ liệu chuỗi thời gian và sau đó sẽ tiến hành thử nghiệm giải thuật trên một vài tập dữ liệu mẫu. Kết quả thử nghiệm sẽ được so sánh với kết quả của giải thuật phát hiện mô típ dựa vào điểm cực trị quan trọng trên cùng tập dữ liệu.

Phần thực nghiệm sẽ được so sánh tập trung vào các khía cạnh sau:  Khả năng phát hiện mô típ có chiều dài khác nhau.

 Tính chính xác trong việc nhận diện mô típ.  Thời gian chạy của giải thuật.

Một phần của tài liệu Phát hiện mô típ với chiều dài khác nhau trên dữ liệu chuỗi thời gian (Trang 43 - 45)

Tải bản đầy đủ (PDF)

(82 trang)