Giải thuật chiếu ngẫu nhiên

Một phần của tài liệu Phát hiện mô típ với chiều dài khác nhau trên dữ liệu chuỗi thời gian (Trang 25 - 26)

2.

2.3.2 Giải thuật chiếu ngẫu nhiên

Bill Chiu, Eamonn Keogh và các cộng sự sử dụng giải thuật chiếu ngẫu nhiên (Random Projection) để tìm mô típ trên dữ liệu chuỗi thời gian vào năm 2003 [4]. Giải thuật dựa vào công trình [5] để phát triển một phương pháp mới giúp tìm mô típ trong trường hợp có sự xuất hiện của nhiễu.

Giải thuật cũng sử dụng phương pháp PAA để thu giảm số chiều của chuỗi thời gian, sử dụng phương pháp SAX để rời rạc hóa chuỗi con thành chuỗi ký tự. Các chuỗi con sau khi được ký hiệu hóa sẽ được đặt vào một ma trận . Mỗi chuỗi con sẽ là một dòng của ma trận này.

Sau khi có được ma trận , quá trình chiếu ngẫu nhiên sẽ được thực hiện nhằm xây dựng một ma trận đụng độ gọi là CM. Ma trận đụng độ sẽ có các dòng và cột là các chuỗi con trong . Ban đầu giá trị các ô trong ma trận CM được gán giá trị 0.

Giải thuật sẽ thực hiện k lần lặp. Tại mỗi lần lặp, chọn một số cột ngẫu nhiên trong ma trận làm mặt nạ. Sau đó, giá trị của các chuỗi con ứng với mặt nạ (các ký tự ở các cột trong mặt nạ) này sẽ được tính toán bởi một hàm băm. Các chuỗi con có giá trị giống nhau sẽ được băm vào cùng một túi. Nếu hai chuỗi con i và j

được băm vào cùng một túi thì giá trị của ô ứng với hai chuỗi con đó ô(i,j) trong ma trận CM sẽ được tăng giá trị lên 1. Quá trình cứ như thế cho đến khi kết thúc k lần lặp, ta sẽ thu được ma trận đụng độ kết quả cuối cùng. Chi tiết về giải thuật chiếu ngẫu nhiên sẽ được trình bày trong chương 3.

Hai chuỗi con ứng với ô có giá trị lớn nhất trong CM sẽ là ứng cử số 1 cho mô típ. Để xác định hai chuỗi con đó có là mô típ hay không giải thuật sẽ tính khoảng cách Euclid của hai chuỗi con ban đầu để đưa ra kết luận. Các ô có giá trị lớn tiếp theo có thể được xem xét để tìm các mô típ kế tiếp.

Ưu điểm của giải thuật chiếu ngẫu nhiên là có khả năng phát hiện mô típ trong trường hợp có nhiễu. Theo các tác giả thì giải thuật có khả năng phát hiện mô típ với tốc độ rất nhanh và tương đối chính xác.

Nhược điểm chính của giải thuật này là cũng phải cung cấp chiều dài của mô típ. Giải thuật không thể phát hiện những mô típ có chiều dài khác. Ngoài ra giải

thuật cũng phụ thuộc vào việc xác định số lần lặp chọn mặt nạ (số mặt nạ được sử dụng), cũng như số cột của mặt nạ.

Một phần của tài liệu Phát hiện mô típ với chiều dài khác nhau trên dữ liệu chuỗi thời gian (Trang 25 - 26)

Tải bản đầy đủ (PDF)

(82 trang)