CHƯƠNG 4 : HIỆN THỰC VÀ THỬ NGHIỆM
4.2 Kết quả thực nghiệm
4.2.3 Dữ liệu Power kích thước 35000 điểm
Dữ liệu được sử dụng trong phần thực nghiệm tiếp theo này là dữ liệu Power có kích thước 35000 điểm. Dạng biểu diễn của dữ liệu được thể hiện như hình 4-20.
Hình 4-20: Biểu diễn của dữ liệu Power có kích thước 35000 điểm.
4.2.3.1 Giải thuật phát hiện mô típ có chiều dài khác nhau
Ký hiệu Giá trị Chú thích
w_PAA 20 Chiều dài khung w_PAA sử dụng thu giảm số chiều PAA.
a 5 Hệ số a thể hiện độ lớn bảng chữ cái dùng trong SAX.
w 20 Chiều dài chuỗi con w trong giải thuật chiếu ngẫu nhiên.
k 4 Số mặt nạ k trong giải thuật chiếu ngẫu nhiên.
c 10 Số cột c của mỗi mặt nạ trong giải thuật chiếu ngẫu nhiên.
d 1.25 Hệ số d là không gian tìm kiếm trong giải thuật nối mô típ. [α1, α2] [0.65,1.35] Hệ số α1, α2 là hai hệ số góc giới hạn phạm vi tìm kiếm
trong giải thuật nối mô típ.
θ 0.98 Hệ số trùng lắp θ dùng để phân hoạch các phân đoạn vào các lớp tương đương.
Sau khi chạy giải thuật với các thông số trên, chúng tôi thu được 3078 phân đoạn, các phân đoạn được phân hoạch vào 1814 lớp tương đương. Thời gian chạy của giải thuật là 399279ms (6 phút 39 giây 279 mili giây). Kết quả chương trình như hình 4-21.
Hình 4-21: Kết quả hiển thị của chương trình sau khi chạy giải thuật MC trên dữ liệu Power 35000 điểm với w_PAA = 20, w = 20.
Chúng ta xem qua một số mô típ do giải thuật phát hiện được. Các mô típ với các thể hiện của chúng được biểu diễn trong các hình 4-22, hình 4-23, hình 4-24 và hình 4-25.
Hình 4-22: Các thể hiện của mô típ ứng với lớp tương đương 385 sau khi chạy giải thuật MC trên dữ liệu Power 35000 điểm với w_PAA = 20, w = 20.
Hình 4-23: Các thể hiện của mô típ ứng với lớp tương đương 1302 sau khi chạy giải thuật MC trên dữ liệu Power 35000 điểm với w_PAA = 20, w = 20.
Hình 4-24: Các thể hiện của mô típ ứng với lớp tương đương 1114 sau khi chạy giải thuật MC trên dữ liệu Power 35000 điểm với w_PAA = 20, w = 20.
Hình 4-25: Các thể hiện của mô típ ứng với lớp tương đương 38 sau khi chạy giải thuật MC trên dữ liệu Power 35000 điểm với w_PAA = 20, w = 20.
Chúng tôi thực hiện một thử nghiệm khác với w_PAA tăng lên và giảm w với các thông số w_PAA = 40, w = 10, c = 5, các thông số khác như thử nghiệm trên trên. Kết quả thu được của thử nghiệm là 2200 phân đoạn, 1785 lớp tương đương,
thời gian chạy 10920ms (10 giây 920 mili giây). Qua đó, chúng tôi thấy tốc độ của giải thuật phụ thuộc nhiều vào chiều dài w_PAA.
Qua quan sát các kết quả thực nghiệm, chúng tôi nhận thấy giải thuật MC có khả năng phát hiện mô típ có chiều dài khác nhau trên dữ liệu này. Các chuỗi con tuy có nhiễu nhưng có hình dạng biến đổi tương đối giống nhau được phát hiện là mô típ.
4.2.3.2 Giải thuật phát hiện mô típ dựa vào điểm cực trị quan trọng
Sau khi thử nghiệm giải thuật phát hiện mô típ có chiều dài khác nhau với tập dữ liệu Power 35000 điểm, chúng tôi tiếp tục thử nghiệm giải thuật phát hiện mô típ dựa vào điểm cực trị quan trọng trên tập dữ liệu này. Các thông số đầu vào của giải thuật như sau:
Ký hiệu Giá trị Chú thích
R 1.2 Hệ số nén trong việc tìm điểm cực trị.
l_min 50 Chiều dài cực tiểu của ứng viên motif.
r 0.2 Tổng số các cụm/ tổng số các điểm cực trị.
l_resample 500 Chiều dài của các ứng viên motif sau khi lấy mẫu. Sau khi chạy giải thuật, chúng tôi thu được 43 thể hiện của mô típ. Thời gian chạy của giải thuật là 4711ms (4 giây 11 mili giây). Kết quả chương trình như hình 4-26. Hình 4-27 biểu diễn các thể hiện của mô típ tìm được.
Hình 4-26: Kết quả hiển thị của chương trình sau khi chạy giải thuật EP_C trên dữ liệu Power 35000 điểm.
Hình 4-27: Biểu diễn mô típ kết quả sau khi chạy giải thuật EP_C trên dữ liệu Power 35000 điểm.
4.2.3.3 Kết luận kết quả thực nghiệm thu được của hai giải thuật
Dựa vào kết quả thu được từ các thực nghiệm hai giải thuật trên tập dữ liệu Power 35000 điểm, chúng tôi nhận thấy giải thuật phát hiện mô típ có chiều dài khác nhau có ưu điểm hơn so với giải thuật phát hiện mô típ dựa vào điểm cực trị quan trọng như sau:
Phát hiện mô típ có chiều dài khác nhau tốt hơn. Phát hiện được hầu hết các mô típ có trong tập dữ liệu.
Phát hiện được những mô típ bị ảnh hưởng bởi nhiễu nhưng có mô hình biến đổi giống nhau.