CHƯƠNG 4 : HIỆN THỰC VÀ THỬ NGHIỆM
4.2 Kết quả thực nghiệm
4.2.4 Dữ liệu điện tâm đồ kích thước 144000 điểm
Dữ liệu được sử dụng trong phần thực nghiệm tiếp theo này là dữ liệu điện tâm đồ (ECG) có kích thước 144000 điểm. Dạng biểu diễn của dữ liệu được thể hiện như hình 4-28.
Hình 4-28: Biểu diễn của dữ liệu ECG có kích thước 144000 điểm.
4.2.4.1 Giải thuật phát hiện mô típ có chiều dài khác nhau
Giải thuật được thực hiện với các thông số đầu vào như sau:
Ký hiệu Giá trị Chú thích
w_PAA 40 Chiều dài khung w_PAA sử dụng thu giảm số chiều PAA.
a 5 Hệ số a thể hiện độ lớn bảng chữ cái dùng trong SAX.
w 10 Chiều dài chuỗi con w trong giải thuật chiếu ngẫu nhiên.
k 4 Số mặt nạ k trong giải thuật chiếu ngẫu nhiên.
c 5 Số cột c của mỗi mặt nạ trong giải thuật chiếu ngẫu nhiên.
d 1.25 Hệ số d là không gian tìm kiếm trong giải thuật nối mô típ. [α1, α2] [0.65,1.35] Hệ số α1, α2 là hai hệ số góc giới hạn phạm vi tìm kiếm
θ 0.98 Hệ số trùng lắp θ dùng để phân hoạch các phân đoạn vào các lớp tương đương.
Sau khi chạy giải thuật với các thông số trên, chúng tôi thu được 13425 phân đoạn, các phân đoạn được phân hoạch vào 7758 lớp tương đương. Thời gian chạy của giải thuật là 3572767ms (59 phút 32 giây 767 mili giây). Kết quả chương trình như hình 4-29.
Hình 4-29: Kết quả hiển thị của chương trình sau khi chạy giải thuật MC trên dữ liệu ECG 144000 điểm với w_PAA = 40, w = 10.
Chúng ta xem qua một số mô típ do giải thuật phát hiện được. Các mô típ với các thể hiện của chúng được biểu diễn trong các hình 4-30, hình 4-31, hình 4-32 và hình 4-33.
Hình 4-30: Các thể hiện của mô típ dài nhất ứng với lớp tương đương 4323sau khi chạy giải thuật MC trên dữ liệu ECG 144000 điểm với w_PAA = 40, w = 10.
Hình 4-31: Các thể hiện của mô típ ứng với lớp tương đương 4134sau khi chạy giải thuật MC trên dữ liệu ECG 144000 điểm với w_PAA = 40, w = 10.
Hình 4-32: Các thể hiện của mô típ ứng với lớp tương đương 2074sau khi chạy giải thuật MC trên dữ liệu ECG 144000 điểm với w_PAA = 40, w = 10.
Hình 4-33: Các thể hiện của mô típ ứng với lớp tương đương 2083sau khi chạy giải thuật MC trên dữ liệu ECG 144000 điểm với w_PAA = 40, w = 10.
Chúng tôi cũng thực hiện vài thử nghiêm với thông số khác trên tập dữ liệu này và nhận thấy rằng tốc độ giải thuật phụ thuộc vào chiều dài w_PAA. Giá trị w_PAA
càng nhỏ thì tốc độ giải thuật sẽ càng chậm vì đây là tập dữ liệu có kích thước lớn. Khi chúng tôi thử thực hiện một thử nghiệm với w_PAA = 80, w = 10, các thông số
khác như thử nghiệm trên. Thời gian chạy của giải thuật MC lúc này là 311576ms (5 phút 11 giây 576 mili giây) nhưng độ chính xác của mô típ bị giảm đi.
Qua các kết quả thực nghiệm, chúng tôi nhận thấy giải thuật có khả năng phát hiện mô típ rất tốt. Các chuỗi con tuy có nhiễu nhưng có hình dạng biến đổi tương đối giống nhau được phát hiện là mô típ.
4.2.4.2 Giải thuật phát hiện mô típ dựa vào điểm cực trị quan trọng
Sau khi thử nghiệm giải thuật phát hiện mô típ có chiều dài khác nhau với tập dữ liệu ECG 144000 điểm, chúng tôi tiếp tục thử nghiệm giải thuật phát hiện mô típ dựa vào điểm cực trị quan trọng trên tập dữ liệu này. Các thông số đầu vào của giải thuật như sau:
Ký hiệu Giá trị Chú thích
R 1.2 Hệ số nén trong việc tìm điểm cực trị.
l_min 50 Chiều dài cực tiểu của ứng viên motif.
r 0.2 Tổng số các cụm/ tổng số các điểm cực trị.
l_resample 500 Chiều dài của các ứng viên motif sau khi lấy mẫu. Sau khi chạy giải thuật, chúng tôi thu được 85 thể hiện của mô típ. Thời gian chạy của giải thuật là 47831ms (47giây 831 mili giây). Kết quả chương trình như hình 4-34. Hình 4-35 biểu diễn các thể hiện của mô típ tìm được.
Hình 4-34: Kết quả hiển thị của chương trình sau khi chạy giải thuật EP_C trên dữ liệu ECG kích thước 144000 điểm.
Hình 4-35: Biểu diễn mô típ kết quả sau khi chạy giải thuật EP_C trên dữ liệu ECG 144000 điểm.
4.2.4.3 Kết luận kết quả thực nghiệm thu được của hai giải thuật
Dựa vào kết quả thu được từ các thực nghiệm hai giải thuật trên tập dữ liệu ECG 144000 điểm, chúng tôi nhận thấy giải thuật phát hiện mô típ có chiều dài khác nhau có ưu điểm hơn so với giải thuật phát hiện mô típ dựa vào điểm cực trị quan trọng như sau:
Phát hiện mô típ có chiều dài khác nhau tốt hơn. Phát hiện được hầu hết các mô típ có trong tập dữ liệu.