Thực nghiệm về bài toán phát hiện motif

Một phần của tài liệu Khai phá dữ liệu chuỗi thời gian dựa vào rút trích đặc trưng bằng phương pháp điểm giữa và kỹ thuật xén ( 167 trang ) (Trang 105 - 106)

Thực nghiệm thực hiện so sánh hai phƣơng pháp phát hiện motif đƣợc đề xuất trong luận án với giải thuật chiếu ngẫu nhiên (Random Projection - RP). Giải thuật chiếu ngẫu nhiên đƣợc lựa chọn để so sánh vì thuật toán này đã đƣợc sử dụng rộng rãi để phát hiện motif trên chuỗi thời gian từ khi nó đƣợc giới thiệu, nó có thể phát hiện motif trong thời gian tuyến tính, đây cũng là thuật toán đƣợc trích dẫn nhiều và là cơ sở cho nhiều cách tiếp cận hiện nay cho bài toán phát hiện motif trong dữ liệu chuỗi thời gian ( [17], [18]). Ngoài ra, chúng tôi còn so sánh phƣơng pháp do chúng tôi đề xuất với cách tiếp cận chỉ sử dụng R*-tree. Sự so sánh dựa trên thời gian thực hiện và

độ hữu hiệu (efficiency). Ở đây, chúng tôi đánh giá độ hữu hiệu của thuật toán đề xuất

dựa trên tỉ số giữa số lần hàm tính khoảng cách Euclid đƣợc gọi với số lần gọi hàm tính khoảng cách Euclid khi thực hiện thuật toán brute force [70].

Phƣơng pháp có giá trị độ hữu hiệu thấp hơn là phƣơng pháp tốt hơn. Độ hữu hiệu còn cho thấy mức độ cải tiến của phƣơng pháp đề xuất so với giải thuật brute-

(4.1) Số lần phƣơng pháp đề xuất gọi hàm tính khoảng cách Euclid.

Số lần thuật toán brute-force gọi hàm tính khoảng cách Euclid. Độ hữu hiệu =

88

force. Trong hai tiêu chuẩn đánh giá trên thì độ hữu hiệu đƣợc xem là quan trọng hơn vì tiêu chuẩn này hoàn toàn độc lập với hệ thống đƣợc hiện thực.

Thực nghiệm đƣợc thực hiện trên bốn tập dữ liệu khác nhau: hai tập dữ liệu có nhiều chuỗi con lặp lại: ECG, Waveform và hai tập dữ liệu chọn ngẫu nhiên trong mƣời tập dữ liệu nêu ở mục 3.6: Stock, Consumer. Chúng tôi thực hiện thực nghiệm trên các tập dữ liệu có kích thƣớc khác nhau từ 10000 đến 30000 chuỗi cho mỗi tập và chiều dài motif biến đổi từ 128 đến 1024. Trong thực nghiệm tỉ lệ thu giảm số chiều đƣợc chọn là 32:1 cho tất cả các phƣơng pháp. Với phƣơng pháp RP, kích thƣớc bộ ký tự SAX đƣợc chọn là 5. Số cột đƣợc chọn để dùng làm mặt nạ (mask) đƣợc chọn ngẫu nhiên từ 2 đến 20 nhằm đảm bảo sự phân bố của phép chiếu là đủ rộng để ngăn chặn độ phức tạp của thuật toán trở thành bậc hai. Kết quả thực nghiệm của phƣơng pháp RP đƣợc trình bày trong báo cáo này là kết quả trung bình của một lần lặp (chúng tôi cho RP thực hiện lặp 10 lần và tính kết quả trung bình của một lần lặp). Tuy nhiên, vì là phƣơng pháp lặp, RP cần thực hiện nhiều lần lặp để kết quả hội tụ. Lý do chúng tôi so sánh các kết quả trong một lần lặp để cho thấy rằng phƣơng pháp chúng tôi đề xuất thực hiện tốt hơn phƣơng pháp RP dù cho nó chỉ thực hiện một lần lặp.

Một phần của tài liệu Khai phá dữ liệu chuỗi thời gian dựa vào rút trích đặc trưng bằng phương pháp điểm giữa và kỹ thuật xén ( 167 trang ) (Trang 105 - 106)