Thực nghiệm 2: So sánh ba giải thuật dùng R*-tree, RP và MP_C kết hợp

Một phần của tài liệu Khai thác dữ liệu chuỗi thời gian dựa vào rút trích đặc trưng bằng phương pháp điểm giữa và kỹ thuật xén = time series data mining based on feature extraction with middle points and clipping method (Trang 109 - 115)

với chỉ mục đường chân trời.

Hình 4.10 Kết quả thực nghiệm về thời gian thực hiện của ba thuật toán trên tập dữ liệu Consumer (10000 chuỗi) với chiều dài motif khác nhau.

Hình 4.10 trình bày kết quả thực nghiệm về thời gian thực hiện của ba thuật toán dùng R*-tree, RP và MP_C với sự hỗ trợ của chỉ mục đƣờng chân trời đƣợc thực hiện trên tập dữ liệu Consumer có kích thƣớc 10000 chuỗi với chiều dài motif khác nhau. Hình 4.10(a) là kết quả so sánh về thời gian thực hiện của ba thuật toán. Hình 4.10(b) trình bày kết quả so sánh về thời gian thực hiện giữa hai phƣơng pháp dùng R*-tree và MP_C với sự hỗ trợ của chỉ mục đƣờng chân trời.

Chiều dài motif R*-tree R*-tree + Early Abandon

128 0.00074 0.00074

256 0.00025 0.00025

512 0.00009 0.00009

1024 0.00006 0.00006

Tập dữ liệu R*-tree R*-tree + Early Abandon

Stock 0.00009 0.00009

ECG 0.00064 0.00064

Waveform 0.00069 0.00069

92

Hình 4.11 trình bày kết quả thực nghiệm về độ hữu hiệu của ba thuật toán dùng R*-tree, RP và MP_C với sự hỗ trợ của chỉ mục đƣờng chân trời đƣợc thực hiện trên tập dữ liệu Consumer có kích thƣớc 10000 chuỗi với chiều dài motif khác nhau. Hình 4.11(a) là kết quả so sánh về độ hữu hiệu của ba thuật toán. Hình 4.11(b) trình bày kết quả so sánh về độ hữu hiệu giữa hai phƣơng pháp dùng R*-tree và MP_C với sự hỗ trợ của chỉ mục đƣờng chân trời. Kết quả thực nghiệm trên cho thấy phƣơng pháp sử dụng MP_C với sự hỗ trợ của chỉ mục đƣờng chân trời hiệu quả hơn so với phƣơng pháp RP và phƣơng pháp sử dụng R*-tree về các mặt thời gian thực hiện và độ hữu hiệu.

Hình 4.11 Kết quả thực nghiệm về độ hữu hiệu của ba thuật toán trên tập dữ liệu Consumer (10000 chuỗi) với chiều dài motif khác nhau.

Hình 4.12 trình bày kết quả thực nghiệm về thời gian thực hiện và độ hữu hiệu của ba thuật toán dùng R*-tree, RP và MP_C với sự hỗ trợ của chỉ mục đƣờng chân trời đƣợc thực hiện trên tập dữ liệu Consumer có kích thƣớc khác nhau với chiều dài motif cố định là 512. Hình 4.12(a) là kết quả so sánh về thời gian thực hiện của ba thuật toán. Hình 4.12(b) trình bày kết quả so sánh về thời gian thực hiện giữa hai phƣơng pháp dùng R*-tree và MP_C với sự hỗ trợ của chỉ mục đƣờng chân trời. Hình 4.12(c) trình bày kết quả so sánh về độ hữu hiệu của ba thuật toán. Hình 4.12(d) trình bày kết quả so sánh về độ hữu hiệu của hai phƣơng pháp dùng R*-tree và MP_C với sự hỗ trợ của chỉ mục đƣờng chân trời. Kết quả thực nghiệm trong trƣờng hợp này cũng cho thấy phƣơng pháp sử dụng MP_C với sự hỗ trợ của chỉ mục đƣờng chân trời hiệu quả hơn so với phƣơng pháp RP và phƣơng pháp sử dụng R*-tree về các mặt thời gian thực hiện và độ hữu hiệu.

93

Hình 4.12 Kết quả thực nghiệm về thời gian thực hiện và độ hữu hiệu của ba thuật toán trên tập dữ liệu Consumer có kích thước khác nhau, chiều dài motif được chọn cố định là 512.

Hình 4.13 Kết quả thực nghiệm về thời gian thực hiện và độ hữu hiệu của ba thuật toán trên các tập dữ liệu khác có kích thước cố định (10000 chuỗi) và chiều dài motif được chọn cố

định là 512.

Hình 4.13 trình bày kết quả thực nghiệm về thời gian thực hiện và độ hữu hiệu của ba thuật toán dùng R*-tree, RP và MP_C với sự hỗ trợ của chỉ mục đƣờng chân trời đƣợc thực hiện trên bốn tập dữ liệu khác nhau với kích thƣớc cố định (10000 chuỗi) và chiều dài motif cố định là 512. Hình 4.13(a) là kết quả so sánh về thời gian thực hiện của ba thuật toán. Hình 4.13(b) trình bày kết quả so sánh về thời gian thực hiện giữa hai phƣơng pháp dùng R*-tree và MP_C với sự hỗ trợ của chỉ mục đƣờng chân trời. Hình 4.13(c) trình bày kết quả so sánh về độ hữu hiệu của ba thuật toán.

94

Hình 4.13(d) trình bày kết quả so sánh về độ hữu hiệu giữa hai phƣơng pháp dùng R*- tree và MP_C với sự hỗ trợ của chỉ mục đƣờng chân trời.

Bảng 4.3 trình bày kết quả thực nghiệm trên tập dữ liệu Consumer về độ hữu hiệu với chiều dài motif khác nhau và Bảng 4.4 trình kết quả thực nghiệm trên các tập dữ liệu khác nhau về độ hữu hiệu với chiều dài motif là 512.

Bảng 4.3 Độ hữu hiệu với chiều dài motif khác nhau (tập dữ liệu Consumer).

Bảng 4.4 Độ hữu hiệu với các tập dữ liệu khác nhau (chiều dài motif 512).

Một lần nữa chúng ta lại thấy phƣơng pháp sử dụng MP_C với sự hỗ trợ của chỉ mục đƣờng chân trời hiệu quả hơn so với phƣơng pháp RP và phƣơng pháp sử dụng R*-tree về các mặt thời gian thực hiện và độ hữu hiệu. Kết quả thực nghiệm trình bày trong hai bảng 4.3 và 4.4 cho thấy mức độ cải thiện của phƣơng pháp 2 so với giải thuật brute-force là khoảng vài nghìn lần.

Ngoài ra, chúng tôi cũng thực nghiệm đánh giá độ chính xác của hai giải thuật phát hiện motif đƣợc đề xuất trong luận án. Độ chính xác đƣợc tính theo công thức sau: % 100 x M B M Acc  

Trong đó, Acc là độ chính xác của giải thuật đề nghị, M là tập các thể hiện của 1- motif đƣợc phát hiện bằng giải thuật đề nghị và B là tập các thể hiện của 1-motif đƣợc phát hiện bằng giải thuật brute-force.

Bảng 4.5 Độ chính xác của hai giải thuật được đề xuất.

Tập dữ liệu Stock ECG WaveForm Consumer

R*-tree 100% 100% 100% 100%

MP_C+Skyline 100% 100% 100% 100%

Chiều dài motif R*-tree MP_C + Skyline

128 0.00259 0.00230

256 0.00117 0.00101

512 0.00052 0.00038

1024 0.00021 0.00017

Tập dữ liệu R*-tree MP_C + Skyline

Stock 0.00009 0.00007

ECG 0.00064 0.00021

Waveform 0.00069 0.00025

95

Bảng 4.5 trình bày kết quả thực nghiệm về độ chính xác của hai giải thuật đƣợc đề xuất. Thực nghiệm đƣợc thực hiện trên các tập dữ liệu khác nhau, kích thƣớc các tập dữ liệu đƣợc chọn cố định là 10000 chuỗi. Kết quả thực nghiệm cho thấy hai giải thuật đề xuất cho kết quả hoàn toàn giống nhƣ kết quả thu đƣợc từ giải thuật brute- force. Dữ liệu Stock Dữ liệu ECG Dữ liệu WaveForm Dữ liệu Consumer

96

Hình 4.14 minh họa các tập dữ liệu và motif phát hiện đƣợc trong cả hai thực nghiệm 1 và 2 trong các tập dữ liệu.

Chúng tôi cũng đã thực nghiệm hai giải thuật phát hiện motif xấp xỉ theo định nghĩa “Cặp lân cận gần nhất” (Định nghĩa 2.7, chƣơng 2). Các kết quả thực nghiệm về hai giải thuật này cũng cho kết quả tƣơng tự nhƣ thực nghiệm về hai giải thuật phát hiện motif xấp xỉ theo định nghĩa căn bản của motif.

Qua các kết quả thực nghiệm, chúng ta có thể thấy hai phƣơng pháp do chúng tôi đề xuất có kết quả thực nghiệm tốt hơn so với phƣơng pháp RP dựa trên hai chỉ số đánh giá thƣờng đƣợc sử dụng trong nghiên cứu bài toán phát hiện motif trên chuỗi thời gian là thời gian thực thi và độ hữu hiệu. Có đƣợc điều này là do chúng tôi sử dụng cấu trúc chỉ mục đa chiều giúp tìm lân cận gần nhất một cách hữu hiệu, và sử dụng ý tƣởng từ bỏ sớm việc tính khoảng cách Euclid giúp tăng nhanh tốc độ tính toán trong giai đoạn hậu kiểm (nghĩa là giảm độ phức tạp tính toán khoảng cách Euclid). Trong khi đó phƣơng pháp RP phải thực hiện lặp lại việc chiếu ngẫu nhiên nhiều lần mới có kết quả hội tụ, và điều này gây ra chi phí tính toán cao.

Tóm lại, trong chƣơng này chúng tôi đã giới thiệu hai phƣơng pháp phát hiện motif xấp xỉ mới. Kết quả đánh giá bằng thực nghiệm cho thấy hai phƣơng pháp đƣợc đề xuất thực hiện phát hiện motif hữu hiệu hơn so với phƣơng pháp chiếu ngẫu nhiên, một phƣơng pháp thƣờng đƣợc sử dụng cho bài toán phát hiện motif trong chuỗi thời gian. Chi phí hậu kiểm của hai phƣơng pháp do chúng tôi đề xuất cũng thấp hơn so với RP, điều này đƣợc thể hiện qua độ hữu hiệu của hai phƣơng pháp thấp hơn so với độ hữu hiệu của RP. So sánh hai phƣơng pháp đƣợc đề xuất thì phƣơng pháp phát hiện motif xấp xỉ dựa vào phƣơng pháp thu giảm số chiều MP_C với sự hỗ trợ của chỉ mục đƣờng chân trời thực hiện tốt hơn so với phƣơng pháp sử dụng R*-tree.

Các kết quả nghiên cứu trong chƣơng này đã đƣợc công bố trong hai bài báo: [A2], [A3] (trong danh mục các tài liệu công bố của tác giả).

97

CHƢƠNG 5. GOM CỤM CHUỖI THỜI GIAN ĐƢỢC THU GIẢM

THEO PHƢƠNG PHÁP MP_C BẰNG GIẢI THUẬT I-K- MEANS

Nhiều giải thuật gom cụm làm việc khá hữu hiệu trên dữ liệu thông thƣờng thì lại thƣờng không thể làm việc một cách hữu hiệu trên dữ liệu chuỗi thời gian do những tính chất đặc thù của loại dữ liệu này [79]. Giải thuật I-k-means là một trong số ít ỏi những giải thuật gom cụm có thể làm việc khá hữu hiệu với dữ liệu chuỗi thời gian.

Để có thể gom cụm bằng giải thuật I-k-Means, phƣơng pháp thu giảm số chiều sử dụng phải có tính chất đa mức phân giải. Vì vậy, trong chƣơng này, chúng tôi sẽ trình bày cách biểu diễn chuỗi thời gian theo phƣơng pháp MP_C ở nhiều mức phân giải. Ngoài ra, chúng tôi cũng trình bày cách sử dụng kd-tree hoặc CF-tree để tạo trung tâm cụm ở mức khởi động cho thuật toán I-k-Means nhằm cải tiến hiệu quả của giải thuật gom cụm chuỗi thời gian này.

Một phần của tài liệu Khai thác dữ liệu chuỗi thời gian dựa vào rút trích đặc trưng bằng phương pháp điểm giữa và kỹ thuật xén = time series data mining based on feature extraction with middle points and clipping method (Trang 109 - 115)