Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 106 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
106
Dung lượng
5,29 MB
Nội dung
LỜI CAM ĐOAN Trong luận văn này, xin cam đoan kết báo cáo, kết thực nghiệm chương trình luận văn tơi nghiên cứu thực hiện, ngồi tài liệu tham khảo trích dẫn tơi khơng có chép từ cơng trình nghiên cứu khác Tất kiến thức học trường, tài liệu tham khảo từ thầy hướng dẫn, khẳng định luận văn tơi thực Nếu có sai phạm luận văn này, xin chịu trách nhiệm Xin cám ơn Học viên Nguyễn Tài Dư iv MỤC LỤC Đặt vấn đề .1 Mục tiêu nghiên cứu Đối tượng phạm vi nghiên cứu 4 Cách tiếp cận phương pháp nghiên cứu .5 Ý nghĩa thực tiễn đề tài .5 1.1 Các khái niệm Dữ liệu chuỗi thời gian .6 Khai thác liệu chuỗi thời gian .7 Phát motif chuỗi thời gian Chuỗi thời gian (Timeseries ) Chuỗi (Subsequence) Cửa sổ trượt (Slide window) 10 Khớp (Match) 10 Khớp tầm thường (Trivial match) 11 Khớp không tầm thường (Non-Trivial matches) 11 K-Motif 12 1.2 Các độ đo khoảng cách chuỗi thời gian 12 1.2.1 Các độ đo không gian Euclide 13 1.2.2 Độ đo xoắn thời gian động (DTW) 15 1.3 Các phương pháp thu giảm số chiều dựa vào đặc trưng 18 Các phương pháp biến đổi sang miền tần số 19 v Phương pháp biến đổi Fourier (DFT) 19 Phương pháp Wavelet (DWT ) 19 Các phương pháp xấp xỉ tuyến tính đoạn 20 Phương pháp xấp xỉ tuyến tính đoạn (PLA) 20 Phương pháp gộp đoạn xấp xỉ (PAA) 21 Phương pháp xấp xỉ đoạn thích nghi (APCA) 22 Phương pháp xấp xỉ gộp đoạn mở rộng EPAA 23 1.4 Phương pháp rời rạc hóa liệu 24 Phương pháp rời rạc hóa xấp xỉ gộp ký tự SAX 24 1.4.2 Phương pháp rời rạc hóa liệu theo phép biến đổi ESAX 25 2.1 Độ đo Euclide .27 2.2 Độ đo Dynamic Time Warping (DTW) .28 2.3 Chuẩn hóa liệu .33 2.4 Phương pháp gộp đoạn xấp xỉ (PAA) 35 2.5 Rời rạc hóa liệu với phương pháp SAX 37 2.6 Hàm tính độ đo tương tự MinDIST 38 2.7 Cải tiến thuật toán xoắn thời gian động 40 3.1 Định nghĩa motif chuỗi thời gian 42 3.2 Độ hiệu giải thuật tìm kiếm motif 42 3.3 Tìm 1-Motif thuật toán Brute-force 43 3.4 Tìm 1-Motif thuật tốn MK .45 3.5 Giới hạn DTW .49 Giới hạn Kim cộng 50 Giới hạn Yi cộng 51 FTW (Fast search method for dynamic Time Warping) 51 LB_ Improved cải thiện Lemire, 2009 53 3.5.5 LB_Keogh giới thiệu Keogh cộng sự, 2002 .55 vi 4.1 Môi trường liệu thực nghiệm 57 Môi trường thực nghiệm 57 Dữ liệu thực nghiệm .57 4.2 Chương trình thực nghiệm 58 Mơ hình thực nghiệm giải thuật .60 Kết thực nghiệm liệu .60 Thực nghiệm liệu gốc 61 Thực nghiệm liệu thu giảm chiều 75 Kết luận 90 Kiến nghị .90 vii DANH MỤC HÌNH ẢNH Hình 01 Chuỗi thời gian Hình 02 Motif chuỗi thời gian mẫu xuất với tần suất cao 03 Hình 03 Motif có chiều dài 640, từ vị trí 589 8,895 03 Hình 1.1 Chuỗi thời gian lượng mưa trạm khí tượng Điện Biên (1961-2011) 06 Hình 1.2 Một motif chuỗi liệu thời gian 08 Hình 1.3 Chuỗi Y1,Y2 … Yi, trích xuất từ chuỗi thời gian T 10 Hình 1.4 Chuỗi trích xuất cửa sổ trượt 10 Hình 1.5 Chuỗi C (dịng in đậm) chuỗi M tương ứng khớp với C 10 Hình 1.6 Chuỗi C khớp tầm thường 11 Hình 1.7 Khoảng cách hai motif < 2R (A); Khoảng cách hai motif > 2R (B) 12 Hình 1.8 Độ đo Minkowski hai chuỗi 13 Hình 1.9 (a) Đường khác nhau; (b) Độ giao động khác 14 Hình 1.10 Đường xoắn ( Waping path) 15 Hình 1.11 (A) Độ đo Euclide; (B) Dynamic Time Warping hai chuỗi 16 Hình 1.12 Hai chuỗi thời gian Q, C mặt phẳng lưới n ×m đường xoắng 16 Hình 1.13 Phép biến đổi DFT 19 Hình 1.14 Phép biến đổi DWT 20 Hình 1.15 Phép biến đổi PLA 20 Hình 1.16 Phép biến đổi PAA với n =128, w = 21 Hình 1.17 Phép biến đổi APCA 22 Hình 1.18 Vài điểm quang trọng bị biểu diễn PAA 23 Hình 1.19 Vị trí ba giá trị quan trọng, pmax, pmid,pmin vị trí tương ứng 24 Hình 1.20 Phép biến đổi rời rạc hóa SAX 25 Hình 1.21 Dữ liệu chuỗi thời gian tài biểu diễn Extended SAX 26 Hình 2.1 Phần tử thứ i chuỗi Q tương ứng với phần tử i chuỗi C 27 Hình 2.2 Các phần tử i chuỗi Q ánh xạ đến phần tử i chuỗi C 28 Hình 2.3 Đường xoắn W hai chuỗi liệu thời gian Q,C 29 Hình 2.4 Đồ thị biểu diễn hay chuỗi thời gian Q,C 30 viii Hình 2.5 Giới hạn dưới: Sakoe-Chiba band & Itakura parallelogram 32 Hình 2.6 Những điểm cho phép ánh xạ phải nằm cửa sổ xoắn r 32 Hình 2.7 Phương pháp chuẩn hóa trung bình zero 34 Hình 2.8 Phương pháp thu giảm số chiều liệu xấp xỉ PAA 36 Hình 2.9 Chuỗi X biến đổi thu giam chiều thành X’ xấp xỉ PAA 36 Hình 2.10 Bảng thống kê dùng để tra điểm ngắt theo phân bố Gauss 37 Hình 2.11 Rời rạc hóa chuỗi ký tự từ chuỗi liệu gốc 38 Hình 2.12 Khoảng cách hai chuỗi gốc (A) hai chuỗi thu giảm chiều (B) 38 ̂ Ĉ rời rạc hóa 39 Hình 2.13 (A) Alphabet size: a = 3, (B) khoảng cách Q Hình 2.14 (a) bảng tra cứu hàm Dist, (b) cơng thức tính giá trị bảng 39 Hình 2.15 Độ chặt chặn hàm MINDIST với hệ số a w tương ứng 40 Hình 2.16 (A) hai chuỗi thời gian tính DTW Và tính PDTW (B) 41 Hình 3.1 (A) Tập liệu chuỗi thời gian chiều không gian gốc, (B) Những đối tượng xếp đến điểm tham chiếu O1 (C) Khoảng cách cặp liền kề chiếu không gian chiều 45 Hình 3.2 Tính khoảng cách thực đối tượng từ trái qua phải 46 Hình 3.3 Điều kiện cần hai đối tượng phải giao qua cửa sổ trượt 47 Hình 3.4 Giới hạn phạm vi đường xoắn, hạn chế chúng đến vùng màu xám 50 Hình 3.5 Phương pháp giới hạn giới thiệu Kim et.a 50 Hình 3.6 Phương pháp giới hạn giới thiệu Yi et.a 51 Hình 3.7 Một chuỗi thời gian xấp xỉ cách chia thành ba phân đoạn 52 Hình 3.8 (A) LB_Keogh lower bounding (B) LB_Improved lower bounding 54 Hình 3.9 Các dãy U L tạo cho chuỗi thời gian Q hai trường hợp 55 Hình 3.10 Giới hạn LB_Keogh hai trường hợp 56 Hình 4.1 Giao diện chương trinh thực nghiệm 58 Hình 4.2 Sơ đồ chương trình thực nghiệm liệu gốc & thu giảm chiều 60 Hình 4.3 Cặp motif tìm Brute-force (EEG; 500; 80) 62 Hình 4.4 Cặp motif tìm MK (EEG; 500; 80) 62 Hình 4.5 Cặp motif tìm Brute-force (EEG; 500; 128) 63 Hình 4.6 Cặp motif tìm MK (EEG; 500; 128) 63 ix Hình 4.7 Cặp motif tìm Brute-force (EEG; 1000; 80) 64 Hình 4.8 Cặp motif tìm MK (EEG; 1000; 80) 65 Hình 4.9 Cặp motif tìm Brute-force (EEG; 1000; 128) 65 Hình 4.10 Cặp motif tìm (EEG; 1000; 128) 66 Hình 4.11 Cặp motif tìm Brute-force (Chromosome; 500; 80) 67 Hình 4.12 Cặp motif tìm MK (Chromosome; 500; 80) 67 Hình 4.13 Cặp motif tìm Brute-force (Chromosome; 500; 128) 68 Hình 4.14 Cặp motif tìm MK (Chromosome; 500; 128) 68 Hình 4.15 Cặp motif tìm Brute-force (Chromosome;1000; 80) 69 Hình 4.16 Cặp motif tìm MK (Chromosome;1000; 80) 69 Hình 4.17 Cặp motif tìm Brute-force (Chromosome;1000; 128) 70 Hình 4.18 Cặp motif tìm MK (Chromosome;1000; 128) 70 Hình 4.19 Cặp motif tìm Brute-force (Stock;500; 80) 71 Hình 4.20 Cặp motif tìm MK (Stock;500; 80) 72 Hình 4.21 Cặp motif tìm Brute-force (Stock;500; 128) 72 Hình 4.22 Cặp motif tìm MK (Stock;500; 128) 73 Hình 4.23 Cặp motif tìm Brute-force (Stock;1000; 80) 74 Hình 4.24 Cặp motif tìm MK (Stock;1000; 80) 74 Hình 4.25 Cặp motif tìm Brute-force (Stock;1000; 128) 75 Hình 4.26 Cặp motif tìm MK (Stock;1000; 128) 75 Hình 4.27 Cặp motif tìm Brute-force (EEG; 800; 256; 32) 77 Hình 4.28 Cặp motif tìm MK (EEG; 800; 256; 32) 77 Hình 4.29 Cặp motif tìm Brute-force (EEG; 800; 512; 32) 78 Hình 4.30 Cặp motif tìm MK (EEG; 800; 512; 32) 78 Hình 4.31 Cặp motif tìm Brute-force (EEG; 3000; 256; 32) 80 Hình 4.32 Cặp motif tìm MK (EEG; 3000; 256; 32) 80 Hình 4.33 Cặp motif tìm Brute-force (EEG; 3000; 512; 32) 81 Hình 4.34 Cặp motif tìm MK (EEG; 3000; 512; 32) 81 Hình 4.35 Cặp motif tìm Brute-force (Chromosome; 800; 256; 32) 82 Hình 4.36 Cặp motif tìm MK (Chromosome; 800; 256; 32) 83 x Hình 4.37 Cặp motif tìm Brute-force (Chromosome; 800; 512; 32) 84 Hình 4.38 Cặp motif tìm MK (Chromosome; 800; 512; 32) 84 Hình 4.39 Cặp motif tìm Brute-force (Chromosome; 3000; 256; 32) 85 Hình 4.40 Cặp motif tìm MK (Chromosome; 3000; 256; 32) 85 Hình 4.41 Cặp motif tìm Brute-force (Chromosome; 3000; 512; 32) 86 Hình 4.42 Cặp motif tìm MK (Chromosome; 3000; 512; 32) 87 Hình 4.43 Cặp motif tìm Brute-force (Stock; 800; 256; 32) 88 Hình 4.44 Cặp motif tìm MK (Stock; 800; 256; 32) 88 Hình 4.45 Cặp motif tìm Brute-force (Stock; 3000; 256; 32) 89 Hình 4.46 Cặp motif tìm MK (Stock 3000; 256; 32) 89 xi DANH MỤC BẢNG BIỂU Bảng 2.1 Ma trận tính khoảng cách tích lũy hai chuỗi thời gian Q,C 30 Bảng 2.2 Kết chuẩn hóa Min max 35 Bảng 3.1 Giải thuật Brute-force tìm 1-Motif liệu chuỗi thời gian 44 Bảng 3.2 Giải thuật Mueen – Keogh 47 Bảng 4.1 Mô tả chức chương trình thực ngiệm 58 Bảng 4.2 Kết thực nghiệm Brute-force & MK (EEG; 500; 80) 61 Bảng 4.3 Kết thực nghiệm Brute-force & MK (EEG; 500; 128) 63 Bảng 4.4 Kết thực nghiệm Brute-force & MK (EEG; 1000; 80) 64 Bảng 4.5 Kết thực nghiệm Brute-force & MK (EEG; 1000; 128) 65 Bảng 4.6 Kết thực nghiệm Brute-force & MK (Chromosome; 500; 80) 66 Bảng 4.7 Kết thực nghiệm Brute-force & MK (Chromosome; 500; 128) 67 Bảng 4.8 Kết thực nghiệm Brute-force & MK (Chromosome;1000;80) 68 Bảng 4.9 Kết thực nghiệm Brute-force & MK (Chromosome;1000;128) 70 Bảng 4.10 Kết thực nghiệm Brute-force & MK (Stock;500; 80) 71 Bảng 4.11 Kết thực nghiệm Brute-force & MK (Stock;500; 128) 72 Bảng 4.12 Kết thực nghiệm Brute-force & MK (Stock;1000; 80) 73 Bảng 4.13 Kết thực nghiệm Brute-force & MK (Stock;1000; 128) 74 Bảng 4.14 Kết thực nghiệm Brute-force & MK (EEG; 800; 256) 76 Bảng 4.15 Kết thực nghiệm Brute-force & MK (EEG; 800; 512) 77 Bảng 4.16 Kết thực nghiệm Brute-force & MK (EEG; 3000; 256) 79 Bảng 4.17 Kết thực nghiệm Brute-force & MK (EEG; 3000; 512) 80 Bảng 4.18 Kết thực nghiệm Brute-force & MK(Chromosome;800;256) 82 Bảng 4.19 Kết thực nghiệm Brute-force & MK(Chromosome;800;512) 83 Bảng 4.20 Kết thực nghiệm Brute-force &MK(Chromosome;3000;256) 84 Bảng 4.21 Kết thực nghiệm Brute-force &MK(Chromosome;3000;512) 86 Bảng 4.22 Kết thực nghiệm Brute-force & MK (Stock; 800; 256;32) 87 Bảng 4.23 Kết thực nghiệm Brute-force & MK (Stock; 3000; 256;32) 89 xii DANH MỤC TỪ VIẾT TẮT APCA Adaptive Piecewise Constant Approximation DFT Discrete Fourier Transform DTW Dynamic Time Warping DWT Discrete Wavelet Transform EMD Extended Motif Discovery EPAA Extanded Piecewise Aggregate Approximation ESAX Extended Symbolic Aggregate approximation FTW Fast search method for dynamic Time Warping LB_ Improved Lower Bounding Improved LB_Keogh Lower Bounding Keogh MK Mueen Keogh PAA Piecewise Aggregate Approximation PDTW Piecewise Dynamic Time Warping PLA Piecewise Linear Approximation SAX Symbolic Aggregate approXimation xiii Bảng 4.18 Kết thực nghiệm Brute-force & MK (Chromosome 800; 256) Algorithm Measure Euclide Vét cạn PBruteforce DTW Sakoe LB_Keogh Euclide Vét cạn PMK DTW Sakoe LB_Keogh PAA SAX Ref R Efficiency Compare Run time (s) Best_so_far 32 x x 148240 0.188 2.432447 64 x x 148240 0.2651 1.72 32 x x 148240 5.5889 0.362257 64 x x 148240 22.5967 0.357804 32 x 148240 2.2812 0.090225 64 x 148240 6.6797 0.039031 32 x 148240 1.1562 0.12782 64 x 148240 0.3281 0.015969 32 x 0.47169 69924 0.0469 5.121227 64 x 0.39577 58669 0.0469 5.438607 32 x 0.00157 233 1.4541 0.023133 64 x 0.00126 187 3.594 0.021651 32 1.02498 151943 3.4531 0.535257 64 0.97611 144699 8.2578 0.395917 32 0.0004 59 0.0605 0.059128 64 0.00124 184 0.0312 0.040984 Nhận xét: Thời gian: Trên liệu thu giảm chiều thời gian tính tốn độ đo DTW cao độ đo Euclide thuật toán Brute-force MK Kết motif tìm độ đo DTW tốt độ đo Euclide Kỹ thuật giới hạn: Việc sử dụng kỹ thuật giới hạn sakoe chiba với R=5 thuật tốn Brute-force cho thời gian tính tốn nhanh vét cạn, thuật toán MK, giới hạn sakoe chiba với R=5 cho thời gian cao Kỹ thuật giới hạn LB_Keogh cho thời gian toán nhanh hai thuật toán Brute-force & MK Độ hiệu giải thuật: Hiệu xuất thuật toán MK tốt thuật toán Bruteforce sử dụng hai độ đo Euclide & DTW Cặp motif tìm thuật tốn Brute-force Hình 4.35 Cặp motif tìm Brute-force (Chromosome 800; 256; 32) 82 Cặp motif tìm thuật tốn MK Hình 4.36 Cặp motif tìm MK (Chromosome 800; 256; 32) Timeseries Length: 800 points, Motif Length 512,PAA: 32,64,Euclide & DTW Bảng 4.19 Kết thực nghiệm Brute-force & MK (Chromosome 800; 512) Algorithm Measure Efficiency Compare Runtime (s) Best_so_far x 41616 0.0938 3.44 x x 41616 0.1719 2.432447 x x 41616 1.7109 0.346517 64 x x 41616 6.2070 0.33809 32 x 41616 0.6719 0.083186 64 x 41616 1.6719 0.057333 32 x 41616 2.0469 7.405078 64 x 41616 5.9844 14.43251 32 x 1.632 67916 0.0469 11.7483 64 x 1.9034 79210 0.0625 9.72985 32 x 0.05594 2328 3.3438 0.033628 64 x 0.00872 363 7.0938 0.024004 32 2.69658 112221 2.7578 0.656839 64 3.04083 126547 7.3828 0.458667 32 0.01355 111649 3.1719 0.01355 64 2.12709 88521 8.6562 0.003953 PAA SAX Ref 32 x 64 32 R Euclide Vét cạn PBrute-force DTW Sakoe LB_Keogh Euclide Vét cạn PMK DTW Sakoe LB_Keogh Nhận xét: Theo bảng thực nghiệm, tăng chiều dài motif từ 256 điểm lên 512 điểm, tìm motif liệu thu giảm chiều với PAA & SAX Nhìn chung, nhận xét, đánh giá bảng 4.19 khơng có thay đổi só với nhận xét trước 83 Cặp motif tìm thuật tốn Brute-force Hình 4.37 Cặp motif tìm Brute-force (Chromosome 800; 512; 32) Cặp motif tìm thuật tốn MK Hình 4.38 Cặp motif tìm MK (Chromosome 800; 512; 32) Timeseries Length: 3000 points, Motif Length 256,PAA: 32,64, Euclide & DTW Bảng 4.20 Kết thực nghiệm Brute-force & MK(Chromosome 3000; 256) Algorithm Measure Efficiency Compare Runtime (s) Best_so_far x 3766140 3.5312 2.432447 x x 3766140 5.375 1.72 x x 3766140 155.0630 0.291735 64 x x 3766140 682.0780 0.299355 32 x 3766140 62.2700 0.056285 64 x 3766140 149.2620 0.032894 32 x 3766140 178.2300 2.971147 64 x 3766140 513.8790 4.292935 32 x 0.0802 302034 0.25 2.538033 64 x 0.21606 813708 0.4531 4.310545 32 x 0.00029 1084 7.0547 0.01875 64 x 0.00019 731 14.5234 0.01875 32 0.99527 3748318 203.6760 0.318394 64 0.99522 3748142 500.0630 0.263154 32 0.99531 3748485 109.8050 0.003953 64 0.99393 3743280 606.8910 0.002795 PAA SAX Ref 32 x 64 32 R Euclide Vét cạn PBrute-force DTW Sakoe LB_Keogh Euclide Vét cạn PMK DTW Sakoe LB_Keogh 84 Nhận xét: Thời gian: Trên liệu thu giảm chiều thời gian tính tốn độ đo DTW cao độ đo Euclide thuật toán Brute-force MK Kết motif tìm độ đo DTW tốt độ đo Euclide Kỹ thuật giới hạn: Việc sử dụng kỹ thuật giới hạn sakoe chiba với R=5 thuật tốn Brute-force cho thời gian tính tốn nhanh vét cạn, thuật toán MK, giới hạn sakoe chiba với R=5 cho thời gian cao vét cạn Kỹ thuật giới hạn LB_Keogh cho thời gian toán nhanh hai thuật toán Brute-force & MK Độ hiệu giải thuật: Hiệu xuất thuật toán MK tốt thuật toán Brute-force sử dụng hai độ đo Euclide & DTW Cặp motif tìm thuật tốn Brute-force Hình 4.39 Cặp motif tìm Brute-force (Chromosome 3000; 256; 32) Cặp motif tìm thuật tốn MK Hình 4.40 Cặp motif tìm MK (Chromosome 3000; 256; 32) 85 Timeseries Length: 3000 points, Motif Length 512,PAA: 32,64,Euclide & DTW Bảng 4.21 Kết thực nghiệm Brute-force & MK(Chromosome 3000; 512) Algorithm Measure Efficiency Compare Runtime (s) Best_so_far x 3096316 2.9641 3.44 x x 3096316 4.344 2.432447 x x 3096316 114.1520 0.346517 64 x x 3096316 466.3560 0.33664 32 x 3096316 85.0230 0.044546 64 x 3096316 341.9140 0.032113 32 x 3096316 146.8360 3.47627 64 x 3096316 7515.7660 5.93145 32 x 0.16279 504053 0.3438 5.332118 64 x 0.20026 620059 0.5 6.521757 32 x 0.00042 1297 9.5898 0.023922 64 x 0.0001 304 19.2891 0.014658 32 0.99523 3081562 65.4380 0.251992 64 0.99524 3081581 155.9340 0.256905 32 0.99524 3081592 81.0630 0.003698 64 0.99531 3081796 274.7070 0.001976 PAA SAX Ref 32 x 64 32 R Euclide Vét cạn PBruteforce DTW Sakoe LB_Keogh Euclide Vét cạn PMK DTW Sakoe LB_Keogh Nhận xét: Theo bảng thực nghiệm, tăng chiều dài motif từ 256 điểm lên 512 điểm, tìm motif liệu thu giảm chiều với PAA & SAX Nhìn chung, nhận xét, đánh giá bảng 4.21 thay đổi só với nhận xét trước Cặp motif tìm thuật tốn Brute-force Hình 4.41 Cặp motif tìm Brute-force (Chromosome 3000; 512; 32) 86 Cặp motif tìm thuật tốn MK Hình 4.42 Cặp motif tìm MK (Chromosome 3000; 512; 32) (3) Stock data (15.2MB), Timeseries Length: 800 points, Motif Length 256, PAA: 32, 64, độ đo Euclide & DTW Bảng 4.22 Kết thực nghiệm Brute-force & MK (Stock 800; 256) Algorithm Measure PAA SAX Ref R Efficiency Compare Runtime (s) Best_so_far 32 x x 148240 0.1562 2.432447 64 x x 148240 0.2773 1.72 32 x x 148240 7.5547 0.353763 64 x x 148240 28.7109 0.3567 32 x 148240 3.5781 0.063338 64 x 148240 8.5 0.033483 32 x 148240 1.3594 0.041352 64 x 148240 0.4023 0.010392 32 x 0.11116 16478 0.0234 3.722281 64 x 0.98255 145653 5.1641 0.482571 32 x 0.00669 992 1.4844 0.044017 64 x 0.00161 238 3.0469 0.05735 32 0.9818 145542 4.8594 0.315436 64 0.98301 145721 17.7656 0.198116 32 0.00325 482 0.0625 0.139978 64 0.00202 299 0.0469 0.053143 Euclide Vét cạn PBrute-force DTW Sakoe LB_Keogh Euclide Vét cạn PMK DTW Sakoe LB_Keogh 87 Nhận xét: Thời gian: Trên liệu thu giảm chiều thời gian tính tốn độ đo DTW cao độ đo Euclide thuật toán Brute-force MK Kết motif tìm độ đo DTW tốt độ đo Euclide Kỹ thuật giới hạn: Việc sử dụng kỹ thuật giới hạn sakoe chiba với R=6 thuật tốn Brute-force cho thời gian tính tốn nhanh vét cạn, thuật toán MK, giới hạn sakoe chiba với R=5 cho thời gian cao vét cạn Kỹ thuật giới hạn LB_Keogh cho thời gian toán nhanh hai thuật toán Brute-force & MK Độ hiệu giải thuật: Hiệu xuất thuật toán MK tốt thuật toán Brute-force sử dụng hai độ đo Euclide & DTW Cặp motif tìm thuật tốn Brute-force Hình 4.43 Cặp motif tìm Brute-force (Stock 800; 256; 32) Cặp motif tìm thuật tốn MK Hình 4.44 Cặp motif tìm MK (Stock 800; 256; 32) 88 Timeseries Length: 3000 points, Motif Length 256,PAA: 32,64,Euclide & DTW Bảng 4.23 Kết thực nghiệm Brute-force & MK (Stock 3000; 256) Algorithm Measure Euclide Vét cạn Efficiency Compare Runtime (s) Best_so_far x 3766140 4.3594 2.432447 x x 3766140 6.6641 1.72 x x 3766140 155.398 0.238591 64 x x 3766140 573.633 0.224739 32 x 3766140 77.602 0.067344 64 x 3766140 261.335 0.032174 32 x 3766140 29.968 0.038652 64 x 3766140 6.793 0.003464 32 x 0.01254 47228 0.1094 1.401727 64 x 0.11225 422767 0.3203 3.338825 32 x 0.00067 2510 5.0703 0.017567 64 x 0.00005 260 10.203 0.007655 32 3766140 70.688 0.054879 64 6 0.99527 3748327 480.109 0.257391 32 0.00019 701 0.198 0.027951 64 0.00023 883 0.1641 0.014252 PAA SAX Ref 32 x 64 32 PBrute-force DTW Sakoe LB_Keogh R Euclide Vét cạn PMK DTW Sakoe LB_Keogh Nhận xét: Theo bảng kết thực nghiệm, đánh giá, nhận xét tương tự kết trước Cặp motif tìm thuật tốn Brute-force Hình 5.45: Cặp motif tìm Brute-force (Stock 3000; 256; 32) Cặp motif tìm thuật tốn MK Hình 4.46 Cặp motif tìm MK (Stock 3000; 256; 32) 89 KẾT LUẬN VÀ KIẾN NGHỊ Kết luận Qua kết chương trình thực nghiệm thu được, chúng tơi nhận thấy số kết sau: o Độ đo : Qua hai thuật toán Brute-force & MK, Chúng tơi nhận thấy độ đo DTW có chi phí cao độ đo Euclide cho dù dùng kỹ thuật giới hạn sakoe chiba , LB_Keogh nhằm tăng tốc thời gian tính tốn, kết tìm sử dụng độ đo DTW tốt dùng độ đo Euclide o Hiệu suất: Xét hiệu suất thuật toán, rỏ ràng thấy thuật toán MK có hiệu suất tốt thuật tốn brure force tập liệu gốc tập liệu thu giảm chiều o Thời gian thực thi thuật toán : Thời thực thi trung bình thuật tốn MK thuật tốn Brute-force thời gian trung bình thuật toán MK thấp thuật toán Brute-force o Giới hạn LB_Keogh: Với hai thuật toán MK & Brute-force sử dụng kỹ thuật giới hạn LB_Keogh, nhiên motif tìm thuật tốn MK có kết tốt Mặc dù so sánh thời gian thực thi giới hạn sakoe chiba LB_Keogh giới hạn LB_Keogh chưa hiệu với hai thuật tốn Qua luận văn này, chúng tơi giới thiệu thuật tốn tìm motif liệu gốc liệu thu giảm chiều, nhận thấy thuật tốn MK thuật tốn xác dể dàng để tìm chuỗi thời gian motif với thời gian nhanh thuật toán Brute-force tập liệu lớn Kiến nghị o Bên cạnh thực nghiệm với giới hạn LB_Keogh, tiếp tục so sánh thực nghiệm giới hạn LB Improved, FTW (Fast search method for dynamic Time Warping), LB_kim, LB_Yi 90 o Cần thực nghiệm nhiều tập liệu có đặc tính, độ lớn khác để có kết luận tin tưởng o Nghiên cứu kỹ thuật giới hạn thuật tốn tìm motif khác o So sánh thực nghiệm thuật toán MK với thuật toán EMD [28] 91 DANH MỤC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA HỌC VIÊN N T Du, P V Chung “Comparing Efficiency Between Two Measures Of Euclid And DTW Used In Discovery Motif In Time Series,” Tạp chí Khoa học Công nghệ Mã số : 2019011701, Trường Đại học Công nghiệp Thành phố Hồ Chí Minh (ISSN: 2525-2267), 2019 92 TÀI LIỆU THAM KHẢO [1] Carmelo Cassisi et al “Similarity Measures and Dimensionality Reduction Techniques for Time Series Data Mining,” Advances in Data Mining Knowledge Discovery and Applications September 2012, Chapter: 3, Editors: InTech , [2] A E X Brown et al “A dictionary of behavioral motifs reveals clusters of genes affecting caenorhabditis elegans locomotion,” In Proceedings of the National Academy of Sciences Vol 110, no 2, pp 791–796, 08 Jan 2013 [3] C Cassisi et al “Motif discovery on seismic amplitude time series: The case study of Mt Etna 2011 Eruptive Activity,” Pure and Applied Geophysics Vol 170, no 4, pp 529–545, April 2013 [4] T Rakthanmanon et al “Clustering time series streams requires ignoring some data,” In Proceedings of the 2011 IEEE 11th International Conference on Data Mining, Vancouver, BC, Canada, December 11-14, 2011, pp 547–556 [5] A Mueen and E J Keogh “Online discovery and maintenance of timeseries motifs,” Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining, Washington, DC, USA, 2010, pp 1089– 1098 [6] L Phu and D T Anh “Motif-based Method for Initialization k-Means Clustering of Time Series Data,” In Proc of 24th Australasian Joint Conference on Artificial Intelligence, Springer-Verlag, Perth, Australia, Dec 58, 2011, pp 11-20 [7] K Buza and L S Thieme "Motif-based Classification of Time Series with Bayesian Networks and SVMs," in A Fink et al (eds.) Advances in Data Analysis, Data Handling and Business Intelligences, Studies in Classification, Data Analysis, Knowledge Organization, Springer-Verlag Berlin Heidelberg, 2010, pp 105-114 [8] Abdullah Mueen “Enumeration of time series, Motifs of all Lengths,” In Knowledge and Information Systems Vol 45, no 1, pp 105-132, October 2014 93 [9] Y Li et al “Visualizing variable-length time series motifs,” In Proceedings of the 2012 SIAM International Conference on Data Mining, 2012, pp 895–906 [10] N Castro and P J Azevedo “Multiresolution motif discovery in timeseries,” In Proceedings of the 2010 SIAM International Conference on Data Mining, Columbus, Ohio, USA, 2010, pp 665–676 [11] A Narang and S Bhattcherjee “Real-time approximate range motif discovery & data redundancy removal algorithm,” In Proceedings of the 14th International Conference on Extending Database Technology, Uppsala, Sweden, March 21 - 24, 2011, pp 485–496 [12] J Meng et al “Mining Motifs from Human Motion,” Proc of EUROGRAPHICS, 2008 [13] Mohammad et al.“Approximately Recurring Motif Discovery Using Shift Density Estimation,” In: IEA/AIE, Springer, Berlin, Heidelberg, 2013, pp 141150 [14] A Mueen et al “Exact discovery of time series motifs” In Proceedings of the SIAM International Conference on Data Mining, Sparks, Nevada, USA, April 30 - May 2, 2009, pp 473–484 [15] Yang Q and Wu X “10 challenging problems in data mining research,” Int J Inform Technol Decis Making Vol 5, no 4, pp 597–604, 2006 [16] Keogh et al “Scaling up dynamic time warping for datamining applications,” In 6th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Boston, Massachusetts, USA, 2000, pp 285-289 [17] E J Keogh and C A Ratanamahatana “Exact indexing of dynamic time warping,” In Knowledge and Information Systems.Vol 7, no 3, pp 358-386, March 2005 [18] J Lin, E Keogh “Finding motifs in time series,” Proc of 2nd Workshop onTemporal Data Mining, Edmonton, Alberta, Canada, July 23-26, 2002 [19] A Mueen et al “A disk-aware algorithm for time series motif discovery,” Data Mining and Knowledge Discovery Vol 22, no 1, pp 73–105, 2011 94 [20] H T Lam et al “Online discovery of top-k similar motifs in time series data,” In Proceedings of the 2011 SIAM International Conference on Data Mining, Mesa, Arizona, USA, April 28-30, 2011 [21] T Rakthanmanon et al “Searching and mining trillions of time series subsequences under dynamic time warping,” In Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining, Beijing, China, August 12 - 16, 2012, pp 262–270 [22] J Berndt and J Clifford “Using dynamic time warping to find patterns in time series,” In KDD-94: AAAI Workshop on Knowledge Discovery in Databases, pp 359-370, July 1994 [23] H Pohl and A Hadjakos “Dance pattern recognition using dynamic time warping,” In SMC 2010 Proceedings, Darmstadt, Germany, 2010, pp 183– 190 [24] Anthony bagnall et al Finding motif sets in time series University of east anglia computer science technical report cmpc14-03, Norwich, Norfolk, United Kingdom, 2014 [25] Mohammad Y and Nishida T “Exact Discovery of Length-Range Motifs” In Asian Conference on Intelligent Information and Database Systems, Bangkok, Thailand, 2014, pp 23-32 [26] Sakurai et al “FTW: Fast Similarity Search under the Time Warping Distance,” In Proceedings of the twenty-fourth ACM SIGMOD-SIGACTSIGART symposium on Principles of database systems, Baltimore, Maryland, June 13 - 15, 2005, pp 326-337 [27] Lemire, D “Faster Retrieval with a Two-Pass Dynamic-Time-Warping Lower Bound,” In Pattern Recognition Vol 42, no 9, pp 2169-2180, November 2008 [28] D T Anh, N V Nha “An Efficient Implementation of EDM Algorithm for Motif Discovery in Time Series data,” Int J Data, Modelling and Management Vol 8, no 2, 2016 95 LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN I LÝ LỊCH SƠ LƯỢC: Họ tên: Nguyễn Tài Dư Giới tính: Nam Ngày, tháng, năm sinh: 04/04/1976 Nơi sinh: Đức hòa – Long an Email: taidu.nguyen@gmail.com Điện thoại: 0903060580 II QUÁ TRÌNH ĐÀO TẠO: - Từ năm 2011 – 2014 Học Trường ĐH Cơng nghệ Sài gịn - Từ năm 2015 – 2019 Học Trường Đại học Công nghiệp Thành phố hồ chí minh III Q TRÌNH CƠNG TÁC CHUN MƠN: Thời gian Nơi công tác Công việc đảm nhiệm 2014 - 2017 Công ty CP Quốc tế Logistics Việt nam IT Manager 2018- 2019 Công ty TNHH UNIASIA IT Manager Tp HCM, ngày 05 tháng 05 Năm 20019 Người khai 96 ... giá hiệu việc sử dụng hai độ đo Euclide DTW vào toán phát motif đối tượng chuỗi thời gian nhằm đánh giá tính hiệu phương pháp phát motif thực nghiệm tập liệu thực, so sánh tính hiệu quả, thời gian. .. Việc chọn lựa độ đo sử dụng, ảnh hưởng tới thời gian thực thi độ xác kết Do đó, cần so sánh đánh giá tính hiệu thời gian thực thi hai độ đo Euclide DTW toán phát motif chuỗi thời gian Ngồi ra,... (A) Độ đo Euclide; (B) Dynamic Time Warping hai chuỗi Với độ đo Euclide điểm chuỗi Q so sánh cặp điểm với điểm chuỗi C thẳng hàng với nhau, độ đo DTW điểm chuỗi Q so sánh đến nhiều điểm chuỗi