Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 87 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
87
Dung lượng
4,27 MB
Nội dung
I H C QU C GIA TP HCM I H C BÁCH KHOA PH M THANH XUÂN NH N D NG MOTIF VÀ B NG TRÊN D LI U CHU I TH I GIAN D A VÀO K THU CHUYÊN NGÀNH: Khoa h c máy tính MÃ S : 60.48.01 LU TP H CHÍ MINH, tháng 07 I H C QU C GIA TP HCM I H C BÁCH KHOA PH M THANH XUÂN NH N D NG MOTIF VÀ B NG TRÊN D LI U CHU I TH I GIAN D A VÀO K THU T CHUYÊN NGÀNH: Khoa h c máy tính MÃ S : 60.48.01 LU TP H CHÍ MINH, tháng 07 C HỒN THÀNH T I I H C BÁCH KHOA Cán b -HCM ng d n khoa h c : PGS.TS Cán b ch m nh n xét : TS n Anh y Cán b ch m nh n xét : TS Võ Th Ng c Châu Lu ngày 22 tháng 07 cb ov t 2013 ih Thành ph n H TS Ph m Tr m: TS Lê Thanh Vân y TS Võ Th Ng c Châu n Anh Xác nh n c a Ch t ch H ngành sau lu CH T CH H NG ng Khoa qu n lý chuyên c s a ch a (n u có) T NG KHOA I H C QU C GIA TP HCM C NG HOÀ XÃ H I CH NGHIÃ VI T NAM I H C BÁCH KHOA c L p - T Do - H nh Phúc -oOo - - Tp HCM, ngày 22 tháng 2013 NHI M V LU i tính: Nam / N Thanh Xuân 21/06/1983 Chuyên Long An m Khoá: 2011 1- VÀO 2motif khai phá H 321/01/2013 421/06/2013 5- qua PGS.TS ng, ngo i tr k t qu tham kh o t ghi rõ lu c trình bày lu n n i dung c a lu c n ng ho ng khác Ngày 22/07/2013 Ph m Thanh Xuân iii c hi n l y m t b ng c p L IC ôi xin chân thành tâm T t Tôi xin g i l nt tc m iv i Motif d li u chu i th i gian nh ng chu i (Subsequense xu t hi n l p l i nhi u l n t p d li u B ng d li u chu i th i gian m t chu i ch xu t hi n nh t m t l n khác bi t nh t v i t t c chu i l i t p d li gi i thu t khai phá b c c a d li u chu i th ng r t l n i thu t khai phá motif ng Trong lu xu t m t gi i thu t m i, gi i thu t FMG (Feature Match Grouping) có th v a phát hi n motif v a phát hi n b chu i th c r t l n T d li u thô (raw data ng t p d li u u sau th c hi c chu n hóa (normalization) s ti p t c th c hi n thu gi m s chi u (dimensionality reduction) r i r c hóa (discretization) v d ng chu i ký t S d ng c as t (sliding window c w (w t qua t t c ký t chu i d li u Các chu i sinh t c a s (word), m i t feature) M t b ch ch a m p (match) v i s c c l n nh t, khóa bucket ng c m th hi n motif t t g i t hash table) ng viên motif ng ng viên b ng viên motif ch a nh t ng Th c hi n tìm t max (Rmax a hàm tính kho ng cách Euclid M t ng viên b t ng v n có th m t th hi n motif v ng Rmax, n u m t ng viên b ng m t th hi n motif ng v c lo i kh i danh sách nh ng ng viên b t ng B y gi , ng viên b ti n_lùi (forward_backward ng l i s nh n di n ng viên b FMG c lo i tr d n b ng gi i thu t ng th t s phá motif FMG Random Projection motif v ABSTRACT Motif in time series data is the similar subsequences which appear repeatedly many times in the data set Anomaly in time series data is that a subsequence appears only once and is most different from the rest of subsequence in the data set Usually, the size of the time series data is very large and growing more and more This is the challenge that makes it difficult for the motif discovery algorithms as well as the anomaly discovery algorithms In this thesis, we propose a new algorithm, FMG (Feature Match Grouping) algorithm which can find motif as well anomaly on the very large time series data From the initial raw data, after executing normalization step, we will perform dimensionality reduction and discretization Using the sliding window of size w (w defined by the user), it slides through all the symbols in the string The subsequence generated by the sliding window are called the word, each word is considered as a feature A hash table is used to contain these features, two match features will be stored together in the same bucket Finding bucket with the largest size, the corresponding key of this bucket will be the motif candidate For the buckets containing only a single feature, these features are anomaly candidates We can find motif instances from the motif candidate and basing on the dissimilarity maximum threshold Rmax (Rmax defined by user based on Euclid distance function) An anomaly candidate still can be any motif instance with the threshold Rmax, if an anomaly candidate is also an motif instance, it will be eliminated from the anomaly candidate list Then, the remaining candidates will be excluded by forward_backward algorithm to identify the real anomaly subsequence FMG algorithm solves the motif discovery and anomaly discovery problem in linear time with the size of the data set, using memory space is a constant The experimental results show that the FMG algorithm is much better than the Random Projection algorithm in motif discovery and much better than HOTSAX algorithm in anomaly discovery vi M CL C v TÓM T T LU ABSTRACT vi I THI TÀI 1.1 D li u chu i th i gian 1.2 Truy xu t thông tin d li u chu i th i gian 1.3 Khai phá motif b 1.4 ng d li u chu i th i gian ng ti p c n c a lu 1.5 Ý ng a lu 1.6 C u trúc c a lu NG THU T NH NG CƠNG TRÌNH LIÊN QUAN 2.1 M t s khái ni n 2.2 2.2.1 2.2.2 2.3 u di n d li u chu i th i gian 10 2.3.1 m s chi u 11 2.3.2 i r c hóa d li u 15 2.4 Gi i thu t khai phá motif xác 16 2.5 Gi i thu t khai phá motif x p x 17 2.6 Gi i thu t khai phá b 2.7 Gi i thu t k t h p khai phá motif khai phá b 2.8 K t lu n 24 ng 19 I QUY T V 3.1 Thu gi m s chi u v 3.2 R i r c hóa d li u v ng 23 25 25 SAX 26 3.3 MINDIST 28 3.4 Gi i thu t FMG 30 3.5 Gi i thu t RFMG 38 3.6 3.7 c hi n c a gi i thu K t lu n 41 N TH C VÀ TH 4.1 c 39 NGHI M 42 Mơ hình hi n th c gi i thu t 43 vii 4.1.1 Gi i thu t chi u ng u nhiên RP 43 4.1.2 Gi i thu t nh n d ng b 4.1.3 Gi i thu t v a khai phá motif v a khai phá b 4.1.4 Gi i thu t khai phá motif RFMG 46 4.2 Th c nghi m gi i thu ng HOTSAX 44 ng FMG 45 n th c 47 4.2.1 D li m 49 4.2.2 D li m 52 4.2.3 D li m 54 4.2.4 D li u doanh nghi 4.2.5 D li m 59 4.2.6 D li m 62 4.2.7 D li u ch 4.3 m 57 m 63 So sánh gi i thu t d a k t qu th c nghi m 66 T LU N 69 5.1 T ng k t 69 5.2 Nh 5.3 a lu ng phát tri n c a lu 69 70 TÀI LI U THAM KH O 71 PH L C A: B I CHI U THU T NG ANH-VI T A PH L C B: LÝ L CH TRÍCH NGANG B viii NH N D NG MOTIF VÀ B NG TRÊN D LI U CHU I TH I GIAN D A VÀO K THU Hình 4.29: K t qu c a gi i thu t FMG tìm b 6.875 d Gi i thu t HOTSAX cho k t qu ng d li u MEMORY m Hình 4.30 Hình 4.30: K t qu c a gi i thu t HOTSAX khai phá b MEMORY 6.875 Trang 61 m ng d li u NH N D NG MOTIF VÀ B NG TRÊN D LI U CHU I TH I GIAN D A VÀO K THU 4.2.6 D li u ng (POWER) a Gi i thu t RP cho k t qu m Hình 4.31 Hình 4.31: K t qu c a gi i thu t RP d li u POWER 35.040 b Gi i thu t RFMG cho k t qu m Hình 4.32 Hình 4.32: K t qu c a gi i thu t RFMG d li u POWER 35.040 Trang 62 m NH N D NG MOTIF VÀ B NG TRÊN D LI U CHU I TH I GIAN D A VÀO K THU c Gi i thu t FMG cho k t qu Hình 4.33 Hình 4.33: K t qu c a gi i thu t FMG tìm motif d li u POWER 35.040 m 4.2.7 D li u ch ng khoán (STOCK) a Gi i thu t RP cho k t qu m Hình 4.34 Hình 4.34: K t qu c a gi i thu t RP d li u STOCK 12.640 Trang 63 m NH N D NG MOTIF VÀ B NG TRÊN D LI U CHU I TH I GIAN D A VÀO K THU b Gi i thu t RFMG cho k t qu Hình 4.35 Hình 4.35: K t qu c a gi i thu t RFMG d li u STOCK 12.640 c Gi i thu t FMG cho k t qu m Hình 4.36 Hình 4.37 Hình 4.36: K t qu c a gi i thu t FMG tìm motif d li u STOCK 12.640 m Trang 64 NH N D NG MOTIF VÀ B NG TRÊN D LI U CHU I TH I GIAN D A VÀO K THU Hình 4.37: K t qu c a gi i thu t FMG tìm b 12.640 d Gi i thu t HOTSAX cho k t qu ng d li u STOCK m Hình 4.38 Hình 4.38: K t qu c a gi i thu t HOTSAX khai phá b STOCK 12.640 Trang 65 m ng d li u NH N D NG MOTIF VÀ B NG TRÊN D LI U CHU I TH I GIAN D A VÀO K THU 4.3 So sánh gi i thu t d a k t qu th c nghi m a Các k t qu khai phá motif c t ng k t B ng Hình 4.39 D li u c Gi i thu t RP S th hi n motif Th i gian ch y (ms) 23 1295 18 146 37 200 105 496 200 787 63 43 67 12 5807 19 1017 37 1682 16 7 51 342 51 165 FMG 51 159 RP 13 24 9 10 15 100.000 RFMG FMG ECG RP 300.000 RFMG FMG RP EEG 10.750 RFMG FMG RP ERP 198.400 RFMG FMG RP MEMORY 6.875 RFMG FMG RP POWER STOCK 35.040 RFMG 12.640 RFMG FMG B ng 3: T ng k t k t qu khai phá motif c a gi i thu t Trang 66 NH N D NG MOTIF VÀ B NG TRÊN D LI U CHU I TH I GIAN D A VÀO K THU Nh n xét: Gi i thu t FMG RFMG ch y nh d li u b th c hi n gom nhóm i thu t RP nh t ch c c u trúc ng bottom-up c motif ng viên FMG RFMG ch c n t qua t p chu i m t l n RP ph i t qua i l n (v i i s l n l p phép chi u) Gi i thu t RFCM ch y nhanh i thu t FMG RFMG ch ki m tra i ký t c ch n ng u nhiên mà V i t p d li u phân b dày, gi i thu t FMG luôn cho k t qu motif i thu t RP Vì v i FMG motif ng viên th c s trung tâm c a nhóm c nh t Gi i thu t FMG RFMG mu n d a vào thông s b Các k t qu khai phá b D li u c i dùng ch t i thi u (s) ng nh hình d ng motif mong c t ng k t B ng Hình 4.40 Gi i thu t Tìm th y b ng Th i gian ch y (ms) HOTSAX Có 34000 FMG Có 4097 HOTSAX Có 19000 FMG Có 5143 HOTSAX Có 4246 FMG Có 628 HOTSAX Có 32000 FMG Có 7819 HOTSAX Có 330 FMG Có 171 HOTSAX Khơng có 23000 FMG Khơng có 31 HOTSAX Có 958 FMG Có 175 100.000 ECG 300.000 EEG ERP MEMORY POWER STOCK 10.750 198.400 6.875 35.040 12.640 B ng 4: T ng k t k t qu khai phá b Trang 67 ng c a gi i thu t NH N D NG MOTIF VÀ B NG TRÊN D LI U CHU I TH I GIAN D A VÀO K THU Nh n xét: Gi i thu t FMG b forward_backward giúp c i thi n t so v i gi i thu t HOTSAX r t K t qu b ng hai gi i thu t kh u kh nh tính xác c a forward_backward FMG N i dùng ch ng kho ng cách Rmax l n gi i thu t FMG có th không nh n di sát nh p v i nh ng b ng khác vào m t nhóm ng b v i kho ng cách Rmax b nh Hình 4.39: So sánh th i gian th c thi khai phá motif c a gi i thu t Hình 4.40: So sánh th i gian th c thi khai phá b Trang 68 ng c a gi i thu t NH N D NG MOTIF VÀ B NG TRÊN D LI U CHU I TH I GIAN D A VÀO K THU K T LU N 5.1 T ng k t Khai phá motif b ng d li u chu i th i gian v thu hút nhi u s quan tâm nh d li u chu i th i gian luôn ph i thu t khai phá motif b ng im tv iv bùng n d li u n gi i thu t ch y r t lâu không gian b nh Xu t phát t gi i thu t brute-force có nhi u gi i thu d ng heuristic c gi i thu t Tuy nhiên gi i thu , không th ng v i d li c c i ti n b ng cách s c i ti n khơng c l n Trong nhóm gi i thu t khai phá motif x p x , gi i thu t chi u ng u nhiên áp d ng xác su phát hi n motif x p x , chuy ph c t p tính toán t hàm nên r t n i ti ng s d ng ph bi n Tuy nhiên th i gian ch y c a gi i thu t chi u ng c d li u s l n l p l n Không gian b nh c c a d li u d n tình tr ng tràn vùng nh Lu xu t gi i thu t v a khai phá motif v a khai phá b ng r t h u hi u Gi i thu t c a t qua c nh ng mà gi i thu t chi u ng u nhiên g p ph i vi c khai phá motif v i th p nhi u l n gi i thu t chi u ng u nhiên Bên c i i thu t có th khai phá b t ng v i th i gian ch y c n n tính, phá b ng HOTSAX 5.2 Nh Lu phá b t nhi u l n so v i gi i thu t khai a lu xu t m t gi i thu t hi u qu có th v a khai phá motif v a khai ng d a nh ng h qu c a trình khai phá motif m m m i so v i gi i thu t khác pháp t ch c c u trúc d li u c a gi i thu t r t thích h p v ng d li u khai phá c l n Gi i thu t có th i gian ch y n tính v i c d li u không gian s d ng b nh h ng s m có th xem m t c i ti n l n vi c ph i m t v i nh ng d li u l n Trang 69 NH N D NG MOTIF VÀ B NG TRÊN D LI U CHU I TH I GIAN D A VÀO K THU xác c a gi i thu c c i thi i gi i thu t chi u ng u nhiên motif ng viên tìm th y trung tâm nhóm d li u 5.3 ng phát tri n c a lu Bên c nh nh ng c i ti n mà gi i thu t FMG mang l c nh t t p t s h n ch c c xem xét kh c ph Chi u dài motif b th s a sai ng v Gi i thu t không nh y v i lo i d li u phân b Vì th i gian h n ch nên lu h n ch kh c ph Trang 70 c nh ng NH N D NG MOTIF VÀ B NG TRÊN D LI U CHU I TH I GIAN D A VÀO K THU TÀI LI U THAM KH O [1] M Kontaki, A N Papadopoulos, Y Manolopoulos, Similarity search in time series database, Data Enginering Lab, Department of Informatics, Aristotle University, 54124 Thessaloniki, Greece, 2005 [2] Yi Lin, M D McCool, A A Ghorbani, Motif and Anomaly Discovery of Time Series Based on Subseries Join, Proceedings of the International MultiConference of Engineers and Computer Scientists, Hong Kong, 2010 [3] P G Ferreira, P J Azevedo, C G Silva, R M.M Brito, Mining Approximate Motifs in Time Series, Proceedings of the 9th International Conference on Discovery Science, Barcelonas Spain, 2006 [4] Y Lin, Subseries Join and Compression of Time Series Data Based on Nonuniform Segmentation, Ph.D Dissertation, School of Computer Science, University of Waterloo, 2008 [5] B Chiu, E Keogh, and S Lonardi, Probabilistic Discovery of Time Series Motifs, Proceedings of the 9th International Conference on Knowledge Discovery and Data Mining (KDD'03), 2003, pp 493-498 [6] J Lin, E Keogh, S Lonardi, P Patel, Finding Motifs in Time Series, Proceedings of 2nd Workshop on Temporal Data Mining, at the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2002 [7] A Mueen, E Keogh, Q Zhu, S Cash, and B.West-over, Exact Discovery of Time Series Motifs, SIAM International Conference on Data Mining (SDM'09), 2009 [8] D Yankov, E Keogh, J Medina, B Chiu, and V Zordan, Detecting Time Series Motifs under Uniform Scaling, Proceedings of the 13rd Inter-national Conference on Knowledge Discovery and Data Mining (SIGKDD'07), 2007, pp 844-853 [9] E Keogh, T Palpanas, V Zordan, D Gunopulos, and M Cardle, Indexing large human-motion databases, Proceedings of the 30th International Conference on Very Large Data Bases (VLDB'04), 2004, pp 780-791 Trang 71 NH N D NG MOTIF VÀ B [10] NG TRÊN D LI U CHU I TH I GIAN D A VÀO K THU R Agrawal, C Faloutsos, A Swami, Efficient similarity search in sequence databases, in Proceedings of the 4th International Conference on Foundation of 15, 1993, pp 69-84 [11] K Chan, J Clifford, Efficient time series matching by wavelets, in Proceeding of 15th IEEE International Conference on Data Engineering (ICDE1999), March 23-26, 1999, pp 126-133 [12] E Keogh, K Chakrabarti, M Pazzani, S Mehrotra, Dimensionality reduction for fast similarity search in large time series databases, in Knowledge and Information Systems, vol 3, no 3, 2000, pp 263-286 [13] E Keogh, K Chakrabarti, M Pazzani, S Mehrotra, Locally adaptive dimensionality reduction for indexing large time series databases, in Proceedings of 2001 ACM SIGMOD Conference on Management of Data, May 21-24 2001, pp 151-162 [14] E Keogh, M Pazzani, An enhanced representation of time series with allows fast and accurate classification, clustering and relevance feedback, in Proceedings of 4th International Conference on Knowledge Discovery and Data Mining, New York, USA, Aug 27-31, 1998, pp 239-241 [15] E Keogh, S Chu, D Hart, M Pazzani, An online algorithm for segment time series, in Proceedings of IEEE International Conference on Data Mining (ICDM 02 Dec 2001, pp 289-296 [16] M Tompa, J Buhler, Finding motifs using random projections, In Montreal, Canada, Apr 22-25 2001, pp 67-74 [17] P Perona, J Malik, Scale-space and Edge Detection using Anisotropic Diffusion, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol 12, No 7, 1990, pp 629-639 [18] J Canny, A Computational Approach to Edge Detection, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol 8, No 6, 1986, pp 679-698 Trang 72 NH N D NG MOTIF VÀ B [19] NG TRÊN D LI U CHU I TH I GIAN D A VÀO K THU Jessica Lin Eamonn Keogh Stefano Lonardi Bill Chiu, A Symbolic representation of Time Series, with Implications for Streaming Algorithms, Proceeding of the 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery, San Diago, CA, June 13, 2003 [20] S Shekar and S Chawla, Spatial Databases: A Tour, Prentice Hall, 1st Edition, 2003 [21] E Keogh, J Lin and A Fu, HOT SAX: Efficiently Finding the Most Unusual Time Series Subsequence, in Proceedings of the 5th IEEE International Conference on Data Mining ICDM, 2005 [22] E Keogh, X Xi, L Wei, & C.A Ratanamahatana The UCR Time series Classification/Clustering Homepage: www.cs.ucr.edu/~eamonn/time_series_data, 2006 [23] Web page for Analysis of Financial Time Series http://faculty.chicagobooth.edu/ruey.tsay/teaching/fts/ Trang 73 PH L C PH L C A: B I CHI U THU T NG ANH-VI T Time series data D li u chu i th i gian False dismissal L i tìm sót False alarm L i tìm sai Motif Chu i xu t hi n l t p d li u Anomaly Chu i b Feature Match Grouping Gom nhóm b ng cách kh FMG Random projection Chi u ng u nhiên RP Random Feature Match Grouping Gom nhóm b ng cách kh ng u nhiên RFMG Raw data D li u thơ, d li Normalization Q trình chu n hóa d li u Dimensionality reduction Quá trình thu gi m s chi u c a d li u Discretization Quá trình r i r c hóa d li u Subseries / Subsequence Chu i trích t chu i d li u l n Word / feature Chu i trích t chu i d li u l r c hóa Sliding window C as Hash table C u trúc b Bucket Ph l c A p l i ng t p d li u c x lý t t c u trúc d li u) i PH L C PH L C B: LÝ L CH TRÍCH NGANG H tên: Ph m Thanh Xuân m sinh: 21-06-1983 a ch liên l c: 1/17 p Ái Ngãi, xã Phú Ngãi Tr , huy n Châu Thành, t nh Long An S n tho i: 0167 653 8047 O Th i gian o Chuyên ngành B 2002 - 2007 i h c Nông Lâm TP.HCM Công ngh thông tin K 2011 - 2013 i h c Bách Khoa TP.HCM Khoa h c máy tính Th o Q TRÌNH CƠNG TÁC Th i gian 2007 - 2008 công tác Công ty Proceeding Khu ch xu t Tân Thu n, Q7, V trí L p trình viên TPHCM 2008 - 2012 Công ty IONetwork TPHCM n Biên Ph Ph l c B L p trình viên ... nhóm làm ng viên motif Trang 33 NH N D NG MOTIF VÀ B NG TRÊN D LI U CHU I TH I GIAN D A VÀO K THU a Gi i thu t Get _Motif_ Candidate tìm ng viên motif t b t Hình 3.10: Gi i thu t Get _Motif_ Candidate... viên motif nh c l n nh ch a nh t m ng ng viên b Trang ng ng c a thùng NH N D NG MOTIF VÀ B NG TRÊN D LI U CHU I TH I GIAN D A VÀO K THU Th c hi n tìm th hi n motif t Rmax (Rmax viên b ng viên motif. .. Trang 16 O(m2) v i m NH N D NG MOTIF VÀ B NG TRÊN D LI U CHU I TH I GIAN D A VÀO K THU Gi i thu t Find_1 _Motif_ Brute_Force (T, n, R) best _motif_ count_so_far = 0; best _motif_ location_so_far = null;