Hcmute phát hiện bất thường trên chuỗi thời gian dựa vào kỹ thuật rời rạc hóa dữ liệu

61 3 0
Hcmute phát hiện bất thường trên chuỗi thời gian dựa vào kỹ thuật rời rạc hóa dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH CƠNG TRÌNH NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG PHÁT HIỆN BẤT THƯỜNG TRÊN CHUỖI THỜI GIAN DỰA VÀO KỸ THUẬT RỜI RẠC HÓA DỮ LIỆU MÃ SỐ: T2019-30TĐ SKC 0 Tp Hồ Chí Minh, tháng 02/2020 Luan van BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ĐỀ TÀI KH&CN CẤP TRƯỜNG TRỌNG ĐIỂM PHÁT HIỆN BẤT THƯỜNG TRÊN CHUỖI THỜI GIAN DỰA VÀO KỸ THUẬT RỜI RẠC HÓA DỮ LIỆU Mã số: T2019-30TĐ Chủ nhiệm đề tài: TS Nguyễn Thành Sơn TP HCM, 2/2020 Luan van TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH KHOA CƠNG NGHỆ THƠNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KH&CN CẤP TRƯỜNG TRỌNG ĐIỂM PHÁT HIỆN BẤT THƯỜNG TRÊN CHUỖI THỜI GIAN DỰA VÀO KỸ THUẬT RỜI RẠC HÓA DỮ LIỆU Mã số: T2019-30TĐ Chủ nhiệm đề tài: Nguyễn Thành Sơn TP HCM, 2/2020 Luan van MỤC LỤC DANH MỤC CÁC HÌNH ẢNH DANH MỤC CÁC TỪ VIẾT TẮT PHẦN MỞ ĐẦU PHẦN NỘI DUNG 10 CHƯƠNG Các kiến thức sở 10 1.1 Tổng quan đề tài 10 1.2 Các kiến thức 12 1.2.1 Các độ đo tương tự 12  Độ đo Minkowski 12  Độ đo xoắn thời gian động 13 1.2.2 Thu giảm số chiều chuỗi thời gian 15  Điều kiện chặn 15  Phương pháp biến đổi Fourier rời rạc 17  Phương pháp biến đổi Wavelet rời rạc 17  Phương pháp xấp xỉ gộp đoạn 18  Phương pháp điểm cực trị 19  Phương pháp điểm PIP 19  Phương pháp xén liệu 20 1.2.3 Rời rạc hóa chuỗi thời gian 21 1.2.4 R-tree 22 1.2.5 Chỉ mục đường chân trời 23 1.3 Phát bất thường liệu chuỗi thời gian 25 1.3.1 Các khái niệm 25 1.3.2 Giải thuật phát bất thường theo kiểu vét cạn 26 1.3.3 Tổng quan số phương pháp phát bất thường tiêu biểu 27 CHƯƠNG Phương pháp đề xuất 30 2.1 Ý tưởng 30 2.2 Kỹ thuật từ bỏ sớm 32 2.3 Thuật toán phát bất thường dựa vào phương pháp rời rạc hóa 33 CHƯƠNG Kết thực nghiệm 35 CHƯƠNG Kết luận hướng phát triển 40  Đóng góp đề tài 40  Hạn chế đề tài 40 i Luan van  Hướng phát triển 40 TÀI LIỆU THAM KHẢO 41 ii Luan van DANH MỤC CÁC HÌNH ẢNH Hình 1.1 Đường biểu diễn chuỗi thời gian 10 Hình 1.2 Ví dụ chuỗi bất thường chuỗi thời gian ECG 11 Hình 1.3 Minh họa hai chuỗi thời gian giống 13 Hình 1.4 Khoảng cách hai đường biểu diễn giống hình dạng 14 Hình 1.5 Minh họa cách tính khoảng cách theo DTW 15 Hình 1.6 Minh họa phương pháp DFT 17 Hình 1.7 Minh họa phương pháp Haar Wavelet 18 Hình 1.8 Minh họa phương pháp PAA 18 Hình 1.9 Minh họa trình nhận dạng điểm PIP 20 Hình 1.10 Minh họa kỹ thuật xén liệu chuỗi thời gian có chiều dài 64 21 Hình 1.11 Minh họa phương pháp SAX với a = ( [28]) 22 Hình 1.12 Minh họa trường hợp MBR có phủ lấp khơng phủ lấp ( [33]) 23 Hình 1.13 Minh họa SBR SBR xấp xỉ ba chuỗi thời gian ( [33]) 24 Hình 1.14 Một ví dụ chuỗi tương tự tầm thường 26 Hình 1.15 Giải thuật brute-force dùng phát chuỗi bất thường chuỗi thời gian 27 Hình 2.1 Minh họa trực quan ý tưởng kỹ thuật từ bỏ sớm ( [38]) 32 Hình 2.2 Thuật toán phát bất thường dựa vào phép rời rạc hóa 33 Hình 3.1 Kết thực nghiệm thời gian thực thi tập liệu Stock với kích thước tập liệu 8000 chuỗi chiều dài bất thường thay đổi 36 Hình 3.2 Kết thực nghiệm thời gian thực thi tập liệu EEG với kích thước tập liệu 4000 chuỗi chiều dài bất thường thay đổi 36 Hình 3.3 Kết thực nghiệm thời gian thực thi tập liệu Federal với kích thước tập liệu 10000 chuỗi chiều dài bất thường thay đổi 36 Hình 3.4 Kết thực nghiệm thời gian thực thi tập liệu Stock với kích thước tập liệu khác chiều dài bất thường cố định 512 37 Hình 3.5 Kết thực nghiệm thời gian thực thi tập liệu EEG với kích thước tập liệu khác chiều dài bất thường cố định 512 37 Luan van Hình 3.6 Kết thực nghiệm thời gian thực thi tập liệu Federal Fund với kích thước tập liệu khác chiều dài bất thường cố định 512 38 Hình 3.7 Tập liệu Stock (hình bên trên) Bất thường phát thuật tốn brute-force (hình bên trái) bất thường phát thuật tốn Yankov (hình giữa) bất thường phát thuật toán đề xuất (hình bên phải) 38 Hình 3.8 Tập liệu Stock (hình bên trên) Bất thường phát thuật tốn brute-force (hình bên trái) bất thường phát thuật toán Yankov (hình giữa) bất thường phát thuật tốn đề xuất (hình bên phải) 39 Hình 3.9 Tập liệu Stock (hình bên trên) Bất thường phát thuật tốn brute-force (hình bên trái) bất thường phát thuật tốn Yankov (hình giữa) bất thường phát thuật toán đề xuất (hình bên phải) 39 Luan van DANH MỤC BẢNG BIỂU Bảng 2.1 Bảng tìm kiếm dùng để xác định vị trí điểm ngắt với ký tự a từ đến 30 Bảng 2.2 Một bảng tìm kiếm trường hợp số ký tự sử dụng 31 Luan van DANH MỤC CÁC CHỮ VIẾT TẮT APCA Adaptive Piecewise Constant Approximation DTW Dynamic Time Warping DFT Discrete Fourier Transform ESAX Extended Symbolic Aggregate approximation iSAX indexable SAX MBR Minimum Bounding Rectangle MrMotif Multi-resolution Motif PAA Piecewise Aggregate Approximation PIP Perceptually Important Point SAX Symbolic Aggregate approXimation Luan van TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc KHOA CNTT Tp HCM, Ngày tháng năm 2020 THÔNG TIN KẾT QUẢ NGHIÊN CỨU Thông tin chung: - Tên đề tài: Phát bất thường chuỗi thời gian dựa vào kỹ thuật rời rạc hóa liệu chuỗi thời gian - Mã số: T2019-30TĐ - Chủ nhiệm: Nguyễn Thành Sơn - Cơ quan chủ trì: Trường Đại học SPKT Tp HCM - Thời gian thực hiện: 12 tháng Mục tiêu: Đề xuất phương pháp cho toán phát bất thường chuỗi thời gian dựa vào kỹ thuật rời rạc hóa liệu chuỗi thời gian Tính sáng tạo: Phương pháp phát bất thường dựa vào kỹ thuật rời rạc hóa liệu giúp thực toán phát bất thường đạt hiệu mặt thời gian lẫn không gian lưu trữ cần tìm kiếm không gian thu giảm chuỗi thời gian cần lần quét qua toàn liệu chuỗi thời gian vài lần đọc liệu đĩa để thẩm định lại kết Kết nghiên cứu: Đề xuất phương pháp cho toán phát bất thường liệu chuỗi thời gian dựa vào kỹ thuật rời rạc hóa liệu Thông tin chi tiết sản phẩm: - Sản phẩm khoa học: + Báo cáo khoa học: Một báo cáo khoa học trình bày phương pháp cho toán phát bất thường chuỗi thời gian dựa vào kỹ thuật rời rạc hóa liệu + Bài báo khoa học: Nguyen Thanh Son, Discovering Time Series Discord Based On A Decrete Method Journal of Technical Education Science, Ho Chi Minh City University of Technology and Education, No.55 (01/2020) Hiệu quả, phương thức chuyển giao kết nghiên cứu khả áp dụng: Có thể áp dụng giảng dạy sau đại học chuyên đề chuỗi thời gian, sử dụng làm sở cho việc phát triển ứng dụng lĩnh vực liên quan khác Trưởng Đơn vị Chủ nhiệm đề tài (ký, họ tên) (ký, họ tên) Luan van Discovery and Data Mining – PAKDD 2015 Workshops: Big_PMA, VLSP, QIMIE, BAEBH, Ho Chi Minh City, Vietnam, 2015 [11] Z He, X Xu, S Deng, "Discovering cluster-based local outliers," Pattern Recogn, vol 24, no 9–10, p 1641–1650, 2003 [12] N T Son, "Time Series Discord Discovery Based on R*-tree," Journal of Science, HCM City University of Education, Special Issue: Natural Science and Technology, vol 90, no 12, pp 133-144, 2016 [13] P M Chau, B M Duc, D T Anh, "Discord Discovery in Streaming Time Series based on an Improved HotSAX Algorithm," in the Ninth International Symposium on Information and Communication Technology, 2018 [14] E Keogh, "A Tutorial on Indexing and Mining Time Series Data," in The IEEE International Conference on Data Mining (ICDM 2001), San Jose, USA, November 29, 2001 [15] E Keogh, "Mining Shape and Time Series Databases with Symbolic Representations," in Tutorial of the 13rd ACM International Conference on Knowledge Discovery and Data mining (KDD 2007), 2007 [16] J Han and M Kamber, Data Mining: Concepts and Techniques, Second Edition ed., Morgan Kaufmann publishers, 2006, pp 71-72 [17] D Berndt and J Clifford, "Finding Patterns in time series: a dynamic programming approach," Journal of advances in Knowledge Discovery and Data Mining, pp 229-248, 1996 [18] E Keogh and C A Ratanamahatana, "Exact Indexing of Dynamic Time Warping," in VLDB '02 Proceedings of the 28th international conference on Very Large Data Bases , 2002 [19] C Faloutsos, M Ranganathan, Y Manolopoulos, "Fast Subsequence Matching in Time Series Databases," in Proceedings of the ACM SIGMOD International Conference on Management of Data, Minneapolis, NM, 1994 [20] R Agrawal, C Faloutsos, A Swami , "Efficient similarity search in sequence databases," in Proceedings of the 4th International Conference on Foundations of Data Organization and Algorithms, Chicago, 1993 [21] K Chan and A W Fu, "Efficient Time Series Matching by Wavelets," in Proceedings of the 15th IEEE Int'l Conference on Data Engineering, Sydney, Australia, 1999 42 Luan van [22] E Keogh, K Chakrabarti , M Pazzani , S Mehrotra , "Dimensionality Reduction for Fast Similarity Search in Large Time Series Databases," in Proceedings of Conference on Knowledge and Information Systems, 2000 [23] E Keogh, K Chakrabarti, S Mehrotra, M Pazzani, "Locally Adaptive Dimensionality Reduction for Indexing Large Time Series Databases," in Proceedings of ACM SIGMOD Conference on Management of Data, Santa Barbara, CA, 2001 [24] E Fink, K B Pratt, "Indexing of compressing time series," in Mark Last, Abraham Kandel and Horst Bunke, editors Data mining in time series Databases, World Scientific, Singapore., 2003 [25] E Fink, H S Gandhi, "Compression of time series by extracting major extrema," Journal of Experimental & Theoretical Artificial Intelligence, vol 23, no 2, pp 255-270, June 2011 [26] F.L Chung, T.C Fu, R Luk, V Ng, "Flexible Time Series Pattern Matching Based on Perceptually Important Points," in International Joint Conference on Artificial Intelligence Workshop on Learning from Temporal and Spatial Data, 2001 [27] A Ratanamahatana, E Keogh, A J Bagnall, S Lonardi, "A Novel Bit Level Time Series Representation with Implications for Similarity Seach and Clustering," in Proc 9th Pacific-Asian Int Conf on Knowledge Discovery and Data Mining (PAKDD’05), Hanoi, Vietnam, 2005 [28] J Lin, E Keogh, S Leonardi, B Chiu, "A symbolic Representation of Time Series with Implications for Streaming Algorithms," in Proceedings of the 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery, San Diego, CA, 2003 [29] B Lkhagva, Y Suzuki, and K Kawagoe, "New Time Series Data Representation ESAX for Financial Applications," in Proceedings of the International Special Workshop on Databases for Next-Generation Researchers (SWOD 2006) in conjunction with International Conference on Data Engineering, ICDE 2006 , Georgia, USA, 2006 [30] J Shieh and E Keogh, "iSAX: indexing and mining terabyte sized time series," in Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2008 [31] A Guttman, "R-trees: a Dynamic Index Structure for Spatial Searching," in Proc of the ACM SIGMOD Int Conf on Management of Data, 1984 43 Luan van [32] N Beckmann, H Kriegel, R Schneider, B Seeger, "The R*-tree: An efficient and robust access method for points and rectangles," in Proc of 1990 ACM SIGMOD Conf., Atlantic City, NJ, 1990 [33] Q Li, I López, B Moon, "Skyline Index for Time Series Data," in IEEE Trans on Knowledge and Data Engineering, 2004 [34] W Luo, M Gallagher, J Wiles , "Parameter-Free Search of Time-Series Discord," Journal of Computer Science and Technology, vol 28, no 2, pp 300-310, 2013 [35] D Yankov, E Keogh and U Rebbapragada, "Disk aware discord discovery: Finding unusual time series in terabyte sized datasets," Knowledge and Information Systems, vol 17, no 2, pp 241-261, 2008 [36] M Jones, D Nikovski, M Imamura, T Hirata, "Anomaly Detection in RealValued Multidimensional Time Series," in 2014 ASE BIGDATA/ SOCIALCOM/ CYBERSECURITY Conference, Stanford University, 2014 [37] Jessica Lin, Eamonn Keogh, Li Wei, Stefano Lonardi, "Experiencing SAX: a novel symbolic representation of time series," Journal of Data Mining and Knowledge Discovery, vol 15, no 2, pp 107-144, 2007 [38] A Mueen, E Keogh , Q Zhu , S Cash, "Exact Discovery of Time Series Motifs," in Proc of SIAM Int on Data Mining, 2009 [39] E Keogh, S Lonardi, B Chiu, "Finding surprising patterns in a time series database in linear time and space," in KDD 2002: Proceedings of 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York, NY, USA, 2002 [40] Y Tanaka, K Iwamoto and K Uehara, "Discovery of Time Series Motif from Multi-Dimensional Data Based on MDL Principle," in Machine Learning 58, 2005 44 Luan van CONTENT Page Comparison between two swing-up algorithms: partial feedback linear and energy based method 1 Hong Gia Bao, 1Le Thi Thanh Hoang, 1Nguyen Minh Tam, Vu Dinh Dat, 1Nguyen Van Dong Hai Ho Chi Minh City University of Technology and Education, Vietnam National Pukyong University, Busan, South Korea Fault localization on the transmission lines by wavelet technique combined radial basis function neural network Nguyen Nhan Bon Ho Chi Minh City University of Technology and Education, Vietnam Design of an inclined weight measurement system for prosthetic arm innovation 12 Tran Dang Khoa, Nguyen Thanh Hai Ho Chi Minh City University of Technology and Education, Vietnam Advanced control design for a high-precision heating furnace using combination of PI/Neural network 25 Nguyen Quoc Lin, Do Minh Xuan, and Dang Xuan Ba Ho Chi Minh City University of Technology and Education, Vietnam Analyses of transmit antenna selection to enhance security performance in cooperative radio communication networks under wiretap channel 32 Le Tien Si, Pham Ngoc Thoa, Thieu Doan Quang Huy, Pham Ngoc Son* Ho Chi Minh City University of Technology and Education, Vietnam LQR control on linear model of flexible inverted pendulum 41 Tran Ngoc Son, Nguyen Minh Tam, Nguyen Van Dong Hai Ho Chi Minh city University of Technology and Education, Vietnam Delay-Aware routing protocol for time-critical wireless sensor networks 49 Do Duy Tan, Dang Phuoc Hai Trang, Huynh Thi Thu Hien, Le Minh Thanh Ho Chi Minh City University of Technology and Education, Vietnam Trajectory tracking sliding mode control for cart and pole system 56 Nguyen Minh Tam1, Huynh Xuan Dung1, Nguyen Phong Luu1, Le Thi Thanh Hoang1, Hong Gia Bao1, Nguyen Van Dong Hai1, Truong Thanh Liem2, Mircea Nitulescu3, Ionel Cristian Vladu3, Ho Chi Minh city University of Technology and Education, Vietnam Ho Chi Minh city University of Transport, Vietnam University of Craiova, Romania Discovering time series discord based on a decrete method 64 Nguyen Thanh Son Ho Chi Minh City University of Technology and Education, Vietnam 10 PLC-Based adaptive controller for stability tank pressure 73 Pham Trong Tuong, Le Ngoc Binh, Pham Huy Hoang, Tran Thi Linh Nhi, Van-Phuong Ta Ho Chi Minh city University of Technology and Education, Vietnam Luan van 11 Dynamic stiffness analysis and isolation effectiveness of vibration isolation platform using pneumatic spring with auxiliary chamber 80 Vo Ngoc Yen Phuong1, Le Thanh Danh2, Nguyen Minh Ky1 Ho Chi Minh City University of Technology and Education, Vietnam Ton Duc Thang University, Vietnam 12 A unified third-order shear deformation theory for static analysis of laminated composite beams 87 Xuan-Bach Bui1, Phi-Hai Ngo2, Trung-Kien Nguyen1,* Ho Chi Minh city University of Technology and Education, Vietnam Nagecco, Viet Nam 13 Optimization of nanosilica fabrication technology process and its application in rubber composite material production .94 Le Minh Tai Ho Chi Minh city University of Technology and Education, Vietnam 14 Designing a reflection learning scale for nurse anesthetist students 100 Nguyen Hung Hoa1,2, Ngo Anh Tuan1 Ho Chi Minh city University of Technology and Education, Vietnam Ho Chi Minh city University of Medicine and Pharmacy, Vietnam 15 A study of student engagement at industrial university of Ho Chi Minh city 104 Nguyen Thi Thu Trang, Ngo Ngoc Hung, Tran Anh Dung Industrial University of Ho Chi Minh City, Vietnam Luan van 64 Journal of Technical Education Science No.55 (01/2020) Ho Chi Minh City University of Technology and Education DISCOVERING TIME SERIES DISCORD BASED ON A DECRETE METHOD Nguyen Thanh Son HCM City University of Technology and Education, Vietnam Received 04/03/2019, Peer reviewed 04/04/2019, Accepted for publication 9/5/2019 ABSTRACT A time series is a series of data points indexed in time order Most commonly, a time series is a sequence taken at successive equally spaced points in time Discord in a long time series is a subsequence which is the most different from all the rest of subsequences of that time series Time series discord discovery is one of problems which has received a lot of attention lately In this paper, we propose a new algorithm for time series discord discovery which is based on the discrete method called Symbolic Aggregate approXimation (SAX) method using distance measure in SAX space and Euclidean distance associated with the idea of early abandoning Our proposed method only need to scan the database two times to discover time series discord exactly and it is very simple to implement The experimental results showed that our proposed method outperforms the similar method proposed by Yankov et al., in terms of runtime while the accuracy is the same Keywords: time series; time series discord; SAX method; discord discovery; early abandoning INTRODUCTION A time series is a series of real numbers which represent data points indexed in time order Time series data arise in so many applications of various areas ranging from science, engineering, business, finance, economy, medicine to government Time series discord discovery is one of problems which has received an increasing amount of attention lately Time series discord is defined as a subsequence which is maximally different to all the rest of subsequences of a long time series Time series discord discovering has been used for fault diagnostics, intrusion detection, data cleansing, etc In 2005, Keogh et al., introduced a formal definition of time series discord [1] Since then, many algorithms for discovering time series discord has been proposed Most of the proposed algorithms often come with the assumption that the data reside in main memory and they need to scan databases many times to discover a discord For many real-world problems this is not the case So, Yankov et al., proposed a new algorithm in which time series discord can be discovered with only two linear scans of the disk and a tiny buffer of main memory Their proposed algorithm is exact and it is very simple to implement [2] In our work, we proposed an algorithm for discovering time series discord which is based on SAX method using distance measure in SAX space and Euclidean distance associated with the idea of early abandoning Similar to Yankov’s algorithm, our proposed method only need to scan the database two times to discover time series discord exactly and it is very simple to implement The first scan is used to selection discord candidates and the second one is used to refine the discord candidates for pruning false discords We experiment with the proposed algorithm on time series datasets of various areas The experimental results showed that Luan van Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 55 (01/2020) Trường Đại Học Sư Phạm Kỹ Thuật TP Hồ Chí Minh our proposed method outperforms the similar method proposed by Yankov et al., in terms of runtime while the accuracy is the same The rest of the paper is organized as follows In Section we review related work and basic concepts Section describes our approach for discovering time series discord Section presents our experimental evaluation on real datasets In section we include some conclusions and suggestions for future work FUNDAMENTAL CONCEPTS AND RELATED WORK 2.1 Fundamental Concepts In this subsection, we give some basic concepts and the definitions of the terms formally  Definition Euclidean distance: Given a pair of time series Q = {q1, …, qn} and C = {c1, …, cn}, the Euclidean distance between Q and C is defined as: D (Q, C )  n  (q i 1 i  ci ) (1) The Euclidean distance metric is the simplest method to measure the similarity of time series and has been widely used for pattern matching [3] To speed up the calculation of Euclidean distance for a pair of time series we can use the idea of early abandoning introduced in [4] Value The cumulative sum exceeded r2 = 121 Time Fig An illustration of the idea of early abandoning technique The idea of early abandoning is performed as follows: when the Euclidean distance is calculated for a pair of time series, 65 if the cumulative sum is greater than the current best-so-far distance at a certain point we can abandon the calculation because this pair of time series is not the best match Fig shows the intuition behind this technique In this example, the current best-so-far distance is supposed of 11 At the point the squared Euclidean distance of 121 we can stop this calculation  Definition Time series: A time series is a real value sequence of length n over time, i.e if T is a time series then T = (t1, …, tn) where ti is a real number  Definition Subsequence: Given a time series T = (t1, …, tn), a subsequence of length m < n of T is a sequence S = (ti,… , ti+m-1) with ≤ i ≤ n – m +1 Since all subsequences may potentially be discords, we have to compare any subsequence to all remaining subsequences However, the best matches of a subsequence tend to be located some points to the left or to the right of the subsequence in question Such matches are called trivial matches and they have to be excluded from the result of discovering discords  Definition Non-trivial match: Given a time series T, containing a subsequence Cp of length m beginning at position p and a matching subsequence Cq beginning at q, we say that Cq is a non-trivial match to Cp if |p – q| ≥ m  Definition Time series discord: Given a time series T, the subsequence C of length n is the most significant discord in T if the distance to its nearest non-trivial match Q is largest It means that for an arbitrary subsequence M  T, min(D(C, Q)) ≥ min(D(M, P)), where Q, P are subsequences in T and Q, P are non-trivial matches of C and M , correspondingly  Definition Kth Time series discord: Given a time series T, the subsequence C of length n beginning at position p is the Kth significant discord in T if C has the Kth largest distance to it nearest non-trivial match Luan van 66 Journal of Technical Education Science No.55 (01/2020) Ho Chi Minh City University of Technology and Education and there is no overlap region between C and the ith discord beginning at position q, for all 1≤ i < K It means |p – q| ≥ n  The zero mean normalization A time series T = {t1, t2, …, tn} can be transformed to a normalized sequence T’ = {t’1, t’2, …, t’n} so that T’ has mean of zero and a standard deviation of one by following formular: t’i = (ti – mean(T)) / std(T) The PAA representation A time series T of length n, T = (t1, t2, …, tn), can be transformed into the w dimensional space (w

Ngày đăng: 02/02/2023, 10:15