Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 195 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
195
Dung lượng
11,61 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG DẠI HỌC BÁCH KHOA HUỲNH THỊ THU THỦY PHÁT HIỆN nhũng điểm thay đôi chuồi bát THƯỜNG TRÊN DŨ LIỆU CHUỎI THỜI GIAN LUẬN ÁN TI ÉN Sĩ TP HỊ CHÍ MINH - NĂM 2022 ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG DẠI HỌC BÁCH KHOA HUỲNH THỊ THU THÙY PHẤT HIỆN NHŨNG Đ1ÊM THAY ĐỐI VÀ CHUÕI CON BẤT THƯỜNG TRÊN DỮ LIỆU CHUÔI THỜI GIAN Chuyên ngành: Khoa học máy tính Mã số chuycn ngành: 62.48.01.01 Phản biện độc lập: Phản biện độc lập: Phản biện: Phản biện: Phản biện: PGS TS Trần Văn Lăng TS Nguyễn Thị Thanh Sang PGS TS Huỳnh Tường Nguyên PGS TS Đồ Văn Nhơn PGS TS Lê Trung Quân NGƯỜI HƯỚNG DÀN: PGS TS DƯƠNG TUẤN ANH PGS TS VÕ THỊ NGỌC CHÂU LỜI CAM ĐOAN Tác giá xin cam đoan cơng Irình nghiên cứu cùa bán thân tác giả Các kết qua nghiên cứu kết luận luận án trung thực, không chép từ nguồn hình thức Việc tham khảo nguồn tài liệu (nếu có) thực trích dẫn ghi nguồn tài liệu tham khảo quy định Tác giá luận án Huỳnh Thị Thu Thủy i TÓM TÁT LUẬN ÁN Dữ liệu chuồi thời gian diện nhiều lĩnh vực ứng dụng y học, tài chính, thưưng mại điện tứ, khí tượng thùy văn, v.v Khai phá liệu khám phá tri thức từ liệu chuỗi thời gian ngày quan tâm; phát chuồi bất thường dừ liệu chuồi thời gian tốn có nhiều thách thức cần xem xét Những thách thức là: (1) cần biết trước chiều dài cua chuồi bất thường, (2) kết chuồi bất thường tìm phải xác với chi phí hữu hiệu, (3) đặc biệt ứng phó với liệu siêu lớn yêu cầu đáp ứng tức thời Hiện tại, công trinh nghiên cứu toán phát chuỗi bất thường dừ liệu chuỗi thời gian vần chưa giải thách thức hiệu quá, liệu chuồi thời gian dạng luồng Do đó, mục tiêu luận án phát triển giãi pháp hiệu cho tốn tìm chuỗi bất thường liệu chuỗi thời gian ngừ cành cùa thách thức Cụ thể luận án đề xuất hướng giải dựa phân đoạn để làm giảm độ khó việc xác định trước chiều dài chuỗi bất thường Song song, luận án đề xuất độ đo PALS (Percentage of Average Length Segments) nhàm hỗ trợ cho việc đánh giá chat lượng cúa phương pháp phân đoạn chuỗi thời gian, tạo sơ lựa chọn phương pháp phàn đoạn chuồi thời gian phù hợp Thách thức tính xác cùa kết qua chuỗi bất thường luận án giải qua đề xuất hai giải thuật EP-ILeader EP-Leader-DTW dừ liệu chuỗi thời gian dạng tĩnh với độ đo Euclid khoáng cách xoan thời gian động Những kết EP-Leader EP-Leader-DTW tìm liệu chuồi thời gian tiêu biếu trùng khớp với chuỗi đánh dấu chuyên gia Ngồi ra, giải thuật EP-ILeader EP-Leader-DTW đạt tính hừu hiệu cao thời gian thực thi Mặc dù giải thuật EP-Leader-DTW sử dụng khoảng cách xoan thời gian động vốn có chi phí tính tốn cao đáp ứng yêu cầu thời gian thực thi nhanh, ví dụ: tìm chuỗi bất thường chuồi thời gian có kích thước 5.000 điểm, thời gian thực thi giải thuật EP-Leader-DTW khoảng 35 mill giây ii Hơn nữa, luận án đề xuất giải thuật SEP-Leader-DTW đề giải thách thức phát bất thường liệu chuồi thời gian dạng luồng với khoảng cách DTW Giái thuật SEP-Leader-DTW có thời gian thực thi đáp ứng yêu cầu tính tức thời dừ liệu thực tế mà vần đảm bảo tính xác kết chuồi bất thường tim Tương tự, giài thuật TopK-EP-ALeader-S luận án đề xuất giải hiệu quà thách thức đáp ứng tức thời tìm k chuỗi bất thường nhẩt liệu chuỗi thời gian dạng luồng Bên cạnh đó, luận án đề xuất số giải thuật cải thiện cho giải thuật phát bất thường dựa vào cứa sổ trượt (window-based method) truyền thống; xem xét giải vấn đề dừ liệu siêu lớn Cụ thể Hash DD - biển thể giải thuật HOT SAX cua Keogh cộng sự, giải thuật KBFGPU - biển the cua giái thuật chân phương Brute-Force Giải thuật Hash DD sử dụng kỹ thuật băm thay cho cấu trúc gia to (augment trie) trượt theo điếm xấp xỉ đoạn giúp tăng tốc giám chi phí nhớ cho giải thuật HOT SAX Giải thuật KBF GPU tiến dựa kỳ thuật lập trình song song GPU (Graphics Processing Unit) giúp tăng tốc cho giải thuật Brute-Force, xác định chuỗi bất thường theo điều kiện khoáng cách, hỗ trợ toán tồn chuồi bất thường đôi liệu chuồi thời gian siêu lớn Cuối cùng, luận án phát triển khung thức dự báo có tên EPL s X đế ứng dụng phát chuồi bất thường vào toán dự báo chuỗi thời gian Khung thức EPL S X cỏ thể làm việc hiệu với nhiều phương pháp dự báo chuồi thời gian có dừ liệu chuồi thời gian nhiều lĩnh vực ứng dụng khác Ket qua thực nghiệm cua khung thức cho thấy nểu áp dụng phát bất thường khư bất thường công đoạn tiền xử lý dừ liệu trước tiến hành dự báo độ xác cúa kết dự báo tốt nhiều iii ABSTRACT Time series data is present in a large number of various application domains such as medicine, finance, e-commerce, hydrometeorology, etc Data mining and knowledge discovery from time series data are increasingly interested; where anomaly detection in time series is a challenging problem that needs to be considered The challenges of this problem are: (1) pre-specifying the anomaly subsequence’s length, (2) the accuracy and time efficiency of finding the most unusual subsequences, and especially, (3) dealing with large time series and instant response requirements Currently, the research works on the problem of detecting the most unusual subsequences in time series have not yet solved the above challenges effectively and efficiently in a practical context, and especially in the context of streaming time series Therefore, the aim of this thesis is to develop effective solutions to the problem of finding the most unusual subsequences in time series in the context where the above challenges are handled nicely In particular, the thesis has proposed a segmentation based method to reduce the difficulty of pre-determining the most unusual subsequence’s length At the same time, the thesis has proposed the PALS (Percentage of Average Length Segments) measure to support the quality assessment of time scries segmentation methods, laying the basis for selecting suitable time series segmentation methods The challenge of accurate anomaly detection is then solved by this thesis through the proposal of EP-ILcadcr and EP-Lcadcr-DTW, two algorithms on static time series with Euclidean and Dynamic Time Warping (DTW) distance measures The results found by EP-Leader and EP-Leader-DTW on benchmark time series match the most unusual subsequences annotated by experts In addition, the EP-ILeader and EP-Leader-DTW algorithms achieve better efficiency in terms of execution time as compared to some existing ones Although using DTW, whose computational cost is high, the EP-LeaderDTW algorithm meets the requirements of fast execution time, for example, when finding the most unusual subsequences in time series containing 5,000 points, the execution time of the EP-Leader-DTW algorithm is only about 35 milliseconds iv Furthermore, this thesis has proposed SEP-Leader-DTW, an algorithm to tackle the challenges of anomaly detection in streaming time series under DTW This SEP-LeaderDTW algorithm can meet the practical requirement for real time response but still ensure the accuracy of the most unusual subsequence results found Similarly, the TopK-EP- ALeader-S algorithm proposed by this thesis also effectively solves the challenge of instantaneous response when discovering the k most unusual subsequences in streaming time series Besides, this thesis has proposed the improved versions of some traditional window based algorithms for anomaly detection in static time series Large time series are also considered In particular, HashJDD - a variant of HOT SAX algorithm proposed by Keogh et al and the KBF_GPU algorithm - a parallel variant of the Brute-Force algorithm have been proposed Hash_DD algorithm uses a hash table instead of an augment trie and slides the sliding-window by one segment instead of one point for speeding up and reducing the memory cost of HOT SAX algorithm KBF_GPU algorithm is based on parallel programming technique on GPU (Graphics Processing Unit) that accelerates the Brute-Force algorithm, detects the most unusual subsequences with respect to a distance condition, and supports the problem when a twin freak exists in large time series Finally, this thesis has also proposed EPL_S_X, the forecasting framework which applies anomaly detection to the time series prediction problem The EPL_S_X framework can effectively work with many available forecasting methods in time series in many different application areas The experimental results of this framework show that if applying anomaly detection and repair as a preprocessing step before forecasting, the accuracy of the forecast results will be much better V LỜI CÁM ƠN Tôi xin trân trọng cảm ơn PGS TS Dương Tuấn Anh PGS TS Võ Thị Ngọc Châu tận tình hướng dần tơi suốt thời gian tơi làm nghiên cứu trường ĐH Bách Khoa TPHCM Tôi xin trân trọng cảm ơn Thầy Cô khoa Khoa học Kỳ thuật máy tính bạn nghiên cứu sinh đà đóng góp ỷ kiến giúp đỡ tơi q trình tơi làm nghiên cứu Tơi xin trân trọng cảm ơn Văn phòng Khoa phòng Đào Tạo Sau Đại học giúp đỡ nhiều q trình tơi làm nghiên cứu Tơi xin trân trọng cam ơn Ban Giám hiệu trường ĐH Tôn Đức Thắng, Lãnh đạo Trung tâm Công nghệ thông tin ứng dụng trường ĐH Tôn Đức Thắng tạo điều kiện giúp dỡ tơi q trình tơi làm nghiên cứu trường ĐH Bách Khoa TPHCM Tôi xin cám ơn gia đình úng hộ cổ vũ tơi, giúp tơi hồn thành chương trình nghiên cứu minh vi MỤC LỤC DANH MỤC CÁC HÌNH ẢNH xi DANH MỤC BẢNG BIÊU xiv DANH MỤC CÁC TỪ VIẾT TÁT xvi GIÓI THIỆU I CHƯƠNG 1.1 Động nghiên cứu đề tài 1.2 Ý nghĩa khoa học ý nghĩa thực tiễn đề tài 1.3 Mục tiêu, đổi tượng phạm vi nghiên cứu 1.4 Các đóng góp cùa luận án 1.5 Cấu trúc luận án 13 CHƯƠNG 2.1 Cơ SỎ LÝ THUYẾT VÀ CÁC CƠNG TRÌNH LIÊN QUAN 15 Định nghĩa 15 2.1.1 Định nghĩa 2.1 Dữ liệu chuỗi thời gian 15 2.1.2 Định nghĩa 2.2 Dữ liệu chuồi thời gian dạng luồng 16 2.1.3 Định nghĩa 2.3 Chuỗi 16 2.1.4 Định nghĩa 2.4 Trùng khớp không tầm thường 16 2.1.5 Định nghĩa 2.5 Chuồi bất thường 16 2.1.6 Định nghĩa 2.6 Chuỗi bất thường 16 2.1.7 Định nghĩa 2.7 Chuồi bất thường thứ k 17 2.1.8 Điểm thay dổi 18 2.2 Độ đo khoảng cách 19 2.2.1 Độ đo Euclid 19 2.2.2 Khoảng cách xoắn thời gian động 19 2.3 Thu giảm số chiều 21 2.3.1 Phương pháp xấp xi gộp đoạn 22 2.3.2 Phương pháp xấp xỉ gộp tuyến tính đoạn 23 2.4 Rời rạc hóa dừ liệu 23 Phương pháp xấp xỉ gộp ký hiệu hóa 23 2.5 Các cơng trình phát chuỗi bất thường dừ liệu chuỗi thời gian dạng tĩnh 25 2.6 Các cơng trình phát chuỗi bất thường liệu chuỗi thời gian dạng luồng 29 vii 2.7 Kết chương 31 CHƯƠNG PHÁT HIỆN NHỮNG ĐIÉM THAY ĐỒĨ TRÊN CHUỔI THÒĨ GIAN VÀ CÁC PHƯƠNG PHÁP PHÂN ĐOẠN 32 3.1 Từ phương pháp phát điếm thay đôi đến phương pháp phân đoạn 32 3.1.1 Phương pháp điểm cực trị quan trọng 33 3.1.2 Phương pháp điểm quan trọng càm nhận 34 3.1.3 Phương pháp xấp xi bình phương tối thiểu đa thức 36 3.2 Tiêu chí đánh giá phương pháp phân đoạn Gensler Sick đề xuất 36 3.3 Đe xuất tiêu chí dánh giá phương pháp phân đoạn 39 3.3.1 Đề xuất độ đo PALS đánh giá chấtlượng phương pháp phân đoạn 39 3.3.2 Kết thực nghiệm 41 3.4 Ket chương 45 CHƯƠNG CẢI TIẾN CÁC PHƯƠNG PHÁP PHÁT HIỆN CHUỒI CON BÁT THƯỜNG NHÁT DựA VÀO CỬA SỐ TRƯỢT TRUYỀN THĨNG TRÊN DỪ LIỆU CHUỖI THỜI GIAN DẠNG TÌNH 47 4.1 Giới thiệu vấn đề 47 4.1.1 Giải thuật HOT SAX 47 4.1.2 Giới thiệu giải thuật cải tiến 47 4.2 Giải thuật cải tiến I-HOTSAX 48 4.2.1 Các kỹ thuật hỗ trợ 48 4.2.2 Giải thuật cải tiến I-HOTSAX phát chuồi bất thường 49 4.3 Giải thuật cải tiến Hash DD 52 4.4 Giải thuật cải tiến KBF_GPU 56 4.4.1 Chuỗi bất thường theo khoáng cách K .56 4.4.2 Tìm kiếm chuỗi bất thường theo khoảng cách K 57 4.4.3 Tăng tốc giải thuật KBF với GPU 59 4.4.4 Biện luận 61 4.5 Đánh giá giải thuật tiến 62 4.5.1 Đánh giá giải thuật I-HOTSAX 62 4.5.2 Đánh giá giải thuật Hash DD 65 4.5.3 Đánh giá giải thuật KBF GPU 69 4.5.4 So sánh giải thuật cải tiến 74 viii [85] E Pena, M D Assis and M Proenẹa, "Anomaly detection using forecasting methods arima and hwds," Proceeding ofXXXIl international Conference of the Chilean Computer Science Society (SCCC), Chile, IEEE, pp 63-66, 2013 [86] J Bernacki and G Kolaczek, "Anomaly Detection in Network Traffic Using Selected Methods of Time Series Analysis," International Journal of Computer Network and Information Security, vol 7, no 9, pp 10-18, 2015 [87] M Munir, s A Siddiqui, A Dengel and s Ahmed, "DeepAnT: A deep learning approach for unsupervised anomaly detection in time series," IEEE Access, vol Lpp 1991-2005,2018 [88] R Zhang and Q Q Zou, "Time series prediction and anomaly detection of light curve using LSTM neural network," In Journal of Physics: Conference Series, IOP Publishing, vol 1061, no 1, p 012012, 2018 [89] Z Que, Y Liu, c Guo, X Niu, Y Zhu and w Luk, "Real-time Anomaly Detection for Flight Testing using AutoEncoder and LSTM," In 2019 International Conference on Fie Id-Programmable Technology (ICFPT) IEEE , pp 379-382, 2019 [90] M Lee, J Lin and E Gran, "RePAD: real-time proactive anomaly detection for time series," arXiv preprint arXiv, p 2001.08922, 2020 [91] s Lin, R Clark, R Birke, s Schonbom, N Trigoni and s Roberts, "Anomaly Detection for Time Series using VAE-LSTM hybrid model," Proc, of IEEE Int Conf on Acoustics, Speech and Signal Processing (ICASSP), Barcelona, pp 4322-4316, 2020 [92] Y Zhu and D Shasha, "Efficient elastic burst detection in data streams," Proc, of the ninth ACM SIGKDD Int Conf, on Knowledge discovery and data mining - KDD '03, ACM, pp 336-345, 2003 [931 H Sivaraks and c A Ratanamahatana, "Robust and accurate anomaly detection in ECG artifacts using time series motif discovery," Computational and Mathematical Methods in Medicine, vol 2015, 2015 [94] w Kuang, s An and H Jiang, "Detecting traffic anomalies in urban areas using taxi GPS data," Mathematical Problems in Engineering, vol 2015, 2015 [95] s Ahmad and s Purdy, "Real-time anomaly detection for streaming analytics," arXiv preprint arXiv: 1607.02480, 2016 [961 Z Xu, K Kcrsting and L Von Ritter, "Stochastic Online Anomaly Analysis for Streaming Time Series," In IJCAI, Melbourne, pp 3189-3195, 2017 [97] B c Giao and D T Anh, "Efficient search for top-k discords in streaming time series," International Journal of Business Intelligence and Data Mining, vol 16, no 4, pp 397-417, 2020 [981 Y Liu, X Chen, F Wang and J Yin, "Efficient Detection of Discords for Time Series Stream." In Advances in Data and Web Management, Springer Berlin Heidelberg, pp 629-634, 2009 [99] D Toshniwal and s Yadav, "Adaptive outlier detection in streaming time series," Proc, oflnt Conf, on Asia Agriculture and Animal, ICAAA, vol 13, pp 186-192, 2011 162 [100] A M A Safia and z A Aghbari, "Searching Data Streams for Variable Length Anomalies," Proc, of Int Conf, on Innovations in Inform Tech., Abu Dhabi, United Arab Emirates, pp 297-302, 2011 [101] H Cho and c Kirch, "Data segmentation algorithms: Univariate mean change and beyond," arXiv preprint arXiv: 2012.12814, 2020 [102] H Aksoy, A Gedikli, N Unai and A Kehagias, "Fast segmentation algorithms for long hydrometeorological time series," Hydrological Processes: An International Journal, vol 22, no 23, pp 4600-4608, 2008 [103] M Lovric, M Milanovic and M Stamenkovic, "Algorithmic methods for segmentation of time series: An Overview," J of Contemporary Economic and Business Issues, vol 1, no 1, pp 31-53, 2014 [104] T Fu, F Chung, R Luk and c Ng, "Representing financial time series based on data point importance," Engineering Applications of Artificial Intelligence, vol 21, no 2, pp 277-300, 2008 [105] A Gensler and B Sick, "Novel criteria to measure performance of time series segmentation techniques," T Seidl, M Hassani, c Beecks (Eds.): Proc, of the LWA 2014 Workshops: KDML, IR, FGWM, Aachen, Germany, pp 193-204, 2014 [106] M Sokolova and G Lapalme, "A Systematic analysis of performance measures for classification tasks," Inform Process, and Management, vol 45, no 4, pp 427-437, 2009 [107] B w Matthews, "Comparison of the predicted and observed second structure of t4 phase lysozyme," Biochimica et Biophysica Acta (BBA)- Protein Structure, vol 405, no 2, pp 442-451, 1975 [108] T G Tùng, Giáo trình Lý thuyết xác suất thong kê toán học, Nhà xuất Đại học quốc gia TP Hồ Chí Minh, 2009 [109] "The Research Resource for Complex Physiologic Signals." Internet: https://www.physionct.org/, 2020 [110] K B Pratt and E Fink, "Search for Pattern in Compressed Time Series," Int J of Image and Graphics, vol 2, no 1, pp 89-106, 2002 [Ill] Y Tanaka, K Iwamoto and K Uehara, "Discovery of time series motif from multi-dimensional data based on MDL principle," Machine Learning, vol 58, no 2-3, pp 269-300, 2005 [112] "NVIDIA, CUDA Programming Guide Version 8.0." Internet: https://docs.nvidia.com/cuda/index.html, 2017 [113] "NVIDIA, CUDA Toolkit Documentation Version 8.0." Internet: https://docs.nvidia.com/cuda/index.html, 2017 [114] H T T Thuy, D T Anh and V T N Chau, "A Novel Method for Time Series Anomaly Detection based on Segmentation and Clustering," In 2018 10th Int Conf, on Knowledge and Systems Engineering (KSE), Vietnam, pp 276-281, 2018 [1I5]E Keogh, J Lin and A Fu "Website of UCR Archive." Internet: http://www.cs.ucr.edu/~eamonn/discords/, Jan 24, 2015 163 [116] E Keogh, X Xi, L Wei and c A Ratanamahatana "The UCR Time series Classification/Clustering." Internet: www.cs.ucr.edu/~eamonn/time_series_data, 2017 [117] s Nassar, J Sander and c Cheng, "Incremental and effective data summarization for dynamic hierarchical clustering," Proc, of the 2004 ACM SIGMOD bit Conf, on Management of data, ACM, pp 467-478, 2004 [118]C D Truong and D T Anh, "An efficient method for motif and anomaly detection in time series based on clustering," Int J of Bus Intel! and Data Mining, vol 10, no 4, pp 356-377, 2015 [119] c Gruber, M Coduro and B Sick, "Signature verification with dynamic RBF network and time scries motifs," Proc, of 10th Int Workshop on Frontiers in Hand Writing Recognition, La Baule, France, 2006 [120] z He, X Xu and s Deng, "Discovering Cluster-based Local Outliers," Pattern Recognition Letters, vol 24, no 9-10, pp 1641-1650, 2003 [121] "The Historical Data for s&p 500 Stocks." Internet: https://finance.yahoo.com/, Oct 22, 2020 [122] L Hubert and p Arabie, "Comparing partitions," Journal of Classification, vol 2, pp 193-218, 1985 [123] w Luo and M Gallagher, "Faster and parameter-free discord search in quasiperiodic time series," Proc, of PAKDD, Malaysia, pp 135-148, 2012 [124] H T T Thuy, D T Anh and V T N Chau, "Incremental Clustering for Time Series Data Based on an Improved Leader Algorithm," In 2019 IEEE-RIVF International Conference on Computing and Communication Technologies (RIVF) 2019 Mar 20, Vietnam, pp -6, 2019 [125] M Vlachos, p Yu and V Castelli, "On periodicity detection and structural periodic similarity," Proc, of SIAM Int Conf, on Data Mining SDM, USA, pp 449-460, 2005 [126] N N Phicn, "An Efficient Method for Estimating Time Scries Motif Length using Sequitur Algorithm," In (Meng L, Zhang Y eds.) Proc, of bit Conf, on Machine Learning and Intelligent Communications (MLICOM 2018), LNỈCST 251, Springer, Cham, pp 531-538, 2018 [127] c G Nevill-Manning and I H Witten, "Identifying hierarchical structure in sequences: A linear-time algorithm," J of Artificial Intell Research, vol 7, pp 67-82, 1997 [128] F Petitjean, A Ketterlin and p Gancarski, "A global averaging method for dynamic time warping, with applications to clustering," Pattern Recognition, vol 44, no 3, pp 678-693,2011 [129] H T T Thuy, D T Anh and V T N Chau, "Comparing Three Time Series Segmentation Methods via Novel Evaluation Criteria," Proc, of IEEE Int Conf on Inform Tech., Inform Syst., and Electrical Engineering, Indonesia, IEEE, pp 171-176, 2017 164 [130] D T Anh and L H Thanh, "An efficient implementation of k-means clustering for time series data with DTW distance," Int J of Bus Intell, and Data Mining, Scopus, vol 10, no 3, pp 213-232, 2015 [131] J G D Gooijer and R J Hyndman, "25 years of time series forecasting," International Journal of Forecasting, vol 22, no 3, pp 443-473, 2006 [132] D N Bao, N D Vy and D T Anh, "A hybrid method for forecasting trend and seasonal time series," Proc, of The 2013 RIVF Int Conf, on Coinput & Communication Technologies-Research, Innovation, and Vision for Future (RIVF), Vietnam, pp 203-208, 2013 [133] s Bouktif, A Fiaz, A Ouni and M A Serhani, "Single and multi-sequence deep learning models for short and medium term electric load forecasting," Energies, vol 12, no l,p 149, 2019 [134] ủ Ụ Buyuk?ahin and $ Ertekin, "Improving forecasting accuracy of time series data using a new ARIMA-ANN hybrid method and empirical mode decomposition," Neurocomputing, vol 361, pp 151-163, 2019 [135] J Lago, F D Ridder and B D Schutter, "Forecasting spot electricity prices: Deep learning approaches and empirical comparison of traditional algorithms," Applied Energy, vol 221, pp 386-405, 2018 [136] T D Loc and D T Anh, "Using Anomaly Detection to Improve Holt-Winters Method in Time Series Prediction," Proc, of 3rd Asian Conf, on Information Systems (ACIS 2014), Nha Trang, Vietnam, pp 143-150, 2014 [137] H Lu, M Azimi and T I.seley, "Short-term load forecasting of urban gas using a hybrid model based on improved fruit fly optimization algorithm and support vector machine," Energy Reports, vol 5, pp 666-677, 2019 [138] F Martinez, M p Frias, M D Pérez and A J Rivera, "A methodology for applying k-nearest neighbor to time series forecasting," Artificial Intelligence Review, vol 52, no 3, 2019 [139] G Notton, c Voyant, A Fouilloy, J Duchaud and M Nivet, "Some applications of ANN to solar radiation estimation and forecasting for energy applications," Applied Sciences, vol 9, no 1, p 209, 2019 [140] N T Son, N H Le and D T Anh, "Time series prediction using pattern matching," Proc, of 2013 Int Conf, on Computing Management and Telecommunications (ComManTel), IEEE, p 401—406 2013 [141] p E Tsinaslanidis and D Kugiumtzis, "A prediction scheme using perceptually important points and dynamic time warping," Expert Systems with Applications, vol 41, pp 6848-6860,2014 [142] A Zendehboudi, M Baseer and R Saidur, "Application of support vector machine models for forecasting solar and wind energy resources: A review," Journal of cleaner production, vol 199 pp 272-285, 2018 [143] A M Bianco, M Garcia Ben, E J Martinez and V J Yohai, "Outlier Detection in Regression models with ARIMA errors using robust estimates," Journal of Forecasting, vol 20, no 8, pp 565-579, 2001 165 [144] D Agnieszka and L Magdalena, "Detection of outliers in the financial time series using ARIMA models," Proc, of 2018 Applications of Electromagnetics in Modern Techniques and Medicine (PTZE), Poland, pp 9-12, 2018 [145] V Kozitsin, I Katser and D Lakontsev, "Online forecasting and anomaly detection based on the ARIMA model," Applied Sciences, vol 11, no 7, 2021 [146] Y Yu, Y Zhu, s Li and D Wan, "Time series outlier detection based on sliding window prediction," Mathematical Problems in Engineering, Hindawi Publishing Corporation, 2014 [147] G p Zhang, "Time series forecasting using a hybrid ARIMA and neural network model," Neurocomputing, vol 50, pp 159-175, 2003 [148] s Gclpcr, R Fried and c Croux, "Robust forecasting with exponential and HoltWinters smoothing," J offorecasting, vol 29, no 3, pp 285-300, 2010 [149] "The R project for Statistical Computing." Internet: http://www.r-project.org/, 2014 [150] "Hyndman RJ Time Series Data Library." Internet: http://data.is/TSDLdemo, 2014 [151] c A Ratanamahatana and E Keogh, "Everything you know about Dynamic Time Warping is wrong," Proc, of 3rd Workshop on Mining Temporal and Sequential Data, Seattle, USA, vol 32, pp 22-25, 2004 [152] T c Fu, F L Chung, R Luk and c M Ng, "Stock time series pattern matching: Template-based vs rule-based approaches," Eng Applicat of Artificial Intell., vol 20, no 3, pp 347-364, 2007 166 PHỤ LỤC A GIẢI THUẬT PHÁT HIỆN CHƯÒI CON BẤT THƯỜNG NHÁT DựA VÀO HEURISTIC — —— M • a a £ Giải thuật HDD (Heuristic Discord Discovery) cải tiên giải thuật chân phương Brute-Force dựa nhận xét sau đây: • Ờ vịng lặp trong, ta khơng cần thiết phải tìm chuồi trùng khớp gần thật cho chuồi xét vịng lặp ngồi Ngay ta tìm chuỗi có khoảng cách gần với chuồi xét giá trị biến best_ so_Jar_dist ta loại chuồi xét • Độ hiệu giải thuật Brute-Force phụ thuộc vào thứ tự duyệt vịng lặp ngồi thứ tự duyệt cùa vịng lặp đe tìm chuồi cho phép kết thúc sớm vịng lặp Do có thứ tự duyệt cho vịng lặp ngồi (dịng số cua Báng Al ) giá trị biến best_so_Jar_dist đủ lớn đế điều kiện dịng số 14 ln sai, thứ tự duyệt cho vịng lặp (dịng số cùa Bàng Al) giá trị cua biến nearest_neỉghbor_dist đu nhó đê điều kiện dịng số ln thất bại Và đó, giảm chi phí kiểm tra cho sổ chuỗi không cần thiết Nhừng thử tự duyệt gọi heuristic vịng lặp ngồi (outer heuristic) heuristic vòng lặp (inner heuristic) Mã già giái thuật HDD cho Báng AI [51 Trong đỏ, heuristic vịng lặp ngồi heuristic vịng lặp xây dựng trước, sau truyền cho giải thuật HDD (dòng dòng 7) Nếu tim thấy chuồi vị trí CỊ vịng lặp có khoảng cách đến chuỗi xét vị trí p vịng lặp ngồi nhỏ giá trị best_soJar_dist ta kết thúc sớm vịng lặp (dịng 9-10) Phần lại cúa giải thuật HDD tương tự giải thuật Brute-Force Giái thuật HDD gọi với tên khác HOT SAX HOT SAX làm việc với hỗ trợ hai cấu trúc dừ liệu: mang hai chiều cấu trúc cây, gọi gia to (augmented trie) Hình Al minh họa hai cấu trúc liệu Bên trái, máng 167 để lưu từ SAX rút trích từ chuồi thời gian, cột cuối chứa số xuất mồi từ mảng Bên phải, gia tố có nút chứa chí mục (vị trí) từ SAX tương ứng mảng Bảng Al: Mã giả giải thuật HDD [5] 10 11 12 13 14 15 16 17 18 19 20 21 22 Function [dist, locj = Heuristic_Search(7’, n, Outer, Inner) best_so_far_dist = bcst_so_far_loc = NaN For Each p In T ordered by heuristic Outer //bắt đầu vịng lặp ngồi nearest_neighbor_dist = infinity For Each q In T ordered by heuristic Inner // bat đầu vòng lặp If Ip - q\ > n //kiểm tra khớp không tầm thường If Dist(tp ,tp+„ I, tq ,tq+n /) < best_so_far_dist Break //nhay khói vịng lặp Endif If Distịtp ,tp+n-ỉ, tq ,tq+n-i) < nearest_neighbor_dist nearest_neighbor_dist = Dist(tp ,tp+n-ỉ, tq ,tq+n-j) Endif Endif End // kết thúc vòng lặp IF nearest_neighbor_dist > best_so_far_dist best_so_far_dist = nearest_neighbor_dist best_so_far_loc = p End End //ket thúc vịng lặp ngồi Return fbest so far dist, best so far locl Sau xây dựng cấu trúc liệu hồ trợ, HOT SAX định nghĩa cách tạo heuristic vịng lặp ngồi heuristic vịng lặp sau Heuristic vỏng lặp ngồi Heuristic vịng lặp ngồi ưu tiên duyệt từ SAX có số lần xuất nhó bàng cách tìm phần tử có cột cuối chứa giá trị nhỏ cẩu trúc mảng, dựa nhận xét chuồi bất đong có xu hướng chuồi có số lần xuất thấp Các chuồi lại duyệt theo thứ tự ngầu nhiên Heuristic vòng lặp Heuristic vịng lặp ưu tiên duyệt chuỗi có dạng biếu diễn SAX với chuồi xét vòng lập ngồi, bàng cách duyệt chuồi có vị trí chi bời danh sách 168 liên kết tương ứng với nút có từ SAX tràng với từ SAX chuồi xét vịng lặp ngồi Các chuồi lại duyệt theo thứ tự ngẫu nhiên Augmented Trie Hĩnh A ì: Hai câu trúc liệu hơ trợ cho heuristic vịng lặp ngồi heuristic vịng lặp 169 PHỤ LỤC B GIẢI THUẬT NHẬN DẠNG DIÊM cục TRỊ QUAN TRỌNG VÀ GIẢI THUẬT NHẬN DẠNG ĐIÉM QUAN TRỌNG PIP B.l Giải thuật nhận dạng điểm cực trị quan trọng Mã gia cua thú tục nhận dạng điểm cực trị quan trọng (Fink Gandhi 125]) sau: ALL-EXTREMA - Finding all extrema Input: Dử liệu chuỗi thời gian aỵ, ,am Output: Giá trị, vị trí loại điếm cục trị quan trọng i=2 while i< m and = ữi i = i +1 if i < m and < then i = FIND-MIN(i) while i< m i = FIND-MAX(i); i = FIND-MlN(i) FIND-MIN(i) ////Tim điếm cực trị nhó sau điểm thứ i left = i while i< m and > ai+i z = i +1 ; if aieft > then left = i if i Lị Từ đó, Keogh xây dựng nên hàm tính cận với khống cách DTW định nghĩa sau: (q - Ui)2 Cị > Uị (Cj — Li)2 Ci < Li nẽu ngược lại LB_Keogh(Q, C) N (D.2) Mục đích cùa hàm tính cận xác định khoảng cách Euclid phần cùa chuồi c mà không nằm đường bao hai đường cận L cận u với phần trực giao cua đường bao Hình D.3 mơ tả cho hàm cận tương ứng với trường hợp dài Sakoe-Chiba (Hình D.3 (a)) hình bình hành Itakura (Hình D.3 (b)) Giá trị cận cúa kỹ thuật Keogh tơng khoảng cách bình phương phần gạch dọc Hình D.3 Vì vậy, độ chặt đường bao tỷ lệ với số lượng chiều dài phan gạch dọc nên ta thấy hàm tính cận trường hợp hình bình hành Itakura cho kết chặt dải Sakoe-Chiba 175 Hình D.3: Mơ tà kỹ thuật cận cua Keogh [72] 176