(Luận văn thạc sĩ) Phát hiện bất thường trên chuỗi thời gian dựa vào ma trận khoảng cách

88 4 0
(Luận văn thạc sĩ) Phát hiện bất thường trên chuỗi thời gian dựa vào ma trận khoảng cách

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

(Luận văn thạc sĩ) Phát hiện bất thường trên chuỗi thời gian dựa vào ma trận khoảng cách(Luận văn thạc sĩ) Phát hiện bất thường trên chuỗi thời gian dựa vào ma trận khoảng cách(Luận văn thạc sĩ) Phát hiện bất thường trên chuỗi thời gian dựa vào ma trận khoảng cách(Luận văn thạc sĩ) Phát hiện bất thường trên chuỗi thời gian dựa vào ma trận khoảng cách(Luận văn thạc sĩ) Phát hiện bất thường trên chuỗi thời gian dựa vào ma trận khoảng cách(Luận văn thạc sĩ) Phát hiện bất thường trên chuỗi thời gian dựa vào ma trận khoảng cách(Luận văn thạc sĩ) Phát hiện bất thường trên chuỗi thời gian dựa vào ma trận khoảng cách(Luận văn thạc sĩ) Phát hiện bất thường trên chuỗi thời gian dựa vào ma trận khoảng cách(Luận văn thạc sĩ) Phát hiện bất thường trên chuỗi thời gian dựa vào ma trận khoảng cách(Luận văn thạc sĩ) Phát hiện bất thường trên chuỗi thời gian dựa vào ma trận khoảng cách(Luận văn thạc sĩ) Phát hiện bất thường trên chuỗi thời gian dựa vào ma trận khoảng cách(Luận văn thạc sĩ) Phát hiện bất thường trên chuỗi thời gian dựa vào ma trận khoảng cách(Luận văn thạc sĩ) Phát hiện bất thường trên chuỗi thời gian dựa vào ma trận khoảng cách(Luận văn thạc sĩ) Phát hiện bất thường trên chuỗi thời gian dựa vào ma trận khoảng cách(Luận văn thạc sĩ) Phát hiện bất thường trên chuỗi thời gian dựa vào ma trận khoảng cách(Luận văn thạc sĩ) Phát hiện bất thường trên chuỗi thời gian dựa vào ma trận khoảng cách

LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác trình bày luận văn, cơng trình nghiên cứu Các số liệu, kết nêu luận văn trung thực Tp.HCM, ngày 28 tháng 02 năm 2021 Học viên Nguyễn Văn Thành xi LỜI CẢM TẠ Trước tiên xin chân thành cảm ơn đến TS Nguyễn Thành Sơn, người Thầy tận tâm, tận tình đầy trách nhiệm hướng dẫn tạo điều kiện cho thực đề tài luận văn Tôi xin chân thành gửi lời cảm ơn đến Quý Thầy/Cô môn Khoa học máy tính, Khoa Cơng nghệ thơng tin, trường đại học Sư Phạm Kỹ Thuật Tp Hồ Chí Minh Cuối lời cảm ơn đến thành viên gia đình ln động viên, giúp đỡ cho tơi hồn thành luận văn Bản thân cố gắng để thực luận văn tốt nhất, nhiên không tránh khỏi sai xót, mong Q thầy bạn thơng cảm vui lịng nhận ý kiến đóng góp quý báu Tp.HCM, ngày 28 tháng 02 năm 2021 Học viên Nguyễn Văn Thành xii TÓM TẮT Trong xu phát triển chung giới, khoa học máy tính nói chung hay khoa học liệu nói riêng đặc biệt khai phá liệu chuỗi thời gian phát triển chặn đường dài, đóng góp tích cực vào bùng nỗ công nghệ 4.0 Trong xu đó, việc ứng dụng khoa học liệu hay khai phá liệu vào phát bất thường, ngoại lệ, ngoại lai, bất hòa, … nhằm phát khác biệt, dị biệt ứng dụng rộng rãi cho ngành y tế, công nghiệp, khoa học vũ trụ, … Dữ liệu chuỗi thời gian tồn nhiều ứng dụng thực tế từ lĩnh vực khoa học kỹ thuật, y tế, kinh tế, tài giữ vai trị quan trong khai phá liệu Vì toán phát bất thường liệu chuỗi thời gian ma trận khoản cách có hai vấn đề cần giải Thứ phải chọn chiều dài chuỗi hợp lý hiệu Thứ hai tìm kiếm tương tự cách so trùng chuỗi liệu chuổi thời gian để thao tác phát bất thường Về xác định chiều dài chuỗi luận văn chọn theo số mũ như: 64, 128, 256, 512, 1024, … mà chưa chọn tự động để đạt tối ưu tùy vào tập liệu Về tốn tìm kiếm bất thường, luận văn áp dụng hai giải thuật SCRIMP++ SWAMP để tính tốn khoản cách ma trận cách sử dụng cửa sổ trượt dịch chuyển điểm Ngồi giải thuật thuật SWAMP cịn sử dụng phương pháp thu giảm PAA để tăng hiệu tính tốn Luận văn thực nghiệm tập liệu từ cách lĩnh vực khác như: y tế (tập ECG), khoa học, Vũ trụ (tàu thoi), tập liệu thực tế để có kết khác xác nhằm so sánh tính hiểu giải thuật xiii ABSTRACT In the general development trend of the world, computer science in general or data science in particular, time series data mining, in particular, has been developing a long way, positively contributing to Technology 4.0 In that trend, the application of data science or data mining into the detection of abnormalities, exceptions, outliers, discord in order to detect differences, differences have been and has been widely applied widely used in the medical, industry, space sciences, Time series data exist in a wide variety of practical applications from the fields of science and engineering, to medicine, economics, finance, and play a very important role in data mining Therefore, the problem of detecting anomalies on time series data by distance matrix has two main problems that need to be solved Firstly, it is necessary to choose how much substrate length is reasonable and effective The second search for the same by comparing the substring on time series data to anomaly detect operation Regarding the determination of the length of the substring at present, the thesis still chooses exponent such as 64, 128, 256, 512, 1024, but has not chosen automatically to achieve optimization depending on the data set Regarding the unusual search problem, the thesis applies two algorithms SCRIMP ++ and SWAMP to calculate matrix distances by using the sliding window for each point In addition, the SWAMP algorithm also uses a reduction of the PAA method to increase efficiency when calculating The thesis has experimented with datasets from different fields such as medical (ECG), science, space (space shuttle), and real data sets to get other results accuracy in order to compare the effectiveness of other algorithms xiv MỤC LỤC LỜI CAM ĐOAN xi LỜI CẢM TẠ xii TÓM TẮT xiii MỤC LỤC xv DANH MỤC CÁC TỪ VIẾT TẮT xix Chương TỔNG QUAN 1 Lý chọn đề tài Mục đích đề tài Nhiệm vụ đề tài Đối tượng phạm vi nghiên cứu 4.1 Đối tượng nghiên cứu 4.2 Phạm vi nghiên cứu Cách tiếp cận phương pháp nghiên cứu Ý nghĩa thực tiễn đề tài Chương CÁC KIẾN THỨC CƠ SỞ 2.1 Các kiến thức 2.1.1 Chuỗi thời gian 2.1.2 Chuỗi 2.1.3 Cửa sổ trượt xv 2.1.4 So trùng mẫu 2.1.4.1 So trùng tầm thường 2.1.4.2 So trùng không tầm thường 2.1.5 Các độ đo tương tự 2.1.5.1 Minkowski 2.1.5.2 Độ đo xoắn thời gian động 2.1.6 Thu giảm số chiều chuỗi thời gian 2.1.6.1 Điều kiện chặn 2.1.6.2 Phương pháp biến đổi Fourier rời rạc 10 2.1.6.3 Phương pháp biến đổi Wavelet rời rạc 11 2.1.6.4 Phương pháp xấp xỉ gộp đoạn 11 2.1.7 Rời rạc hóa chuỗi thời gian 13 2.2 Phát bất thường liệu chuỗi thời gian 14 2.2.1 Các khái niệm 14 2.2.2 Giải thuật phát bất thường theo Vét cạn 15 2.2.3 Tổng quan số phương pháp phát bất thường tiêu biểu 16 Chương 19 PHÁT HIỆN BẤT THƯỜNG DỰA VÀO MA TRẬN KHOẢNG CÁCH 19 3.1 Thực không gian thu giảm 19 3.1.1 Ý tưởng tổng quát 19 3.1.2 Một số định nghĩa 20 3.1.3 Giải thuật SWAMP 22 xvi 3.2 Thực không gian gốc 25 3.2.1 Một số khái niệm 25 3.2.2 Giải thuật 28 Chương 31 ĐÁNH GIÁ BẰNG THỰC NGHIỆM 31 4.1 Môi trường sử dụng cho thực nghiệm 31 4.2 Tập liệu sử dụng cho thực nghiệm 31 4.2.1 Tập liệu mẫu: 31 4.2.2 Tập liệu thực: 32 4.3 Tiêu chí đánh giá 33 4.3.1 Thời gian thực thi: 33 4.3.2 Độ xác: 33 4.4 Các trường hợp thực nghiệm: 33 4.5 Kết thực nghiệm: 34 Chương 53 KẾT LUẬN 53 5.1 Kết đạt 53 5.2 Những vấn đề hạn chế 53 5.3 Hướng phát triển 53 TÀI LIỆU THAM KHẢO 55 PHỤ LỤC I 58 6.1 Cài đặt môi trường: 58 6.2 Hướng dẫn sử dụng: 58 xvii PHỤ LỤC II 60 KẾT QUẢ THỰC NGHIỆM 60 6.3 Các tập liệu điện tâm đồ - ECG 60 6.4 Các tập liệu khác: 64 xviii DANH MỤC CÁC TỪ VIẾT TẮT ANN Artificial Neural Network CNN Convolutional Neural Network EDM Extended Motif Discovery LSTM Long Short Term Memory DTW Dynamic Time Warping DFT Discrete Fourier Transform DWT Discrete Wavelet Transform DNN Deep Neural Network MK Mueen Keogh MDL Minimum Description Length PAA Piecewise Aggregate Approximation PLA Piecewise Linear Aggregate SWAMP Scalable Warping Aware Matrix Profile SCRIMP Scalable Column Independent Matrix Profile SCRIMP++ Scalable Column Independent Matrix Profile Plus Plus ECG ElectroCardioGram xix DANH MỤC HÌNH ẢNH Hình Trang HÌNH 2.1: MINH HỌA VỀ CHUỖI THỜI GIAN BIỂU DIỄN KẾT QUẢ ĐIỆN TÂM ĐỒ - ECG [29] HÌNH 2.2: MÔ TẢ CỬA SỔ TRƯỢT TRÊN CHUỖI THỜI GIAN T [26] HÌNH 2.3: TRÙNG KHỚP GIỮA HAI CHUỖI CON C VÀ M ĐƯỢC TRÍCH TỪ CHUỖI T [26] HÌNH 2.4: SO TRÙNG TẦM THƯỜNG CỦA CHUỖI CON TRONG CHUỖI THỜI GIAN T [26] HÌNH 2.5: MINH HỌA HAI CHUỖI THỜI GIAN TƯƠNG ĐỒNG HÌNH 2.6: MINH HỌA VỀ ĐỘ ĐO XOẮN THỜI GIAN ĐỘNG DYNAMIC TIME WARPING VÀ ĐỘ ĐO EUCLIDEAN [12] HÌNH 2.7: MINH HỌA BIẾN ĐỔI FOURIER RỜI RẠC 10 HÌNH 2.8: CÁC HỆ SỐ WAVELET 11 HÌNH 2.9: MINH HỌA XẤP XỈ GỘP TỪNG ĐOẠN – PAA 12 HÌNH 2.10: MINH HỌA NHƯỢC ĐIỂM CỦA PAA 13 HÌNH 2.11: RỜI RẠC HĨA CHUỖI THỜI GIAN 13 HÌNH 2.12: CHUỖI CON BẤT THƯỜNG [6] 14 HÌNH 3.1: MINH HỌA CHUỖI THỜI GIAN Q VÀ T, HÌNH TRÁI: KHOẢNG CÁCH ED, HÌNH GIỮA: KHOẢNG CÁCH DTW, HÌNH PHẢI LBKEOGH 20 HÌNH 4.1: KẾT QUẢ THỤC NGHIỆM TRÊN TẬP DỮ LIỆU POWER DEMAND CHO CÁC CHUỖI CON: 64, 128, 256, 512 VÀ 1024 36 HÌNH 4.2: KẾT QUẢ THỰC NGHIỆM TRÊN TẬP DỮ LIỆU NEW YORK TAXI VỚI CHIỀU DÀI CHUỖI CON: 64, 128, 256, 512, 1024 39 HÌNH 4.3: KẾT QUẢ THỰC NGHIỆM VỚI TRƯỜNG HỢP ĐỘ LỚN CHUỖI THAY ĐỔI 2000, 4000, 8000, 15000 KHI CHUỖI CON KHÔNG THAY ĐỔI CHIỀU DÀI: 128 44 HÌNH 4.4: KẾT QUẢ THỰC NGHIỆM VỚI TRƯỜNG HỢP ĐỘ LỚN CHUỖI xx 62 Hình 6.2: Ba vị trí bất thường tìm thấy tập liệu Mitdb với chiều dài chuỗi là: 64, 128, 256, 512 63 6.4 Các tập liệu khác: 64 65 Hình 6.3: Ba vị trí bất thường tìm thấy tập liệu UPS với chiều dài chuỗi là: 64, 128, 256, 512, 1024 66 PHÁT HIỆN BẤT THƯỜNG TRÊN CHUỖI THỜI GIAN DỰA VÀO MA TRẬN KHOẢNG CÁCH ANOMALY DETECTION IN TIME SERIES BASED ON DISTANCE MATRIX Nguyễn Văn Thành, Nguyễn Thành Sơn Trường đại học Sư phạm Kỹ thuật TP.HCM TÓM TẮT Trong xu phát triển chung giới, việc ứng dụng khoa học liệu hay khai phá liệu vào phát bất thường, ngoại lệ, ngoại lai, bất hòa, … nhằm phát khác biệt, dị biệt ứng dụng rộng rãi, đặc biệt chuỗi thời gian cho ngành y tế, công nghiệp, khoa học vũ trụ, … Bài toán phát bất thường liệu chuỗi thời gian ma trận khoản cách có hai vấn đề cần giải Thứ phải chọn chiều dài chuỗi hợp lý hiệu Thứ hai tìm kiếm tương tự cách so trùng chuỗi liệu chuổi thời gian để thao tác phát bất thường Ứng dụng giải thuật SCRIMP++ SWAMP thực nghiệm với tập liệu Điện tâm đồ, Tàu thoi, Nhu cầu sử dụng điện Hà Lan, … nhằm thu thập kết so sánh độ xác thời gian thực thi hai giải thuật Qua kết thực nghiệm cho thấy, phụ thuộc nhiều vào tập liệu cho kết SCRIMP++ tối ưu hơn, SWAMP tối ưu thời gian thực thi Từ khóa: Chuỗi thời gian; phát bất thường; ma trận hồ sơ; SCRIMP++; SWAMP ABSTRACT In the general development trend of the world, the application of data science or data mining into the detection of abnormalities, exceptions, outliers, discord in order to detect differences, differences have been and has been widely applied widely used in the medical, industry, space sciences, The problem of anomaly detection on time series data by distance matrix has two main problems to be solved Firstly, you have to choose how much substring length is reasonable to be effective The second looks for similarity by substring matching on the time series data to manipulate anomaly detection Applying SCRIMP++ and SWAMP algorithms on experiments with data sets of Electrocardiogram, Space Shuttle, Electricity demand in the Netherlands, to collect results and compare accuracy and real time test of the above two algorithms Experimental results show that, depending on the dataset, SCRIMP++ is more optimal, but sometimes SWAMP is also more optimal in terms of execution time 67 Keywords: Time series; anomaly detection; matrix profile; SCRIMP++; SWAMP - Một phương pháp phát bất thường GIỚI THIỆU Cuộc cách mạng công nghiệp lần thứ IV Md Rakibul Alam cộng đề xuất mang lại nhiều kết [2] Phương pháp sử dụng để phát thách thức lớn cho ngành khoa học máy tính bất thường liệu chuỗi thời gian nói chung lĩnh vực khai phá liệu nói đơn biến giao thơng Dữ liệu thu thập riêng, đặc biệt liệu có yếu tố thời gian thông qua cảm biến với tập liệu như: tỷ giá ngoại tệ, giá vàng, số chứng thu từ cảm biến lấy trung khoán, dự báo thời tiết, thiên văn học, đo mực vị (median) theo tuần tập liệu nước, điện tâm đồ,… Một khảo sát trung vị gom cụm thuật toán K- hướng nghiên cứu thách thức lớn Means, sử dụng độ đo Dynamic Time lĩnh vực khai phá liệu học máy Warping Dựa kết gom cụm thực Wu Yang[4] năm 2006 kiến thức chuyên gia để xác định bất cho kết 10 hướng nghiên cứu chính, thường nghiên cứu khai phá liệu - Tác giả Max Landauer cộng [3], xếp thứ 10 hướng nghiên cứu thách giới thiệu phương pháp phát bất thức quan trọng Vì khai phá thường động cho liệu log (lịch sử) dựa liệu chuỗi thời gian thu hút quan việc tạo nhiều đồ cụm kết nối chúng tâm nhiều nhà nghiên cứu giới kỹ thuật gom cụm cải tiến Để phát CÁC CƠNG TRÌNH ĐÃ NGHIÊN CỨU LIÊN QUAN hành vi bất thường hệ thống cách phân tích chuỗi thời gian thu thập phù hợp từ Thời gian qua có nhiều cơng trinh việc cho phép theo dõi (tracking) từ nghiên cứu đề xuất thuật toán cho cụm cải tiến tốn phát bất thường chuỗi thời gian Dưới số cơng trình tiêu biểu: PHƯƠNG PHÁP NGHIÊN CỨU Trong cơng trình này, sử dụng hai - Phương pháp phát bất thường dựa phương pháp phát bất thường chuỗi vào phân tích chuỗi thời gian dựa vào mơ thời gian dựa vào ma trận khoảng cách: hình ARMA Jingxiang Qi, cộng đề phương pháp tính không gian thu giảm xuất [1] Phương pháp sử dụng PAA phương pháp thực khơng trình lặp để phát bất thường Trong gian gốc Các phương pháp trình lần lặp thuật toán phải phát bất thường bày phần cách tự động cách chọn 3.1 Phương pháp tính khơng gian tham số mơ hình ARMA tốt 68 diện cho chuỗi thời gian[5] thu giảm PAA 3.1.1 Một số định nghĩa Định nghĩa 1: LB_Keogh chặn hai chuỗi thời gian C, Q, cho độ rộng cửa sổ xoắn w, xác định khoảng cách từ cửa sổ gần chặn đến bao đóng Hình 3.2: Minh họa chuỗi thời gian Q chặn quanh Q đến T theo công thức lấy mẫu xuống theo PAA theo tỉ lệ nén khác (3.1)[5] Hình trái: 4:1, hình phải: 16:1 [5] Như để lấy mẫu xuống chuỗi thời gian, tổng quát LBKeogh theo lấy mẫu liệu xuống sau: LBKeoghD:1 (D>=1) Nơi mà bao đóng (Ui) bao đóng Định nghĩa 3: Lấy mẫu chặn (Li) chuỗi Q đinh nghĩa như: LBKeoghD:1(Q,T) chuỗi thời gian Q chuỗi thời gian khác T xác định khoảng cách từ cửa sổ gần lấy mẫu bao đóng quanh Q, đến lấy mẫu T theo công thức [5]: Hình 3.1: Minh họa chuỗi thời gian Q T, hình trái: khoảng cách ED, hình giữa: khoảng cách DTW, hình phải LBKeogh Ta có: 𝑇_𝐷 = PAA (T, D), 𝑈_𝐷 = PAA Để giảm thời gian tính tốn cận dưới, tác (U𝑄, D), 𝐿_𝐷 = PAA (L𝑄, D) giả sử dụng phương pháp PAA để lấy mẫu xuống (downsampling) Định nghĩa 2: PAA chuỗi thời gian T có chiều dài n tính tốn cách chia chuỗi T thành k cửa sổ tính giá trị trung bình liệu sổ Hình 3.3: Minh họa tham số hóa LBKeogh Những giá trị vec-tơ PAA đại 69 3.1.2 Giải thuật SWAMP Pha 2: Thuật toán SWAMP thực pha [5]: Pha 1: Lưu ý tính chặn mức độ nào, tác giả lược bỏ vị trí cấp thấp hơn, có nghĩa tác giả khơng tính tốn chặn cho vùng Q trình tính tốn chặn mô tả sau: Lưu ý tác giả tối ưu cách thêm 04 bước thực lược bỏ chuỗi khơng cần thiết phải tính khoảng cách DTW dòng 5, dòng 11, dòng 16, dòng 18 3.2 Phương pháp thực không gian gốc 3.2.1 Một số định nghĩa Định nghĩa 4: Một Matrix distances Di [6] tương ứng với chuỗi Ti, m chuỗi thời 70 gian T vectơ khoảng cách Euclide profile index đưa ra: chuỗi cho Ti, m chuỗi Định nghĩa 6: Matrix profile index I [6] chuỗi thời gian T Hoặc chuỗi thời gian T vector số nguyên: Di = [di, 1, di, 2, , di, n-m + 1], di, j I=[I1, I2, … In-m+1], Ii=j di,j = (1≤ j ≤ n - m + 1) khoảng cách Ti, m min(Di) Tj, m Bảng 3.1: Bảng Matrix profile Index Định nghĩa 5: Một Matrix profile P [6] chuỗi thời gian T vector khoảng Euclide chuỗi T lân Vị trí giá trị tối đa cột lưu cận gần T, khái niệm lân cận gần trữ với Matrix profile index có nghĩa hai cặp chuỗi có khoảng Ví dụ, Bảng 3.1, chuỗi bắt đầu cách nhỏ so với chuỗi khác Hay, từ 921 có khoảng cách 177.0 đến hàng xóm P = [max(D1), max(D2),…,max(Dn-m+1)], gần (bất kể đâu) Di (1 ≤ i ≤ n-m+1) Matrix distances Di tương ứng với truy vấn Ti,m chuỗi thời gian T [6] Mối quan hệ khoảng cách ma trận, Matrix distances Matrix profile Mỗi thành phần ma trận khoảng cách di,j khoảng cách Ti,m Tj,m (1 ≤ i, j ≤ n-m+1) chuỗi thời gian T, thể sau: Hình 3.4: Trong matrix profile cần loại bỏ trường hợp so trùng mẫu tầm thường Khu vực DAA xác định khu vực chuỗi so trùng tầm thường.[6] Cơng thức chuẩn hóa z khoảng cách distance di,j hai chuỗi Ti,m Tj,m với công thức [6] sau đây: Chỉ số i Matrix profile P nói khoảng cách Euclide chuỗi Ti, m với hàng xóm gần chuỗi thời gian T Tuy nhiên, khơng nói lên vị trí Trong đó: hàng xóm gần nhất, khái niệm Matrix 71 3.2.2 Giải thuật - Để tối ưu thời gian thực tính khoảng cách cặp chuỗi chuỗi gốc, báo sử dụng giải thuật tính tích chập [6] chuỗi truy vấn Q tất KẾT QUẢ VÀ PHÂN TÍCH THỰC NGHIỆM Bài báo sử dụng 15 tập liệu [8][9] chuỗi T chuẩn để tiến hành thực nghiệm, 10 tập tập Bảng 3.2: Giải thuật tính Tích chập liệu [10] mẫu (biết trước vị trí chuỗi bất thường) tập liệu thực (chưa xác định vị trí chuỗi bất thường) Các tập liệu thu thập từ nhiều lĩnh vực như: y khoa, khoa học vũ trụ, liệu doanh nghiệp từ công nghiệp, … với chiều dài khác 4.1 Thực nghiệm với trường hợp chuỗi thay đổi Hình 3.5: Minh họa tính tích chập Bảng 3.3: Giải thuật Tìm kiếm bất thường khơng gian gốc 72 Hình 4.1: Kết thực nghiệm tập liệu Power Demand cho chuỗi con: 64, 128, 256, 512 1024 Với kết thực nghiệm chạy tập liệu Power Demand, độ dài chuỗi thời gian 35,040, độ dài chuỗi 64, 128, 256, 512, 1024 cho thấy thời gian thực thi giải thuật không gian thu giảm tốt nhất, cụ thể: + Thời gian thực thi Thời gian thực thi giải thuật không gian thu giảm cho kết tốt gấp đôi so với giải thuật khơng gian gốc thể Hình 4.1 Bảng 4.14 + Độ xác Kết sau chạy thực nghiệm cho thấy độ xác giải thuật tốt, hoàn toàn trùng khớp với giải thuật sở BruteForce Kết tương tự cho tập liệu lại 4.2 Thực nghiệm với trường hợp độ lớn chuỗi thay đổi 73 - Sử dụng số tập liệu thực tế ECG, Space Shuttle, Science, … với nhiều trường hợp khác độ dài chuỗi cho thấy thuật toán có kết tương đối xác, thời gian thực thi giải thuật khơng gian gốc có ưu nhiều so với giải thuật không gian thu giảm 5.2 Các mặt hạn chế Hình 4.2: Kết thực nghiệm với trường hợp độ lớn chuỗi thay đổi 2000, 4000, 8000, Khi cài đặt thực nghiệm tập 15000 chuỗi không thay đổi chiều dài: liệu, từ kết cho thấy số hạn 128 chế - Chưa thực nghiệm nhiều tập liệu khác để kết đánh giá Kết vị trí bất thường biểu đồ xác thời gian thực thi thực nghiệm cố định - Thiết bị, tài nguyên giới hạn chuỗi con, thay đổi độ dài chuỗi lớn như: 2000, 4000, 8000, 12000, 15000 ta thấy giải 5.3 Hướng phát triển thuật không gian gốc vượt trội Đề tài thực hai phương pháp để thời gian thực thi thời gian thực thi nhiều xác định chuỗi bất thường, phụ thuộc vào độ dài chuỗi lớn (tại độ dài nhiều hạn chế, hạn chế 15.000) Đặc biệt với kích thước 8.000 giải khắc phục: thuật có thời gian thực thi nhiều hầu - Thực nghiệm nhiều tập liệu hết chuỗi, suy luận đặc tính đặc biệt tập liệu lớn chuỗi thời gian - Cái tiến phương pháp để giải thuật thực KẾT LUẬN thi nhanh 5.1 Kết đạt - Sử dụng tập liệu mẫu với kết - Sử dụng thiết bị chuyên dụng như: kiểm nghiệm từ báo nghiên cứu máy chủ cấu hình phần cứng mạnh, dung lượng lưu trữ nhiều nhằm tối ưu hóa trình cơng bố cho việc so sánh để đánh giá thực thi để kết nhanh chóng tính xác giải thuật TÀI LIỆU THAM KHẢO 74 [1] Jingxiang Qi; Yanjie Chu; Liang He, “Iterative Anomaly Detection Algorithm Based on Time Series Analysis”, 2018 [2] Md Rakibul Alam cộng sự, " Adaptable Anomaly Detection in Traffic Flow Time Series" in SIGMOD, 2018 [19] Moa Samuelsson, “Anomaly Detection In Time Series Data - A practical implementation for pulp and paper industry”,in Master’s thesis in Engineering Mathematics and Computational Science, 2016 [3] Max Landauer, cộng sự, “Time Series Analysis: Unsupervised Anomaly Detection Beyond Outlier Detection”, 2018 [4] Q Yang and X Wu, (2006), “10 Challenging Problems in Data Mining Research”, International Journal of Information Technology and Decision Making, vol 5, pp 597-604 [5] S Alaee, R Mercer, K Kamgar, E Keogh (2020), “Matrix Profile XXII: Exact Discovery of Time Series Motifs under DTW”, in Computer Science - Mathematics 2020 IEEE International Conference on Data Mining (ICDM) 2020 [6] Y Zhu, C.C M Yeh, Z Zimmerman, K Kamgar and E Keogh, "Matrix Profile XI: SCRIMP++: Time Series Motif Discovery at Interactive," in IEEE International Conference on Data Mining (ICDM), 2018 [7] Z Y He, S C Deng and X F Xu, (2005), “An optimization model for outlier detection in categorical data”, Proc of International Conference on Advances in Intelligent Computing, Hefei, China, pp 400-409 [8] Keogh Eamonn, http://www.cs.ucr.edu/~eamonn/discords/ 01.Jul.2020 [9] UCR, "The UCR Matrix Profile Page," [Online] Available: https://www.cs.ucr.edu/~eamonn/MatrixProfile.html 01.Jul.2020 [10] Tập liệu thực tế 01.Mar.2021 https://github.com/numenta/NAB/tree/master/data Giảng viên hướng dẫn Tác giả chịu trách nhiệm viết: Họ tên: Nguyễn Văn Thành Đơn vị: Trường Đại Học Sư Phạm Kỹ Thuật TPHCM Điện thoại: 0932 096 900 TS Nguyễn Thành Sơn Email: 1981308@student.hcmute.edu.vn 75 S K L 0 ... thuật phát bất thường chuỗi thời gian Nhiệm vụ đề tài - Nghiên cứu chuỗi thời gian toán phát bất thường chuỗi thời gian - Nghiên cứu phát bất thường chuỗi thời gian sử dụng ma trận khoảng cách. .. bối cảnh không gian thời gian 18 Chương PHÁT HIỆN BẤT THƯỜNG DỰA VÀO MA TRẬN KHOẢNG CÁCH Trong chương này, hai phương pháp phát bất thường chuỗi thời gian dựa vào ma trận khoảng cách: phương pháp... liệu tính tốn chuỗi thời gian lĩnh vực chuỗi thời gian thủy văn Để phát hiệu 17 bất thường liệu cảm biến thủy văn lớn, phương pháp phát bất thường cho chuỗi thời gian thủy văn dựa thuật toán

Ngày đăng: 09/12/2022, 14:15