(Luận văn thạc sĩ hcmute) phát hiện bất thường trên chuỗi thời gian dựa vào ma trận khoảng cách

101 6 0
(Luận văn thạc sĩ hcmute) phát hiện bất thường trên chuỗi thời gian dựa vào ma trận khoảng cách

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ NGUYỄN VĂN THÀNH PHÁT HIỆN BẤT THƯỜNG TRÊN CHUỖI THỜI GIAN DỰA VÀO MA TRẬN KHOẢNG CÁCH NGÀNH: KHOA HỌC MÁY TÍNH – 8480101 SKC007259 Tp Hồ Chí Minh, tháng 03/2021 Luan van BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ NGUYỄN VĂN THÀNH PHÁT HIỆN BẤT THƯỜNG TRÊN CHUỖI THỜI GIAN DỰA VÀO MA TRẬN KHOẢNG CÁCH NGÀNH: KHOA HỌC MÁY TÍNH - 8480101 Tp Hồ Chí Minh, tháng 03 năm 2021 Luan van BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ NGUYỄN VĂN THÀNH PHÁT HIỆN BẤT THƯỜNG TRÊN CHUỖI THỜI GIAN DỰA VÀO MA TRẬN KHOẢNG CÁCH NGÀNH: KHOA HỌC MÁY TÍNH – 8480101 Hướng dẫn khoa học: TS NGUYỄN THÀNH SƠN Tp Hồ Chí Minh, tháng 03 năm 2021 Luan van i Luan van ii Luan van iii Luan van iv Luan van v Luan van vi Luan van vii Luan van 62 Luan van Hình 6.2: Ba vị trí bất thường tìm thấy tập liệu Mitdb với chiều dài chuỗi là: 64, 128, 256, 512 63 Luan van 6.4 Các tập liệu khác: 64 Luan van 65 Luan van Hình 6.3: Ba vị trí bất thường tìm thấy tập liệu UPS với chiều dài chuỗi là: 64, 128, 256, 512, 1024 66 Luan van PHÁT HIỆN BẤT THƯỜNG TRÊN CHUỖI THỜI GIAN DỰA VÀO MA TRẬN KHOẢNG CÁCH ANOMALY DETECTION IN TIME SERIES BASED ON DISTANCE MATRIX Nguyễn Văn Thành, Nguyễn Thành Sơn Trường đại học Sư phạm Kỹ thuật TP.HCM TÓM TẮT Trong xu phát triển chung giới, việc ứng dụng khoa học liệu hay khai phá liệu vào phát bất thường, ngoại lệ, ngoại lai, bất hòa, … nhằm phát khác biệt, dị biệt ứng dụng rộng rãi, đặc biệt chuỗi thời gian cho ngành y tế, công nghiệp, khoa học vũ trụ, … Bài toán phát bất thường liệu chuỗi thời gian ma trận khoản cách có hai vấn đề cần giải Thứ phải chọn chiều dài chuỗi hợp lý hiệu Thứ hai tìm kiếm tương tự cách so trùng chuỗi liệu chuổi thời gian để thao tác phát bất thường Ứng dụng giải thuật SCRIMP++ SWAMP thực nghiệm với tập liệu Điện tâm đồ, Tàu thoi, Nhu cầu sử dụng điện Hà Lan, … nhằm thu thập kết so sánh độ xác thời gian thực thi hai giải thuật Qua kết thực nghiệm cho thấy, phụ thuộc nhiều vào tập liệu cho kết SCRIMP++ tối ưu hơn, SWAMP tối ưu thời gian thực thi Từ khóa: Chuỗi thời gian; phát bất thường; ma trận hồ sơ; SCRIMP++; SWAMP ABSTRACT In the general development trend of the world, the application of data science or data mining into the detection of abnormalities, exceptions, outliers, discord in order to detect differences, differences have been and has been widely applied widely used in the medical, industry, space sciences, The problem of anomaly detection on time series data by distance matrix has two main problems to be solved Firstly, you have to choose how much substring length is reasonable to be effective The second looks for similarity by substring matching on the time series data to manipulate anomaly detection Applying SCRIMP++ and SWAMP algorithms on experiments with data sets of Electrocardiogram, Space Shuttle, Electricity demand in the Netherlands, to collect results and compare accuracy and real time test of the above two algorithms Experimental results show that, depending on the dataset, SCRIMP++ is more optimal, but sometimes SWAMP is also more optimal in terms of execution time 67 Luan van Keywords: Time series; anomaly detection; matrix profile; SCRIMP++; SWAMP - Một phương pháp phát bất thường GIỚI THIỆU Cuộc cách mạng công nghiệp lần thứ IV Md Rakibul Alam cộng đề xuất mang lại nhiều kết [2] Phương pháp sử dụng để phát thách thức lớn cho ngành khoa học máy tính bất thường liệu chuỗi thời gian nói chung lĩnh vực khai phá liệu nói đơn biến giao thơng Dữ liệu thu thập riêng, đặc biệt liệu có yếu tố thời gian thơng qua cảm biến với tập liệu như: tỷ giá ngoại tệ, giá vàng, số chứng thu từ cảm biến lấy trung khoán, dự báo thời tiết, thiên văn học, đo mực vị (median) theo tuần tập liệu nước, điện tâm đồ,… Một khảo sát trung vị gom cụm thuật toán K- hướng nghiên cứu thách thức lớn Means, sử dụng độ đo Dynamic Time lĩnh vực khai phá liệu học máy Warping Dựa kết gom cụm thực Wu Yang[4] năm 2006 kiến thức chuyên gia để xác định bất cho kết 10 hướng nghiên cứu chính, thường nghiên cứu khai phá liệu - Tác giả Max Landauer cộng [3], xếp thứ 10 hướng nghiên cứu thách giới thiệu phương pháp phát bất thức quan trọng Vì khai phá thường động cho liệu log (lịch sử) dựa liệu chuỗi thời gian thu hút quan việc tạo nhiều đồ cụm kết nối chúng tâm nhiều nhà nghiên cứu giới kỹ thuật gom cụm cải tiến Để phát CÁC CÔNG TRÌNH ĐÃ NGHIÊN CỨU LIÊN QUAN hành vi bất thường hệ thống cách phân tích chuỗi thời gian thu thập phù hợp từ Thời gian qua có nhiều công trinh việc cho phép theo dõi (tracking) từ nghiên cứu đề xuất thuật toán cho cụm cải tiến tốn phát bất thường chuỗi thời gian Dưới số cơng trình tiêu biểu: PHƯƠNG PHÁP NGHIÊN CỨU Trong cơng trình này, sử dụng hai - Phương pháp phát bất thường dựa phương pháp phát bất thường chuỗi vào phân tích chuỗi thời gian dựa vào mơ thời gian dựa vào ma trận khoảng cách: hình ARMA Jingxiang Qi, cộng đề phương pháp tính khơng gian thu giảm xuất [1] Phương pháp sử dụng PAA phương pháp thực khơng trình lặp để phát bất thường Trong gian gốc Các phương pháp trình lần lặp thuật toán phải phát bất thường bày phần cách tự động cách chọn 3.1 Phương pháp tính khơng gian tham số mơ hình ARMA tốt 68 Luan van diện cho chuỗi thời gian[5] thu giảm PAA 3.1.1 Một số định nghĩa Định nghĩa 1: LB_Keogh chặn hai chuỗi thời gian C, Q, cho độ rộng cửa sổ xoắn w, xác định khoảng cách từ cửa sổ gần chặn đến bao đóng Hình 3.2: Minh họa chuỗi thời gian Q chặn quanh Q đến T theo công thức lấy mẫu xuống theo PAA theo tỉ lệ nén khác (3.1)[5] Hình trái: 4:1, hình phải: 16:1 [5] Như để lấy mẫu xuống chuỗi thời gian, tổng quát LBKeogh theo lấy mẫu liệu xuống sau: LBKeoghD:1 (D>=1) Nơi mà bao đóng (Ui) bao đóng Định nghĩa 3: Lấy mẫu chặn (Li) chuỗi Q đinh nghĩa như: LBKeoghD:1(Q,T) chuỗi thời gian Q chuỗi thời gian khác T xác định khoảng cách từ cửa sổ gần lấy mẫu bao đóng quanh Q, đến lấy mẫu T theo cơng thức [5]: Hình 3.1: Minh họa chuỗi thời gian Q T, hình trái: khoảng cách ED, hình giữa: khoảng cách DTW, hình phải LBKeogh Ta có: 𝑇_𝐷 = PAA (T, D), 𝑈_𝐷 = PAA Để giảm thời gian tính tốn cận dưới, tác (U𝑄, D), 𝐿_𝐷 = PAA (L𝑄, D) giả sử dụng phương pháp PAA để lấy mẫu xuống (downsampling) Định nghĩa 2: PAA chuỗi thời gian T có chiều dài n tính tốn cách chia chuỗi T thành k cửa sổ tính giá trị trung bình liệu sổ Hình 3.3: Minh họa tham số hóa LBKeogh Những giá trị vec-tơ PAA đại 69 Luan van 3.1.2 Giải thuật SWAMP Pha 2: Thuật toán SWAMP thực pha [5]: Pha 1: Lưu ý tính chặn mức độ nào, tác giả lược bỏ vị trí cấp thấp hơn, có nghĩa tác giả khơng tính tốn chặn cho vùng Q trình tính tốn chặn mơ tả sau: Lưu ý tác giả tối ưu cách thêm 04 bước thực lược bỏ chuỗi không cần thiết phải tính khoảng cách DTW dịng 5, dòng 11, dòng 16, dòng 18 3.2 Phương pháp thực không gian gốc 3.2.1 Một số định nghĩa Định nghĩa 4: Một Matrix distances Di [6] tương ứng với chuỗi Ti, m chuỗi thời 70 Luan van gian T vectơ khoảng cách Euclide profile index đưa ra: chuỗi cho Ti, m chuỗi Định nghĩa 6: Matrix profile index I [6] chuỗi thời gian T Hoặc chuỗi thời gian T vector số nguyên: Di = [di, 1, di, 2, , di, n-m + 1], di, j I=[I1, I2, … In-m+1], Ii=j di,j = (1≤ j ≤ n - m + 1) khoảng cách Ti, m min(Di) Tj, m Bảng 3.1: Bảng Matrix profile Index Định nghĩa 5: Một Matrix profile P [6] chuỗi thời gian T vector khoảng Euclide chuỗi T lân Vị trí giá trị tối đa cột lưu cận gần T, khái niệm lân cận gần trữ với Matrix profile index có nghĩa hai cặp chuỗi có khoảng Ví dụ, Bảng 3.1, chuỗi bắt đầu cách nhỏ so với chuỗi khác Hay, từ 921 có khoảng cách 177.0 đến hàng xóm P = [max(D1), max(D2),…,max(Dn-m+1)], gần (bất kể đâu) Di (1 ≤ i ≤ n-m+1) Matrix distances Di tương ứng với truy vấn Ti,m chuỗi thời gian T [6] Mối quan hệ khoảng cách ma trận, Matrix distances Matrix profile Mỗi thành phần ma trận khoảng cách di,j khoảng cách Ti,m Tj,m (1 ≤ i, j ≤ n-m+1) chuỗi thời gian T, thể sau: Hình 3.4: Trong matrix profile cần loại bỏ trường hợp so trùng mẫu tầm thường Khu vực DAA xác định khu vực chuỗi so trùng tầm thường.[6] Công thức chuẩn hóa z khoảng cách distance di,j hai chuỗi Ti,m Tj,m với công thức [6] sau đây: Chỉ số i Matrix profile P nói khoảng cách Euclide chuỗi Ti, m với hàng xóm gần chuỗi thời gian T Tuy nhiên, khơng nói lên vị trí Trong đó: hàng xóm gần nhất, khái niệm Matrix 71 Luan van 3.2.2 Giải thuật - Để tối ưu thời gian thực tính khoảng cách cặp chuỗi chuỗi gốc, báo sử dụng giải thuật tính tích chập [6] chuỗi truy vấn Q tất KẾT QUẢ VÀ PHÂN TÍCH THỰC NGHIỆM Bài báo sử dụng 15 tập liệu [8][9] chuỗi T chuẩn để tiến hành thực nghiệm, 10 tập tập Bảng 3.2: Giải thuật tính Tích chập liệu [10] mẫu (biết trước vị trí chuỗi bất thường) tập liệu thực (chưa xác định vị trí chuỗi bất thường) Các tập liệu thu thập từ nhiều lĩnh vực như: y khoa, khoa học vũ trụ, liệu doanh nghiệp từ công nghiệp, … với chiều dài khác 4.1 Thực nghiệm với trường hợp chuỗi thay đổi Hình 3.5: Minh họa tính tích chập Bảng 3.3: Giải thuật Tìm kiếm bất thường khơng gian gốc 72 Luan van Hình 4.1: Kết thực nghiệm tập liệu Power Demand cho chuỗi con: 64, 128, 256, 512 1024 Với kết thực nghiệm chạy tập liệu Power Demand, độ dài chuỗi thời gian 35,040, độ dài chuỗi 64, 128, 256, 512, 1024 cho thấy thời gian thực thi giải thuật không gian thu giảm tốt nhất, cụ thể: + Thời gian thực thi Thời gian thực thi giải thuật không gian thu giảm cho kết tốt gấp đôi so với giải thuật không gian gốc thể Hình 4.1 Bảng 4.14 + Độ xác Kết sau chạy thực nghiệm cho thấy độ xác giải thuật tốt, hoàn toàn trùng khớp với giải thuật sở BruteForce Kết tương tự cho tập liệu lại 4.2 Thực nghiệm với trường hợp độ lớn chuỗi thay đổi 73 Luan van - Sử dụng số tập liệu thực tế ECG, Space Shuttle, Science, … với nhiều trường hợp khác độ dài chuỗi cho thấy thuật tốn có kết tương đối xác, thời gian thực thi giải thuật khơng gian gốc có ưu nhiều so với giải thuật không gian thu giảm 5.2 Các mặt hạn chế Hình 4.2: Kết thực nghiệm với trường hợp độ lớn chuỗi thay đổi 2000, 4000, 8000, Khi cài đặt thực nghiệm tập 15000 chuỗi không thay đổi chiều dài: liệu, từ kết cho thấy số hạn 128 chế - Chưa thực nghiệm nhiều tập liệu khác để kết đánh giá Kết vị trí bất thường biểu đồ xác thời gian thực thi thực nghiệm cố định - Thiết bị, tài nguyên giới hạn chuỗi con, thay đổi độ dài chuỗi lớn như: 2000, 4000, 8000, 12000, 15000 ta thấy giải 5.3 Hướng phát triển thuật không gian gốc vượt trội Đề tài thực hai phương pháp để thời gian thực thi thời gian thực thi nhiều xác định chuỗi bất thường, phụ thuộc vào độ dài chuỗi lớn (tại độ dài nhiều hạn chế, hạn chế 15.000) Đặc biệt với kích thước 8.000 giải khắc phục: thuật có thời gian thực thi nhiều hầu - Thực nghiệm nhiều tập liệu hết chuỗi, suy luận đặc tính đặc biệt tập liệu lớn chuỗi thời gian - Cái tiến phương pháp để giải thuật thực KẾT LUẬN thi nhanh 5.1 Kết đạt - Sử dụng tập liệu mẫu với kết - Sử dụng thiết bị chuyên dụng như: kiểm nghiệm từ báo nghiên cứu máy chủ cấu hình phần cứng mạnh, dung lượng lưu trữ nhiều nhằm tối ưu hóa q trình cơng bố cho việc so sánh để đánh giá thực thi để kết nhanh chóng tính xác giải thuật TÀI LIỆU THAM KHẢO 74 Luan van [1] Jingxiang Qi; Yanjie Chu; Liang He, “Iterative Anomaly Detection Algorithm Based on Time Series Analysis”, 2018 [2] Md Rakibul Alam cộng sự, " Adaptable Anomaly Detection in Traffic Flow Time Series" in SIGMOD, 2018 [19] Moa Samuelsson, “Anomaly Detection In Time Series Data - A practical implementation for pulp and paper industry”,in Master’s thesis in Engineering Mathematics and Computational Science, 2016 [3] Max Landauer, cộng sự, “Time Series Analysis: Unsupervised Anomaly Detection Beyond Outlier Detection”, 2018 [4] Q Yang and X Wu, (2006), “10 Challenging Problems in Data Mining Research”, International Journal of Information Technology and Decision Making, vol 5, pp 597-604 [5] S Alaee, R Mercer, K Kamgar, E Keogh (2020), “Matrix Profile XXII: Exact Discovery of Time Series Motifs under DTW”, in Computer Science - Mathematics 2020 IEEE International Conference on Data Mining (ICDM) 2020 [6] Y Zhu, C.C M Yeh, Z Zimmerman, K Kamgar and E Keogh, "Matrix Profile XI: SCRIMP++: Time Series Motif Discovery at Interactive," in IEEE International Conference on Data Mining (ICDM), 2018 [7] Z Y He, S C Deng and X F Xu, (2005), “An optimization model for outlier detection in categorical data”, Proc of International Conference on Advances in Intelligent Computing, Hefei, China, pp 400-409 [8] Keogh Eamonn, http://www.cs.ucr.edu/~eamonn/discords/ 01.Jul.2020 [9] UCR, "The UCR Matrix Profile Page," [Online] Available: https://www.cs.ucr.edu/~eamonn/MatrixProfile.html 01.Jul.2020 [10] Tập liệu thực tế 01.Mar.2021 https://github.com/numenta/NAB/tree/master/data Giảng viên hướng dẫn Tác giả chịu trách nhiệm viết: Họ tên: Nguyễn Văn Thành Đơn vị: Trường Đại Học Sư Phạm Kỹ Thuật TPHCM Điện thoại: 0932 096 900 TS Nguyễn Thành Sơn Email: 1981308@student.hcmute.edu.vn 75 Luan van S K L 0 Luan van ... thuật phát bất thường chuỗi thời gian Nhiệm vụ đề tài - Nghiên cứu chuỗi thời gian toán phát bất thường chuỗi thời gian - Nghiên cứu phát bất thường chuỗi thời gian sử dụng ma trận khoảng cách. .. cảnh không gian thời gian 18 Luan van Chương PHÁT HIỆN BẤT THƯỜNG DỰA VÀO MA TRẬN KHOẢNG CÁCH Trong chương này, hai phương pháp phát bất thường chuỗi thời gian dựa vào ma trận khoảng cách: phương... liệu tính tốn chuỗi thời gian lĩnh vực chuỗi thời gian thủy văn Để phát hiệu 17 Luan van bất thường liệu cảm biến thủy văn lớn, phương pháp phát bất thường cho chuỗi thời gian thủy văn dựa thuật

Ngày đăng: 02/02/2023, 09:57

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan