1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Phát Hiện Những Điểm Thay Đổi Và Chuỗi Con Bất Thường Trên Dữ Liệu Chuỗi Thời Gian

28 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 28
Dung lượng 801,33 KB

Nội dung

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA HUỲNH THỊ THU THỦY PHÁT HIỆN NHỮNG ĐIỂM THAY ĐỔI VÀ CHUỖI CON BẤT THƯỜNG TRÊN DỮ LIỆU CHUỖI THỜI GIAN Chuyên ngành: Khoa học máy tính Mã số chuyên ngành: 62.48.01.01 TÓM TẮT LUẬN ÁN TIẾN SĨ TP HỒ CHÍ MINH - NĂM 2022 Cơng trình hoàn thành Trường Đại học Bách Khoa – ĐHQG-HCM Người hướng dẫn 1: PGS TS DƯƠNG TUẤN ANH Người hướng dẫn 2: PGS TS VÕ THỊ NGỌC CHÂU Phản biện độc lập: PGS TS Trần Văn Lăng Phản biện độc lập: TS Nguyễn Thị Thanh Sang Phản biện: Phản biện: Phản biện: PGS TS Huỳnh Tường Nguyên PGS TS Đỗ Văn Nhơn PGS TS Lê Trung Quân Luận án bảo vệ trước Hội đồng đánh giá luận án họp phòng 403B4, Đại học Bách Khoa TpHCM vào lúc 30 ngày 07 tháng năm 2022 Có thể tìm hiểu luận án thư viện: - Thư viện Trường Đại học Bách Khoa – ĐHQG-HCM - Thư viện Đại học Quốc gia Tp.HCM - Thư viện Khoa học Tổng hợp Tp.HCM Tạp chí quốc tế 1- H T T Thuy, D T Anh and V T N Chau, "Anomaly repair-based approach to improve time series forecasting, " Intelligent Data Analysis, vol 26, no 2, pp 277-294, 2022 ISI, SCIE, IF = 0.860 [CT01] 1- H T T Thuy, D T Anh and V T N Chau, "Efficient segmentation-based methods in static and streaming time series under dynamic time warping," Journal of Intelligent Information Systems, vol 56, no 1, pp.121-146, 2021 ISI, SCIE, IF = 1.813 [CT02] Kỷ yếu hội nghị quốc tế 1- H T T Thuy, D T Anh, and V T N Chau, "A new discord definition and an efficient time series discord detection method using GPUs," In 2021 3rd International Conference on Software Engineering and Development (ICSED), Xiamen, China, 19-21 November, pp 63-70, 2021 [CT03] 2- H T T Thuy, D T Anh, and V T N Chau, "Segmentation-based methods for top-k discords detection in static and streaming time series under Euclidean distance," In International Conference on Context-Aware Systems and Applications (ICCASA), 28-29 October, pp 147-163, 2021 Springer, Cham [CT04] 3- H T T Thuy, D T Anh, and V T N Chau, "Incremental Clustering for Time Series Data Based on an Improved Leader Algorithm,” In 2019 IEEERIVF International Conference on Computing and Communication Technologies (RIVF), Da Nang, Vietnam, 20 March, , pp 1-6, 2019 IEEE [CT05] 4- H T T Thuy, D T Anh and V T N Chau, "A Novel Method for Time Series Anomaly Detection based on Segmentation and Clustering," In 2018 10th International Conference on Knowledge and Systems Engineering (KSE), Ho Chi Minh, Vietnam, 1-3 November, pp 276-281, 2018 IEEE [CT06] 5- H T T Thuy, D T Anh and V T N Chau, "Comparing Three Time Series Segmentation Methods via Novel Evaluation Criteria," In 2017 2nd International conferences on Information Technology, Information Systems and Electrical Engineering (ICITISEE), Yogyakarta, Indonesia, 1-3 November, pp 171-176, 2017 [CT07] 6- H T T Thuy, D T Anh and V T N Chau, "An effective and efficient hash-based algorithm for time series discord discovery," In 2016 3rd National Foundation for Science and Technology Development Conference on Information and Computer Science (NICS), Da Nang, Vietnam, 14-16 September, pp 85-90, 2016 IEEE [CT08] 7- H T T Thuy, D T Anh and V T N Chau, "Some Efficient SegmentationBased Techniques to Improve Time Series Discord Discovery," In International Conference on Nature of Computation and Communication (ICTCC), Kien Giang, Vietnam, 17-18 March, pp 179-188, 2016 Springer, Cham [CT09] CHƯƠNG GIỚI THIỆU Động nghiên cứu đề tài Giới thiệu ngữ cảnh Bài toán giải ngữ cảnh liệu chuỗi thời gian dạng tĩnh ngữ cảnh liệu chuỗi thời gian dạng luồng Giới thiệu toán Bài toán cần nghiên cứu toán phát chuỗi bất thường liệu chuỗi thời gian (time series data) Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu đề tài phát bất thường liệu chuỗi thời gian dạng tĩnh (static time series) chuỗi thời gian dạng luồng (streaming time series) Trong đó, giá trị điểm liệu chuỗi thời gian số thực trình bày Định nghĩa 2.1 Phạm vi nghiên cứu đề tài giải toán phát chuỗi bất thường liệu chuỗi thời gian Đề tài tập trung vào chuỗi thời gian đơn biến (univariate time series) chuỗi tìm hướng chuỗi ngắn Giới thiệu cơng trình liên quan trạng giải Thách thức trội tốn khám phá bất thường tìm chiều dài chuỗi bất thường phù hợp Các công trình tiếng [4], [5], [37] chưa thể vượt qua thách thức Kể cơng trình gần năm 2019 [38] năm 2021 [39] chưa vượt qua thách thức Ngoài ra, có thách thức khác xuất gần hơn, việc phát chuỗi bất thường liệu chuỗi thời gian có kích thước lớn liệu chuỗi thời gian dạng luồng [40] Năm 2018, Châu cộng đề xuất giải pháp HS-Squeezer-Stream sử dụng hướng tiếp cận dựa vào cửa sổ trượt để phát bất thường liệu chuỗi thời gian dạng luồng đề xuất có chi phí thời gian cao [41] Dựa vào cơng trình Chandola cộng năm 2009 [20], cơng trình Cheboli năm 2010 [21], cơng trình Braei Wagner năm 2020 [22], luận án đúc kết lại có hướng tiếp cận để giải toán phát bất thường sau: 1- Hướng tiếp cận dựa vào cửa sổ trượt (Window – based): Nhược điểm cần phải xác định trước chiều dài chuỗi bất thường cần tìm Đây chiều dài cửa sổ trượt 2- Hướng tiếp cận dựa vào dự báo (Prediction – based): Khó khăn thứ cần xác định chiều dài lịch sử liệu để dự báo Việc xác định chiều dài lịch sử liệu không phù hợp ảnh hưởng đến kết dự báo Khó khăn thứ hai việc xác định giá trị ngưỡng để kết luận liệu bất thường hay không Nếu giá trị ngưỡng nhỏ số lượng dương sai (false positive, lỗi loại I) lớn Nếu giá trị ngưỡng lớn số lượng âm sai (false negative, lỗi loại II) lớn 3- Hướng tiếp cận dựa vào phân lớp (Classification – based): Các chuỗi chuỗi thời gian chia thành hai lớp bình thường hay bất thường Đây hướng tiếp cận học có giám sát Nhược điểm hướng tiếp cận dựa vào phân lớp liệu cần phải gán nhãn trước bình thường hay bất thường Tuy nhiên, điều khơng dễ có có chi phí q đắt [24] 4- Hướng tiếp cận dựa vào phân đoạn (Segmentation - based): Trước hết chuỗi thời gian chia thành phân đoạn (segment) Sau đó, sử dụng số kỹ thuật phát bất thường phù hợp để xác định đoạn bất thường đoạn Điểm khó hướng tiếp cận dựa vào phân đoạn làm phân đoạn chuỗi thời gian cho hiệu Sau đó, từ phân đoạn phân chia này, sử dụng bước phù hợp để tìm phân đoạn bất thường Khó khăn khắc phục dễ dàng với giải thuật phân đoạn chuỗi thời gian hiệu [25], [26], [27] Với hiệu giải thuật phân đoạn chuỗi thời gian, việc phát bất thường theo hướng phân đoạn hữu hiệu Kết nghiên cứu dẫn đến định hướng nghiên cứu luận án áp dụng hướng tiếp cận dựa vào phân đoạn nhằm khắc phục thách thức toán phát chuỗi bất thường liệu chuỗi thời gian Ý nghĩa khoa học ý nghĩa thực tiễn đề tài Ý nghĩa khoa học đề tài nghiên cứu Đóng góp luận án tìm giải pháp hiệu cho toán phát chuỗi bất thường liệu chuỗi thời gian đặc biệt liệu chuỗi thời gian có kích thước lớn liệu chuỗi thời gian dạng luồng Giải pháp chọn theo hướng tiếp cận từ kết đạt tốn tìm điểm thay đổi không yêu cầu người dùng xác định chiều dài chuỗi bất thường Một đóng góp quan trọng luận án hỗ trợ cho toán khai phá liệu chuỗi thời gian khác như: toán dự báo (forecasting), toán làm liệu (data cleaning) Ý nghĩa thực tiễn đề tài nghiên cứu Bài tốn phát bất thường có ứng dụng như: phát nhịp tim bất thường [48], [49]; tìm kiếm hình dạng khơng bình thường sở liệu hình ảnh lớn [50]; sử dụng hệ thống giám sát mực nước đập thủy điện [51], sử dụng hệ thống giám sát lượng liệu lưu thông mạng liệu (data network) [52] Tóm lại, phát chuỗi bất thường liệu chuỗi thời gian ứng dụng phổ biến nhiều lĩnh vực: tài chính, kinh tế [11], [12], giải trí, nghệ thuật, khoa học kỹ thuật [50], [53], [54], y khoa [48], [49], thời tiết [7], [55], [9], [46], khí tượng thủy văn [51], [8], [10], [47], môi trường [56], giám sát mạng liệu [52] Mục tiêu, đối tượng phạm vi nghiên cứu Mục tiêu luận án: - Đề xuất giải pháp để phát hiệu chuỗi bất thường liệu chuỗi thời gian dạng tĩnh - Đề xuất giải pháp để phát hiệu chuỗi bất thường liệu chuỗi thời gian dạng luồng (còn gọi xử lý online) Đối tượng nghiên cứu đề tài phát bất thường liệu chuỗi thời gian dạng tĩnh (static time series) chuỗi thời gian dạng luồng (streaming time series) Phạm vi nghiên cứu đề tài giải toán phát chuỗi bất thường liệu chuỗi thời gian mở rộng sang giải toán phát k chuỗi bất thường liệu chuỗi thời gian Các đóng góp luận án - Chương 3: Đề xuất độ đo PALS (Percentage of Average Length Segments): Đánh giá phương pháp phân đoạn [CT07] - Chương 4: Trình bày 03 đề xuất cải tiến cho phương pháp phát bất thường HOT SAX Brute-Force dựa vào hướng tiếp cận cửa sổ trượt gồm: i- Đề xuất cải tiến giải thuật I-HOTSAX (Improved - HOT SAX): Giảm độ khó cho việc thiết lập tham số tăng tốc giải thuật HOT SAX [CT09] ii- Đề xuất cải tiến giải thuật Hash_DD (Hash-based algorithm for Time series Discord Discovery): Sử dụng bảng băm nhằm cải thiện chi phí nhớ tăng tốc giải thuật HOT SAX [CT08] iii- Đề xuất cải tiến giải thuật KBF_GPU: Sử dụng kỹ thuật lập trình song song nhằm tăng tốc giải thuật KBF - cải biên Brute-Force nhằm phát chuỗi bất thường có xuất bất thường đôi (twin freak) [CT03] - Chương 5: Trình bày 01 đề xuất cải tiến giải thuật gom cụm hỗ trợ cho toán phát bất thường 03 đề xuất phương pháp phát bất thường dựa vào phân đoạn chuỗi thời gian dạng tĩnh dạng luồng với độ đo Euclid gồm: i- Đề xuất giải thuật I-Leader: Một cải tiến từ giải thuật gom cụm Leader cho toán gom cụm chuỗi [CT05] ii- Đề xuất giải thuật EP-ILeader: Phát chuỗi bất thường chuỗi thời gian dạng tĩnh theo hướng tiếp cận dựa vào phân đoạn [CT06] iii- Đề xuất giải thuật TopK-EP-ALeader: Phát k chuỗi bất thường chuỗi thời gian dạng tĩnh theo hướng phân đoạn [CT04] iv- Đề xuất giải thuật TopK-EP-ALeader-S: phát k chuỗi bất thường chuỗi thời gian dạng luồng theo hướng phân đoạn [CT04] - Chương 6: Trình bày 02 đề xuất phát bất thường dựa vào phân đoạn chuỗi thời gian dạng tĩnh dạng luồng với khoảng cách DTW gồm: i- Đề xuất giải thuật EP-Leader-DTW: Phát chuỗi bất thường chuỗi thời gian dạng tĩnh với khoảng cách DTW theo hướng phân đoạn [CT02] ii- Đề xuất giải thuật SEP-Leader-DTW: Phát chuỗi bất thường chuỗi thời gian dạng luồng với độ đo DTW theo hướng phân đoạn [CT02] - Chương 7: Trình bày đề xuất hướng tiếp cận EPL_S_X: Cải thiện chất lượng dự báo cho phương pháp dự báo liệu chuỗi thời gian dựa vào phát bất thường khử bất thường [CT01] CHƯƠNG CƠ SỞ LÝ THUYẾT VÀ CÁC CƠNG TRÌNH LIÊN QUAN 2.1 2.1.1 Định nghĩa Định nghĩa 2.1 Dữ liệu chuỗi thời gian Một chuỗi T = (t1,…, tm) có thứ tự gồm m giá trị thực [1] ghi nhận thời điểm theo thời gian gọi liệu chuỗi thời gian (time series data) [2] 2.1.2 Định nghĩa 2.2 Dữ liệu chuỗi thời gian dạng luồng Một chuỗi quan sát T = (t1,…,t) ghi nhận nhiều thời điểm khác nhau, cách đến liên tục theo thứ tự thời gian gọi chuỗi thời gian dạng luồng (streaming time series data) [19] 2.1.3 Định nghĩa 2.3 Chuỗi Cho chuỗi thời gian T có chiều dài m, chuỗi (Subsequence) S T mẫu gồm n vị trí liên tục lấy từ T với n < m Khi S = tp,…, + n - với ≤ p ≤ m – n + 2.1.4 Định nghĩa 2.4 Trùng khớp không tầm thường Cho chuỗi thời gian T chứa chuỗi C bắt đầu vị trí p với chiều dài n chuỗi trùng khớp M bắt đầu vị trí q, ta nói M trùng khớp không tầm thường (non-self match) C |p − q| ≥ n 2.1.5 Định nghĩa 2.5 Chuỗi bất thường Giả sử chuỗi thời gian rút trích thành phân đoạn (chuỗi con), phân đoạn đưa vào hai tập: tập chuỗi bình thường tập chuỗi bất thường Tập chuỗi bình thường bao gồm chuỗi có tương đồng mặt hình dạng Những chuỗi không đủ điều kiện để đưa vào tập chuỗi bình thường xếp vào tập chuỗi bất thường 2.1.6 Định nghĩa 2.6 Chuỗi bất thường Cho chuỗi thời gian T, chuỗi C T xem chuỗi bất thường (còn gọi 1-discord top-1 discord) T C có khoảng cách xa đến chuỗi trùng khớp không tầm thường gần (Hình 2.1) Hình 2.1: Chuỗi bất thường (màu đỏ) chuỗi thời gian điện tâm đồ - ECG 2.1.7 Định nghĩa 2.7 Chuỗi bất thường thứ k Cho chuỗi thời gian T, chuỗi D có chiều dài n bắt đầu vị trí p chuỗi bất thường thứ k (kth - discord) T D có khoảng cách lớn thứ k đến chuỗi trùng khớp không tầm thường gần khơng có chồng lên đến chuỗi bất thường thứ ith bắt đầu vị trí thứ pi, với ≤ i ≤ k Nghĩa |p − pi| ≥ n [5] 2.1.8 Điểm thay đổi Định nghĩa 2.8 Điểm thay đổi (change point) điểm mà tính chất liệu thay đổi cách đột ngột Định nghĩa 2.9 Điểm thay đổi điểm kết nối hai phân đoạn kế cận 2.2 Độ đo khoảng cách Trong luận án sử dụng độ đo tính khoảng cách Euclid khoảng cách xoắn thời gian động (Dynamic Time Warping - DTW) 2.3 Thu giảm số chiều Phương pháp thu giảm số chiều (Dimensionality Reduction) cách thức biểu diễn lại chuỗi thời gian X = {x1, x2,…,xm} thành chuỗi liệu Y = {y1, y2, , yk}, với k hệ số biến đổi k < m Sau phương pháp thu giảm số chiều sử dụng luận án 2.3.1 Phương pháp xấp xỉ gộp đoạn Phương pháp xấp xỉ gộp đoạn (Piecewise Aggregate Approximation - PAA) thực xấp xỉ k điểm giá trị liền kề thành giá trị trung bình cộng k điểm Quá trình thực từ trái sang phải kết cuối ta đường dạng bậc thang 2.4 Rời rạc hóa liệu Dữ liệu chuỗi thời gian thường liệu liên tục có chiều dài lớn nên ta cần chia liệu thành đoạn rời rạc nhỏ ký hiệu hóa đoạn dựa vào đặc trưng chúng, từ giúp cho việc phân tích tính tốn dễ dàng hơn, trình gọi trình rời rạc hóa (discretization) Sau phương pháp xấp xỉ gộp ký hiệu hoá sử dụng luận án 2.4.1 Phương pháp xấp xỉ gộp ký hiệu hóa Phương pháp biểu diễn chuỗi thời gian chuỗi bit (bit string) dùng ký tự để biểu diễn nên thường hết đặc tính liệu Do đó, J - Đóng góp khác: Cách tính khoảng cách chuỗi I-HOTSAX: Trong giải thuật HOT SAX, việc chuyển đổi chuỗi thành từ SAX ngụ ý cho việc sử dụng khoảng cách MINDIST hai từ SAX, đưa giải thuật [76] Bên cạnh cách tính khoảng cách hai từ SAX, cịn cách tính khác tham chiếu trở lại hai chuỗi chuỗi thời gian ban đầu tương ứng với hai từ SAX tính khoảng cách Euclid hai chuỗi Nhờ cách tính khoảng cách Euclid hai chuỗi con, I-HOTSAX đạt độ xác tốt so với HOT SAX dùng cách tính thứ 4.3 Giải thuật cải tiến Hash_DD Giải thuật phát chuỗi bất thường Hash_DD (Hash-based algorithm for Time series Discord Discovery) cải tiến so với HOT SAX điểm sau: - Kế thừa đặc điểm từ I-HOTSAX: tự động ước lượng chiều dài chuỗi chiều dài từ SAX, trượt cửa sổ qua đoạn PAA thay cho cách trượt cửa sổ truyền thông qua điểm, sử dụng cách tính khoảng cách Euclid hai chuỗi thay cho khoảng cách MINDIST - Sử dụng cấu trúc bảng băm (hình 4.1) thay cho gia tố (augment trie) Hình 4.1: Cấu trúc bảng băm hỗ trợ vòng lặp vòng lặp Hash_DD Với giải thuật Hash_DD, chuỗi dạng tràng kí tự SAX băm vào bảng băm Những chuỗi giống băm vào thùng bảng băm Mỗi thùng bảng băm chứa chuỗi dạng tràng kí tự (cịn gọi từ SAX) 10 số lần xuất chuỗi thùng băm Hai vịng lặp có heuristic Hash_DD hoạt động sau: - Vịng lặp ngồi: Sau bảng băm xây dựng, chuỗi có số lần xuất nhỏ xem xét vịng lặp ngồi chuỗi có số lần xuất lớn khơng xem xét vịng lặp ngồi - Vịng lặp trong: Thứ tự chuỗi vòng lặp thứ tự chuỗi mà chúng tìm thấy duyệt qua thùng bảng băm theo thứ tự tăng dần số lần xuất chuỗi Bên cạnh đó, vịng lặp trong, thực khơng cần phải tìm lân cận thực gần với chuỗi ứng viên Ngay tìm thấy chuỗi gần giống với chuỗi ứng viên so với giá trị best_so_far_dist (nghĩa chuỗi hội trở thành chuỗi bất thường cần tìm), vịng lặp kết thúc sớm, điều an tồn chuỗi ứng viên chuỗi bất thường 4.4 Giải thuật cải tiến KBF_GPU Định nghĩa 4.1: Khoảng cách K (K-distance): Cho số dương K (K < |T| – n + 1, với n chiều dài chuỗi chuỗi thời gian T), khoảng cách K chuỗi Sp, kí hiệu K-dist(Sp) định nghĩa tổng khoảng cách từ chuỗi Sp đến K chuỗi trùng khớp không tầm thường gần Định nghĩa 4.2: Chuỗi bất thường theo khoảng cách K (K-distance discord): Cho chuỗi thời gian T, chuỗi Sd có chiều dài n bắt đầu vị trí d gọi chuỗi bất thường theo khoảng cách K T Sd có khoảng cách K lớn số khoảng cách K tất chuỗi T Nghĩa là, chuỗi Sc có chiều dài n bắt đầu vị trí c T, |d – c| ≥ n, K-dist(Sd)  Kdist(Sc) Tìm kiếm chuỗi bất thường theo khoảng cách K: Theo tinh thần giải thuật Brute-Force [5], để tìm chuỗi bất thường theo khoảng cách K, giải thuật Brute-Force hiệu chỉnh thành giải thuật với tên gọi KBF (Brute-Force for K-distance discord) 11 Tăng tốc giải thuật KBF với GPU Phiên song song đề xuất cho KBF đặt tên KBF_GPU (Brute-Force for K-distance discord using GPU) gồm bước: - Bước 1: CPU chép toàn chuỗi thời gian vào nhớ GPU - Bước 2: Ứng với chuỗi ứng viên Cp vị trí p vịng lặp ngồi (outer loop), CPU gọi thực hàm kernel GPU Mỗi tiến trình kernel thực cho chuỗi ứng viên để tính tất khoảng cách từ chuỗi ứng viên Cp đến chuỗi trùng khớp khơng tầm thường Tiến trình kernel lưu tất khoảng cách tính vào mảng có tên List-Dist Kết thúc tiến trình kernel, mảng List-Dist chép trở lại vào CPU - Bước 3: CPU xác định K khoảng cách từ chuỗi xét đến K lân cận trùng khớp khơng tầm thường lưu vào mảng Array-K CPU tính khoảng cách K chuỗi dựa vào mảng Array-K xác định chuỗi bất thường chuỗi có khoảng cách K lớn Mỗi tiến trình kernel dùng cho chuỗi ứng viên Cp vị trí p vịng lặp ngồi Khi cần (|T| – n + 1) tiến trình kernel để thực cơng việc tính tốn cho giải thuật KBF_GPU Vậy, độ phức tạp giải thuật KBF_GPU O(|T|) Ngoài ra, KBF_GPU không cần người sử dụng xác định trước chiều dài chuỗi bất thường Thay vào đó, KBF_GPU tự động xác định giá trị chiều dài phù hợp cho chuỗi bất thường dựa vào giải thuật phát điểm cực trị quan trọng Điều làm cho KBF_GPU dễ sử dụng so với phương pháp dựa cửa sổ đánh giá trước để phát chuỗi bất thường chuỗi thời gian 4.5 Đánh giá giải thuật cải tiến - Giải thuật I-HOTSAX Hash_DD phát chuỗi bất thường xác Giải thuật I-HOTSAX thực thi nhanh gấp 2,8 lần so với HOT SAX Hash_DD nhanh gấp 8,24 lần so với HOT SAX - Giải thuật KBF_GPU:  Tính xác: Khi chuỗi thời gian có bất thường đơi (twin freak) hình 4.2, KBF_GPU phát xác số hai chuỗi bất thường 12 giống Trong Brute-Force [5] khơng tìm chuỗi số hai chuỗi bất thường Trong trường hợp chuỗi bất thường xuất lần, chuỗi bất thường KBF_GPU Brute-Force tìm tập liệu thực nghiệm Hình 4.2: Chuỗi bất thường (đoạn màu đỏ) tìm Brute-Force KBF_GPU  Tính hữu hiệu thời gian thực thi: Giải thuật KBF_GPU nhanh gấp 10.216 lần so với giải thuật KBF KBF_GPU nhanh gấp 28 lần so với giải thuật HOT SAX Với tập liệu 3.000 điểm, giải thuật KBF_GPU thực thi thời gian tính miligiây Từ cho thấy KBF_GPU có tiềm áp dụng cho liệu dạng luồng CHƯƠNG ĐỀ XUẤT CÁC PHƯƠNG PHÁP PHÁT HIỆN CHUỖI CON BẤT THƯỜNG NHẤT DỰA VÀO PHÂN ĐOẠN VỚI ĐỘ ĐO EUCLID 5.1 Phát chuỗi bất thường 5.1.1 Giải thuật đề xuất cải tiến I-Leader cho toán gom cụm chuỗi Giải thuật I-Leader sử dụng cho toán gom cụm gia tăng Ở đây, ngụ ý việc gia tăng điểm liệu đến liên tục điểm cũ bị xóa Các điểm liệu xem xét điểm nằm vùng đệm xoay vòng - nơi chứa điểm liệu đến thay cho điểm cũ Giải thuật gom cụm gia tăng I-Leader cho chuỗi thời gian gồm ý tưởng sau: i/ I-Leader sử dụng “centroid” thay “leader” để làm phần tử đại diện cụm ii/ I-Leader tính tâm cụm (centroid) theo cách tính gia tăng 13 iii/ Chất lượng gom cụm trì tốt lần cập nhật cụm cách kiểm tra loại cụm 5.1.2 Giải thuật đề xuất EP-ILeader cho toán phát chuỗi bất thường liệu chuỗi thời gian tĩnh Ý tưởng chính: Hai giải thuật phổ biến cho khám phá bất thường chuỗi thời gian tĩnh Brute-Force HOT SAX [5] dựa vào cửa sổ trượt Vì vậy, hai giải thuật có độ phức tạp thời gian cao Một cách khác biệt, EP-ILeader (Extreme Points and Improved Leader) hiệu cho toán phát bất thường chuỗi thời gian tĩnh EP-ILeader sử dụng phương pháp điểm cực trị quan trọng giải thuật gom cụm gia tăng I-Leader Nghĩa EP-ILeader làm việc theo hướng tiếp cận phân đoạn gom cụm không cần tham số chiều dài chuỗi bất thường Ý tưởng hướng tiếp cận sau: Trước tiên, chuỗi thời gian phân đoạn thành nhiều chuỗi dựa vào điểm cực trị quan trọng Sau đó, sử dụng giải thuật gom cụm để gom chuỗi vào cụm Tiếp đến, chuỗi tính hệ số bất thường cuối chuỗi có hệ số bất thường lớn chuỗi bất thường cần tìm 5.1.3 Đánh giá giải thuật phát chuỗi bất thường A- Đánh giá giải thuật gom cụm cải tiến I-Leader - Chất lượng gom cụm: Tốt Leader k-Means - Tính hữu hiệu I-Leader: I-Leader thực thi nhanh Leader k-Means B- Đánh giá giải thuật EP-ILeader phát chuỗi bất thường -Tính xác: Chuỗi bất thường EP-ILeader tìm trùng khớp với chuỗi bất thường giải thuật sở Brute-Force tìm -Tính hữu hiệu thời gian thực thi: EP-ILeader thực thi nhanh gấp 2794 lần so với giải thuật HOT SAX Hơn nữa, EP-ILeader phát bất thường tập liệu hàng trăm ngàn điểm với tốc độ tính mili giây 5.2 5.2.1 Phát k chuỗi bất thường Giới thiệu vấn đề 14 Việc tìm k chuỗi bất thường chuỗi thời gian quan trọng tìm chuỗi bất thường tập k chuỗi bất thường không chứa chuỗi bất thường mà chứa nhiều chuỗi bất thường quan trọng khác Nó làm cho kết chứa nhiều thông tin đầy đủ 5.2.2 Các kỹ thuật hỗ trợ A- Tăng tốc tính khoảng cách Euclid cho giải thuật gom cụm I-Leader Sử dụng hai kỹ thuật tăng tốc lấy cảm hứng từ kỹ thuật tăng tốc UCR-ED giới thiệu Rakthanmanon cộng năm 2012 [33]:  Sử dụng Khoảng cách Bình phương ED sử dụng phép tính bậc hai Tuy nhiên, bỏ qua bước này, thứ hạng tương đối chuỗi so sánh khơng thay đổi, hàm ED đơn điệu lõm [97] Hơn nữa, vắng mặt hàm bậc hai làm cho việc tính tốn ED nhanh  Từ bỏ sớm cho ED Trong trình tính tốn ED, tổng khác biệt bình phương cặp điểm liệu tương ứng (xi - yi) (i = kz, kz < n) vượt giá trị ngưỡng  giải thuật gom cụm Leader, ngừng việc tính tốn B- Giải thuật gom cụm A-Leader A-Leader phiên cải thiện từ I-Leader cho toán gom cụm Giải thuật A-Leader khác giải thuật gom cụm I-Leader giai đoạn tính khoảng cách từ chuỗi Si đến cụm Cj để định chọn cụm Cj phù hợp cho chuỗi Si Giải thuật A-Leader có sử dụng thêm kỹ thuật từ bỏ sớm để tăng tốc Giá trị ngưỡng cho việc tăng tốc tính khoảng cách ED ngưỡng  giải thuật gom cụm I-Leader C- Giải thuật phát chuỗi bất thường EP-ALeader EP-ALeader phiên cải tiến từ giải thuật EP-ILeader Nhìn chung, giải thuật EP-ALeader khác giải thuật EP-ILeader bước sử dụng giải thuật gom cụm ALeader thay cho giải thuật gom cụm I-Leader EP-ILeader 5.2.3 Các giải thuật đề xuất A- Đề xuất giải thuật TopK-EP-ALeader phát k chuỗi bất thường chuỗi thời gian dạng tĩnh TopK-EP-ALeader phiên mở rộng giải thuật EP-ALeader Giải thuật 15 TopK-EP-ALeader gồm bốn bước giống giải thuật EP-ALeader Điểm khác biệt giải thuật TopK-EP-ALeader giải thuật EP-ALeader bước 4, giải thuật TopK-EP-ALeader cho kết k chuỗi bất thường chuỗi có hệ số bất thường lớn đến thứ k giải thuật EP-ALeader trả chuỗi bất thường chuỗi có hệ số bất thường lớn Nhờ diện hệ số bất thường, việc TopK-EP-ALeader trả k chuỗi bất thường khơng gây thêm chi phí tính tốn B- Đề xuất giải thuật TopK-EP-ALeader-S phát k chuỗi bất thường chuỗi thời gian dạng luồng TopK-EP-ALeader-S phiên mở rộng TopK-EP-ALeader nhằm áp dụng cho chuỗi thời gian dạng luồng Các tính mở rộng TopK-EP-ALeader-S nhằm vượt qua thách thức việc tìm k chuỗi bất thường liệu chuỗi thời gian dạng luồng Chi tiết giải thuật trình bày sau - Để sử dụng TopK-EP-ALeader-S, cửa sổ di chuyển (moving window) định nghĩa để chứa chuỗi thời gian theo ngữ cảnh luồng Trong cửa sổ này, đoạn chuỗi thời gian dạng luồng lưu trữ theo thời gian Chỉ điểm liệu đến chứa cửa sổ Cửa sổ di chuyển thường thực dạng vùng đệm xoay vòng (circular buffer) - Ngoài ra, TopK-EP-ALeader-S làm việc theo chiến lược cập nhật trễ (delayed update) thay cho chiến lược cập nhật tức để tăng tính hữu hiệu Nhờ vào chiến lược trễ này, có điểm cực trị đến TopK-EP-ALeader-S bắt đầu thực tìm k chuỗi bất thường thay cho việc điểm liệu đến phải tìm k chuỗi bất thường 5.2.4 Đánh giá giải thuật phát k chuỗi bất thường - Giải thuật A-Leader thực thi nhanh I-Leader bình quân 1,37 lần - Giải thuật EP-ALeader thực thi nhanh EP-ILeader bình quân 16,7 lần - Giải thuật TopK-EP-ALeader thực thi nhanh TopK-EP-ILeader bình qn 1,9 lần Trong đó, TopK-EP-ILeader giải thuật tìm k chuỗi bất thường dựa vào giải thuật EP-ILeader, TopK-EP-ALeader giải thuật tìm k chuỗi bất 16 thường dựa vào giải thuật EP-ALeader Thực nghiệm cho thấy giải thuật TopKEP-ALeader cho kết phát bất thường xác Đánh giá giải thuật TopK-EP-ALeader-S: Về tính xác: Các chuỗi bất thường TopK-EP-ALeader-S tìm khớp với chuỗi bất thường chuyên gia đánh dấu Tính đáp ứng tức thời: - Đối với liệu điện POWER, tần suất ghi nhận liệu ghi nhận lần Vì vậy, thời gian đáp ứng cần cho điểm liệu đến liệu POPWER Trong đó, TopK-EP-ALeader-S có thời gian đáp ứng cho điểm liệu đến mili giây liệu điện Xét trường hợp nhanh nhất, điểm liệu đến điểm cực trị tốc độ TopK-EPALeader-S nhanh gấp 514.286 lần so với tốc độ truyền liệu POWER - Đối với liệu điện tâm đồ ECG, chu kỳ nhịp tim giây Mỗi điểm cực trị tương ứng với nửa chu kỳ nhịp tim (nửa chuỗi con) TopK-EP-ALeader-S phát k chuỗi bất thường khoảng thời gian mili giây Như vậy, tốc độ phát bất thường TopK-EP-ALeader-S nhanh gấp 83 lần so với tốc độ truyền liệu ECG Kết luận: Phân tích cho thấy giải thuật TopK-EP-ALeader-S phát k chuỗi bất thường chuỗi thời gian dạng luồng đáp ứng yêu cầu truyền thực tế liệu điện điện tâm đồ Ngoài ra, thực nghiệm cho thấy giải thuật TopK-EP-ALeader-S cho kết phát bất thường xác CHƯƠNG ĐỀ XUẤT CÁC PHƯƠNG PHÁP PHÁT HIỆN CHUỖI CON BẤT THƯỜNG NHẤT DỰA VÀO PHÂN ĐOẠN VỚI KHOẢNG CÁCH XOẮN THỜI GIAN ĐỘNG 6.1 Giới thiệu vấn đề Cho đến thời điểm làm nghiên cứu này, có hai phương pháp cộng đồng nghiên cứu có phát chuỗi bất thường có độ dài khác sử dụng khoảng cách DTW Đó phương pháp QR-AF (Quadratic Regression and Anomaly Factors) Leng cộng đề xuất năm 2009 [29] phương pháp SJ-DTW- 17 Graph (Subsequence Join under DTW and Graph processing) Đô Anh đề xuất năm 2017 [35] 6.2 Đề xuất giải thuật EP-Leader-DTW chuỗi thời gian dạng tĩnh Ý tưởng giải thuật đề xuất EP-Leader-DTW trình bày Hình 6.1 Hình 6.1: Ý tưởng phát bất thường liệu chuỗi thời gian với khoảng cách DTW Giải thuật EP-Leader-DTW sử dụng độ đo DTW gồm bước:  Bước 1: Sử dụng phương pháp điểm cực trị quan trọng để phân chia liệu chuỗi thời gian thành chuỗi  Bước 2: Sử dụng phép biến hình vị tự (homothetic transform) để chuyển đổi chuỗi có chiều dài khác chiều dài, với chiều dài chọn để biến hình vị tự chiều dài trung bình chuỗi  Bước 3: Giải thuật Leader gom cụm chuỗi biến hình vị tự  Bước 4: Sử dụng chuỗi cụm gom cụm bước để tính hệ số bất thường cho chuỗi Chuỗi bất thường tìm chuỗi có hệ số bất thường lớn 6.3 Đề xuất giải thuật SEP-Leader-DTW chuỗi thời gian dạng luồng Giải thuật SEP-Leader-DTW bao gồm ý sau: - Giải thuật SEP-Leader-DTW sử dụng vùng đệm xoay vòng để chứa điểm liệu xem xét chuỗi thời gian dạng luồng - Giải thuật EP-Leader-DTW sử dụng lại SEP-Leader-DTW: Giải thuật EP-Leader-DTW gọi để phát chuỗi bất thường phần chuỗi thời gian lưu trữ vùng đệm 18 - Trình kích hoạt dựa vào chuỗi sử dụng để gọi EP-Leader-DTW cách hiệu quả: EP-Leader-DTW không gọi có điểm liệu đến Thay vào đó, q trình bị trì hỗn điểm liệu đến thực điểm cực trị quan trọng Khi đó, chuỗi hình thành việc hình thành chuỗi giúp kích hoạt q trình phát chuỗi bất thường phần chuỗi thời gian lưu trữ vùng đệm - Cập nhật gia tăng áp dụng cho trình gom cụm chuỗi theo thời gian: Các điểm liệu cũ thuộc chuỗi cũ vùng đệm xóa khỏi vùng đệm Vì vậy, điểm liệu cũ bị xóa đi, lúc cần xóa chuỗi cũ khỏi cụm chứa (chuỗi cũ chuỗi chứa điểm liệu cũ nhất) Chiến lược xóa chuỗi cũ thực sau: Khi EP-Leader-DTW gọi lần đầu tiên, tất chuỗi vùng đệm gom vào cụm Chuỗi cũ bị xóa khỏi vùng đệm rơi vào trường hợp sau: o Trường hợp 1: Nếu chuỗi cũ phần tử đại diện cụm, chuỗi bị xóa khỏi cụm o Trường hợp 2: Nếu chuỗi cũ phần tử đại diện cụm cụm có phần tử đại diện cụm cụm bị xóa o Trường hợp 3: Nếu chuỗi cũ phần tử đại diện cụm cụm có nhiều phần tử chuỗi cũ bị xóa khỏi cụm chuỗi thứ hai đứng sau phần tử đại diện cụm chuyển lên làm phần tử đại diện cho cụm Thảo luận giải thuật SEP-Leader-DTW Trước hết, SEP-Leader-DTW vượt qua thách thức toán phát bất thường chuỗi thời gian dạng luồng, việc xác định chiều dài chuỗi bất thường tính đáp ứng tức thời cho liệu dạng luồng Đối với thách thức thứ nhất, chiều dài chuỗi bất thường xác định cách tự động dựa vào kết trình phân đoạn Với thách thức thứ hai, phương pháp phân đoạn gom cụm gia tăng giúp chuyển đổi EP-Leader-DTW từ việc áp dụng cho liệu tĩnh sang áp dụng cho liệu luồng cách phù hợp hiệu Thêm nữa, SEP- 19 Leader-DTW kế thừa tính hiệu EP-Leader-DTW để đưa phản hồi tức thời nhằm phát chuỗi bất thường chuỗi thời gian dạng luồng có điểm cực trị xuất Với tất điều biện luận trên, SEP-Leader-DTW xem phương pháp để phát chuỗi bất thường chuỗi thời gian dạng luồng với độ đo DTW so với phương pháp có 6.4 Đánh giá đề xuất Đánh giá giải thuật EP-Leader-DTW - Tính xác: Thực nghiệm cho thấy chuỗi bất thường phát EP-Leader-DTW gần giống với chuỗi bất thường phát giải thuật BF-DTW Giải thuật BF_DTW giải thuật Brute-Force khoảng cách dùng DTW Giải thuật EP-Leader-DTW không phát sai chuỗi bất thường Ngoài ra, tập liệu Tek16, chuỗi bất thường EP-Leader-DTW tìm hồn toàn giống với chuỗi bất thường đánh dấu chuyên gia - Tính hữu hiệu: Trong thực nghiệm, thời gian thực thi số lần gọi hàm tính khoảng cách DTW sử dụng làm độ đo tính hữu hiệu EP-Leader-DTW QR-AF Phương pháp QR-AF (Quadratic Regression and Anomaly Factors) Leng cộng đề xuất việc phát chuỗi bất thường liệu chuỗi thời gian với khoảng cách DTW dựa vào việc phân đoạn hệ số bất thường Để tăng tốc cho khoảng cách DTW, thực nghiệm sử dụng kỹ thuật cận LB_Keogh Để đảm bảo tính cơng so sánh này, kỹ thuật cận LB_Keogh dùng cho hai giải thuật EP-Leader-DTW QR-AF Thực nghiệm cho thấy, số lần gọi hàm tính khoảng cách DTW EP-Leader-DTW nhiều so với QR-AF Về thời gian thực thi, trung bình EP-Leader-DTW thực thi nhanh gấp 8,8 lần so với giải thuật QR-AF Đánh giá giải thuật SEP-Leader-DTW Tính xác: Thực nghiệm cho thấy chuỗi bất thường tập liệu điện tâm đồ ECG đánh dấu chuyên gia giống với kết chuỗi bất thường tìm SEP-Leader-DTW Hơn nữa, chuỗi bất thường SEP-Leader- 20 DTW tìm hồn tồn trùng khớp với chuỗi bất thường phương pháp HOT SAX tìm liệu chuỗi thời gian dạng tĩnh Tek16 Tính hữu hiệu: Tốc độ phát bất thường SEP-Leader-DTW nhanh gấp 83 lần so với tốc độ truyền liệu điện tâm đồ gấp 18.000.000 lần so với tốc độ ghi liệu tiêu thụ điện Những phân tích cho thấy giải thuật SEP-Leader-DTW phát chuỗi bất thường chuỗi thời gian dạng luồng đáp ứng yêu cầu truyền thực tế chuỗi thời gian dạng luồng điện POWER điện tâm đồ ECG CHƯƠNG ỨNG DỤNG PHÁT HIỆN BẤT THƯỜNG ĐỂ CẢI THIỆN CHẤT LƯỢNG DỰ BÁO DỮ LIỆU CHUỖI THỜI GIAN 7.1 Giới thiệu vấn đề Từ nghiên cứu có, phương pháp dự báo chia thành hai loại Loại thứ phương pháp dự báo cổ điển mơ hình ARIMA, hồi qui tuyến tính (linear regression), làm trơn hàm mũ (exponential smoothing) Loại thứ hai phương pháp học máy k- lân cận gần (k-nearest neighbors), mạng nơ ron nhân tạo (artificial neural networks - ANNs), máy véc tơ hỗ trợ (support vector machines - SVMs) Tuy nhiên, hầu hết phương pháp nhạy cảm với điểm ngoại biên (outliers) hay gọi bất thường (anomalies) Mơ hình ARIMA khơng phải mơ hình dự báo hiệu cho loại liệu chuỗi thời gian Mơ hình ARIMA có điểm mạnh nắm bắt tốt đặc trưng tuyến tính liệu chuỗi thời gian nắm bắt tốt đặc trưng phi tuyến ẩn liệu (Zhang, 2003 [147]) Phương pháp RHW (Robust Holt Winters) RHW’ Gelper cộng [148] giảm bớt ảnh hưởng bất thường dự báo cách đưa lọc Kalman vào mơ hình làm trơn hàm mũ (exponential smoothing) Holt-Winters Các phương pháp phù hợp với phương pháp dự báo làm trơn hàm mũ Holt-Winters Ngoài ra, phương pháp RHW RHW’ làm mịn bất thường có tồn yếu tố bất thường liệu hay không thực nghiệm đánh giá hai liệu mẫu để so sánh với phương pháp sở 7.2 Đề xuất hướng tiếp cận EPL_S_X cho dự báo liệu chuỗi thời gian 21 EPL_S_X hướng tiếp cận đề xuất để dự báo liệu chuỗi thời gian có xuất yếu tố bất thường Trong đó, X phương pháp dự báo chuỗi thời gian có Thơng thường, bất thường xử lý giai đoạn tiền xử lý liệu trình khai phá liệu Từ đó, luận án xác định hiệu chỉnh bất thường giai đoạn tiền xử lý liệu trước dự báo chuỗi thời gian phương pháp dự báo có Hướng tiếp cận EPL_S_X bao gồm ba bước chính:  Bước 1: Phát bất thường Ở bước này, chuỗi thời gian ban đầu xử lý nhằm phát bất thường (nếu có) Những bất thường chuỗi bất thường có chuỗi thời gian ban đầu  Bước 2: Hiệu chỉnh bất thường Các chuỗi bất thường bước hiệu chỉnh thành chuỗi bình thường Điều có nghĩa chuỗi bất thường làm mịn Sau bước này, chuỗi thời gian xem (clean), khơng có chuỗi bất thường  Bước 3: Dự báo Chuỗi liệu thời gian bước sử dụng để dự báo Bất kỳ phương pháp dự báo chuỗi thời gian áp dụng chuỗi thời gian Kết đầu bước điểm liệu dự báo Đây kết đầu hướng tiếp cận dự báo liệu chuỗi thời gian EPL_S_X Đối với hướng tiếp cận dự báo EPL_S_X, khơng có ràng buộc tính chất liệu Ngoài ra, bước 2, hướng tiếp cận EPL_S_X làm chuỗi bất thường giữ nguyên tất liệu lại chuỗi thời gian 7.3 Đánh giá đề xuất EPL_S_X Hướng tiếp cận EPL_S_X thực nghiệm tương ứng với hai câu hỏi nghiên cứu số thiết lập thực nghiệm sau: - Câu hỏi 1: Hướng tiếp cận đề xuất EPL_S_X có vượt trội phương pháp RHW RHW’ [148] dự báo liệu chuỗi thời gian hay không? - Câu hỏi 2: Kỹ thuật hiệu chỉnh bất thường (anomaly – repair) đề xuất có cải thiện độ xác kết dự báo phương pháp dự báo khác hay không? 22 Với câu hỏi 1, hiệu suất dự báo phương pháp EPL_S_kNN so sánh với hiệu suất dự báo phương pháp Gelper cộng đề xuất Kết thực nghiệm cho thấy, giá trị lỗi bình phương trung bình - MSE (mean squared error) phương pháp RHW RHW’ lớn giá trị lỗi MSE phương pháp EPL_S_kNN hai trường hợp thực nghiệm Bất kể điểm liệu bất thường xuất đâu, việc làm mịn bất thường theo hướng tiếp cận EPL_S_X giúp cải thiện chất lượng dự báo Kết luận đánh giá cho câu hỏi 1: EPL_S_kNN hiệu hai phương pháp RHW’và RHW Gelper cộng đề xuất Với câu hỏi 2, thực nghiệm tiến hành phương pháp có phương pháp không áp dụng hướng tiếp cận EPL_S_X gồm: LR, kNN, ANN, Hybrid phương pháp áp dụng hướng tiếp cận EPL_S_X bao gồm: EPL_S_LR, EPL_S_kNN, EPLS_ANN, EPL_S_Hybrid Kết thực nghiệm phương pháp trình bày sau: - Đối với phương pháp dự báo đơn giản hồi qui tuyến tính (linear regression - LR), tỉ lệ cải thiện MSE EPL_S_LR LR từ 1,05 568,63 lần Tỉ lệ cải thiện MAE EPL_S_LR MAE LR từ 1,08 đến 23,21 lần tỉ lệ cải thiện MAPE EPL_S_LR MAPE LR từ 1,08 đến 23,147 lần - Đối với phương pháp dự báo k- lân cận gần (k-nearest neighbors- kNN), tỉ lệ cải thiện MSE EPL_S_kNN so với k-NN từ 1,01 đến 7,9 lần Tỉ lệ cải thiện MAE EPL_S_kNN so với k-NN 1,03 đến 2,73 lần tỉ lệ cải thiện MAPE từ 1,04 đến 2,74 lần - Đối với phương pháp dự báo mạng nơ ron nhân tạo (artificial neural network ANN), tỉ lệ cải thiện MSE, MAE MAPE EPL_S_ANN so với ANN từ 1,68 đến 1.382,92, từ 1,37 đến 33,59 từ 1,3 đến 33,52 lần - Đối với phương pháp Hybrid kết hợp phương pháp dự báo làm mịn theo hàm mũ Holt-Winters phương pháp dự báo mạng nơ ron nhân tạo Bao cộng đề xuất, kết thực nghiệm cho thấy tỉ lệ cải thiện MSE, MAE, MAPE EPL_S_Hybrid so với Hybrid tương ứng từ 1,11 đến 32,37, từ 1,05 đến 4,88, từ 1,06 đến 3,95 lần Kết luận đánh giá cho câu hỏi 2: Kết dự báo liệu chuỗi thời gian phương pháp dự báo cải thiện có áp dụng hướng tiếp cận EPL_S_X 23 Tóm lại, đóng góp EPL_S_X nhằm bổ trợ cho phương pháp dự báo có dựa vào việc giảm nhiễu tăng độ xác kết dự báo Ngồi ra, EPL_S_X góp phần phát phương pháp dự báo nhạy cảm với nhiễu dựa vào quan sát tỉ lệ cải thiện chất lượng dự báo sau giảm nhiễu CHƯƠNG KẾT LUẬN 8.1 Các đóng góp luận án - Đề xuất độ đo PALS giúp đánh giá chất lượng phương pháp phân đoạn chuỗi thời gian - Đề xuất giải thuật cải tiến để phát hiệu chuỗi bất thường liệu chuỗi thời gian dạng tĩnh: o Các giải thuật gồm: EP-ILeader, EP-Leader-DTW, TopK-EP-ALeader o Các giải thuật cải tiến gồm: I-HOTSAX, Hash_DD, KBF_GPU Các đề xuất giúp cải thiện đáng kể hiệu suất giải thuật phát chuỗi bất thường liệu chuỗi thời gian theo hướng tiếp cận dựa vào cửa sổ trượt Riêng giải thuật KBF_GPU dựa vào cơng nghệ GPU có tốc độ thực thi cao, giúp thích ứng với quy mơ liệu lớn - Đề xuất giải thuật để phát hiệu chuỗi bất thường liệu chuỗi thời gian dạng luồng gồm: SEP-Leader-DTW TopK-EP-ALeader-S - Đề xuất giải thuật gom cụm cải tiến gồm: I-Leader A-Leader - Ngoài ra, luận án đề xuất giải pháp EPL_S_X nhằm ứng dụng giải thuật phát bất thường để cải thiện chất lượng dự báo liệu chuỗi thời gian 8.2 Hướng phát triển - Mở rộng KBF_GPU sử dụng khoảng cách DTW khai phá motif - Áp dụng lập trình phân bố dựa vào Spark hay Map Reduce cho giải thuật KBF - Mở rộng hướng tiếp cận EPL_S_X để dự báo liệu chuỗi thời gian dạng luồng thuộc nhiều miền ứng dụng cần dự báo theo thời gian thực - Áp dụng hướng tiếp cận EPL_S_X cho phương pháp dự báo dựa mạng nơ ron học sâu (deep neural networks) - Mở rộng phương pháp EP-Leader-DTW để phát ảnh bất thường sở liệu hình ảnh hình ảnh chuyển thành liệu chuỗi thời gian 24 ... pháp phát điểm thay đổi liệu chuỗi thời gian gọi phương pháp phân đoạn liệu chuỗi thời gian Có phương pháp (PP) phát điểm thay đổi cần nghiên cứu để lựa chọn hỗ trợ cho toán phát chuỗi bất thường. .. hình dạng Những chuỗi không đủ điều kiện để đưa vào tập chuỗi bình thường xếp vào tập chuỗi bất thường 2.1.6 Định nghĩa 2.6 Chuỗi bất thường Cho chuỗi thời gian T, chuỗi C T xem chuỗi bất thường. .. toán phát chuỗi bất thường liệu chuỗi thời gian đặc biệt liệu chuỗi thời gian có kích thước lớn liệu chuỗi thời gian dạng luồng Giải pháp chọn theo hướng tiếp cận từ kết đạt tốn tìm điểm thay đổi

Ngày đăng: 29/10/2022, 01:24

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN