Phát hiện motif trên time series dựa vào giải thuật của mueen luận văn thạc sĩ ngành khoa học máy tính

96 5 0
Phát hiện motif trên time series dựa vào giải thuật của mueen luận văn thạc sĩ ngành khoa học máy tính

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Phát hiện motif trên time series dựa vào giải thuật của mueen luận văn thạc sĩ ngành khoa học máy tính Phát hiện motif trên time series dựa vào giải thuật của mueen luận văn thạc sĩ ngành khoa học máy tính Phát hiện motif trên time series dựa vào giải thuật của mueen luận văn thạc sĩ ngành khoa học máy tính Phát hiện motif trên time series dựa vào giải thuật của mueen luận văn thạc sĩ ngành khoa học máy tính

ABSTRACT Time series is very popular in many fields such as science and technology, financial economics, environment in the 4.0 period In these applications, the motif detection, or iterative pattern search in time series is necessary for higher tasks such as clustering, classification, association rule mining, etc The motif discovery algorithm is actually an improvement of the query string search algorithm to see if it appears in the time series? There are many proposed motif algorithms, but the models of the optimal algorithms include the following algorithms MOEN [2], MASS (Mueen's Algorithm for Similarity Search) [4], HIME (Hierarchical based Motif Enumeration) [3] based on the common premise that the method of frequency domain transformation (FFT - Fast Fourier Tranform) and reduction of dimensional dimensions and multidimensional spatial index structures This thesis reviews recent studies using specific extraction methods for the motif detection algorithm on empirically large time series on all data sets provided by the authors, issued to check the correctness of all the above algorithms Keywords: Time series; Motif discovery; Fast Fourier Tranform; Reduction of dimensional dimensions; Multidimensional spatial index structures TÓM TẮT Dữ liệu chuỗi thời gian ứng dụng phổ biến nhiều lĩnh vực khoa học kỹ thuật, kinh tế tài chính, mơi trường thời kỳ 4.0 Trong ứng dụng này, việc phát motif hay cịn gọi tìm mẫu lặp liệu chuỗi thời gian công việc cần thiết để phục vụ công việc cao gom cụm, phân lớp, khai phá luật kết hợp v.v Thuật tốn phát motif thực cải tiến thuật tốn tìm kiếm chuỗi truy vấn xem có xuất liệu chuỗi thời gian? Có nhiều thuật tốn phát motif đề xuất, mơ hình thuật toán tối ưu gồm thuật toán sau MOEN [2], MASS (Mueen’s Algorithm for Similarity Search) [4], HIME (Hierarchical based Motif Enumeration) [3] dựa vào tiền đề chung phương pháp biến đổi miền tần số (FFT – Fast Fourier Tranform) thu giảm số chiều cấu trúc mục không gian đa chiều Trong luận văn điểm qua nghiên cứu sử dụng phương pháp rút trích đặc trưng phục vụ cho thuật toán phát motif liệu chuỗi thời gian lớn thực nghiệm tất liệu mà tác giả cung cấp để kiểm tra tính đắn tất cà thuật tốn Từ khóa: Chuỗi thời gian; phát motif; biến đổi nhanh miền tần số; thu giảm số chiều; rời rạc hóa; mục khơng gian đa chiều vi MỞ ĐẦU 13 Giới thiệu motif chuỗi thời gian 13 1.0 1.1 Tổng quan chuỗi thời gian toán phát motif liệu chuỗi thời gian 15 1.1.1 Tổng quan chuỗi thời gian 15 1.1.2 Bài toán phát motif liệu chuỗi thời gian 16 1.1 Nội dung nghiên cứu đề tài luận văn 18 1.2 Mục tiêu, đối tượng phạm vi nghiên cứu 18 1.3 Nhiệm vụ hướng tiếp cận 19 1.4 Kết đạt 20 1.5 Cấu trúc đề tài luận văn 20 Chương 1: CƠ SỞ LÝ THUYẾT VÀ CÁC CƠNG TRÌNH LIÊN QUAN 21 Cơ sở lý thuyết 21 1.1 1.1.1 Chuỗi thời gian (Time series) 21 1.1.2 Motif liệu chuỗi thời gian 21 1.1.3 Các độ đo tương tự 25 1.1.3.1 Độ đo Euclide 26 1.1.3.2 Độ đo xoắn thời gian động (Dynamic Time Warping - DTW) 27 1.1.4 Các phương pháp thu giảm số chiều chuỗi thời gian 29 1.1.5 Phương pháp rời rạc hóa 34 1.1.6 Rút trích chuỗi con: 35 1.1.7 Cửa sổ trượt(Sliding Window): 36 Các cơng trình liên quan 36 1.2 Chương 2: CÁC THUẬT TOÁN PHÁT HIỆN MOTIF TRÊN DỮ LIỆU CHUỖI THỜI GIAN 39 2.1 Tổng quan thuật toán: 39 2.2 Thuật toán sở 40 2.2.1 Phát motif với chiều dài chuỗi thời gian cố định: 41 2.2.2 Phát motif chuỗi thời gian với chiều dài khác nhau: 44 2.3 Các thuật toán liên quan 47 2.4 Biến đổi Haar Wavelet thuật toán 49 2.5 SAX (Symbolic Aggregate Approximation) 51 2.6 List Package: 53 2.7 Giải thuật sở Heuristic: 55 Chương 3: ĐỀ XUẤT ỨNG DỤNG GIẢI THUẬT HIME TRONG ĐỀ TÀI VÀ SO SÁNH VỚI GIẢI THUẬT DO A.MUEEN CẢI TIẾN 57 Chương 4: THỰC NGHIỆM 59 vii 4.1 Môi trường thực nghiệm: 59 4.2 Datasets:fullEOG, insect_b, LSF5_10 Mueen [2] Brain [9] 59 4.3 Thực nghiệm dựa thuật toán tác giả đề xuất MK, MOEN MASS so sánh với thuật toán cải tiến HIME 59 4.3.1 Thực nghiệm liệu Insect_b 60 4.3.1.2 Chiều dài motif 256 điểm liệu Insect_b 50.000 điểm 62 4.3.1.3 Chiều dài motif 512 điểm liệu Insect_b 50.000 điểm 63 4.3.1.4 Chiều dài motif 1024 điểm liệu Insect_b 50.000 điểm 64 4.3.1.5 Chiều dài motif cố định với liệu chiều dài chuỗi thời gian Insect_b thay đổi 66 4.3.2 Thực nghiệm liệu fullEOG 68 4.3.2.1 Chiều dài motif 128 điểm liệu fullEOG 50.000 điểm 68 4.3.2.2 Chiều dài motif 256 điểm liệu fullEOG 50.000 điểm 69 4.3.2.3 Chiều dài motif 512 điểm liệu fullEOG 50.000 điểm 70 4.3.2.4 Chiều dài motif 1024 điểm liệu fullEOG 50.000 điểm 71 4.3.2.5 Chiều dài motif cố định với liệu chiều dài chuỗi thời gian fullEOG thay đổi 73 4.3.3 Thực nghiệm liệu LSF5_10 75 4.3.3.1 Chiều dài motif 128 điểm liệu LSF5_10 50.000 điểm 75 4.3.3.3 Chiều dài motif 512 điểm liệu LSF5_10 50.000 điểm 77 4.3.3.4 Chiều dài motif 1024 điểm liệu LSF5_10 50.000 điểm 78 4.3.3.5 Chiều dài motif cố định với liệu chiều dài chuỗi thời gian LSF5_10 thay đổi 79 4.3.4 Thực nghiệm liệu Brain 81 4.3.4.1 Chiều dài motif 128 điểm liệu Brain 50.000 điểm 81 4.3.4.2 Chiều dài motif 256 điểm liệu Brain 50.000 điểm 83 4.3.4.3 Chiều dài motif 512 điểm liệu Brain 50.000 điểm 84 4.3.4.4 Chiều dài motif 1024 điểm liệu LSF5_10 50.000 điểm 85 4.3.4.5 Chiều dài motif cố định với liệu chiều dài chuỗi thời gian Brain thay đổi 87 KẾT LUẬN 90 TÀI LIỆU THAM KHẢO 91 viii DANH MỤC HÌNH ẢNH Hình 1.1: Đường biểu diễn chuỗi thời gian Hình 1.2: Minh họa phát motif liệu chuỗi thời gian Hình 1.3: Ví dụ motfi chuỗi xuất lần chuỗi thời gian dài 10 Hình 1.4: Chuỗi C M sinh từ cửa sổ trượt M trùng khớp với C 12 Hình 1.5 Chuỗi C khớp tầm thường với chuỗi vị trí dịch sang trái hay bên phải vài điểm giá trị 12 Hình 1.6 Khoảng cách hai motif ≤ 2𝑅 (𝐴) khoảng cách hai motif >2𝑅 (B) .13 Hình 1.7 minh họa hai chuỗi thời gian giống nhau, (a) đường khác (b) biên độ giao động khác .14 Hình 1.8 Khoảng cách hai đường biểu diễn giống hình dạng lệch thời gian (a) tính theo độ đo Euclidean (b) tính theo độ đo DTW .15 Hình 1.9 Cơng thức tính DTW hình ảnh minh họa 17 Hình 2.0 Minh họa cách tính khoảng cách theo DTW 17 Hình 2.1 Minh họa phương pháp FFT 18 Hình 2.2 Minh họa phương pháp Haar wavelet 20 Hình 2.3: Các phương pháp thu giảm 21 Hình 2.4:Một chuỗi thời gian biến đổi PAA mã hóa thành ký hiệu SAX Chuỗi thời gian mã hóa thành baabcabc 22 Hình 2.5: Phép biến đổi rời rạc hóa SAX 23 Hình 2.6: Minh họa chuỗi C chuỗi thời gian T .24 Hình 2.7: Minh họa cửa sổ trượt liệu chuỗi thời gian 24 Hình 2.8: Các giải thuật phát motif phổ biến 30 Hình 2.9: Điểm tham chiếu thuật tốn MK 32 Hình 3.0: Liệt kê cặp motif liệu chuỗi thời gian chọn cặp có vị trí tốt khoảng cách tốt 32 Hình 3.1: Cơng thức tính lower bound thuật tốn MOEN 35 Hình 3.2: Mơ tả cặp motif khơng gian phẳng điểm cập nhật thay đổi 35 Hình 3.3: Biểu diễn phép biến đổi tín hiệu sang miền tần số 37 Hình 3.4: Danh sách cutpoints với số ký tự từ → 10 40 ix Hình 3.5: Một chuỗi thời gian biến đổi Haar mã hóa thành ký hiệu SAX Chuỗi thời gian mã hóa thành baabccbc .41 Hình 3.6: Các chuỗi rút trích đưa vào List Package .42 Hình 3.7: Lược đồ hai thuật tốn MK MOEN 43 Hình 3.8: Lược đồ hai thuật toán MASS HIME 43 Hình 3.9: Các motif hay chuỗi rút trích đưa vào List Package 45 Hình 4.0: So sánh cấu trúc phương pháp hai thuật toán MASS HIME .46 Hình 4.1 Giao diện chương trình………………………………………………………48 Hình 4.2 Kết thực nghiệm tập liệu insect_b 50000_128…………………50 Hình 4.3 Kết thực nghiệm tập liệu insect_b 50000_256…………………51 Hình 4.4 Kết thực nghiệm tập liệu insect_b 50000_512…………………52 Hình 4.5 Kết thực nghiệm tập liệu insect_b 50000_1024……………… 53 Hình 4.6 So sánh thời gian thực thi tập liệu insect_b 50000 với chiều dài motif thay đổi………………………… ………………………………………………… 53 Hình 4.7 So sánh thời gian thực thi tập liệu chuỗi thời gian insect_b thay đổi với motif có chiều dài cố định 512 điểm…………………………………………… 55 Hình 4.8 Kết thực nghiệm tập liệu fullEOG 50000_128…………………57 Hình 4.9 Kết thực nghiệm tập liệu fullEOG 50000_256…………………58 Hình 5.0 Kết thực nghiệm tập liệu fullEOG 50000_512…………………59 Hình 5.1 Kết thực nghiệm tập liệu fullEOG 50000_1024……………… 60 Hình 5.2 So sánh thời gian thực thi tập liệu fullEOG 50000 với chiều dài motif thay đổi……………………………………………………………………………… 60 Hình 5.3 So sánh thời gian thực thi tập liệu chuỗi thời gian fullEOG thay đổi với motif có chiều dài cố định 512 điểm…………………………………………… 62 Hình 5.4 Kết thực nghiệm tập liệu LSF5_10 50000_128……………… 63 Hình 5.5 Kết thực nghiệm tập liệu LSF5_10 50000_256………….…… 64 Hình 5.6 Kết thực nghiệm tập liệu LSF5_10 50000_512……………… 65 Hình 5.7 Kết thực nghiệm tập liệu LSF5_10 50000_1024……….………66 Hình 5.8 So sánh thời gian thực thi tập liệu LSF5_10 50000 với chiều dài motif thay đổi……………………………………………………………………………… 67 x Hình 5.9 So sánh thời gian thực thi tập liệu chuỗi thời gian LSF5_10 thay đổi với motif có chiều dài cố định 512 điểm………………………………………………68 Hình 6.0 Kết thực nghiệm tập liệu Brain 50000_128…………………….70 Hình 6.1 Kết thực nghiệm tập liệu Brain 50000_256…… …………… 71 Hình 6.2 Kết thực nghiệm tập liệu Brain 50000_512…………………….72 Hình 6.3 Kết thực nghiệm tập liệu Brain 50000_1024………….……… 73 Hình 6.4 So sánh thời gian thực thi tập liệu Brain 50000 điểm với chiều dài motif thay đổi…………… ……………………………………………………………… 74 Hình 6.5 So sánh thời gian thực thi tập liệu chuỗi thời Brain thay đổi với motif có chiều dài cố định 512 điểm…………………………………………………………75 DANH MỤC BẢNG Bảng 4.3 Kết thực nghiệm liệu insect_b với độ dài motif 128 điểm….49 Bảng 4.5 Kết thực nghiệm liệu insect_b với độ dài motif 256 điểm….50 Bảng 4.7 Kết thực nghiệm liệu insect_b với độ dài motif 512 điểm….51 Bảng 4.9 Kết thực nghiệm liệu insect_b với độ dài motif 1024 điểm…52 Bảng 5.1 Kết thực nghiệm liệu chuỗi thời gian insect_b với độ dài motif 512 điểm với chiều dài chuỗi thời gian thay đổi……………………………….…… 54 Bảng 5.3 Kết thực nghiệm liệu chuỗi thời gian fullEOG với độ dài motif 128 điểm………………………………………………………………………………56 Bảng 5.5 Kết thực nghiệm liệu chuỗi thời gian fullEOG với độ dài motif 256 điểm………………………………………………………………………………57 Bảng 5.7 Kết thực nghiệm liệu chuỗi thời gian fullEOG với độ dài motif 512 điểm………………………………………………………………………………58 Bảng 5.9 Kết thực nghiệm liệu chuỗi thời gian fullEOG với độ dài motif 1024 điểm…………………………………………………………………………… 59 Bảng 6.1 Kết thực nghiệm liệu chuỗi thời gian fullEOG với độ dài motif 512 điểm với chiều dài chuỗi thời gian thay đổi 61 Bảng 6.3 Kết thực nghiệm liệu chuỗi thời gian LSF5_10 với độ dài motif 128 điểm………………………………………………………………………………63 Bảng 6.5 Kết thực nghiệm liệu chuỗi thời gian LSF5_10 với độ dài motif 256 điểm……………………………………….…………………………………… 64 xi Bảng 6.7 Kết thực nghiệm liệu chuỗi thời gian LSF5_10 với độ dài motif 512 điểm………………….………………………………………………………… 65 Bảng 6.9 Kết thực nghiệm liệu chuỗi thời gian LSF5_10 với độ dài motif 1024 điểm……………………………………………… ……………………………66 Bảng 7.1 Kết thực nghiệm liệu chuỗi thời gian LSF5_10 với độ dài motif 512 điểm với chiều dài chuỗi thời gian thay đổi 68 Bảng 7.3 Kết thực nghiệm liệu chuỗi thời gian Brain với độ dài motif 128 điểm………………………………………………………………………………69 Bảng 7.5 Kết thực nghiệm liệu chuỗi thời gian Brain với độ dài motif 256 điểm………………………… ………………………………………………….71 Bảng 7.7 Kết thực nghiệm liệu chuỗi thời gian Brain với độ dài motif 512 điểm………………………………………………………………………………72 Bảng 7.9 Kết thực nghiệm liệu chuỗi thời gian Brain với độ dài motif 1024 điểm…………………………………………………………………………… 73 Bảng 8.0 Các thông số đầu vào với chiều dài chuỗi thời gian thay đổi 20.000 điểm, 30.000 điểm 40.000 điểm, chiều dài chuỗi 512 điểm, Alphabets 3, tỉ lệ thu giảm 1:1……………………………………………………………………… 74 Bảng 8.1 Kết thực nghiệm liệu chuỗi thời gian Brain với độ dài motif 512 điểm với chiều dài chuỗi thời gian thay đổi 75 DANH MỤC TỪ VIẾT TẮT Thuật ngữ Viết tắt Best- so -far Bsf Discrete Fourier Transform DFT Fast Fourier Transform FFT Discrete Wavelet Transform DWT Dynamic Time Wraping DTW Mueen -Keogh MK MOEN MOEN Piecewise Aggregate Approximation PAA Symbolic Aggregate Approximation SAX Mueen’s Algorithm for Similarity Search MASS Hierarchical based Motif Enumeration HIME xii MỞ ĐẦU 1.0 Giới thiệu motif chuỗi thời gian Dữ liệu chuỗi thời gian ứng dụng phổ biến nhiều lĩnh vực khoa học kỹ thuật, kinh tế tài chính, mơi trường thời kỳ 4.0 Trong ứng dụng này, việc phát motif hay gọi phát mẫu lặp liệu chuỗi thời gian công việc cần thiết để phục vụ công việc cao việc khai phá liệu gom cụm, phân lớp, khai phá luật kết hợp v.v Phát motif tìm chuỗi liệu chuỗi thời gian cho tương đồng với hình dạng kích thước Thuật tốn phát motif thực cải tiến thuật tốn tìm kiếm chuỗi truy vấn xem có xuất liệu chuỗi thời gian? Có nhiều thuật toán phát motif đề xuất, mơ hình thuật tốn tối ưu gồm thuật toán sau MK, MOEN, MASS (Mueen’s Algorithm for Similarity Search) thuật toán HIME (Hierarchical based Motif Enumeration) dựa vào tiền đề chung phương pháp thu giảm số chiều cấu trúc mục không gian đa chiều Hiển nhiên, độ phức tạp phương pháp phát motif xác theo kiểu BruteForce bậc hai theo chiều dài chuỗi thời gian mà từ motif phát hay chuỗi truy vấn tìm thấy liệu chuỗi thời gian tiêu biểu thuật toán MK Mueen Keogh [1].Tuy nhiên, thuật toán chuỗi truy vấn hay motif có chiều dài với liệu chuỗi thời gian Vì lý đó, có nhiều thuật tốn phát motif xấp xỉ giới thiệu ứng dụng nhiều thực tế, cần thiết để phục vụ công việc khai phá liệu cao cấp gom cụm, phân lớp, khai phá luật kết hợp v.v Với cách tiếp cận thường có độ phức tạp tính tốn O(n) hay O(nlogn), với n số chuỗi sở liệu chuỗi thời gian hay chiều dài chuỗi thời gian mà từ chuỗi hay motif rút trích Độ phức tạp giải thuật giảm nhiều lần so với phương pháp phát motif xác Tuy nhiên, thuật tốn u cầu nhiều tham số cần phải xác định trước, làm cho việc tính tốn lớn khơng mềm dẻo với khối lượng liệu chuỗi thời gian lớn với chuỗi truy vấn có chiều dài thay đổi tiêu biểu thuật tốn MOEN [2] ơng Mueen đề xuất năm 2014 13 Một số thuật toán phát motif xấp xỉ gần đề xuất cách chuẩn hóa liệu đầu vào, dùng phương pháp thu giảm số chiều liệu chuỗi thời gian, rút trích đặc trưng phương pháp biến đổi miền tần số (FFT – Fast Fourier Transform), phương pháp rời rạc hóa (DWT – Discrete Wavelet Transform), phương pháp xấp xỉ gộp đoạn (PAA – Piecewise Aggregate Approximation) phương pháp ký hiệu hóa liệu (SAX – Symbolic Aggregate Approximation) v.v sau sử dụng phép đo khoảng cách Euclide để gom cụm chuỗi có độ tương đồng từ tìm motif có khoảng cách tốt Trong số thuật toán đề xuất, thuật toán phát motif chuỗi thời gian với chiều dài motif thay đổi ông Abdullah Mueen đồng giới thiệu [2] gọi thuật tốn MOEN Thuật tốn phát motif thời gian tuyến tính Đây thuật tốn trích dẫn nhiều sở cho nhiều cách tiếp cận việc giải toán phát motif liệu chuỗi thời gian phục vụ cho việc khai phá liệu Tuy nhiên, kỹ thuật xử lý chuỗi chưa thật hữu hiệu cập nhật việc đo khoảng cách dễ dẫn đến việc sai phân cụm chuỗi con, sử dụng thuật toán BruteForce tối ưu cách bỏ qua việc chuẩn hóa liệu cho vịng lặp hay sử dụng phương pháp từ bỏ sớm phục vụ cho thuật tốn nên phức tạp thuật toán bậc hai nhiên nhanh gấp lần so với thuật tốn MK Ngồi ra, để cải thiện thuật tốn MOEN nhanh năm 2015 ơng đề xuất thuật toán MASS cách biến đổi liệu chuẩn hóa trước miền tần số áp dụng Fast Fourier Tranform cho kết xác nhanh nhiều lần so với thuật toán MOEN giới thiệu năm 2014 Bên cạnh đó, nhóm Yifeng Gao, Jessica Lin dựa vào thuật toán Mueen đưa thuật toán phát motif mang tên HIME [11] phép biến đổi rời rạc hóa phương pháp xấp xỉ gộp ký hiệu hóa áp dụng cho thuật tốn họ Với thuật toán việc xử lý liệu chuỗi thời gian lớn nhanh gấp 25 lần so với thuật toán Bruteforce gấp lần so với thuật toán MASS mà ông Abdullah Mueen đề xuất cho kết xác thuật tốn 14 1.1 Tổng quan chuỗi thời gian toán phát motif liệu chuỗi thời gian 1.1.1 Tổng quan chuỗi thời gian Một chuỗi thời gian (time series) chuỗi điểm liệu đo đạc theo khoảng thời gian liền theo tần suất thời gian thống Hình 1.1 minh họa ví dụ chuỗi thời gian biểu diễn giá cổ phiếu FPT (đơn vị VNĐ) từ tháng 01/2019 đến tháng 11/2019 Hình 1.1 Đường biểu diễn chuỗi thời gian Dữ liệu chuỗi thời gian sử dụng phổ biến nhiều ứng dụng thực tế, từ lĩnh vực khoa học kỹ thuật kinh tế, tài chính, mơi trường, thời tiết, địa lý y học Trong ứng dụng này, việc phát chuỗi motif có xuất sở liệu chuỗi thời gian công việc cần thiết Mặc dù có nhiều cách tiếp cận khác đề xuất, thuật tốn trước thường phát motif cho chiều dài định thuật toán MK sử dụng thuật toán BruteForce cải tiến Tuy nhiên, năm gần thuật toán phát motif với chiều dài chuỗi đề xuất thuật toán MOEN, MASS, HIME v.v với kết ấn tượng Những khó khăn thách thức nghiên cứu sở liệu chuỗi thời gian: 15 4.3.4.5 Chiều dài motif cố định với liệu chiều dài chuỗi thời gian Brain thay đổi Trong thực nghiệm này, độ dài motif chọn cố định 512 điểm, chiều dài chuỗi thời gian 20.000 điểm, 30.000 điểm 40.000 điểm Bộ ký tự Alphabets sử dụng cho phương pháp rời rạc hóa SAX chọn 3, tỉ lê thu giảm mặc định 1:1 sử dụng phương pháp chuẩn hóa Zero-Mean Bảng 8.0 Các thơng số đầu vào với chiều dài chuỗi thời gian thay đổi 20.000 điểm, 30.000 điểm 40.000 điểm, chiều dài chuỗi 512 điểm, Alphabets 3, tỉ lệ thu giảm 1:1 Độ dài chuỗi thời gian Độ dài motif Alphabets Tỉ lệ thu giảm 20.000 512 1:1 30.000 512 1:1 40.000 512 1:1 Bảng 8.1 Kết thực nghiệm liệu chuỗi thời gian Brain với độ dài motif Thời gian thực thi Khoảng cách tốt motif Vị trí phát HIME Thời gian thực thi Khoảng cách tốt motif Vị trí phát Thời gian thực thi Khoảng cách tốt motif MASS 20.000 điểm Vị trí phát MOEN 2279 18,820 00:09:27 2279 21,660 00:00:22 2279 23,022 00:00:06 30.000 điểm Chiều dài chuỗi Thời Gian Vị trí phát hiệm motif với chiều dài motif cố định 512 điểm 2280 19,972 00:21:31 2280 23,150 00:00:41 2280 19,311 00:00:08 40.000 điểm Brain motif 512 điểm 512 điểm với chiều dài chuỗi thời gian thay đổi 2280 14,380 00:35::37 2280 21,741 00:00:58 2280 22,440 00:00:14 87 Hình 6.5 So sánh thời gian thực thi thuật toán liệu chuỗi thời giant hay đổi 20.000 điểm, 30.000 điểm 40.000 điểm với chiều dài motif cố định 512 điểm Hình 6.5 So sánh thời gian thực thi tập liệu chuỗi thời Brain thay đổi với motif có chiều dài cố định 512 điểm  Kết thực nghiệm tập liệu Brain nhận xét sau: Dựa vào kết thực nghiệm từ bảng 7.3, bảng 7.5, bảng 7.7, bảng 7.9 Hình 6.4 nhận xét sau: - Tất thuật toán chạy cho vị trí phát motif giống - Các thuật tốn cải tiến MOEN, MASS HIME nhanh nhiều so với thuật toán MK thời gian liệu chiều dài motif cần tìm thời gian thực thi nhanh thuật toán HIME, thuật toán MASS phù hợp cho việc khai phá liệu lớn - Về khoảng cách tốt thuật tốn MOEN tốt tìm motif có chiều dài thay đổi Dựa vào bảng 8.1 Hình 6.5 ta có nhận xét ta thay đổi chiều dài chuỗi thời gian để tìm motif sau: - Thay đổi chiều dài chuỗi thời gian giúp cho việc phát motif nhanh chóng tiết kiệm thời gian giảm không gian nhớ, thuật toán đề xuất nhanh thuật toán cải tiến Abdullah Mueen cho kết vị trí phát motif giống - Khoảng cách tốt thuật toán MOEN 88 Tổng kết:  Trong chương dựa vào số liệu lấy từ tập mẫu mà tác giả cung cấp tập liệu lấy từ nhiều nguồn internet liệt kê đầu chương, Việc sử dụng liệu để tiến hành thực nghiệm tất bốn thuật toán bao gồm MK, MOEN,MASS HIME để tìm motif Với số liệu thực nghiệm qua tập liệu thấy cho kết khả quan mặt thời gian thực thi Tất vị trí phát motif trùng khớp thuật toán Thời gian thuật tốn đề xuất ln nhanh nhiều lần so với thuật toán nguyên thủy thuật toán MK Abdullah Mueen Eamonn Keogh Thuật toán MOEN tác giả  Trong thực nghiệm thay đổi chiều dài chuỗi thời gian cho tất liệu ngưỡng 50000 thay đổi chiều dài motif 128, 256, 512,1024.Thay đổi độ dài liệu chuỗi thời gian 20000 điểm, 30000 điểm 40000 điểm tìm motif có độ dài cố định 512 điểm áp dụng cho thuật toán phát motif để đánh giá hiệu quả, thời gian thực thi thuật toán  Từ bảng thực nghiệm so sánh (Hình 4.6, 4.7, 5.2,5.3, 5.8, 5.9, 6.4, 6.5) mang lại thấy thuật toán MASS HIME mang lại kết khả quan nhiều so với hai thuật toán MK MOEN.Tuy nhiên thuật tốn MOEN cho kết tìm kiếm motif có khoảng cách tốt nên chất lượng motif tìm tốt  Các motif tìm từ thuật toán motif xấp xỉ 89 KẾT LUẬN Phát motif liệu chuỗi thời gian vấn đề thu hút nhiều quan tâm năm gần Các giải thuật phát motif liệu chuỗi thời gian đối diện với vấn đề liệu phát sinh ngày lớn dần lên làm cho giải thuật chạy lâu phụ thuộc lớn vào hạ tầng phần cứng nhớ máy tính vi xử lý Xuất phát từ thuật toán MK MOEN, có nhiều thuật tốn cải tiến cách sử dụng phương pháp biến đổi miền tần số áp dụng phương pháp gộp ký hiệu hóa giúp tăng tốc thuật toán lên nhiều lần thuật toán MASS thuật toán HIME Trong luận văn này, việc sử dụng thuật toán MK, MOEN, MASS HIME để phát motif hữu hiệu Và thuật toán MASS HIME vượt qua khó khăn mà thuật tốn MK MOEN gặp phải q trình phát motif thời gian thực thi lâu liệu chuỗi thời gian tương đối lớn Các kết mà motif tìm tương đối xác so với thuật tốn MK MOEN Hướng phát triển: Bên cạnh thuật toán áp dụng phép biến đổi rời rạc hóa liệu để thu giảm liệu chuỗi thời gian giải thuật MASS HIME cịn hạn chế cần phải xem xét khắc phục sau: - Chiều dài motif người dùng định nghĩa phương pháp thử sửa sai - Giải thuật không nhạy với loại liệu phân bố thưa áp dụng phép đo khoảng cách Euclide dẫn đến khoảng cách tốt thuật toán khơng giống Vì thời gian hạn chế, sử dụng máy tính laptop khơng thể thiết lập thông số liệu chuỗi thời gian cực lớn để tiến hành đánh giá kết thực nghiệm thuật toán cách tốt hướng tiếp cận cho tương lai sử dụng dòng server cấu hình cao dung lượng nhớ vi xử lý cao để thực nghiệm lại tất liệu tác giả với độ dài chuỗi thời gian lớn 90 TÀI LIỆU THAM KHẢO [1] Exact Algorithm to Find Time Series Motifs Internet: Lengths Internet: http://alumni.cs.ucr.edu/~mueen/MK/, 12/05/2018 [2] Enumeration of TimeSeries Motifs of All http://www.cs.unm.edu/~mueen/Projects/MOEN/index.html, 10/05/2018 [3] Keogh E., 2015, A Tutorial Finding Repeated Structure in Time Series Data, In 2015 SIAM International Conference on DATA MINING, SDM2015, Vancouver, Canada [4] Ada Wai-chee Fu, Oscar Tat-Wing Leung, Eamonn Keogh, Jessica Lin “Finding Time Series Discords Based on Haar Transform” (2006),In ADMA 2006, Pages 3141 [5] Haemwaan Sivaraks Chotirat Ann Ratanamahatan (2015) “Robust and Accurate Anomaly Detection in ECG Artifacts Using Time Series Motif Discovery” Computational and Mathematical Methods in Medicine Volume 2015, Article ID 453214, 20; Internet: http://dx.doi.org/10.1155/2015/453214 [6] D Yankov, E Keogh, J Medina, B Chiu, and V Zordan Detecting time series motifs under uniform scaling In Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’07, pages 844–853, 2007 [7] J.Lin, E.Keogh, J.Medina, S.Lonardi, P.Patel “Finding Motifs in Time Series”, Porceedings of 2𝑡ℎ Workshop on Temperal Data Mining, at the 8𝑡ℎ ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD03) 2003, pp.493-498 [8] Christos Faloutsos Fast subsequence matching in time-series databases Conference on Data Engineering, p.314-325, February 14-18, 1994 [9] H T Lam, N D Pham, and T Calders Online discovery of top-k similar motifs in time series data SIAM Conference on Data Mining, SDM ’11, 2011 [10] Y Li, J Lin, and T Oates Visualizing variable-length time series motifs pages 895– 906, 2012 [11] Gao, Y., Lin, J HIME: discovering variable-length motifs in large-scale time series Knowl Inf Syst 61, 513–542 (2019) [12] J.W Cooley, “How the FFT gained acceptance,” IEEE Signal Processing Magazine, vol 9, pp 10-13, January 1992 91 [13] R Agrawal, C Faloutsos, and A Swami, “Efficient Similarity Search In Sequence Databases”, Research Report, IBM Almaden Research Center, San Jose, California, 1993 [14] Kin-Pong Chan and Ada Wai-Chee Fu Ecient time series matching by wavelets In Proceedings of the 15th International Conference on Data Engineering, pages 126-133 IEEE Computer Society, 1999 [15] Lin J., Keogh, E., Lonardi, S., and Chiu, B., 2003, A Symbolic Representation of Time Series, with Implications for Streaming Algorithms, In Proceedings of 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discover, DMKD 2003, California, USA, pp 2-11 [16] A Mueen, E.Keogh, QZhu, S.Cash and B.West, “Exact Discovery of Time Series Motifs”, SLAM International Conference on Data Mining (SDM09), 2009 [17] B.Chiu, E.Keogh and Lonardi, “Probabilistic Discovery of Time Series Motifs”, Porcessdings of the 9𝑡ℎ International Conference on Knowledge Discovery and Data Mining ( KDD 03) 2003, pp 493-498 92 TỔNG QUAN VỀ CÁC THUẬT TOÁN PHÁT HIỆN MOTIF TRÊN DỮ LIỆU CHUỖI THỜI GIAN OVERVIEW OF MOTIF DETECTION ALGORITHMS ON TIME SERIES Lưu Hải Nam1 Trường đại học Sư phạm Kỹ thuật TP.HCM TÓM TẮT Dữ liệu chuỗi thời gian ứng dụng phổ biến nhiều lĩnh vực khoa học kỹ thuật, kinh tế tài chính, mơi trường thời kỳ 4.0 Trong ứng dụng này, việc phát motif hay gọi tìm mẫu lặp liệu chuỗi thời gian công việc cần thiết để phục vụ công việc cao gom cụm, phân lớp, khai phá luật kết hợp v.v Thuật toán phát motif thực cải tiến thuật tốn tìm kiếm chuỗi truy vấn xem có xuất liệu chuỗi thời gian? Có nhiều thuật tốn phát motif đề xuất, mơ hình thuật toán tối ưu gồm thuật toán sau MOEN [2], MASS (Mueen’s Algorithm for Similarity Search) [4], HIME (Hierarchical based Motif Enumeration) [3] dựa vào tiền đề chung phương pháp biến đổi miền tần số (FFT – Fast Fourier Tranform) thu giảm số chiều cấu trúc mục không gian đa chiều Bài tổng quan điểm qua nghiên cứu sử dụng phương pháp rút trích đặc trưng phục vụ cho thuật toán phát motif liệu chuỗi thời gian lớn thực nghiệm tất liệu mà tác giả cung cấp để kiểm tra tính đắn tất cà thuật tốn Từ khóa: Chuỗi thời gian; phát motif; biến đổi nhanh miền tần số; thu giảm số chiều; rời rạc hóa; mục không gian đa chiều ABSTRACT Time series is very popular in many fields such as science and technology, financial economics, environment in the 4.0 period In these applications, the motif discovery, or iterative pattern search in time series is necessary for higher tasks such as clustering, classification, association rule mining, etc The motif detection algorithm is actually an improvement of the query string search algorithm to see if it appears in the time series? There are many proposed motif algorithms, but the models of the optimal algorithms include the following algorithms MOEN [2], MASS (Mueen's Algorithm for Similarity Search) [4], HIME (Hierarchical based Motif Enumeration) [3] based on the common premise that the method of frequency domain transformation (FFT - Fast Fourier Tranform) and reduction of dimensional dimensions and multidimensional spatial index structures This overview reviews recent studies using specific extraction methods for the motif detection algorithm on empirically large time series on all data sets provided by the authors, issued to check the correctness of all the above algorithms Keywords: Time series; Motif discovery; Fast Fourier Tranform; Reduction of dimensional dimensions; Multidimensional spatial index structures 93 GIỚI THIỆU Một chuỗi thời gian (time series) tập hợp quan sát thực theo thời gian Các tập chuỗi thời gian thường lớn với nhiều kiểu liệu khác tồn lĩnh vực khác khoa học, y học tài Motif chuỗi truy vấn có hình dạng tương đồng tồn liệu chuỗi thời gian Phát Motif tảng cần thiết để khai phá liệu chuỗi thời gian phục vụ cho công việc cao cấp Vài lĩnh vực áp dụng phát Motif: - Dự báo dự thời thiết ngành khí tượng - Phân tích hành vi người dùng ngành kinh tế - Phát khn mặt có tồi liệu chuỗi thời gian cục phòng chống tội phạm - Phát chứng động kinh y học dựa vào liệu điện não đồ Brain Bài viết mô tả tồng quan thuật toán phát Motif cải tiến gần liệu chuỗi thời gian Những phương pháp đề xuất áp dụng cho phép truy vấn mẫu lặp nhanh xác với độ đo tương tự mềm dẻo hữu hiệu không bị ảnh hưởng biến đổi liệu sai sót liệu CÁC PHÉP ĐO LIÊN QUAN Đối với toán phát motif liệu chuỗi thời gian liệu biểu diễn thành chuỗi số thực, ví dụ sau 𝑇 = 𝑡1 , 𝑡2 , … , 𝑡𝑛 Cho hai chuỗi thời gian 𝑇 = 𝑡1 , 𝑡2 , … , 𝑡𝑛 𝑄 = 𝑞1 , 𝑞2 , … , 𝑞𝑚 với 𝑛 ≫ 𝑚 Ta cần phải tính độ đo tương tự SIM(T,Q) chuỗi thời gian  Các độ đo tương tự Có nhiều độ đo tương tự giới thiệu áo dụng cho thuật toán phát motif Minkowski, Euclid, DTW v.v Một số thuật tốn phát motif ln ưu tiên sử dụng phép đo khoảng cách Euclid sử dụng lân cận [2] (lower bound) 𝐿𝐵 cho thuật tốn Tuy nhiên số trường hợp phép đo 𝐿𝐵 tỏ q cứng nhắc khơng thích nghi với liệu chuỗi thời gian nhiễu, khơng thích nghi với phép biến đổi tịnh tiến (shifting), co dãn biên độ (scaling), hay xoắn trục thời gian động (Dynamic Time Warping) Do đó, cần có phép đo mềm dẻo hiệu phép đo xoắn thời gian động, hệ số tương quan ví dụ 2.1 Độ đo Euclide Cho hai chuỗi thời gian 𝑇 = 𝑡1 , 𝑡2 , … , 𝑡𝑛 𝑄 = 𝑞1 , 𝑞2 , … , 𝑞𝑛 độ đo khoảng cách Euclid hai chuỗi thời gian cho công thức 𝑛 𝐷 (𝑇, 𝑄) = √∑(𝑡𝑖 − 𝑞𝑖 )2 𝑖=1 Độ đo khoảng cách Euclid có ưu điểm dễ hiểu, dễ tính toán, dễ mở rộng trong hầu hết thuật phát motif Tuy nhiên phép đo lại có nhược điểm nhạy cảm với liệu nhiễu Cách đo có dạng sau 94 Hình 1: Mơ hình cách tính khoảng cách query (q) chuỗi thời gian (t) qua khung cửa sổ trượt hình dạng gần tương đồng Ta có ví dụ sau Hình 2, hai đường biểu diễn giống hình dạng lệch thời gian Do vậy, tính khoảng cách cách ánh xạ 1-1 khơng cịn xác dẫn tới kết cuối khơng xác Hình Diễn tả cách tính khoảng cách query với cửa sổ trượt (chuỗi con) chuỗi thời gian tịnh tiến từ trái qua phải chuẩn hóa 2.2 Hệ số tương quan Pearson Cho hai chuỗi thời gian t, q có chiều dài m ta có cơng thức hệ số tương quan sau 𝑐𝑜𝑟𝑟(𝑡, 𝑞) = ∑𝑚 𝑖=1 𝑡𝑖 𝑞𝑖 − 𝑚𝜇𝑡 𝜇𝑞 𝑚𝜎𝑡 𝜎𝑞 ∑𝑚 ∑𝑚 𝑖=1 𝑡𝑖 𝑖=1 𝑡𝑖 𝑣ớ𝑖 𝜇𝑡 = 𝑣à 𝜎𝑥 = 𝑚 𝑚 Ta có cơng thức để tính khoảng cách từ mối quan hệ độ đo Euclide hệ số tương quan Pearson [2] sau: 𝑑 (𝑡, 𝑞) = √2𝑚(1 − 𝑐𝑜𝑟𝑟(𝑡, 𝑞)) 2.3 Độ đo xoắn thời gian động (Dynamic Time Warping, DWT) Việc so trùng hai đường biểu diễn liệu chuỗi thời gian t, q cách đo khoảng cách cặp điểm 1-1 (điểm thứ i đường t so với điểm thứ i đường q) không phù hợp số trường hợp hai đường có Hình So sánh cặp chuỗi liệu có hình dạng giống lệch thời gian Vì vậy, để khắc phục nhược điểm ta phải có phép đo mềm dẻo Có nghĩa điểm ánh xạ với nhiều điểm ánh xạ không thẳng hành (Hình 1b) Phương pháp gọi xoắn thời gian động (Dynamic Time Warping - DWT) Cho hai chuỗi thời gian 𝑇 = 𝑡1 , 𝑡2 , … , 𝑡𝑚 𝑄 = 𝑞1 , 𝑞2 , … , 𝑞𝑛 ta có cơng thức tính khoảng cách sau: 𝐷𝑊𝑇(𝑇, 𝑄) = √𝐷(𝑚, 𝑛) Hình Hai chuỗi thời gian áp dụng phép đo DTW 95 Phép đo đề xuất Bernt Clifford, 1994 Chi tiết cách tính DWT tham khảo [1] Phương pháp DWT có ưu điểm cho kết xác so với độ đo Euclid cho phép nhận diện mẫu có hình dạng giống có chiều dài thời gian khác Hình 2b Tuy nhiên phương pháp đòi hỏi nhớ tính tốn phải lớn khơng phù hợp xử lý khối liệu lớn Gần đây, có thuật tốn sử dụng phương pháp áp dụng cho việc phát motif hiệu quà nhanh nhiều so với thuật tốn giới thiệu trước  Chuẩn hóa liệu khung cửa sổ trượt khơng gian Z để tính tốn hay cịn gọi chuẩn hóa zero mean  Tính khoảng cách phép đo Eulid giửa query chuỗi khung sổ trượt thuật tốn có độ phức tạp O(nm) Với n, m khoảng cách chuỗi thời gian T khoảng cách query Q 3.2 So trùng chuỗi CÁC THUẬT TOÁN Phát motif liệu chuỗi thời gian từ giới thiệu năm 2002 A.Mueen E.Keogh với thuật toán phát motif liệu âm nhạc gọi tắt MK [1] phân tích thành hai dạng so trùng tồn chuỗi so trùng chuỗi liệu chuỗi thời gian 3.1 So trùng toàn chuỗi Là chuỗi cần tìm chuỗi liệu thời gian có kích thước Bài toán áp dụng cho việc phát motif dựa vào giải thuật Brute Force thuật toán phát motif âm nhạc MK A.Mueen E.Keogh có cấu trúc sau: Là chuỗi truy vấn nhỏ nhiều so với chuỗi liệu thời gian ban đầu Bài toán giới thiệu năm 2014 với tên thuật toán MOEN [2] thuật toán MASS [4] năm 2015 A.Mueen cộng Năm 2018 thuật toán HIME [3] Các thuật tốn có nhiệm vụ tìm đoạn liệu chuỗi thời gian ban đầu tương tự đoạn liệu cần truy vấn dựa vào phương pháp thu giảm phương pháp rời rạc hóa 1) Thuật tốn MOEN: thuật tốn bỏ qua việc chuẩn hóa liệu cửa sổ trượt cho vòng lặp Tuy độ phức tạp O(nm) tốc độ tăng gấp 2X so với thuật toán MK bỏ qua lần gọi hàm  Quét liệu chuỗi thời gian cửa sổ trượt Hình 96 2) Thuật tốn MASS: áp dụng chương trình thuật tốn MOEN liệu chuyển đổi miền tần số áp dụng phép biến đổi fourier nhanh có độ phức tạp O(nlogn) Với thuật toán tốc độ xử lý gấp 20 lần so với thuật toán nguyên thủy gấp 10 lần so với thuật toán MOEN 3) Thuật toán HIME: thuật toán áp dụng phương pháp rời rạc hóa liệu SAX ([7], [8]) sử dụng phương pháp thu giảm số chiều PAA liệu coi chuẩn hóa SAX trình ánh xạ biểu diễn PAA chuỗi thời gian thành chuỗi ký tự rời rạc.Ở thuật toán nhanh lần so với thuật toán MASS nhiều lần với thuật toán MOEN, MK cho kết CÁC PHƯƠNG PHÁP THU GIẢM SỐ CHIỀU Dữ liệu chuỗi thời gian thường lớn Tìm kiếm hay phát mẫu lặp (motif) khó khăn liệu nhiễu khơng đồng nhiều Chính vậy, cần phải áp dụng số phương pháp biến đổi để thu giảm độ lớn liệu ban đầu Các phương pháp thường gọi kỹ thuật thu giảm số chiều (dimensionality reduction) có cấu trúc chung sau: a Thiết lập độ đo tương tự d b Thiết kế kỹ thuật thu giảm số chiều để rút trích đặc trưng có chiều dài k (nghĩa đặc trưng gồm k gíá trị) với k xử lý hữu hiệu cấu trúc mục không gian đa chiều c Cung cập độ đo tương tự d không gian đặc trưng k chiều đảm bảo phải theo điều kiện 𝑑𝑘 (𝑋 ′ , 𝑌 ′ ) ≤ 𝑑 (𝑋, 𝑌) (1) Điều kiện (1) có nghĩa hàm tính khoảng cách khơng gian đặc trưng (hay không gian thu giảm) hai chuỗi liệu thời gian biến đổi 𝑋 ′ , 𝑌′ từ hai chuỗi thời gian ban đầu 𝑋, 𝑌 phải chặn khoảng cách thật chúng không gian nguyên thủy ban đầu Điều kiện (1) thường gọi điều kiện chặn ký hiệu 𝐿𝐵 Có số phương pháp để thu giảm số chiều áp dụng cho thuật tốn phát motif phương pháp biến đổi sang miền tần số (FFT – Fast Fourier Tranform), phương pháp biến đổi wavelet rời rạc (DWT – Discrete Wavelet Tranform) phương pháp xấp xỉ gộp đoạn (PAA – Piecewise Aggregate Approximation)  Phương pháp biến đổi fourier nhanh (FFT) [5]: đường liệu ban đầu biểu diễn đường sin cosin có dạng cơng thức sau: 𝑛 𝐶 (𝑡 ) = ∑ 𝐴𝑘 cos(2𝜋𝑤𝑘 𝑡𝐵𝑘 sin(2𝜋𝑤𝑘 𝑡)) 𝑘=1 Ngồi khả nén liệu, khả tương thích với phép đo khoảng cách Euclide tốt Phép biến đổi fourier nhanh đề xuất ứng dụng số thuật tốn ơng A.Mueen phù hợp với nhiều đường biểu diễn liệu khác thuật tốn có độ phức tạp 𝑂(𝑛𝑙𝑜𝑔𝑛).phép 97 THỰC NGHIỆM Để kiểm tra đánh giá thuật toán đề xuất bao gồm thuật toán MK, Thuật Toán MOEN, thuật toán MASS thuật tốn HIME, chúng tơi sử dụng máy  Bộ liệu chuỗi thời gian fullEOG gồm 50.000 điểm liệu, chiều dài chuỗi 1024 điểm 48730 MASS HIME 48730 48730 48730 13.642.046 Location motif MOEN 41.015.737 MK 2.299.538.162 FullEOG length motif 1024 point 2.299.538.162 𝑛 𝜑𝑛,𝑘 (𝑡 ) = 2 𝜑(2𝑛 𝑡 − 𝑘 ), 𝑡 ∈ 𝑅 Phương pháp DWT hiệu quà mã hóa đơn giản nhanh, độ phức tạp tuyến tính  Phương pháp xấp xỉ gộp đoạn (PAA – Piecewise Aggregate Approximation): phương pháp E.Keogh công đề xuất năm 2001 Phương pháp đơn giản, ta xấp xỉ k giá trị liền kề thành giá trị trung bình cộng k điểm tiếp tục từ trái qua phải, với phương pháp này, thời gian tính tốn nhanh cách biểu diễn hỗ trợ nhiều phép đo khoảng cách  Phương pháp xấp xỉ gộp ký hiệu hóa – SAX: Lin E.Keogh cộng đề xuất phương pháp rời rạc hóa có tên xâp xỉ gộp ký hiệu hóa (Symbolic Aggregate Approximation SAX) dựa phương pháp thu giảm số chiều PAA giả sử liệu thu giảm chuẩn hóa SAX trình ánh xạ biểu diễn PAA chuỗi thời gian thành chuỗi ký tự rời rạc áp dụng thuật tốn HIME tính Lenovo T440p core I5 4200M Ram 12GB để chạy Bộ liệu tác giả cung cấp [2] tìm kiếm internet với kết sau: Run Times 02:30:35 01:46:42 00:04:11 00:01:10 Best so far 43,068 30,796 34,209 13.642 Numbers of call Euclide Distance biến đổi áp dụng thuật toán MASS  Phương pháp biến đổi wavelet rời rạc (DWT): phương pháp k.Chan W.Fu đề xuất năm 1999 [6] Phương pháp DWT giống phép biến đổi FFT, nhiên đường khơng phải đường lượng giác sin hay cosin mà đường Haar định nghĩa sau: Hình Thực nghiệm liệu chuỗi thời gian fullEOG gồm 50.000 điểm liệu, chiều dài chuỗi 1024 điểm 98  Bộ liệu LSF5_10 gồm 50.000 điểm liệu chiều dài chuỗi 1024 điểm LSF5_10 HIME 13641 13641 21.444.357 13641 MASS 29.889.735 13641 MOEN 2.299.538.162 Numbers of call Euclide Distance Location motif MK 2.299.538.162 length motif 1024 point Run Times 03:15:10 02:41:49 00:03:53 00:02:04 Best so far 46,440 24,045 34,670 34,196 Hình Thực nghiệm liệu chuỗi thời gian LSF5_10 gồm 50.000 điểm liệu, chiều dài chuỗi 1024 điểm KẾT LUẬN Bài viết điểm qua nghiên cứu ông A.Mueen công viết liên quan gần lãnh vực phát motif liệu chuỗi thời gian Những nghiên cứu dựa vào cách rút trích đặc trưng để thu giảm số chiều phục vụ cho việc phát motif Có ba phương pháp cho việc rút trích đặc trưng trình bày thuật toán phép biến đổi sang miền tần số, phép biến đổi rời rạc hóa phương pháp xấp xỉ gộp ký hiệu hóa Dựa vào thực nghiệm từ thuật toán ta nhân thấy thuật toán HIME sử dụng phương pháp xấp xỉ gộp ký hiệu hóa cho kết nhanh nhiều lần so với thuật tốn ơng A.Mueen đề xuấ thuật toán MASS Mặc dù có nhiều cải tiến thuật tốn phát motif trình bày.Tuy nhiên, dựa vào nguồn liệu mà tác giả đề xuất khơng xác liệu thực tế lớn liệu nhiễu nhiều khó khăn việc rút trích đặc trưng Do vậy, cần có thuật tốn xác nhanh tương lai để hỗ trợ cho khai phá liệu chuỗi thời gian áp dụng cho tất liệu khác đo kết thực nghiệm cho kết chuẩn xác 99 TÀI LIỆU THAM KHẢO [1] Exact Algorithm to Find Time Series Motifs.Internet: http://alumni.cs.ucr.edu/~mueen/MK/, 12/05/2018 [2] Enumeration of TimeSeries Motifs of All Lengths Internet: http://www.cs.unm.edu/~mueen/Projects/MOEN/index.html, 10/05/2018 [3] Yifeng Gao, Jessica Lin HIME: discovering variable-length motifs in large-scale time series Internet: https://www.semanticscholar.org/paper/Efficient-discovery-oftime-series-motifs-with-in-GaoLin/c98716bce5290358467e466dec6795beca202bae [4] Keogh E., 2015, A Tutorial Finding Repeated Structure in Time Series Data, In 2015 SIAM International Conference on DATA MINING, SDM2015, Vancouver, Canada [5] Christos Faloutsos Fast subsequence matching in time-series databases Conference on Data Engineering, p.314-325, February 14-18, 1994 [6] Kin-Pong Chan and Ada Wai-Chee Fu Ecient time series matching by wavelets In Proceedings of the 15th International Conference on Data Engineering, pages 126-133 IEEE Computer Society, 1999 [7] Lin J., Keogh, E., Lonardi, S., and Chiu, B., 2003, A Symbolic Representation of Time Series, with Implications for Streaming Algorithms, In Proceedings of 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discover, DMKD 2003, California, USA, pp 2-11 [8] Ada Wai-chee Fu, Oscar Tat-Wing Leung, Eamonn Keogh, Jessica Lin “Finding Time Series Discords Based on Haar Transform” (2006),In ADMA 2006, Pages 3141 Tác giả chịu trách nhiệm viết: Họ tên: Lưu Hải Nam Đơn vị: Trung Tâm Thơng Tin Máy Tính – Trường Đại Học Sư Phạm Kỹ Thuật TP.HCM Điện thoại: 0918169944 Email:lhnam1976@gmail.com ... thiết từ liệu Chính vậy, phát motif hay so trùng chuỗi công tác để khai thác sở liệu chuỗi thời gian cho ngành khoa học máy tính ngành khoa học khác Hình 1.2: Minh họa phát motif liệu chuỗi thời... khoa học nghiên cứu ngày nhiều đưa toán phát motif hay năm gần trích dẫn tiền tố để phục vụ thuật toán cao cấp thuật tốn MOEN, MASS HIME Hình 2.8 Các giải thuật phát motif phổ biến Các giải thuật. .. gian Time Series cập nhật lại cặp motif có khoảng cách tốt để phát cặp motif có khoảng cách nhỏ 2.2 Thuật toán sở Bài toán phát motif liệu chuỗi thời gian chia làm loại bao gồm thuật tốn phát motif

Ngày đăng: 04/12/2021, 11:49

Tài liệu cùng người dùng

Tài liệu liên quan