1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(Luận văn thạc sĩ) phát hiện motif trên time series dựa vào giải thuật của mueen

109 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 109
Dung lượng 6,48 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ LƯU HẢI NAM PHÁT HIỆN MOTIF TRÊN TIME SERIES DỰA VÀO GIẢI THUẬT CỦA MUEEN NGÀNH: KHOA HỌC MÁY TÍNH - 8480101 SKC006699 Tp Hồ Chí Minh, tháng 05/2020 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ LƯU HẢI NAM PHÁT HIỆN MOTIF TRÊN TIME SERIES DỰA VÀO GIẢI THUẬT CỦA MUEEN NGÀNH: KHOA HỌC MÁY TÍNH - 8480101 TP Hồ Chí Minh, tháng 05 năm 2020 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ LƯU HẢI NAM PHÁT HIỆN MOTIF TRÊN TIME SERIES DỰA VÀO GIẢI THUẬT CỦA MUEEN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 8480101 Hướng dẫn khoa học: TS NGUYỄN THÀNH SƠN Tp Hồ Chí Minh, tháng 05 năm 2020 ii LÝ LỊCH KHOA HỌC I LÝ LỊCH SƠ LƯỢC Họ & tên: Lưu Hải Nam Giới tính: Nam Ngày, tháng, năm sinh: 19/10/1976 Nơi sinh: Thái Bình Quê quán: Thái Bình Dân tộc: Kinh Chỗ riêng địa liên lạc: 19/10/05 Nguyễn Văn Tăng F Long Thạnh Mỹ Q.9 TP.Hồ Chí Minh Điện thoại quan: Điện thoại: 0918169944 Fax: E-Mail: lhnam1976@gmail.com II QUÁ TRÌNH ĐÀO TẠO Đại học: Hệ đào tạo: Cao đẳng Chính quy Thời gian đào tạo từ 09/1997 đến 05/2000 Nơi học (trường, thành phố): Trường Đại Học Kỹ Thuật Cơng Nghệ Tp Hồ Chí Minh Ngành học: Cơng nghệ thơng tin Hệ đào tạo: Chính quy Thời gian đào tạo từ 11/2011 đến 11/2013 Nơi học (trường, thành phố): Trường Đại học Văn Hiến, Tp Hồ Chí Minh Ngành học: Công Nghệ Thông Tin Đề tài tốt nghiệp : Phần mềm quản lý kho vật tư thiết bị III Q TRÌNH CƠNG TÁC CHUN MƠN KỂ TỪ KHI TỐT NGHIỆP: Thời gian 2001-2007 2008-2011 2012- đến Nơi công tác Cty Tin Học HMR Việt Nam Quận Tập đồn cơng nghệ CMC Sài Gịn Quận 10 Trường đại học Sư Phạm Kỹ thuật TP.HCM Công việc đảm nhiệm Nhân viên IT Nhân viên IT Chuyên Viên iii LỜI CẢM ƠN Thực tế cho thấy, thành công gắn liền với hỗ trợ, giúp đỡ người xung quanh giúp đỡ hay nhiều, trực tiếp hay gián Trong suốt thời gian từ bắt đầu làm chuyên đề đến nay, em nhận quan tâm, bảo, giúp đỡ thầy cơ, gia đình bạn bè xung quanh Với lịng biết ơn vơ sâu sắc, tơi xin gửi lời cảm ơn chân thành đến Lãnh đạo đơn vị Trung Tâm Thơng Tin Máy Tính, q Thầy Cơ Trường Đại học Sư Phạm Kỹ Thuật dùng tri thức tâm huyết để truyền đạt cho tơi vốn kiến thức quý báu suốt thời gian làm việc học tập trường Đặc biệt, em xin chân thành cảm ơn Thầy TS.Nguyễn Thành Sơn tận tâm bảo hướng dẫn em qua buổi nói chuyện góp ý, thảo luận đề tài nghiên cứu Nhờ có lời hướng dẫn, bảo đó, luận văn em ngày hoàn thiện Một lần nữa, em xin gửi lời cảm ơn chân thành đến Thầy Bài luận văn thực 06 tháng Ban đầu tơi cịn bỡ ngỡ vốn kiến thức em cịn hạn Do vậy, khơng tránh khỏi thiếu sót mong nhận ý kiến đóng góp quý Thầy Cô bạn học lớp cho luận văn cao học hoàn thiện Tp.Hồ Chí Minh, tháng 12 năm 2019 Học viên Lưu Hải Nam iv LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ liệu dẫn chứng trình bày luận văn tham khảo từ cơng trình liên quan liệu Tất số liệu kiểm tra thực nghiệm thực chưa có phần nội dung luận văn nộp để lấy cấp trường hay trường khác Học viên Lưu Hải Nam v .n0 crAo DUC vA TRLT0NG DAr HgC DAorAo cQNG ^ flrPHAM I{rTHU/IT rsAruH pud Hb cui wrrwH 36:1,478/QD-DHSPKT vE viQc giao trb tii tuf,n uOa xA HOr cH0 NGHIA vrpr NAM DQc Ifrp - Tr.r - Hanh phric Tp Hb Chi "u, HrEU TRU0NG TRTTONG D Ar Minh, ngdy 28 thdng ,?yIfl]ir'*"r*-ii HO C hu6ng dan B ndm 201"8 nim zoLg Sr/ PHAM Kv THUaT Tp Hb CHi MrNH CIn cfr Quy6t dinh s6 a26/TTg 27 thilng 10 ndm 1976 cfra Thti tudng Chfnh phri vE mQt sd vdn db cdp b6ch mang ludi c6c trulng dai hoc vi Quy6t dinh sd 17F,/Z\A\IQD-TTg 10 thdng 10 nim 2000 cfia Thri tu&ng Chinh phti vE viQc td chfrc lai Dai hoc Qu6c gia Thinh Phd Hb Chi Minh, t6ch Trudng Dqi hgc Su pham Ki thuQt Thinh ph6 Hb chi Minh tn;c rhuQc 86 Gi6o dgc vi Ddo t4o; Cin cir Quy6t clinh s6 70/2014/QD-TTg 10 rh6ng 12 ndm 20L4 cfia Thfi tudng Chfnh phfi vE vi6c ban hinh DiEu 16 trulng Dai hoc; crn cr? Quy6t dinh s6 937 /eD-TTg ngly 30 th6ng nim zo17 vB vi6c ph6 duyQt dE 5n thi clidm d6i mdi co chd ho4t ddng cria Trwlng Dai hoc Su ph4m Ki thuat Tp Hb Chf Minh; cin cr? Thdng tu sd 1,5/2014/TT-BGDDT ngiy 1,s/s/2074 ciua 86 Gido dui vi Dio t4o vE viQc Ban hinh Qui chd dio tao trinh clQ thqc si; Cdn crl vio Bi6n bAn bAo vQ Chuy6n dE cria nginh Khoa hoc mdy tfnh vio n$y 22 /AB /20t8; X6t nhu chu c6ng tdc vi khA ning c6n b0; X6t dE nghi cfia Tru&ng phdng DAo tao, DiEu Giao clB tii QUYfr DfNH: LuAn vdn t6t nghiCp thac si vh ngudi hu6ng d5n Cao hoc nim 20LB cho: HQc vi6n Lwu Hdi Nam Khoa hgc mdy tfnh Nslnh lh - \ r I en 0e tar 'n Mrr*" MSHV: LTBLSO9 Phdt,hidn Motif trdn Time Series dya vdo gidi thuAt cfia Nguydn Thdnh Scn Thli gian thrrc hign Tir ngdy 2B/B/2018 ildn ngdy ZB/02/2079 DiEu Giao cho Phdng Edo tao quAn l1f, thuc hi6n theo clfing Qui chd dio tao trinh d0 thac si cria BO Gi6o duc & Elo tao ban hinh Diiiu Tru&ng c6c dcrn vi, phdng Dio tao, c6c Khoa qu6n nginh cao hoc vh cdc Ong [BA) c6 t6n tai DiEu chiu tr6ch nhi6m thi hinh quydr dinh ndy Quydt dinh c6 hi6u luc kd tir ngey ky./ + TS, u Nd nhQn t - BGH [dd biSt); - Nhu cliBu 3; - Luu: VT, SDH [3b) gP,16C' Ki ''! ! ' riUl Hình 6.5 So sánh thời gian thực thi thuật toán liệu chuỗi thời giant hay đổi 20.000 điểm, 30.000 điểm 40.000 điểm với chiều dài motif cố định 512 điểm Hình 6.5 So sánh thời gian thực thi tập liệu chuỗi thời Brain thay đổi với motif có chiều dài cố định 512 điểm  Kết thực nghiệm tập liệu Brain nhận xét sau: Dựa vào kết thực nghiệm từ bảng 7.3, bảng 7.5, bảng 7.7, bảng 7.9 Hình 6.4 nhận xét sau: - Tất thuật toán chạy cho vị trí phát motif giống - Các thuật toán cải tiến MOEN, MASS HIME nhanh nhiều so với thuật toán MK thời gian liệu chiều dài motif cần tìm thời gian thực thi nhanh thuật toán HIME, thuật toán MASS phù hợp cho việc khai phá liệu lớn - Về khoảng cách tốt thuật tốn MOEN tốt tìm motif có chiều dài thay đổi Dựa vào bảng 8.1 Hình 6.5 ta có nhận xét ta thay đổi chiều dài chuỗi thời gian để tìm motif sau: - Thay đổi chiều dài chuỗi thời gian giúp cho việc phát motif nhanh chóng tiết kiệm thời gian giảm không gian nhớ, thuật toán đề xuất nhanh thuật toán cải tiến Abdullah Mueen cho kết vị trí phát motif giống - Khoảng cách tốt thuật toán MOEN 88 Tổng kết:  Trong chương dựa vào số liệu lấy từ tập mẫu mà tác giả cung cấp tập liệu lấy từ nhiều nguồn internet liệt kê đầu chương, Việc sử dụng liệu để tiến hành thực nghiệm tất bốn thuật toán bao gồm MK, MOEN,MASS HIME để tìm motif Với số liệu thực nghiệm qua tập liệu thấy cho kết khả quan mặt thời gian thực thi Tất vị trí phát motif trùng khớp thuật toán Thời gian thuật tốn đề xuất ln nhanh nhiều lần so với thuật toán nguyên thủy thuật toán MK Abdullah Mueen Eamonn Keogh Thuật toán MOEN tác giả  Trong thực nghiệm thay đổi chiều dài chuỗi thời gian cho tất liệu ngưỡng 50000 thay đổi chiều dài motif 128, 256, 512,1024.Thay đổi độ dài liệu chuỗi thời gian 20000 điểm, 30000 điểm 40000 điểm tìm motif có độ dài cố định 512 điểm áp dụng cho thuật toán phát motif để đánh giá hiệu quả, thời gian thực thi thuật toán  Từ bảng thực nghiệm so sánh (Hình 4.6, 4.7, 5.2,5.3, 5.8, 5.9, 6.4, 6.5) mang lại thấy thuật toán MASS HIME mang lại kết khả quan nhiều so với hai thuật toán MK MOEN.Tuy nhiên thuật tốn MOEN cho kết tìm kiếm motif có khoảng cách tốt nên chất lượng motif tìm tốt  Các motif tìm từ thuật toán motif xấp xỉ 89 KẾT LUẬN Phát motif liệu chuỗi thời gian vấn đề thu hút nhiều quan tâm năm gần Các giải thuật phát motif liệu chuỗi thời gian đối diện với vấn đề liệu phát sinh ngày lớn dần lên làm cho giải thuật chạy lâu phụ thuộc lớn vào hạ tầng phần cứng nhớ máy tính vi xử lý Xuất phát từ thuật toán MK MOEN, có nhiều thuật tốn cải tiến cách sử dụng phương pháp biến đổi miền tần số áp dụng phương pháp gộp ký hiệu hóa giúp tăng tốc thuật tốn lên nhiều lần thuật toán MASS thuật toán HIME Trong luận văn này, việc sử dụng thuật toán MK, MOEN, MASS HIME để phát motif hữu hiệu Và thuật toán MASS HIME vượt qua khó khăn mà thuật tốn MK MOEN gặp phải q trình phát motif thời gian thực thi lâu liệu chuỗi thời gian tương đối lớn Các kết mà motif tìm tương đối xác so với thuật toán MK MOEN Hướng phát triển: Bên cạnh thuật toán áp dụng phép biến đổi rời rạc hóa liệu để thu giảm liệu chuỗi thời gian giải thuật MASS HIME hạn chế cần phải xem xét khắc phục sau: - Chiều dài motif người dùng định nghĩa phương pháp thử sửa sai - Giải thuật không nhạy với loại liệu phân bố thưa áp dụng phép đo khoảng cách Euclide dẫn đến khoảng cách tốt thuật tốn khơng giống Vì thời gian hạn chế, sử dụng máy tính laptop khơng thể thiết lập thông số liệu chuỗi thời gian cực lớn để tiến hành đánh giá kết thực nghiệm thuật toán cách tốt hướng tiếp cận cho tương lai sử dụng dòng server cấu hình cao dung lượng nhớ vi xử lý cao để thực nghiệm lại tất liệu tác giả với độ dài chuỗi thời gian lớn 90 TÀI LIỆU THAM KHẢO [1] Exact Algorithm to Find Time Series Motifs Internet: Lengths Internet: http://alumni.cs.ucr.edu/~mueen/MK/, 12/05/2018 [2] Enumeration of TimeSeries Motifs of All http://www.cs.unm.edu/~mueen/Projects/MOEN/index.html, 10/05/2018 [3] Keogh E., 2015, A Tutorial Finding Repeated Structure in Time Series Data, In 2015 SIAM International Conference on DATA MINING, SDM2015, Vancouver, Canada [4] Ada Wai-chee Fu, Oscar Tat-Wing Leung, Eamonn Keogh, Jessica Lin “Finding Time Series Discords Based on Haar Transform” (2006),In ADMA 2006, Pages 3141 [5] Haemwaan Sivaraks Chotirat Ann Ratanamahatan (2015) “Robust and Accurate Anomaly Detection in ECG Artifacts Using Time Series Motif Discovery” Computational and Mathematical Methods in Medicine Volume 2015, Article ID 453214, 20; Internet: http://dx.doi.org/10.1155/2015/453214 [6] D Yankov, E Keogh, J Medina, B Chiu, and V Zordan Detecting time series motifs under uniform scaling In Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’07, pages 844–853, 2007 [7] J.Lin, E.Keogh, J.Medina, S.Lonardi, P.Patel “Finding Motifs in Time Series”, Porceedings of 2𝑡ℎ Workshop on Temperal Data Mining, at the 8𝑡ℎ ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD03) 2003, pp.493-498 [8] Christos Faloutsos Fast subsequence matching in time-series databases Conference on Data Engineering, p.314-325, February 14-18, 1994 [9] H T Lam, N D Pham, and T Calders Online discovery of top-k similar motifs in time series data SIAM Conference on Data Mining, SDM ’11, 2011 [10] Y Li, J Lin, and T Oates Visualizing variable-length time series motifs pages 895– 906, 2012 [11] Gao, Y., Lin, J HIME: discovering variable-length motifs in large-scale time series Knowl Inf Syst 61, 513–542 (2019) [12] J.W Cooley, “How the FFT gained acceptance,” IEEE Signal Processing Magazine, vol 9, pp 10-13, January 1992 91 [13] R Agrawal, C Faloutsos, and A Swami, “Efficient Similarity Search In Sequence Databases”, Research Report, IBM Almaden Research Center, San Jose, California, 1993 [14] Kin-Pong Chan and Ada Wai-Chee Fu Ecient time series matching by wavelets In Proceedings of the 15th International Conference on Data Engineering, pages 126-133 IEEE Computer Society, 1999 [15] Lin J., Keogh, E., Lonardi, S., and Chiu, B., 2003, A Symbolic Representation of Time Series, with Implications for Streaming Algorithms, In Proceedings of 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discover, DMKD 2003, California, USA, pp 2-11 [16] A Mueen, E.Keogh, QZhu, S.Cash and B.West, “Exact Discovery of Time Series Motifs”, SLAM International Conference on Data Mining (SDM09), 2009 [17] B.Chiu, E.Keogh and Lonardi, “Probabilistic Discovery of Time Series Motifs”, Porcessdings of the 9𝑡ℎ International Conference on Knowledge Discovery and Data Mining ( KDD 03) 2003, pp 493-498 92 TỔNG QUAN VỀ CÁC THUẬT TOÁN PHÁT HIỆN MOTIF TRÊN DỮ LIỆU CHUỖI THỜI GIAN OVERVIEW OF MOTIF DETECTION ALGORITHMS ON TIME SERIES Lưu Hải Nam1 Trường đại học Sư phạm Kỹ thuật TP.HCM TÓM TẮT Dữ liệu chuỗi thời gian ứng dụng phổ biến nhiều lĩnh vực khoa học kỹ thuật, kinh tế tài chính, mơi trường thời kỳ 4.0 Trong ứng dụng này, việc phát motif hay gọi tìm mẫu lặp liệu chuỗi thời gian công việc cần thiết để phục vụ công việc cao gom cụm, phân lớp, khai phá luật kết hợp v.v Thuật toán phát motif thực cải tiến thuật tốn tìm kiếm chuỗi truy vấn xem có xuất liệu chuỗi thời gian? Có nhiều thuật toán phát motif đề xuất, mơ hình thuật tốn tối ưu gồm thuật toán sau MOEN [2], MASS (Mueen’s Algorithm for Similarity Search) [4], HIME (Hierarchical based Motif Enumeration) [3] dựa vào tiền đề chung phương pháp biến đổi miền tần số (FFT – Fast Fourier Tranform) thu giảm số chiều cấu trúc mục không gian đa chiều Bài tổng quan điểm qua nghiên cứu sử dụng phương pháp rút trích đặc trưng phục vụ cho thuật tốn phát motif liệu chuỗi thời gian lớn thực nghiệm tất liệu mà tác giả cung cấp để kiểm tra tính đắn tất cà thuật tốn Từ khóa: Chuỗi thời gian; phát motif; biến đổi nhanh miền tần số; thu giảm số chiều; rời rạc hóa; mục không gian đa chiều ABSTRACT Time series is very popular in many fields such as science and technology, financial economics, environment in the 4.0 period In these applications, the motif discovery, or iterative pattern search in time series is necessary for higher tasks such as clustering, classification, association rule mining, etc The motif detection algorithm is actually an improvement of the query string search algorithm to see if it appears in the time series? There are many proposed motif algorithms, but the models of the optimal algorithms include the following algorithms MOEN [2], MASS (Mueen's Algorithm for Similarity Search) [4], HIME (Hierarchical based Motif Enumeration) [3] based on the common premise that the method of frequency domain transformation (FFT - Fast Fourier Tranform) and reduction of dimensional dimensions and multidimensional spatial index structures This overview reviews recent studies using specific extraction methods for the motif detection algorithm on empirically large time series on all data sets provided by the authors, issued to check the correctness of all the above algorithms Keywords: Time series; Motif discovery; Fast Fourier Tranform; Reduction of dimensional dimensions; Multidimensional spatial index structures 93 GIỚI THIỆU Một chuỗi thời gian (time series) tập hợp quan sát thực theo thời gian Các tập chuỗi thời gian thường lớn với nhiều kiểu liệu khác tồn lĩnh vực khác khoa học, y học tài Motif chuỗi truy vấn có hình dạng tương đồng tồn liệu chuỗi thời gian Phát Motif tảng cần thiết để khai phá liệu chuỗi thời gian phục vụ cho công việc cao cấp Vài lĩnh vực áp dụng phát Motif: - Dự báo dự thời thiết ngành khí tượng - Phân tích hành vi người dùng ngành kinh tế - Phát khn mặt có tồi liệu chuỗi thời gian cục phòng chống tội phạm - Phát chứng động kinh y học dựa vào liệu điện não đồ Brain Bài viết mô tả tồng quan thuật toán phát Motif cải tiến gần liệu chuỗi thời gian Những phương pháp đề xuất áp dụng cho phép truy vấn mẫu lặp nhanh xác với độ đo tương tự mềm dẻo hữu hiệu không bị ảnh hưởng biến đổi liệu sai sót liệu CÁC PHÉP ĐO LIÊN QUAN Đối với toán phát motif liệu chuỗi thời gian liệu biểu diễn thành chuỗi số thực, ví dụ sau 𝑇 = 𝑡1 , 𝑡2 , … , 𝑡𝑛 Cho hai chuỗi thời gian 𝑇 = 𝑡1 , 𝑡2 , … , 𝑡𝑛 𝑄 = 𝑞1 , 𝑞2 , … , 𝑞𝑚 với 𝑛 ≫ 𝑚 Ta cần phải tính độ đo tương tự SIM(T,Q) chuỗi thời gian  Các độ đo tương tự Có nhiều độ đo tương tự giới thiệu áo dụng cho thuật toán phát motif Minkowski, Euclid, DTW v.v Một số thuật tốn phát motif ln ưu tiên sử dụng phép đo khoảng cách Euclid sử dụng lân cận [2] (lower bound) 𝐿𝐵 cho thuật toán Tuy nhiên số trường hợp phép đo 𝐿𝐵 tỏ q cứng nhắc khơng thích nghi với liệu chuỗi thời gian nhiễu, không thích nghi với phép biến đổi tịnh tiến (shifting), co dãn biên độ (scaling), hay xoắn trục thời gian động (Dynamic Time Warping) Do đó, cần có phép đo mềm dẻo hiệu phép đo xoắn thời gian động, hệ số tương quan ví dụ 2.1 Độ đo Euclide Cho hai chuỗi thời gian 𝑇 = 𝑡1 , 𝑡2 , … , 𝑡𝑛 𝑄 = 𝑞1 , 𝑞2 , … , 𝑞𝑛 độ đo khoảng cách Euclid hai chuỗi thời gian cho công thức 𝑛 𝐷 (𝑇, 𝑄) = √∑(𝑡𝑖 − 𝑞𝑖 )2 𝑖=1 Độ đo khoảng cách Euclid có ưu điểm dễ hiểu, dễ tính tốn, dễ mở rộng trong hầu hết thuật phát motif Tuy nhiên phép đo lại có nhược điểm nhạy cảm với liệu nhiễu Cách đo có dạng sau 94 Hình 1: Mơ hình cách tính khoảng cách query (q) chuỗi thời gian (t) qua khung cửa sổ trượt hình dạng gần tương đồng Ta có ví dụ sau Hình 2, hai đường biểu diễn giống hình dạng lệch thời gian Do vậy, tính khoảng cách cách ánh xạ 1-1 khơng cịn xác dẫn tới kết cuối khơng xác Hình Diễn tả cách tính khoảng cách query với cửa sổ trượt (chuỗi con) chuỗi thời gian tịnh tiến từ trái qua phải chuẩn hóa 2.2 Hệ số tương quan Pearson Cho hai chuỗi thời gian t, q có chiều dài m ta có cơng thức hệ số tương quan sau 𝑐𝑜𝑟𝑟(𝑡, 𝑞) = ∑𝑚 𝑖=1 𝑡𝑖 𝑞𝑖 − 𝑚𝜇𝑡 𝜇𝑞 𝑚𝜎𝑡 𝜎𝑞 ∑𝑚 ∑𝑚 𝑖=1 𝑡𝑖 𝑖=1 𝑡𝑖 𝑣ớ𝑖 𝜇𝑡 = 𝑣à 𝜎𝑥 = 𝑚 𝑚 Ta có cơng thức để tính khoảng cách từ mối quan hệ độ đo Euclide hệ số tương quan Pearson [2] sau: 𝑑 (𝑡, 𝑞) = √2𝑚(1 − 𝑐𝑜𝑟𝑟(𝑡, 𝑞)) 2.3 Độ đo xoắn thời gian động (Dynamic Time Warping, DWT) Việc so trùng hai đường biểu diễn liệu chuỗi thời gian t, q cách đo khoảng cách cặp điểm 1-1 (điểm thứ i đường t so với điểm thứ i đường q) không phù hợp số trường hợp hai đường có Hình So sánh cặp chuỗi liệu có hình dạng giống lệch thời gian Vì vậy, để khắc phục nhược điểm ta phải có phép đo mềm dẻo Có nghĩa điểm ánh xạ với nhiều điểm ánh xạ không thẳng hành (Hình 1b) Phương pháp gọi xoắn thời gian động (Dynamic Time Warping - DWT) Cho hai chuỗi thời gian 𝑇 = 𝑡1 , 𝑡2 , … , 𝑡𝑚 𝑄 = 𝑞1 , 𝑞2 , … , 𝑞𝑛 ta có cơng thức tính khoảng cách sau: 𝐷𝑊𝑇(𝑇, 𝑄) = √𝐷(𝑚, 𝑛) Hình Hai chuỗi thời gian áp dụng phép đo DTW 95 Phép đo đề xuất Bernt Clifford, 1994 Chi tiết cách tính DWT tham khảo [1] Phương pháp DWT có ưu điểm cho kết xác so với độ đo Euclid cho phép nhận diện mẫu có hình dạng giống có chiều dài thời gian khác Hình 2b Tuy nhiên phương pháp địi hỏi nhớ tính tốn phải lớn khơng phù hợp xử lý khối liệu lớn Gần đây, có thuật toán sử dụng phương pháp áp dụng cho việc phát motif hiệu quà nhanh nhiều so với thuật toán giới thiệu trước  Chuẩn hóa liệu khung cửa sổ trượt khơng gian Z để tính tốn hay cịn gọi chuẩn hóa zero mean  Tính khoảng cách phép đo Eulid giửa query chuỗi khung sổ trượt thuật tốn có độ phức tạp O(nm) Với n, m khoảng cách chuỗi thời gian T khoảng cách query Q 3.2 So trùng chuỗi CÁC THUẬT TOÁN Phát motif liệu chuỗi thời gian từ giới thiệu năm 2002 A.Mueen E.Keogh với thuật toán phát motif liệu âm nhạc gọi tắt MK [1] phân tích thành hai dạng so trùng toàn chuỗi so trùng chuỗi liệu chuỗi thời gian 3.1 So trùng toàn chuỗi Là chuỗi cần tìm chuỗi liệu thời gian có kích thước Bài toán áp dụng cho việc phát motif dựa vào giải thuật Brute Force thuật toán phát motif âm nhạc MK A.Mueen E.Keogh có cấu trúc sau: Là chuỗi truy vấn nhỏ nhiều so với chuỗi liệu thời gian ban đầu Bài toán giới thiệu năm 2014 với tên thuật toán MOEN [2] thuật toán MASS [4] năm 2015 A.Mueen cộng Năm 2018 thuật toán HIME [3] Các thuật tốn có nhiệm vụ tìm đoạn liệu chuỗi thời gian ban đầu tương tự đoạn liệu cần truy vấn dựa vào phương pháp thu giảm phương pháp rời rạc hóa 1) Thuật tốn MOEN: thuật tốn bỏ qua việc chuẩn hóa liệu cửa sổ trượt cho vòng lặp Tuy độ phức tạp O(nm) tốc độ tăng gấp 2X so với thuật toán MK bỏ qua lần gọi hàm  Quét liệu chuỗi thời gian cửa sổ trượt Hình 96 2) Thuật tốn MASS: áp dụng chương trình thuật tốn MOEN liệu chuyển đổi miền tần số áp dụng phép biến đổi fourier nhanh có độ phức tạp O(nlogn) Với thuật toán tốc độ xử lý gấp 20 lần so với thuật toán nguyên thủy gấp 10 lần so với thuật toán MOEN 3) Thuật toán HIME: thuật toán áp dụng phương pháp rời rạc hóa liệu SAX ([7], [8]) sử dụng phương pháp thu giảm số chiều PAA liệu coi chuẩn hóa SAX trình ánh xạ biểu diễn PAA chuỗi thời gian thành chuỗi ký tự rời rạc.Ở thuật toán nhanh lần so với thuật toán MASS nhiều lần với thuật toán MOEN, MK cho kết CÁC PHƯƠNG PHÁP THU GIẢM SỐ CHIỀU Dữ liệu chuỗi thời gian thường lớn Tìm kiếm hay phát mẫu lặp (motif) khó khăn liệu nhiễu khơng đồng nhiều Chính vậy, cần phải áp dụng số phương pháp biến đổi để thu giảm độ lớn liệu ban đầu Các phương pháp thường gọi kỹ thuật thu giảm số chiều (dimensionality reduction) có cấu trúc chung sau: a Thiết lập độ đo tương tự d b Thiết kế kỹ thuật thu giảm số chiều để rút trích đặc trưng có chiều dài k (nghĩa đặc trưng gồm k gíá trị) với k xử lý hữu hiệu cấu trúc mục không gian đa chiều c Cung cập độ đo tương tự d không gian đặc trưng k chiều đảm bảo phải theo điều kiện 𝑑𝑘 (𝑋 ′ , 𝑌 ′ ) ≤ 𝑑 (𝑋, 𝑌) (1) Điều kiện (1) có nghĩa hàm tính khoảng cách khơng gian đặc trưng (hay không gian thu giảm) hai chuỗi liệu thời gian biến đổi 𝑋 ′ , 𝑌′ từ hai chuỗi thời gian ban đầu 𝑋, 𝑌 phải chặn khoảng cách thật chúng không gian nguyên thủy ban đầu Điều kiện (1) thường gọi điều kiện chặn ký hiệu 𝐿𝐵 Có số phương pháp để thu giảm số chiều áp dụng cho thuật tốn phát motif phương pháp biến đổi sang miền tần số (FFT – Fast Fourier Tranform), phương pháp biến đổi wavelet rời rạc (DWT – Discrete Wavelet Tranform) phương pháp xấp xỉ gộp đoạn (PAA – Piecewise Aggregate Approximation)  Phương pháp biến đổi fourier nhanh (FFT) [5]: đường liệu ban đầu biểu diễn đường sin cosin có dạng cơng thức sau: 𝑛 𝐶 (𝑡 ) = ∑ 𝐴𝑘 cos(2𝜋𝑤𝑘 𝑡𝐵𝑘 sin(2𝜋𝑤𝑘 𝑡)) 𝑘=1 Ngồi khả nén liệu, khả tương thích với phép đo khoảng cách Euclide tốt Phép biến đổi fourier nhanh đề xuất ứng dụng số thuật tốn ơng A.Mueen phù hợp với nhiều đường biểu diễn liệu khác thuật tốn có độ phức tạp 𝑂(𝑛𝑙𝑜𝑔𝑛).phép 97 THỰC NGHIỆM Để kiểm tra đánh giá thuật toán đề xuất bao gồm thuật toán MK, Thuật Toán MOEN, thuật toán MASS thuật tốn HIME, chúng tơi sử dụng máy  Bộ liệu chuỗi thời gian fullEOG gồm 50.000 điểm liệu, chiều dài chuỗi 1024 điểm 48730 MASS HIME 48730 48730 48730 13.642.046 Location motif MOEN 41.015.737 MK 2.299.538.162 FullEOG length motif 1024 point 2.299.538.162 𝑛 𝜑𝑛,𝑘 (𝑡 ) = 2 𝜑(2𝑛 𝑡 − 𝑘 ), 𝑡 ∈ 𝑅 Phương pháp DWT hiệu quà mã hóa đơn giản nhanh, độ phức tạp tuyến tính  Phương pháp xấp xỉ gộp đoạn (PAA – Piecewise Aggregate Approximation): phương pháp E.Keogh công đề xuất năm 2001 Phương pháp đơn giản, ta xấp xỉ k giá trị liền kề thành giá trị trung bình cộng k điểm tiếp tục từ trái qua phải, với phương pháp này, thời gian tính tốn nhanh cách biểu diễn hỗ trợ nhiều phép đo khoảng cách  Phương pháp xấp xỉ gộp ký hiệu hóa – SAX: Lin E.Keogh cộng đề xuất phương pháp rời rạc hóa có tên xâp xỉ gộp ký hiệu hóa (Symbolic Aggregate Approximation SAX) dựa phương pháp thu giảm số chiều PAA giả sử liệu thu giảm chuẩn hóa SAX trình ánh xạ biểu diễn PAA chuỗi thời gian thành chuỗi ký tự rời rạc áp dụng thuật tốn HIME tính Lenovo T440p core I5 4200M Ram 12GB để chạy Bộ liệu tác giả cung cấp [2] tìm kiếm internet với kết sau: Run Times 02:30:35 01:46:42 00:04:11 00:01:10 Best so far 43,068 30,796 34,209 13.642 Numbers of call Euclide Distance biến đổi áp dụng thuật toán MASS  Phương pháp biến đổi wavelet rời rạc (DWT): phương pháp k.Chan W.Fu đề xuất năm 1999 [6] Phương pháp DWT giống phép biến đổi FFT, nhiên đường khơng phải đường lượng giác sin hay cosin mà đường Haar định nghĩa sau: Hình Thực nghiệm liệu chuỗi thời gian fullEOG gồm 50.000 điểm liệu, chiều dài chuỗi 1024 điểm 98  Bộ liệu LSF5_10 gồm 50.000 điểm liệu chiều dài chuỗi 1024 điểm LSF5_10 HIME 13641 13641 21.444.357 13641 MASS 29.889.735 13641 MOEN 2.299.538.162 Numbers of call Euclide Distance Location motif MK 2.299.538.162 length motif 1024 point Run Times 03:15:10 02:41:49 00:03:53 00:02:04 Best so far 46,440 24,045 34,670 34,196 Hình Thực nghiệm liệu chuỗi thời gian LSF5_10 gồm 50.000 điểm liệu, chiều dài chuỗi 1024 điểm KẾT LUẬN Bài viết điểm qua nghiên cứu ông A.Mueen công viết liên quan gần lãnh vực phát motif liệu chuỗi thời gian Những nghiên cứu dựa vào cách rút trích đặc trưng để thu giảm số chiều phục vụ cho việc phát motif Có ba phương pháp cho việc rút trích đặc trưng trình bày thuật toán phép biến đổi sang miền tần số, phép biến đổi rời rạc hóa phương pháp xấp xỉ gộp ký hiệu hóa Dựa vào thực nghiệm từ thuật toán ta nhân thấy thuật toán HIME sử dụng phương pháp xấp xỉ gộp ký hiệu hóa cho kết nhanh nhiều lần so với thuật toán ông A.Mueen đề xuấ thuật toán MASS Mặc dù có nhiều cải tiến thuật tốn phát motif trình bày.Tuy nhiên, dựa vào nguồn liệu mà tác giả đề xuất không xác liệu thực tế lớn liệu nhiễu nhiều khó khăn việc rút trích đặc trưng Do vậy, cần có thuật tốn xác nhanh tương lai để hỗ trợ cho khai phá liệu chuỗi thời gian áp dụng cho tất liệu khác đo kết thực nghiệm cho kết chuẩn xác 99 TÀI LIỆU THAM KHẢO [1] Exact Algorithm to Find Time Series Motifs.Internet: http://alumni.cs.ucr.edu/~mueen/MK/, 12/05/2018 [2] Enumeration of TimeSeries Motifs of All Lengths Internet: http://www.cs.unm.edu/~mueen/Projects/MOEN/index.html, 10/05/2018 [3] Yifeng Gao, Jessica Lin HIME: discovering variable-length motifs in large-scale time series Internet: https://www.semanticscholar.org/paper/Efficient-discovery-oftime-series-motifs-with-in-GaoLin/c98716bce5290358467e466dec6795beca202bae [4] Keogh E., 2015, A Tutorial Finding Repeated Structure in Time Series Data, In 2015 SIAM International Conference on DATA MINING, SDM2015, Vancouver, Canada [5] Christos Faloutsos Fast subsequence matching in time-series databases Conference on Data Engineering, p.314-325, February 14-18, 1994 [6] Kin-Pong Chan and Ada Wai-Chee Fu Ecient time series matching by wavelets In Proceedings of the 15th International Conference on Data Engineering, pages 126-133 IEEE Computer Society, 1999 [7] Lin J., Keogh, E., Lonardi, S., and Chiu, B., 2003, A Symbolic Representation of Time Series, with Implications for Streaming Algorithms, In Proceedings of 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discover, DMKD 2003, California, USA, pp 2-11 [8] Ada Wai-chee Fu, Oscar Tat-Wing Leung, Eamonn Keogh, Jessica Lin “Finding Time Series Discords Based on Haar Transform” (2006),In ADMA 2006, Pages 3141 Tác giả chịu trách nhiệm viết: Họ tên: Lưu Hải Nam Đơn vị: Trung Tâm Thơng Tin Máy Tính – Trường Đại Học Sư Phạm Kỹ Thuật TP.HCM Điện thoại: 0918169944 Email:lhnam1976@gmail.com S K L 0 ... DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ LƯU HẢI NAM PHÁT HIỆN MOTIF TRÊN TIME SERIES DỰA VÀO GIẢI THUẬT CỦA MUEEN NGÀNH: KHOA HỌC MÁY TÍNH - 8480101... DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ LƯU HẢI NAM PHÁT HIỆN MOTIF TRÊN TIME SERIES DỰA VÀO GIẢI THUẬT CỦA MUEEN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 8480101... nhiều đưa toán phát motif hay năm gần trích dẫn tiền tố để phục vụ thuật toán cao cấp thuật toán MOEN, MASS HIME Hình 2.8 Các giải thuật phát motif phổ biến Các giải thuật phát motif không áp

Ngày đăng: 02/12/2021, 09:09

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[7] J.Lin, E.Keogh, J.Medina, S.Lonardi, P.Patel “Finding Motifs in Time Series”, Porceedings of 2 𝑡ℎ Workshop on Temperal Data Mining, at the 8 𝑡ℎ ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD03) 2003, pp.493-498 Sách, tạp chí
Tiêu đề: Finding Motifs in Time Series
[12] J.W. Cooley, “How the FFT gained acceptance,” IEEE Signal Processing Magazine, vol. 9, pp. 10-13, January 1992 Sách, tạp chí
Tiêu đề: How the FFT gained acceptance
[13] R. Agrawal, C. Faloutsos, and A. Swami, “Efficient Similarity Search In Sequence Databases”, Research Report, IBM Almaden Research Center, San Jose, California, 1993 Sách, tạp chí
Tiêu đề: Efficient Similarity Search In Sequence Databases
[16] A. Mueen, E.Keogh, QZhu, S.Cash and B.West, “Exact Discovery of Time Series Motifs”, SLAM International Conference on Data Mining (SDM09), 2009 Sách, tạp chí
Tiêu đề: Exact Discovery of Time Series Motifs
[17] B.Chiu, E.Keogh and Lonardi, “Probabilistic Discovery of Time Series Motifs”, Porcessdings of the 9 𝑡ℎ International Conference on Knowledge Discovery and Data Mining ( KDD 03) 2003, pp. 493-498 Sách, tạp chí
Tiêu đề: Probabilistic Discovery of Time Series Motifs
[1] Exact Algorithm to Find Time Series Motifs. Internet: http://alumni.cs.ucr.edu/~mueen/MK/, 12/05/2018 Link
[2] Enumeration of TimeSeries Motifs of All Lengths. Internet: http://www.cs.unm.edu/~mueen/Projects/MOEN/index.html, 10/05/2018 Link
[3] Keogh E., 2015, A Tutorial 2 Finding Repeated Structure in Time Series Data, In 2015 SIAM International Conference on DATA MINING, SDM2015, Vancouver, Canada Khác
[6] D. Yankov, E. Keogh, J. Medina, B. Chiu, and V. Zordan. Detecting time series motifs under uniform scaling. In Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’07, pages 844–853, 2007 Khác
[8] Christos Faloutsos. Fast subsequence matching in time-series databases. Conference on Data Engineering, p.314-325, February 14-18, 1994 Khác
[9] H. T. Lam, N. D. Pham, and T. Calders. Online discovery of top-k similar motifs in time series data. SIAM Conference on Data Mining, SDM ’11, 2011 Khác
[10] Y. Li, J. Lin, and T. Oates. Visualizing variable-length time series motifs. pages 895–906, 2012 Khác
[14] Kin-Pong Chan and Ada Wai-Chee Fu. Ecient time series matching by wavelets. In Proceedings of the 15th International Conference on Data Engineering, pages 126-133.IEEE Computer Society, 1999 Khác
[15] Lin J., Keogh, E., Lonardi, S., and Chiu, B., 2003, A Symbolic Representation of Time Series, with Implications for Streaming Algorithms, In Proceedings of 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discover, DMKD 2003, California, USA, pp. 2-11 Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w