Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 98 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
98
Dung lượng
1,18 MB
Nội dung
Đại Học Quốc Gia Thành Phố Hồ Chí Minh Trường Đại Học Bách Khoa HUỲNH THỊ THU THỦY NHẬN DẠNG CHUỖI CON BẤT THƯỜNG NHẤT TRONG TẬP DỮ LIỆU CHUỖI THỜI GIAN Chuyên ngành: Khoa học máy tính LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 11 năm 2009 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học : PGS TS Dương Tuấn Anh - Cán chấm nhận xét : PGS TS Đỗ Phúc - Cán chấm nhận xét : TS Võ Thị Ngọc Châu - Luận văn thạc sĩ bảo vệ HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày 08 tháng 03 năm 2010 ĐẠI HỌC QUỐC GIA TP HCM CỘNG HOÀ XÃ HỘI CHỦ NGHIÃ VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc Lập - Tự Do - Hạnh Phúc Tp HCM, ngày tháng năm 2009 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên : Huỳnh Thị Thu Thủy -Giới tính : Nam / Nữ ; Ngày, tháng, năm sinh : 11/12/1974 Nơi sinh : TP HCM -Chuyên ngành : Khoa học Máy tính Khoá : 2007 -1- TÊN ĐỀ TÀI : NHẬN DẠNG CHUỖI CON BẤT THƯỜNG NHẤT TRONG TẬP DỮ LIỆU CHUỖI THỜI GIAN 2- NHIỆM VỤ LUẬN VĂN : - Tìm hiểu cơng trình liên quan như: Các phương pháp thu giảm số chiều, phương pháp rời rạc hóa liệu, phương pháp nhận dạng chuỗi bất thường - Cải tiến giải thuật chân phương nhóm Keogh, cải tiến giải thuật tìm chuỗi bất đồng đĩa nhóm Yankov Hiện thực giải thuật chân phương nhóm Keogh, giải thuật thuật tìm chuỗi bất đồng đĩa nhóm Yankov giải thuật cải tiến 3- NGÀY GIAO NHIỆM VỤ : 05/09/2008 4- NGÀY HOÀN THÀNH NHIỆM VỤ : 30/11/2009 -5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN : PGS TS Dương Tuấn Anh -Nội dung đề cương Luận văn thạc sĩ Hội Đồng Chuyên Ngành thông qua CÁN BỘ HƯỚNG DẪN CN BỘ MÔN (Học hàm, học vị, họ tên chữ ký) QL CHUYÊN NGÀNH PGS TS Dương Tuấn Anh Nhận dạng chuỗi bất thường liệu chuỗi thời gian LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Ngày 21 tháng 11 năm 2009 Huỳnh Thị Thu Thủy Huỳnh Thị Thu Thủy i Nhận dạng chuỗi bất thường liệu chuỗi thời gian LỜI CẢM ƠN Tôi xin gởi lời cảm ơn chân thành sâu sắc đến PGS.TS.Dương Tuấn Anh, người Thầy tận tình hướng dẫn tơi suốt q trình học cao học tạo điều kiện để tơi hồn thành luận văn Tơi xin cảm ơn gia đình động viên tạo điều kiện tốt để tơi tiếp tục theo đuổi việc học tập nghiên cứu Tôi trân trọng dành tặng thành luận văn cho tất người thân gia đình tơi Tơi xin hứa tiếp tục cố gắng phấn đấu để vươn cao Huỳnh Thị Thu Thủy ii Nhận dạng chuỗi bất thường liệu chuỗi thời gian TĨM TẮT Bài tốn tìm kiếm chuỗi liệu thời gian bất thường ngày nhiều nhà nghiên cứu quan tâm Với xuất liệu chuỗi thời gian nhiều ứng dụng từ lĩnh vực tài lĩnh vực khoa học, địi hỏi phải đề giải pháp tìm kiếm chuỗi bất thường liệu chuỗi thời gian cách hiệu gần gũi người sử dụng để từ đưa định đắn Đề tài đề nghị giải pháp tìm kiếm chuỗi bất thường liệu chuỗi thời gian có kích thước lớn hàng terabyte Có loại giải pháp cần thiết kế thực cách đánh giá độ tương tự kỹ thuật tìm kiếm chuỗi bất thường Chúng sử dụng khoảng cách Euclid làm độ đo tương tự chuỗi liệu chuỗi thời gian đề giải pháp để tìm kiếm chuỗi bất thường liệu chuỗi thời gian có dung lượng hàng terabyte chứa đĩa cứng Ngồi chúng tơi cịn đề nghị giải pháp tìm chuỗi bất thường mà không cần tạo tập sở liệu để chứa chuỗi Giải pháp có ưu điểm khơng cần tạo tập sở liệu chứa chuỗi nên không tốn nhiều dung lượng đĩa Qua việc thực nghiệm nhiều liệu mẫu cho thấy, kỹ thuật tìm kiếm chuỗi bất thường mà đề nghị hiệu liệu có dung lượng từ vài kilobyte đến liệu có dung lượng lớn hàng terabyte Huỳnh Thị Thu Thủy iii Nhận dạng chuỗi bất thường liệu chuỗi thời gian ABSTRACT The problem of finding unusual time series has recently attracted much attention With the increasing amount of time-series data in many application, from financial to scientific, it is important to study methods of finding the most unusual subsequence in Time series effciently and user friendly for business decission making The thesis proposes method of efficient finding the most unusual subsequence in multi-terabyte time series Two kinds of the methods, similarity measures and finding the most unusual subsequence techniques, are designed and implemented We use Euclidean distance as the basis for similarity measurement on subsequences in time-series data and design an innovative finding technique which detects the most subsequences in multi-terabyte time series Moreover we propose a method of finding the most unusual subsequence that not create a file of subsequences database The advantage of this method is the file of subsequences database must not be created, so can save disk space The experiments show that the finding unusual subsequence techniques we propose are also efficient with multi-kilobyte data to multi-terabyte Huỳnh Thị Thu Thủy iv Nhận dạng chuỗi bất thường liệu chuỗi thời gian MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii TÓM TẮT iii ABSTRACT iv MỤC LỤC .v DANH MỤC HÌNH ix DANH MỤC BẢNG xi Chương 1: GIỚI THIỆU 1.1 Dữ liệu chuỗi thời gian 1.2 Những yêu cầu đòi hỏi phải nhận dạng chuỗi bất thường liệu chuỗi thời gian 1.3 Mục tiêu giới hạn đề tài .3 1.4 Tóm lược kết đạt .5 1.5 Cấu trúc luận văn Chương 2: Cơ sở lý thuyết 2.1 Dữ liệu chuỗi thời gian 2.2 Độ đo tương tự .8 2.2.1 Độ đo Minkowski 2.2.2 Phương pháp xoắn thời gian động .10 2.3 Thu giảm số chiều .11 2.4 Rời rạc hóa liệu 13 2.5 Nhận dạng bất thường 14 Huỳnh Thị Thu Thủy v Nhận dạng chuỗi bất thường liệu chuỗi thời gian Chương 3: NHỮNG CƠNG TRÌNH LIÊN QUAN 16 3.1 Các phương pháp thu giảm số chiều 16 3.1.1 Phương pháp biến đổi Fourier rời rạc 16 3.1.2 Phương pháp biến đổi Wavelet rời rạc 17 3.1.3 Phương pháp phân rã giá trị riêng 18 3.1.4 Phương pháp xấp xỉ gộp đoạn 19 3.2 Các phương pháp rời rạc hóa liệu 19 3.2.1 Phương pháp xấp xỉ gộp ký hiệu hóa .20 3.2.2 Phương pháp rời rạc hóa dựa góc nghiêng 21 3.2.3 Phương pháp xấp xỉ gộp ký hiệu hóa khả mục 22 3.3 Các phương pháp nhận dạng chuỗi bất thường 22 3.3.1 Phương pháp HOT SAX 23 3.3.2 Phương pháp biến đổi wavelet sử dụng gia tố 25 3.3.3 Phương pháp cửa sổ thích nghi 26 3.3.4 Phương pháp phát chuỗi bất đồng đĩa 27 3.3.5 Các phương pháp nhận dạng bất thường khác 29 Chương 4: CẢI TIẾN PHƯƠNG PHÁP PHÁT HIỆN CHUỖI CON BẤT THƯỜNG NHẤT TRÊN ĐĨA .31 4.1 Các khái niệm dùng nhận dạng chuỗi bất thường .31 4.1.1 Dữ liệu chuỗi thời gian 31 4.1.2 Chuỗi 31 4.1.3 Cửa sổ trượt .31 4.1.4 Hàm tính khoảng cách .32 4.1.5 Sự trùng khớp 33 4.1.6 Sự trùng khớp không tầm thường 33 Huỳnh Thị Thu Thủy vi Nhận dạng chuỗi bất thường liệu chuỗi thời gian 4.1.7 Chuỗi bất đồng 33 4.1.8 K chuỗi bất đồng 34 4.2 Phương pháp cải tiến giải thuật tìm chuỗi bất đồng .35 4.3 Phát 47 Chương 5: KẾT QUẢ THỰC NGHIỆM 52 5.1 Bộ liệu điện tâm đồ ECG- 218c3_ipnoman 53 5.1.1 Bảng tổng kết thời gian thực 53 5.1.2 Biểu đồ so sánh chi phí CPU đồ thị biểu diễn chuỗi bất đồng .54 5.2 Bộ liệu tỉ giá EURUSD 56 5.2.1 Bảng tổng kết thời gian thực 56 5.2.2 Biểu đồ so sánh chi phí CPU đồ thị biểu diễn chuỗi bất đồng .57 5.3 Bộ liệu điện power_data 59 5.3.1 Bảng tổng kết thời gian thực 59 5.3.2 Biểu đồ so sánh chi phí CPU đồ thị biểu diễn chuỗi bất đồng .60 5.4 Bộ liệu chứng khoán Stock 61 5.4.1 Bảng tổng kết thời gian thực 61 5.4.2 Biểu đồ so sánh chi phí CPU đồ thị biểu diễn chuỗi bất đồng .62 5.5 So sánh giải thuật DADD cải tiến giải thuật DADD truy xuất chuỗi trực tiếp đĩa 64 5.5.1 Bộ liệu tỉ giá Eurusd .64 5.5.2 Bộ liệu điện power data .66 Chương 6: KẾT LUẬN .69 6.1 Tổng kết 69 6.2 Đóng góp đề tài 70 6.3 Hướng phát triển 71 Huỳnh Thị Thu Thủy vii Nhận dạng chuỗi bất thường liệu chuỗi thời gian Như chọn giải pháp truy xuất trực tiếp người dùng phải đánh đổi việc hao tốn dung lượng đĩa tốc độ tìm kiếm chuỗi bất đồng nhanh việc nhiều thời gian thực chương trình tìm kiếm chuỗi bất đồng bù lại tốn dung lượng đĩa 6.2 Đóng góp đề tài Đề nghị giải pháp tìm chuỗi bất thường chuỗi liệu thời gian lớn hàng terabyte với thời gian nhanh Ưu điểm giải pháp truy xuất trực tiếp chuỗi liệu thời gian ban đầu, không cần phải thu giảm số chiều hay rời rạc hóa liệu, khơng cần dùng cấu trúc liệu khác mà tìm chuỗi bất thường với thời gian nhanh Độ phức tạp thời gian tìm chuỗi bất thường 2*n Đề nghị giải pháp tìm chuỗi bất thường chuỗi liệu thời gian lớn hàng terabyte mà không cần tạo tập sở liệu chứa chuỗi chuỗi thời gian ban đầu Hiện thực chương trình tạo tập sở liệu chứa chuỗi chuỗi liệu thời gian, tập sở liệu có tính gia tăng theo thời gian (incremental) Nghĩa chuỗi liệu thời gian có bổ sung thêm điểm tập sở liệu khơng cần tạo lại, mà cần thêm chuỗi liên quan đến điểm liệu vừa thêm Thực nghiệm liệu chứng khoán, tỉ giá ngoại tệ, điện tâm đồ,v.v.để đánh giá kết giải pháp cải tiến so với kết giải pháp mà tác giả trước đưa Các kết thực nghiệm cho thấy tính hiệu phương pháp cải tiến so với phương pháp dùng cơng trình nghiên cứu khác phát chuỗi bất thường Huỳnh Thị Thu Thủy 70 Nhận dạng chuỗi bất thường liệu chuỗi thời gian 6.3 Hướng phát triển Đề tài nêu vấn đề tìm chuỗi bất thường số cách giải vấn đề Tuy nhiên nhiều khía cạnh cần phải nghiên cứu thêm để đề tài hồn thiện Trong đề tài kết thực nghiệm thực nghiệm liệu chứng khoán, tỉ giá ngoại tệ, điện não đồ với dung lượng chuỗi liệu thời gian ban đầu 20 megabytes tập sở liệu dung lượng 100 megabytes Do cần phải có thử nghiệm nhiều tập sở liệu lớn thực thêm giải pháp khác loại liệu khác để đưa kết luận giải pháp thích hợp ứng với loại liệu Trong giải pháp ta thấy chúng phụ thuộc vào số thông số: chiều dài chuỗi con, giá trị K chuỗi bất đồng Tính hiệu giải pháp phụ thuộc nhiều vào thông số Trong có thơng số lập trình để tìm chiều dài chuỗi con, thực nghiệm cho thấy cịn tùy thuộc vào loại liệu Vì có thời gian đề tài tiếp tục thực việc xác định chiều dài chuỗi Hơn nữa, kết tìm chuỗi bất thường đưa vào ứng dụng khác gom nhóm, phân lớp, dự báo liệu… Đây hướng nghiên cứu tốt giúp cho hệ hỗ trợ định lĩnh vực kinh tế, xã hội công nghiệp Huỳnh Thị Thu Thủy 71 Nhận dạng chuỗi bất thường liệu chuỗi thời gian THƯ MỤC THAM KHẢO [1] J Ameen R.Basha (2006) Mining Time Series for Identifying Unusual Subsequences with Applications 1st International Conference on Innovative Computing, Information and Control, 1:574-577, 2006 [2] R Agrawal, C Faloutsos A Swami (1993) Efficient similarity search in sequence databases In proceeding of the 4th Conference on Foundations of Data Organization and Algorithms [3] D Berndt, J Clifford (1996) Finding patterns in time series: a dynamic programming approach Journal of advances in Knowledge Discovery and Data Mining, AAAI/MIT Press, Menlo Park, CA, pp 229-248 [4] S Budalakoti, A Srivastava, R Akella, E Turkov (2006) Anomaly detection in large sets of high-dimensional symbol sequences Tech Rep NASA TM-2006214553, NASA Ames Research Center [5] Y Bu, T-W Leung, A Fu , E Keogh, J Pei S Meshkin (2007) WAT: Finding TopK Discords in Time Series Database In Proceedings of the 2007 SIAM International Conference on Data Mining (SDM'07), Minneapolis, MN, USA, April 26-28, 2007 [6] K Chan A W Fu (1999) Efficient time series matching by wavelets In Proceedings of the 15th IEEE Int'l Conference on Data Engineering Sydney, Australia, Mar 23-26 pp 126-133 [7] K Chan, A.W Fu C Yu (2003) Haar wavelets for efficient similarity search of time-series: with and without time warping IEEE Transactions on Knowledge and Data Engineering, May–June pp 686–705 [8] M Chuah F Fu (2007) ECG Anomaly Detection via Time Series Analysis, Technical Report LU-CSE-07-001, 2007 [9] A Ghoting, M Otey S Parthasarathy (2004) LOADED: Link-based Outlier and Anomaly Detection in Evolving Data Sets In Proceedings of the IEEE International Conference on Data Mining (ICDM), 2004 Huỳnh Thị Thu Thủy 72 Nhận dạng chuỗi bất thường liệu chuỗi thời gian [10] Nguyen Quoc Viet Hung (2007) Nhận dạng mẫu đáng quan tâm tập liệu chuỗi thời gian Luận văn thạc sĩ, Khoa Khoa Học Kỹ Thuật Máy Tính, Đại Học Bách Khoa Tp Hồ Chí Minh [11] Nguyen Quoc Viet Hung Duong Tuan Anh (2007) Combining SAX and Piecewise Linear Approximation to Improve Similarity Search on Financial Time Series In proceedings of International Symposium on Information Technology Convergence,(ISITC 2007) November 23-24, 2007 Jeonju, Korea Pp 58-62 [12] N Japkowicz, C Myers M A Gluck (1995) A novelty detection approach to classification In Proceedings of International Joint Conference on Arti¯cial Intelligence 518-523 [13] F Korn, H Jagadish C Faloutsos (1997) Efficiently supporting ad hoc queries in large datasets of time sequences In proceedings of the 1997 ACM SIGMOD International Conference on Management of Data, May 13-15, pp 289-300 [14] E Keogh (2007) Mining Shape and Time Series Databases with Symbolic Representations Tuorial of the 13rd ACM Interantional Conference on Knowledge Discovery and Data Mining (KDD 2007), August 12-15, 2007 [15] E Keogh, J Lin, A Fu H Van Herle (2005) Finding the Unusual Medical Time Series: Algorithms and Applications IEEE Transactions on Information Technology in Biomedicine [16] E Keogh, J Lin W Fu (2005) HOT SAX: Efficiently Finding the Most Unusual Time Series Subsequence In proceedings of the 5th IEEE International Conference on Data Mining (ICDM 2005), November 27-30, 2005, pp 226-233 [17] E Keogh, K Chakrabarti, M Pazzani S Mehrotra (2000) Dimensionality Reduction for Fast Similarity Search in Large Time Series Databases Knowledge and Information Systems 3(3), pp 263-286 [18] E Keogh, S Lonardi W Chiu (2002) Finding Surprising Patterns in a Time Series Database In Linear Time and Space In the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining July 23 – 26, 2002 Edmonton, Alberta, Canada Pp 550-556 Huỳnh Thị Thu Thủy 73 Nhận dạng chuỗi bất thường liệu chuỗi thời gian [19] B Lkhagva, Y Suzuki K Kawagoe (2006) Extended SAX: Extension of symbolic aggregate approximation for financial time series data representation In proc of Data Engineering Workshop, 2006 [20] B Lkhagva, Y Suzuki K Kawagoe (2006) New Time Series Data Representation ESAX for Financial Applications In proceedings of the International Special Workshop on Databases for Next-Generation Researchers (SWOD 2006) in conjunction with International Conference on Data Engineering (ICDE 2006), April 7, 2006, pp 17-22 [21] J Lin, E Keogh, A Fu H Van Herle (2005) Approximations to Magic: Finding Unusual Medical Time Series", the 18th IEEE International Symposium on ComputerBased Medical Systems, pp 329-334, 2005 [22] J Lin, E Keogh, P Patel S Lonardi (2002) Finding Motifs in Time Series In Proceedings of the 2nd Workshop on Temporal Data Mining, at the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining [23] J Lin, E Keogh, Patel, L Wei S Lonardi (2007) Experiencing SAX: A Novel Symbolic Representation of Time Series Data Mining and Knowledge Discovery Journal, 2007 [24] J Lin, E Keogh, S Lonardi B Chiu (2003) A Symbolic Representation of Time Series, with Implications for Streaming Algorithms In proceedings of the 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery San Diego, CA June 13 [25] J Ma S Perkins (2003) Online novelty detection on temporal sequences, in KDD ’03: Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, (New York, NY, USA), pp 613–618, ACM Press, 2003 [26] V Megalooikonomou, Q Wang, G Li C Faloutsos (2005) A Multiresolution Symbolic Representation of Time Series In proceedings of the 21st International Conference on Data Engineering (ICDE 2005), April 5-8, 2005, pp 668-679 [27] D Rafiei A Mendelzon (1997) Similarity-based queries for time series data In Proc of the ACM SIGMOD Conf., Tucson, AZ, May 1997 Huỳnh Thị Thu Thủy 74 Nhận dạng chuỗi bất thường liệu chuỗi thời gian [28] U Rebbapragada, P Protopapas, Carla E Brodley C Alcock (2007) Finding Anomalous Periodic Time Series, An Application to Catalogs of Periodic Variable Stars, 2007 [29] J Shieh E Keogh (2008) iSAX: Indexing and mining terabyte sized time series In proc of SIGKDD 2008 [30] W Scheirer M Chuah (2006) Network Intrusion Detection with Semantic-Aware Capability , in Proceedings of 2nd International Workshop on Security in Systems and Networks (SSN), 2006 [31] L Wei, E Keogh, X Xi (2006) SAXually Explicit Images: Finding Unusual Shapes In proceedings of the 6th IEEE International Conference on Data Mining (ICDM 2006), December 18-22, 2006, pp 711-720 [32] B Xia (1997) Similarity Search in Time Series Data Sets In Master thesis, Simon Fraser University, 1997 [33] D Yankov, E Keogh U Rebbapragada (2007) Disk Aware Discord Discovery: Finding Unusual Time Series in Terabyte Sized Datasets ICDM 2007 [34] X Zuo, X Jin (2005) Accurate Symbolization of Time Series In proceedings of the 9th Pacific-Asia Conference on Advances in Knowledge Discovery and Data Mining (PAKDD 2005), May 18-20, 2005, pp 764-770 Huỳnh Thị Thu Thủy 75 Nhận dạng chuỗi bất thường liệu chuỗi thời gian PHỤ LỤC A A.1 Mã giả cho giải thuật BFDD Function[dist, loc]=Brute_Force(T, n) best_so_far_dist = best_so_far_loc = NaN For p = to |T| - n + // Begin Outer Loop nearest_neighbor_dist = infinity For q = to |T| - n + // Begin Inner Loop IF | p – q | ≥ n // non-self match? IF nearest_neighbor_dist = Dist(tp, ,tp+n-1, tq, ,tq+n-1) 10 END 11 Dist(tp, ,tp+n-1, tq, ,tq+n-1) < nearest_neighbor_dist END // End non-self match test 12 END // End Inner Loop 13 IF nearest_neighbor_dist > best_so_far_dist 14 best_so_far_dist = nearest_neighbor_dist 15 best_so_far_loc = p 16 END 17 END // End Outer Loop 18 Return [best_so_far_dist , Best_so_far_loc] Hình A2: Mã giả cho giải thuật BFDD Huỳnh Thị Thu Thủy 76 Nhận dạng chuỗi bất thường liệu chuỗi thời gian A.2 Mã giả cho giải thuật HDD Function[dist, loc]=HDD(T, n) best_so_far_dist = best_so_far_loc = NaN For each p in T ordered by heuristic Outer nearest_neighbor_dist = infinity For each q in T ordered by heuristic Inner IF | p – q | ≥ n // non-self match? Break 10 END 11 IF 12 // Break out of Inner Loop Dist(tp, ,tp+n-1, tq, ,tq+n-1) < nearest_neighbor_dist nearest_neighbor_dist = Dist(tp, ,tp+n-1, tq, ,tq+n-1) 13 END END // End non-self match test 15 END 16 IF nearest_neighbor_dist > best_so_far_dist // End Inner Loop 17 best_so_far_dist = nearest_neighbor_dist 18 best_so_far_loc = p 19 // Begin Inner Loop IF Dist(tp, ,tp+n-1, tq, ,tq+n-1) < best_so_far_dist 14 // Begin Outer Loop END 20 END // End Outer Loop 21 Return [best_so_far_dist , Best_so_far_loc] Hình A2: Mã giả cho giải thuật HDD Huỳnh Thị Thu Thủy 77 Nhận dạng chuỗi bất thường liệu chuỗi thời gian A.3 Hai cấu trúc liệu hỗ trợ cho vòng lặp Inner Loop Outer Loop giải thuật HDD Hình A3: Hai cấu trúc liệu hỗ trợ cho vòng lặp Inner Loop Outer Loop Huỳnh Thị Thu Thủy 78 Nhận dạng chuỗi bất thường liệu chuỗi thời gian A.4 Mã giả cho giải thuật AWDD Function [dist, loc] = AWDD (T) best_so_far_dist = best_so_far_loc = NaN num_of_peaks = p=1 while p < |T| // locate each peak if is locally the biggest sanple peak_loc [num_of_peaks ++ ] = p end 10 end 11 outer_cnt = 12 p = peak_loc [0] 13 while p < peak_loc [num_of_peaks – ] + // Begin outer loop 14 nearest_neighbor_dist = infinity 15 outer_len = peak_pos [outer_cnt + ] – peak_pos [ outer_cnt ] 16 inner_cnt = 17 q = peak_loc [0] 18 while q < peak_loc [num_of_peaks -2 ] + // begin inner loop 19 inner_len = peak_pos [inner_cnt + 1] – peak_pos [ inner_cnt ] 20 if outer_len > inner_len 21 Compress … tp+outer_len to have a length of inner_len 22 end 23 if | p – q | ≥ ( outer_len, inner_cnt ) 24 if 25 Dist (tp…tp+outer_len, tq…tq+inner_len ) < nearest_neighbor_dist nearest_neighbor_dist = Dist (tp…tp+outer_len, tq…tq+inner_len ) 26 end 27 end 28 q = peak_loc [ ++ inner_cnt ] 29 end 30 if nearest_neighbor_dist > best_so_far_dist 31 best_so_far_dist = nearest_neighbor_dist 32 best_so_far_loc = p 33 end 34 P = peak_loc [ ++ outer_cnt ] 35 36 end Return [ best_so_far_dist, best_so_far_loc ] Hình A4 : Mã giả cho giải thuật AWDD Huỳnh Thị Thu Thủy 79 Nhận dạng chuỗi bất thường liệu chuỗi thời gian PHỤ LỤC B: CHỨNG MINH TÍNH ĐÚNG CỦA GIẢI THUẬT DADD Mệnh đề (Proposition 1): Lượng bất biến toàn cục (Global Invariant) Cho Si chuỗi thời gian tập liệu S d s khoảng cách từ Si đến lân i cận gần Si tập S Với tập C S, khoảng cách d c từ Si đến lân cận gần C i ln lớn d s Vậy d c ≥ d s i i i Thật vậy, lân cận gần Si thuộc C d s = d c Còn ngược lại, C i i khơng chứa lân cận gần Si, khoảng cách d c lớn d s i i Từ mệnh đề dẫn đến mệnh đề sau: Mệnh đề (Proposition 2): Sau hoàn thành lần quét đĩa thứ 1, tất ứng viên (candidates) chứa tập C chuỗi bất đồng Si mà khoảng cách từ chuỗi bất đồng Si đến chuỗi lân cận gần d s ≥ r i Chứng minh: Cho Si chuỗi bất đồng có khoảng cách đến lân cận gần d s ≥ r i Từ mệnh đề bất biến trên, ta có khoảng cách d c từ Si đến lân cận gần i tập C lớn d s Vì vậy, điều kiện dịng giải thuật i không thỏa mãn trường hợp chuỗi Si chuỗi Si thêm vào danh sách ứng viên (dòng 11) Huỳnh Thị Thu Thủy 80 Nhận dạng chuỗi bất thường liệu chuỗi thời gian Mệnh đề với việc phân tích đại diện cho lần quét đĩa thứ chứng minh tính toàn giải thuật Để rõ hơn, ta xét mệnh đề nói tính giải thuật : Mệnh đề (Proposition 3): Tính (correctness) Những bước chọn lựa ứng viên (candidates selection) tinh lọc (refinement) phát chuỗi bất thường chuỗi bất thường có khoảng cách đến lân cận gần tập S d s thỏa điều kiện d s ≥ r i Huỳnh Thị Thu Thủy i 81 Nhận dạng chuỗi bất thường liệu chuỗi thời gian PHỤ LỤC C: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt Viết tắt amplitude scale co giãn biên độ aumengted trie Cây gia tố breakpoint điểm chia classification phân loại clustering gom cụm dimensional reduction thu giảm số chiều discrete Fourier transform phép biến đổi Fourier rời rạc discrete Wavelet transform phép biến đổi Wavelet rời DWT rạc discretizeation rời rạc hóa distance khoảng cách feature đặc điểm frame khung longest common subsequence chuỗi chung dài match Sự trùng khớp mean giá trị trung bình discord Chuỗi bất đồng moving average trung bình di chuyển Top K discords K chuỗi bất đồng piecewise aggregate approximation xấp xỉ gộp đoạn projection Algorithm giải thuật chiếu Huỳnh Thị Thu Thủy DFT PAA 82 Nhận dạng chuỗi bất thường liệu chuỗi thời gian singular value decomposition phân rã trị kỳ dị SVD standard normal distribution phân bố chuẩn chuẩn hóa subsequence chuỗi Euclid distance Khoảng cách euclid symbolic aggregate approXimation xấp xỉ gộp ký hiệu hóa time series chuỗi thời gian time warping xoắn thời gian trivial match so trùng tầm thường data cleansing Làm liệu raw data Dữ liệu ban đầu data mining Khai phá liệu Disk Aware Discord Discovery Khám phá chuỗi bất DADD đồng đĩa Brute Force Discord Discovery Giải thuật Brute Force tìm BFDD chuỗi bất đồng SAX Adaptive Window-based Discord Discovery Tìm chuỗi bất đồng dựa vào AWDD cửa sổ trượt linh hoạt Wavelet and Augmented Trie Tên thuật tốn Tìm K chuỗi WAT bất đồng Proposed Discord Discovery Tên giải thuật đề nghị Huỳnh Thị Thu Thủy PDD 83 LÝ LỊCH TRÍCH NGANG Họ tên: HUỲNH THỊ THU THỦY Ngày tháng năm sinh: 11/12/1974 Nơi sinh: TP HCM Địa liên lạc: 23/9 đường TL4, KP3, phường Thạnh Lộc, quận 12, Tp HCM Email: huynh_thuy_74@yahoo.com QUÁ TRÌNH ĐÀO TẠO: Thời gian Trường đào tạo Chuyên ngành Trình độ đào tạo 1992-1997 Đại học Cần Thơ Tin học Kỹ sư 2007-2010 Đại học Bách Khoa, Đại Khoa học Máy tính Thạc sĩ học Quốc gia Tp HCM Q TRÌNH CƠNG TÁC: Thời gian Đơn vị cơng tác Vị trí 09/1997 - 07/2007 Trường Cao đẳng Sư phạm Kỹ thuật Vĩnh long Giáo viên 07/2007 – Trung tâm Ngoại ngữ Tin học Vin Hem Pich Giáo viên ... quan liệu chuỗi thời gian, yêu cầu đòi hỏi nhận dạng chuỗi bất thường liệu chuỗi thời gian tóm lược kết đề tài thực 1.1 Dữ liệu chuỗi thời gian Dữ liệu chuỗi thời gian (time series data) liệu. .. phải nhận dạng chuỗi bất thường liệu chuỗi thời gian Bài toán nhận dạng chuỗi bất thường liệu chuỗi thời gian tập trung vào việc thiết kế phương pháp tìm kiếm nhanh, xác hiệu chuỗi bất thường liệu. .. diễn liệu chuỗi thời gian Huỳnh Thị Thu Thủy Nhận dạng chuỗi bất thường liệu chuỗi thời gian Những khó khăn thách thức nghiên cứu liệu chuỗi thời gian: + Dữ liệu lớn: Ví dụ: Trong giờ, liệu điện