ĐẠI HỌC QUỐC GIA TP HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NGỌC MINH SO SÁNH HIỆU QUẢ HAI PHƢƠNG PHÁP PAA VÀ EPAA TRONG BÀI TỐN TÌM KIẾM TƢƠNG TỰ, VÀ HAI PHƢƠNG PHÁP SAX VÀ ESAX TRONG BÀI TOÁN NHẬN DẠNG CHUỖI CON BẤT ĐỒNG TRONG DỮ LIỆU CHUỖI THỜI GIAN Chuyên ngành : Khoa học máy tính Mã số : 60 48 01 LUẬN VĂN THẠC SĨ TP.HỒ CHÍ MINH, tháng 12 năm 2011 CƠNG TRÌNH ĐƢỢC HOÀN THÀNH TẠI TRƢỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM Cán hƣớng dẫn khoa học : (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét : (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét : (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn thạc sĩ đƣợc bảo vệ Trƣờng Đại học Bách Khoa, ĐHQG Tp HCM ngày tháng năm Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ luận văn thạc sĩ) Xác nhận Chủ tịch Hội đồng đánh giá LV Trƣởng Khoa quản lý chuyên ngành sau luận văn đƣợc sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƢỞNG KHOA………… ĐẠI HỌC QUỐC GIA TP.HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Hà Ngọc Minh MSHV: 09070451 Ngày, tháng, năm sinh: 26/09/1982 Nơi sinh: Hải Phịng Chun ngành: Khoa học máy tính Mã số : 60 48 01 TÊN ĐỀ TÀI: SO SÁNH HIỆU QUẢ HAI PHƢƠNG PHÁP PAA VÀ EPAA TRONG BÀI TỐN TÌM KIẾM TƢƠNG TỰ, VÀ HAI PHƢƠNG PHÁP SAX VÀ ESAX TRONG BÀI TOÁN NHẬN DẠNG CHUỖI CON BẤT ĐỒNG TRONG DỮ LIỆU CHUỖI THỜI GIAN NHIỆM VỤ VÀ NỘI DUNG: NGÀY GIAO NHIỆM VỤ : NGÀY HOÀN THÀNH NHIỆM VỤ: CÁN BỘ HƢỚNG DẪN: PGS.TS.Dƣơng Tuấn Anh Tp HCM, ngày tháng năm 20 CÁN BỘ HƢỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên chữ ký) (Họ tên chữ ký) TRƢỞNG KHOA KH & KTMT (Họ tên chữ ký) i LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ công trình khác nhƣ ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chƣa có phần nội dung luận văn đƣợc nộp để lấy cấp trƣờng trƣờng khác Ngày tháng năm 2011 Hà Ngọc Minh ii LỜI CẢM ƠN Tôi xin gởi lời cảm ơn chân thành sâu sắc đến PGS.TS Dƣơng Tuấn Anh, ngƣời thầy tận tình hƣớng dẫn tơi suốt q trình thời gian học cao học tạo điều kiện để hồn thành luận văn Tơi xin cảm ơn gia đình, bạn bè đơn vị động viên tạo điều kiện tốt để tơi tiếp tục theo đuổi việc học tập nghiên cứu Tôi trân trọng dành tặng thành luận văn cho bố mẹ Nhờ công lao dƣỡng dục bố mẹ mà có đƣợc thành nhƣ ngày hơm Con xin hứa tiếp tục cố gắng phấn đấu để vƣơn cao iii TÓM TẮT LUẬN VĂN Biểu diễn liệu chuỗi thời gian ngày đóng vai trị quan trọng tốn khai phá liệu chuỗi thời gian Mặc dù thời gian qua có nhiều phƣơng pháp biểu diễn liệu chuỗi thời gian đƣợc đề xuất giải đƣợc toán thực tế liên quan đến liệu chuỗi thời gian Tuy nhiên, lĩnh vực nghiên cứu, so sánh thực nghiệm hiệu phƣơng pháp biểu diễn liệu chuỗi thời gian cịn khiêm tốn chƣa đƣợc quan tâm thích đáng Từ thiếu thơng tin ƣu khuyết điểm phƣơng pháp biểu diễn liệu chuỗi thời gian gây khó khăn việc lựa chọn phƣơng pháp biểu diễn để làm nhiệm vụ khai phá liệu chuỗi thời gian Xuất phát từ thực trạng trên, đề tài lần tập trung vào lĩnh vực nghiên cứu, so sánh phƣơng pháp biểu diễn liệu chuỗi thời gian nhiệm vụ khai phá liệu chuỗi thời gian Chúng tiến hành so sánh hiệu EPAA PAA giải tốn tìm kiếm tƣơng tự có ứng dụng cấu trúc mục R*-tree; tiếp so sánh hiệu ESAX SAX giải toán tìm chuỗi bất đồng Qua thực nghiệm cho thấy, phƣơng pháp EPAA hiệu phƣơng pháp PAA ứng dụng vào tốn tìm kiếm tƣơng tự; phƣơng pháp ESAX hiệu phƣơng pháp SAX ứng dụng vào bải tốn tìm chuỗi bất đồng iv ABSTRACT The representation of time series plays more and more important role in time series data mining problems Although recently several time series representation methods have been proposed and basically they helped to solve many problems related to time series data However, the empirical comparison on the effectiveness of these time series representation methods still has been modest and has not attracted adequate attention Therefore, the lack of information about the advantages/disadvantages of the representation methods may incur difficulties in choosing the suitable representation methods for mining time series data This thesis will focus on comparing the efficiency of some representation methods in the time series data We empirically compare the effectiveness of the two dimensionality reduction methods, EPAA and PAA, in the similarity search with applying R*-tree index structure and the efficiency of the two discretization methods, ESAX and SAX, in the discord discovery Experiments show that EPAA is more effective than PAA in the similarity search; and ESAX is more effective than SAX in the discord discovery v MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii TÓM TẮT LUẬN VĂN iii ABSTRACT iv MỤC LỤC v MỤC LỤC HÌNH .ix MỤC LỤC BẢNG xii Chƣơng Phát biểu vấn đề .1 1.1 Dữ liệu chuỗi thời gian 1.1.1 Tìm kiếm tƣơng tự: 1.1.2 Phát chuỗi “bất đồng” 1.1.3 Các phƣơng pháp biểu diễn xấp xỉ 1.2 Mục tiêu giới hạn đề tài 1.2.1 Giải vấn đề thứ 1.2.2 Giải vấn đề thứ hai .7 1.3 Tóm lƣợc kết đạt đƣợc 1.3.1 Hệ thống tìm kiếm tƣơng tự 1.3.2 Hệ thống tìm chuỗi “bất đồng” .8 1.4 Cấu trúc luận văn Chƣơng Các cơng trình liên quan 11 2.1 Các cơng trình độ đo tƣơng tự 11 2.1.1 Độ đo Euclid 12 2.1.2 Độ đo xoắn thời gian động DTW 13 vi 2.2 Các cơng trình biểu diễn chuỗi thời gian 16 2.2.1 Các phƣơng pháp thu gi ảm số chiều 16 2.2.2 Các phƣơng pháp rời rạc hóa 21 2.3 Các cơng trình cấu trúc mục 23 2.3.1 K-D-Tree: 23 2.3.2 Quad Tree 23 2.3.3 R-Tree 23 2.3.4 R*-tree 23 2.4 Các thuật toán phát chuỗi “bất đồng” 24 2.4.1 Giải thuật hệ thống miễn dịch nhân tạo IMM 24 2.4.2 Giải thuật dựa TSA 25 2.4.3 Giải thuật Tarzan 25 2.4.4 Giải thuật BFDD 26 2.4.5 Giải thuật HDD 26 2.4.6 Giải thuật HOT SAX 26 Chƣơng Cơ sở lý thuyết 27 3.1 Phƣơng pháp rời rạc hóa SAX 27 3.2 Phƣơng pháp rời rạc ESAX 31 3.3 Giải thuật BFDD 33 3.4 Giải thuật HDD 34 3.5 Giải thuật HOT SAX 35 3.5.1 Mô tả cấu trúc liệu 36 3.5.2 Xây dựng heuristic 37 3.5.3 Xây dựng heuristic 37 vii 3.5.4 Cách tối ƣu khác 38 3.6 Cấu trúc mục R*-tree 38 3.6.1 Thêm nút R*-tree 40 3.6.2 Tìm kiếm R*-tree 43 Chƣơng Hệ thống ứng dụng 45 4.1 Hệ thống tìm kiếm tƣơng tự 45 4.1.1 Kiến trúc hệ thống 46 4.1.2 Khối tạo liệu 46 4.1.3 Khối biểu diễn liệu 49 4.1.4 Khối cấu trúc liệu 50 4.1.5 Khối tìm kiếm tƣơng tự 52 4.2 Hệ thống phát chuỗi bất đồng 53 4.1.1 Kiến trúc hệ thống 53 4.2.2 Khối tạo liệu (như phần 4.1.1) 54 4.2.3 Khối biểu diễn liệu 54 4.2.4 Khối cấu trúc liệu 55 4.2.5 Khối tìm kiếm chuỗi bất đồng 55 Chƣơng Thực nghiệm 56 5.1 Hệ thống tìm kiếm tƣơng tự 56 5.1.1 Tiêu chuẩn tiến hành thực nghiệm 56 5.1.2 Đánh giá kết thực nghiệm 56 5.2 Hệ thống tìm kiếm chuỗi “bất đồng” 69 5.2.1 Tiêu chuẩn tiến hành thực nghiệm 69 5.2.2 Đánh giá kết thực nghiệm 70 73 c) Thực nghiệm tập liệu điện não đồ EEG Hình 5.20 Số lần gọi hàm tính khoảng cách HOT SAX HOTESAX liệu EEG Số lần gọi hàm tính khoảng cách HOTSAX nhiều HOTESAX EEG Hình 5.21 Thời gian thực thi HOTSAX HOTESAX liệu EEG Thời gian thực thi HOTSAX nhiều thời gian thời gian thực thi HOTESAX EEG 74 d) Thực nghiệm tập liệu dự báo kiện ERP Hình 5.22 Số lần gọi hàm tính khoảng cách HOT SAX HOTESAX liệu ERP Số lần gọi hàm tính khoảng cách HOTSAX nhiều HOTESAX ERP Hình 5.23 Thời gian thực thi HOTSAX HOTESAX liệu ERP Thời gian thực thi HOTSAX nhiều thời gian thời gian thực thi HOTESAX ERP 75 e) Thực nghiệm tập liệu lƣợng POWER Hình 5.24 Số lần gọi hàm tính khoảng cách HOT SAX HOTESAX liệu POWER Số lần gọi hàm tính khoảng cách HOTSAX nhiều HOTESAX POWER Hình 5.25 Thời gian thực thi HOTSAX HOTESAX liệu POWER Thời gian thực thi HOTSAX nhiều thời gian thời gian thực thi HOTESAX POWER 76 f) Thực nghiệm liệu nhiệt độ khí hậu BOUNDERDIALY Hình 5.26 Số lần gọi hàm tính khoảng cách HOT SAX HOTESAX liệu BOUNDERDIA LY Số lần gọi hàm tính khoảng cách HOTSAX nhiều HOTESAX BOUNDERDIA LY Hình 5.27 Thời gian thực thi HOTSAX HOTESAX liệu BOUNDERDIA LY Thời gian thực thi HOTSAX nhiều thời gian thời gian thực thi HOTESAX BOUNDERDIALY 77 g) Thực nghiệm liệu chứng khoán STOCK Hình 5.28 Số lần gọi hàm khoảng cách HOT SAX HOTESAX liệu STOCK Số lần gọi hàm tính khoảng cách HOTSAX nhiều HOTESAX STOCK Hình 5.29 Thời gian thực thi HOTSAX HOTESAX liệu STOCK Thời gian thực thi HOTSAX nhiều thời gian thời gian thực thi HOTESAX STOCK 78 Nhận xét: Tổng quát, giải thuật HOTESAX hiệu so với giải thuật HOT SAX tiêu chí đánh giá thời gian thực thi số lần gọi hàm tính khoảng cách Tuy nhiên độ chênh lệch hiệu trêm tiêu chí sử dụng hai giải thuật không lớn Khi chiều dài chuỗi thời gian tăng chênh lệch độ hiệu giải thuật tăng Lý ứng dụng phƣơng pháp rời rạc hóa ESAX vào HOT SAX, liệu tinh giữ lại nhiều thông tin phƣơng pháp SAX Ngoài ra, chƣa thể biểu đồ cụ thể nhƣng trình thực nghiệm, thấy hiệu thuật toán HOT SAX sử dụng ESAX SAX phụ thuộc nhiều vào tần số thay đổi liệu thời gian nhƣ kích thƣớc ký tự dùng mã hóa a, độ dài chuỗi bất đồng n số chiều thu giảm w Cụ thể, liệu chuỗi thời gian có tần số thay đổi nhiều nhƣ EEG, ta nên chọn kích thƣớc ký tự dùng mã hóa a= (khơng cần phải lớn), n vừa đủ lớn giải thuật HOT SAX sử dụng ESAX hiệu nhiều so với sử dụng SAX Đối với liệu chuỗi thời gian có tần số thay đổi khơng nhiều nhƣ STOCK, giải thuật HOT SAX sử dụng ESAX hiệu rõ rệt sử dụng SAX độ dài chuỗi bất thƣờng lớn, kích thƣớc ký tự dùng mã hóa a=5 79 Chƣơng Kết luận Chƣơng tổng kết việc làm đƣợc, đóng góp luận văn nhƣ trình bày hƣớng mở rộng cho nghiên cứu sau 6.1 Tổng kết Luận văn tập trung vào lĩnh vực nghiên cứu, so sánh thực nghiệm phƣơng pháp biểu diễn liệu chuỗi thời gian nhiệm vụ khai phá liệu chuỗi thời gian Luận văn so sánh thực nghiệm, ƣu khuyết điểm hai phƣơng pháp biểu diễn liệu chuỗi thời gian đƣợc sử dụng phổ biến, đơn giản nhiệm vụ khai phá liệu phƣơng pháp PAA SAX Luận văn lần lƣợt kiểm tra hiệu hai phƣơng pháp biểu diễn xấp xỉ hai phƣơng pháp rời rạc hóa hai tốn quan trọng nhiệm vụ khai phá liệu chuỗi thời gian tốn tìm kiếm tƣơng tự tốn phát chuỗi bất đồng Đồng thời, luận văn sử dụng cấu trúc mục không gian nhƣ R*-tree để hỗ trợ, rút ngắn thời gian tìm kiếm mà đảm bảo xác 6.2 Những đóng góp đề tài - Luận văn trình bày cách so sánh, đánh giá thực nghiệm hiệu hai phƣơng pháp thu giảm số chiều hai phƣơng pháp rời rạc hóa liệu chuỗi thời gian - Kết thực nghiệm cho thấy phƣơng pháp EPAA hiệu phƣơng pháp PAA tốn tìm kiếm tƣơng tự liệu kiểm thử; phƣơng pháp ESAX hiệu phƣơng pháp SAX toán tìm kiếm chuỗi bất đồng liệu kiểm thử Ngồi ra, tính hiệu hai phƣơng pháp phụ thuộc nhiều vào tần số biến đổi loại liệu nhƣ tham số đầu vào thuật toán sử dụng 80 6.3 Hƣớng phát triển Đề tài so sánh thực nghiệm phƣơng pháp biểu diễn chuỗi liệu thời gian tập liệu:AEM, BouderDaily, ECG, ERP, EEG, POWER, STOCK nên khơng tránh khỏi thiếu sót Bên cạnh chiều dài chuỗi liệu thời gian ban đầu chƣa đủ lớn (chúng thực nghiệm với chiều dài tối đa 20000) nên chƣa đánh giá hết hiệu phƣơng pháp ESAX áp dụng vào tốn tìm chuỗi bất đồng nhƣ hiệu phƣơng pháp EPAA áp dụng vào tốn tìm kiếm tƣơng tự Do đó, cần phải kiểm nghiệm nhiều tập liệu kiểm nghiệm với chiều dài chuỗi liệu thời gian thật lớn để kết đề tài đƣợc xác Các đề xuất mở rộng đề tài nhƣ sau: - Cần đƣa hàm tính khoảng cách cho phƣơng pháp xấp xỉ gộp đoạn mở rộng EPAA xác - Cần mở rộng việc nghiên cứu, so sánh thực nghiệm phƣơng pháp biểu diễn liệu chuỗi thời gian nhiều toán khai phá liệu khác - Thực nghiệm nhiều để có sở đƣa loại liệu chuỗi thời gian phù hợp với phƣơng pháp biểu diễn xấp xỉ 81 Tài liệu tham khảo [1] Agrawal R., Faloutsos C And Swami A.N., Efficient Similarity Search in Sequence Databases, Proceedings of the th International Conference on Foundations of Data Organization and Algorithm (FODO), pp 69-84, 1993 [2] Beckmann N., Kriegel H-P., Schneider R., Seeger B., The R*-Tree: An Efficient and Robust Access Method for Points and Rectangles Proceedings of the ACM SIGMOD International Conference on Management of Data , SIGMOD90, Atlantic City, New York, USA, pp 322-331, 1990 [3] Berndt D and Clifford J., Using dynamic time warping to find patterns in time series, Proceedings of the AAAI Workshop on Knowledge Discovery in Databases, KĐ-94, Seattle, Washington, USA, pp 359-370, 1994 [4] Bentley J.L, Multidimensional binary search trees used for associative searching, Journal of Communications of the ACM, Vol 18, No 9, pp 509-517, 1975 [5] Chakrabarti S., Sarawagi S., & Dom B., Mining surprising patterns using temporal description length, Proceedings of the 24 th International Conference on Very Large Databases, pp 606 - 617, 1998 [6] Chan K., Fu A W., Efficient Time Series Matching by Wavelets, Proceedings of the 15 th IEEE International Conference on Data Engineering, Sydney, Australia, pp.26-133, 1999 [7] Chen Q., Chen L., Lian X., Liu Y., & Yu J.X., Indexable PLA for Efficient Similarity Search, Proceeding of the 33 rd International Conference on Very Large Databases, 2007 [8] Dasgupta D & Forrest S., Novelty detetion in time series data using ideas from immunology, Proceeding of the International Conference on Intelligent Systems, 1999 [9] Dƣơng Tuấn Anh, Tổng quan tìm kiếm tƣơng tự liệu chuỗi thời gian, Kỷ yếu Hội nghị Khoa học Công nghệ Đại học Bách Khoa TPHCM-Phân ban Khoa học Kỹ thuật máy tính, 2009 [10] Faloutsos C., Ranganathan M., & Manolopoulos Y., Fast Subsequence Matching in Time Series Databases, Proceedings of the ACM SIGMOD International Conference on Management of Data , May 24-27, Mineapolis, MN, pp 419-429, 1994 [11] Finkel R A., Bentley J L., Quad trees: A data structure for retrieval on composite keys, Acta Information, Volume 4, pp 1-9, 1974 82 [12] Fint E and Pratt K B., Indexing of compressed time series, In M Last, A Kandel and H Bunke (Eds) Data Mining in Time Series Databases, World Scientific Publishing, 2004 [13] Fu T C., Chung F L., Luk R and Ng C M., Financial Time Series Indexing Based on Low Resolution Clustering, Proceedings of the th IEEE International Conference on Data Mining (ICDM’04) Workshop on Temporal Data Mining: Algorithms, Theory and Applications, pp 5-14, November 1, 2004 Lin J., Keogh E., Lonardi S., Chiu B., A Symbolic Representation of Time Series, with Implications for Streaming Algorithms, Proceedings of the 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery, San Diego, CA, 2003 [14] [15] Lkhagva B., Suzuki Y., Kawagoe K., Extended SAX: Extension of symbolic aggregate approximation for financial time series data representation, DEWS, 4A-i8, 2006 [16] Guttman A., R-Trees: A Dynamic Index Structure for Spatial Searching, Proceedings of the 1984 ACM SIGMOD International Conference on Management of Data, pp 47-57 ISBN 0-89791-128-8, 1984 [17] Keogh E and Pazzani M., An enhanced representation of time series which allows fast and accurate classification, clustering and relevance feedback, Proceedings of the th International Conference on Knowledge Discovery and Data Mining, New York, pp 239-241, 1998 [18] Keogh E., Chakrabarti K., Pazzani M & Mehrotra S., Dimensionality reduction for fast similarity search in large time series databases, Journal of Knowledge and Information Systems, 2000 [19] Keogh E., et al., An online algorithm for segmenting time series, Proceedings of the IEEE International Conference on Data Mining , California, USA, pp 289-296, 2001 [20] Keogh E., Chakrabarti K., Pazzani M and Mehrotra S., Locally Adaptive Dimensionality Reduction for Indexing Large Time Series Databases, Proceedings of the 2001 ACM SIGMOD Conference on Management of Data , May 21-24, pp 151-162, 2001 [21] Keogh E., Lonardi S & Chiu W., Finding Surprising Patterns in a Time Series Database in Linear Time and Space, Proceedings of the th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining , Edmonton, Alberta, Canada, pp 550-556, July 23 – 26, 2002 [22] Keogh E., Ratanamahatana C.A., Exact indexing of dynamic time warping, In 28th International Conference on Very Large Data Bases , pp 406417, Hong Kong, 2004 83 [23] Keogh E., Jessica Lin, HOT SAX: Finding the Most Unusual Time Series Subsequence: Algorithms and Applications, CA 9252 ©, 2005 [24] Keogh E., A Tutorial on Indexing and Mining Time Series Data, Proceedings of the 32 th International Conference on Very Large Databases (VLDB2006), Seoul, Korea, 2006 [25] Kim S., Park S., Chu W., An index-based approach for similarity search supporting time warping inlarge sequence databases, Proceedings of the 17th international conference on data engineering, pp 607–614, 2001 [26] Ng M K., Huang Z., & Hegland M “Data-mining massive time series astronomical data sets - a case study Proceedings of the nd Pacific-Asia Conference on Knowledge Discovery and Data Mining, pp 401- 402, 1998 [27] Perng C., Wang H., Zhang S R and Parker D S., Landmarks: A New Model for Similarity-based Pattern Querying in Time Series Databases, Proceeding of the 16 th International Conference on Data Engineering (ICDE), pp 23-32, 2000 [28] Shahabi C., Tian X., & Zhao W., TSA-tree: A wavelet – based approach to improve the efficiency of multilevel surprise and trend queries, Proceeding of the 12 th International Conference on Scientific and Statistical Database Management, 2000 [29] Shieh J and Keogh E iSAX: Indexing and Mining Terabyte Sized Time Series, Proceeding of the 14th ACM SIGKDD international Conference on Knowledge Discovery and Data Mining, 2008 [30] Vlachos M., Gunopulos D., Das G., Indexing Time Series under Condition of Noise, in M.Last, A Kandel & H Bunke (Eds), Data Mining in Time Series Databases, World Scientific, Publishing, 2004 [31] Welch D & Quinn http://wwwmacho.mcmaster.ca/Project/Overview/status.html , 1999 P., [32] Whitehead B & Hoyt W A., A function approximation approach to anomaly detection in propulsion system test data, Proceeding of the AIAA/ SAE/ ASME/ ASEE 29 th Joint Propulsion Conference, Monterey, CA, June 1993 [33] Yairi T., Kato Y., & Hori K., Fault detection by mining association rules from house keeping data, Proceeding of the International Symposium on Artificial Intelligence, Robotics & Automation in Space, 2001 [34] Yi B-K & Faloutsos C., Fast Time Sequence Indexing for Arbitrary Lp Norm, Proceedings of the VLDB, Cairo, Egypt, Sept, 2000 [35] Yi B., Jagadish K., Faloutsos H., Efficient retrieval of similar time sequences under time warping, In: ICDE 98, pp 23–27, 1998 84 [36] Huỳnh Trần Quốc Bửu, Nghiên cứu phƣơng pháp biểu diễn chuỗi thời gian iSAX ứng dụng phƣơng pháp vào toán nhận dạng chuỗi bất thƣờng liệu chuỗi thời gian, Luận văn thạc sĩ, khoa Khoa học kỹ thuật máy tính, trường Đại học Bách Khoa Tp.Hồ Chí Minh, 2010 [37] Huỳnh Hữu Việt, Nâng cao hiêu nhận dạng mẫu liệu chuỗi thời gian cấu trúc mục đa chiều, Luận văn thạc sĩ, khoa Khoa học kỹ thuật máy tính, trường Đại học Bách Khoa Tp.Hồ Chí Minh, 2009 [38] Keogh E., Xi X., Wei L., & Ratanamahatana C.A The UCR Time series Classification/Clustering, Homepage:www.cs.ucr.edu/~eamonn/time_series_data, 2006 [39] Nguyễn Quốc Việt Hùng, Nhận dạng mẫu đáng quan tâm tập liệu thời gian, Luận văn thạc sĩ, khoa Khoa học kỹ thuật máy tính, trường Đại học Bách Khoa Tp.Hồ Chí Minh, 2007 A PHỤ LỤC A: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt Ad hoc query Adaptive piecewise constant approximation Amplitude scale Approximate search Augmented trie Base cardinality Base line Brand-and-bound search Breakpoint Categorization Classification Clipped data Clustering Codeword Continuity Data adaptive Data dictated Data normalization Deletion Deviation Dimensionality reduction Discord Discrete Fourier transform Discrete Wavelet transform Discretizeation Distance Dynamic time warping Extended SAX Feature Hidden Markov model Hierarchical tree Indexable SAX Indexing Insertion Longest common subsequence Lower bound Truy vấn ngẫu nhiên Xấp xỉ số đoạn thích nghi Co giãn biên độ Tìm kiếm xấp xỉ Cây gia tố Lƣợng số Đƣờng Tìm kiếm nhánh cận Điểm ngắt Phân loại liệu Phân loại Xén liệu Gom cụm Từ mã Tính liên tục Thích nghi liệu Điều khiển liệu Chuẩn hóa liệu Xóa nút Độ lệch Thu giảm số chiều Chuỗi bất đồng Phép biến đổi Fourier rời rạc Phép biến đổi Wavelet rời rạc Rời rạc hóa Khoảng cách Xoắn thời gian động Phƣơng pháp SAX mở rộng Đặc trƣng Mô hình Markov Ẩn Cây phân cấp Phƣơng pháp SAX khả mục Lập mục Chèn nút Chuỗi chung dài Chặn dƣới Viết tắt APCA DFT DWT DTW HMM iSAX LCSS B Minimum bounding rectangles Minimum-Cut Monotonicity Neighbourhood Non data adaptive Non-self match Normal behavior Novel behavior Novelty detection Overlapping region Percentage of disk I/Os Piecewise aggregate approximation Piecewise linear approximation Query data processing Representation of data Root Node Segment Shifting Similarity measure Similarity search Sliding window Split policy Subsequence Subsequence matching Whole matching Sufix tree Summarization Surprising behavior Symbolic Aggregate Approximation Terminal Node Time series Time warping Trail Upper bound Warping window Word Pruning power Hình chữ nhật bao đóng nhỏ Nhát cắt nhỏ Tính đơn điệu Vùng lân cận Khơng thích nghi liệu Khớp khơng tầm thƣờng Hành vi bình thƣờng Hành vi lạ thƣờng Phát điểm bất đồng Vùng phủ lấp Tỉ lệ phần trăm số lần truy xuất đĩa Xấp xỉ gộp đoạn Xấp xỉ tuyến tính đoạn Truy vấn liệu Biểu diễn liệu Nút gốc Phân đoạn liệu Tịnh tiến Độ đo tƣơng tự Tìm kiếm tƣơng tự Cửa sổ trƣợt Chiến lƣợc phân tách Chuỗi So trùng chuỗi So trùng toàn Cây hậu tố Tóm tắt Hành vi gây ngạc nhiên Xấp xỉ gộp ký hiệu hóa Nút Chuỗi thời gian Xoắn thời gian Vết Chặn Cửa sổ xoắn Từ Tỷ lệ thu giảm truy xuất MBR PAA PLA SAX C PHỤ LỤC B: LÝ LỊCH TRÍCH NGANG Họ tên: Hà Ngọc Minh Ngày, tháng, năm sinh: 26 – 09 – 1982 Nơi sinh: Hải Phòng Địa liên lạc18 Phan Văn Trị, phƣờng 7, quận Gò Vấp, TP.HCM Số điện thoại: 0989 262 291 QUÁ TRÌNH ĐÀO TẠO Năm 2000 – 2006: Học viên, Khoa công nghệ thông tin, học viện Kỹ Thuật Quân Sự, Tp.Hà Nội Năm 2009 – nay: Học viên Cao học trƣờng ĐH Bách Khoa Tp HCM, Khoa Khoa Học Kỹ Thuật Máy Tính Q TRÌNH CƠNG TÁC 2006 – nay: Nhân viên, Trung tâm Tiêu chuẩn – Đo lƣờng – Chất lƣợng Hải Quân ... ĐỀ TÀI: SO SÁNH HIỆU QUẢ HAI PHƢƠNG PHÁP PAA VÀ EPAA TRONG BÀI TỐN TÌM KIẾM TƢƠNG TỰ, VÀ HAI PHƢƠNG PHÁP SAX VÀ ESAX TRONG BÀI TOÁN NHẬN DẠNG CHUỖI CON BẤT ĐỒNG TRONG DỮ LIỆU CHUỖI THỜI GIAN NHIỆM... hành so sánh hiệu EPAA PAA giải tốn tìm kiếm tƣơng tự có ứng dụng cấu trúc mục R*-tree; tiếp so sánh hiệu ESAX SAX giải tốn tìm chuỗi bất đồng Qua thực nghiệm cho thấy, phƣơng pháp EPAA hiệu. .. truy suất PAA EPAA liệu STOCK 66 Hình 5.11 Thời gian thực thi PAA EPAA liệu AEM 66 Hình 5.12 Thời gian thực thi PAA EPAA liệu EEG 67 Hình 5.12 Thời gian thực thi PAA EPAA liệu ERP