Nhân dạng mẫu đáng quan tâm trong tập dữ liệu chuỗi thời gian

Đại Học Quốc Gia Thành Phố Hồ Chí Minh Trường Đại Học Bách Khoa NGUYỄN QUỐC VIỆT HÙNG NHẬN DẠNG MẪU ĐÁNG QUAN TÂM TRONG TẬP DỮ LIỆU CHUỖI THỜI GIAN Chuyên ngành: Khoa học Máy tính LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 11 năm 2007 ĐẠI HỌC QUỐC GIA TP HCM CỘNG HOÀ XÃ HỘI CHỦ NGHIÃ VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc Lập - Tự Do - Hạnh Phúc oOo Tp HCM, ngày tháng năm 2007 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên : Nguyễn Quốc Việt Hùng Giới tính : Nam ;/ Nữ Ngày, tháng, năm sinh : 02/09/1982 Nơi sinh : Quảng Ngãi Chuyên ngành : Khoa học Máy tính Khoá : 2005 1- TÊN ĐỀ TÀI : NHẬN DẠNG MẪU ĐÁNG QUAN TÂM TRONG TẬP DỮ LIỆU CHUỖI THỜI GIAN 2- NHIỆM VỤ LUẬN VĂN : 3- NGÀY GIAO NHIỆM VỤ : 4- NGÀY HOÀN THÀNH NHIỆM VỤ : 5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN : TS Dương Tuấn Anh Nội dung đề cương Luận văn thạc sĩ Hội Đồng Chuyên Ngành thông qua CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) CHỦ NHIỆM BỘ MÔN QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) TS Dương Tuấn Anh TS Đinh Đức Anh Vũ CƠNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học : TS Dương Tuấn Anh Cán chấm nhận xét : Cán chấm nhận xét : Luận văn thạc sĩ bảo vệ HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày tháng năm 2007 Nhận dạng mẫu đáng quan tâm tập liệu thời gian LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Ngày 05 tháng 11 năm 2007 Nguyễn Quốc Việt Hùng Nguyễn Quốc Việt Hùng i Nhận dạng mẫu đáng quan tâm tập liệu thời gian LỜI CẢM ƠN Tôi xin gởi lời cảm ơn chân thành sâu sắc đến TS Dương Tuấn Anh, người Thầy tận tình hướng dẫn tơi suốt trình từ đại học tới cao học tạo điều kiện để tơi hồn thành luận văn Tơi xin cảm ơn gia đình động viên tạo điều kiện tốt để tơi tiếp tục theo đuổi việc học tập nghiên cứu Tôi trân trọng dành tặng thành luận văn cho Cha Mẹ Nhờ công lao dưỡng dục Người mà chúng có thành ngày hôm Con xin hứa tiếp tục cố gắng phấn đấu để vươn cao Nguyễn Quốc Việt Hùng ii Nhận dạng mẫu đáng quan tâm tập liệu thời gian TÓM TẮT LUẬN VĂN Tìm kiếm tương tự liệu chuỗi thời gian ngày đóng vai trị quan trọng lĩnh vực khai phá liệu Với phát triển nhanh chóng liệu chuỗi thời gian nhiều ứng dụng từ lĩnh vực tài lĩnh vực khoa học, đòi hỏi phải đề giải pháp tìm kiếm mẫu tương tự cách hiệu gần gũi người sử dụng để từ đưa định đắn Đề tài đề nghị giải pháp tìm kiếm tất mẫu trùng với chuỗi truy vấn liệu chuỗi thời gian Có loại giải pháp cần thiết kế thực cách đánh giá độ tương tự kỹ thuật lập mục Chúng sử dụng khoảng cách Euclid cho việc tìm kiếm thơ ban đầu đề cách biểu diễn mẫu hình dạng trừu tượng để nâng cao chất lương so trùng mẫu dựa hình dạng Ngồi ra, chúng tơi cịn đề nghị cách lập mục mới, phương pháp xấp xỉ tuyến tính gộp đoạn kết hợp với giải thuật tìm kiếm nhánh cận hậu tố phương pháp gộp ký hiệu hóa, để nâng cao hiệu tìm kiếm Qua thực nghiệm cho thấy, kỹ thuật tìm kiếm tương tự mà đề nghị hiệu với liệu có nhiễu hay liệu bị co giãn tịnh tiến Nguyễn Quốc Việt Hùng iii Nhận dạng mẫu đáng quan tâm tập liệu thời gian ABSTRACT Similarity search on time-series data sets is of growing inportance in data mining With the increasing amount of time-series data in many application, from financial to scientific, it is important to study methods of retrieving similarity patterns effciently and user friendly for business decission making The thesis proposes methods of efficient retrieval of all subsequences in the time series databases similar to a query sequence Two kinds of the methods, similarity measures and indexing techniques, are designed and implemented We use Euclidean distance as the basis for similarity queries on time-series data and design an innovative representation technique which abstracts the shapes in time series sequences to enhance similar patterns based on shape Moreover, we propose new indexing technique, the piecewise linear aggregate approximation combining branch and bound algorithm on suffix tree of the symbolic aggregate approximation method, to speed up searching The experiments show that the retrieval technique we propose is also efficient with noisy, scaled and shifted data Nguyễn Quốc Việt Hùng iv Nhận dạng mẫu đáng quan tâm tập liệu thời gian MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii TÓM TẮT LUẬN VĂN iii ABSTRACT .iv MỤC LỤC v DANH MỤC HÌNH vii DANH MỤC BẢNG ix CHƯƠNG GIỚI THIỆU ĐỀ TÀI 1.1 Dữ liệu chuỗi thời gian 1.2 Những yêu cầu đòi hỏi phải so trùng mẫu 1.3 Mục tiêu giới hạn đề tài 1.4 Tóm lược kết đạt 1.5 Cấu trúc luận văn CHƯƠNG 2.1 CƠ SỞ LÝ THUYẾT NỀN TẢNG Cây hậu tố (suffix tree) 2.1.2 Quá trình tạo hậu tố (suffix tree): 2.1.3 Tìm kiếm hậu tố 10 2.2 Tìm đường thẳng tốt qua tập điểm 10 2.3 Một số vấn đề xác suất 11 CHƯƠNG 3.1 NHỮNG CƠNG TRÌNH LIÊN QUAN 14 Các cơng trình phương pháp đo độ tương tự 14 3.1.1 Độ đo Minkowski 15 3.1.2 Phương pháp xoắn thời gian động 18 3.1.3 Phương pháp chuỗi chung dài (longest common subsequence ) 21 3.1.4 Phương pháp tính độ tương tự dựa xác suất 22 3.2 Các phương pháp thu giảm số chiểu liệu 23 3.2.1 Phương pháp khơng thích nghi liệu 24 3.2.2 Phương pháp thích nghi liệu 26 3.3 Các phương pháp rời rạc hóa liệu .28 3.4 Các cơng trình cấu trúc lập mục (indexing) cho liệu chuỗi thời gian 31 3.5 Kết luận 33 Nguyễn Quốc Việt Hùng v Nhận dạng mẫu đáng quan tâm tập liệu thời gian CHƯƠNG HỆ THỐNG SO TRÙNG MẪU CON 35 4.1 Đặt vấn đề 35 4.2 Hướng giải 35 4.3 Kiến trúc hệ thống 37 4.4 Cách đánh giá độ tương tự 39 4.4.1 Q trình chuẩn hóa liệu 40 4.4.2 So trùng mẫu 42 4.4.3 Tuyến tính hóa chuỗi liệu thời gian 44 4.4.4 Cách đánh giá tính chuỗi sau tuyến tính hóa 46 4.5 Lập mục đa mức để nâng cao tốc độ tìm kiếm 49 4.5.2 Cách mã hóa liệu phương pháp PAA [21] 50 4.5.3 Cách thu giảm số chiều phương pháp PLAA 53 4.5.4 Rời rạc hóa liệu phương pháp SAX 59 4.5.5 Xây dựng mục dựa hậu tố 64 4.6 Kết luận 67 CHƯƠNG THỰC NGHIỆM 69 5.1 So sánh kết tương tự .69 5.2 So sánh phương pháp lập mục 71 5.2.1 Thực nghiệm: độ chặt chận 71 5.2.2 Thực nghiệm: Tỉ lệ thu giảm truy xuất (pruning power) 74 5.2.3 Thực nghiệm: hệ thống thực 76 5.3 Kết luận 80 CHƯƠNG KẾT LUẬN 82 6.1 Tổng kết 82 6.2 Những đóng góp đề tài 83 6.3 Hướng phát triển 83 CƠNG TRÌNH CƠNG BỐ 85 TÀI LIỆU THAM KHẢO 86 PHỤ LỤC 1: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT i Nguyễn Quốc Việt Hùng vi Nhận dạng mẫu đáng quan tâm tập liệu thời gian DANH MỤC HÌNH Hình 1.1 Đường biểu diễn liệu chuỗi thời gian Hình 1.2 Minh họa so trùng mẫu Hình 2.1 Cây hậu tố từ mississippi Hình 2.2 Quá trình tạo hậu tố chuỗi mississippi Hình 2.3 Đồ thị phân bố xác suất chuẩn 12 Hình 3.1 Minh họa đường giống nhau, đường khác 17 Hình 3.2 Minh họa đường giống nhau, biên độ dao động khác 17 Hình 3.3 (a) tính khoảng cách theo Euclid Hình 3.4 Minh họa cách tính khoảng cách theo DWT 20 Hình 3.5 Minh họa phương pháp LCS 21 Hình 3.6 Minh họa cách biến đổi liệu ban đầu theo phương pháp DFT, DWT, PAA 25 Hình 3.7 Minh họa cách biến đổi liệu ban đầu theo phương pháp SVD, APCA, PLA 27 Hình 3.8 Minh họa phương pháp rời rạc hóa chuỗi bit 29 Hình 3.9 Minh họa phương pháp rời rạc hóa theo góc nghiêng 29 (b) tính khoảng cách theo DWT 19 Hình 3.10 Rời rạc hóa liệu ban đầu theo phương pháp SAX 30 Hình 3.11 Cách tạo K-D-Tree 32 Hình 3.12 Cách tạo R-tree 33 Hình 4.1 Sơ đồ kiến trúc hệ thống 38 Hình 4.2 Chuẩn hóa liệu 41 Hình 4.3 Giải thuật so trùng mẫu 43 Hình 4.4 Giải thuật so trùng dựa hình dạng 45 Hình 4.5 Cách mã hóa trạng thái đoạn tuyến tính - u2d10u1 47 Hình 4.6 Cây phân cấp trạng thái đường tuyến tính 48 Hình 4.7 Minh họa tư tưởng mã hóa liệu 49 Hình 4.8 Thu giảm số chiều phương pháp PAA 51 Hình 4.9 Các trường hợp giá trị trung bình khoảng cách khác 53 Hình 4.10 Minh họa trinh ánh xạ liệu phương pháp PLAA sang không gian PAA PLA 54 Hình 4.11 Minh họa q trình rời rạc hóa thành chuỗi ký tự theo phương pháp SAX 61 Hình 4.12 Xét vị trí tương quan điểm 63 Hình 4.13 Cây hậu tố chuỗi S = abcbcabcaa 65 Nguyễn Quốc Việt Hùng vii Nhận dạng mẫu đáng quan tâm tập liệu thời gian C 0.2 0.18 0.16 0.14 0.12 PAA 0.1 0.08 PLAA PLAA+SAX 0.06 0.04 0.02 16 32 64 128 256 Tỉ lệ thu giảm Hình 5.5 Kết thực nghiệm chi phí CPU chuẩn hóa phương pháp PAA,PLAA PLAA+SAX (phóng to Hình 5.4tại vị trí tỉ lệ thu giảm 16, 32, 64, 128, 256 ) Căn vào đồ thị tỉ lệ thu giảm truy xuất… đồ thị chi phí CPU chuẩn hóa, ta thấy với tỉ lệ thu giảm n/w=64 hệ thống hoạt động hiệu Do đó, với tỉ lệ thu giảm n/w=64, chúng tơi thực nghiệm chi phí chuẩn hóa CPU liệu 100.000, 200.000, 400.000, 800000, 1.600.000 điểm Hình 5.6biểu diễn kết thực nghiệm Dựa vào đồ thị Hình 5.6ta có nhận xét sau: Nhìn chung ta thấy phương pháp PLAA kết hợp với tìm kiếm theo giải thuật nhánh cận hậu tố phương pháp SAX có chi phí CPU chuẩn hóa thấp so với phương pháp PLAA Trong trường hợp kích thước liệu lớn phương pháp hiệu Với tỉ lệ thu giảm n/w = 64 ta thấy phương pháp lập mục giảm thời gian truy xuất CPU gần 200 lần Nguyễn Quốc Việt Hùng 79 Nhận dạng mẫu đáng quan tâm tập liệu thời gian Phương pháp PLAA phương pháp PLAA kết hợp cấu trúc liệu hậu tố phương pháp SAX ln tốt phương pháp PAA sử dụng phổ biến kích thước liệu lớn C 0.100 0.090 0.080 0.070 0.060 PAA PLAA 0.050 PLAA+SAX 0.040 0.030 0.020 0.010 0.000 100.000 200.000 400.000 800.000 1.600.000 Kích thước Hình 5.6 Kết thực nghiệm chi phí CPU chuẩn hóa phương pháp PAA,PLAA PLAA+SAX theo kich thước liệu 5.3 Kết luận Với phương pháp đánh giá dựa hình dạng mẫu cách định nghĩa phân cấp hình dạng cho kết trực quan gần gũi người sử dụng Tuy nhiên, việc xây dựng phụ thuộc vào người dùng Vì vậy, người dùng địi hỏi phải có hiểu biết định Phương pháp thu giảm số chiều PLAA phương pháp lập mục kết hợp PLAA với tìm kiếm theo giải thuật nhánh cận hậu tố phương pháp SAX chứng minh tốt so với phương pháp PAA sử dụng phổ biến phần lớn trường hợp Những chứng minh dựa lý thuyết toán học thực nghiệm độ chặt chận dưới, tỉ lệ thu giảm truy xuất chi phí CPU chuẩn hóa thực hệ thống Nguyễn Quốc Việt Hùng 80 Nhận dạng mẫu đáng quan tâm tập liệu thời gian Trong phương pháp PLAA PLAA kết hợp với SAX chi phí CPU chuẩn hóa phụ thuộc nhiều vào tỉ lệ thu giảm n/w Tuy nhiên, theo thực nghiệm chi phí CPU chuẩn hóa khơng tăng hay giảm tuyến tính theo n/w Nếu n/w nhỏ hay lớn không tốt Trong thực nghiệm cho thấy n/w khoảng [32,128] cách lập mục hiệu Nguyễn Quốc Việt Hùng 81 Nhận dạng mẫu đáng quan tâm tập liệu thời gian CHƯƠNG 6: KẾT LUẬN Trong chương tổng kết việc làm được, đóng góp luận văn nêu lên hướng mở rộng cho nghiêm cứu sau 6.1 Tổng kết Luận văn trình bày nhiều giải thuât nhiều cách thực so trùng chuỗi liệu chuỗi thời gian Chúng giải vấn đề toán cách đánh giá độ tương tự cách lập mục để nâng cao tốc độ so trùng Thứ nhất, chúng tơi trình bày cách đánh giá độ tương tự Sau đó, dựa phân tích phương pháp xu hướng cơng trình nghiên cứu gần sử dụng phương pháp khoảng cách Euclid kết hợp với phương pháp xấp xỉ tuyến tính đoạn Trong khoảng cách Euclid sử dụng giai đoạn tìm kiếm thơ để tìm kết ban đầu Sau đó, giai đoạn tinh chỉnh dựa hình dạng mẫu, kết thu giai đoạn tìm kiếm thơ ban đầu, tuyến tính hóa thành cách đoạn thẳng Căn vào đoạn thẳng biểu biễn cho hình dạng mẫu dựa vào cách đánh giá mẫu dựa hình dạng mà ta tìm mẫu giống hình dạng Đồng thời loại bỏ mẫu không phù hợp Cách tiếp cận nâng cao chất lượng mẫu so trùng theo hướng trực quan Thứ hai, chúng tơi trình bày phương pháp lập mục để nâng cao tốc độ tìm kiếm gồm : PAA, PLAA SAX kết hợp với hậu tố Khi chuỗi liệu người dùng đưa vào hệ thống, chúng mã hóa thành ký tự theo phương pháp SAX Từ chuỗi ký tự truy vấn hậu tố liệu ban đầu, giải thuật nhánh cận áp dụng để loại bỏ trường hợp khác biệt Sau đó, q trình tìm kiếm chuỗi lại chưa bị loại bỏ thực dựa mục phương pháp PLAA Do chận phương pháp SAX không thật chặt nên số lượng phần tử loại bỏ không nhiều Tuy nhiên thời gian dành cho giai đoạn không nhiều Vì vậy, để loại bỏ Nguyễn Quốc Việt Hùng 82 Nhận dạng mẫu đáng quan tâm tập liệu thời gian phần tử khác biệt ban đầu SAX thực nhanh PLAA Nhờ đó, nâng cao tốc tộ tìm kiếm so với dùng phương pháp PLAA để lập mục Các kết thực nghiệm cho thấy tính hiệu phương pháp đánh giá độ tương tự phương pháp lập mục so với phương pháp sử dụng cơng trình nghiên cứu trước 6.2 Những đóng góp đề tài Đưa cách đánh giá hình dạng dựa phân cấp định nghĩa hình dạng Cách đánh giá nới lỏng so với cách đánh giá dựa khoảng cách Euclid Tuy nhiên, phương pháp cho kết gần gũi trực quan Đưa phương pháp lập mục phương pháp xấp xỉ tuyến tính gộp đoạn (Piecewise Linear Aggregate Approximation - PLAA) Phương pháp có chận ln chặt so với phương pháp xấp xỉ gộp đoạn (Piecewise Aggregate Approximation - PAA) Do đó, mặt lập mục hiệu phương pháp PAA Các kết luận chứng minh xác tốn học Đồng thời đưa đánh giá thực tế dựa kết thực nghiệm Phương pháp tìm nhánh cận đề nghị việc tìm kiếm hậu tố phương pháp SAX Nhờ đó, mà thời gian tìm kiếm phương pháp SAX thu giảm so với cách tìm kiếm tại, so với cách tìm kiếm xác chuỗi hậu tố 6.3 Hướng phát triển Đề tài nêu vấn đề số cách giải vấn đề so trùng mẫu Tuy nhiên nhiều điểm khác cần phải nghiên cứu thêm để đề tài hoàn thiện Trong đề tài kết thực nghiệm thực nghiệm liệu giá chứng khoán (40MB) Do cần phải có thử nghiệm nhiều Nguyễn Quốc Việt Hùng 83 Nhận dạng mẫu đáng quan tâm tập liệu thời gian loại liệu khác để đưa kết luận giải thuật thích hợp cho loại liệu Trong giải pháp ta thấy chúng phụ thuộc vào nhiều thơng số khác Tính hiệu giải pháp phụ thuộc nhiều vào thơng số Vì ta tìm hiểu xây dựng hệ thống tự tìm thơng số phù hợp dựa đặc trưng liệu Hơn nữa, kết tìm kiếm tương tự đưa vào ứng dụng khác tìm luật, quan hệ phân loại, gom nhóm, dự báo liệu… Đây hướng nghiên cứu tốt giúp cho hệ hỗ trợ định lĩnh vực công nghiệp Nguyễn Quốc Việt Hùng 84 Nhận dạng mẫu đáng quan tâm tập liệu thời gian CƠNG TRÌNH CƠNG BỐ [1] Nguyen Quoc Viet Hung, Duong Tuan Anh “Combining SAX and Piecewise LinearApproximation to Improve Similarity Search on Financial Time Series” Proceedings of the 2007 IEEE International Symposium on Information Technology Convergence (ISITC 2007), Jeonju, Korea, November 23-14, 2007 (to appear) Nguyễn Quốc Việt Hùng 85 Nhận dạng mẫu đáng quan tâm tập liệu thời gian TÀI LIỆU THAM KHẢO [1] R Agrawal, C Faloutsos and A.N Swami “Efficient similarity search in sequence databases” Proceedings of the 4th Conference on Foundations of Data Organization and Algorithms (FODO'93), October 13-15, 1993, pp 69-84 [2] R Agrawal, K.I Lin, H.S Sawhney and K Shim “Fast similarity search in the presence of noise scaling, and translation in times-series databases”, Proceedings of the 21th International Conference on Very Large Data Bases (VLDB’95), September 11-15, 1995, pp 490-501 [3] N Beckmann, H.P Kriegel, R Schneider, B Seeger "The R*-tree: an efficient and robust access method for points and rectangles" Proceedings of the 1990 ACM SIGMOD International Conference on Management of Data, May 23-25, 1990 , pp 322-331 [4] D Berndt and J Clifford “Finding patterns in time series: a dynamic programming approach”, Journal of advances in Knowledge Discovery and Data Mining, AAAI/MIT Press, Menlo Park, CA, 1996, pp 229-248 [5] J Bentley “Multidimensional binary search trees used for associative searching” Journal of Communications of the ACM, Vol 18, No 9, 1975, pp 509- 517 [6] K Chakrabarti, S Mehrotra "The hybrid tree: an index structure for high dimensional feature space", Proceedings of the 14th International Conference on Data Engineering (ICDE 1998), February 23-27, 1998, pp 440–447 [7] K Chan and W Fu “Efficient time series matching by wavelets” Proceedings of the 15th IEEE International Conference on Data Engineering (ICDE1999), March 23-26, 1999, pp 126-133 [8] C Faloutsos, M Ranganathan, Y Manolopoulos “Fast Subsequence Matching in Time-Series Databases” Proceedings of the 14th ACM Nguyễn Quốc Việt Hùng 86 Nhận dạng mẫu đáng quan tâm tập liệu thời gian SIGMOD International Conference on Management of Data (SIGMOD 1994), May 24-27, 1994, pp 419-429 [9] T Fu, F Chung, R Luk and C Ng "Financial Time Series Indexing Based on Low Resolution Clustering" Proceedings of the 4th IEEE International Conference on Data Mining (ICDM'04) Workshop on Temporal Data Mining: Algorithms, Theory and Applications, November 1, 2004, pp 5-14 [10] J Lin, E Keogh, S Lonardi, and B Chiu “A Symbolic Representation of Time Series, with Implications for Streaming Algorithms” Proceedings of 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discover (DMKD 2003), June 13, 2003, pp 2-11 [11] J Lin, E Keogh, L Wei, S Lonardi "Experiencing SAX: a novel symbolic representation of time series" Journal of Data Mining and Knowledge Discovery, Springer, Vol 10, No 2, 2007, pp.107-144 [12] D Goldin, & P Kanellakis “On similarity queries for time-series data: constraint specification and implementation” Proceedings of the 1st International Conference on the Principles and Practice of Constraint Programming (CP’95), September 19-22, 1995, pp 137-153 [13] D Goldin, D Gunopulos and H Mannila "Finding similar time series" Proceedings of the 1st European Symposium on Principles of Data Mining and Knowledge Discovery (PKDD'97), June 24-27, 1997, pp 88-100 [14] M Gavrilov, D Anguelov, P Indyk and R Motwani "Mining the stock market: which measure is best?" Proceedings of the 6th ACM Interantional Conference on Knowledge Discovery and Data Mining (KDD 2000) August 20-23, pp 487-496 [15] X Ge and P Smyth "Deformable markov model templates for time-series pattern matching" Proceedings of the 6th ACM Interantional Conference on Knowledge Discovery and Data Mining (KDD 20000), August 20-23, pp 81-90 Nguyễn Quốc Việt Hùng 87 Nhận dạng mẫu đáng quan tâm tập liệu thời gian [16] A Guttman "R-trees: a Dynamic Index Structure for Spatial Searching" Proceedings of the ACM SIGMOD International Conference on Management of Data, June 18-21, 1984, pp 47-57 [17] Y Huhtala, J Kärkkäinen and H Toivonen "Mining for similarities in aligned time series using wavelets" Proceedings of Data Mining and Knowledge Discovery: Theory, Tools, and Technology, April 5-6, 1999, pp 150-160 [18] T Kahveci and A Singh "Variable length queries for time series data" Proceedings of the 17th International Conference on Data Engineering (ICDE 2001), April 2-6, 2001, pp 273-282 [19] E Keogh “A Fast and Robust Method for Pattern Matching in Time Series Databases” Proceedings of 9th International Conference on Tools with Artificial Intelligence (ICTAI '97), November 3-8, 1997, pp 578-584 [20] E Keogh and M Pazzani "An Indexing Scheme for Fast Similarity Search in Large Time Series Databases" Proceedings of the 11th International Conference on Scientific and Statistical Database Management (SSDBM 1999), July 28-30, 1999, pp 56-67 [21] E Keogh, K Chakrabarti, M Pazzani and S Mehrotra “Dimensionality reduction for fast similarity search in large time series databases” Journal of Knowledge and Information Systems, Vol 3, No 3, 2000, pp 263-286 [22] E Keogh, S Chu, D Hart and M Pazzani "An online algorithm for segmenting time series" Proceedings of the 2001 IEEE International Conference on Data Mining (ICDM 2001), 29 November - December, 2001, pp 289-296 [23] E Keogh, K Chakrabarti, M Pazzani and S Mehrotra "Locally adaptive dimensionality reduction for indexing large time series databases" Proceedings of the 2001 ACM SIGMOD Conference on Management of Data, May 21-24, 2001, pp 151-162 Nguyễn Quốc Việt Hùng 88 Nhận dạng mẫu đáng quan tâm tập liệu thời gian [24] E Keogh, J Lin, W Fu "HOT SAX: Efficiently Finding the Most Unusual Time Series Subsequence" Proceedings of the 5th IEEE International Conference on Data Mining (ICDM 2005), November 27-30, 2005, pp 226-233 [25] E Keogh “A Decade of Progress in Indexing and Mining Large Time Series Databases” Tuorial of 32nd International Conference on Very Large Data Bases (VLDB’2006), September 12-15, 2006 [26] E Keogh.“Mining Shape and Time Series Databases with Symbolic Representations” Tuorial of the 13rd ACM Interantional Conference on Knowledge Discovery and Data Mining (KDD 2007), August 12-15, 2007 [27] F Korn, H Jagadish, and C Faloutsos “Efficiently supporting ad hoc queries in large datasets of time sequences” Proceedings of the 1997 ACM SIGMOD International Conference on Management of Data (CIKM 1997), May 13-15, pp 289-300 [28] B Lkhagva, Y Suzuki and K Kawagoe "New Time Series Data Representation ESAX for Financial Applications" Proceedings of the International Special Workshop on Databases for Next-Generation Researchers (SWOD 2006) in conjunction with International Conference on Data Engineering (ICDE 2006), April 7, 2006, pp 17-22 [29] V Megalooikonomou, G Li, Q Wang "A dimensionality reduction technique for efficient similarity analysis of time series databases" Proceedings of the 2004 ACM CIKM International Conference on Information and Knowledge Management (CIKM 2004), November 8-13, 2004, pp.160-161 [30] V Megalooikonomou, Q Wang, G Li, C Faloutsos "A Multiresolution Symbolic Representation of Time Series" Proceedings of the 21st International Conference on Data Engineering (ICDE 2005), April 5-8, 2005, pp 668-679 Nguyễn Quốc Việt Hùng 89 Nhận dạng mẫu đáng quan tâm tập liệu thời gian [31] S Park, S Kim and W Chu "Segment-based approach for subsequence searches in sequence databases" Proceedings of the 16th ACM Symposium on Applied Computing (SAC 2001), March 11-14, 2001, pp 248-252 [32] C Perng, H Wang, S Zhang and S Parker "Landmarks: a new model for similarity-based pattern querying in time series databases" Proceedings of the 16th International Conference on Data Engineering (ICDE 2000), 28 February - March, 2000, pp 33-42 [33] W Polly and M Wong "Efficient and robust feature extraction and pattern matching of time series by a lattice structure" Proceedings of the 10th ACM CIKM International Conference on Information and Knowledge Management (CIKM 2002 ), November 4-9, 2002, pp 271-278 [34] I Popivanov and R Miller "Similarity search over time series data using wavelets" Proceedings of the 18th International Conference on Data Engineering (ICDE 2002), 26 February - March, 2002, pp 212-221 [35] D Rafiei and A.O Mendelzon "Efficient retrieval of similar time sequences using dft" Proceedings of the 5th International Conference on Foundations of Data Organization and Algorithms (FODO 1998), November 12-13, 1998, pp 249-257 [36] H Samet “The quadtree and related hierarchical data structure” Journal of ACM Computing Surveys, Vol 16, No 1, 1984, pp.187-260 [37] M Vlachos, M Hadjieleftheriou, D Gunopulos, E Keogh “Indexing Multidimensional Time-Series" Journal of the VLDB, Vol 15, No 1, 2006, pp 1-20 [38] R.Wagner and M.Fischer "The string-to-string correction problem" Journal of the ACM (JACM), Volume 21 , Issue 1, 1974, pp.168-173 [39] Web Page for Time Series Stock Data: “http://www- Library: “http://www- cs.ucr.edu/~wli/FilteringData/stock.zip” [40] Web Page for Time Series Data personal.buseco.monash.edu.au/~hyndman/TSDL/” Nguyễn Quốc Việt Hùng 90 Nhận dạng mẫu đáng quan tâm tập liệu thời gian [41] L Wei, E Keogh, X Xi "SAXually Explicit Images: Finding Unusual Shapes" Proceedings of the 6th IEEE International Conference on Data Mining (ICDM 2006), December 18-22, 2006, pp 711-720 [42] Y Wu, D Agrawal and A.E Abbadi "A comparison of dft and dwt based similarity search in time-series databases" Proceedings of the 9th ACM CIKM International Conference on Information and Knowledge Management (CIKM 2000), November 6-11, 2000, pp 488-495 [43] B Xia “Similarity Search in Time Series Data Sets” M S Thesis, School of Computing Science, Simon Praser University, December, 1997 [44] X Zuo, X Jin "Accurate Symbolization of Time Series" Proceedings of the 9th Pacific-Asia Conference on Advances in Knowledge Discovery and Data Mining (PAKDD 2005), May 18-20, 2005, pp 764-770 Nguyễn Quốc Việt Hùng 91 Nhận dạng mẫu đáng quan tâm tập liệu thời gian PHỤ LỤC 1: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt Viết tắt adaptive piecewise constant approximation xấp xỉ số đoạn thích nghi base line đường best fit line đường thẳng tốt binary search tree tìm kiếm nhị phân branch and bound Algorithm giải thuật nhánh cận classification phân loại clustering gom cụm dimensional reduction thu giảm số chiều discrete Fourier transform phép biến đổi Fourier rời rạc DFT discrete Wavelet transform phép biến đổi Wavelet rời rạc DWT discretizeation rời rạc hóa dynamic time warping xoắn thời gian động indexing lập mục longest common subsequence chuỗi chung dài lower bound cận minimum bounding rectangles hình chữ nhật bao nhỏ normal CPU cost chi phí CPU chuẩn hóa novelty detection phát điểm bất thường piecewise aggregate approximation xấp xỉ gộp đoạn Nguyễn Quốc Việt Hùng APCA DTW MBR PAA i Nhận dạng mẫu đáng quan tâm tập liệu thời gian piecewise linear aggregate approximation xấp xỉ tuyến tính gộp đoạn piecewise linear approximation xấp xỉ tuyến tính đoạn prediction dự báo pruning power tỉ lệ thu giảm truy xuất rule discovery tìm quy luật liệu singular value decomposition phân rã trị kỳ dị spatio-temporal data liệu không gian - thời gian standard normal distribution phân bố chuẩn chuẩn hóa suffix linked tree hậu tố liên kết suffix tree hậu tố symbolic aggregate approXimation xấp xỉ gộp ký hiệu hóa tightness of lower bound độ chặt chận time series chuỗi thời gian trie tree từ điển Nguyễn Quốc Việt Hùng PLAA PLA SVD SAX ii ... Nhận dạng mẫu đáng quan tâm tập liệu thời gian TÓM TẮT LUẬN VĂN Tìm kiếm tương tự liệu chuỗi thời gian ngày đóng vai trị quan trọng lĩnh vực khai phá liệu Với phát triển nhanh chóng liệu chuỗi thời. .. Nhận dạng mẫu đáng quan tâm tập liệu thời gian 3.4 Các cơng trình cấu trúc lập mục (indexing) cho liệu chuỗi thời gian Trong phần khảo sát cấu trúc lập mục sử dụng toán liên quan đến liệu chuỗi thời. .. phần chức Ví dụ : liệu chuỗi thời gian ban đầu, liệu mã hóa, định nghĩa hình dạng hỗ trợ so trùng mẫu, mẫu ký tự… Nguyễn Quốc Việt Hùng 37 Nhận dạng mẫu đáng quan tâm tập liệu thời gian Giao diện

Định dạng
Số trang	105
Dung lượng	1,16 MB