Nhận dạng các mẫu lặp lại (mô típ) trong dữ liệu chuỗi thời gian

Đại Học Quốc Gia Thành Phố Hồ Chí Minh Trường Đại Học Bách Khoa HUỲ H A H KIỆT HẬ DẠ G CÁC MẪU LẶP LẠI (MƠ TÍP) TRO G DỮ LIỆU CHUỖI THỜI GIA (FI DI G MOTIFS I TIME SERIES DATA) Chuyên ngành: Khoa học Máy tính LUẬ VĂ THẠC SĨ TP HỒ CHÍ MI H, tháng 07 năm 2009 CƠ G TRÌ H ĐƯỢC HỒ THÀ H TẠI TRƯỜ G ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MI H Cán hướng dẫn khoa học : PGS.TS Dương Tuấn Anh Cán chấm nhận xét 1: Cán chấm nhận xét : Luận văn thạc sĩ bảo vệ HỘI ĐỒ G CHẤM BẢO VỆ LUẬ VĂ THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày tháng năm 2009 hận dạng mẫu lặp lại (mơ típ) liệu chuỗi thời gian ĐẠI HỌC QUỐC GIA TP HCM TRƯỜ G ĐẠI HỌC BÁCH KHOA CỘ G HOÀ XÃ HỘI CHỦ GHĨA VIỆT AM Độc lập - Tự - Hạnh phúc -oOo Tp HCM, ngày tháng năm 2009 HIỆM VỤ LUẬ VĂ THẠC SĨ Họ tên học viên: Huỳnh Anh Kiệt … Phái: Nam…………… Ngày, tháng, năm sinh: 03/03/1977 Nơi sinh: Long An Chuyên ngành: Khoa học máy tính MSHV: 00706136 1- TÊ ĐỀ TÀI: HẬ DẠ G CÁC MẪU LẶP LẠI (MƠ TÍP) TRO G DỮ LIỆU CHUỖI THỜI GIA 2- HIỆM VỤ LUẬ VĂ : - Tìm hiểu giải thuật nhận dạng mơ típ liệu chuỗi thời gian – Nghiên cứu so sánh thực nghiệm hai phương pháp rời rạc hóa liệu chuỗi thời gian SAX ESAX áp dụng vào giải thuật nhận dạng mơ típ liệu chuỗi thời gian 3- GÀY GIAO HIỆM VỤ : 4- GÀY HOÀ THÀ H HIỆM VỤ : 5- HỌ VÀ TÊ CÁ BỘ HƯỚ G DẪ (Ghi đầy đủ học hàm, học vị ): PGS.TS Dương Tuấn Anh Nội dung đề cương Luận văn thạc sĩ Hội Đồng Chuyên Ngành thông qua CÁ BỘ HƯỚ G DẪ (Họ tên chữ ký) CHỦ HIỆM BỘ MÔ QUẢ LÝ CHUYÊ GÀ H KHOA QL CHUYÊ GÀ H (Họ tên chữ ký) (Họ tên chữ ký) PGS.TS Dương Tuấn Anh TS Đinh Đức Anh Vũ TS Thoại Nam hận dạng mẫu lặp lại (mơ típ) liệu chuỗi thời gian LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ công trình khác ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Ngày 07 tháng 07 năm 2009 Huỳnh Anh Kiệt Trang i hận dạng mẫu lặp lại (mơ típ) liệu chuỗi thời gian LỜI CẢM ƠN Tôi xin gởi lời cảm ơn chân thành sâu sắc đến PGS.TS Dương Tuấn Anh, người Thầy tận tình hướng dẫn tơi suốt q trình học cao học tạo điều kiện để tơi hồn thành luận văn Tơi xin cảm ơn gia đình động viên tạo điều kiện tốt để tiếp tục theo đuổi việc học tập nghiên cứu Tôi trân trọng dành tặng thành luận văn cho Cha, Mẹ Nhờ công lao dưỡng dục Người mà chúng có thành ngày hôm Con xin hứa tiếp tục cố gắng phấn đấu để vươn cao Trang ii hận dạng mẫu lặp lại (mơ típ) liệu chuỗi thời gian TÓM TẮT LUẬN VĂN Nhận dạng mơ típ liệu chuỗi thời gian ngày đóng vai trị quan trọng lĩnh vực: khai phá liệu chuỗi thời gian (data-mining) Với phát triển nhanh chóng liệu chuỗi thời gian nhiều ứng dụng, từ lĩnh vực tài lĩnh vực khoa học dự báo, định, đòi hỏi phải đề giải pháp nhận dạng mơ típ cách hiệu xác Luận văn nghiên cứu so sánh thực nghiệm phương pháp rời rạc hóa liệu chuỗi thời gian SAX ESAX áp dụng vào giải thuật EMMA nhận dạng mơ típ dạng liệu chuỗi thời gian thuộc lĩnh vực tài Qua kết thực nghiệm cho thấy giải thuật EMMA nâng cao hiệu áp dụng phương pháp ESAX Trang iii hận dạng mẫu lặp lại (mơ típ) liệu chuỗi thời gian ABSTRACT Finding motifs on time-series data sets is of growing importance in time series data mining With the increasing amount of time-series data in many applications, from financial to scientific, it is important to study methods of finding motifs efficiently and precisely This thesis studies and empirically compares the two discretization methods SAX and ESAX used in EMMA Algorithm for finding motifs of time-series data in finance The experiments show that EMMA Algorithm is improved performance by using ESAX as discretization method Trang iv hận dạng mẫu lặp lại (mơ típ) liệu chuỗi thời gian MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN TÓM TẮT LUẬN VĂN ASTRACT CHƯƠNG I: GIỚI THIỆU ĐỀ TÀI 1.1 Dữ liệu chuỗi thời gian 1.2 Bài tốn nhận dạng mơ típ liệu chuỗi thời gian 1.3 Phương hướng giải toán nhận dạng mơ típ liệu chuỗi thời gian 1.4 Mục tiêu giới hạn luận văn 1.5 Tóm tắt kết đạt 1.6 Cấu trúc luận văn CHƯƠNG II: NHỮNG CƠNG TRÌNH LIÊN QUAN 2.1 Các phương pháp thu giảm số chiều (dimensionality reduction) 2.2 Các phương pháp rời rạc hóa liệu ( Discretization) 2.3 Các phương pháp đo độ tương tự 2.4 Các phương pháp nhận dạng mẫu lặp liệu chuỗi thời gian (Finding motifs) 2.5 Kết luận CHƯƠNG III: CƠ SỞ LÝ THUYẾT NỀN TẢNG 3.1 Một số khái niệm xác suất có liên quan 3.2 Các khái niệm sử dụng nhận dạng mơ típ liệu chuỗi thời gian 3.2.1 Dữ liệu chuỗi thời gian (Time series) 3.2.2 Chuỗi (subsequence) 3.2.3 Trùng khớp (Match) 3.2.4 Trùng khớp tầm thường (Trivial match) 3.2.5 K-Mơ típ (K-motif) 3.2.6 Mơ típ liền kề gần (Nearest-Neighbor Motif) 3.2.7 Chuỗi liền kề gần không tầm thường (Non-trivial nearest neighbor) 3.3 Phương pháp thu giảm số chiều liệu chuỗi thời gian PAA 3.4 Phương pháp rời rạc hóa liệu chuỗi thời gian SAX 3.5 Phương pháp rời rạc hóa liệu chuỗi thời gian ESAX 3.6 Giải thuật nhận dạng mơ típ EMMA CHƯƠNG IV: HỆ THỐNG TÌM KIẾM MƠ TÍP 4.1 Giới thiệu 4.2 Quy trình thực hệ thống 4.3 ChuNn hóa liệu, thu giảm số chiều, rời rạc hóa 4.4 N hận dạng mơ típ 4.4.1 Giải thuật nhận dang mơ típ EMMA 4.4.2 Hàm hash h 4.4.3 Giải thuật ADM 4.5 Kết luận CHƯƠN G V: THỰC N GHIỆM 5.1 Các tiêu chuNn thực nghiệm 5.2 Đánh giá kết thực nghiệm 5.3 Kết luận CHƯƠN G VI: KẾT LUẬN 6.1 Tổng kết 6.2 N hững đóng góp luận văn 6.3 Hướng phát triển THƯ MỤC THAM KHẢO PHỤ LỤC A: BẢN G ĐỐI CHIẾU THUẬT N GỮ AN H - VIỆT i ii iii iv 1 2 4 7 12 14 19 24 25 25 26 26 27 27 27 27 28 28 28 30 33 36 40 40 40 41 46 46 47 48 49 51 51 52 57 59 59 59 60 61 A.1 Trang v hận dạng mẫu lặp lại (mơ típ) liệu chuỗi thời gian DA H MỤC HÌ H Hình 1: Minh họa đồ thị biểu diễn liệu chuỗi thời gian ( Từ nguồn [18]) Hình 2: Hình minh họa hệ thống nhận dạng mơ típ Hình 1: Minh họa phương pháp DFT (Từ nguồn [12]) Hình 2: Minh họa phương pháp DWT (Từ nguồn [12]) Hình 3: Minh họa phương pháp PAA (Từ nguồn [12]) 10 Hình 4: Minh họa phương pháp SVD (Từ nguồn [12]) 11 Hình 5: Minh họa phương pháp rời rạc hóa liệu dựa góc nghiêng 12 Hình 6: Minh họa phương pháp biểu diễn thành chuỗi bit 13 Hình 7: Minh họa phương pháp SAX (Từ nguồn [20]) 14 Hình 8: Minh họa trường hợp tính chất hai mẫu giống giá trị khác khoảng cách hai mẫu khác (Từ nguồn [14]) 16 Hình 9: Minh họa hai đường biểu diễn giống hình dạng lệch thời gian (Từ nguồn [14]) 17 Hình 10: Minh họa cách tính khoảng cách theo DWT 18 Hình 11: Minh họa phương pháp LCS 19 Hình 12: Minh họa giải thuật chiếu (Từ nguồn [8]) 21 Hình 13: Minh họa vizTree (Từ nguồn [21]) 22 Hình 14: Minh họa cho trường hợp hai chuỗi có tính chất biến đổi (Từ nguồn [43]) 23 Hình 15: Minh họa cho hai trường hợp sử dụng độ đo khoảng cách Euclid (Từ nguồn [43]) 23 Hình 1: Minh họa phân phối xác suất chuNn 26 Hình 2: Hình minh họa K-Motif cần đảm bảo mơ típ có khoảng cách lớn 2R (Từ nguồn [18]) 28 Hình 3: Minh họa cách thu giảm số chiều (Từ nguồn [12]) 29 Hình 4: Minh họa cách thu giảm số chiều dùng PAA (Từ nguồn [12]) 29_Toc235615534 Hình : Minh họa cho cách rời rạc hóa liệu dùng phương pháp SAX Trong ví dụ áp dụng cho chuỗi liệu thời gian với n = 128, w = 8, a = (Từ nguồn [20]) 31 Hình : Minh họa cho phương pháp tính khoảng cách phương pháp SAX (Từ nguồn [20]) 32 Hình 7: Minh họa cho điểm quan trọng liệu chuỗi thời gian bị bỏ sót áp dụng phương pháp SAX (Từ nguồn [17]) 34 Hình 8: Minh họa cách xác định vị trí giá trị min, max trung bình phương pháp ESAX 35 Hình 9: Minh họa cho cách rời rạc hóa liệu dùng phương pháp ESAX (Từ nguồn [17])36 Hình 10: Hình minh họa hàm hash h() giải thuật EMMA (Từ nguồn [49]) 37 Hình 11: Minh họa giải thuật ADM giải thuật EMMA 38 Hình 1: Minh họa quy trình thực hệ thống 41 Hình 1: Dữ liệu tỷ giá EUR -USD mơ típ tương ứng với n=100 R=0.03 52 Hình 2: Dữ liệu chứng khốn 3M mơ típ tương ứng với n=460 R=0.3 53 Trang vi hận dạng mẫu lặp lại (mô típ) liệu chuỗi thời gian DA H MỤC BẢ G Bảng 1: Bảng tra phân phối xác suất chuNn 26 Bảng 2: Bảng tra điểm chia (breakpoints) cho giá trị a từ đến 10 (Từ nguồn [20]) 31 Bảng 3 : Minh họa bảng tra cứu cho hàm dist () trường hợp a = 33 Bảng 5.1: Kết thực nghiệm 20 liệu chuỗi thời gian 55 Bảng 5.2: Kết thực nghiệm liệu Daily simple returns of 3M stock 56 Bảng 5.3: Kết thực nghiệm liệu Daily simple returns of value-weighted 57 Trang vii hận dạng mẫu lặp lại (mơ típ) liệu chuỗi thời gian Hình 2: Dữ liệu chứng khốn 3M mơ típ tương ứng với n=460 R=0.3 Kết thực nghiệm 20 liệu chuỗi thời gian khác cho thấy tỷ lệ trung bình số lần gọi hàm giải thuật EMMA sử dụng phương pháp SAX phương pháp ESAX 1.457452859, chi tiết kết Bảng 5.1 Trong bảng 5.1: cột (1) tên liệu dùng để thực nghiệm; cột (2) số lần gọi hàm tính khoảng cách thật áp dụng phương pháp SAX vào giải thuật EMMA; cột (3) số lần gọi hàm tính khoảng cách thật áp dụng phương pháp ESAX vào giải thuật EMMA; cột (4) tỷ lệ số lần gọi hàm tính khoảng cách thật áp dụng phương pháp SAX phương pháp ESAX vào giải thuật EMMA Trang 53 hận dạng mẫu lặp lại (mơ típ) liệu chuỗi thời gian Từ kết thực nghiệm cho thấy loại liệu tài giải thuật EMMA sử dụng phương pháp ESAX cho thấy số lần gọi hàm tính khoảng cách thật liệu chuỗi thời gian 0.46 lần số lần gọi giải thuật EMMA sử dụng phương pháp SAX Trên chuỗi liệu thời gian chúng tơi tiếp tục thực nghiệm cho kích thước mơ típ cần tìm thay đổi, kết thực nghiệm sau: - Sử dụng chuỗi liệu Daily simple returns of 3M stock [46] có 4015 điểm (bảng 5.2) Trong bảng 5.2: cột (1) kích thước mơ típ; cột (2) số lần gọi hàm tính khoảng cách thật áp dụng phương pháp SAX vào giải thuật EMMA; cột (3) số lần gọi hàm tính khoảng cách thật áp dụng phương pháp ESAX vào giải thuật EMMA; cột (4) số lần lặp mơ típ tìm áp dụng phương pháp SAX vào giải thuật EMMA; cột (5) số lần lặp mơ típ tìm áp dụng phương pháp ESAX vào giải thuật EMMA; cột (6) tỷ lệ số lần gọi hàm tính khoảng cách thật áp dụng phương pháp SAX phương pháp ESAX vào giải thuật EMMA - Sử dụng chuỗi liệu Daily simple returns of value-weighted [46] có 3605 điểm (bảng 5.3) Trong bảng 5.3: cột (1) kích thước mơ típ; cột (2) số lần gọi hàm tính khoảng cách thật áp dụng phương pháp SAX vào giải thuật EMMA; cột (3) số lần gọi hàm tính khoảng cách thật áp dụng phương pháp ESAX vào giải thuật EMMA; cột (4) số lần lặp mơ típ tìm áp dụng phương pháp SAX vào giải thuật EMMA; cột (5) số lần lặp mơ típ tìm áp dụng phương pháp ESAX vào giải thuật EMMA; cột (6) tỷ lệ số lần gọi hàm tính khoảng cách thật áp dụng phương pháp SAX phương pháp ESAX vào giải thuật EMMA Từ kết thực nghiệm n thay đổi cho thấy với n nhỏ mơ típ tìm có số lần lặp theo giải thuật EMMA sử dụng phương pháp SAX ESAX có khác lớn, n lớn số lần lặp mơ típ gần giống Đối với tất trường hợp số lần gọi hàm tính khoảng cách thật giải thuật EMMA sử dụng phương pháp ESAX nhỏ Trang 54 hận dạng mẫu lặp lại (mơ típ) liệu chuỗi thời gian STT Time series (1) Giá chứng khoán ACB - Thấp Số điểm (2) EMMASAX (3) EMMAESAX (4) Tỷ lệ số lần gọi hàm tính khoảng cách thực tế giải thuật EMMA - SAX EMMA-ESAX (5) 648 118,486 77,610 1.526684706 648 103,905 68,655 1.513436749 3,605 8,647 6,556 1.318944478 388 1,953 1,081 1.8066605 303 5,672 5,254 Giá chứng khoán ACB - Cao Daily simple returns of valueweighted Quarterly S&P 500 index, 19001996 Monthly interest rates Government Bond Yield 2-year securities EURUSD Open 8,788 3,849,383 1,161,646 3.31373155 Daily simple returns of 3M stock 4,015 16,707 5,051 3.307661849 3,592 17,394 9,592 1.813386155 Daily simple returns of Intel stock Monthly Treasury rates (10 yrs, yrs, , yr) 574 19,704 16,656 1.182997118 10 Weekly Treasury Bill rates 2,202 237,750 185,181 1.283879016 11 Monthly log stock returns of Alcoa Monthly log stock returns of American Express Monthly log stock returns of Disney Monthly log stock returns of General Motors Monthly log stock returns of Hershey Foods Monthly log stock returns of Mellon Financial Co Exchange rates of Canadian Dollar versus U.S Dollar Log prices of futures and spot of SP500 Treasury 1-year constant maturity rates Dow Jones index at closing on 251 trading days ending 26 August 1994 456 100,604 100,604 324 50,101 50,101 456 100,604 100,604 456 99,709 99,709 456 99,709 99,709 324 50,101 50,101 1,800 46,680 29,167 1.600438852 2,820 382,420 273,475 1.398372795 1,976 183,966 183,360 1.003304974 292 36,595 36,595 12 13 14 15 16 17 18 19 20 1.079558432 Bảng 5.1: Kết thực nghiệm 20 liệu chuỗi thời gian Trang 55 hận dạng mẫu lặp lại (mơ típ) liệu chuỗi thời gian EMMASAX (2) EMMAESAX (3) EMMA-SAXCount (4) Tỷ lệ số lần gọi hàm tính khoảng cách thực tế giải thuật EMMA SAX EMMAESAX (6) EMMA-ESAXCount (5) STT n (1) 300 16,707 5,051 36 57 3.307661849 310 39,485 6,470 33 56 6.102782071 320 37,085 11,061 29 48 3.352770997 330 40,886 14,320 27 41 2.855167598 340 56,238 19,375 25 36 2.902606452 350 39,162 21,780 19 31 1.798071625 360 28,877 21,764 20 30 1.326824113 370 36,544 24,933 16 20 1.465688044 380 39,376 26,392 14 18 1.491967263 10 390 37,173 27,768 12 16 1.338699222 11 400 44,674 29,067 14 1.536931916 12 410 46,541 31,485 11 1.478195966 13 420 47,053 32,955 1.427795479 14 430 46,122 34,475 4 1.337839014 15 440 48,181 33,911 1.420807408 16 450 49,113 33,963 1.446073668 17 454 49,704 33,882 1.466973614 18 456 49,751 33,763 1.473536119 Bảng 5.2: Kết thực nghiệm liệu Daily simple returns of 3M stock Trang 56 hận dạng mẫu lặp lại (mơ típ) liệu chuỗi thời gian - EMMASAX (2) EMMAESAX (3) EMMA-SAXCount (4) Tỷ lệ số lần gọi hàm tính khoảng cách thực tế giải thuật EMMA SAX EMMAESAX (6) STT n (1) EMMA-ESAXCount (5) 20 289,986 56,295 264 80 5.151185718 22 79,828 44,263 104 63 1.803492759 24 142,890 67,917 174 64 2.103891515 26 93,124 15,228 111 31 6.115313895 28 104,232 21,327 86 28 4.887325925 30 43,081 7,261 38 22 5.933204793 32 57,306 8,386 50 21 6.833532077 34 21,951 6,556 30 18 3.348230628 36 12,723 10,732 20 1.18551994 10 38 8,516 15,934 15 12 0.534454625 11 40 8,647 6,556 10 1.318944478 12 42 8,912 6,556 1.359365467 13 44 10,012 5,152 1.943322981 14 45 5,672 5,357 6 1.058801568 Bảng 5.3: Kết thực nghiệm liệu Daily simple returns of value-weighted 5.3 Kết luận Đối với loại liệu tài áp dụng giải thuật EMMA sử dụng phương pháp rời rạc hóa SAX khơng thể số đặc điểm quan trọng liệu [17] so với giải thuật EMMA sử dụng phương pháp rời rạc hóa liệu ESAX Do đó, với loại liệu giải thuật EMMA sử dụng phương pháp ESAX thực tìm mơ típ hiệu Tuy nhiên, hiệu giải thuật EMMA sử dụng phương pháp ESAX cần kiểm tra nhiều chuỗi liệu thời gian lĩnh vực tài lĩnh vực khác Trang 57 hận dạng mẫu lặp lại (mơ típ) liệu chuỗi thời gian N goài ra, từ kết thực nghiệm cho thấy độ xác mơ típ tìm áp dụng hai phương pháp rời rạc hóa liệu chuỗi thời gian SAX ESAX vào giải thuật EMMA tương đương Trang 58 hận dạng mẫu lặp lại (mơ típ) liệu chuỗi thời gian CHƯƠ G VI: KẾT LUẬ Chương tổng kết việc làm được, đóng góp luận văn nêu lên hướng mở rộng cho nghiên cứu sau 6.1 Tổng kết Bài tốn nhận dạng mơ típ chuỗi liệu thời gian quan tâm nghiên cứu nhiều giới [7], [18], [30], [35], [36], [38], [39], [43] Việc tìm giải thuật nhận dạng mơ típ hữu ích, áp dụng vào số cơng việc như: khai phá liệu chuỗi thời gian (data-mining) Luận văn tập trung nghiên cứu giải thuật EMMA Lin J, cộng đề nghị [18] Trong giải thuật EMMA sử dụng phương pháp rời rạc hóa liệu SAX, phương pháp áp dụng liệu chuỗi thời gian thuộc lĩnh vực tài khơng thể đặc điểm quan trọng liệu [17] Do đó, phương pháp rời rạc hóa liệu ESAX dùng để khắc phục điểm yếu [17] Luận văn nghiên cứu so sánh hiệu hai phương pháp rời rạc hóa liệu SAX, ESAX áp dụng vào giải thuật EMMA tiến hành thực nghiệm liệu chuỗi thời gian lĩnh vực tài Kết thực nghiệm cho thấy hiệu suất giải thuật EMMA cải thiện với phương pháp rời rạc hóa liệu chuỗi thời gian ESAX Tuy nhiên, phương diện độ xác hai phương pháp SAX ESAX áp dụng vào giải thuật nhận dạng mơ típ EMMA tương đương với Kết không giống trực giác lúc ban đầu tiến hành nghiên cứu áp dụng phương pháp ESAX vào giải thuật nhận dạng mơ típ EMMA chúng tơi nghĩ xác áp dụng phương pháp SAX số liệu lĩnh vực tài 6.2 hững đóng góp luận văn Các kết đạt đề tài bao gồm: Trang 59 hận dạng mẫu lặp lại (mô típ) liệu chuỗi thời gian - Hiện thực hệ thống nhận dạng mơ típ dựa giải thuật EMMA áp dụng phương pháp SAX ESAX, thực nghiệm mẫu liệu lĩnh vực tài so sánh kết đạt - N ghiên cứu so sánh thực nghiệm phương pháp rời rạc hóa liệu chuỗi thời gian ESAX thay cho phương pháp rời rạc hóa liệu chuỗi thời gian SAX giải thuật EMMA - Kết thực nghiệm cho thấy áp dụng phương pháp rời rạc hóa liệu ESAX thay cho SAX giải thuật EMMA cải tiến hiệu giải thuật kết mơ típ tìm tương đương với Điều cho thấy phương pháp ESAX biểu diễn liệu tốt phương pháp SAX loại liệu chuỗi thời gian lĩnh vực tài 6.3 Hướng phát triển Đề tài thực áp dụng phương pháp rời rạc hóa liệu ESAX để nâng cao hiệu giải thuật EMMA loại liệu thuộc lĩnh vực tài Tuy nhiên cịn nhiều điểm khác cần phải nghiên cứu hồn thiện i) Các kết thực nghiệm thực số loại liệu lĩnh vực tài Do đó, cần phải tiến hành thực nghiệm nhiều dạng liệu khác lĩnh vực để kết luận hiệu giải thuật EMMA áp dụng phương pháp ESAX ii) Bài tốn nhận dạng mơ típ tốn rộng, giải thuật EMMA thực nhận dạng mơ típ theo kích thước mơ típ xác định trước, khó khăn cho người dùng Do đó, cần thực nghiên cứu để cải tiến giải thuật cho nhận dạng mơ típ mà khơng cần xác định trước kích thước mơ típ Trang 60 Finding motifs in time series data THƯ MỤC THAM KHẢO [1] Agrawal, R., Faloutsos, C., & Swami, A (1993) Efficient similarity search in sequence databases In proceeding of the 4th Conference on Foundations of Data Organization and Algorithms [2] Berndt, D and Clifford, J (1996) Finding patterns in time series: a dynamic programming approach Journal of advances in Knowledge Discovery and Data Mining, AAAI/MIT Press, Menlo Park, CA, pp 229-248 [3] Berndt, D and Clifford, J (1996) Finding patterns in time series: a dynamic programming approach Journal of advances in Knowledge Discovery and Data Mining, AAAI/MIT Press, Menlo Park, CA, pp 229-248 [4] Buhler, J and Tompa, M (2001) Finding Motifs Using Random Projections In RECOMB'01, pages 69 76 ACM [5] Chan, K and Fu, W (1999) Efficient time series matching by wavelets In proceedings of the 15th IEEE International Conference on Data Engineering (ICDE1999), March 23-26, 1999, pp 126-133 [6] Chan, K and Fu, W (1999) Efficient time series matching by wavelets In proceedings of the 15th IEEE International Conference on Data Engineering (ICDE1999), March 23-26, 1999, pp 126-133 [7] Chang, B.C.H and Halgamuge, K (2002) Protein motif extraction with neuro-fuzzy optimization Bioinformatics, 18, 2002, pp 1084-1090 [8] Chiu, B Keogh, E., & Lonardi, S (2003) Probabilistic Discovery of Time Series Motifs In the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining August 24 - 27, 2003 Washington, DC, USA pp 493-498 [9] Goldin, D., Gunopulos, D and Mannila, H (1997) Finding similar time series In proceedings of the 1st European Symposium on Principles of Data Mining and Knowledge Discovery (PKDD'97), June 24-27, 1997, pp 88-100 [10] Keogh, E and Pazzani, M (1999) An Indexing Scheme for Fast Similarity Search in Large Time Series Databases In proceedings of the 11th International Conference on Scientific and Statistical Database Management (SSDBM 1999), July 28-30, 1999, pp 56-67 [11] Keogh, E., Lin, J., Fu, W (2005) HOT SAX: Efficiently Finding the Most Unusual Time Series Subsequence In proceedings of the 5th IEEE International Conference on Data Mining (ICDM 2005), N ovember 27-30, 2005, pp 226-233 Trang 61 Finding motifs in time series data [12] Keogh, E., Chakrabarti, K., Pazzani, M & Mehrotra, S (2000) Dimensionality Reduction for Fast Similarity Search in Large Time Series Databases Knowledge and Information Systems 3(3), pp 263-286 [13] Keogh, E., Chakrabarti, K., Pazzani, M & Mehrotra, S (2001) Locally adaptive dimensionality reduction for indexing large time series databases In proceedings of ACM SIGMOD Conference on Management of Data, May pp 151-162 [14] Keogh, E (2007).Mining Shape and Time Series Databases with Symbolic Representations Tuorial of the 13rd ACM Interantional Conference on Knowledge Discovery and Data Mining (KDD 2007), August 12-15, 2007 [15] Korn, F., Jagadish, H and Faloutsos, C (1997) Efficiently supporting ad hoc queries in large datasets of time sequences In proceedings of the 1997 ACM SIGMOD International Conference on Management of Data (CIKM 1997), May 13-15, pp 289-300 [16] Leung W., Tam W C., Chang B and Halgamuge S (2003) Effects of Search Pattern Variations in Motif Discovery Algorithm: MOTIFFI DER In proceedings of 5th IFAC Symposium on Modelling and Control in Biomedical Systems, August 2003, Melbourne, Australia [17] Lkhagva, B., Suzuki, Y., Kawagoe, K (2006) Extended SAX: Extension of symbolic aggregate approximation for financial time series data representation In DEWS, 4A-i8 [18] Lin, J Keogh, E., Patel, P & Lonardi, S (2002) Finding Motifs in Time Series In Proceedings of the 2nd Workshop on Temporal Data Mining, at the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining [19] Lin, J Keogh, E., Patel, Wei, L., Lonardi, S (2007) Experiencing SAX: A ovel Symbolic Representation of Time Series Data Mining and Knowledge Discovery Journal, 2007 [20] Lin, J., Keogh, E., Lonardi, S & Chiu, B (2003) A Symbolic Representation of Time Series, with Implications for Streaming Algorithms In proceedings of the 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery San Diego, CA June 13 [21] Lin, J., Keogh, E., Lonardi, S., Lankford, J P & N ystrom, D M (2004) Visually Mining and Monitoring Massive Time Series In proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining Seattle, WA Aug 22-25 Trang 62 Finding motifs in time series data [22] Lkhagva, B , Suzuki, Y and Kawagoe, K (2006) ew Time Series Data Representation ESAX for Financial Applications In proceedings of the International Special Workshop on Databases for ext-Generation Researchers (SWOD 2006) in conjunction with International Conference on Data Engineering (ICDE 2006), April 7, 2006, pp 17-22 [23] M L Hetland, (2003) A Survey of Recent Methods for Efficient Retrieval of Similar Time Sequences In Data Mining in Time Series Databases, (M Last, A Kandel, and H Bunke, Eds.) Singapore: World Scientific, pp 23-42 [24] Megalooikonomou, V., Wang, Q., Li, G., Faloutsos, C A Multiresolution Symbolic Representation of Time Series In proceedings of the 21st International Conference on Data Engineering (ICDE 2005), April 5-8, 2005, pp 668-679 [25] N guyen Quoc Viet Hung and Duong Tuan Anh (2007) Combining SAX and Piecewise Linear Approximation to Improve Similarity Search on Financial Time Series In proceedings of International Symposium on Information Technology Convergence,(ISITC 2007) N ovember 23-24, 2007 Jeonju, Korea pp 58-62 [26] N guyen Quoc Viet Hung hận dạng mẫu đáng quan tâm tập liệu chuỗi thời gian Luận văn thạc sĩ, Khoa Khoa Học Kỹ Thuật Máy Tính, Đại Học Bách Khoa Tp Hồ Chí Minh [27] Panuccio, A., Bicego, M and Murino, V (2002) A Hidden Markov Modelbased approach to sequential data clustering In T Caelli, A Amin, R P W Duin, M S Kamel, and D de Ridder, editors, Proceedings Joint IAPR International Workshops Structural, Syntactic, and StatisticalPattern Recognition, pages 734–742 Springer, 2002 [28] Pevzner, P A and Sze, S H (2000) Combinatorial approaches to finding subtle signals in D A sequences In proceedings of the 8th International Conference on Intelligent Systems for Molecular Biology La Jolla, CA, Aug 1923 pp 269-278 [29] Popivanov, I and Miller, R (2002) Similarity search over time series data using wavelets In proceedings of the 18th International Conference on Data Engineering (ICDE 2002), 26 February - March, 2002, pp 212-221 [30] Prakash A, Blanchette M, Sinha S, Tompa M (2004) Motif discovery in heterogeneous sequence data In Pacific Symposium on Biocomputing: January 2004; Hawaii, 2004, 348-359 [31] Rafiei, D and Mendelzon, A.O (1998) Efficient retrieval of similar time sequences using dft In proceedings of the 5th International Conference on Foundations of Data Organization and Algorithms (FODO 1998), N ovember 1213, 1998, pp 249-257 Trang 63 Finding motifs in time series data [32] Sebastiani, P and Ramoni, M (2001) Clustering continuous time series In C E Brodley and A P Danyluk, editors, Proceedings of the 18th International Conference on Machine Learning(ICML’01), pp 497–504 Morgan Kaufmann, 2001 [33] Shasha, D and Wang, T (1990) ew techniques for best-match retrieval ACM Trans on Information Systems, Vol 8(2) pp 140-158 [34] Smyth, P (1997) Clustering sequences with Hidden Markov Models In M C Mozer, M I Jordan, and T Petsche, editors, Advances in eural Information Processing Systems, volume 9, p 648 MIT Press, 1997 [35] Tanaka, Y and Uehara, K (2003) Discover motifs in multi-dimensional timeseries using the principal component analysis and the mdl principle In International Conference on Machine Learning and Data Mining, pp 252–265 [36] Timothy L Bailey and Elkan C (1995) The value of prior knowledge in discovering motifs with MEME In proceedings of the Third International Conference on Intelligent Systems for Molecular Biology (ISMB'95), pp 21-29, AAAI Press, Menlo Park, California, July, 1995 [37] Wei, L., Keogh, E., Xi, X (2006) SAXually Explicit Images: Finding Unusual Shapes In proceedings of the 6th IEEE International Conference on Data Mining (ICDM 2006), December 18-22, 2006, pp 711-720 [38] Wilson, W and Birkin, Phil and Aickelin (2006) The Motif Tracking Algorithm (MTA) Presented at ARTIST 2006 Interdisciplinary Workshop on Artificial Immune Systems 21st - 22nd, N ovember 2006 York [39] Wilson, W O., Birkin, P and Aickelin, U (2007) Motif Detection Inspired by Immune Memory In 6th International Conference, ICARIS 2007, Santos Brazil, August 2007 pp (to appear) [40] Wu, Y., Agrawal, D and Abbadi, A.E (2000) A comparison of dft and dwt based similarity search in time-series databases In proceedings of the 9th ACM CIKM International Conference on Information and Knowledge Management (CIKM 2000), N ovember 6-11, 2000, pp 488-495 [41] Xia, B (1997) Similarity Search in Time Series Data Sets In Master thesis, Simon Fraser University, 1997 [42] Xiong, Y and Yeung, D (2003) Model-based clustering of sequential data using ARMA mixtures In proceedings of the 4th ACM Postgraduate Research Day, pp 203–210, 2003 [43] Yankov, D., Keogh, E., Medina, J., Chiu, B., Zordan, V (2007) Detecting Time Series Motifs Under Uniform Scaling In proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining, SIGKDD 2007 Trang 64 Finding motifs in time series data [44] Zuo, X., Jin, X (2005) Accurate Symbolization of Time Series In proceedings of the 9th Pacific-Asia Conference on Advances in Knowledge Discovery and Data Mining (PAKDD 2005), May 18-20, 2005, pp 764-770 [45] Web Page for Time Series data http://wwwpersonal.buseco.monash.edu.au/~hyndman/TSDL/index.htm [46] Web page for Analysis of Financial Time Series http://faculty.chicagobooth.edu/ruey.tsay/teaching/fts/ [47] Web Page for Time Series data “http://www.cs.ucr.edu/~eamonn/Keogh_Time_Series_CDrom.zip” [48] Web Page liệu chứng khoán Việt N am http://www.saga.vn/ [49] Web page nghiên cứu khai phá liệu chuỗi thời gian http://www.cs.uiuc.edu/homes/hanj/ Trang 65 Finding motifs in time series data PHỤ LỤC A: BẢ G ĐỐI CHIẾU THUẬT GỮ A H - VIỆT Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt Viết tắt amplitude scale co giãn biên độ binary search tree tìm kiếm nhị phân Breakpoint điểm chia classification phân loại clustering gom cụm collision matrix ma trận đụng độ dimensional reduction thu giảm số chiều discrete Fourier transform phép biến đổi Fourier rời rạc DFT discrete Wavelet transform phép biến đổi Wavelet rời rạc DWT discretizeation rời rạc hóa distance khoảng cách Enumeration of Motifs through Matrix Approximation EMMA Extended symbolic approXimation ESAX aggregate xấp xỉ gộp ký hiệu hóa mở rộng Feature đặc điểm frame khung longest common subsequence chuỗi chung dài match trùng khớp mean giá trị trung bình motif Mơ típ moving average trung bình di chuyển nearest-neighbor motif mơ típ liền kề gần Trang A1 Finding motifs in time series data neighborhood nhóm liền kề non-trivial nearest neighbor liền kề gần không tầm thường piecewise aggregate approximation xấp xỉ gộp đoạn projection Algorithm giải thuật chiếu PAA protein motif extraction with neuro- nhận dạng mơ típ Protein sử fuzzy optimization dụng mạng neuron tối ưu logic mờ singular value decomposition phân rã trị kỳ dị standard normal distribution phân bố chuNn chuNn hóa subsequence chuỗi suffix linked tree hậu tố liên kết suffix tree hậu tố symbolic aggregate approXimation xấp xỉ gộp ký hiệu hóa time series chuỗi thời gian time warping xoắn thời gian trivial match trùng khớp tầm thường SVD SAX Trang A2 ... 3.2 Các khái niệm sử dụng nhận dạng mơ típ liệu chuỗi thời gian 3.2.1 Dữ liệu chuỗi thời gian (Time series) Trang 26 hận dạng mẫu lặp lại (mơ típ) liệu chuỗi thời gian Một chuỗi liệu thời gian. .. Trang ii hận dạng mẫu lặp lại (mơ típ) liệu chuỗi thời gian TĨM TẮT LUẬN VĂN Nhận dạng mơ típ liệu chuỗi thời gian ngày đóng vai trò quan trọng lĩnh vực: khai phá liệu chuỗi thời gian (data-mining)... tổng quát, ta giả sử chuỗi liệu thời gian Y có chiều dài n Lấy số chiều thu giảm liệu 1

Định dạng
Số trang	77
Dung lượng	8,44 MB