Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 77 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
77
Dung lượng
2,99 MB
Nội dung
ĐẠI Ạ HỌC ỌC QUỐ QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA Luận ận vvăn Thạc sĩ Khoa học máy tính Tên đề tài: NHẬN Ậ DIỆN ỆN MOTIF TRÊN DỮ Ữ LIỆU ỆU CHUỖI THỜI ỜI GIAN D DỰA VÀO ĐIỂM CỰC ỰC TRỊ TR QUAN TRỌNG Cán hướng dẫn Sinh viên thực MSSV : PGS.TS Dương Tuấn Anh : Huỳnh Nguyễn Tín : 09070469 TPHCM, tháng 07 năm 2012 ĐẠI HỌC QUỐC GIA TP HCM CỘNG HOÀ XÃ HỘI CHỦ NGHIÃ VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc Lập - Tự Do - Hạnh Phúc -oOo Tp HCM, ngày tháng năm 2012 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Huỳnh Nguyễn Tín……… Giới tính: Nam �/ Nữ � Ngày, tháng, năm sinh: 22/12/1977 Nơi sinh: Quảng Ngãi Chuyên ngành: Khoa học Máy tính………………………………………………………… Khố: 2009…………………………………………………………………………………… 1-TÊN ĐỀ TÀI: NHẬN DẠNG MOTIF DỰA VÀO ĐIỂM CỰC TRỊ QUAN TRỌNG 2-NHIỆM VỤ LUẬN VĂN: 3-NGÀY GIAO NHIỆM VỤ: 4-NGÀY HOÀN THÀNH NHIỆM VỤ: …………………………………………………………………………………………………… ……………………………………………………………………………………………………… 5-HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: PGS.TS Dương Tuấn Anh…………………… Nội dung đề cương Luận Văn Thạc Sĩ Hội Đồng Chuyên Ngành thông qua CÁN BỘ HƯỚNG DẪN (Họ tên chữ kí) CHỦ NHIÊM BỘ MƠN QUẢN LÝ CHUN NGÀNH (Họ tên chữ kí) PGS.TS Dương Tuấn Anh TS Đinh Đức Anh Vũ Nhận diện motif liệu chuỗi thời gian dựa vào điểm cực trị quan trọng LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Ngày 01/07/2012 Huỳnh Nguyễn Tín Huỳnh Nguyễn Tín – 09070469 ii Nhận diện motif liệu chuỗi thời gian dựa vào điểm cực trị quan trọng LỜI CẢM ƠN Tôi xin gửi lời cám ơn chân thành sâu sắc đến PGS TS.Dương Tuấn Anh, người Thầy không quản thời gian công sức tận tình bảo hướng dẫn tơi suốt thời gian thực luận văn Tôi xin cám ơn q thầy cơ, người gián tiếp trực tiếp bảo hướng dẫn giúp tơi có kiến thức cần thiết để thực luận văn Qua xin cám ơn anh chị bạn nhóm nghiên cứu giúp đỡ, góp ý cho tơi suốt q trình làm luận văn Một lần tơi xin gửi lời cám ơn chân thành đến tất người Huỳnh Nguyễn Tín – 09070469 iii Nhận diện motif liệu chuỗi thời gian dựa vào điểm cực trị quan trọng TĨM TẮT LUẬN VĂN Tìm kiếm motif tập liệu chuỗi thời gian kỹ thuật phổ biến việc khai phá tập liệu chuỗi thời gian Mục đích việc nhận diện motif tìm chuỗi tương tự chuỗi liệu, từ nhận đặc trưng đánh giá tập liệu chuỗi thời gian Một giải thuật nhận diện motif áp dụng phổ biến phương pháp chiếu ngẫu nhiên - Random Projection Algorithm Phương pháp chiếu ngẫu nhiên thực đơn giản dễ tiếp cận Tuy nhiên phương pháp chạy lâu với chuỗi liệu thời gian có kích thước lớn, đồng thời thông số giải thuật phải xác định cách ‘thử sửa sai’ Từ vấn đề nêu trên, đề tài dựa vào cách tiếp cận để nhận diện motif dựa vào điểm cực trị quan trọng Đầu tiên tìm điểm cực trị motif Sau xác định ứng viên motif dựa vào điểm cực trị Tiếp theo thực gom cụm ứng viên Motif dựa vào giải thuật phân cấp từ lên (hierarchical bottom-up algorithm) K-Means Cuối chúng tơi dựa vào cụm có nhiều phần tử để tìm motif chuỗi liệu thời gian Cách tiếp cận gọi EP_C (Extreme Point Clustering) Gruber cộng đề xuất năm 2006 Trong đề tài áp dụng kỹ thuật cải tiến giải thuật EP_C việc tính độ tương tự Kỹ thuật giúp chương trình nhận diện motif mà phương pháp chiếu ngẫu nhiên khơng tìm thấy, giúp chương trình chạy nhanh cho kết khả quan phương pháp chiếu ngẫu nhiên Huỳnh Nguyễn Tín – 09070469 iv Nhận diện motif liệu chuỗi thời gian dựa vào điểm cực trị quan trọng MỤC LỤC CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI 1.1 Dữ liệu chuỗi thời gian 1.2 Nhận diện Motif liệu chuỗi thời gian 1.3 Mục tiêu giới hạn đề tài 1.4 Tóm lược kết thu được: 1.5 Cấu trúc luận văn CHƯƠNG 2: TỔNG THUẬT CÁC CƠNG TRÌNH LIÊN QUAN 2.1 Độ đo tương tự 2.1.1 Độ đo Minkowski 2.1.2 Độ đo xoắn thời gian động 2.2 Các phương pháp thu giảm số chiều 10 2.2.1 Phương pháp khơng thích nghi liệu: 10 2.2.2 Phương pháp thích nghi liệu 13 2.3 Rời rạc hóa liệu phương pháp xấp xỉ gộp ký hiệu hóa (Symbolic Aggregate approximation - SAX) 16 2.4 Nhận diện mẫu lặp thường xuyên (motif) cho liệu chuỗi thời gian 17 2.5 Nhận diện motif dựa vào phương pháp chiếu ngẫu nhiên (Random Projection Algorithm) 19 2.6 Giải thuật nhận diện motif MK 21 2.7 Kết luận 25 CHƯƠNG 3: CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ 26 3.1 Điểm cực trị quan trọng (Important Extreme Points) 26 3.2 Phương pháp nhận diện motif dựa vào Điểm Quan Trọng 29 3.2.1 Độ đo tương tự 29 3.2.2 Tìm ứng viên Motif 30 3.2.3 Giải thuật gom cụm phân cấp theo hướng từ lên (Hierarchical BottomUp Algorithm) 31 3.3 Giải thuật gom cụm K-Means 32 CHƯƠNG 4: HIỆN THỰC VÀ THỬ NGHIỆM 33 4.1 Cải tiến giải thuật phương pháp biến hình vị tự motif ứng viên cơng thức tính độ tương tự loại trừ độ lệch biên độ 34 4.1.1 Khái niệm phép biến hình vị tự : 35 4.1.2 Lấy mẫu ứng viên motif phép vị tự 36 4.2 Mơ hình thực phương pháp 38 4.2.1 Mơ hình nhận diện Motif dùng phép chiếu ngẫu nhiên 39 4.2.2 Mô hình giải thuật phân cấp từ lên kết hợp với phương pháp tính độ tương tự dùng nội suy spline 40 4.2.3 Mơ hình giải thuật HAC K-Means kết hợp với phương pháp tính độ tương tự cải tiến 41 4.3 Kết thực nghiệm giải thuật 42 4.3.1 Dữ liệu ECG (Điện tâm đồ) với kích thước 7900 điểm 42 4.3.2 Dữ liệu Memory với kích thước 7000 điểm 47 4.3.3 Dữ liệu Power với kích thước 35000 điểm 52 4.3.4 Dữ liệu ECG với kích thước 140 000 điểm 55 Huỳnh Nguyễn Tín – 09070469 v Nhận diện motif liệu chuỗi thời gian dựa vào điểm cực trị quan trọng 4.4 Bảng tổng kết nhận xét kết thực nghiệm thu tập liệu khác 58 CHƯƠNG 5: KẾT LUẬN 61 5.1 Tổng kết 61 5.2 Những đóng góp đề tài 61 5.3 Hướng phát triển đề tài 62 Huỳnh Nguyễn Tín – 09070469 vi Nhận diện motif liệu chuỗi thời gian dựa vào điểm cực trị quan trọng DANH MỤC CÁC HÌNH Hình 1-1: Minh họa liệu chuỗi thời gian theo dõi trình đo nhiệt độ Hình 1-2: Đồ thị biễu diễn chuỗi liệu thời gian điện tâm đồ (ECG) Hình 2-1: Minh họa hình dạng liệu chuỗi thời gian có hai đường giống nhau, đường khác Hình 2-2: Minh họa hình dạng liệu chuỗi thời gian có hai đường giống biên độ dao động khác Hình 2-3: a)Tính khoảng cách dựa vào phương pháp Euclid,(b)Tính khoảng cách dựa vào phương pháp DWT Hình 2-4: Minh họa cách tính khoảng cách theo DWT Hình 2-5: Minh họa biễu diễn liệu chuỗi thời gian theo phương pháp PAA 11 Hình 2-6: Minh họa phương pháp biểu diễn liệu chuỗi thời gian theo phương pháp DFT, DWT PAA 14 Hình 2-7: Minh họa cách biến đổi chuỗi thời gian theo phương pháp SVD, PACA PLA 15 Hình 2-8: Minh họa phương pháp rời rạc hóa liệu chuỗi thời gian phương pháp SAX Kết thu ta có chuỗi ký tự ffffffeeeddcbaabceedcbaaaaacddee 16 Hình 2-9: Mơ nhận diện motif liệu chuỗi thời gian Ba chuỗi liệu bên thường xuất chuỗi liệu ban đầu phía 18 Hình 2-10: Mô khớp (matching) hai chuỗi C M Chuỗi thời gian T đường màu đen nhỏ, chuỗi C có hình màu đen in đậm chuỗi M có hình màu xám 18 Hình 2-11: Trong hầu hết chuỗi C, có hai chuỗi khớp (match) tốt nằm bên trái bên phải chuỗi 19 Hình 2-12: Minh họa việc xây dựng ma trận với a=3, w=4 n=16 20 Hình 2-13: Trái) {1,2} chọn ngẫu nhiên Phải) tăng giá trị ô tương ứng đơn vị [2] 21 Hình 2-14: Trái) Cột {2,4} chọn Phải) Tăng giá trị vị trí tương ứng [2] 21 Hình 2-15: Giải thuật tìm kiếm motif liệu chuỗi thời gian Brute-Force 22 Hình 2-16: Chặn chuỗi 23 Hình 2-17: Mơ tả q trình cập nhật best-so-far 24 Hình 2-18: Tăng tốc giải thuật Brute-Force với điểm tham chiếu 24 Hình 2-19: Giải thuật MK-Motif 25 Hình 3-1: Điểm quan trọng với hệ số nén 91% 94% 26 Hình 3-2: Điểm cực đại cực tiểu quan trọng 27 Hình 3-3: Giải thuật gom cụm phân cấp từ lên xuống HAC 32 Hình 4-1: Chuỗi liệu ban đầu có chiều dài 470 điểm 34 Hình 4-2: Chuỗi liệu sau lấy mẫu có chiều dài 400 dùng phương pháp nội suy spline bậc I 35 Hình 4-3: Chuỗi liệu sau lấy mẫu có chiều dài 300 dùng phương pháp nội suy spline bậc I 35 Hình 4-4: Minh họa phép vị tự tâm O, hệ số vị tự k =1/2 36 Hình 4-5: Chuỗi liệu sau lấy mẫu có chiều dài 150 điểm dùng phương pháp vị tự 37 Hình 4-6: Chuỗi liệu sau lấy mẫu có chiều dài 2000 điểm dùng phương pháp vị tự37 Hình 4-7: Mơ hình RP 39 Hình 4-8: Mơ hình EP_C\HAC\SI 40 Hình 4-9: Mơ hình EP_C|HAC|HT EP_C|K-Means|HR 41 Huỳnh Nguyễn Tín – 09070469 vii Nhận diện motif liệu chuỗi thời gian dựa vào điểm cực trị quan trọng Hình 4-10: Dữ liệu ECG có kích thước 7900 điểm 42 Hình 4-11: Giải thuật RP với tập liệu ECG 7900 điểm 43 Hình 4-12: Giải thuật EP_C|HAC|SI với tập liệu ECG 7900 điểm 44 Hình 4-13: Giải thuật EP_C|HAC|HT với liệu ECG 7900 điểm 45 Hình 4-14: Giải thuật EP_C|K-Means|HT với liệu ECG 7900 điểm 46 Hình 4-15: Dữ liệu Memory 47 Hình 4-16: Giải thuật RP với tập liệu Memory 6800 điểm 48 Hình 4-17: Giải thuật EP_C|HAC|SI với tập liệu Memory 6800 điểm 49 Hình 4-18: Giải thuật EP_C|HAC |HT với tập liệu Memory 6800 điểm 50 Hình 4-19: Giải thuật EP_C|K-Means|HT với tập liệu Memory 6800 điểm 51 Hình 4-20: Dữ liệu power với kích thước 35000 điểm 52 Hình 4-21: Giải thuật EP_C|HAC|SI với liệu Power 35000 điểm 53 Hình 4-22: Giải thuật EP_C|HAC|HT với tập liệu Power 35000 điểm 53 Hình 4-23: Giải thuật EP_C|K-Means|HT với tập liệu Power 35000 điểm 54 Hình 4-24: Dữ liệu ECG với kích thước 140 000 điểm 55 Hình 4-25: Giải thuật EP_C|HAC|SI với liệu ECG 140000 điểm 56 Hình 4-26: Giải thuật EP_C|HAC|HT với liệu ECG 140000 điểm 57 Hình 4-27: Giải thuật EP_C|K-Means|HT với liệu ECG 140000 điểm 58 Bảng 4-1 Bảng tổng kết thời gian thực thi phương pháp 59 Huỳnh Nguyễn Tín – 09070469 viii CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI 1.1 Dữ liệu chuỗi thời gian Chuỗi liệu thời gian hay chuỗi thời gian quan sát liệu theo thời gian Đối với loại liệu này, cấu trúc liệu hai hay nhiều chiều có chiều thời gian, tức liệu theo dõi ghi lại thời điểm định Tuy nhiên, hầu hết ứng dụng thực tế, liệu đo cách khác khoảng thời gian cố định nên để đơn giản hóa trình lưu trữ độ phức tạp liệu, người ta lưu lại thứ tự giá trị liệu theo trình tự thời gian định có dạng X= xi liệu đo thời điểm thứ i Ví dụ có chuỗi thời gian theo dõi trình đo nhiệt độ sau: S= Hình 1-1: Minh họa liệu chuỗi thời gian theo dõi trình đo nhiệt độ Trong ứng dụng thực tế, có nhiều loại liệu chuỗi thời gian theo dõi biến đổi giá chứng khoán, liệu đo điện tim đồ, liệu theo dõi mực nước sông ghi lại việc truy cập trang web người dùng Thông thường, loại liệu chuỗi thời gian lớn, đo lưu trữ lại khoảng thời gian dài việc lưu trữ khai phá liệu thường tốn chi phí thời gian Do việc sử dụng công cụ khai phá liệu áp dụng máy tính thu hút quan tâm, nghiên cứu ứng dụng nhiều lĩnh vực năm gần Nhận diện motif liệu chuỗi thời gian dựa vào điểm cực trị quan trọng Thông số giải thuật: Thông số Giá trị Ý nghĩa R 1.2 Hệ số nén việc tìm điểm cực trị l_min 50 Chiều dài cực tiểu ứng viên motif R 0.2 Tổng số cụm/ tổng số điểm cực trị l_resample 500 Chiều dài ứng viên motif sau lấy mẫu Kết thu 36 thể motif, thời gian thực thi giây (Hình 4.22) 4.3.3.3 Tập liệu Power 35000 điểm với giải thuật EP_C|K-Means|HT Hình 4-23: Giải thuật EP_C|K-Means|HT với tập liệu Power 35000 điểm Huỳnh Nguyễn Tín – 09070469 54 Nhận diện motif liệu chuỗi thời gian dựa vào điểm cực trị quan trọng Thông số giải thuật: Thông số Giá trị Ý nghĩa R 1.2 Hệ số nén việc tìm điểm cực trị l_min 50 Chiều dài cực tiểu ứng viên motif r 0.2 Tổng số cụm/ tổng số điểm cực trị l_resample 500 Chiều dài ứng viên motif sau lấy mẫu Kết thu 44 thể motif, thời gian thực giây ( Hình 4.23) 4.3.3.4 Kết luận kết thực nghiệm thu giải thuật tập liệu Power 35000 điểm Dựa vào kết thực nghiệm tập liệu Power nhận thấy ưu điểm phương pháp biến hình vị tự so với nội suy spline sau: Thời gian chạy nhanh Kết xác 4.3.4 Dữ liệu ECG với kích thước 140 000 điểm Hình 4-24: Dữ liệu ECG với kích thước 140 000 điểm Huỳnh Nguyễn Tín – 09070469 55 Nhận diện motif liệu chuỗi thời gian dựa vào điểm cực trị quan trọng 4.3.4.1 Tập liệu ECG 140000 điểm với tập liệu EP_C|HAC|SI Hình 4-25: Giải thuật EP_C|HAC|SI với liệu ECG 140000 điểm Thông số giải thuật: Thông số Giá trị Ý nghĩa R 1.2 Hệ số nén việc tìm điểm cực trị l_min 50 Chiều dài cực tiểu ứng viên motif r 0.2 Tổng số cụm/ tổng số điểm cực trị a_min/a_max 0.8/1.2 b_min/b_max -1000/1000 Hệ số tỷ lệ cực tiểu cực đại Độ lệch biên độ cực tiểu cực đại Kết thu 65 thể motif, thời gian thực thi 50 giây (Hình 4.25) 4.3.4.2 Tập liệu ECG 140000 điểm với giải thuật EP_C|HAC|HT Huỳnh Nguyễn Tín – 09070469 56 Nhận diện motif liệu chuỗi thời gian dựa vào điểm cực trị quan trọng Hình 4-26: Giải thuật EP_C|HAC|HT với liệu ECG 140000 điểm Thông số giải thuật: Thông số Giá trị Ý nghĩa R 1.2 Hệ số nén việc tìm điểm cực trị l_min 50 Chiều dài cực tiểu ứng viên motif r 0.2 Tổng số cụm/ tổng số điểm cực trị l_resample 500 Chiều dài ứng viên motif sau lấy mẫu Kết thu 85 thể motif, thời gian thực giây Từ kết thu thấy phương pháp vị tự phát thể motif có chiều dài khác nhau, điển hình thể thứ I (Hình 4.26) Huỳnh Nguyễn Tín – 09070469 57 Nhận diện motif liệu chuỗi thời gian dựa vào điểm cực trị quan trọng 4.3.4.3 Dữ liệu ECG 140000 điểm với giải thuật EP_C|K-Means|HT Hình 4-27: Giải thuật EP_C|K-Means|HT với liệu ECG 140000 điểm Thông số giải thuật: Thông số Giá trị Ý nghĩa R 1.2 Hệ số nén việc tìm điểm cực trị l_min 50 Chiều dài cực tiểu ứng viên motif r 0.2 Tổng số cụm/ tổng số điểm cực trị l_resample 500 Chiều dài ứng viên motif sau lấy mẫu Kết thu 85 thể motif, thời gian chạy giây (Hình 4.27) 4.4 Bảng tổng kết nhận xét kết thực nghiệm thu tập liệu khác Huỳnh Nguyễn Tín – 09070469 58 Nhận diện motif liệu chuỗi thời gian dựa vào điểm cực trị quan trọng Bảng 4-1 Bảng tổng kết thời gian thực thi phương pháp Bảng 4.2: So sánh thời gian thực thi phương pháp tập liệu khác Ở liệu Power 35000 điểm ECG 140000 điểm khơng giải thuật RP thời gian thực lâu so với giải thuật khác Từ kết thu thời gian chạy độ xác motif nhận giải thuật RP, HAC|SI, HAC|HT K-Means|HT thấy phương pháp biến hình vị tự cho phép chương trình chạy nhanh kết Huỳnh Nguyễn Tín – 09070469 59 Nhận diện motif liệu chuỗi thời gian dựa vào điểm cực trị quan trọng xác so với giải thuật RP nội suy SI Điều hợp lý lý sau: Vì tính chất cửa sổ trượt phương pháp chiếu ngẫu nhiên nên số ‘ứng viên’ motif phương pháp chiếu ngẫu nhiên nhiều nhiều so với phương pháp điểm trích lược điểm cực trị quan trọng Mặt khác phương pháp RP không cho phép nhận biết hai thể motif có chiều dài hay biên độ khác Phương pháp nội suy spline không cho kết xác chiều dài lấy mẫu sai khác nhiều so với chiều dài ban đầu (điều chứng minh thực nghiệm mục 4.1) Đồng thời với phương pháp nội suy SI, hai ứng viên có chiều dài khác thực lấy mẫu nên số lần lấy mẫu lớn Trong phương pháp biến hình vị tự HT lấy mẫu ứng viên lần Huỳnh Nguyễn Tín – 09070469 60 Nhận diện motif liệu chuỗi thời gian dựa vào điểm cực trị quan trọng CHƯƠNG 5: KẾT LUẬN 5.1 Tổng kết Nhận diện motif liệu chuỗi thời gian công tác khai phá thường sử dụng, giúp nhận đại diện tiêu biểu cho chuỗi thời gian Do vậy, việc nhận diện motif liệu chuỗi thời gian nên tiến hành trước tiến hành công tác khai phá liệu chuỗi thời gian khác gom cụm, phân lớp, phát bất thường v.v Các giải thuật sử dụng để nhận biết motif thường sử dụng BruteForce, phương pháp chiếu ngẫu nhiên, giải thuật EP_C… Một vấn đề đặt cho giải thuật EP_C phương pháp tính độ tương tự hai chuỗi Luận văn đưa cải tiến cho giải thuật EP_C việc tính độ tương tự hai chuỗi thời gian phép biến hình vị tự loại trừ biên độ dao động Kết thực nghiệm cho thấy cách tiếp cận dựa vào phép vị tự cho kết xác thời gian chạy nhanh nhiều phương pháp chiếu ngẫu nhiên lẫn phương pháp EP_C kết hợp với nội suy spline bậc I Gruber C cộng đề xuất năm 2006 5.2 Những đóng góp đề tài Đưa cải tiến cho phương pháp EP_C việc tính độ tương tự chuỗi dùng phép biến hình vị tự loại trừ biên độ dao động Phép vị tự giúp lấy mẫu lại chiều dài chuỗi thành chuỗi liệu có kích thước Sử dụng giải thuật gom cụm phân cấp từ lên HAC K-Means kết hợp với phương pháp tính độ tương tự cải tiến để tìm kiếm motif liệu chuỗi thời gian giúp nhận motif có chiều dài hay biên độ dao động khác So sánh phương pháp chiếu ngẫu nhiên, gôm cụm phận cấp từ lên gôm cụm K-Means tốn tìm kiếm motif chuỗi liệu thời gian Huỳnh Nguyễn Tín – 09070469 61 Nhận diện motif liệu chuỗi thời gian dựa vào điểm cực trị quan trọng 5.3 Hướng phát triển đề tài Đề tài đưa cải tiến giải thuật EP_C để nhận diện motif liệu chuỗi thời gian dựa vào điểm cực trị phép biến hình vị tự ứng viên motif Tuy nhiên để cải thiện hướng nghiên cứu cần bổ sung tiếp cận nghiên cứu tương lai sau: Do giới hạn thời gian nghiên cứu nên trình thực thực tập liệu ECG/Memory/Power Do cần phải thu thập thêm nhiều loại liệu chuỗi thời gian khác để đưa đánh giá quan sát khác Ứng dụng cách tiếp cận vào lĩnh vực liệu chuỗi thời gian dự báo chứng khoán, nhận diện chữ ký… Kết hợp phép biến đổi vị tự với phép nội suy spline bậc cao cho kết xác Huỳnh Nguyễn Tín – 09070469 62 Nhận diện motif liệu chuỗi thời gian dựa vào điểm cực trị quan trọng TÀI LIỆU THAO KHẢO [1] Gruber,C., M Coduro, Sick,B., “Signature Verification With Dynamic RBF Network and Time Seried Motif” , The 10th International Workshop on Frontiers in Hand Writing Recognition 2006 [2] Chiu,B., Keogh, E., S.Lonardi, “Probabilistic Discovery of Time Series Motifs”, ACM SIGKDD 2003,pp 493-498 [3] Lin, J., Keogh, E., Lonardi, S., Patel, P., 2002, “Finding Motif in Time Series” 2nd Workshop on Temporal Data Mining (KDD’02) [4] Mueen, A., Keogh, E., Zhu, Q., Westoever,B., 2009 ”Exact Discovery Of Time Series Motifs”, In the Proceedings of SIAM International Conference on Data Mining, pp 473-484 [5] Pratt, K.B., Fink, E., “Search for pattern in compressed time series”, in International Journal of Image and Graphics, 2002 [6] Chan, K., Fu, A W., 1999, “Efficient time series matching by wavelets” In proceedings of the 15th IEEE International Conference on Data Engineering, Sydney, Australia, pp 126-133 [7] Keogh, E., Chakrabarti, K., Pazzani, M & Mehrotra, S (2000) “Dimensionality reduction for fast similarity search in large tim series database” Journal of Knowledge and Information Systems, pp 263-286 [8] Yi, B & Faloutsos, C (2000) “Fast time sequence indexing for arbitrary Lp norms” In proceedings of the 26th Int’l Conference on Very Large Databases Cairo, Egypt, Sept 10-14 pp 385-394 [9] Gunopulos, D., et al., 1997, “Finding similar time series” In Proceedings of the 1st European Symposium on Principles of Data Mining and Knowledge Discovery, PKDD97, Trondheim, Norway, pp 88-100 [10] Berndt D., J Clifford “Finding patterns in time series: a dynamic programming approach”, Journal of advandces in Knowledge Discovery and Data Mining, AAA/MIT Press, Menlo Park, CA, 1996, pp 229-248 [11] Keogh, E., “A Fast and Robust Method for Pattern Matching in Time Series Databases” In Proceedings of 9th International Conference on Tools with Artificial Intelligence (ICTAI ‘97), November 3-8, 1997, pp 578-584 [12] Rafiei, D., and Mendelzon, A.O “Efficient retrieval of similar time sequences using dft” Proceedings of the 5th International Conference Huỳnh Nguyễn Tín – 09070469 63 Nhận diện motif liệu chuỗi thời gian dựa vào điểm cực trị quan trọng on Foundations of Data Organization and Algorithm (FODO 1998), Number 12-13, 1998, pp.249-257 [13] Chan, K., Fu, A W., 1999, “Efficient time series matching by wavelets” In proceedings of the 15th IEEE International Conference on Data Engineering, Sydney, Australia, pp 126-133 [14] Lkhagva, B., Suzuki, Y & Kawagoe, K (2006).”Extened SAX: Extension of symbolic aggregate approximation for financial time series data representation” In proc of Data Engineering Workshop, 2006 [15] Shieh, J & Keogh, E (2008) iSAX: “Indexing and mining terabyte sized time series” In proc of SIGKDD 2008 [16] Megalooikonomou, V., Wang, Q., Li, G., Faloutsos, C "A Multiresolution Symbolic Representation of Time Series" Proceedings of the 21th International Conference on Data Engineering (ICDE 2005), April 5-8, 2005, pp 668-679 [17] Lin, J., Keogh, E., Lonardi, S., and Chiu, B “A Symbolic Representation of Time Series, with Implications for Streaming Algorithms” Proceedings of 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discover (DMKD 2003), June 13, 2003, pp 2-11 [18] Faloutsos, C., Ranganathan, M, & Manolopoulos, Y (1994) “Fast subsequence matching in time series databases” In proceedings of the ACM SIGNMOD Int’l Conference on Managerment of Data Minneapolis, MN, May 25-27 pp 419-429 Huỳnh Nguyễn Tín – 09070469 64 PHỤ LỤC: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH VIỆT Thuật ngữ tiếng Anh Thuật Ngữ Tiếng Việt Viết tắt Hierarchical Algorithm Clusterring Gom cụm phân cấp Non-Trivial match Khớp không tầm thường Trivial match Khớp tầm thường Classification Phân lớp Clustering Gom cụm Data set Tập liệu Cluster quality Đặc trưng cụm Important Extreme Point Điểm cực trị quan trọng Dimensionality Số chiều Dinamic Time Wraping Xoắn thời gian động DTW Discrete Fourier Transform Biến đổi Fourier rời rạc DFT Discrete Wavelet Transform Biến đổi Wavelet rời rạc DWT High-Dimensional data Dữ liệu nhiều chiều Time series Dữ liệu chuỗi thời gian Motif Chuỗi xuất nhiều chuỗi liệu thời gian Dimensionality Discretization Principle (PCA) Component Triangular inequality Reduction Thu giảm phân rã số chiều Analyses Phân tích thành phần Bất đẳng thức tam giác HAC Nhận diện motif liệu chuỗi thời gian dựa vào điểm cực trị quan trọng LÝ LỊCH TRÍCH NGANG Họ tên: Huỳnh Nguyễn Tín Ngày sinh: 22/12/1977 Nơi sinh: Quảng Ngãi Địa liên lạc: Công ty trách nhiệm hữu hạn Applied Micro, Khu Chế Xuất Tân Thuận, Q7, TPHCM Email: tinhuynh1232004@yahoo.com Huỳnh Nguyễn Tín – 09070469 B Nhận diện motif liệu chuỗi thời gian dựa vào điểm cực trị quan trọng QUÁ TRÌNH ĐÀO TẠO Thời gian Trường đào tạo Chuyên ngành 1995-2000 Trường đại học Điện Tử- Viễn Thông Kỹ Sư Bách Khoa TPHCM 2008-2010 Trường đại học Khoa Học Máy Tính Bách Khoa TPHCM Huỳnh Nguyễn Tín – 09070469 Trình độ đào tạo Thạc Sỹ C Nhận diện motif liệu chuỗi thời gian dựa vào điểm cực trị quan trọng QUÁ TRÌNH CƠNG TÁC Thời gian Đơn vị cơng tác 2000-2007 Cơng ty TNHH Greystone Lập trình viên Data System , Khu chế xuất Linh Trung II , Thủ Đức, TPHCM 2007-2008 Cơng ty Global Cyber Lập trình viên Soft, Cơng viên phần mềm Quang Trung , TPHCM 2008-2012 Công ty AMCC, Khu chế Lập trình viên xuất Tân Thuận TPHCM Huỳnh Nguyễn Tín – 09070469 Vị trí cơng tác D ... 28 Nhận diện motif liệu chuỗi thời gian dựa vào điểm cực trị quan trọng Giải thuật FIND_FIRST_TWO tìm hai điểm cực đại cực tiểu quan trọng chuỗi liệu, FIND_MINIMUM(i) tìm điểm cực tiểu quan trọng. .. – 09070469 26 Nhận diện motif liệu chuỗi thời gian dựa vào điểm cực trị quan trọng nén R nhỏ số điểm cực trị chọn tăng lên Hình 3.1 mơ tả trích lược điểm cực trị chuỗi liệu thời gian với hệ số... 09070469 iii Nhận diện motif liệu chuỗi thời gian dựa vào điểm cực trị quan trọng TĨM TẮT LUẬN VĂN Tìm kiếm motif tập liệu chuỗi thời gian kỹ thuật phổ biến việc khai phá tập liệu chuỗi thời gian Mục