Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 108 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
108
Dung lượng
4,74 MB
Nội dung
Đại Học Quốc Gia Thành Phố Hồ Chí Minh Trường Đại Học Bách Khoa - - LÊ PHÚ ỨNG DỤNG NHẬN DẠNG MOTIF TRÊN DỮ LIỆU CHUỖI THỜI GIAN VÀO VIỆC HỔ TRỢ GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN Chuyên Ngành: Khoa Học Máy Tính LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 07 năm 2011 Ứng dụng nhận dạng motif vào việc gom cụm liệu chuỗi thời gian ĐẠI HỌC QUỐC GIA TP HCM CỘNG HOÀ XÃ HỘI CHỦ NGHIÃ VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc Lập - Tự Do - Hạnh Phúc -oOo Tp HCM, ngày tháng năm 2011 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Lê Phú………………… Giới tính: Nam / Nữ Ngày, tháng, năm sinh: 01/05/1980 Nơi sinh: Quảng Trị Chun ngành: Khoa học Máy tính………………………………………………………………… Khố: 2008…………………………………………………………………………………………… 1- TÊN ĐỀ TÀI: ỨNG DỤNG NHẬN DẠNG MOTIF TRÊN DỮ LIỆU CHUỖI THỜI GIAN VÀO VIỆC HỔ TRỢ GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN 2- NHIỆM VỤ LUẬN VĂN: 3- NGÀY GIAO NHIỆM VỤ: 4- NGÀY HOÀN THÀNH NHIỆM VỤ: 5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: PGS TS Dương Tuấn Anh……………………… Nội dung đề cương Luận văn thạc sĩ Hội Đồng Chuyên Ngành thông qua CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN (Họ tên chữ ký) QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) PGS TS Dương Tuấn Anh TS Đinh Đức Anh Vũ Ứng dụng nhận dạng motif vào việc gom cụm liệu chuỗi thời gian CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học: PGS TS Dương Tuấn Anh Cán chấm nhận xét 1: Cán chấm nhận xét 2: Luận văn thạc sĩ bảo vệ HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, Ngày Tháng Năm 2011 Ứng dụng nhận dạng motif vào việc gom cụm liệu chuỗi thời gian LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Ngày 01 tháng 07 năm 2011 Lê Phú i Ứng dụng nhận dạng motif vào việc gom cụm liệu chuỗi thời gian LỜI CẢM ƠN Tôi xin gởi lời cảm ơn chân thành sâu sắc đến PGS TS Dương Tuấn Anh, người Thầy không quản thời gian cơng sức ln tận tình bảo hướng dẫn suốt thời gian thực luận văn Tơi xin chân thành cám ơn q thầy cơ, người gián tiếp trực tiếp bảo hướng dẫn giúp tơi có kiến thức cần thiết để thực luận văn Qua xin cám ơn anh chị bạn nhóm nghiên cứu giúp đỡ, góp ý cho tơi suốt q trình làm luận văn Một lần xin chân thành cám ơn đến tất người ii Ứng dụng nhận dạng motif vào việc gom cụm liệu chuỗi thời gian TÓM TẮT LUẬN VĂN Gom cụm tập liệu chuỗi thời gian kỹ thuật phổ biến lĩnh vực khai phá liệu chuỗi thời gian Mục đích gom cụm tập liệu chuỗi thời gian nhằm tìm phân hoạch đặc trưng nhóm liệu chuỗi thời gian để đưa đánh giá tập liệu chuỗi thời gian Một giải thuật áp dụng để gom cụm liệu chuỗi thời gian giải thuật K-Means Giải thuật K-Means giải thuật thực đơn giản nên dễ tiếp cận cho kết nhanh Tuy nhiên giải thuật K-Means giải thuật leo đồi dễ rơi vào vùng tối ưu cục bộ, chất lương thời gian gom cụm không ổn định tùy thuộc vào việc chọn ngẫu nhiên trung tâm cụm ban đầu Một nhược điểm khác giải thuật K-Means gom cụm tập liệu chuỗi thời gian thường lớn tốn nhiều thời gian Từ vấn đề nêu trên, đề tài đưa cách tiếp cận để tối ưu trình gom cụm chuỗi liệu thời gian dựa vào mơtíp đại diện Đầu tiên sử dụng giải thuật K-Means để gom cụm mơtíp đại diện chuỗi thời gian để suy trung tâm cụm ban đầu cho tập liệu chuỗi thời gian sau chúng tơi áp dụng giải thuật K-Means tập liệu chuỗi thời gian ban đầu sử dụng trung tâm cụm Đây giải thuật K-Means với việc tạo trung tâm cụm ban đầu có điều khiển Kết thực nghiệm cho thấy, kỹ thuật giúp cho trình gom cụm thực nhanh hơn, số vịng lặp gom cụm hơn, tính ổn định gom cụm tốt độ xác cao so với trình gom cụm trực tiếp tập liệu chuỗi thời gian ban đầu giải thuật K-Means khơng thơng qua mơtíp đại diện iii Ứng dụng nhận dạng motif vào việc gom cụm liệu chuỗi thời gian MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii TÓM TẮT LUẬN VĂN iii DANH MỤC CÁC HÌNH vii CHƯƠNG I: PHÁT BIỂU VẤN ĐỀ 1.1 Dữ liệu chuỗi thời gian 1.2 Bài toán gom cụm liệu chuỗi thời gian 1.3 Mục tiêu giới hạn đề tài 1.4 Tóm lược kết đạt 1.5 Cấu trúc luận văn CHƯƠNG II: TỔNG QUAN CÁC CƠNG TRÌNH LIÊN QUAN .7 2.1 Độ đo tương tự 2.1.1 Độ đo Minkowski 2.1.2 Độ đo xoắn thời gian động 2.2 Các phương pháp thu giảm số chiều 12 2.2.1 Phương pháp khơng thích nghi liệu 12 2.2.2 Phương pháp thích nghi liệu 16 2.3 Rời rạc hóa liệu phương pháp xấp xỉ gộp ký hiệu hóa (Symbolic Aggregate approXimation - SAX) 18 2.4 Nhận dạng mẫu lặp thường xun (mơtíp) cho liệu chuỗi thời gian20 2.5 Gom cụm liệu cho liệu chuỗi thời gian 24 2.5.1 Gom cụm liệu 24 2.5.2 Gom cụm liệu chuỗi thời gian 27 CHƯƠNG III: CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ 32 3.1 Đặt vấn đề 32 3.2 Mơ hình kiến trúc hệ thống gom cụm 33 iv Ứng dụng nhận dạng motif vào việc gom cụm liệu chuỗi thời gian 3.3 Kỹ thuật kiểm tra kết thúc sớm tính hàm khoảng cách 34 3.4 Áp dụng kỹ thuật kiểm tra kết thúc sớm vào trình gom cụm 35 3.5 Nhận diện mơtíp chuỗi thời gian thuật tốn Brute-Force 36 3.5.1 Áp dụng tính chất đối xứng 38 3.5.2 Áp dụng bất đẳng thức tam giác 38 3.5.3 Áp dụng kỹ thuật kiểm tra kết thúc sớm tính hàm khoảng cách để tìm kiếm mơtíp liệu chuỗi thời gian 40 3.5.4 Cải thiện thuật tốn kiểm tra khớp khơng tầm thường qui hoạch động 41 3.5.5 Thực gom cụm mơtíp thành k cụm cho trước 42 3.5.6 Dùng kết gom cụm mơtíp để suy dẫn trung tâm cụm khởi đầu cho giải thuật K-Means áp dụng cho tập liệu chuỗi thời gian ban đầu 44 3.6 Đánh giá chất lượng giải thuật gom cụm 45 CHƯƠNG IV: HIỆN THỰC VÀ THỬ NGHIỆM 49 4.1 Kiến trúc mơ hình thực nghiệm 50 4.1.1 Mơ hình thực so sánh K-Means\RAW K-Means\RAW+Motif50 4.1.2 Mô hình thực so sánh K-Means\PAA K-Means\PAA+Motif50 4.2 Kết thực nghiệm 53 4.2.1 Mô tả tập liệu thử nghiệm 53 4.2.2 Thực nghiệm chất lượng gom cụm 53 4.2.3 So sánh tính hữu hiệu hai phương pháp K-Means\RAW+Motif K-Means\RAW .57 4.2.4 So sánh tính hữu hiệu hai phương pháp K-Means\PAA+Motif KMeans\PAA 68 4.2.5 Tính ổn định giải thuật gom cụm 77 4.2.6 So sánh tính hữu hiệu giải thuật Find_1_Mơtíp_Brute_Force cải tiến với Find_1_Mơtíp_Brute_Force truyền thống 79 4.3 Nhận xét 81 CHƯƠNG V: KẾT LUẬN 84 THƯ MỤC THAM KHẢO 87 v Ứng dụng nhận dạng motif vào việc gom cụm liệu chuỗi thời gian PHỤ LỤC: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH-VIỆT .A LÝ LỊCH TRÍCH NGANG C QUÁ TRÌNH ĐÀO TẠO D Q TRÌNH CƠNG TÁC E vi Ứng dụng nhận dạng motif vào việc gom cụm liệu chuỗi thời gian DANH MỤC CÁC HÌNH Hình 1.1: Minh họa liệu chuỗi thời gian theo dõi trình đo nhiệt độ Hình 1.2: Đường biễu diễn liệu chuỗi thời gian Hình 2.1: Minh họa hình dạng liệu chuỗi thời gian có hai đường giống nhau, đường khác Hình 2.2: Minh họa hình dạng liệu chuỗi thời gian có hai đường giống biên độ giao động khác Hình 2.3: (a) Tính khoảng cách dựa vào phương pháp Euclid, (b) Tính khoảng cách dựa vào phương pháp DWT 10 Hình 2.4: Minh họa cách tính khoảng cách theo DWT 11 Hình 2.5: Minh họa biểu diễn liệu chuỗi thời gian theo phương pháp PAA 13 Hình 2.6: Minh họa phương pháp biểu diễn liệu chuỗi thời gian theo phương pháp DFT, DWT PAA 16 Hình 2.7: Minh họa cách biến đổi chuỗi thời gian theo phương pháp SVD, PACA, PLA 17 Hình 2.8: Minh họa phương pháp rời rạc hóa liệu chuỗi thời gian phương pháp SAX Kết thu ta có chuỗi ký tự ffffffeeeddcbaabceedcbaaaaacddee 19 Hình 2.9: Mơ nhận dạng mơtíp liêu chuỗi thời gian chuỗi liệu bên thường xuất chuỗi liệu ban đầu phía 21 Hình 2.10: Mô khớp (matching) hai chuỗi C M Chuỗi thời gian T đường màu đen nhỏ, chuỗi C có hình màu đen in đậm chuỗi M có hình màu xám 21 Hình 2.11: Trong hầu hết chuỗi C, có hai chuỗi khớp (match) tốt nằm phía bên trái bên phải chuỗi 22 Hình 2.12: Minh họa định nghĩa K-mơtíps 22 Hình 2.13: Giải thuật Motif-Brute-Force (Nguồn [1]) 23 Hình 2.14: Giải thuật EMMA ( Nguồn [1]) 24 Hình 2.15: Giải thuật K-Means 25 Hình 2.16: Minh họa trình gom cụm liệu thuật tốn K-Means 26 Hình 2.17: Thuật tốn gom cụm thu gộp 26 Hình 2.18: Minh họa phương pháp gom cụm phân cấp liệu 27 Hình 2.19: Mơ gom cụm cho liệu chuỗi thời gian 27 Hình 2.20: Mơ q trình chạy thuật toán I-kMeans, mức ta thực thuật toán K-Means để tái cấu trúc lại liệu dựa vào phân tích Haar waveket để tiếp tục cho việc thực gom cụm mức 31 vii Ứng dụng nhận dạng motif vào việc gom cụm liệu chuỗi thời gian Chiều Find_1_Motif_Force Find_1_Motif_Force Find_1_Motif_Force dài Truyền thống Cải tiến Truyền thống / mơtíp Find_1_Motif_Force Cải tiến 363 23 16 16 854 19 45 32 881 20 44 64 1626 11 148 Bảng 4.4: So sánh thời gian chạy gọi hàm Find_1_Mơtíp_Brute_Force truyền thống Find_1_Mơtíp_Brute_Force cải tiến để tìm mơtíp cho chuỗi thời gian liệu chứng khoán Chiều Find_1_Motif_Force Find_1_Motif_Force Find_1_Motif_Force dài Truyền thống Cải tiến Truyền thống / mơtíp Find_1_Motif_Force Cải tiến 787 15 52 16 997 16 62 32 1209 12 101 64 1122 11 102 Bảng 4.5: So sánh thời gian chạy gọi hàm Find_1_Mơtíp_Brute_Force truyền thống Find_1_Mơtíp_Brute_Force cải tiến để tìm mơtíp cho chuỗi thời gian liệu Heterogeneous 4.3 Nhận xét Như vậy, thông qua trình thực nghiệm trình gom cụm chuỗi thời gian dựa vào kết gom cụm mơtíp đại diện sử dụng giải thuật K-Means ta rút kết luận sau: Thời gian chạy phương pháp gom cụm tập liệu chuỗi thời gian dựa vào thơng tin gom cụm mơtíp đại diện chạy nhanh thời gian gom cụm tập liệu chuỗi thời gian ban đầu sử dụng giải thuật K-Means, đặc 81 Ứng dụng nhận dạng motif vào việc gom cụm liệu chuỗi thời gian biệt tập liệu chuỗi thời gian lớn phương pháp gom cụm tập liệu chuỗi thời gian dựa vào thông tin gom cụm mơtíp đại diện nhanh thời gian gom cụm tập liệu chuỗi thời gian ban đầu sử dụng giải thuật K-Means Số vòng lặp gom cụm phương pháp gom cụm tập liệu chuỗi thời gian dựa vào thông tin gom cụm mơtíp đại diện số vịng lặp gom cụm tập liệu chuỗi thời gian ban đầu sử dụng giải thuật K-Means Độ xác chất lượng gom cụm phương pháp gom cụm tập liệu chuỗi thời gian dựa vào thông tin gom cụm mơtíp đại diện tốt số độ xác chất lương gom cụm tập liệu chuỗi thời gian ban đầu sử dụng giải thuật K-Means Khi thay đổi thơng tin nhận diện mơtíp số cụm cần gom thời gian chạy phương pháp gom cụm tập liệu chuỗi thời gian dựa vào thơng tin gom cụm mơtíp đại diện nhanh thời gian gom cụm tập liệu chuỗi thời gian ban đầu sử dụng giải thuật K-Means Ngoài ra, thơng tin nhận diện mơtíp phù hợp với đặc trưng liệu chuỗi thời gian số cụm cần gom phù hợp với phân hoạch tập liệu thời gian chạy độ xác chất lượng gom cụm phương pháp gom cụm liệu chuỗi thời gian dựa vào thông tin gom cụm mơtíp đại diện cải thiện Phương pháp gom cụm chuỗi liệu thời gian dựa vào nhận diện mơtíp có tính ổn định cao phương pháp gom cụm áp dụng liệu chuỗi thời gian ban đầu sử dụng giải thuật K-Means Thời gian chạy, độ xác chất lượng gom cụm, số vịng lặp tính ổn định phương pháp gom cụm chuỗi liệu thời gian dựa vào nhận diện mơtíp tập liệu chuỗi thời gian sau thu giảm số chiều tốt 82 Ứng dụng nhận dạng motif vào việc gom cụm liệu chuỗi thời gian thời gian chạy, độ xác chất lượng gom cụm, số vịng lặp tính ổn định phương pháp gom cụm chuỗi liệu chuỗi thời gian ban đầu sau thu giảm số chiều sử dụng giải thuật K-Means 83 Ứng dụng nhận dạng motif vào việc gom cụm liệu chuỗi thời gian CHƯƠNG V: KẾT LUẬN Chương tổng kết việc làm luận văn, đóng góp luận văn đưa hướng mở rộng cho nghiên cứu 5.1 Tổng kết Nhận dạng mơtíp liệu chuỗi thời gian công tác khai phá liệu bản, giúp ta tìm mẫu thức (pattern) đại diện tiêu biểu cho chuỗi thời gian Do vậy, việc nhận dạng mơtíp liệu chuỗi thời gian nên tiến hành trước tiến hành công tác khai phá liệu chuỗi thời gian khác gom cụm, phân lớp, phát bất thường v.v Luận văn đưa cách tiếp cận việc gom cụm tập liệu chuỗi thời gian sử dụng giải thuật K-Means có điều khiển tức khởi tạo trung tâm cụm ban đầu cho giải thuật K-Means áp dụng cho tập liệu chuỗi thời gian dựa vào kết gom cụm mơtíp đại diện Đây cách tiếp cận việc gom cụm chuỗi thời gian tận dụng tính chất đặc trưng liệu chuỗi thời gian Một đóng góp khác luận văn sử dụng nhiều kỹ thuật để cải thiện thời gian chạy giải thuật tìm kiếm mơtíp Bruce-force J.Lin cộng đề xuất vào năm 2002 [1] kỹ thuật kết thúc sớm áp dụng để tối ưu q trình nhận diện mơtíp chuỗi liệu thời gian Kết thực nghiệm cho thấy phương pháp gom cụm tập liệu chuỗi thời gian dựa vào kết kết gom cụm mơtíp đại diện cho kết nhanh hơn, ổn định xác trình gom cụm trực tiếp tập liệu chuỗi thời gian ban đầu không thông qua nhận diện mơtíp sử dụng giải thuật K-Means Thơng qua phần thực ta thấy thời gian gom cụm tập liệu chuỗi thời gian sau thu giảm số chiều dựa vào kết gom cụm mơtíp đại diện nhanh nhiều so với gom cụm trực tiếp tập liệu chuỗi 84 Ứng dụng nhận dạng motif vào việc gom cụm liệu chuỗi thời gian thời gian thu giảm số chiều sử dụng giải thuật K-Means 5.2 Những đóng góp đề tài Đưa tiếp cận gom cụm liệu chuỗi thời gian sử dụng giải thuật K-Means có điều khiển dựa vào gom cụm mơtíp đại diện giúp cho q trình gom cụm trở nên nhanh hơn, ổn định xác Sử dụng nhiều kỹ thuật để cải thiện thời gian chạy giải thuật tìm kiếm mơtíp Bruce-force J.Lin cộng đề xuất vào năm 2002 [1] kỹ thuật kết thúc sớm, tận dụng tính chất đối xứng khoảng cách Euclid, kỹ thuật bất đẳng thức tam giác qui hoạch động Áp dụng kỹ thuật kết thúc sớm để cải thiện trình gom cụm liệu chuỗi thời gian 5.3 Hướng phát triển Đề tài đưa cách tiếp cận gom cụm liệu chuỗi thời gian dựa vào thơng tin mơtíp đại diện Tuy nhiên để cải thiện hướng nghiên cứu cần bổ xung tiếp cận nghiên cứu tương lai sau: Do giới hạn thời gian nghiên cứu nên trình thực thực tập liệu Heterogeneous tập liệu chứng khoán, cần phải thu thập thêm nhiều loại liệu chuỗi thời gian khác để đưa quan sát đánh giá khác Do hướng phát triển đề tài gom cụm mơtíp đại diện chuỗi thời gian q trình tìm kiếm mơtíp đại diện chuỗi thời gian ảnh hưởng đến kết thực nghiệm, cần phải xác định thơng tin tìm kiếm mơtíp phù hợp với tập liệu chuỗi thời gian chiều dài mơtíp bán kính nhận diện mơtíp Hiệu suất q trình gom cụm phụ thuộc vào số cụm cần gom 85 Ứng dụng nhận dạng motif vào việc gom cụm liệu chuỗi thời gian cần có hướng tiếp cận xác định số cụm cần gom phù hợp với phân hoạch tập liệu chuỗi thời gian để trình thực gom cụm nhanh xác 86 Ứng dụng nhận dạng motif vào việc gom cụm liệu chuỗi thời gian THƯ MỤC THAM KHẢO [1] Lin, J., Keogh, E., Lonardi, S., Patel, P., 2002, “Finding Mơtíp in Time Series” University of Califonia – Riverside Computer Science & Engineering Department Riverside, CA 93521, USA [2] Lin, J., Vlachos, M., Keogh, E., and Dimitrios Gunopulos, 2004 “Iterative Incremental Clustering of Time Series” Computer Science & Engineering Deparment University of Califonia, Riverside, CA 92521 [3] Berndt D., J Clifford “Finding patterns in time series: a dyramic programming approach”, Journal of advandces in Knowledge Discovery and Data Mining, AAA/MIT Press, Menlo Park, CA, 1996, pp 229-248 [4] Chan, K., Fu, A W., 1999, “Efficient time series matching by wavelets” In proceedings of the 15th IEEE International Conference on Data Engineering, Sydney, Australia, pp 126-133 [5] Berndt, D.J & Clifford, J (1996) “Finding patterns in time series: a dynamic programming approach” Advances in Knowdledge Discovery and Data Mining AAAI/MIT Press, Menlo Park, CA pp 229-248 [6] Gunopulos, D., et al., 1997, “Finding similar time series” In Proceedings of the st European Symposium on Principles of Data Mining and Knowledge Discovery, PKDD97, Trondheim, Norway, pp 88-100 [7] Faloutsos, C., Ranganathan, M, & Manolopoulos, Y (1994) “Fast subsequence matching in time series databases” In proceedings of the ACM SIGNMOD Int’l Conference on Managerment of Data Minneapolis, MN, May 2527 pp 419-429 [8] Hetland, M L (2003) “A survey of recent methods for efficient retrieval 87 Ứng dụng nhận dạng motif vào việc gom cụm liệu chuỗi thời gian of similar sequences” In Data Mining in Time Series Databases (M.Last, A Kandel, and H, Bunke, Eds.) Singapore: World Scientific [9] Agrawal, R., Lin, K.I., Sawhney, H.S., and Shim, K “Fast similarity search in the presence of noise scaling, and translation in time-series databases”, Proceedings of the 21th International Conference on Very Large Data Bases (VLDB’95), September 11-15, 1995, pp 490-501 [10] Keogh, E., Chakrabarti, K., Pazzani, M & Mehrotra, S (2000) “Dimensionality reduction for fast similarity search in large tim series database” Journal of Knowledge and Information Systems, pp 263-286 [11] Keogh, E., “A Fast and Robust Method for Pattern Matching in Time Series Databases” In Proceedings of 9th International Conference on Tools with Artificial Intelligence (ICTAI ‘97), November 3-8, 1997, pp 578-584 [12] Rafiei, D., and Mendelzon, A.O “Efficient retrieval of similar time sequences using dft” Proceedings of the 5th International Conference on Foundations of Data Organization and Algorithm (FODO 1998), Number 12-13, 1998, pp.249-257 [13] Korn, F., Jagadish, H., and Falousos, C., “Efficiently supporting as hoc queries in large datasets of time sequences” In Proceedings of the 1997 ACM SIGMOD International Conference on Management of Data (CIKM 1997 ), May 13-15, pp 289-300 [14] Gavrilov, M., Anguelov D., Indyk, P., and Motwani, R "Mining the stock market: which measure is best?" Proceedings of the 6th ACM Interantional Conference on Knowledge Discovery and Data Mining (KDD 2000) August 20-23, pp 487-496 [15] Keogh, E., and Pazzani, M., "An Indexing Scheme for Fast Similarity 88 Ứng dụng nhận dạng motif vào việc gom cụm liệu chuỗi thời gian Search in Large Time Series Databases" Proceedings of the 11th International Conference on Scientific and Statistical Database Management (SSDBM 1999), July 28-30, 1999, pp 56-67 [16] Megalooikonomou, V., Wang, Q., Li, G., Faloutsos, C "A Multiresolution Symbolic Representation of Time Series" Proceedings of the 21th International Conference on Data Engineering (ICDE 2005), April 5-8, 2005, pp 668-679 [17] Perng, C., Wang, H., Zhang, S., and Parker, S "Landmarks: a new model for similarity-based pattern querying in time series databases" Proceedings of the 16th International Conference on Data Engineering (ICDE 2000), 28 February March, 2000, pp 33-42 [18] Keogh, E., Chakrabarti, K., Pazzani, M., and Mehrotra, S "Locally adaptive dimensionality reduction for indexing large time series databases" Proceedings of the 2001 ACM SIGMOD Conference on Management of Data, May 21-24, 2001, pp 151-162 [19] Lin, J., Keogh, E., Lonardi, S., and Chiu, B “A Symbolic Representation of Time Series, with Implications for Streaming Algorithms” Proceedings of 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discover (DMKD 2003), June 13, 2003, pp 2-11 [20] Lkhagva, B., Suzuki, Y & Kawagoe, K (2006).”Extened SAX: Extension of symbolic aggregate approximation for financial time series data representation” In proc of Data Engineering Workshop, 2006 [21] Shieh, J & Keogh, E (2008) iSAX: “Indexing and mining terabyte sized time series” In proc of SIGKDD 2008 [22] Sakoe, H & Chiba, S (1978) “Dynamic programming algorithm optimization for spoken word recognition” IEEE Trans Acoustics, Speech, and 89 Ứng dụng nhận dạng motif vào việc gom cụm liệu chuỗi thời gian Signal Proc., Vol ASSP-26 [23] Yi, B & Faloutsos, C (2000) “Fast time sequence indexing for arbitrary Lp norms” In proceedings of the 26th Int’l Conference on Very Large Databases Cairo, Egypt, Sept 10-14 pp 385-394 [24] Keogh, E & Folias, T (2002) The UCR Time Series Data Mining Archive [http://www.cs.ucr.edu/~eamonn/TSDMA/index.html] [25] Hui Zhang, Tu Bao Ho, Yang Zhang and Mao-Song Lin, September 4, 2005 Unsupervised Feature Extraction for Time Series Clustering Using Orthogonal Wavelet Transform 90 Ứng dụng nhận dạng motif vào việc gom cụm liệu chuỗi thời gian PHỤ LỤC: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH-VIỆT Thuật ngữ tiếng Anh Anytime algorithm Thuật ngữ tiếng Việt Viết tắt Giải thuật có thời gian thực thi tùy chọn None-trivial match Khớp không tầm thường Trivial match Khớp tầm thường Centroid Trọng tâm cụm Classificaton Phân lớp Clustering Gom cụm Cluster feature Đặc trưng cụm Cluster quality Chất lượng cụm Data set Tập liệu Dynamic-programming Lập trình quy hoạch động Dimensionality Số chiều Dynamic Time Wraping Xoắn thời gian động DTW Discrete Fourier Transform Biến đổi Fourier rời rạc DFT Discrete Wavelet Transform Biến đổi wavelet rời rạc DWT Distanced-base Dựa khoảng cách Early abandon technique Kỹ thuật kết thúc sớm Euclidean distance Khoảng cách Euclidean Feature Extraction Rút trích đặc trưng Incrementally Tính tăng cường Iterative Tính lặp High-Dimensional data Dữ liệu nhiều chiều Orthogonal wavelet transform Biến đổi wavelet trực giao A Ứng dụng nhận dạng motif vào việc gom cụm liệu chuỗi thời gian Partional clustering Gom cụm dựa phân hoạch Scability Khả mở rộng qui mô liệu Objective function Hàm mục tiêu Similarity/distance measures Độ đo tương tự/ Khoảng cách Square error Sai số bình phương Time series Dữ liệu chuỗi thời gian Mơtíp Chuỗi xuất nhiều chuỗi liệu chuỗi thời gian Anomaly detection Phát bất thường Hierarchical Clustering Gom cụm phân cấp Multiple-Resolution Đa phân giải Dimensionality Reduction Thu giảm phân rã số chiều Discretization Principle Component Analyses Phân tích thành phần (PCA) Triangular Inequality Bất đẳng thức tam giác B Ứng dụng nhận dạng motif vào việc gom cụm liệu chuỗi thời gian LÝ LỊCH TRÍCH NGANG Họ tên: Lê Phú Ngày sinh: 01/05/1980 Nơi sinh: Quảng Trị Địa liên lạc: Công ty giải pháp phần mềm Bình Minh, 57 Bạch Đằng, F2, Quận Tân Bình, Tp.HCM Email: lephutt@yahoo.com C Ứng dụng nhận dạng motif vào việc gom cụm liệu chuỗi thời gian QUÁ TRÌNH ĐÀO TẠO Thời gian 1999 – 2004 Trường đào tạo Đại học Khoa Học Chuyên ngành Trình độ đào tạo Toán-Tin Học Cử Nhân Đại học Bách Khoa học Máy Thạc sỹ Khoa, Đại học tính Tự Nhiên, Đại học Quốc gia Tp HCM 2008 – 2010 Quốc gia Tp HCM D Ứng dụng nhận dạng motif vào việc gom cụm liệu chuỗi thời gian QUÁ TRÌNH CƠNG TÁC Thời gian 2004 – 2005 Đơn vị cơng tác Nhân viên cơng ty phần Vị trí cơng tác Lập trình viên mềm Corkscrew, Cơng viên phần mềm Quang Trung, Tp.HCM 2005 – 2006 Nhân viên công ty phần Lập trình viên mềm Greensun, Tịa nhà Etown, 364 Cơng hịa, F13, Quận Tân Bình, Tp.HCM 2007 – 2008 Nhân viên cơng ty phần Lập trình viên mềm FairFax Imaging, Tịa nhà Etown, 364 Cơng hịa, F13, Quận Tân Bình, Tp.HCM 2009-2010 Nhân viên cơng ty phần Lập trình viên mềm Bình Minh, 57 Bạch Đằng, F2, Quận Tân Bình, Tp.HCM E ... chuỗi thời gian trên, vận dụng nhận dạng mơtíp liệu chuỗi thời gian vào việc hỗ trợ gọm cụm liệu chuỗi thời gian, bao gồm bước sau: Ứng dụng nhận dạng motif vào việc gom cụm liệu chuỗi thời gian. .. Bài tốn gom cụm liệu chuỗi thời gian Đặt vấn đề Bài toán gom cụm liệu (clustering) công tác khai phá Ứng dụng nhận dạng motif vào việc gom cụm liệu chuỗi thời gian liệu chuỗi thời gian phổ... người ii Ứng dụng nhận dạng motif vào việc gom cụm liệu chuỗi thời gian TÓM TẮT LUẬN VĂN Gom cụm tập liệu chuỗi thời gian kỹ thuật phổ biến lĩnh vực khai phá liệu chuỗi thời gian Mục đích gom cụm