Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 75 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
75
Dung lượng
1,69 MB
Nội dung
Đại Học Quốc Gia Thành Phố Hồ Chí Minh Trường Đại Học Bách Khoa VÕ LÊ QUY NHƠN GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN SỬ DỤNG CFTREE VÀ PHÉP BIẾN ĐỔI WAVELET Chuyên ngành: Khoa học máy tính LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 11 năm 2009 Gom cụm liệu chuỗi thời gian ĐẠI HỌC QUỐC GIA TP HCM CỘNG HOÀ XÃ HỘI CHỦ NGHIÃ VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc Lập - Tự Do - Hạnh Phúc -oOo Tp HCM, ngày tháng năm 2009 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên : Võ Lê Quy Nhơn - Giới tính : Nam ;/ Nữ Ngày, tháng, năm sinh : 12/04/1971 Nơi sinh : TP Quy Nhơn -Chuyên ngành : Khoa học Máy tính Khoá : 2007 1- TÊN ĐỀ TÀI : Gom cụm liệu chuỗi thời gian sử dụng phép biến đổi Wavelet đặc trưng cụm -2- NHIỆM VỤ LUẬN VĂN : 3- NGÀY GIAO NHIỆM VỤ : 4- NGÀY HOÀN THÀNH NHIỆM VỤ : -5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN : TS Dương Tuấn Anh Nội dung đề cương Luận văn thạc sĩ Hội Đồng Chuyên Ngành thông qua CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) CHỦ NHIỆM BỘ MÔN QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) PGS TS Dương Tuấn Anh TS Đinh Đức Anh Vũ ii Gom cụm liệu chuỗi thời gian CÔNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học : PGS TS Dương Tuấn Anh Cán chấm nhận xét : Cán chấm nhận xét : Luận văn thạc sĩ bảo vệ HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày tháng năm 2009 iii Gom cụm liệu chuỗi thời gian LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Ngày 21 tháng 11 năm 2009 Võ Lê Quy Nhơn iv Gom cụm liệu chuỗi thời gian LỜI CẢM ƠN Tôi xin gởi lời cảm ơn chân thành sâu sắc đến PGS TS Dương Tuấn Anh, Thầy tận tình hướng dẫn, định hướng tơi từ cách đặt vấn đề, phương pháp nghiên cứu khoa học đến công việc cụ thể luận văn Xin chân thành cảm ơn tất quý Thầy Cô Khoa Khoa học Kỹ Thuật Máy Tính tận tình truyền đạt kiến thức quý báu cho suốt q trình học tập Tơi xin cảm ơn gia đình, bạn bè động viên tạo điều kiện tốt để tơi hồn thành luận văn v Gom cụm liệu chuỗi thời gian TÓM TẮT Dữ liệu chuỗi thời gian tồn nhiều lĩnh vực tài chính, chứng khốn, y học, thời tiết, môi trường, địa lý,…Nhu cầu khai phá thông tin từ liệu lớn, gom cụm liệu chuỗi thời gian tiến trình quan trọng q trình đọng tổng quát hóa liệu Gom cụm liệu chuỗi thời gian q trình học khơng giám sát, công cụ độc lập để xem xét phân bố liệu bước tiền xử lý cho thuật toán khác phân lớp, tiên đoán, định, Đề tài đề nghị sử dụng cấu trúc liệu đặc trưng cụm (Cluster Feature tree) giải thuật gom cụm liệu chuỗi thời gian dựa phân hoạch Kmeans, I-K-means, EM Trong đặc trưng cụm sử dụng với mục tiêu khởi tạo trọng tâm cụm hạn chế không gian tìm kiếm tốn gom cụm liệu có kích thước lớn với giới hạn tài ngun tính tốn nhớ, CPU, thích hợp với liệu có tính thời gian thực (streaming) Đề tài trình bày vấn đề thu giảm số chiều liệu dựa vào phân giải nhiều mức phép biến đổi Haar wavelet vấn đề chất lượng gom cụn nâng cao sử dụng đặc trưng cụm tránh tối ưu cục mà giải thuật gom cụm dựa phân hoạch hay gặp phải vấn đề gom cụm liệu có kích thước lớn vi Gom cụm liệu chuỗi thời gian MỤC LỤC Chương I: PHÁT BIỂU VẤN ĐỀ 11 1.1 Dữ liệu chuỗi thời gian - 11 1.2 Bài toán gom cụm liệu chuỗi thời gian: 12 1.3 Mục tiêu giới hạn đề tài: - 15 1.4 Tóm lược kết đạt được: 16 1.5 Cấu trúc luận văn: - 17 Chương II: TỔNG THUẬT CÁC CƠNG TRÌNH LIÊN QUAN 18 2.1 Các phương pháp đo độ tương tự 18 a) Độ đo Minkowski 18 b) Phương pháp xoắn thời gian động (Dynamic Time Warping - DTW) - 20 c) Phương pháp chuỗi chung dài (longest common subsequence - LCS) 21 d) Phương pháp tính độ tương tự dựa xác suất - 22 2.2 Các phương pháp thu giảm số chiều (dimensional reduction) - 23 a) Phương pháp biến đổi Fourier rời rạc (Discrete Fourier Transform - DFT) 23 b) Phương pháp biến đổi Wavelet rời rạc (Discrete Wavelet Transform - DWT) 24 c) Phương pháp xấp xỉ gộp đoạn (Piecewise Aggregate Approximation PAA) 24 2.3 Các phương pháp rời rạc hóa liệu chuỗi thời gian: 25 a) Phương pháp xấp xỉ gộp ký hiệu hóa (Symbolic Aggregate approXimation SAX) - 25 2.4 Các phương pháp gom cụm liệu chuỗi thời gian: 26 Chương III: CƠ SỞ LÝ THUYẾT - 31 3.1 Một số khái niệm phép biến đổi wavelet: - 31 3.2 Giải thuật có tính chất thời gian thực thi tùy chọn: 33 3.3 Giải Thuật K-means: 33 3.4 Giải Thuật I-K-means - 36 3.5 Khán niệm đặc trưng cụm giải thuật gom cụm BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) [12]: - 38 3.6 Vấn đề chọn số cụm K tối ưu nhất: 48 3.7 Đánh giá chất lượng giải thuật gom cụm: - 49 Chương IV: HỆ THỐNG GOM CỤM DỮ LIỆU CHUỖI - 51 THỜI GIAN - 51 4.1 Đặt vấn đề: 51 4.2 Hướng giải quyết: 52 4.2.3 Thực gom cụm sử dụng K-means I-K-means: 57 4.3 Kiến trúc chi tiết thực hệ thống: - 59 Chương V: THỰC NGHIỆM - 63 Phần : THƯ MỤC THAM KHẢO - 70 PHỤ LỤC 1: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT - 74 vii Gom cụm liệu chuỗi thời gian DANH MỤC HÌNH Hình 1.1 Minh họa đồ thị biểu diễn liệu chuỗi thời gian .11 Những khó khăn thách thức nghiên cứu chuỗi thời gian [17]: .11 Hình 1.2 Minh họa trình gom cụm liệu chuỗi thời gian 12 Hình 2.8: Minh họa trường hợp tính chất hai mẫu giống 19 giá trị khác khoảng cách hai mẫu khác 19 Hình 2.9: Minh họa hai đường biểu diễn giống hình dạng 20 lệch thời gian .20 Hình 2.10: minh họa cách tính khoảng cách theo DWT 21 Hình 2.11: Minh họa phương pháp LCS 22 Hình 2.1: Minh họa phương pháp DFT .23 Hình 2.2: Minh họa phương pháp DWT 24 Hình 2.3: Minh họa phương pháp PAA .25 Hình 2.7: Minh họa phương pháp SAX 26 Hình 2.8 minh họa phương pháp gom cụm liệu chuỗi thời gian 27 Hình 2.9 : Minh họa trình gom cụm phân cấp 28 Hình 3.1 Một ví dụ chuỗi thời gian hệ số wavelet tỷ lệ 32 Hình3.2: Ví dụ phép biến đổi Haar Wavelet 32 Hinh 3.3 giai đoạn trình gom cụm tổng quát .34 Hinh 3.4 Giải thuật K-means .34 Hình3.5: Các bước chạy giải thuật K-means với cụm[21] .35 Hình 3.6 minh họa nhược điểm giải thuật K-means 36 Hình 3.6:Giải thuật I-Kmeans thực mức phép biến đổi Wavelet 37 Hinh 3.7 Giải thuật I-K-means[10] .37 Hình 3.8: Minh họa đặc trưng cụm .41 Hinh 3.9 Giải thuật BIRCH 42 Hình 3.10 Giải thuật BIRCH[15] 42 Hình 3.11: Minh họa đặc trưng cụm 43 Hình 3.12.a: Minh họa trình chèn nút vào đặc trưng cụm 43 Hình 3.12.b: Minh họa trình chèn nút vào đặc trưng cụm 44 Hình 3.12.c: Minh họa trình chèn nút vào đặc trưng cụm .44 Hình 3.12.d: Minh họa trình chèn nút vào đặc trưng cụm 45 Hình 3.12.e: Minh họa trình chèn nút vào đặc trưng cụm .45 Hình 3.13: Minh họa trình trộn nút đặc trưng cụm .46 Hình 3.14: Xây dựng lại đặc trưng cụm 46 Hinh 3.15 Hạn chế giải thuật BIRCH 47 Hình 4.1 giai đoạn trình gom cụm tổng quát 52 Hình 4.2: Kiến trúc tổng qt mơ hình 53 Hình 4.3 Giải thuật thu giảm số chiều phép biến đổi Wavelet 55 Hình 4.4: Giải thuật xây dựng đặc trưng cụm 56 Hình 4.5: Giải thuật xây dựng lại đặc trưng cụm 57 Hình 4.6 Giải thuật đề nghị 58 hình 4.7 Kiến trúc chi tiết hệ thống gom cụm liệu chuỗi thời gian 59 hình 4.8 Trực quan hóa kết đồ thị .60 Hình 5.1 Hệ thống thực nghiệm 63 viii Gom cụm liệu chuỗi thời gian Hình 5.2 Tập liệu Heterogeneous 64 Bảng 5.1 : Kết đánh giá chất lượng gom cụm 65 Hình 5.2 Kết đánh giá dựa hàm mục tiêu (obj func) thời gian chạy 65 Hình 5.3 Kết đánh giá dựa hàm mục tiêu thời gian chạy .66 ix Gom cụm liệu chuỗi thời gian DANH MỤC BẢNG Bảng 5.1 : Kết đánh giá chất lượng gom cụm Võ Lê Quy Nhơn 61 10 Gom cụm liệu chuỗi thời gian Độ chặt cho thấy biến đổi phân tán liệu cụm độ tách rời cho thấy tách biệt cụm với cụm khác Trong module đề xuất sử dụng hàm mục tiêu (Đại diện cho độ chặt) module đánh giá chất lượng gom cụm: Với x số mẫu cần phân hoạch c số trung tâm cụm Ngồi chúng tơi sử dụng hệ số Jaccard, Rand, Folkes Mallow (FM), Hệ số đo độ tương tự cụm (CSM), Normal Mutual information (NMI) trình bày phần 3.7 để đánh giá chất lượng gom cụm Module trực quan hóa kết quả: Chúng dùng thư viện ZedGraph để vẽ đồ thị trực quan hóa kết gom cụm hình 4.8 Tuy nhiên trực quan hóa tập liệu có kích thước tương đối nhỏ 4.4 Kết luận: Trong q trình xây dựng hồn thiện hệ thống chúng tơi giải tốn gom cụm liệu chuỗi thời gian Với yêu cầu toán xây dựng hệ thống gom cụm liệu chuỗi thời gian bảo đảm chất lượng gom cụm, thích hợp với liệu tính thời gian thực, có tính chất thời gian thực thi tùy chọn giới hạn tài ngun tính tốn Nhờ vào sử vào sử dụng đặc trưng cụm cách linh hoạt nhận thấy chất lượng gom cụm nâng cao, bảo đảm tính chất any time, thích hơp với liệu tính thời gian thực Thứ Về phương pháp thu giảm số chiều sử dụng phép biến đổi Haar wavelet nên tốc độ tính tốn nhanh Việc chọn mức để biến đổi wavelet tự đơng số chiều thu giảm ½ dùng hệ số a i j Điều cho phép xây dựng đặc trưng cụm nhanh Thứ hai: Việc xác định trọng tâm cụm xác định từ đặc trưng cụm giúp giải thuật I-K-means (K-means) tránh rơi vào điểm tối ưu cục làm chất lượng gom cụm nâng cao, hội tụ nhanh Võ Lê Quy Nhơn 61 Gom cụm liệu chuỗi thời gian Thứ ba: Khi hệ thống có ràng buộc tài nguyên hệ thống CPU, nhớ hệ thống thực gom cụm nhờ vào việc thay đổi kích thước đặc trưng cụm qua hệ số sử dụng cụm nút đặc trưng cụm thay liệu chuỗi thời gian ban đầu thực gom cụm Thứ tư : Hệ thống thích hợp với liệu có tính thời gian thực hệ thống có tính chất thời gian thực thi tùy chọn Với giải pháp đưa đứng quan điểm lý thuyết, nhận thấy giải pháp hiệu Tuy nhiên, giải pháp phụ thuộc nhiều vào liệu cách thức thực hệ thống Do đó, chương sau, tiến hành thực nghiệm liệu để kiểm tra tính đắn giải pháp Võ Lê Quy Nhơn 62 Gom cụm liệu chuỗi thời gian Chương V: THỰC NGHIỆM Những giải thuật luận văn thực ngôn ngữ C# chạy máy PC Pentium IV 1.8 GHz, 1GB RAM, Windows XP SP2 Loại liệu thực nghiệm liệu phân lớp sẳn Heterogeneous để đánh giá độ xác giải thuật tập liệu chứng khoán lấy từ nguồn[24] Phần thực nghiệm tập trung vào hai khía cạnh Thứ tính xác hệ thống thực Thứ hai, thực nghiệm đánh giá thời gian thực thi giải thuật 5.1 Đánh giá độ xác thời gian chạy giải thuật gom cụm: Hình 5.1 Hệ thống thực nghiệm Đề tài tiến hành thực nghiệm hai tập liệu thật, phổ biến rộng rãi tập liệu chứng khốn tập liệu Heterogeneous, có độ lớn từ 1000 đến 10000 chuỗi liệu Mỗi chuỗi có số chiều 1024 với tập liệu Heterogeneous 252 chiều với tập liệu chứng khoán Tập liệu Heterogeneous: Đây tập liệu sinh từ 10 tập liệu thực từ UCR Time Series Data Mining Archive [23] Đề tài sử 10 tập liệu để sinh tập liệu thực nghiệm cách dịch chuỗi theo thời gian từ 2-3% chiều dài chuỗi thêm nhiễu vào chuỗi liệu Võ Lê Quy Nhơn 63 Gom cụm liệu chuỗi thời gian Burst Koski_ecg Earthquake Infrasound Memory Ocean Power data RandomWalk Sunspot Tide Hình 5.2 Tập liệu Heterogeneous Võ Lê Quy Nhơn 64 Gom cụm liệu chuỗi thời gian Như tập liệu nầm 10 cụm (K=10) Chúng tiến hành thực nghiệm tập liệu để đánh giá chất lượng gom cụm giải thuật K-means giải thuật K-means có sử dụng đặc trưng cụm để khởi tạo trọng tâm cụm dùng giải thuật I-K-means gom cụm cụm nút đặc trưng cụm Các hệ số với 1000 mẫu liệu I-K-means K-means Dùng I-Kmeans với khởi tạo trọng tâm cụm từ đặc trưng cụm Dùng Kmeans với khởi tạo trọng tâm cụm từ đặc trưng cụm Jaccard Rand FM CSM NMI 0.7124 0.6934 0.7091 0.6954 0.6841 0.6421 0.5909 0.5542 0.5095 0.0541 0.7341 0.7112 0.7091 0.6908 0.6501 0.7210 0.7002 0.6991 0.6542 0.6431 Dùng cách phân phối lại lần liệu đặc trưng cụm (Không dùng vùng nhớ) 0.6753 0.6012 0.6121 0.5901 0.5631 Bảng 5.1 : Kết đánh giá chất lượng gom cụm So sánh giải thuật gom cụm Run time I-Kmeans 1.4 1.2 Run time I-Kmean dùng CFtree Obj Func Kmeans Obj Func/IO Run time Kmeans 0.8 0.6 Obj Func I-Kmeans 0.4 0.2 Obj Func I-Kmean dùng CFtree 1000 2000 4000 8000 10000 Data Hình 5.2 Kết đánh giá dựa hàm mục tiêu (obj func) thời gian chạy Võ Lê Quy Nhơn 65 Gom cụm liệu chuỗi thời gian Trong đặc trưng cụm sử dụng với thông số sau: B=2, L=4, T=0 Chúng tiến hành đo đạc hàm mục tiêu thời gian thực thi phương pháp với kết hình 5.2 : Với tập liệu chứng khốn khơng phân lớp sẳn nên chúng tơi dùng hàm mục tiêu để so sánh chất lượng gom cụm thực gom cụm tập liệu chứng khoán lấy từ Historical Data for S&P 500 Stocks[24] Chúng tiến hành gom cụm liệu chứng khốn năm 1998 chứng khốn có số chiều 252, biểu diễn giá open chứng khoán với K=10 So sánh giải thuật gom cụm 1.2 Run time I-Kmeans Obj Func/IO *10^3 Run time Kmeans Run time I-Kmean dùng CFtree Obj Func Kmeans 0.8 0.6 0.4 Obj Func I-Kmeans 0.2 250 500 1000 2000 4000 Obj Func I-Kmean dùng CFtree Data Hình 5.3 Kết đánh giá dựa hàm mục tiêu thời gian chạy 5.2 Kết luận : Như sử dụng đặc trưng cụm gom cụm nhận thấy chất lượng gom cụm tốt so với giải thật K-means hay I-K-means Giải thuật hoạt động tốt trường hợp tài ngun tính tốn nhớ, CPU, thời gian có giới hạn Có thể xử lý liệu kích thước lớn thích hợp với liệu có tính thời gian thực Người sử dụng thực gom cụm với nhiều hệ số K khác mà làm lại từ đầu đặc trưng cụm cần xây dựng lần định thời gian gom Võ Lê Quy Nhơn 66 Gom cụm liệu chuỗi thời gian cụm, chất lượng gom cụm cách điều chỉnh hệ số đặc trưng cụm Võ Lê Quy Nhơn 67 Gom cụm liệu chuỗi thời gian CHƯƠNG 6: KẾT LUẬN Chương tổng kết lại kết đạt đề tài, đóng góp đề tài hướng phát triển 6.1 Tổng kết : Trong trình xây dựng hồn thiện hệ thống chúng tơi giải toán gom cụm liệu chuỗi thời gian Với yêu cầu toán xây dựng hệ thống gom cụm liệu chuỗi thời gian bảo đảm chất lượng gom cụm, thích hợp với liệu tính thời gian thực, có tính chất thời gian thực thi tùy chọn giới hạn tài ngun tính tốn Nhờ vào sử vào sử dụng đặc trưng cụm cách linh hoạt nhận thấy chất lượng gom cụm nâng cao, thời gian thực thi nhanh, bảo đảm tính chất thời gian thực thi tùy chọn, thích hơp với liệu lớn, có tính thời gian thực Thứ Về phương pháp thu giảm số chiều sử dụng phép biến đổi Haar wavelet nên tốc độ tính tốn nhanh Việc chọn mức để biến đổi wavelet tự đông số chiều thu giảm ½ chi dùng hệ số toàn cục Điều cho phép xây dựng đặc trưng cụm nhanh Thứ hai: Việc xác định trọng tâm cụm xác định từ đặc trưng cụm giúp giải thuật I-K-means (K-means) khó rơi vào điểm tối ưu cục làm chất lượng gom cụm nâng cao Thứ ba: Khi hệ thống có ràng buộc tài nguyên hệ thống CPU, nhớ hệ thống thực gom cụm nhờ vào việc thay đổi kích thước đặc trưng cụm sử dụng cụm nút đặc trưng cụm để gom cụm thay phải sử dụng liệu nguyên thủy lúc đầu 6.2 Những đóng góp đề tài : - Xây dựng giải thuật gom cụm có tính chất thời gian thực thi tùy chọn cho liệu chuỗi thời gian, người dùng khảo sát kết gom cụm sau vài lần lặp - Áp dụng đặc trưng cụm vào gom cụm liệu giúp gom cụm liệu lớn hệ thống bị giới hạn tài ngun tính tốn CPU, nhớ thời gian thực thi - Xây dựng hệ thống gom cụm thích ứng với cập nhật liệu thời gian thực Các giải thuật K-means, I-K-means tính chất Võ Lê Quy Nhơn 68 Gom cụm liệu chuỗi thời gian - Xác định trọng tâm cụm đặc trưng cụm giúp nâng cao chất lượng kết gom cụm Thu giảm không gian tìm kiếm sử dụng cụm nút gom cụm không sử dụng liệu nguyên sơ lúc đầu, giúp nâng cao hiệu suất gom cụm - Cây đặc trưng cụm dễ dàng lưu trữ nhớ thứ cấp, cập nhật dễ dàng - Người dùng lặp lại q trình gom cụm với thơng số K khác nhau, đánh giá kết gom cụm chọn thơng số K thích hợp - So sánh, đánh giá ưu điểm nhược điểm áp dụng giải thuật cụm dùng phổ biến 6.3 Hướng phát triển Đề tài giải toán gom cụm liệu chuỗi thời gian Tuy nhiên, số vấn đề khác cần nghiên cứu thêm để hoàn thiện Đề tài chưa đưa cách xác định thơng số K thích hợp cho gom cụm Đây vấn đề cần phải tìm hiểu mở rộng Tập liệu sử dụng để thực nghiệm đề tài có kích thước nhỏ chiều dài chuỗi liệu không lớn Nên cần phải thực nghiệm tập liệu lớn chiều dài chuỗi lớn để đưa kết luận xác Vấn đề trực quan hóa kết gom cụm gặp khó khăn liệu lớn Vấn đề cần phải nghiên cứu mở rộng Cây đặc trưng cụm ứng dụng vào tốn khác tìm kiếm tương tự, lập mục, Đây vấn đề cần nghiên cứu mở rộng Võ Lê Quy Nhơn 69 Gom cụm liệu chuỗi thời gian Phần : THƯ MỤC THAM KHẢO [1] Agrawal, R., Faloutsos, C., & Swami, A (1993) Efficient similarity search in sequence databases In proceeding Of the 4th Conference on Foundations of Data Organization and Algorithms [2] Berndt, D and Clifford, J (1996) Finding patterns in time series: a dynamic programming approach Journal of advances in Knowledge Discovery and Data Mining, AAAI/MIT Press, Menlo Park, CA, pp 229-248 [3] Keogh, E (2007) Mining shape and time series databases with symbolic representations Tutorial of the 13rd ACM Interantional Conference on Knowledge Discovery and Data Mining, August 12-15, 2007 [4] Zhang, H., Ho, T.B., Lin, M.S., Huang, W (2006) Combining the Global and Partial Information for Distance-Based Time Series Classification and Clustering, Journal of Advanced Computational Intelligence & Intelligent Informatics, Fuji Technology Press Ltd., Vol 10, No 1, 69-7 [5] Chan, K and Fu, W (1999) Efficient time series matching by wavelets In proceedings of the 15th IEEE International Conference on Data Engineering (ICDE1999), March 23-26, 1999, pp 126-133 [6] Park, S., Chu, W W., Yoon, J & Hsu, C (2000) Efficient searches for similar subsequences of different lengths in sequence databases In proceedings of the 16th Int'l Conference on Data Engineering San Diego, CA, pp 23-32 [7] Chang, B.C.H and Halgamuge, K (2002) Protein motif extraction With neuro-fuzzy optimization Bioinformatics, 18, 2002, pp 1084-1090 [8] Chiu, B Keogh, E., & Lonardi, S (2003) Probabilistic Discovery of Time Series Motifs In the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining August 24 – 27, 2003 Washington, DC, USA Pp 493-498 [9] Zhang, H., Ho, T.B., Zhang, Y., Lin, M.S (2006) Unsupervised Feature Extraction for Time Series Clustering Using Orthogonal Wavelet Transform, Journal Informatica, Vol 30, No 3, 305-319 [10] Jessica Lin, Michail Vlachos, Eamonn Keogh, and Dimitrios Gunopulos Võ Lê Quy Nhơn 70 Gom cụm liệu chuỗi thời gian (2004) Iterative Incremental Clustering of Time Series In proceedings of the IX Conference on Extending Database Technology Crete, Greece March 14-18, 2004 [11] Keogh, E., Lin, J., Fu, W (2005) HOT SAX: Efficiently Finding the Most Unusual Time Series Subsequence In proceedings of the 5th IEEE International Conference on Data Mining (ICDM 2005), November 27-30, 2005, pp 226-233 [12] T Zhang, R Ramakrishnan, and M Livny(1997) BIRCH: A new data clustering algorithm and its applications Journal of Data Mining and Knowledge Discovery, 1(2):141–182, [13] P Berkhin A survey of clustering data mining techniques In J Kogan, C Nicholas, and M.Teboulle (eds.) 2006, Grouping Multidimensional Data: Recent Advances in Clustering, pp 25–72 Springer-Verlag, New York [14] I Davidson and A Satyanarayana Speeding up k-means clustering by bootstrap averaging In D Boley et al 2003 (eds.), Proceedings of the Workshop on Clustering Large Data Sets (held in conjunction with the Third IEEE International Conference on Data Mining), pp 15– 25 [15] I.S Dhillon, Y Guan, and J Kogan, 2002 Iterative clustering of high dimensional text data augmented by local search In Proceedings of the 2002 IEEE International Conference on Data Mining, pp 131–138 IEEE Computer Society Press, Piscataway, NJ [16] P Berkhin A survey of clustering data mining techniques In J Kogan, C Nicholas, and M.Teboulle (eds.) , 2006., Grouping Multidimensional Data: Recent Advances in Clustering, pp 25–72 Springer-Verlag, New York [17] Keogh, E & Kasetty, S (2002) On the need for time series data mining benchmarks: A survey and empirical demonstration In the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining July 23 - 26, 2002 Edmonton, Alberta, Canada pp 102-111 [18] T.Warren Liao (2005) Clustering of time series data – a survey Pattern Recognition Society Published by Elsevier Ltd All rights reserved [19] Eamonn Keogh, Jessica Lin (2005) Clustering of Time Series Subsequences is Meaningless: Implications for Previous and Future Võ Lê Quy Nhơn 71 Gom cụm liệu chuỗi thời gian Research In proceedings of the 3rd IEEE International Conference on Data Mining Melbourne, FL Nov 19-22 pp 115-122 Appears as a journal paper in Knowl Inf Syst 8(2): 154-177 (2005) [20] Lloyd., S P (1982) Least squares quantization in PCM In IEEE Transactions on Information Theory, pp 129–137 [21] MacQueen, J B (1967) Some Methods for classification and Analysis of Multivariate Observations In Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability, pp 281–297 [22] A.K Jain , M.N Murty & P.J Flynn, Data Clustering: A Review in ACM Computing Surveys, vol 31, no 3, 1999, pp 164-323 [23] Keogh, E & Folias, T (2002) The UCR Time Series Data Mining Archive [http://www.cs.ucr.edu/~eamonn/TSDMA/index.html] [24] Historical Data for S&P 500 Stocks [http://kumo.swcp.com/stocks/ ] [25] Korn, F., Jagadish, H & Faloutsos, C (1997) Efficiently supporting ad hoc queries in large datasets of time sequences In proceedings of the 1997 ACM SIGMOD International Conference on Management of Data, May 13-15, pp 289-300 [26] J Lin, E Keogh, L Wei, S Lonardi "Experiencing SAX: a novel symbolic representation of time series" Journal of Data Mining and Knowledge Discovery, Springer, Vol 10, No 2, 2007, pp.107-144 [27] B Xia “Similarity Search in Time Series Data Sets” M S Thesis, School of Computing Science, Simon Praser University, December, 1997 [28] D Rafiei and A.O Mendelzon "Efficient retrieval of similar time sequences using dft" Proceedings of the 5th International Conference on Foundations of Data Organization and Algorithms (FODO 1998), November 12-13, 1998, pp 249-257 [29] E Keogh and M Pazzani "An Indexing Scheme for Fast Similarity Search in Large Time Series Databases" Proceedings of the 11th International Conference on Scientific and Statistical Database Management (SSDBM 1999), July 28-30, 1999, pp 56-67 [30] J.V Oliveira & W.Pedrycz (Eds) Advances in Fuzzy Clustering and its Applications, John Wiley & Sons, Ltd, 2007 Võ Lê Quy Nhơn 72 Gom cụm liệu chuỗi thời gian [31] JACOB KOGAN Introduction to Clustering Large and High-Dimensional Data , cambridge university press 2007 [32] J Han, M Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann, San Francisco, 2001 pp 346–389 Võ Lê Quy Nhơn 73 Gom cụm liệu chuỗi thời gian PHỤ LỤC 1: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT Thuật ngữ tiếng Anh Anytime algorithm Approximation of time series Bath algorithm Centroid Classificaton Clustering Cluster feature Cluster quality Data set Detail of time series Dimensionality Dynamic Time Wraping Discrete Fourier Transform Discrete Wavelet Transform Distance-base energy Euclidean distance Feature Extraction Incrementally Iterative High-Dimensional data Orthogonal wavelet transform Partional clustering Scability Scale Similarity/distance measures Square error Time series Unsupervised learning CFtree Võ Lê Quy Nhơn Thuật ngữ tiếng Việt Viết tắt Giải thuật có thời gian thực thi tùy chọn Phần xắp xỉ tín hiệu chuỗi thời gian Giải thuật xử lý theo lô Trọng tâm cụm Phân lớp Gom cụm Đặc trưng cụm Chất lượng cụm Tập liệu Phần chi tiết tín hiệu chuỗi thời gian Số chiều Xoắn thời gian động DTW Biến đổi Fourier rời rạc DFT Biến đổi wavelet rời rạc DWT Dựa khoảng cách Năng lượng tín hiệu Khoảng cách Euclidean Rút trích đặc trưng Tính tăng cường Tính lặp Dữ liệu nhiều chiều Biến đổi wavelet trực giao Gom cụm dựa phân hoạch Khả mở rộng Tỉ lệ phép biến đổi wavelet Độ đo tương tự/ Khoảng cách Sai số bình phương Dữ liệu chuỗi thời gian Học không giám sát Cây đặc trưng cụm 74 Gom cụm liệu chuỗi thời gian LÝ LỊCH TRÍCH NGANG Họ tên: Võ Lê Quy Nhơn Ngày sinh: 12/04/1971 Nơi sinh: Quy Nhơnh Địa liên lạc: Trung Tâm Tin Học, Đại học Khoa Hoc Tự Nhiên Tp HCM, Số 227 Nguyễn Văn Cừ, Q 5, Tp HCM Email: vlqnhon@hcmuns.edu.vn QUÁ TRÌNH ĐÀO TẠO: Thời gian Trường đào tạo Chuyên ngành Trình độ đào tạo 1997 – 2000 Đại học Bách Khoa học Máy Kỹ sư Khoa, Đại học tính Quốc gia Tp HCM 2007 – 2010 Đại học Bách Khoa học Máy Thạc sĩ Khoa, Đại học tính Quốc gia Tp HCM Q TRÌNH CƠNG TÁC: Thời gian 3/2000 – 11/2007 12/2006 – Võ Lê Quy Nhơn Đơn vị cơng tác Trung tâm điện tốn Công Ty Điện Lực Trung Tâm Tin Học, Đại học Khoa Học Tự Nhiên Tp HCM Vị trí cơng tác Chuyên viên Giảng viên 75 ... thuật IKmeans để thực gom cụm liệu chuỗi thời gian sử dụng biến đổi Wavelet: Võ Lê Quy Nhơn 36 Gom cụm liệu chuỗi thời gian Hình 3.6:Giải thuật I-Kmeans thực mức phép biến đổi Wavelet Giải thuật... Gom cụm liệu chuỗi thời gian Chương IV: HỆ THỐNG GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN Mục tiêu đề tài xây dựng hệ thống gom cụm liệu chuỗi thời gian bảo đảm chất lượng gom cụm, thích hợp với liệu. .. (sub cluster) đặc trưng cụm Với liệu lớn Chúng thực biến đổi wavelet tập liệu Xây dựng đặc trưng cụm tập hệ số với mức phân giải thích hợp phép biến đổi Wavelet Sau sử dụng đặc trưng cụm xác định