Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

119 17 0
Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA VƯƠNG BÁ THỊNH CẢI TIẾN GIẢI THUẬT K-MEANS CHO BÀI TOÁN GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN Chuyên ngành: Khoa học Máy tính LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, Tháng 12 năm 2011 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học : PGS TS Dương Tuấn Anh Cán chấm nhận xét : PGS TS Đỗ Phúc Cán chấm nhận xét : TS Bùi Hoài Thắng Luận văn thạc sĩ bảo vệ tại: Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày tháng 01 năm 2012 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: TS Võ Thị Ngọc Châu (CT) PGS.TS Đỗ Phúc (PB1) TS Bùi Hoài Thắng (PB2) PGS.TS Dương Tuấn Anh (UV) TS Phạm Văn Chung (TK) Chủ tịch hội đồng đánh giá LV (Họ tên chữ ký) TS Võ Thị Ngọc Châu Khoa quản lý chuyên ngành (Họ tên chữ ký) ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HOÀ XÃ HỘI CHỦ NGHIÃ VIỆT NAM Độc Lập - Tự Do - Hạnh Phúc -oOo Tp HCM, ngày tháng năm 2011 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên : Vương Bá Thịnh Giới tính : Nam / Nữ  - Ngày, tháng, năm sinh : 26/02/1986 - Nơi sinh : Sóc Trăng Chuyên ngành : Khoa học Máy tính - MSHV : 09070465 Khoá : 2009 -1- TÊN ĐỀ TÀI : Cải tiến giải thuật k-Means cho toán gom cụm liệu chuỗi thời gian 2- NHIỆM VỤ LUẬN VĂN : - Nghiên cứu đề xuất phương pháp thu giảm số chiều PLA đa mức phân giải - Tích hợp phương pháp thu giảm số chiều PLA đa mức phân giải vào giải thuật I-k-Means - Áp dụng phương pháp khởi tạo trung tâm cụm ban đầu dựa kd-tree cho giải thuật I -kMean - Áp dụng phương pháp khởi tạo trung tâm cụm ban đầu dựa phương sai có cải tiến cho giải thuật I-k-Means - Thực nghiệm tập liệu thực để so sánh giải thuật k-Means, I-k-Means, I-k-Means có khởi tạo trung tâm cụm ban đầu dựa kd-tree, I-k-Means có khởi tạo trung tâm cụm ban đầu dựa phương sai có cải tiến 3- NGÀY GIAO NHIỆM VỤ : -4- NGÀY HOÀN THÀNH NHIỆM VỤ : -5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN : PGS TS Dương Tuấn Anh Nội dung đề cương Luận văn thạc sĩ Hội Đồng Chuyên Ngành thông qua CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) CHỦ NHIỆM BỘ MÔN KHOA QL CHUYÊN NGÀNH QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) (Họ tên chữ ký) PGS TS Dương Tuấn Anh LUẬN VĂN CAO HỌC LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Ngày 27 tháng 11 năm 2011 Vương Bá Thịnh VƯƠNG BÁ THỊNH - 09070465 i LUẬN VĂN CAO HỌC LỜI CẢM ƠN Tôi xin gởi lời cảm ơn chân thành sâu sắc đến PGS TS Dương Tuấn Anh, Thầy tận tình hướng dẫn, định hướng tơi từ cách đặt vấn đề, phương pháp nghiên cứu khoa học đến công việc cụ thể luận văn Xin chân thành cảm ơn tất quý Thầy Cơ Khoa Khoa học Kỹ thuật Máy tính tận tình truyền đạt kiến thức quý báu cho tơi suốt q trình học tập Cuối cùng, xin cảm ơn Ba Mẹ tạo điều kiện để tiếp tục học tập nghiên cứu Con trân trọng dành tặng thành luận văn cho Ba Mẹ gia đình, người bên VƯƠNG BÁ THỊNH - 09070465 ii LUẬN VĂN CAO HỌC TÓM TẮT Dữ liệu chuỗi thời gian tồn nhiều lĩnh vực đời sống… Nhu cầu khai phá liệu chuỗi thời gian ngày tăng, gom cụm liệu chuỗi thời gian lĩnh vực quan tâm Đề tài sâu vấn đề gom cụm liệu chuỗi thời gian Giải thuật gom cụm phổ biến k-Means, nhiên giải thuật nhiều hạn chế không dễ sử dụng liệu chuỗi thời gian Chúng đề xuất phương pháp thu giảm số chiều xấp xỉ tuyến tính đoạn PLA đa mức phân giải tích hợp phương pháp thu giảm số chiều vào giải thuật I-k-Means để cải tiến chất lượng lời giải thời gian thực thi việc gom cụm Ngoài đề tài nghiên cứu ứng dụng cấu trúc kd-tree vào vấn đề khởi tạo trung tâm cụm ban đầu (đây nhược điểm giải thuật k-Means), đồng thời ứng dụng kỹ thuật khởi tạo trung tâm cụm dựa phương sai có cải tiến để nâng cao hiệu giải thuật I-k-Means Thực nghiệm cho thấy kết chất lượng lời giải giải thuật I-k-Means có khởi tạo trung tâm cụm ban đầu phương pháp tốt VƯƠNG BÁ THỊNH - 09070465 iii LUẬN VĂN CAO HỌC ABSTRACT Time series data exist in many areas of life The demand for data mining time series is increasing, which cluster the time series data is also a very interesting field This research will delve on the issue clustering time series data Clustering algorithm is currently the most popular k-Means, but many algorithms are still limited and not easy to use for time series data We have proposed a method of reducing the dimensionality linear approximations PLA segment resolution as well as multi-level integrated approach to reduce this dimension Ik-Means algorithm to improve solution quality and run time In addition the project also applied research kd-tree structure on the problem started the initial cluster centers (this is a major drawback of k-Means algorithm), and engineering applications initialized cluster centers variance is based on enhancements to improve the efficiency of Ik-Means algorithm Experimental results show that the solution quality of Ik-Means algorithm have created the initial cluster centers by the two methods are quite good VƯƠNG BÁ THỊNH - 09070465 iv LUẬN VĂN CAO HỌC MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii TÓM TẮT iii ABSTRACT iv MỤC LỤC v DANH MỤC HÌNH x DANH MỤC BẢNG xiii CHƯƠNG 1: PHÁT BIỂU VẤN ĐỀ 1.1 Dữ liệu chuỗi thời gian: 1.2 Bài toán gom cụm liệu (data clustering) 1.3 Những yêu cầu đòi hỏi cho gom cụm liệu chuỗi thời gian 1.4 Mục tiêu nghiên cứu đề tài 1.5 Tóm lược kết đạt 1.6 Cấu trúc luận văn CHƯƠNG 2: TỔNG QUAN CÁC CƠNG TRÌNH LIÊN QUAN 2.1 Độ đo tương tự 2.1.1 Độ đo Minkowski 2.1.2 Phương pháp xoắn thời gian động (Dynamic Time Warping - DTW) 10 2.2 Các phương pháp thu giảm số chiều 13 2.2.1 Phương pháp biến đổi Fourier rời rạc (Discrete Fourier Transform - DFT) 14 VƯƠNG BÁ THỊNH - 09070465 v LUẬN VĂN CAO HỌC 2.2.2 Phương pháp biến đổi Wavelet rời rạc (Discrete Wavelet Transform - DWT) 15 2.2.3 Phương pháp xấp xỉ gộp đoạn (Piecewise Aggregate Approximation PAA) 15 2.2.4 Phương pháp xấp xỉ số đoạn thích nghi (Adaptive Piecewise Constant Approximation - APCA) 16 2.2.5 Phương pháp xấp xỉ tuyến tính đoạn (Piecewise Linear Approximation PLA) 17 a Tìm đường thẳng tốt qua tập điểm 18 b Giải thuật Sliding Window 19 c Giải thuật Top-Down 20 d Giải thuật Bottom-Up 22 e Nhận xét giải thuật Sliding Window, Top-Down, Bottom-Up 23 f Kỹ thuật lập mục STB-indexing 26 g Lập mục dựa R-tree 27 2.3 Gom cụm liệu chuỗi thời gian 30 2.3.1 Gom cụm liệu thường 30 a Phương pháp phân hoạch (Partitioning method) 30 b Phương pháp phân cấp (Hierarchical method) 32 c Các phương pháp gom cụm khác 35 2.3.2 Gom cụm liệu chuỗi thời gian 35 a Tổng quan gom cụm liệu chuỗi thời gian 36 b Gom cụm liệu chuỗi thời gian chứng khoán 36 c Gom cụm liệu chuỗi thời gian Haar wavelet k-Means 37 d Giải thuật I-k-Means 38 VƯƠNG BÁ THỊNH - 09070465 vi LUẬN VĂN CAO HỌC 2.4 Các cải tiến cho giải thuật k-Means 39 2.4.1 Ứng dụng kd-tree để cải tiến giải thuật k-Means 39 a Cấu trúc kd-tree 39 b Giải thuật ứng dụng kd-tree để giảm thiểu việc tính tốn cho giải thuật k-Means 41 c Giải thuật khởi tạo trung tâm cụm ban đầu dựa kd-tree 43 2.4.2 Các phương pháp khởi tạo trung tâm cụm khác 44 a Bốn phương pháp khởi tạo lời giải ban đầu phổ biến 44 b Giải thuật mô luyện kim (SA), giải thuật di truyền (GA) việc khởi tạo k trung tâm ban đầu 45 c Giải thuật tinh chế 46 d Giải thuật dựa phương sai 47 2.5 Trực quan hóa liệu chuỗi thời gian 47 2.5.1 TimeSearcher 47 2.5.2 Cluster and Calendar-Based Visualization 48 2.5.3 Spiral – đường xoắn ốc 49 2.5.4 Viztree 49 CHƯƠNG 3: CƠ SỞ LÝ THUYẾT 52 3.1 Giải thuật k-Means 52 3.2 Haar Wavelet đa mức phân giải giải thuật I-k-Means 53 3.3 PLA đa mức phân giải 58 3.4 Phương pháp đo khoảng cách chuỗi thời gian tuyến tính hóa 59 3.5 Giải thuật sử dụng kd-tree để khởi tạo trung tâm cụm ban đầu 62 3.5.1 Cấu trúc kd-tree 62 VƯƠNG BÁ THỊNH - 09070465 vii LUẬN VĂN CAO HỌC Hình 5.6 Kết đánh giá dựa số lần lặp (tập liệu Heterogeneous) Hình 5.7 Kết đánh giá dựa hàm mục tiêu (tập liệu Chứng khoán) VƯƠNG BÁ THỊNH - 09070465 89 LUẬN VĂN CAO HỌC Hình 5.8 Kết đánh giá dựa thời gian thực thi (tính s) (tập liệu Chứng khốn) Kết từ hình 5.7 5.8 cho thấy giải thuật I-k-Means có chất lượng gom cụm tốt so với giải thuật k-Means Giải thuật I-k-Means có khởi tạo trung tâm cụm ban đầu dựa phương sai có cải tiến có thời gian thực hiệu Ngồi ra, giải thuật I-k-Means có khởi tạo trung tâm cụm ban đầu kd-tree (số lần lặp 53) giải thuật I-k-Means có khởi tạo trung tâm cụm ban đầu dựa phương sai có cải tiến (số lần lặp 50) có số lần lặp ổn định Giải thuật I-k-Means có số lần lặp khơng ổn định (dao động từ 52 86) 5.2 Kết luận Dựa vào kết thực nghiệm thấy điểm sau: VƯƠNG BÁ THỊNH - 09070465 90 LUẬN VĂN CAO HỌC  Về mặt chất lượng giải thuật I-k-Means có khởi tạo trung tâm cụm ban đầu kd-tree dựa phương sai tốt hẳn giải thuật k-Means I-k-Means  Về mặt thời gian thực thi vậy, giải thuật I-k-Means có khởi tạo trung tâm cụm ban đầu kd-tree dựa phương sai tốt hẳn giải thuật k-Means I-k-Means  Giải thuật I-k-Means có khởi tạo trung tâm cụm ban đầu kd-tree giải thuật hiệu phương diện chất lượng lời giải lời giải ổn định qua lần thực thi, thời gian thực thi không chịu ảnh hưởng nhiều độ lớn CSDL, số lần lặp ổn định Tuy nhiên giải thuật I-k-Means có khởi trung tâm cụm ban đầu kd-tree giải thuật khó thực nhất, chất lượng lời giải phụ thuộc vào số lượng đối tượng node  Giải thuật I-k-Means có khởi tạo trung tâm cụm ban đầu dựa phương sai có cải tiến đặc biệt hiệu thời gian thực thi CSDL không lớn, chất lượng lời giải tốt (chỉ giải thuật I-k-Means có khởi tạo trung tâm cụm ban đầu kd-tree), số lần lặp ổn định Tuy nhiên thời gian thực thi giải thuật không nhanh CSDL lớn, điều lý giải việc tính tốn để loại bỏ đối tượng gần trung tâm cụm chọn để tiến hành tính lại phương sai phục vụ cho việc chọn trung tâm cụm tốn thời gian kích thước CSDL lớn Chương sau chúng tơi trình bày đóng góp đề tài hướng phát triển VƯƠNG BÁ THỊNH - 09070465 91 LUẬN VĂN CAO HỌC CHƯƠNG 6: KẾT LUẬN Chương tổng kết kết đạt đề tài, đóng góp cảu đề tài hướng phát triển 6.1 Tổng kết Trong q trình xây dựng hồn thiện hệ thống chúng tơi giải tốn gom cụm liệu chuỗi thời gian Với yêu cầu toán xây dựng hệ thống gom cụm liệu chuỗi thời gian bảo đảm chất lượng gom cụm, thích hợp với tập liệu lớn thời gian thực thi tương đối nhanh Nhờ vào sử vào sử dụng phương pháp thu giảm số chiều PLA đa mức phân giải việc ứng dụng kd-tree cho việc khởi tạo trung tâm cụm ban đầu, việc ứng dụng phương pháp phương sai có cải tiến để khởi tạo trung tâm cụm nhận thấy chất lượng lời giải giải thuật I-k-Means Ik-Means có khởi tạo trung tâm cụm ban đầu phương pháp tốt, thời gian thực thi hiệu quả, phù hợp với tập liệu lớn liệu có số chiều lớn Thứ nhất, dùng phương pháp thu giảm số chiều PLA đa mức phân giải nên việc tính tốn nhanh, mặt khác cấu trúc liệu sau thu giảm có tính chất khả mục nên việc xây dựng kd-tree hay R-tree dễ dàng Thứ hai, giải thuật gom cụm áp dụng phương pháp khởi tạo trung tâm cụm ban đầu kd-tree, phương pháp phương sai có cải tiến giúp giải thuật Ik-Means chạy hiệu Thứ ba, xây dựng phương pháp trực quan hóa kết gom cụm phù hợp với tập liệu lớn VƯƠNG BÁ THỊNH - 09070465 92 LUẬN VĂN CAO HỌC Thứ tư, thực nghiệm tập liệu phổ biến tập liệu Heterogeneous (biết trước số cụm cần gom) tập liệu Chứng khoán (chưa biết số cụm cần gom) kết cho thấy giải thuật mà chúng tơi xây dựng có hiệu 6.2 Những đóng góp đề tài - Đề xuất xây dựng thành công phương pháp thu giảm số chiều PLA đa mức phân giải khả mục, phù hợp để áp dụng giải thuật I-k-Means đánh mục cho CSDL sau thu giảm số chiều để giải tốn khác Tìm kiếm tương tự - Áp dụng giải thuật khởi tạo trung tâm cụm ban đầu kd-tree để gom cụm liệu chuỗi thời gian, giúp đẩy nhanh thời gian thực thi việc gom cụm nâng cao chất lượng lời giải gom cụm - Áp dụng giải thuật khởi tạo trung tâm cụm ban đầu phương pháp phương sai có cải tiến để gom cụm liệu chuỗi thời gian - So sánh, đánh giá thực nghiệm giải thuật k-Means, I-k-Means I-kMeans có khởi tạo trung tâm cụm ban đầu 6.3 Hướng phát triển - Phát triển giải thuật tìm k cụm thích hợp (xác định thơng số k) - Cần thử nghiệm tập liệu có số chiều lớn để đưa kết luận xác - Cải thiện cách trực quan hóa kết gom cụm - Ứng dụng phương pháp thu giảm số chiều PLA đa mức phân giải vào tốn khác Tìm kiếm tương tự - Sử dụng giải thuật gom cụm dựa vào mật độ DBSCAN để gom cụm liệu chuỗi thời gian VƯƠNG BÁ THỊNH - 09070465 93 LUẬN VĂN CAO HỌC BÀI BÁO KHOA HỌC CÔNG BỐ Vuong Ba Thinh, Duong Tuan Anh, 2012, Time Series Clustering Based on I-k-Means and Multi-resolution PLA Transform In Proceedings of IEEE RIVF 2012, February 27 – March 1, Ho Chi Minh City, Vietnam (to be appeared) VƯƠNG BÁ THỊNH - 09070465 94 LUẬN VĂN CAO HỌC TÀI LIỆU THAM KHẢO [1] Gunopulos, D., Das, G., and Mannila, H., 1997, Finding similar time series In Proceedings of the 1st European Symposium on Principles of Data Mining and Knowledge Discovery, PKDD97, Trondheim, Norway, pp 88-100 [2] Rafiei, D., and Mendelzon, A O., 1998, Efficient retrieval of similar time sequences using DFT In Proceedings of the 5th International Conference on Foundations of Data Organization and Algorithms, Kobe, Japan, pp 249-257 [3] Chan, K., and Fu, A W., 1999, Efficient time series matching by wavelets In Proceedings of the 15th IEEE International Conference on Data Engineering, Sydney, Australia, pp 126-133 [4] Berndt, D., and, Clifford J., 1994, Using dynamic time warping to find patterns in time series In Proceedings of AAAI Workshop on Knowledge Discovery in Databases, KDD 94, Seattle, Washington, USA, pp 359-370 [5] Agrawal, R., Lin, K I., Sawhney, H S., and Shim, K., 1995, Fast similarity search in the presence of noise, scaling, and translation in time-series databases In Proceedings of the 21st International Conference on Very Large Databases, VLDB95, Zurich, Switzerland, pp 490-501 [6] Fabian, M., 2003, Time series feature extraction for data mining using DWT and DFT, Technical Report No 33, Department of Mathematics and Computer Science, University of Marburg, Germany, 31 pages [7] Keogh, E., Chakrabarti, K., Pazzani, M., and Mehrotra, S., 2001, Dimensionality reduction for fast similarity search in large time series VƯƠNG BÁ THỊNH - 09070465 95 LUẬN VĂN CAO HỌC databases, Journal of Knowledge and Information Systems, Vol 3, No 3, 2000, pp 263-286 [8] Keogh, E., Chu, S., Hart, D., and Pazzani, M J., 2001, An online algorithm for segmenting time series In Proceedings of the IEEE International Conference on Data Mining, California, USA, pp 289-296 [9] Chen, Q., Chen, L., Lian, X., Liu, Y., and Yu, J X., 2007, Indexable PLA for efficient similarity search In Proceedings of the 33rd international conference on Very large data bases, Vienna, Austria, pp 435-446 [10] Jarke, J V W., and Edward, R V S., 1999, Cluster and Calendar based Visualization of Time Series Data In Proceedings of the 1999 IEEE Symposium on Information Visualization, Washington, DC, USA, pp [11] Lin, J., Vlachos, M., Keogh, E., and Gunopulos, D., 2004, Iterative Incremental Clustering of Time Series In Proceedings of the IX Conference on Extending Database Technology (EDBT 2004), Crete, Greece, pp 14-18 [12] Keogh, E J., and Pazzani, M J., 1999, An Indexing Scheme for Fast Similarity Search in Large Time Series Databases In Proceedings of the 11th International Conference on Scientific and Statistical Database Management, pp 56 [13] Alsabti, K., Ranka, S., and Singh, V., 1998, An Efficient K-Means Clustering Algorithm In Proceedings of IPPS/SPDP Workshop on High Performance Data Mining [14] Warren Liao, T., 2005, Clustering of time series data—a survey In Pattern Recognition, Volume 38, Issue 11 (November 2005), pp 1857-1874 VƯƠNG BÁ THỊNH - 09070465 96 LUẬN VĂN CAO HỌC [15] Bentley, J L., 1975, Multidimensional Binary Search Trees Used for Associative Searching In Communications of the ACM, Volume 18, Issue (September 1975), pp 509 – 517 [16] Keogh, E., 2006, A Decade of Progress in Indexing and Mining Large Time Series Databases Tuorial of 32nd International Conference on Very Large Data Bases (VLDB’2006), Seoul, Korea, pp 1268 - 1268 [17] Keogh, E., 2007, Mining Shape and Time Series Databases with Symbolic Representations Tutorial of the 13rd ACM International Conference on Knowledge Discovery and Data Mining, KDD 2007, California, USA [18] Lin, J., Vlachos, M., Keogh, E., Gunopulos, D., Liu, J., Yu, S., and Le, J., 2005, A MPAA-Based Iterative Clustering Algorithm Augmented by Nearest Neighbors Search for Time-Series Data Streams In Advances in Knowledge Discovery and Data Mining, Volume 3518/2005, pp 333-342 [19] Laszlo, M., and Mukherjee, S., 2007, A genetic algorithm that exchanges neighboring centers for k-means clustering In Pattern Recognition Letters, Volume 28 Issue 16, pp 2359-2366 [20] Pena, J., Lozano, J., and Larranaga, P., 1999, An Empirical comparison of four initialization methods for the k-means algorithm In Pattern Recognition Letters Vol 20, pp 1027-1040 [21] Redmond, S J., and Heneghan, C., 2007, A method for initialising the K-means clustering algorithm using kd-trees In Pattern Recognition Letters, Volume 28, Issue (June 2007), pp 965-973 [22] Sample, N., Haines, M., Arnold, M., and Purcell, T., 2001, Optimizing Search Strategies in kd-trees In: 5th WSES/IEEE World Multiconference on Circuits, VƯƠNG BÁ THỊNH - 09070465 97 LUẬN VĂN CAO HỌC Systems, Communications & Computers (CSCC 2001), July 8-15, 2001, Crete, Greece [23] Babu, G P., and Murty, M N., 1994, Simulated annealing for selecting optimal initial seeds in the K-means algorithm In: Indian Journal of Pure and Applied Mathematics, 25 (1-2) pp 85-94 [24] Jain, A K., Murty, M N., and Flynn, P J., 1999, Data Clustering: A Review In ACM Computing Surveys, Volume 31, Issue (September 1999), pp 264-323 [25] Likas, A., Vlassis, N., and Verbeek, J J., 2003, The global k-means clustering algorithm In Pattern Recognition, Volume 36, Issue 2, February 2003, pp 451461 [26] Al-Daoud, Moth'd Belal, 2005, A New Algorithm for Cluster Initialization In WEC '05: The Second World Enformatika Conference, Istanbul, Turkey, 25-27 Feb 2005 [27] Bradley, P., and Fayyad, U., 1998, Refining initial points for k-means clustering In Proceedings 15th International Conf, on Machine Learning, San Francisco, CA, pp 91-99 [28] Keogh, E., Chakrabarti, K., Mehrotra, S., and Pazzani, M., 2001, Locally adaptive dimensionality reduction for indexing large time series databases In Proceedings of the 2001 ACM SIGMOD Conference on Management of Data, pp 151-162 [29] Keogh, E., Hochheise, H., and Shneiderman, B., 2002, An Augmented Visual Query Mechanism for Finding Patterns in Time Series Data In Proceedings of the 5th International Conference on Flexible Query Answering Systems, pp 240-250 VƯƠNG BÁ THỊNH - 09070465 98 LUẬN VĂN CAO HỌC [30] Weber, M., Alexa, M., and Muller, W., 2001, Visualizing Time Series on Spirals In Proceedings of 2001 IEEE Symposium on Information Visualization San Diego, CA, Oct 21-26 pp 7-14 [31] Lin, J., Keogh, E., Lonardi, S., Lankford, J P., and Nystrom, D M., 2004, Visually Mining and Monitoring Massive Time Series In Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining, Seattle, WA, USA, pp 460-469 [32] Guttman, A., 1984, R-trees: A dynamic index structure for spatial searching In SIGMOD ’84: Proceedings of the 1984 ACM SIGMOD International Conference on Management of Data, New York, NY, USA, pp 47-57 [33] Han, J., and Kamber, M., 2006, Data Mining: Concepts and Techniques, second edition, University of Illinois at Urbana-Champaign [34] Gavrilov, M., Anguelov, M., Indyk, P., and Motwani, R., 2000, “Mining The Stock Market: Which Measure is Best?” In Proc of 6th ACM Conf on Knowledge Discovery and Data Mining, Boston, MA, pp 487 – 496 [35] Phạm Đăng Ninh, 9/2009, Biểu diễn chuỗi thời gian mức bit ứng dụng Luận văn cao học, Khoa Khoa học Kỹ Thuật Tính, trường Đại Học Bách Khoa Tp.HCM [36] Kd-tree in Wikipedia [http://en.wikipedia.org/wiki/K-d_tree] [37] Oliveira, J V., and Pedrycz, W., 2007, Advances in Fuzzy Clustering and its Applications, John Wiley & Sons, Ltd [38] Lê Hữu Thành, 7/2011, Gom cụm liệu chuỗi thời gian sử dụng độ đo xoắn thời gian động Luận văn cao học, Khoa Khoa học Kỹ Thuật Tính, trường Đại Học Bách Khoa Tp.HCM [39] Keogh, E., and Folias, T., “The UCR Time Series Data Mining Archive”, 2002 http://www.cs.ucr.edu/~eamonn/TSDMA/index.html VƯƠNG BÁ THỊNH - 09070465 99 LUẬN VĂN CAO HỌC [40] Halkdi, M., Batistakis, Y., and Vizirgiannis, M., 2001, On Clustering Validation Techniques J Intelligent Information Systems, 17(2-3), pp 107145 [41] Kalpakis, K., Gada, D., and Puttagunta, V., 2001, Distance Measures for Effective Clustering of ARIMA Time Series In Proc of 2001 IEEE Int Conf on Data Mining, pp 273-280 [42] Strehl, A., and Ghosh, J., 2002, Cluster Ensembles – A Knowledge Reuse Framework for Combining Multiple Partitions J of Machine Learning Research, 3(3), 2002, pp 583-617 [43] Historical Data for S&P 500 Stocks [http://pages.swcp.com/stocks/] [44] Zhang, Ho, T B., Zhang, Y., Lin, M S., 2006, Unsupervised Feature Extraction for Time Series Clustering Using Orthogonal Wavelet Transform Journal of Informatica, Vol 30, No 3, 2006, pp 305-319 VƯƠNG BÁ THỊNH - 09070465 100 LUẬN VĂN CAO HỌC PHỤ LỤC 1: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT Thuật ngữ Tiếng Anh Adaptive Piecewise Constant Approximation Anytime algorithm Best fit line Centroid Classfication Data clustering Data mining Density method Dimensionality reduction Discrete Fourier Transform Discrete Wavelet Transform Discretization Dynamic Time Warping Feature Extraction Grid-based method Hierarchical method Hyperplane Index Indexing Lower bound Mean Median Minimum Bounding Rectangle Model-based method Modeling Multi-resolution Outlier Partitioning method Piecewise Aggregate Approximation Piecewise linear approximation VƯƠNG BÁ THỊNH - 09070465 Thuật ngữ Tiếng Việt Xấp xỉ số đoạn thích nghi Giải thuật có thời gian tùy định Đường thẳng tốt Trung tâm Phân lớp Gom cụm liệu Khai phá liệu Phương pháp mật độ Thu giảm số chiều Biến đổi Fourier rời rạc Biến đổi Wavelet rời rạc Rời rạc hóa Xoắn thời gian động Rút trích đặc trưng Phương pháp dựa lưới Phương pháp phân cấp Mặt phẳng Chỉ mục Đánh mục Cận Giá trị trung bình Trung vị Hình chữ nhật bao nhỏ Phương pháp dựa mơ hình Mơ hình hóa Đa mức phân giải Phần tử ngoại biên Phương pháp phân hoạch Xấp xỉ gộp đoạn Xấp xỉ tuyến tính đoạn Viết tắt DFT DWT DTW MBR PLA A LUẬN VĂN CAO HỌC Principal Component Analysis Pruning Symbolic Aggregate approXimation Time Series VƯƠNG BÁ THỊNH - 09070465 Phân tích thành phần Tỉa Xấp xỉ gộp kí hiệu hóa Chuỗi thời gian PCA SAX B LUẬN VĂN CAO HỌC PHỤ LỤC 2: LÝ LỊCH TRÍCH NGANG Họ tên: Vương Bá Thịnh Ngày sinh: 26/02/1986 Nơi sinh: Sóc Trăng Địa liên lạc: 752/121 Lạc Long Quân, Phường 9, Quận Tân Bình, Tp.HCM Email: vlbtkingdom@gmail.com Số điện thoại: 01652708675 QUÁ TRÌNH ĐÀO TẠO: Thời gian 2004 – 2009 2009 – 2011 Trường đào tạo Đại học Bách Khoa, Đại học Quốc gia Tp HCM Đại học Bách Khoa, Đại học Quốc gia Tp HCM Chun ngành Khoa học Máy tính Trình độ đào tạo Kỹ sư Khoa học Máy tính Thạc sĩ Q TRÌNH CƠNG TÁC: Thời gian Đơn vị cơng tác VƯƠNG BÁ THỊNH - 09070465 Vị trí cơng tác C ... pháp gom cụm khác 35 2.3.2 Gom cụm liệu chuỗi thời gian 35 a Tổng quan gom cụm liệu chuỗi thời gian 36 b Gom cụm liệu chuỗi thời gian chứng khoán 36 c Gom cụm liệu chuỗi. .. cầu khai phá liệu chuỗi thời gian ngày tăng, gom cụm liệu chuỗi thời gian lĩnh vực quan tâm Đề tài sâu vấn đề gom cụm liệu chuỗi thời gian Giải thuật gom cụm phổ biến k- Means, nhiên giải thuật. .. họa cho k? ??t gom cụm liệu không gian chiều Giải thuật gom cụm phổ biến giải thuật k- Means, giải thuật kMeans dễ thực có thời gian thực thi nhanh Ý tưởng giải thuật cho trước số nguyên dương k,

Ngày đăng: 29/08/2021, 17:42

Hình ảnh liên quan

Hình 1.2. Kết quả gom cụm của dữ liệu 2 chiều - Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

Hình 1.2..

Kết quả gom cụm của dữ liệu 2 chiều Xem tại trang 19 của tài liệu.
Hình 2.3. Hai phương pháp độ đo tương tự (a) Euclid và (b) DTW [18] - Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

Hình 2.3..

Hai phương pháp độ đo tương tự (a) Euclid và (b) DTW [18] Xem tại trang 27 của tài liệu.
Hình 2.4. Cách tính khoảng cách theo DTW - Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

Hình 2.4..

Cách tính khoảng cách theo DTW Xem tại trang 28 của tài liệu.
2.2.4. Phương pháp xấp xỉ hằng số từng đoạn thích nghi (Adaptive Piecewise Constant Approximation - APCA)  - Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

2.2.4..

Phương pháp xấp xỉ hằng số từng đoạn thích nghi (Adaptive Piecewise Constant Approximation - APCA) Xem tại trang 32 của tài liệu.
Hình 2.6. Minh họa phép biến đổi APCA, PAA và PLA [16] - Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

Hình 2.6..

Minh họa phép biến đổi APCA, PAA và PLA [16] Xem tại trang 33 của tài liệu.
Hình 2.7. Minh họ a2 dạng đoạn thẳng trong biến đổi PLA [8] - Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

Hình 2.7..

Minh họ a2 dạng đoạn thẳng trong biến đổi PLA [8] Xem tại trang 34 của tài liệu.
Hình 2.8. Giải thuật SlidingWindow [8] - Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

Hình 2.8..

Giải thuật SlidingWindow [8] Xem tại trang 37 của tài liệu.
Hình 2.12. Mô tả khoảng cách giữa các chuỗi con trong Bin 1011 [12] - Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

Hình 2.12..

Mô tả khoảng cách giữa các chuỗi con trong Bin 1011 [12] Xem tại trang 44 của tài liệu.
Hình 2.16. Minh họa quá trình gom cụm phân cấp [24] - Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

Hình 2.16..

Minh họa quá trình gom cụm phân cấp [24] Xem tại trang 50 của tài liệu.
Hình 2.18. Ba hướng tiếp cận gom cụm dữ liệu chuỗi thời gian [14] - Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

Hình 2.18..

Ba hướng tiếp cận gom cụm dữ liệu chuỗi thời gian [14] Xem tại trang 53 của tài liệu.
Tiến hành phân chia không gian như trên ta sẽ được cây kd-tree như hình 2.21. - Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

i.

ến hành phân chia không gian như trên ta sẽ được cây kd-tree như hình 2.21 Xem tại trang 56 của tài liệu.
Hình 2.20. Dữ liệu 2 chiều được lưu trữ trên 2-d tree (biểu diễn dạng box) [15] - Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

Hình 2.20..

Dữ liệu 2 chiều được lưu trữ trên 2-d tree (biểu diễn dạng box) [15] Xem tại trang 56 của tài liệu.
Hình 2.22. Giải thuật duyệt cây [13] - Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

Hình 2.22..

Giải thuật duyệt cây [13] Xem tại trang 58 của tài liệu.
Hình 2.26. Minh họa về hệ thống trực quan hóa các cụm và dựa trên lịch [10] - Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

Hình 2.26..

Minh họa về hệ thống trực quan hóa các cụm và dựa trên lịch [10] Xem tại trang 65 của tài liệu.
Hình 2.28. Minh họa Viztree [31] - Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

Hình 2.28..

Minh họa Viztree [31] Xem tại trang 66 của tài liệu.
Hình 2.27. Giá cổ phiếu của công ty Microsoft (màu vàng) và Sun Microsystems (màu đỏ) trong 5 năm [30]  - Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

Hình 2.27..

Giá cổ phiếu của công ty Microsoft (màu vàng) và Sun Microsystems (màu đỏ) trong 5 năm [30] Xem tại trang 66 của tài liệu.
Hình 3.4. Áp dụng k-Mean sở các mức phân giải khác nhau [11] - Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

Hình 3.4..

Áp dụng k-Mean sở các mức phân giải khác nhau [11] Xem tại trang 73 của tài liệu.
Hình 3.9. Cây kd-tree được xây dựng từ giải thuật trong hình 3.8 [36] - Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

Hình 3.9..

Cây kd-tree được xây dựng từ giải thuật trong hình 3.8 [36] Xem tại trang 80 của tài liệu.
Hình 3.14. Minh họa giải thuật khởi tạo trung tâm cụm dựa trên phương sai có cải tiến  - Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

Hình 3.14..

Minh họa giải thuật khởi tạo trung tâm cụm dựa trên phương sai có cải tiến Xem tại trang 86 của tài liệu.
Hình 4.2. Kiến trúc tổng quát của mô hình - Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

Hình 4.2..

Kiến trúc tổng quát của mô hình Xem tại trang 92 của tài liệu.
Hình 4.4. Trực quan hóa kết quả gom cụ mở mứ c1 - Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

Hình 4.4..

Trực quan hóa kết quả gom cụ mở mứ c1 Xem tại trang 96 của tài liệu.
Hình 4.5. Trực quan hóa kết quả gom cụ mở mức 2 - Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

Hình 4.5..

Trực quan hóa kết quả gom cụ mở mức 2 Xem tại trang 97 của tài liệu.
Hình 5.1. Tập dữ liệu Heterogeneous - Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

Hình 5.1..

Tập dữ liệu Heterogeneous Xem tại trang 100 của tài liệu.
Bảng 5.1. Các tiêu chí đánh giá gom cụm với 1000 mẫu sữ liệu (tập dữ liệu Heterogeneous)  - Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

Bảng 5.1..

Các tiêu chí đánh giá gom cụm với 1000 mẫu sữ liệu (tập dữ liệu Heterogeneous) Xem tại trang 101 của tài liệu.
Hình 5.4. Kết quả đánh giá dựa trên thời gian thực thi (tính bằng s) (tập dữ liệu Heterogeneous) k-Means vs I-k-Means + kd-tree  - Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

Hình 5.4..

Kết quả đánh giá dựa trên thời gian thực thi (tính bằng s) (tập dữ liệu Heterogeneous) k-Means vs I-k-Means + kd-tree Xem tại trang 103 của tài liệu.
Hình 5.3. Kết quả đánh giá dựa trên thời gian thực thi (tính bằng s) (tập dữ liệu Heterogeneous) k-Means vs I-k-Means  - Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

Hình 5.3..

Kết quả đánh giá dựa trên thời gian thực thi (tính bằng s) (tập dữ liệu Heterogeneous) k-Means vs I-k-Means Xem tại trang 103 của tài liệu.
Hình 5.5. Kết quả đánh giá dựa trên thời gian thực thi (tính bằng s) (tập dữ liệu Heterogeneous) k-Means vs I-k-Means + Variance  - Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

Hình 5.5..

Kết quả đánh giá dựa trên thời gian thực thi (tính bằng s) (tập dữ liệu Heterogeneous) k-Means vs I-k-Means + Variance Xem tại trang 104 của tài liệu.
Hình 5.7. Kết quả đánh giá dựa trên hàm mục tiêu (tập dữ liệu Chứng khoán) - Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

Hình 5.7..

Kết quả đánh giá dựa trên hàm mục tiêu (tập dữ liệu Chứng khoán) Xem tại trang 105 của tài liệu.
Hình 5.8. Kết quả đánh giá dựa trên thời gian thực thi (tính bằng s) (tập dữ liệu Chứng khoán)  - Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

Hình 5.8..

Kết quả đánh giá dựa trên thời gian thực thi (tính bằng s) (tập dữ liệu Chứng khoán) Xem tại trang 106 của tài liệu.
PHỤ LỤC 1: BẢNG ĐỐI CHIẾU THUẬT NGỮ AN H- VIỆT - Cải tiến giải thuật k means cho bài toán gom cụm dữ liệu chuỗi thời gian

1.

BẢNG ĐỐI CHIẾU THUẬT NGỮ AN H- VIỆT Xem tại trang 117 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan