Gom cụm dữ liệu chuỗi thời gian dựa vào các điểm cực đại mật độ

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƢỜNG ĐẠI HỌC BÁCH KHOA PHAN THỊ THANH PHƢƠNG GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀO CÁC ĐIỂM CỰC ĐẠI MẬT ĐỘ LUẬN VĂN THẠC SĨ THÀNH PHỐ HỒ CHÍ MINH – 06/2018 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƢỜNG ĐẠI HỌC BÁCH KHOA PHAN THỊ THANH PHƢƠNG GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀO CÁC ĐIỂM CỰC ĐẠI MẬT ĐỘ NGÀNH: KHOA HỌC MÁY TÍNH MÃ NGÀNH: 60.48.01.01 LUẬN VĂN THẠC SĨ HƢỚNG DẪN KHOA HỌC: PGS TS DƢƠNG TUẤN ANH THÀNH PHỐ HỒ CHÍ MINH – 06/2018 CƠNG TRÌNH ĐƢỢC HỒN THÀNH TẠI TRƢỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hƣớng dẫn khoa học: PGS TS DƢƠNG TUẤN ANH Cán chấm nhận xét 1: TS Võ Thị Ngọc Châu Cán chấm nhận xét 2: TS Nguyễn Đức Cƣờng Luận văn thạc sĩ đƣợc bảo vệ Trƣờng Đại Học Bách Khoa, ĐHQG Tp.HCM ngày 17 tháng 07 năm 2018 Thành phần Hội đồng đánh giá luận văn Thạc sĩ gồm: Chủ tịch: PGS.TS Quản Thành Thơ Thƣ ký: TS Nguyễn An Khƣơng Phản biện 1: TS Võ Thị Ngọc Châu Phản biện 2: TS Nguyễn Đức Cƣờng Ủy viên: TS Nguyễn Hồ Mẫn Rạng CHỦ TỊCH HỘI ĐỒNG TRƢỞNG KHOA KH&KT MT (Họ tên chữ ký) (Họ tên chữ ký) i ĐẠI HỌC QUỐC GIA TP.HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: PHAN THỊ THANH PHƢƠNG MSHV: 1670232 Ngày, tháng, năm sinh: 19/01/1986 Nơi sinh: TP HCM Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số : 60480101 I TÊN ĐỀ TÀI: - Gom cụm liệu chuỗi thời gian dựa vào điểm cực đại mật độ II NHIỆM VỤ VÀ NỘI DUNG: - Tìm hiểu giải thuật Density Peak áp dụng việc gom cụm liệu chuỗi thời gian - Đề xuất mơ hình gom cụm liệu chuỗi thời gian dựa giải thuật Density Peak với độ đo Euclid tăng tốc độ thơng qua việc cắt tỉa tính tốn lân cận gần từ danh sách mật độ cao hơn, sau thử nghiệm độ hiệu giải thuật số tập liệu mẫu III NGÀY GIAO NHIỆM VỤ: 16/01/2018 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 18/06/2018 V CÁN BỘ HƢỚNG DẪN: PGS TS DƢƠNG TUẤN ANH Tp HCM, ngày tháng năm 2018 TRƢỞNG KHOA CÁN BỘ HƢỚNG DẪN KH&KT MT (Họ tên chữ ký) (Họ tên chữ ký) PGS TS Dƣơng Tuấn Anh ii LỜI CAM ĐOAN Tôi xin cam đoan kết đƣợc báo cáo luận văn chƣơng trình thực sản phẩm tơi thực hiện, khơng có chép từ cơng trình khác, ngoại trừ kết từ công trình khác đƣợc ghi rõ luận văn Tất kiến thức tham khảo, học hỏi đƣợc từ tài liệu, cơng trình nghiên cứu khác đƣợc trích dẫn nguồn đầy đủ Tp Hồ Chí Minh, ngày 12 tháng năm 2018 Phan Thị Thanh Phƣơng iii LỜI CÁM ƠN Đầu tiên xin đƣợc gửi lời cảm ơn tập thể thầy cô khoa Khoa học & Kỹ thuật Máy tính trƣờng Đại học Bách Khoa tận tình dạy trang bị cho kiến thức cần thiết đề làm tảng cho việc thực luận văn nhƣ kinh nghiệm quý báu để vững tin môi trƣờng làm việc sau Xin chân thành cảm ơn thầy Dƣơng Tuấn Anh tận tình giúp đỡ, định hƣớng cung cấp ý tƣởng nhƣ tài liệu tham khảo thời gian làm luận văn Ngồi ra, tơi xin đƣợc gửi lời cảm ơn chân thành đến gia đình bạn bè ngƣời ln bên cạnh động viên vật chất lẫn tinh thần hỗ trợ tơi hồn thành luận văn Tp HCM, ngày 12 tháng năm 2018 Phan Thị Thanh Phƣơng iv TÓM TẮT Dữ liệu chuỗi thời gian trở nên cần thiết phổ biến nhiều lĩnh vực ứng dụng: kinh tế, tài chính, y khoa, sinh học, thiên văn học, Ý tƣởng việc thu thập phân tích liệu chuỗi thời gian có từ lâu Tuy nhiên, có thách thức định làm việc với liệu chuỗi thời gian, cụ thể gom cụm liệu, tốn đóng vai trị quan trọng nhiều ứng dụng khai phá liệu Đề tài tập trung vào xây dựng hệ thống gom cụm liệu chuỗi thời gian dựa vào điểm cực đại mật độ với độ đo Euclid, dễ thực hiện, chất lƣợng gom cụm ổn định Với giải thuật này, lựa chọn khoảng cách giới hạn dc (cutoff) thông qua việc ƣớc lƣợng mật độ kernel kiểu Gauss Ngồi ra, chúng tơi thực tăng tốc độ giải thuật thơng qua việc cắt tỉa tính tốn khoảng cách lân cận gần từ danh sách mật độ cao Kết thực nghiệm liệu mẫu cho thấy cụm liệu đƣợc tạo cách ổn định, tiêu chí đánh giá chất lƣợng gom cụm cho thấy số đánh giá tốt so với với phƣơng pháp gom cụm truyền thống v ABSTRACT Time series data have become very necessary and common in many application domains:economics, finance, medicine, biology, astronomy, etc The idea of collecting and analyzing time series data, there are still certain challenges in working with them, namely cluster analysis – which plays an important role in a wide variety of data mining applications This study focuses on building clustering system based on desity peaks algorithm and Euclidean distance, which is easy to implement, giving stable clustering results In this study, we select the cutoff distance dc value by estimating the Gaussian kernel We speed up the algorithm by pruning algorithm during the computation of the nearest neighbor distances from the higher density lists Experimental results on the datasets show that the data clusters are consistently produced, and the clustering quality assessment criteria show that the clustering quality rates are quite good compared to the traditional clustering algorithm vi MỤC LỤC TÓM TẮT v ABSTRACT vi CHƢƠNG TỔNG QUAN VỀ ĐỀ TÀI 1.1 ĐỐI TƢỢNG NGHIÊN CỨU 1.1.1 Dữ liệu chuỗi thời gian .1 1.1.2 Khai phá liệu chuỗi thời gian .2 1.1.3 Gom cụm liệu 1.2 BÀI TOÁN GOM CỤM TRONG DỮ LIỆU CHUỖI THỜI GIAN 1.3 ĐỘNG CƠ 1.4 MỤC TIÊU 1.5 PHƢƠNG PHÁP NGHIÊN CỨU 1.6 Ý NGHĨA CỦA ĐỀ TÀI 1.7 NHỮNG KẾT QUẢ ĐẠT ĐƢỢC CỦA LUẬN VĂN 1.8 CẤU TRÚC LUẬN VĂN CHƢƠNG CƠ SỞ LÝ THUYẾT 2.1 CÁC ĐỘ ĐO KHOẢNG CÁCH CHUỖI THỜI GIAN 2.1.1 Các độ đo không gian Euclid 2.1.2 Độ đo xoắn thời gian động 2.2 BÀI TOÁN GOM CỤM TRONG DỮ LIỆU CHUỖI THỜI GIAN 12 2.3 CÁC TIÊU CHÍ ĐÁNH GIÁ GOM CỤM 15 2.4 CÁC GIẢI THUẬT GOM CỤM DỮ LIỆU THƢỜNG SỬ DỤNG 17 2.4.1 Giải thuật gom cụm phân cấp 18 2.4.2 Giải thuật gom cụm phân hoạch .20 CHƢƠNG TỔNG THUẬT CÁC CƠNG TRÌNH LIÊN QUAN 21 3.1 GOM CỤM DỮ LIỆU CHUỖI THỜI GIAN .21 3.2 GIẢI THUẬT K-MEANS 23 3.3 CÁC PHƢƠNG PHÁP CHỌN SỐ CỤM K TỐI ƢU NHẤT 24 3.4 GIẢI THUẬT GOM CỤM DỮ LIỆU DỰA VÀO CÁC ĐIỂM CỰC ĐẠI MẬT ĐỘ TRÊN DỮ LIỆU CHUỖI THỜI GIAN 25 3.5 ƢỚC LƢỢNG MẬT ĐỘ KERNEL KIỂU GAUSS 27 3.6 ƢỚC LƢỢNG MẬT ĐỘ DỰA TRÊN K-NEAREST NEIGHBORS .29 vii 3.7 ÁP DỤNG ĐỘ ĐO SOẮN THỜI GIAN ĐỘNG VÀO GIẢI THUẬT GOM CỤM DỮ LIỆU DỰA VÀO CÁC ĐIỂM CỰC ĐẠI MẬT ĐỘ 30 CHƢƠNG PHƢƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ .32 4.1 ĐẶT VẤN ĐỀ 32 4.2 HƢỚNG GIẢI QUYẾT 33 4.2.1 Tính tốn mật độ cục bộ .33 4.2.2 Tính tốn khoảng cách  33 4.2.3 Lựa chọn trung tâm cụm 36 4.2.4 Gán đối tượng vào cụm 36 CHƢƠNG THỰC NGHIỆM 37 5.1 5.2 5.3 MÔI TRƢỜNG THỰC NGHIỆM 37 TẬP DỮ LIỆU MẪU 37 KẾT QUẢ THỰC NGHIỆM 38 5.3.1 Tập liệu Symbol 38 5.3.2 Tập liệu CBF 42 5.3.3 Tập liệu Trace 44 5.3.4 Tập liệu FaceFour 47 5.3.5 Tập liệu Inline Skate 49 5.3.6 Tập liệu Italy Power Demand 54 5.3.7 So sánh giải thuật cải tiến áp dụng độ đo Euclid DTW 56 5.4 NHẬN XÉT CHUNG .57 CHƢƠNG KẾT LUẬN .59 6.1 TỔNG KẾT .59 6.2 NHỮNG KẾT QUẢ ĐẠT ĐƢỢC CỦA ĐỀ TÀI 59 6.3 HƢỚNG PHÁT TRIỂN CỦA ĐỀ TÀI .60 TÀI LIỆU THAM KHẢO 61 PHỤ LỤC A: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH – VIỆT A PHỤ LỤC B: LÝ LỊCH TRÍCH NGANG B viii Cụm Cụm Cụm Cụm Cụm Hình 5.20 Kết gom cụm giải thuật K-means tập liệu Inline Skate 53 Nhận xét: Chúng ta thấy kết gom cụm tập Inline Skate với bốn số đánh giá giải thuật đề xuất tốt giải thuật K-means Dựa vào trực quan, dễ thấy số lƣợng chuỗi thời gian cụm 2, 3, hình 5.20 giải thuật Kmeans so với kết giải thuật đề xuất nhiều 5.3.6 Tập liệu Italy Power Demand Hình minh họa tập liệu Italy Power Demand Hình 5.21 Hình minh họa tập liệu Italy Power Demand Bảng Hình thể kết gom cụm tập Italy Power Demand với số cụm k=2 Phƣơng pháp Rand ARI Jaccard FM Phƣơng pháp đề xuất 0.77181 0.54365 0.63721 0.77876 K-means 0.49991 0.00020995 0.41189 0.59186 Bảng 5.6 Chất lƣợng gom cụm tập liệu Italy Power Demand 54 0.9 0.8 0.7 0.6 Rand 0.5 ARI 0.4 Jaccard 0.3 FM 0.2 0.1 Phương pháp đề xuất K-means Hình 5.22 Biểu đồ chất lƣợng gom cụm tập liệu Italy Power Demand Hình minh họa sau gom cụm: Phương pháp đề xuất: Cụm Cụm Hình 5.23 Kết gom cụm phƣơng pháp đề xuất tập liệu Italy Power Demand Giải thuật K-means: 55 Cụm Cụm Hình 5.24 Kết gom cụm giải thuật K-means tập liệu Italy Power Demand Nhận xét: Chúng ta thấy kết gom cụm tập Italy Power Demand với bốn số đánh giá giải thuật đề xuất tốt giải thuật K-means Dựa vào trực quan ta dễ thấy hình dạng thu đƣợc cụm hai giải thuật gần giống Tuy nhiên số lƣợng chuỗi thời gian cụm giải thuật K-means phân bố so với giải thuật đề xuất 5.3.7 So sánh giải thuật cải tiến áp dụng độ đo Euclid DTW Dataset K Rand Time ARI Jaccard FM RI 0.92343 0.73435 0.64015 0.78149 0.92343 21.34 995x398 0.98129 0.9326 0.89363 0.94383 0.98129 32.2528 CBF 0.70801 0.36483 0.41784 0.59108 0.70801 0.37129 150x128 0.72045 0.43964 0.49409 0.6755 0.72045 0.57741 Trace 0.75273 0.35647 0.35409 0.52342 0.75273 0.40744 0.86828 0.68301 0.63018 0.78121 0.86828 0.55318 0.77665 0.41546 0.39448 0.56582 0.77665 0.43801 Symbol (ms) 100x275 FaceFour 56 88x350 0.76959 0.44773 0.43534 0.61203 0.76959 1.1074 Inline 0.73033 0.0069214 0.090801 0.16705 0.73033 32.8833 0.74282 0.029655 0.099912 0.18195 0.74282 70.019 0.77181 0.54365 0.63721 0.77876 0.77181 6.5227 0.70107 0.40214 0.54059 0.7018 0.70107 6.2447 Skate 550x1882 Itali 1029x24 Chú thích Euclid DTW Bảng 5.7 So sánh kết giải thuật cải tiến với độ đo Euclid DTW Nhận xét:  Về thời gian thực thi DP_ED (giải thuật gom cụm dựa vào điểm cực đại mật cải tiến sử dụng độ đo Euclid) nhanh DP_DTW (giải thuật gom cụm dựa vào điểm cực đại mật độ sử dụng độ đo DTW), trung bình khoảng ½ thời gian DP_DTW Điều giải thích nhƣ sau: giải thuật tính khoảng cách DTW O(n2), tính khoảng cách ED chiếm O(n); giải thuật gom cụm DP O(n2) Do độ phức tạp cộng lại DP_DTW lớn DP_ED  Về độ xác, kết gom cụm DP_DTW cho kết tốt DP_ED nhiên chênh lệch không nhiều Cá biệt với tập liệu Itali giải thuật DP_ED lại cho kết tốt DP_DTW, khác biệt đặc điểm tập liệu 5.4 Nhận xét chung Các thực nghiệm liệu cho thấy giải thuật gom cụm dựa vào đỉnh mật độ cực đại cho kết tốt K-means chất lƣợng gom cụm Thời gian thực thi tồn q trình gom cụm liệu chuỗi thời gian dựa đỉnh mật độ cực đại cạnh tranh với giải thuật K-means (xem bảng 5.7) Chúng ta tận dụng khả tự phát cụm có dạng khơng lồi loại bỏ phần tử 57 ngoại biên giải thuật liệu chuỗi thời gian, với hỗ trợ tăng tốc thời gian thực thi gom cụm trình bày chƣơng Tập liệu Symbol CBF Trace FaceFour Inline Skate ItalyPower Demand Giải thuật đề xuất 19125 373 6748 362 21473 456 641 12 273 13 872 18 K-means Bảng 5.8 Bảng so sánh thời gian (đơn vị: ms) giải thuật đề xuất K-means 58 CHƢƠNG KẾT LUẬN Chƣơng tổng kết lại kết đạt đƣợc, đóng góp nhƣ hƣớng phát triển đề tài sau 6.1 Tổng kết Trong trình nghiên cứu, đề xuất xây dựng hệ thống, giải đƣợc toán gom cụm liệu chuỗi thời gian dựa điểm cực đại mật độ với độ đo Euclid với việc kết hợp với kĩ thuật cắt tỉa tính tốn q trình tính khoảng cách lân cận gần Chúng tiến hành thực nghiệm, đánh giá phƣơng pháp đề xuất nhƣ trình bày chƣơng Kết cho thấy phƣơng pháp mà chúng tơi xây dựng có hiệu 6.2 Những kết đạt đƣợc đề tài - Hiện thực lại giải thuật DP đƣợc cải tiến theo tác giả Begum [12] độ đo Euclid - Ứng dụng khoảng cách giới hạn dc dùng làm tham số đầu vào giải thuật gom cụm điểm mật độ cực đại - Ứng dụng tính tốn mật độ cục - Thực nghiệm thành công tập Datasets Kết thực nghiệm theo kernel kiểu Gauss liệu mẫu cho thấy cụm liệu đƣợc tạo cách ổn định, tiêu chí đánh giá chất lƣợng gom cụm cho thấy số đánh giá tốt so với với phƣơng pháp K-means - Tái khẳng định giải thuật DP cho kết gom cụm tốt hai độ đo Euclid DTW so với giải thuật K-means 59 6.3 Hƣớng phát triển đề tài Mặc dù đề tài giải đƣợc toán gom cụm liệu chuỗi thời gian dựa vào điểm cực đại mật độ với độ đo Euclid, nhƣng số vấn đề khác cần nghiên cứu thêm nhƣ: - Cần thử nghiệm nhiều tập liệu có đặc tính khác nhau, độ lớn, số chiều cao, để chắn kết luận - Cải thiện thời gian thực thi tính toán chuỗi thời gian dựa vào điểm mật độ cực đại - Phát triển giải thuật, để kết gom cụm cuối thu đƣợc chất lƣợng gom cụm tốt với thời gian nhanh - Ứng dụng phƣơng pháp đề đề tài lên toán thực tế dùng phân lớp chuỗi thời gian - Tính tốn khoảng cách giới hạn dc xác 60 TÀI LIỆU THAM KHẢO [1] Rodriguez, A., and Laio, A (2014) Clustering by fast search and find of density peaks Science 344.6191, pp 1492-1496 [2] Rakthanmanon, T., Keogh, E J., Lonardi, S., & Evans, S (2011) Time series epenthesis: Clustering time series streams requires ignoring some data Data Mining (ICDM), 2011 IEEE 11th International Conference on [3] Mehmood, R., Zhang, G., Bie, R., Dawood, H and Ahmad, H (2016) Clustering by fast search and find of density peaks via heat diffusion Neurocomputing 208, pp 210-217 [4] Rosenblatt, M (1956) Remarks on some nonparametric estimates of a density function The Annals of Mathematical Statistics 27.3, pp 832-837 [5] Margolin, A A., Wang, K., Lim, W K., Kustagi, M., Nemenman, I., and Califano, A (2006) Reverse engineering cellular networks." Nature protocols 1.2, pp 662-671 [6] Botev, Z I., Grotowski, J F., & Kroese, D P (2010) Kernel density estimation via diffusion The Annals of Statistics 38.5, pp 2916-2957 [7] Krishnaswamy, S., Spitzer, M H., Mingueneau, M., Bendall, S C., Litvin, O., Stone, E., and Nolan, G P (2014) Conditional density-based analysis of T cell signaling in single-cell data Science 346.6213 [8] Xu, X., Yan, Z., and Xu, S (2015) Estimating wind speed probability distribution by diffusion-based kernel density method Electric Power Systems Research 121, pp 28-37 [9] Du, M., Ding, S., and Jia, H (2016) Study on density peaks clustering based on k-nearest neighbors and principal analysis Knowledge-Based Systems 99, pp 135-145 [10] [11] component Han, J., Pei, J., and Kamber, M (2011), Data Mining: Concepts and Techniques, 3rd Edition, Morgan Kaufmann Publishers Hautamaki, V., Nykanen, P and Franti, P (2008), Time series Clustering by Approximate Prototypes, 19th International Conference on Pattern Recognition, Florida, pp 1-4 61 [12] Begum, N., Ulanova, L., Wang, J., and Keogh, E (2015) Accelerating dynamic time warping clustering with a novel admissible pruning strategy Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining [13] Liao, T W (2005) Clustering of time series data – a survey, Pattern Recognition, 38, pp.1857 – 1874 [14] [15] Botev, Z I., Grotowski, J F., & Kroese, D P (2010) Kernel density estimation via diffusion The Annals of Statistics 38.5, pp 2916-2957 Zhang, H., Ho, T B., Zhang, Y., and Lin, M S (2006) Unsupervised Feature Extraction for Time Series Clustering Using Orthogonal Wavelet Transform Journal Informatica 30(3), pp 305 – 319 [16] [17] Keogh, E and Ratanamahatana, C A (2002), Exact indexing of dynamic time warping Proceedings of 28th International Conference on Very Large Databases, pp 406-417 Lin, J., Vlachos, M., Keogh, E and Gunopulos D., (2004), Iterative Incremental Clustering of Time Series, 9th International Conference on Extending Database Technology, pp 106-122 [18] [19] [20] [21] [22] [23] [24] Jaccard, P., (1912), The distribution of the flora in the alpine zone, New hytologist, vol.11, pp 37-50 Rand, W M., (1971), Objective criteria for the evaluation of clustering methods, Journal of the American Statistical Association, vol.66, pp 846850 Fowlkes, E B and Mallows, C L., (1983), A Method for Comparing Two Hierarchical Clusterings, Journal of the American Statistical Association, vol.78, pp 553-569 Strehl, A., and Ghosh, J (2002), Cluster Ensembles - A Knowledge Reuse Framework for Combining Multiple Partitions Journal of Machine Learning Research, 3, pp 583–617 Berndt, D J and Clifford, J (1994), Using Dynamic Time Warping to Find Patterns in Time Series, AAA1-94 Workshop on Knowledge Discovery in Databases, pp 229-248 Keogh, E and Ratanamahatana, C.A (2005) Exact Indexing of Dynamic Time Warping KAIS 7, no 3, pp 358-386 Wang, X., Mueen, A., Ding, H., Trajcevski, G., Scheuermann, P., and Keogh, E (2013) Experimental comparison of representation methods 62 and distance measures for time series data Data Mining and Knowledge [25] Discovery, pp 1-35 M.Narasimha Murty, V.Susheela Devi: Pattern Recognition - An Algorithmic Approach Springer, 2011 [26] Han J., Kamber M and Pei J., Cluster Analysis: Basic Concepts and Methods in Data Mining: Concepts and Techniques, 3th ed., Massachusetts: [27] [28] Morgan Kaufmann Publishers, 2012, pp 443 – 496 Oliveira J.V and Pedrycz W., Advances in Fuzzy Clustering and its Applications, John Wiley & Sons Ltd, 2007 Keogh, E: the UCR Time Series Data http://www.cs.ucr.edu/~eamonn/time_series_data/ 63 Mining Archive PHỤ LỤC A: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH – VIỆT Thuật ngữ tiếng Anh Anytime Algorithm Thuật ngữ tiếng Việt Giải thuật với thời gian thực thi tùy chọn Anytime Clustering Giải thuật gom cụm với thời Algorithm gian thực thi tùy chọn Batch Algorithm Giải thuật theo lô Boundary Condition Điều kiện biên Central Limit Theorem Định lý giới hạn trung t}m Chebyshev Distance Độ đo Chebyshev Compactness Độ nén Complete – linkage Liên kết đầy đủ Confidence Interval Khoảng tin cậy Continuity Tính liên tục Contracting Phép co lại Cutoff distance Khoảng c|ch giới hạn Data Clustering Gom cụm liệu Density Peaks Viết tắt Giải thuật gom cụm dựa v{o c|c điểm cực đại mật độ dc DP Diminishing Return Tính suy giảm Dynamic Programming Quy hoạch động Dynamic Time Warping Độ đo xoắn thời gian động DTW Euclidean Distance Độ đo Euclid ED External Validation Đ|nh gi| ngoại Framework Khung thức A1 Global Constraint R{ng buộc to{n cục Internal Validation Đ|nh gi| nội Interruptibility Tính khả dừng Itakura Paralelogram Hình bình hành Itakura Keogh’s Lower Bouding Chặn Keogh Kim’s Lower Bouding Chặn Kim Low Overhead Chi phí thấp Lower Bounding Chặn Manhattan Distance Độ đo Manhattan Mean Gi| trị trung bình Measurable Quality Chất lượng đo Min – max Normalization Chuẩn hóa lớn nhỏ Minkowski Distance Độ đo Minkowski Monotonicity Tính đơn điệu Multiple – for – all Ước lượng nhiều điểm Objective Function H{m mục tiêu One – size – fits – all Ước lượng điểm Preemptability Tính ưu tiên Root Mean Square Error Sai số bình phương trung bình lấy Row – major Ưu tiên h{ng Sakoe – Chiba Band Dải Sakoe-Chiba Sampling Phép lấy mẫu Separation Độ ph}n t|ch Shifting Phép tịnh tiến LB_Keogh hay LB LB_Kim RMSE A1 Single – linkage Liên kết đơn Slope Constraint R{ng buộc độ dốc Standard Deviation Gi| trị độ lệch chuẩn Stretching Phép kéo dãn Student’s t Distribution Ph}n phối t Time Series Data Dữ liệu chuỗi thời gian Upper Bounding Chặn Warping Matrix Ma trận xoắn Warping Path Đường xoắn Warping Window Cửa sổ xoắn Yi’s Lower Bouding Chặn Yi Z – score Normalization Chuẩn hóa trung bình zero LB_Yi A1 PHỤ LỤC B: LÝ LỊCH TRÍCH NGANG Họ tên: PHAN THỊ THANH PHƢƠNG Ngày sinh: 19/01/1986 Nơi sinh: TP Hồ Chí Minh Địa liên lạc: 47/63 Bùi Đình Túy, P.24, Q Bình Thạnh, Tp HCM Email: thanhphuong.tdt@gmail.com Điện thoại: 090 906 1901 QUÁ TRÌNH ĐÀO TẠO: Thời gian 2004 – 2008 2016 – Trƣờng đào tạo Trƣờng Đại học Tôn Đức Thắng Đại học Bách Khoa, Đại học Quốc Gia TPHCM Chuyên ngành Trình độ đào tạo Tin học Cử nhân Khoa Học Máy Tính Thạc sĩ B1 ... pháp gom cụm liệu chuỗi thời gian dựa điểm cực đại mật độ với nội dung sau:  Tìm hiểu giải thuật gom cụm dựa vào điểm cực đại mật độ áp dụng việc gom cụm liệu chuỗi thời gian  Đề xuất mơ hình gom. .. việc gom cụm liệu dựa vào điểm cực đại mật độ (density peaks) để áp dụng vào toán gọm cụm liệu chuỗi thời gian Thuật giải gom cụm dựa vào điểm cực đại mật độ đƣợc áp dụng để bỏ qua liệu cách... PCA) vào giải thuật gom cụm liệu dựa vào điểm cực độ ƣớc lƣợng mật độ dựa k – lân cận gần [9] 3.7 Áp dụng độ đo soắn thời gian động vào giải thuật gom cụm liệu dựa vào điểm cực đại mật độ Nhìn

Định dạng
Số trang	79
Dung lượng	4,92 MB