1. Trang chủ
  2. » Luận Văn - Báo Cáo

Gom cụm chuỗi thời gian dựa theo xu hướng

75 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 75
Dung lượng 1,82 MB

Nội dung

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA - THIỀU XUÂN KHÁNH GOM CỤM CHUỖI THỜI GIAN DỰA THEO XU HƯỚNG Chuyên Ngành: Khoa Học Máy Tính Mã số: 60.48.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 06 năm 2012 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM Cán hướng dẫn khoa học : PSG.TS.DƯƠNG TUẤN ANH Cán chấm nhận xét 1: TS VÕ THỊ NGỌC CHÂU Cán chấm nhận xét 2: TS PHẠM VĂN CHUNG Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 19 tháng năm 2012 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ luận văn thạc sĩ) TS Nguyễn Thanh Bình (CT) TS Võ Thị Ngọc Châu (PB1) TS Phạm Văn Chung (PB2) PGS TS Dương Tuấn Anh (UV) TS Lê Thanh Vân (TK) Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA………… ĐẠI HỌC QUỐC GIA TP HCM CỘNG HOÀ XÃ HỘI CHỦ NGHIÃ VIỆT NAM Độc Lập - Tự Do - Hạnh Phúc TRƯỜNG ĐẠI HỌC BÁCH KHOA _ NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Thiều Xuân Khánh MSHV: 00708197 Ngày sinh: 05/03/1976 Nơi sinh: Đà Nẵng Chuyên ngành: Khoa học Máy tính Mã số: 60.48.01 I- TÊN ĐỀ TÀI: Gom cụm chuỗi thời gian dựa theo xu hướng II- NHIỆM VỤ LUẬN VĂN: - Tìm hiểu cách tiếp cận bitmap cho gom cụm chuỗi thời gian dựa xu hướng Jong P Yoon cộng Dùng giải thuật k-means để gom cụm sử dụng biến đổi chuỗi thời gian thành dãy xu hướng đường di động số mũ thay đường di động đơn giản - Hiện thực thực nghiệm để so sánh hiệu cách gom cụm chuỗi thời gian không sử dụng tiếp cận xu hướng có sử dụng tiếp cận xu hướng với đường trung bình đơn giản có sử dụng tiếp cận xu hướng với đường trung bình số mũ III- NGÀY GIAO NHIỆM VỤ: 1/7/2011 IV- NGÀY HOÀN THÀNH NHIỆM VỤ: 1/7/2012 V- CÁN BỘ HƯỚNG DẪN: PGS TS Dương Tuấn Anh CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) TP HCM, ngày tháng năm 2012 CHỦ NHIỆM BỘ MÔN ĐÀO TẠ (Họ tên chữ ký) PGS TS Dương Tuấn Anh TRƯỞNG KHOA ………………………… (Họ tên chữ ký) i LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Ngày 01 tháng 07 năm 2012 Thiều Xuân Khánh ii LỜI CẢM ƠN Tôi xin gởi lời cảm ơn chân thành sâu sắc đến PGS TS Dương Tuấn Anh, người Thầy không quản thời gian cơng sức ln tận tình bảo hướng dẫn suốt thời gian thực luận văn Tơi xin chân thành cám ơn q thầy cô, người gián tiếp trực tiếp bảo hướng dẫn giúp tơi có kiến thức cần thiết để thực luận văn Qua xin cám ơn anh chị bạn nhóm nghiên cứu giúp đỡ, góp ý cho tơi suốt q trình làm luận văn Một lần xin chân thành cám ơn đến tất người iii TÓM TẮT LUẬN VĂN Gom cụm chuỗi thời gian kỹ thuật phổ biến lĩnh vực khai phá liệu chuỗi thời gian Mục đích gom cụm chuỗi thời gian nhằm tìm phân hoạch đặc trưng chuỗi thời gian để đưa đánh giá chuỗi thời gian Gom cụm chuỗi thời gian có loại gom cụm trực tiếp liệu thô, gom cụm đặc trưng rút trích từ liệu thơ hay gián tiếp mơ hình xây dựng từ liệu thơ Rút trích đặc trưng từ liệu thơ tìm mẫu thức liệu tương tự (similar data paterns) từ liệu thô Mẫu thức xu hướng tương tự (similar trend paterns) trường hợp đặc biệt mẫu thức liệu tương tự Có nhiều phương pháp rút trích đặc trưng từ liệu thơ thường cho kết gom cụm có chất lượng thấp Từ vấn đề nêu trên, đề tài sử dụng cách tiếp cận để gom cụm chuỗi liệu thời gian dựa vào số xu hướng đại diện Đầu tiên dùng giải thuật k-means thực gom cụm chuỗi thời gian dựa xu hướng Sau cải tiến giải thuật thay dùng đường trung bình di động đơn giản (simple moving average) dùng đường trung bình di động số mũ (exponential moving average) Cuối so sánh hiệu gom cụm gom cụm liệu thu giảm số chiều xấp xỉ gộp đoạn (PAA - piecewise aggregate approximation) Kết thực nghiệm cho thấy, gom cụm chuỗi thời gian dựa xu hướng có số vịng lặp gom cụm hơn, tính ổn định có chất lượng gom cụm tốt nhiều so với gom cụm chuỗi thời gian liệu thu giảm số chiều PAA Và kết thực nghiệm cho thấy gom cụm chuỗi thời gian dựa xu hướng sử dụng đường trung bình di động số mũ có thời gian chạy tương đối nhanh sử dụng đường trung bình di động đơn giản iv ABSTRACT Time series clustering is a popular technique in the field of time series data mining The purpose of time series clustering is to find the specific partitions as well as a grouping of time-series in order to make evaluations on time-series Time series clustering can be classified into three types: clustering directly on the raw data, clustering on the features extracted from the raw data, and clustering based on models built from the raw data Extracting features from the raw data is to find similar data patterns from the raw data Similar trend paterns is a special case of similar data patterns There are many methods to extract features from raw data, but they often produce low-quality clustering From the above problem, we use a new approach to cluster time series data which is based on representative trend indicators First we use the k-means algorithm to cluster time series which is based on the trend features We then improve this algorithm by using exponential moving average rather than simple moving average Finally, we compare the effectiveness of this clustering approach to that of the clustering on the PAA (Piecewise Aggregate Approximation) transformed data The experimental results show that the former approach tends to have fewer loops and is more stable and gives better quality than the later method And experimental results show that the former method when using exponential moving average performs relatively faster than when using simple moving average v MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii TÓM TẮT LUẬN VĂN iii DANH MỤC CÁC HÌNH viii CHƯƠNG I: PHÁT BIỂU VẤN ĐỀ 1.1 Dữ liệu chuỗi thời gian 1.2 Bài toán gom cụm liệu chuỗi thời gian 1.3 Mục tiêu giới hạn đề tài 1.4 Tóm lược kết đạt 1.5 Cấu trúc luận văn CHƯƠNG II: TỔNG QUAN CÁC CƠNG TRÌNH LIÊN QUAN 2.1 Độ đo tương tự 2.1.1 Độ đo Minkowski 2.1.2 Độ đo xoắn thời gian động 2.2 Các phương pháp thu giảm số chiều 12 2.2.1 Phương pháp khơng thích nghi liệu 12 2.2.2 Phương pháp thích nghi liệu 16 2.3 Rời rạc hóa liệu phương pháp xấp xỉ gộp ký hiệu hóa (Symbolic Aggregate approXimation - SAX) 18 2.4 Gom cụm liệu thường 19 2.4.1 Gom cụm phân hoạch: 19 Giải thuật k-means 19 2.4.2 Gom cụm phân cấp 20 2.4.2.1 Gom cụm phân cấp thu gộp (Agglomerative hierarchical clustering):20 2.4.2.2 Gom cụm phân cấp chia nhỏ (Divisive hierarchical clustering): 21 2.4.3 Các phương pháp gom cụm khác 22 vi 2.4.3.1 Phương pháp gom cụm dựa mật độ (Density method): 22 2.4.3.2 Phương pháp gom cụm dựa lưới (Grid-based method): 22 2.4.3.3 Phương pháp gom cụm dựa mơ hình (Model-based method): 23 2.5 Gom cụm liệu chuỗi thời gian 23 2.5.1 Gom cụm dựa liệu thô 24 2.5.2 Gom cụm dựa đặc trưng 24 2.5.2.1 Gom cụm liệu chuỗi thời gian chứng khoán 25 2.5.2.2 Giải thuật I-k-Means 25 2.5.2.3 Rút trích đặc trưng không giám sát cho gom cụm chuỗi thời gian cách sử dụng Biến đổi Wavelet 26 2.5.3 Gom cụm dựa mơ hình 26 2.5.4 Gom cụm dựa đặc điểm 27 2.6 Cách tiếp cận kỹ thuật bitmap cho gom cụm dựa xu hướng 28 CHƯƠNG III: CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ 30 3.1 Đặt vấn đề 30 3.2 Mơ hình kiến trúc hệ thống gom cụm 31 3.3 Cách tiếp cận kỹ thuật bitmap cho gom cụm dựa xu hướng 31 3.3.1 Làm trơn dãy đường trung bình di động (Moving Averages) [2]: 31 3.3.1.1 Đường trung bình di động đơn giản (simple moving average) 32 3.3.1.2 Đường trung bình di động số mũ (exponential moving average - EMA) 32 3.3.1.3 Đường trung bình di động TRIX (trix moving average - TRIX) 33 3.3.2 Các báo xu hướng (Trend Indicators): 33 3.3.3 Đánh mục bitmap (Bitmap indexing): 35 3.3.4 So trùng tương tự 39 3.4 Đánh giá chất lượng giải thuật gom cụm 40 CHƯƠNG IV: HIỆN THỰC VÀ THỬ NGHIỆM 43 4.1 Kiến trúc mơ hình thực nghiệm 43 vii 4.1.1 Mô hình thực so sánh k-means_PAA k-means_Trend 44 4.2 Kết thực nghiệm 45 4.2.1 Mô tả tập liệu thử nghiệm 45 4.2.1.1 Dữ liệu Heterogeneous (Phức Hợp) 45 4.2.1.2 Tập liệu chứng khoán 49 4.3 Kết luận 51 TÀI LIỆU THAM KHẢO 54 PHỤ LỤC: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH-VIỆT A LÝ LỊCH TRÍCH NGANG C QUÁ TRÌNH ĐÀO TẠO D Q TRÌNH CƠNG TÁC E 48 tương đối nhanh giải thuật k-means_Trend_SMA với tập liệu có số lượng mẫu liệu lớn 18 16 Hàm mục tiêu 14 12 10 k-means_PAA k-means_Trend_SMA k-means_Trend_TRIX 500 1000 2000 4000 8000 Số lượng mẫu liệu Hình 4.2 Kết đánh giá dựa hàm mục tiêu (tập liệu Heterogeneous) 30 Thời gian 25 20 k-means_PAA 15 k-means_Trend_SMA 10 k-means_Trend_TRIX 500 1000 2000 4000 8000 Số lượng mẫu liệu Hình 4.3 Kết đánh giá dựa thời gian thực thi (tính s) (tập liệu Heterogeneous) 49 Số lượng mẫu liệu 500 1000 2000 4000 8000 k-means_PAA 0.4 0.4 k-means_Trend_SMA 13 27 k-means_Trend_TRIX 12 24 Bảng 4.3 Kết đánh giá dựa thời gian thực thi (tính s) (tập liệu Heterogeneous) Bảng 4.4 Hình 4.4 trình bày kết đánh giá dựa số lần lặp giải thuật Giải thuật k-means_PAA có số lần lặp khơng ổn định phụ thuộc vào việc khởi tạo trung tâm cụm ban đầu, chúng tơi đo đạc 10 lần chạy giải thuật lấy giá trị trung bình Giải thuật k-means_Trend có số lần lặp ổn định Số lượng mẫu liệu k-means_PAA 500 1000 2000 4000 8000 12 10 21 k-means_Trend_SMA 2 2 k-means_Trend_TRIX 2 2 Bảng 4.4 Kết đánh giá dựa số lần lặp (tập liệu Heterogeneous) 4.2.1.2Tập liệu chứng khoán Với tập liệu Chứng Khốn khơng phân lớp sẳn nên dùng hàm mục tiêu để so sánh chất lượng gom cụm thực gom cụm tập liệu chứng khoán lấy từ Historical Data for S&P 500 Stocks [30] Chúng tiến hành gom cụm liệu Chứng khoán năm 1998 chứng khốn có số chiều 256, dùng phương pháp PAA thu giảm số chiều số điểm cần lấy giá trị trung bình 8, số cụm gom k=10 k-means_PAA 7651825.578 Thời gian thực thi k-means_Trend_SMA 170272.210 k-means_Trend_TRIX 169408.309 0.4 Số lượng mẫu liệu Hàm mục tiêu Số lần lặp 32 Bảng 4.5 Kết đánh giá dựa Hàm mục tiêu, Thời gian thực thi Số lần lặp (tập liệu Chứng Khoán) 50 25 Số lần lặp 20 15 k-means_PAA 10 k-means_Trend_SMA k-means_Trend_TRIX 500 1000 2000 4000 8000 Số lượng mẫu liệu Hình 4.4 Kết đánh giá dựa số lần lặp (tập liệu Heterogeneous) 9000000 8000000 Hàm mục tiêu 7000000 6000000 5000000 4000000 k-means_PAA k-means_Trend_SMA k-means_Trend_TRIX 3000000 2000000 1000000 Hình 4.5 Kết đánh giá dựa hàm mục tiêu (tập liệu Chứng khốn) Kết từ Bảng 4.5 Hình 4.5 cho thấy giải thuật k-means_Trend có chất lượng gom cụm tốt so với giải thuật k-means_PAA Ngoài ra, giải thuật kmeans_Trend có số lần lặp thời gian thực thi Giải thuật kmeans_Trend_TRIX có thời gian thực thi tương đối nhanh kmeans_Trend_SMA 51 4.3 Kết luận Dựa vào kết thực nghiệm thấy điểm sau:  Về mặt chất lượng giải thuật k-means_Trend tốt so với giải thuật k-means_PAA tập liệu Chứng Khốn có chất lượng tập liệu Phức Hợp  Về mặt thời gian thực thi nhau, giải thuật k-means_PAA nhanh so với k-means_Trend Giải thuật k-means_Trend_TRIX có thời gian thực thi tương đối nhanh so với k-means_Trend_SMA  Về mặt số lần lặp giải thuật k-means_Trend có số lần lặp ổn định so với giải thuật k-means_PAA Chương sau chúng tơi trình bày đóng góp đề tài hướng phát triển 52 CHƯƠNG V: KẾT LUẬN Chương tổng kết việc làm luận văn, đóng góp luận văn đưa hướng mở rộng cho nghiên cứu 5.1 Tổng kết Trong q trình xây dựng hồn thiện hệ thống chúng tơi giải tốn gom cụm liệu chuỗi thời gian Với yêu cầu toán xây dựng hệ thống gom cụm liệu chuỗi thời gian bảo đảm chất lượng gom cụm, thích hợp với tập liệu lớn thời gian thực thi tương đối nhanh Nhờ vào việc sử dụng phương pháp dùng dãy xu hướng đại diện dùng kỹ thuật bitmap cho việc xử lí gom cụm nhận thấy chất lượng lời giải giải thuật k-means_Trend có chất lượng tốt so với k-means_PAA tập liệu Chứng khoán nhiên thời gian chạy chậm phải dùng nhiều kỹ thuật biến đổi tìm đặc trưng xu hướng Và nhờ dùng đường trung bình di động TRIX thay đường trung bình di động đơn giản nên giải thuật k-means_Trend_TRIX tương đối nhanh kmeans_Trend_SMA 5.2 Những đóng góp đề tài - Hiện thực thành công phương pháp thu giảm số chiều PAA cho tập liệu giúp trình gom cụm nhanh - Hiện thực thành công phương pháp tìm đặc trưng xu hướng tập liệu dùng kỹ thuật bitmap cho dãy xu hướng giúp q trình xử lí gom cụm có chất lượng - Đề xuất sử dụng đường trung bình di động TRIX với gom cụm dựa xu hướng giúp cho thời gian thực thi tương đối nhanh so với gom cụm dựa xu hướng sử dụng đường trung bình di động đơn giản tập liệu Chứng Khoán tập liệu Phức Hợp 53 - Áp dụng giải thuật gom cụm k-means cho tập liệu - So sánh, đánh giá thực nghiệm giải thuật k-means_PAA kmeans_Trend với tập liệu Chứng Khoán tập liệu Phức Hợp 5.3 Hướng phát triển - Cải tiến giải thuật gom cụm theo xu hướng cho thời gian chạy nhanh là:  Có thể rút gọn dãy xu hướng cách tìm kiếm dãy tương tự  Có thể áp dụng kỹ thuật khởi tạo trung tâm cụm ban đầu để cải thiện giải thuật k-means  Có thể áp dụng gom cụm phân cấp dựa theo xu hướng thay dùng giải thuật k-Means - Cần thử nghiệm tập liệu có số chiều lớn nhiều kiểu tập liệu khác để đưa kết luận xác để ứng dụng vào lĩnh vực - Cải thiện cách trực quan hóa kết gom cụm 54 TÀI LIỆU THAM KHẢO [1] Yoon, J.P., Luo, Y., Nam, J “A Bitmap Approach to Trend Clustering for Prediction in Time-Series Databases,” in Proceedings of Data Mining and Knowledge Discovery: Theory, Tools, and Technology II, Florida, USA, 2001 [2] R Edwards and J Magee, Technical Analysis of Stock Trends John Magee, Springfield, Massachsetts, 1969 [3] Berndt D., J Clifford “Finding patterns in time series: a dyramic programming approach,” Journal of advandces in Knowledge Discovery and Data Mining, AAA/MIT Press, Menlo Park, CA, 1996, pp 229-248 [4] Chan, K., Fu, A W., 1999, “Efficient time series matching by wavelets” In proceedings of the 15th IEEE International Conference on Data Engineering, Sydney, Australia, pp 126-133 [5] Berndt, D.J & Clifford, J (1996) “Finding patterns in time series: a dynamic programming approach” Advances in Knowdledge Discovery and Data Mining AAAI/MIT Press, Menlo Park, CA pp 229-248 [6] Gunopulos, D., et al., 1997, “Finding similar time series” In Proceedings of the 1st European Symposium on Principles of Data Mining and Knowledge Discovery, PKDD97, Trondheim, Norway, pp 88-100 [7] Faloutsos, C., Ranganathan, M, & Manolopoulos, Y (1994) “Fast subsequence matching in time series databases” In proceedings of the ACM SIGNMOD Int’l Conference on Managerment of Data Minneapolis, MN, May 25-27 pp 419429 [8] Hetland, M L (2003) “A survey of recent methods for efficient retrieval of similar sequences” In Data Mining in Time Series Databases (M.Last, A Kandel, and H, Bunke, Eds.) Singapore: World Scientific [9] Keogh, E., Chakrabarti, K., Pazzani, M & Mehrotra, S (2000) “Dimensionality reduction for fast similarity search in large tim series database” Journal of Knowledge and Information Systems, pp 263-286 55 [10] Keogh, E., “A Fast and Robust Method for Pattern Matching in Time Series Databases” In Proceedings of 9th International Conference on Tools with Artificial Intelligence (ICTAI ‘97), November 3-8, 1997, pp 578-584 [11] Rafiei, D., and Mendelzon, A.O “Efficient retrieval of similar time sequences using dft” Proceedings of the 5th International Conference on Foundations of Data Organization and Algorithm (FODO 1998), Number 1213, 1998, pp.249-257 [12] Korn, F., Jagadish, H., and Falousos, C., “Efficiently supporting ad hoc queries in large datasets of time sequences” In Proceedings of the 1997 ACM SIGMOD International Conference on Management of Data (CIKM 1997 ), May 13-15, pp 289-300 [13] Gavrilov, M., Anguelov D., Indyk, P., and Motwani, R "Mining the stock market: which measure is best?" Proceedings of the 6th ACM Interantional Conference on Knowledge Discovery and Data Mining (KDD 2000) August 2023, pp 487-496 [14] Keogh, E., and Pazzani, M., "An Indexing Scheme for Fast Similarity Search in Large Time Series Databases" Proceedings of the 11th International Conference on Scientific and Statistical Database Management (SSDBM 1999), July 28-30, 1999, pp 56-67 [15] Megalooikonomou, V., Wang, Q., Li, G., Faloutsos, C "A Multiresolution Symbolic Representation of Time Series" Proceedings of the 21th International Conference on Data Engineering (ICDE 2005), April 5-8, 2005, pp 668-679 [16] Perng, C., Wang, H., Zhang, S., and Parker, S "Landmarks: a new model for similarity-based pattern querying in time series databases" Proceedings of the 16th International Conference on Data Engineering (ICDE 2000), 28 February March, 2000, pp 33-42 [17] Keogh, E., Chakrabarti, K., Pazzani, M., and Mehrotra, S "Locally adaptive dimensionality reduction for indexing large time series databases" Proceedings of the 2001 ACM SIGMOD Conference on Management of Data, May 21-24, 2001, pp 151-162 56 [18] Lin, J., Keogh, E., Lonardi, S., and Chiu, B “A Symbolic Representation of Time Series, with Implications for Streaming Algorithms” Proceedings of 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discover (DMKD 2003), June 13, 2003, pp 2-11 [19] Lkhagva, B., Suzuki, Y & Kawagoe, K (2006).”Extened SAX: Extension of symbolic aggregate approximation for financial time series data representation” In proc of Data Engineering Workshop, 2006 [20] Shieh, J & Keogh, E (2008) iSAX: “Indexing and mining terabyte sized time series” In proc of SIGKDD 2008 [21] Sakoe, H & Chiba, S (1978) “Dynamic programming algorithm optimization for spoken word recognition” IEEE Trans Acoustics, Speech, and Signal Proc., Vol ASSP-26 [22] Yi, B & Faloutsos, C (2000) “Fast time sequence indexing for arbitrary Lp norms” In proceedings of the 26th Int’l Conference on Very Large Databases Cairo, Egypt, Sept 10-14 pp 385-394 [23] Keogh, E & Folias, T (2002) The UCR Time Series Data Mining Archive [http://www.cs.ucr.edu/~eamonn/TSDMA/index.html] [24] Lin, J., Vlachos, M., Keogh, E., and Gunopulos, D., 2004, “Iterative Incremental Clustering of Time Series,” in Proceedings of the IX Conference on Extending Database Technology (EDBT 2004), Crete, Greece, pp 14-18 [25] Lin, J., Vlachos, M., Keogh, E., and Gunopulos, D., 2004, “Iterative Incremental Clustering of Time Series” in Proceedings of the IX Conference on Extending Database Technology (EDBT 2004), Crete, Greece, pp 14-18 [26] J Yoon, J Lee, and S Kim, “Trend Similarity and Prediction in Time-Series Databases,” SPIE Conference on Data Mining and Knowledge Discovery: Theory, Tools, and Technology II, 201-212, 2000 [27] S Kortje (1998) Stock Trends – A Handbook for Investors Available: http://www.stocktrends.ca 57 [28] C Chan and Y Ioannidis, “An Efficient Bitmap Encoding Scheme for Selection Queries,” In Proc of ACM SIGMOD Conf on Management of Data, 215-226, 1999 [29] Xiaozhe Wang, Kate Smith and Rob Hyndman, “Characteristic-Based Clustering for Time Series Data,” Journal on Data Mining and Knowledge Discovery, vol 13, no 3, pp 335-364, 2006 [30] “Historical Data for S&P 500 Stocks.” Internet: http://pages.swcp.com/stocks/ [31] Agrawal, R., Lin, K.I., Sawhney, H.S., and Shim, K “Fast similarity search in the presence of noise scaling, and translation in time-series databases”, Proceedings of the 21th International Conference on Very Large Data Bases (VLDB’95), September 11-15, 1995, pp 490-501 [32] Hui Zhang, Tu Bao Ho, Yang Zhang and Mao Song Lin 2005 Unsupervised Feature Extraction for Time Series Clustering Using Orthogonal Wavelet Transform Journal on Informatics, vol 30, pp 305-319 [33] D Piccolo, A distance measure for classifying ARMA models, J Time Ser Anal 11 (2) (1990) 153–163 [34] Gavrilov, M., Anguelov, M., Indyk, P., and Motwani, R., 2000, “Mining The Stock Market: Which Measure is Best?” In Proc of 6th ACM Conf on Knowledge Discovery and Data Mining, Boston, MA, pp 487 – 496 [35] Phạm Đăng Ninh, 9/2009, Biểu diễn chuỗi thời gian mức bit ứng dụng Luận văn cao học, Khoa Khoa học Kỹ Thuật Tính, trường Đại Học Bách Khoa Tp.HCM A PHỤ LỤC: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH-VIỆT Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt Viết tắt Giải thuật có thời gian Anytime algorithm thực thi tùy chọn Bitmap indexing Đánh mục bitmap Centroid Trọng tâm cụm Classificaton Phân lớp Cluster feature Đặc trưng cụm Cluster quality Chất lượng cụm Clustering Gom cụm Data set Tập liệu Dimensionality Số chiều Dimensionality Reduction Discretization Rời rạc hóa thu giảm số chiều Discrete Wavelet Transform Biến đổi wavelet rời rạc DWT Discrete Fourier Transform Biến đổi Fourier rời rạc DFT Dynamic Time Wraping Xoắn thời gian động DTW Dynamic-programming Quy hoạch động Encoded bitmap index Chỉ mục bitmap mã hóa Envelope Hình bao Euclidean distance Khoảng cách Euclidean Exact match So trùng xác So trùng xác Exact match by shift dịch chuyển Đường trung bình Exponential moving average di động số mũ EMA B Feature Extraction Rút trích đặc trưng Frequency-domain approach Tiếp cận miền tần số Heterogeneuos Tập liệu Phức Hợp Hierarchical Clustering Gom cụm phân cấp High-Dimensional data Dữ liệu nhiều chiều Iterative Tính lặp Multiple-Resolution Đa phân giải Objective function Hàm mục tiêu Orthogonal wavelet transform Biến đổi wavelet trực giao Partional clustering Gom cụm dựa phân hoạch Qualitative approach Tiếp cận chất lượng Similar data patern Mẫu thức liệu tương tự Similar trend patern Mẫu thức xu hướng tương tự Similarity match So trùng tương tự So trùng tương tự Similarity match by shift dịch chuyển Similarity/distance measures Độ đo tương tự/ Khoảng cách Simple bitmap index Chỉ mục bitmap đơn giản Đường trung binh di động Simple moving average đơn giản Squared error Sai số bình phương Stock Tập liệu Chứng Khoán Time series Dữ liệu chuỗi thời gian Time-domain approach Tiếp cận miền thời gian Trend indicator Chỉ báo xu hướng Trend sequence Dãy xu hướng SMA C LÝ LỊCH TRÍCH NGANG Họ tên: Thiều Xuân Khánh Ngày sinh: 05/03/1976 Nơi sinh: Đà Nẵng Địa liên lạc: 20 Khuông Việt, phường Phú Trung, quận Tân Phú, Tp.HCM Email: thieuxuankhanh@gmail.com D QUÁ TRÌNH ĐÀO TẠO Thời gian Trường đào tạo Chuyên Trình độ đào tạo ngành 1993– 1998 Đại học Bách Khoa, Xây dựng Kỹ sư Trung tâm Phát triển Công nghệ Cử nhân Công nghệ thông tin, thông tin Đại học Quốc gia Tp HCM 2001-2004 Đại học Quốc gia Tp HCM 2008 – 2010 Đại học Bách Khoa, Khoa học Máy Đại học Quốc gia Tp tính HCM Thạc sỹ E Q TRÌNH CƠNG TÁC Thời gian 2005 – 2006 Đơn vị công tác Trung tâm Phát triển Vị trí cơng tác Chun viên Cơng nghệ thơng tin, Đại học Quốc gia Tp HCM 2006 – 2009 Trường Cao đẳng Kinh tế Giảng viên Kỹ thuật Phú Lâm, Quận 6, Tp.HCM 2010 – 2012 Trường Đại học Công nghệ thông tin, Đại học Quốc gia Tp HCM Giảng viên ... trình gom cụm tập liệu chuỗi thời gian ban đầu tập liệu chuỗi thời gian sau thu giảm số chiều dựa vào kết gom cụm dãy xu hướng tương đương  Số vòng lặp gom cụm trình gom cụm tập liệu chuỗi thời gian. .. VĂN Gom cụm chuỗi thời gian kỹ thuật phổ biến lĩnh vực khai phá liệu chuỗi thời gian Mục đích gom cụm chuỗi thời gian nhằm tìm phân hoạch đặc trưng chuỗi thời gian để đưa đánh giá chuỗi thời gian. .. trình gom cụm tập liệu chuỗi thời gian dựa vào kết gom cụm dựa xu hướng có thời gian thực nhanh gom cụm trực tiếp tập liệu ban đầu sử dụng giải thuật k-means chất lượng gom cụm cao  Quá trình gom

Ngày đăng: 29/08/2021, 17:43

HÌNH ẢNH LIÊN QUAN

Hình 1.1: Minh họa về dữ liệu chuỗi thời gian theo dõi quá trình đo nhiệt độ. - Gom cụm chuỗi thời gian dựa theo xu hướng
Hình 1.1 Minh họa về dữ liệu chuỗi thời gian theo dõi quá trình đo nhiệt độ (Trang 14)
Hình 1.2: Đường biễu diễn dữ liệu chuỗi thời gian. - Gom cụm chuỗi thời gian dựa theo xu hướng
Hình 1.2 Đường biễu diễn dữ liệu chuỗi thời gian (Trang 15)
 Không thích hợp khi dữ liệu có đường cơ bản khác nhau (Hình 2.1 minh họa cho trường hợp này)  - Gom cụm chuỗi thời gian dựa theo xu hướng
h ông thích hợp khi dữ liệu có đường cơ bản khác nhau (Hình 2.1 minh họa cho trường hợp này) (Trang 21)
Hình 2.2: Minh họa hình dạng dữ liệu chuỗi thời gian có hai đường giống nhau nhưng biên độ giao động khác nhau - Gom cụm chuỗi thời gian dựa theo xu hướng
Hình 2.2 Minh họa hình dạng dữ liệu chuỗi thời gian có hai đường giống nhau nhưng biên độ giao động khác nhau (Trang 22)
Hình 2.1: Minh họa hình dạng dữ liệu chuỗi thời gian có hai đường giống nhau, nhưng đường cơ bản khác nhau - Gom cụm chuỗi thời gian dựa theo xu hướng
Hình 2.1 Minh họa hình dạng dữ liệu chuỗi thời gian có hai đường giống nhau, nhưng đường cơ bản khác nhau (Trang 22)
Hình 2.3: (a) Tính khoảng cách dựa vào phương pháp Euclid, (b) Tính khoảng cách dựa vào phương pháp DTW - Gom cụm chuỗi thời gian dựa theo xu hướng
Hình 2.3 (a) Tính khoảng cách dựa vào phương pháp Euclid, (b) Tính khoảng cách dựa vào phương pháp DTW (Trang 23)
Hình 2.4: Minh họa cách tính khoảng cách theo DTW. - Gom cụm chuỗi thời gian dựa theo xu hướng
Hình 2.4 Minh họa cách tính khoảng cách theo DTW (Trang 24)
Hình 2.5: Minh họa biểu diễn dữ liệu chuỗi thời gian theo phương pháp PAA - Gom cụm chuỗi thời gian dựa theo xu hướng
Hình 2.5 Minh họa biểu diễn dữ liệu chuỗi thời gian theo phương pháp PAA (Trang 26)
Hình 2.6: Minh họa phương pháp biểu diễn dữ liệu chuỗi thời gian theo phương pháp DFT, DWT và PAA  - Gom cụm chuỗi thời gian dựa theo xu hướng
Hình 2.6 Minh họa phương pháp biểu diễn dữ liệu chuỗi thời gian theo phương pháp DFT, DWT và PAA (Trang 29)
Hình 2.7 minh họa cho các phương pháp thích nghi dữ liệu. - Gom cụm chuỗi thời gian dựa theo xu hướng
Hình 2.7 minh họa cho các phương pháp thích nghi dữ liệu (Trang 30)
Hình 2.8: Minh họa phương pháp rời rạc hóa dữ liệu chuỗi thời gian bằng phương pháp SAX - Gom cụm chuỗi thời gian dựa theo xu hướng
Hình 2.8 Minh họa phương pháp rời rạc hóa dữ liệu chuỗi thời gian bằng phương pháp SAX (Trang 31)
Hình 2.16: Minh họa quá trình gom cụm dữ liệu bằng thuật toán K-Means - Gom cụm chuỗi thời gian dựa theo xu hướng
Hình 2.16 Minh họa quá trình gom cụm dữ liệu bằng thuật toán K-Means (Trang 33)
Hình 2.18: Thuật toán gom cụm phân cấp thu gộp. - Gom cụm chuỗi thời gian dựa theo xu hướng
Hình 2.18 Thuật toán gom cụm phân cấp thu gộp (Trang 34)
Hình 2.19: Minh họa phương pháp gom cụm phân cấp dữ liệu - Gom cụm chuỗi thời gian dựa theo xu hướng
Hình 2.19 Minh họa phương pháp gom cụm phân cấp dữ liệu (Trang 35)
Hình 2.20. Ba hướng tiếp cận gom cụm chuỗi thời gian: (a) dựa dữ liệu thô, (b) dựa đặc trưng,(c) dựa mô hình [24]  - Gom cụm chuỗi thời gian dựa theo xu hướng
Hình 2.20. Ba hướng tiếp cận gom cụm chuỗi thời gian: (a) dựa dữ liệu thô, (b) dựa đặc trưng,(c) dựa mô hình [24] (Trang 37)
3.2 Mô hình kiến trúc hệ thống gom cụm - Gom cụm chuỗi thời gian dựa theo xu hướng
3.2 Mô hình kiến trúc hệ thống gom cụm (Trang 44)
Hình 3.2: Hệ thống gom cụm dữ liệu chuỗi thời gian dựa vào xu hướng sử dụng thuật toán k- -means - Gom cụm chuỗi thời gian dựa theo xu hướng
Hình 3.2 Hệ thống gom cụm dữ liệu chuỗi thời gian dựa vào xu hướng sử dụng thuật toán k- -means (Trang 45)
Vậy thì bitmap đơn giản đòi hỏi sáu bit để biểu diễn một chỉ báo (Hình 3.3). Tuy nhiên, với đánh chỉ  mục bitmap  mã  hóa chỉ cần năm bit  đủ biểu diễn  sáu chỉ  báo (Hình 3.4) - Gom cụm chuỗi thời gian dựa theo xu hướng
y thì bitmap đơn giản đòi hỏi sáu bit để biểu diễn một chỉ báo (Hình 3.3). Tuy nhiên, với đánh chỉ mục bitmap mã hóa chỉ cần năm bit đủ biểu diễn sáu chỉ báo (Hình 3.4) (Trang 49)
Hình 3.5 Chỉ mục bit đơn giản - Gom cụm chuỗi thời gian dựa theo xu hướng
Hình 3.5 Chỉ mục bit đơn giản (Trang 50)
Hình 3.7 Bốn loại so trùng dãy xu hướng - Gom cụm chuỗi thời gian dựa theo xu hướng
Hình 3.7 Bốn loại so trùng dãy xu hướng (Trang 53)
4.1.1 Mô hình hiện thực so sánh giữa k-means_PAA và k-means_Trend - Gom cụm chuỗi thời gian dựa theo xu hướng
4.1.1 Mô hình hiện thực so sánh giữa k-means_PAA và k-means_Trend (Trang 57)
Hình 4.2: Tập dữ liệu Heterogeneous. - Gom cụm chuỗi thời gian dựa theo xu hướng
Hình 4.2 Tập dữ liệu Heterogeneous (Trang 59)
Bảng 4.1. Các tiêu chí đánh giá gom cụm với 1000 mẫu dữ liệu (tập dữ liệu Heterogeneous) - Gom cụm chuỗi thời gian dựa theo xu hướng
Bảng 4.1. Các tiêu chí đánh giá gom cụm với 1000 mẫu dữ liệu (tập dữ liệu Heterogeneous) (Trang 60)
Hình 4.3. Kết quả đánh giá dựa trên thời gian thực thi (tính bằng s) (tập dữ liệu Heterogeneous) - Gom cụm chuỗi thời gian dựa theo xu hướng
Hình 4.3. Kết quả đánh giá dựa trên thời gian thực thi (tính bằng s) (tập dữ liệu Heterogeneous) (Trang 61)
Hình 4.2. Kết quả đánh giá dựa trên hàm mục tiêu (tập dữ liệu Heterogeneous) - Gom cụm chuỗi thời gian dựa theo xu hướng
Hình 4.2. Kết quả đánh giá dựa trên hàm mục tiêu (tập dữ liệu Heterogeneous) (Trang 61)
Bảng 4.4 và Hình 4.4 trình bày kết quả đánh giá dựa trên số lần lặp của các giải thuật - Gom cụm chuỗi thời gian dựa theo xu hướng
Bảng 4.4 và Hình 4.4 trình bày kết quả đánh giá dựa trên số lần lặp của các giải thuật (Trang 62)
Bảng 4.3. Kết quả đánh giá dựa trên thời gian thực thi (tính bằng s) (tập dữ liệu Heterogeneous) - Gom cụm chuỗi thời gian dựa theo xu hướng
Bảng 4.3. Kết quả đánh giá dựa trên thời gian thực thi (tính bằng s) (tập dữ liệu Heterogeneous) (Trang 62)
Hình 4.4. Kết quả đánh giá dựa trên số lần lặp (tập dữ liệu Heterogeneous) - Gom cụm chuỗi thời gian dựa theo xu hướng
Hình 4.4. Kết quả đánh giá dựa trên số lần lặp (tập dữ liệu Heterogeneous) (Trang 63)
Hình 4.5. Kết quả đánh giá dựa trên hàm mục tiêu (tập dữ liệu Chứng khoán) - Gom cụm chuỗi thời gian dựa theo xu hướng
Hình 4.5. Kết quả đánh giá dựa trên hàm mục tiêu (tập dữ liệu Chứng khoán) (Trang 63)
PHỤ LỤC: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH-VIỆT - Gom cụm chuỗi thời gian dựa theo xu hướng
PHỤ LỤC: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH-VIỆT (Trang 71)