Biểu diễn dữ liệu chuỗi thời gian ở mức bít và ứng dụng

Đại Học Quốc Gia Tp Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA PHẠM ĐĂNG NINH BIỂU DIỄN DỮ LIỆU CHUỖI THỜI GIAN Ở MỨC BIT VÀ ỨNG DỤNG Chuyên ngành : KHOA HỌC MÁY TÍNH LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 09 năm 2009 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học : PGS TS Dương Tuấn Anh Cán chấm nhận xét : PGS TS Đỗ Phúc Cán chấm nhận xét : TS Quản Thành Thơ Luận văn thạc sĩ bảo vệ tại: HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày tháng năm TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA CÔNG NGHỆ THÔNG TIN CỘNG HOÀ XÃ HỘI CHỦ NGHIÃ VIỆT NAM Độc Lập - Tự Do - Hạnh Phúc -oOo Tp HCM, ngày tháng năm NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: PHẠM ĐĂNG NINH … Phái: Nam……………… Ngày, tháng, năm sinh: 17 / 12 / 1984 Nơi sinh: Bà Rịa Vũng Tàu Chuyên ngành: Khoa Học Máy Tính MSHV: 00707177 1- TÊN ĐỀ TÀI: BIỂU DIỄN DỮ LIỆU CHUỖI THỜI GIAN Ở MỨC BIT VÀ ỨNG DỤNG 2- NHIỆM VỤ LUẬN VĂN: Nghiên cứu đề xuất phương pháp biểu diễn liệu chuỗi thời gian mức bit qua cải tiến phương pháp xấp xỉ gộp ký hiệu góa SAX xấp xỉ gộp ký hiệu hóa khả mục iSAX (của nhóm Keogh) dựa trình huấn luyện liệu Nghiên cứu sử dụng hai cấu trúc mục phù hợp với kiểu biểu diễn mức bit mục VA-File cấu trúc phân cấp (hierarchical tree) nhằm giải toán so trung mẫu 3- NGÀY GIAO NHIỆM VỤ : 4- NGÀY HOÀN THÀNH NHIỆM VỤ : 5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: PGS TS Dương Tuấn Anh Nội dung đề cương Luận văn thạc sĩ Hội Đồng Chuyên Ngành thông qua CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) CHỦ NHIỆM BỘ MÔN QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) KHOA QL CHUYÊN NGÀNH (Họ tên chữ ký) LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, công việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Ngày tháng năm Phạm Đăng Ninh i LỜI CẢM ƠN Tôi xin gởi lời cảm ơn chân thành sâu sắc đến PGS TS Dương Tuấn Anh, người Thầy tận tình hướng dẫn tơi suốt q trình học Cao học tạo điều kiện để hồn thành luận văn Tơi xin cảm ơn gia đình, bạn bè động viên tạo điều kiện tốt để tơi tiếp tục theo đuổi việc học tập nghiên cứu Tôi trân trọng dành tặng thành luận văn cho Cha Mẹ Nhờ công lao dưỡng dục Người mà chúng có thành ngày hôm Con xin hứa tiếp tục cố gắng phấn đấu để vươn cao ii TÓM TẮT LUẬN VĂN Biểu diễn liệu chuỗi thời gian ngày đóng vai trị quan trọng toán khai phá liệu chuỗi thời gian Với phát triển nhanh chóng chuỗi liệu thời gian với lĩnh vực ứng dụng nó, địi hỏi phải đề phương pháp biểu diễn hợp lý nhằm giải toán liên quan hiệu Đề tài đề nghị phương pháp biểu diễn liệu mức bit thơng qua q trình cải tiến phương pháp xấp xỉ gộp ký hiệu hóa SAX xấp xỉ gộp ký hiệu hóa khả mục iSAX dựa trình huấn luyện liệu Chúng tơi sử dụng hai cấu trúc mục tương thích với kiểu biểu diễn bit mục file xấp xỉ hóa vector (vector approximation file) kiến trúc phân cấp (hierarchical tree) nhằm giải toán so trùng mẫu Trong trình tìm kiếm, chúng tơi kết hợp giải thuật tìm kiếm xấp xỉ giải thuật tìm kiếm xác hai cấu trúc mục Qua thực nghiệm cho thấy, phương pháp biểu diễn hiệu so với phương pháp cũ toán so trùng mẫu iii ABSTRACT The suitable choice of representation greatly affects the ease and efficiency of time series data mining With the increasing amount of time series data in many applications, it is important to investigate a right representation for the areas that have seen the majority of research interest in time series data mining This thesis introduces a new bit level representation of time series data based on significant improvements over the current representations: Symbolic Aggregate approXimation SAX and indexable Symbolic Aggregate approXimation iSAX via a training phase To perform query by content, we build vector approximation file (VA-File) and hierarchical tree as our indexing techniques We have also provided examples of algorithms that use a combination of approximate search and exact search to reduce search space in both indexing structures We find out our representation competitive with existing approaches by experiments iv MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii TÓM TẮT LUẬN VĂN iii ABSTRACT iv MỤC LỤC v DANH MỤC HÌNH viii CHƯƠNG 1: PHÁT BIỂU VẤN ĐỀ 1.1 Dữ liệu chuỗi thời gian… 1.2 Biểu diễn chuỗi thời gian 1.3 Mục tiêu giới hạn đề tài .5 1.4 Tóm lược kết đạt 1.5 Cấu trúc luận văn…… CHƯƠNG 2: TỔNG THUẬT CÁC CƠNG TRÌNH LIÊN QUAN 10 2.1 Các cơng trình độ đo tương tự 10 2.1.1 Độ đo Minkowski…… 11 2.1.2 Độ đo xoắn thời gian động (Dynamic Time Warping - DTW) 13 2.1.3 Chuỗi chung dài (Longest Common Subsequence - LCS) 16 2.2 Các cơng trình biểu diễn chuỗi thời gian .17 2.2.1 Các phương pháp thu giảm số chiều 17 2.2.2 Các phương pháp rời rạc liệu 22 2.2.3 Các phương pháp biểu diễn liệu mức bit .26 2.3 Cấu trúc mục………… 28 2.3.1 Cấu trúc mục R-Tree 28 2.3.2 Mơ hình tổng qt tốn tìm kiếm tương tự 29 2.3.3 Yêu cầu phương pháp đánh mục .30 2.3.4 Framework GEMINI 30 CHƯƠNG 3: NHỮNG CƠ SỞ LÝ THUYẾT NỀN TẢNG 33 v 3.1 Giải thuật gom cụm k-means (hay giải thuật Lloyd) 33 3.2 Cấu trúc mục file xấp xỉ hóa vectơ (VA-File) 36 3.2.1 Cấu trúc mục VA-File 36 3.2.2 Chặn chặn khoảng cách .38 3.2.3 Giải thuật truy vấn n láng giềng gần VA-File .40 3.3 Cấu trúc mục phân cấp biểu diễn iSAX 43 3.3.1 Biểu diễn liệu phương pháp iSAX (indexable SAX) 43 3.3.2 Cấu trúc mục phân cấp .48 3.3.3 Giải thuật truy vấn chuỗi láng giềng gần (nearest neighbor) 52 CHƯƠNG 4: HỆ THỐNG BIỂU DIỄN CHUỖI THỜI GIAN VÀ ỨNG DỤNG 55 4.1 Đặt vấn đề……………… 55 4.2 Hướng giải quyết……… 56 4.2.1 Biểu diễn liệu chuỗi thời gian 56 4.2.2 Độ đo tương tự .57 4.2.3 Cấu trúc mục 58 4.3 Kiến trúc hệ thống……… 59 4.4 Hoạt động hệ thống… 62 4.4.1 Môđun huấn luyện liệu 62 4.4.2 Môđun biểu diễn liệu 68 4.4.3 Môđun so trùng mẫu 70 4.5 Kết luận………………… 74 CHƯƠNG 5: THỰC NGHIỆM 75 5.1 So sánh độ chặt chặn khoảng cách .75 5.1.1 Thực nghiệm tập liệu Koski_ECG 77 5.1.2 Thực nghiệm nhiều tập liệu khác 78 5.2 So sánh tỷ lệ thu giảm truy xuất 78 5.3 So sánh số lần truy xuất đĩa trình tìm kiếm 82 5.2.1 Thực nghiệm cấu trúc mục VA-File 83 5.2.2 Thực nghiệm cấu trúc mục phân cấp 84 vi 5.3 Kết luận………………… 85 Chương 6: KẾT LUẬN 86 6.1 Tổng kết………………… .86 6.2 Những đóng góp đề tài 87 6.3 Hướng phát triển………… 87 DANH MỤC TÀI LIỆU THAM KHẢO 89 PHỤ LỤC A: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT i PHỤ LỤC B: LÝ LNCH TRÍCH N GAN G iv vii xác mà ko bị tình trạng tìm kiếm sót Hai phương pháp biểu diễn mà đề xuất aSAX iaSAX hoàn toàn tuân thủ theo quy tắc framework GEMIN I Để thực thi trình truy vấn, xây dựng cấu trúc mục VA-File cho biểu diễn aSAX mục phân cấp cho iaSAX nhằm so sánh với biểu diễn SAX iSAX tác giả khác Do đặc thù liệu chuỗi thời gian kích thước liệu lớn, khơng thể đọc tồn tập liệu vào nhớ để thao tác, tính tốn Vì vậy, chi phí truy xuất đĩa (disk I/O) trở thành trở ngại (bottleneck) lớn tất toán liên quan đến chuỗi thời gian, đặc biệt mơ hình GEMIN I Để so sánh hiệu suất tìm kiếm, chúng tơi so sánh số lần truy xuất đĩa (number of disk I/Os access) tìm kiếm chuỗi láng giềng gần (nearest neighbor) cấu trúc mục Số lần truy xuất đĩa nhỏ trình tìm kiếm mục tốt, số lần truy xuất đĩa cao, việc tìm kiếm mục khơng hiệu Q trình tìm kiếm mục lý tưởng tìm chuỗi tương tự chuỗi truy vấn lần truy xuất đĩa Đối với hai cấu trúc mục VAFile phân cấp chúng tơi sử dụng, q trình tìm kiếm xấp xỉ cần lần truy xuất I/O Do đó, chung tơi đo đạc số số lần truy xuất đĩa q trình tìm kiếm xác Để chứng minh hai phương pháp đề xuất tốt hơn, đo đạc hai cấu trúc mục VA-File phân cấp biểu diễn iaSAX iSAX, aSAX SAX tập liệu RandomWalk Koski ECG Tập liệu RandomWalk tập liệu có xu hướng phân phối Gauss lớn tập liệu Koski ECG tập liệu có xu hướng phân phối Gauss thấp 5.2.1 Thực nghiệm cấu trúc mục VA-File Trong phần thực nghiệm này, đo đạc số lần truy xuất đĩa cấu trúc mục VA-File với tập liệu RandomWalk Koski ECG hai phương 83 pháp biểu diễn iaSAX iSAX Chúng sử dụng tập liệu [RandomWalk, Koski ECG] có chiều dài 256 điểm, biểu diễn thành [8, 16] ký tự, ký tự biểu diễn [2, 3] bits nghĩa mức phân giải [4, 8] mức Chúng thực đánh mục cho tập liệu có kích thước lên đến 1GB từ 10000 Ỉ 100000 chuỗi thực thi 100 lần truy vấn ngẫu nhiên Số lần truy xuất đĩa số trung bình 100 lần truy vấn Hình 5.5 minh họa số lần truy xuất đĩa hai tập liệu RandomWalk Koski ECG Hình 5.5 Minh họa số lần truy xuất đĩa tập liệu RandomWalk Koski ECG cấu trúc mục VAFile N hìn vào hình 5.5, nhận thấy rằng: o Số lần truy xuất đĩa phương pháp iaSAX bé so với phương pháp iSAX mục VAFile Thông số cụ thể thực nghiệm cho thấy số phương pháp iaSAX tốt so với iSAX từ 4% - 50% 5.2.2 Thực nghiệm cấu trúc mục phân cấp Trong phần thực nghiệm này, đo đạc số số lần truy xuất đĩa cấu trúc mục phân cấp tập liệu RandomWalk Koski ECG hai phương pháp biểu diễn iaSAX iSAX Chúng sử dụng tập liệu có chiều dài 256 điểm, thu giảm số chiều thành điểm, mức phân giải (base of cardinality) 4, tham số ngưỡng th = 30 Random Walk th = 100 84 Koski ECG Chỉ số số lần truy xuất đĩa số số lần truy xuất đĩa trung bình 100 lần truy vấn Hình 5.6 số số lần truy xuất đĩa tập liệu nói Hình 5.6 Minh họa số số lần truy xuất đĩa tập liệu RandomWalk Koski ECG cấu trúc mục phân cấp N hìn vào hình 5.6, nhận thấy rằng: o Số lần truy xuất đĩa phương pháp iaSAX nhỏ iSAX kích thước liệu Thơng số thực nghiệm cho thấy số iaSAX tốt iSAX khoảng 10% 5.3 Kết luận Với việc cải tiến hai phương pháp SAX iSAX thành aSAX iaSAX nói trên, chúng tơi chứng minh hai phương pháp đề tốt so với hai phương pháp cũ N hững chứng minh dựa thực nghiệm độ chặt chặn khoảng cách, tỷ lệ thu giảm truy xuất số lần truy xuất đĩa trình truy vấn 85 Chương 6: KẾT LUẬN Chương tổng kết việc làm được, đóng góp luận văn trình bày hướng mở rộng cho nghiên cứu sau 6.1 Tổng kết Luận văn trình bày nhiều phương pháp biểu diễn cách đánh mục giải thuật tìm kiếm mục Chúng tơi giải hai toán khai phá chuỗi liệu thời gian toán biểu diễn liệu tốn so trùng mẫu Hiệu suất q trình tìm kiếm cải thiện cách kết hợp phương pháp biểu diễn liệu với cấu trúc mục tương ứng Thứ toán biểu diễn chuỗi liệu, chúng tơi trình bày hai phương pháp biểu diễn aSAX iaSAX với ưu điểm cho ứng dụng khai phá chuỗi liệu thời gian N hờ vào trình huấn luyện liệu trước thực trình biểu diễn, chúng tơi tìm điểm ngắt thích hợp loại liệu thông số giải thuật tương ứng trình biểu diễn chuỗi liệu thời gian thành tràng bit Cơng thức tính chặn khoảng cách Euclid đưa dựa phương pháp cũ SAX iSAX, khác biệt tập điểm ngắt N hờ độ chặt cải thiện, góp phần thu giảm trình tìm kiếm mục Thứ hai, chúng tơi trình bày phương pháp truy vấn hai cấu trúc mục VA-File phân cấp Mỗi loại cấu trúc mục tương thích với kích thước liệu Q trình tìm kiếm cấu trúc mục chia làm hai giai đoạn: giai đoạn tìm kiếm xấp xỉ giai đoạn tìm kiếm xác Giai đoạn tìm kiếm xấp xỉ tìm tập kết gần với chi phí nhỏ nhất, tốn lần truy xuất đĩa Giai đoạn tìm kiếm xác kết hợp kết trình tìm kiếm xấp xỉ với 86 chặn khoảng cách nhằm tăng hiệu suất tìm kiếm bảo đảm khơng xảy tượng tìm kiếm sót Q trình thực nghiệm chứng tỏ phương pháp aSAX iaSAX cho kết tốt SAX iSAX độ chặt chặn khoảng cách Euclid hiệu suất tìm kiếm hai cấu trúc mục VA-File phân cấp 6.2 Những đóng góp đề tài o Đề tài trình bày phương pháp rời rạc dựa liệu thơng qua q trình huấn luyện liệu N gồi ra, q trình huấn luyện cịn chịu tác động thơng số q trình biểu diễn liệu N hờ vậy, tương ứng với loại liệu phương pháp biểu diễn, kết tốn tốt phương pháp cũ o Trình bày mơ hình đánh mục VA-File tập liệu có kích thước vừa nhỏ Sau tổng quát hóa lên mục phân cấp Quá trình truy vấn kết hợp giai đoạn tìm kiếm xấp xỉ tìm kiếm xác dựa độ chặt chặn khoảng cách o Xây dựng framework tổng quát cho tất toán khai phá chuỗi liệu thời gian 6.3 Hướng phát triển Đề tài giải hai toán khai phá chuỗi liệu thời gian, tốn biểu diễn chuỗi liệu thời gian toán đánh mục so trùng mẫu Tuy nhiên, đề tài nhiều điểm cần phải nghiên cứu để hoàn thiện Đề tài sử dụng hai tập liệu RandomWalk Koski ECG làm thực nghiệm nên không tránh khỏi nhiều thiếu sót Do cần phải kiểm thử nhiều tập liệu nhằm tăng độ xác cho kết đề tài 87 Các đề xuất mở rộng đề tài sau: ¾ Phương pháp biểu diễn liệu o Cải tiến phương pháp biểu diễn iSAX iaSAX cho tập liệu phi chuẩn (non uniform) cách thực thi đa phân giải mức phân giải ¾ Độ chặt chặn khoảng cách: o Kết hợp phương pháp PLAA [32] với tất phương pháp SAX nói chung nhằm tăng độ chặt chặn khoảng cách nâng cao hiệu suất tìm kiếm ¾ Cấu trúc mục: o Sử dụng cấu trúc mục VA-File+ [11] để đánh mục cho liệu phi chuẩn Kết hợp với giải thuật tìm kiếm mục phân cấp nhằm tăng hiệu suất tìm kiếm ¾ Ứng dụng: o Chúng xây dựng thực framework tổng quát cho toán khai phá chuỗi liệu thời gian o Ứng dụng framework vào toán chống ăn cắp quyền lĩnh vực âm nhạc 88 DANH MỤC TÀI LIỆU THAM KHẢO [1] Agrawal, R., Faloutsos, C & Swami, A (1993) Efficient similarity search in sequence databases In proceedings of the 4th Int'l Conference on Foundations of Data Organization and Algorithms Chicago, IL, Oct 13-15 pp 69-84 [2] Agrawal, R., Lin, K I., Sawhney, H S & Shim, K (1995) Fast similarity search in the presence of noise, scaling, and translation in time-series databases In proceedings of the 21st VLDB Switzerland, Sept pp 490-50 [3] Berndt, D J & Clifford, J (1996) Finding patterns in time series: a dynamic programming approach Advances in Knowledge Discovery and Data Mining AAAI/MIT Press, Menlo Park, CA pp 229-248 [4] Bagnall, A J & Janacek, G J (2004) Clustering time series from ARMA models with clipped data In Tenth International Conference on Knowledge Discovery in Data and Data Mining, pp.49–58 [5] Bagnall, A J & Janacek, G J (2005) Clustering time series with clipped data Machine Learning, 58(2):151–178 [6] Chan, K & Fu, A W (1999) Efficient time series matching by wavelets In proceedings of the 15th IEEE Int'l Conference on Data Engineering Sydney, Australia, Mar 23-26 pp 126-133 [7] Chan, K., Fu, A W & Yu, C (2003) Haar wavelets for efficient similarity search of time-series: with and without time warping IEEE Transactions on Knowledge and Data Engineering, May–June pp 686– 705 [8] Chen, Q., Chen, L., Lian, X., Liu, Y & Yu, J (2007) Indexable PLA for efficient similarity search In proceedings of the VLDB 2007 Vienna, Austria September 23-28 [9] Faloutsos, C., Jagadish, H., Mendelzon, A & Milo, T (1997) A signature technique for similarity-based queries In proceedings of the Int'l SEQUENCES Positano-Salerno, Italy, Jun 11-13 89 [10] Faloutsos, C., Ranganathan, M & Manolopoulos, Y (1994) Fast subsequence matching in time series databases In proceedings of the ACM SIGMOD Int'l Conference on Management of Data Minneapolis, MN , May 25-27 pp 419-429 [11] Ferhatosmanoglu, H., Tuncel, E., Agrawal, D & Abbadi, AE (2000) Vector Approximation based Indexing for Non-uniform High Dimensional Data Sets In proceedings of the 9th ACM Int Conf on Information and Knowledge Management Virginia, United States, pp 202209 [12] Goldin, D & Kanellakis, P (1995) On similarity queries for time-series data: constraint specification and implementation In proceedings of the 1st Int'l Conference on the Principles and Practice of Constraint Programming Cassis, France, Sept 19-22 pp 137-153 [13] Guttman, A (1984) R-trees: A dynamic index structure for spatial searching In SIGMOD ’84: Proceedings of the 1984 ACM SIGMOD International Conference on Management of Data, 1984 [14] Hetland, M L (2003) A survey of recent methods for efficient retrieval of similar time sequences In Data Mining in Time Series Databases, (M Last, A Kandel, and H Bunke, Eds.) Singapore: World Scientific [15] Kamel, I & Faloutsos, C (1993) On packing R-trees In Second Ini Conf on Information and Knowledge Management, N ovember 1993 [16] Keogh E., Lin J & Fu A (2005) HOT SAX: Efficiently Finding the Most Unusual Time Series Subsequence In Proc of the 5th IEEE International Conference on Data Mining (ICDM 2005), pp 226 - 233., Houston, Texas, N ov 27-30, 2005 [17] Keogh, E (2007) Mining shape and time series databases with symbolic representations Tutorial of the 13rd ACM Interantional Conference on Knowledge Discovery and Data Mining, August 12-15, 2007 [18] Keogh, E (2002) Exact indexing of dynamic time warping In VLDB 2002, Proceedings of 28th International Conference on Very Large Databases, 2002 90 [19] Keogh, E., Chakrabarti, K., Pazzani, M & Mehrotra, S (2000) Dimensionality reduction for fast similarity search in large time series databases Journal of Knowledge and Information Systems, pp 263-286 [20] Keogh, E., Chakrabarti, K., Pazzani, M & Mehrotra, S (2001) Locally adaptive dimensionality reduction for indexing large time series databases In proceedings of ACM SIGMOD Conference on Management of Data, May pp 151-162 [21] Keogh, E., Chu, S., Hart, D & Pazzani, M (2001) An online algorithm for segmenting time series In Proceedings of IEEE International Conference on Data Mining pp 289-296 [22] Keogh, E & Kasetty, S (2002) On the need for time series data mining benchmarks: A survey and empirical demonstration In the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining July 23 - 26, 2002 Edmonton, Alberta, Canada pp 102-111 [23] Keogh, E & Pazzani, M (1999) Scaling up dynamic time warping to massive datasets In Proceedings of the 3rd European Conference on Principles and Practice of Knowledge Discovery in Databases pp 1-11 [24] Keogh, E., & Smyth, P (1997) A probabilistic approach to fast pattern matching in time series databases In proceedings of the 3rd International Conference of Knowledge Discovery and Data Mining pp 24-20 [25] Korn, F., Jagadish, H & Faloutsos, C (1997) Efficiently supporting ad hoc queries in large datasets of time sequences In proceedings of the 1997 ACM SIGMOD International Conference on Management of Data, May 13-15, pp 289-300 [26] Lin, J., Keogh, E., Lonardi, S & Chiu, B (2003) A symbolic representation of time series, with implications for streaming algorithms In proceedings of the 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery San Diego, CA June 13 [27] Lkhagva, B., Suzuki, Y & Kawagoe, K (2006) Extended SAX: Extension of symbolic aggregate approximation for financial time series data representation In proc of Data Engineering Workshop, 2006 91 [28] Lloyd., S P (1982) Least squares quantization in PCM In IEEE Transactions on Information Theory, pp 129–137 [29] MacQueen, J B (1967) Some Methods for classification and Analysis of Multivariate Observations In Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability, pp 281–297 [30] Megalooikonomou, V., Wang, Q., Li, G., Faloutsos, C (2005) A multiresolution symbolic representation of time series In proceedings of the 21st International Conference on Data Engineering, April 5-8, pp 668-679 [31] Muller, W & Henrich, A (2004) Reducing I/O Cost of Similarity Queries by Processing Several at a Time In proc of Computer Vision and Pattern Recognition Workshop, 27-02 June pp 142 – 142 [32] N guyen Quoc Viet Hung Nhận dạng mẫu đáng quan tâm tập liệu chuỗi thời gian Luận văn thạc sĩ, Khoa Khoa Học Kỹ Thuật Máy Tính, Đại Học Bách Khoa Tp Hồ Chí Minh [33] Park, S., Chu, W W., Yoon, J & Hsu, C (2000) Efficient searches for similar subsequences of different lengths in sequence databases In proceedings of the 16th Int'l Conference on Data Engineering San Diego, CA, pp 23-32 [34] Panuccio, A., Bicego, M and Murino, V (2002) A hidden Markov model-based approach to sequential data clustering In T Caelli, A Amin, R P W Duin, M S Kamel, and D de Ridder, editors, Proceedings Joint IAPR International Workshops Structural, Syntactic, and Statistical Pattern Recognition, pages 734–742 Springer, 2002 [35] Popivanov, I and Miller, R (2002) Similarity search over time series data using wavelets In proceedings of the 18th International Conference on Data Engineering (ICDE 2002), 26 February - March, 2002, pp 212221 [36] Rafiei, D & Mendelzon, A (1997) Similarity-based queries for time series data In Proc of the ACM SIGMOD Conf., Tucson, AZ, May 1997 [37] Ratanamahatana, C A., Keogh, E., Bagnall, T & Lonardi, S (2005) A novel bit level time series representation with implications for similarity search and clustering In proc of PAKDD, VietN am, 2005 92 [38] Roussopoulos, N , Kelley, S & Vincent, F (1995) Nearest neighbor queries In Proc of the ACM SIGMOD Conf., pp 71-79 [39] Sakoe, H & Chiba, S (1978) Dynamic programming algorithm optimization for spoken word recognition IEEE Trans Acoustics, Speech, and Signal Proc., Vol ASSP-26 [40] Shieh, J & Keogh, E (2008) iSAX: Indexing and mining terabyte sized time series In proc of SIGKDD 2008 [41] Smyth, P (1997) Clustering sequences with hidden Markov models In M C Mozer, M I Jordan, and T Petsche, editors, Advances in Neural Information Processing Systems, volume 9, p 648 MIT Press, 1997 [42] Weber R., Schek H.-J & Blott S (1998) A Quantitative Analysis and Performance Study for Similarity-Search Methods in HighDimensional Spaces In proc of the 24rd International Conference on Very Large Data Bases, pp 194 – 205 [43] Yi, B., Jagadish, H & Faloutsos, C (1998) Efficient retrieval of similar time sequences under time warping In proceedings of the 14th Int'l Conference on Data Engineering Orlando, FL, Feb 23-27 pp 201-20 [44] Yi, B & Faloutsos, C (2000) Fast time sequence indexing for arbitrary Lp norms In proceedings of the 26th Int'l Conference on Very Large Databases Cairo, Egypt, Sept 10-14 pp 385-394 93 PHỤ LỤC A: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt Adaptive piecewise constant approximation Adaptive Symbolic Aggregate approXimation Ad hoc query Approximate searching Autogressive moving average model Amplitude scale Base line Breakpoint Classification Clipped data Clustering Categorization Codebook Codeword Data adaptive Data dictated Data normalization Deletion Dimensionality reduction Discrete Fourier transform Discrete Wavelet transform Discretizeation Dynamic time warping Equal Length Interval Extended SAX Feature Finding motif Indexable SAX Indexable adaptive Symbolic Aggregate approXimation Indexing Xấp xỉ hàng số đoạn thích APCA nghi Xấp xỉ gộp ký hiệu hóa thích nghi aSAX Truy vấn ngẫu nhiên Tìm kiếm xấp xỉ Mơ hình ARMA Co giãn biên độ Đường Điểm ngắt Phân loại Xén liệu Gom cụm Phân loại liệu Sách mã Từ mã Thích nghi liệu Điều khiển liệu ChuNn hóa liệu Xóa node Thu giảm số chiều Phép biến đổi Fourier rời rạc Phép biến đổi Wavelet rời rạc Rời rạc hóa Xoắn thời gian động Khoảng cách phân loại Phương pháp SAX mở rộng Đặc điểm Tìm mẫu lặp Phương pháp SAX khả mục Xấp xỉ gộp ký hiệu hóa thích nghi khả mục Lập mục Viết tắt ARMA DFT DWT DTW iSAX iaSAX i Insertion Internal node Hidden Markov model Hierarchical tree Longest common subsequence Lower bound Transform matrix Maximum-Entropy Minimum bounding rectangles Minimum-Cut Min-Max normalization Moving average Multiresolution N eighborhood N on data adaptive N ovelty detection Overlapping region Percentage of disk I/Os Piecewise aggregate approximation Piecewise linear approximation Piecewise Prediction Query data processing Representation of data Rule discovery Segment Shifting Similarity search Similarity measure Singular value decomposition Sliding window Subsequence Subsequence matching Subtrail Sufix tree Symbolic aggregate approXimation Terminal node Text mining Time series Chèn node N ode Mô hình Markov Nn Cây phân cấp Chuỗi chung dài Chặn Ma trận chuyển đổi Độ hỗn độn thơng tin lớn Hình chữ nhật bao đóng nhỏ N hát cắt nhỏ ChuNn hóa nhỏ – lớn Trung bình di chuyển Đa phân giải N hóm liền kề Khơng thích nghi liệu Phát điểm bất thường Vùng phủ lấp Tỉ lệ phần trăm số lần truy xuất đĩa Xấp xỉ gộp đoạn Xấp xỉ tuyến tính đoạn Dự báo liệu Truy vấn liệu Biểu diễn liệu Tìm quy luật liệu Phân đoạn liệu Tịnh tiến Tìm kiếm tương tự Độ đo tương tự Phân rã giá trị riêng Cửa sổ trượt Chuỗi So trùng chuỗi Vết Cây hậu tố Xấp xỉ gộp ký hiệu hóa HMM LCSS MBR PAA PLA SVD SAX N ode Khai phá liệu văn Chuỗi thời gian ii Time warping Trail Upper bound Vector quantization Window warping Zero-Mean normalization Xoắn thời gian Vết Chặn Vec-tơ lượng tử Cửa sổ xoắn ChuNn hóa trung bình zero iii PHỤ LỤC B: LÝ LNCH TRÍCH NGANG Họ tên: Phạm Đăng N inh N gày, tháng, năm sinh: 17 – 12 – 1984 N sinh: Bà Rịa Vũng Tàu Địa liên lạc: Phòng 009, CC 601/48, Cách Mạng Tháng Tám, Phường 15, Quận 10, Thành phố Hồ Chí Minh Số điện thoại: 098 824 1489 QUÁ TRÌNH ĐÀO TẠO N ăm 2002 – 2007: Sinh viên Đại học trường ĐH Bách Khoa Tp HCM, Khoa Công N ghệ Thông Tin N ăm 2007 – nay: Học viên Cao học trường ĐH Bách Khoa Tp HCM, Khoa Khoa Học Máy Tính Q TRÌNH CƠNG TÁC 2007 – nay: Lập trình viên cơng ty Content Interface Corp Phòng 1.2, Lầu 1, Tòa nhà eTown.ew, 364 Cộng Hòa, Quận Tân Bình, Tp Hồ Chí Minh iv ... PHÁT BIỂU VẤN ĐỀ 1.1 Dữ liệu chuỗi thời gian Dữ liệu chuỗi thời gian hay chuỗi thời gian thường xuất nhiều ứng dụng cụ thể cơng trình nghiên cứu… Để dễ dàng tìm hiểu, cần đưa định nghĩa cụ thể chuỗi. .. trình truy vấn liệu Sau khảo sát phương pháp biểu diễn liệu chuỗi thời gian với cấu trúc mục tương ứng với cách biểu diễn, đề xuất cách tiếp cận toán biểu diễn chuỗi liệu thời gian mức bit theo... chuỗi thời gian Chuỗi thời gian (time series) tập hợp quan sát theo thời gian Dữ liệu có hai hay nhiều chiều phải có chiều chiều thời gian Có nhiều liệu có yếu tố thời gian liệu giá chứng khoán,

Định dạng
Số trang	110
Dung lượng	1,74 MB