Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 79 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
79
Dung lượng
1,56 MB
Nội dung
Đại Học Quốc Gia Tp Hồ Chí Minh TRƢỜNG ĐẠI HỌC BÁCH KHOA VÕ TUỆ LINH CẤU TRÖC CHỈ MỤC CHO DỮ LIỆU CHUỖI THỜI GIAN VỚI ĐỘ ĐO KHOẢNG CÁCH XOẮN THỜI GIAN ĐỘNG Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 00708198 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 07 năm 2012 CƠNG TRÌNH ĐƢỢC HOÀN THÀNH TẠI TRƢỜNG ĐẠI HỌC BÁCH KHOA - ĐHQG - HCM Cán hƣớng dẫn khoa học : PGS TS Dƣơng Tuấn Anh Cán chấm nhận xét : PGS TS Lê Hoài Bắc Cán chấm nhận xét : TS Võ Thị Ngọc Châu Luận văn thạc sĩ đƣợc bảo vệ Trƣờng Đại học Bách Khoa, ĐHQG Tp HCM ngày 18 tháng 07 năm 2012 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: \ TS Bùi Hoài Thắng PGS TS Lê Hoài Bắc TS Võ Thị Ngọc Châu PGS TS Dƣơng Tuấn Anh TS Lê Thanh Vân Xác nhận Chủ tịch Hội đồng đánh giá LV Trƣởng Khoa quản lý chuyên ngành sau luận văn đƣợc sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƢỞNG KHOA………… ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÕA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƢỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: VÕ TUỆ LINH MSHV: 00708198 Ngày, tháng, năm sinh: 05/09/1984 Nơi sinh: Tiền Giang Chuyên ngành: Khoa học máy tính Mã số : I TÊN ĐỀ TÀI: CẤU TRÚC CHỈ MỤC CHO DỮ LIỆU CHUỖI THỜI GIAN VỚI ĐỘ ĐO KHOẢNG CÁCH XOẮN THỜI GIAN ĐỘNG II NHIỆM VỤ VÀ NỘI DUNG: Nghiên cứu so sánh hiệu hai cấu trúc mục: cấu trúc mục R-Tree cấu trúc mục dựa lƣới áp dụng vào giải thuật tìm kiếm chuỗi tƣơng đồng liệu chuỗi thời gian III NGÀY GIAO NHIỆM VỤ : IV NGÀY HOÀN THÀNH NHIỆM VỤ: V CÁN BỘ HƢỚNG DẪN : PGS TS Dƣơng Tuấn Anh Tp HCM, ngày tháng năm 20 CÁN BỘ HƢỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên chữ ký) (Họ tên chữ ký) TRƢỞNG KHOA….……… (Họ tên chữ ký) i LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành sâu sắc đến PGS TS Dƣơng Tuấn Anh, ngƣời thầy tận tình hƣớng dẫn tơi suốt q trình học Cao học tạo điều kiện để tơi hồn thành luận văn Tơi xin cảm ơn gia đình, bạn bè động viên tạo điều kiện tốt để tơi tiếp tục theo đuổi việc học tập nghiên cứu Tôi trân trọng dành tặng thành luận văn cho chồng tơi Nhờ động viên anh, mà tơi vƣợt qua khó khăn để có đƣợc thành nhƣ ngày hơm ii TĨM TẮT LUẬN VĂN Biểu diễn liệu chuỗi thời gian ngày đóng vai trị quan trọng tốn khai phá liệu chuỗi thời gian Một toán khai phá liệu chuỗi thời gian tốn tìm kiếm tƣơng tự Bài tốn tìm kiếm tƣơng tự sở liệu chuỗi thời gian toán thú vị đầy thử thách Bởi chất số chiều cao liệu, hầu hết lời giải đƣợc đƣa thu giảm số chiều, xây dựng cấu trúc mục nhiều chiều cho liệu thu giảm Hầu hết giải thuật đƣợc sử dụng để đánh mục cho chuỗi thời gian sử dụng độ đo khoảng cách Euclid, nhƣng độ đo Euclid thơ khơng xác Điều cần phép đo cho phép phép dịch mềm dẻo hệ trục tọa độ Đó độ đo khoảng cách xoắn thời gian động Bởi mềm dẻo độ đo xoắn thời gian động, đƣợc sử dụng rộng rãi khoa học, y khoa, cơng nghiệp tài Đề tài tìm hiểu cấu trúc mục cho liệu chuỗi thời gian với độ đo xoắn thời gian động(DTW) Thông qua hai cấu trúc mục R-Tree cấu trúc mục dựa lƣới, so sánh hiệu hai cấu trúc mục giải tốn tìm K láng giềng gần với độ đo xoắn thời gian động iii ABSTRACT The representation of time series plays more and more important role in time series data mining problems One of problems relating to time series data mining is Similarity Search Similarity search in large time series databases is an interesting and challenging problem Because of the high dimensional nature of the data, the difficulties associated with dimensionality curse arise The most promising solution is to use dimensionality reduction, and construct a multi-dimensional index structure for the reduced data Most algorithms used to index time series utilize the Euclidean distance or some variation thereof However, it has been forcefully shown that the Euclidean distance is a very brittle distance measure What is needed is a method that allows an elastic shifting of the time axis It is Dynamic Time Warping(DTW) Because of this flexiblility, DTW is widely used in science, medicine, industry and finance This thesis researchs about indexing for time series using Dynamic Time Warping (DTW) With R-Tree and grid-based indexing, we compare the efficiency of these methods in KNN Search using dynamic time warping iv LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác nhƣ ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chƣa có phần nội dung luận văn đƣợc nộp để lấy cấp trƣờng trƣờng khác Ngày……….tháng…………năm………… Võ Tuệ Linh v MỤC LỤC LỜI CẢM ƠN i TÓM TẮT LUẬN VĂN ii ABSTRACT iii MỤC LỤC v DANH MỤC HÌNH vii DANH MỤC BẢNG ix Chƣơng 1: Giới thiệu 1.1 Dữ liệu chuỗi thời gian 1.2 Cấu trúc mục cho liệu chuỗi thời gian với độ đo xoắn thời gian động 1.3 Mục tiêu nghiên cứu 1.4 Kết đạt đƣợc 1.5 Cấu trúc đề cƣơng luận văn Chƣơng 2: Tổng thuật cơng trình liên quan 2.1 Các cơng trình độ đo tƣơng tự 2.1.1 Độ đo Minkowski 2.1.2 Phƣơng pháp chuỗi chung dài (Longest Common Subsequence – LCS) 2.1.3 Độ đo khoảng cách xoắn thời gian động 10 2.2 Các cấu trúc mục cho liệu chuỗi thời gian 12 2.2.1 Cấu trúc mục hậu tố 12 2.2.2 Cấu trúc mục R-tree 13 2.2.3 Khung thức GEMINI (GEneric Multimedia INdexIng) 13 2.3 Đánh mục xác cho độ đo khoảng cách xoắn thời gian động 14 2.3.1 Chặn dƣới cho DTW 15 vi 2.3.2 Đánh mục cho DTW sử dụng LB_Keogh 21 Chƣơng 3: Cơ sở lý thuyết 30 3.1 Cấu trúc mục R-Tree 30 3.1.1 Giới thiệu R-Tree 30 3.1.2 Cấu trúc mục R-Tree 31 3.1.3 Tìm kiếm cập nhật 32 3.2 Cấu trúc mục dựa lƣới 38 3.2.1 Tổng quát cách tiếp cận 38 3.2.2 Biểu diễn liệu 40 3.3 Tìm kiếm K láng giềng gần DTW 48 Chƣơng 4: Hiện thực thử nghiệm 51 4.1 Hiện thực 51 4.1.1 Giao diện ngƣời dùng 51 4.1.2 Kiến trúc chƣơng trình 53 4.2 Thử nghiệm 54 Chƣơng 5: Kết luận hƣớng phát triển 59 5.1 Kết luận 59 5.2 Hƣớng phát triển 59 Tài liệu tham khảo 60 PHỤ LỤC A: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH-VIỆT………………….A1 PHỤ LỤC B: LÝ LỊCH TRÍCH NGANG……………………………………….A3 vii DANH MỤC HÌNH Hình 1.1: Chuỗi thời gian giá trị cổ phiểu Microsoft từ 29/11/2001 tới 29/11/2002 Hình 1.2: Một so sánh trực quan khoảng cách Euclid DTW ([21]) Hình 1.3: Biểu đồ tập liệu thực tế: Shuttle Koski_ecg ( [21]) Hình 2.1: Trƣờng hợp chuỗi có đƣờng lệch biên độ dao động khác ([15]) Hình 2.2: A) Hai chuỗi thời gian tƣơng đồng Q C nhƣng lệch pha B) Để đo khoảng cách chuỗi thời gian, xây dựng ma trận xoắn thời gian động tìm kiếm cho đƣờng xoắn thời gian động tối ƣu nhất, đƣợc trình bày hình vng đậm C) Kết phép đo ( [7]) 11 Hình 2.3: Cây hậu tố cho chuỗi S1=babab, S2=aab, S3=baa ([32]) 13 Hình 2.4: Minh họa cấu trúc R-tree cho liệu không gian([1]) 14 Hình 2.5: Phƣơng pháp đo chặn dƣới đƣợc đƣa Kim ([7]) 17 Hình 2.6: Chặn dƣới đƣợc đƣa Yi ([7]) 17 Hình 2.7: Ràng buộc tồn cục hạn chế phạm vụ đƣờng xoắn, hạn chế chúng khỏi khu vực màu xám Hai ràng buộc phổ biến nhất: Sakoe-Chiba Itakura ([7]) 18 Hình 2.8: Ví dụ ràng buộc cục (nguồn [11]) 19 Hình 2.9: Một minh họa cho chuỗi U L đƣợc tạo cho chuỗi Q A đƣợc tạo sử dụng dải Sakoe-Chiba B sử dụng dải Itakura (nguồn [7]) 20 Hình 2.10: Một minh họa hàm tính chặn dƣới LB_Keogh(Q,C) ([7]) 21 Hình 2.11: Biểu diễn PAA cho chuỗi chiều dài 256 thu giảm tới 16 chiều ([7]) 23 ^ ^ Hình 2.12: Chúng tơi minh họa U L nhƣ hàm số, mà khơng có giao U L([7]) 24 Hình 2.13: A)Một biểu diễn MBR B) Một tập truy vấn C) Một minh họa hàm MINDIST ([7]) 25 Hình 3.1a: Cấu trúc R Tree ([1]) 32 Hình 3.1b: Quan hệ che phủ hình chữ nhật ([1]) 33 Hình 3.2: Minh họa việc tách nút ([1]) 37 53 4.1.2 Kiến trúc chƣơng trình Hình 4.3 mơ tả trực quan kiến trúc chƣơng trình: Input R-tree grid Normalization.cs Chuẩn hóa ConstructingDDRIn dexFile.cs RTree.cs Cấu trúc mục rtree PAAIndex.cs Cấu trúc mục dựa lƣới GridBasedAlgorith m.cs K láng giềng gần Output K láng giềng gần Output Hình 4.3: Kiến trúc chƣơng trình Normalization.cs: Module thực phƣơng pháp chuẩn hóa liệu min-max Việc chuẩn hóa liệu đƣợc sử dụng việc xây dựng file mục dựa lƣới ConstructingDDRIndexFile.cs: Module thực giải thuật xây dựng file mục dựa lƣới Giải thuật đƣợc thực giải thuật bảng 3.1 54 GridBasedAlgorithm.cs: Module thực giải thuật bảng 3.4 Đây giải thuật tìm kiếm K láng giềng gần sử dụng cấu trúc mục dựa lƣới Rtree.cs: Module thực cấu trúc mục R-Tree PAAIndex.cs: Module thực giải thuật tìm kiếm K láng giềng gần sử dụng độ đo chặn dƣới Keogh cấu trúc mục R-Tree Đây giải thuật bảng 2.3 Ngồi có module đƣợc sử dụng xuyên suốt chƣơng trình, module dùng để tính khoảng cách nhƣ khoảng cách Euclide, khoảng cách xoắn thời gian động: Distance.cs: Module thực giải thuật tính khoảng cách, độ đo chặn dƣới độ đo chặn nhƣ khoảng cách Euclide khoảng cách xoắn thời gian động 4.2 Thử nghiệm Chƣơng trình đƣợc thử nghiệm hệ điều hành Windows – 64 bit, máy có cấu hình core i3 CPU, 4G RAM Đánh mục DTW việc sử dụng cấu trúc mục nhƣ R-Tree đƣợc chia thành hai bƣớc: (1) Chúng thực thu giảm số chiều liệu sau đánh mục miền đƣợc thu giảm với cấu trúc Một tập ứng cử viên đƣợc chọn lọc việc duyệt mục từ gốc Ở bƣớc này, cấu trúc mục có khả cắt tỉa cao, hầu hết nút bị bỏ qua số lần truy xuất đĩa nhiều truy xuất (2) Khoảng cách xác ứng cử viên liệu truy vấn đƣợc tính tốn việc truy xuất file liệu Nếu kích thƣớc tập ứng cử viên lớn, số lần truy xuất gia tăng Để giảm kích thƣớc tập ứng cử viên, chặn dƣới cần thiết Tuy nhiên, liên quan tới việc gia tăng số phân đoạn, nhƣ số chiều tăng cấu trúc mục đa chiều Do cấu trúc mục tính hiệu 55 khơng gian có số chiều cao Số lần truy xuất đĩa bƣớc gia tăng lớn Có xem xét bƣớc (1) (2) Chặn dƣới tiêu chuẩn quan trọng để đánh giá phƣơng pháp thu giảm số chiều Chúng định nghĩa độ chặt chặn dƣới cơng thức dƣới đây: Hình 5.1 biểu diễn kết thực nghiệm độ chặt chặn dƣới Keogh_PAA LB_Grid LB_Grid có chặn dƣới chặt chẽ Keogh_PAA Đây đóng góp quan trọng nghiên cứu Chúng sử dụng tập liệu để so sánh thực nghiệm hiệu kỹ thuật Grid so với phƣơng pháp Keogh_PAA với độ đo khoảng cách xoắn thời gian động Tập liệu “Income” có 25 chuỗi thời gian, chuỗi có chiều dài 72 Tập liệu đƣợc lấy từ liệu Keogh trƣờng Đại học Riverside (The University of Riverside) Tập liệu thứ ba “GDP” có chuỗi thời gian, chuỗi có chiều dài 35 Tập liệu thứ hai đƣợc lấy từ http://www.stat.duke.edu/~mw/data-sets/ts_data/gdp Và tập liệu thứ Inflation có 50 chuỗi thời gian, chuỗi có chiều dài 27 Tập liệu thứ ba đƣợc lấy từ http://www.economicswebinstitute.org/glossary/inflat.htm#data Tập liệu cuối power data có chiều dài 34920, đƣợc lấy từ liệu Keogh trƣờng đại học Riverside Các truy vấn láng giềng gần đƣợc kiểm tra Chuỗi truy vấn đƣợc chọn ngẫu nhiên từ tập liệu Hình 5.2 biểu diễn số lần truy xuất đĩa Chúng tơi giả sử kích thƣớc trang 8KB Keogh_PAA đƣợc kiểm tra cấu trúc mục R-Tree với khơng gian mục chiều Bảng 5.1 trình bày kết thực nghiệm: Chúng tơi quan sát số lần truy xuất đĩa phƣơng pháp Grid cao Keogh_PAA (hình 5.1) điều kiện tinh lọc giải thuật bảng 3.4 không phát huy đƣợc tác dụng Về phƣơng diện độ chặt chặn dƣới đơi Grid tốt Keogh_PAA, đơi Grid khơng tốt nhƣ Keogh_PAA (hình 5.2) Qua nhận thấy đƣợc tầm quan trọng thực nghiệm Thực nghiệm 56 nhiều giúp đƣa kết luận xác Hiện với thực nghiệm, chúng tơi chƣa thể kết luận đƣợc Grid hay Keogh_PAA tốt Điều cần làm tiến hành thêm nhiều thực nghiệm, để xác định đƣợc đƣợc phƣơng pháp thích hợp cho tập liệu loại Bảng 5.1: Kết thực nghiệm tập liệu: Income, GDP, Inflation Power Data Dataset Income GDP Inflation Power Data Warping Width 5 5 # of page accesses Grid 24 24 24 24 8 8 46 46 46 46 96 96 96 96 Keogh_PAA 22 22 22 22 7 7 14 14 14 14 46 46 48 48 Tightness Lower Bound Grid Keogh_PAA 0.45 0.103 0.45 0.95 0.45 0.45 0.803 0.74 0.803 0.55 0.803 0.38 0.803 0.307 0.45 0.57 0.45 0.41 0.45 0.387 0.45 0.385 0.91 0.52 0.91 0.52 0.91 0.52 0.91 0.52 Mặc dù qua thực nghiệm, kết luận đƣợc Grid có tốt Keogh_PAA hay khơng, nhƣng khía cạnh đó, phƣơng diện tính dễ hiểu dễ thực Grid dễ hiểu hơn, dễ thực nhiều so với Keogh_PAA Để thực cấu trúc mục dựa lƣới, chủ yếu cần danh sách Tuy nhiên để thực Keogh_PAA, địi hỏi phải thực cấu trúc R-Tree 57 Hình 5.1: Độ chặt chặn dƣới 58 Hình 5.2:Số lần truy xuất đĩa 59 Chƣơng 5: Kết luận hƣớng phát triển 5.1 Kết luận Trong nghiên cứu này, chúng tơi đã: Tìm hiểu thực nghiệm phƣơng pháp đánh mục dựa vào cấu trúc lƣới cho chuỗi thời gian sử dụng độ đo khoảng cách xoắn thời gian động Chúng đƣa phƣơng pháp thu giảm số chiều dựa lƣới Gần nhƣ tất phƣơng pháp thu giảm số chiều cho chuỗi thời gian, có số phân đoạn đƣợc đƣa nhƣ thông số Trái lại, kỹ thuật Grid sử dụng số phân đoạn khác Tìm hiểu thực nghiệm cấu trúc mục R-Tree, sử dụng R-Tree để thực giải thuật tìm kiếm K láng giềng gần Thông qua số thực nghiệm, chƣa thể kết luận đƣợc Grid hay R-Tree tốt hơn, số tập liệu, Grid cho kết tốt hơn, nhƣng số tập liệu khác, Keogh_PAA lại cho kết tốt Grid 5.2 Hƣớng phát triển Tiến hành nhiều thực nghiệm nữa, để tìm cách tổng qt hóa tốn, tập liệu loại ta nên sử dụng Grid, tập liệu loại nên sử dụng phƣơng pháp Keogh_PAA Trong tƣơng lai chúng tơi xem xét ứng dụng cấu trúc mục dựa dƣới cho nhiều toán khai phá liệu chuỗi thời gian bao gồm phát bất thƣờng phát motif 60 Tài liệu tham khảo [1] A Guttman (1984) R-tree: A dynamic index structure for spatial searching In SIGMOD '84, Proceedings of 20th International Conference on Very Large Data Bases Morgan Kaufmann [2] B K Yi, and C Faloutsos: Fast time sequence indexing for arbitrary lp norms Proceedings of 26th International Conference on Very Large Data Bases (2000) 385-394 [3] B K Yi, H V Jagadish, and C Faloutsos: Efficient retrieval of similar time sequences under time warping ICDE2000 201-208 [4] C Faloutsos, A.M Ranganathan, and Y Manolopoulos (1994) Fast Subsequence Matching in Time-Series Databases Proc ACM-SIGMOD Conf., pp 419-429, May 1994 [5] C Shahabi, X Tian, and W Zhao (2000) Tsa-tree: A wavelet-based approach to improve the efficiency of multi-level surprise and trend queries In Proc 12th International Conference on Scientific and Statistical Database Management [6] D Berndt and J Clifford (1994) Using dynamic time warping to find patterns in time series In proceedings of AAAI Workshop on Knowledge Discovery in Databases, KDD-94, Seattle, Washington, USA, pp 359-370 [7] E Keogh, and C Ratanamahatana (2005) Exact indexing of dynamic time warping Proceedings of 28th International Conference on Very Large Data Bases (2002) 406-417 [8] E Keogh and M J Pazzani: A simple dimensionality reduction technique for fast similarity search in large time series databases Proceedings of the 61 Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD'00) (2000) 122-133 [9] E Keogh, J Lin and A Fu (2005) HOT SAX: Efficiently Finding the Most Unusual Time Series Subsequence In Proc of the 5th IEEE International Conference on Data Mining (ICDM 2005), pp 226 - 233, Houston, Texas, Nov 27-30, 2005 [10] E Keogh, K Chakrabarti, M Pazzani and S Mehrotra (2001) Dimensionality reduction for fast similarity search in large time series databases, Journal of Knowledge and Information Systems, Vol 3, No 3, 2000, pp 263-286 [11] E Keogh, K Chakrabarti, M Pazzani and S Mehrotra (2001) Locally adaptive dimensionality reduction for indexing large time series databases In proceedings of the 2001 ACM SIGMOD Conference on Management of Data, May 21-24, 2001, pp 151-162 [12] E Keogh, K Chakrabarti, M.J Pazzani and S Mehrotra (2001) Dimensionality Reduction for Fast Similarity Search in Large Time Series Databases KAIS 3(3), 263–286 [13] E Keogh, S Lonardi, and W Chiu (2002) Finding Surprising Patterns in a Time Series Database In Linear Time and Space In the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining July 23 26, 2002 Edmonton, Alberta, Canada pp 550-556 [14] E Keogh and T Folias: The UCR Time Series Data Mining Archive [http://www.cs.ucr.edu/~eamonn/TSDMA/index.html] Riverside CA University of California - Computer Science & Engineering Department (2002) [15] E Keogh (2007) Mining shape and time series databases with symbolic representations Tutorial of the 13rd ACM Interantional Conference on Knowledge Discovery and Data Mining, August 12-15, 2007 62 [16] E Ouatik, A Elkharraz, I Daoudi, D Aboutajdine (2007) Vector Approximation based Indexing for High-Dimensional Multimedia Databases Information and Communication Technologies International Symposium, ICTIS’07, Fes, Morocco, 2007 [17] H Chen, J An, K Furuse, and N Ohbo C2VA:trim high dimensional indexes In Proc WAIM2002, pages 303–315, 2002 [18] J An, H Chen, K Furuse, N Ohbo and E Keogh: Grid-Based Indexing for Large Time Series Databases Intelligent Data Engineering and Automated Learning, 4th International Conference (2003) 614-621 [19] J An, H Chen, K Furuse, M Ishikawa, and N Ohbo The convex polyhedra technique: An index strucrture for high-dimensional space In Proc of the 13th Australasian Database Conference, pages 33–40, 2002 [20] J An, H Chen, K Furuse, M Ishikawa, and N Ohbo A vector-wise dimensionality reduction for indexing high dimensional data In Proc of Pan-Yellw-Sea International Workshop on Information Technologies for Network Era, pages 135– 142, 2002 [21] J An, C Yi-Ping, E Keogh A grid-based index method for Time Warping Distance In Proc WAIM 2004, LNCS 3129, pp 65 – 75, 2004 [22] J An Index method based on dimensional reduction In Doctoral Program in Engineering University of Tsukuba 2003, Chapter 4, pp 48-71 [23] K Chan & A W Fu (1999) Efficient Time Series Matching by Wavelets In proceedings of the 15th IEEE Int'l Conference on Data Engineering Sydney, Australia, Mar 23-26 pp 126-133 [24] K Chakrabarti, and S Mehrotra: Locally dimensionality reduction: A new approach to indexing high dimensional spaces Proceedings of 26th International Conference on Very Large Data Bases (2000) 151-162 63 [25] M Vlachos, D Gunopulos, G Das (2004) Indexing Time Series under Condition of Noise In M Last, A Kandel & H Bunke (Eds.), Data Mining in Time Series Databases, World Scientific Publishing [26] M Vlachos, M Hadjieleftheriou, D Gunopulos, and E Keogh: Indexing MultiDimensional Time-Series with Support for Multiple Distance Measures In the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining August 24 - 27, 2003 Washington, DC, USA (2003) pp 216-225 [27] Mai Thai Son, Duong Tuan Anh (2010) Some Novel Heuristics for Finding the Most Unusual Time Series Subsequences In Advances in Intelligent Information and Database Systems, Ngoc Thanh Nguyen, R Katarzyniak, S.M Chen (Eds.), Studies in Computational Intelligence, No 283, Springer-Verlag, pp 229-240 [28] N Beckmann, P.H Kriegel, R Schneider, B Seeger: The R*-tree: an efficient and robust access method for points and rectangles Proceedings of the 1990 ACM SIGMOD International Conference on Management of Data (1990) 322331 [29] N Katayama, and S Satoh: The SR-tree: An index structure for highdimensional nearest neighbour queries Proceedings of the 1997 ACM SIGMOD International Conference on Management of Data (1997) 369-380 [30] R Agrawal, C Faloutsos, A Swami.: Efficient similarity search in sequence databases Proceeding of 4th conference on FODO (1993) 69–84 [31] R Weber, H J Schek, and S Blott A quantitative analysis and performance study for similarity-search methods in high-dimensional spaces In Proceedings of 24th International Conference on Very Large Data Bases, pages 194–205, 1998 64 [32] S Park, W.W Chu, J Yoon, and C Hsu (2000) Efficient Searches for Similar Subsequences of Different Lengths in Sequence Databases Proc Int'l Conf [33] T Seidl and H P Kriegel: Optimal multi-step k-nearest neighbour queries Proceedings of the 1997 ACM SIGMOD International Conference on Management of Data (1998) 154-165 [34] Y Zhu, and D Shasha: Warping Indexes with Envelope Transforms for Query by Humming Proceedings of the 2003 ACM SIGMOD International Conference on Management of Data (2003) 181-192 [35] Faloutsos C, and Lin K: A fast algorithm for indexing, data-mining vand visualization of traditional and multimedia SIGMOD conference, pp 163-174 (1995) A1 PHỤ LỤC A: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt Viết tắt Amplitude scale Approximate search Augmented trie Base cardinality Base line Brand-and-bound search Breakpoint Categorization Classification Clipped data Clustering Continuity Data adaptive Data dictated Data normalization Datawise Dimensonality Reduction Deletion Deviation Dimensionality reduction Discord Discrete Fourier transform Discretizeation Distance Dynamic time warping Feature Filter Grid-based Hierarchical tree Indexing Insertion Internal Node Longest common subsequence Lower bound Minimum bounding rectangles Minimum-Cut Monotonicity Co giãn biên độ Tìm kiếm xấp xỉ Cây gia tố Lƣợng số Đƣờng Tìm kiếm nhánh cận Điểm ngắt Phân loại liệu Phân loại Xén liệu Gom cụm Tính liên tục Thích nghi liệu Điều khiển liệu Chuẩn hóa liệu Thu giảm số chiều theo liệu DDR Xóa nút Độ lệch Thu giảm số chiều Chuỗi bất đồng Phép biến đổi Fourier rời rạc DFT Rời rạc hóa Khoảng cách Xoắn thời gian động DTW Đặc trƣng Tinh lọc Dựa lƣới Cây phân cấp Lập mục Chèn nút Nút trung gian Chuỗi chung dài LCSS Chặn dƣới Hình chữ nhật bao đóng nhỏ MBR Nhát cắt nhỏ Tính đơn điệu A2 Neighborhood Non data adaptive Non-self match Normal behavior Novel behavior Novelty detection Overlapping region Piecewise aggregate approximation Piecewise linear approximation Query data processing Refinement Representation of data Root Node Segment Shifting Similarity measure Similarity search Sliding window Split policy Subsequence Subsequence matching Sufix tree Summarization Surprising behavior Symbolic Aggregate Approximation Terminal Node The most unusual subsequence Time series Time warping Trail Upper bound Warping window Word Nhóm liền kề Khơng thích nghi liệu So trùng khơng tầm thƣờng Hành vi bình thƣờng Hành vi lạ thƣờng Phát điểm bất thƣờng Vùng phủ lấp Xấp xỉ gộp đoạn Xấp xỉ tuyến tính đoạn Truy vấn liệu Tinh chế Biểu diễn liệu Nút gốc Phân đoạn liệu Tịnh tiến Độ đo tƣơng tự Tìm kiếm tƣơng tự Cửa sổ trƣợt Chiến lƣợc phân tách Chuỗi So trùng chuỗi Cây hậu tố Tóm tắt Hành vi gây ngạc nhiên Xấp xỉ gộp ký hiệu hóa Nút Chuỗi bất thƣờng Chuỗi thời gian Xoắn thời gian Vết Chặn Cửa sổ xoắn Từ PAA PLA SAX A3 PHỤ LỤC B: LÝ LỊCH TRÍCH NGANG Họ tên: VÕ TUỆ LINH Ngày, tháng, năm sinh: 05 – 09 – 1984 Nơi sinh: Tiền Giang Địa liên lạc: 23/4 Mai Lão Bạng, Phƣờng 13, Quận Tân Bình, TP Hồ Chí Minh Email: linhvo_b2u@yahoo.com Q TRÌNH ĐÀO TẠO Năm 2002 – 2007: Sinh viên trƣờng Đại học Bách Khoa Tp HCM, Khoa Công Nghệ Thông Tin Năm 2008 – nay: Học viên Cao học trƣờng Đại học Bách Khoa Tp HCM, Khoa Công nghệ thông tin Q TRÌNH CƠNG TÁC 2007 – nay: Kỹ sƣ phần mềm công ty TNHH CSC Việt Nam ... CẤU TRÚC CHỈ MỤC CHO DỮ LIỆU CHUỖI THỜI GIAN VỚI ĐỘ ĐO KHOẢNG CÁCH XOẮN THỜI GIAN ĐỘNG II NHIỆM VỤ VÀ NỘI DUNG: Nghiên cứu so sánh hiệu hai cấu trúc mục: cấu trúc mục R-Tree... thời gian động Bởi mềm dẻo độ đo xoắn thời gian động, đƣợc sử dụng rộng rãi khoa học, y khoa, công nghiệp tài Đề tài tìm hiểu cấu trúc mục cho liệu chuỗi thời gian với độ đo xoắn thời gian động( DTW)... thời có nhiều định nghĩa nhƣ gọi bất thƣờng 3 1.2 Cấu trúc mục cho liệu chuỗi thời gian với độ đo xoắn thời gian động Cấu trúc mục cho sở liệu chuỗi thời gian thu hút quan tâm cộng đồng sở liệu