1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nâng cao hiệu quả tìm kiếm tương tự trên dữ liệu chuỗi thời gian với độ cao tương tự xoắn thời gian động

102 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 102
Dung lượng 1,74 MB

Nội dung

Đại Học Quốc Gia Tp Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA PHẠM HỒNG THÁI NÂNG CAO HIỆU QUẢ TÌM KIẾM TƯƠNG TỰ TRÊN DỮ LIỆU CHUỖI THỜI GIAN VỚI ĐỘ ĐO TƯƠNG TỰ XOẮN THỜI GIAN ĐỘNG Chuyên ngành : Khoa học máy tính LUẬN VĂN THẠC SỸ T P HỒ CHÍ MINH , tháng 11 năm 200 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH Cán hướng dẫn khoa học: PGS TS Dương Tuấn Anh Cán chấm nhận xét 1: PGS.TS Đỗ Phúc Cán chấm nhận xét 2: TS Võ Thị Ngọc Châu Luận văn thạc sĩ bảo vệ HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày 08 tháng 03 năm 2010 TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÒNG ĐÀO TẠO SAU ĐẠI HỌC ĐỘC LẬP - TỰ DO - HẠNH PHÚC Tp HCM, ngày tháng năm NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: PHẠM HỐNG THÁI Phái: Nam Sinh ngày tháng năm: 03/01/1973 Nơi sinh: Nam Định Chuyên ngành: Khoa học máy tính MSHV: 00707706 I TÊN ĐỀ TÀI: NÂNG CAO HIỆU QUẢ TÌM KIẾM TƯƠNG TỰ TRÊN DỮ LIỆU CHUỖI THỜI GIAN VỚI ĐỘ ĐO TƯƠNG TỰ XOẮN THỜI GIAN ĐỘNG II NHIỆM VỤ VÀ NỘI DUNG: III NGÀY GIAO NHIỆM VU:Ï 02/02/2009 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 30/11/2009 V CÁN BỘ HƯỚNG DẪN: PGS.TS D ương Tuấn Anh CÁN BỘ HƯỚNG DẪN CN BỘ MÔN QL CHUYÊN NGÀNH PGS TS D ương Tuấn Anh LỜI CẢM ƠN [ \ Trước tiên cho em gửi lời cảm ơn đến tất Quý thầy cô giảng dạy Cao học chun ngành khoa học máy tính khóa 2007 Đặc biệt cảm ơn PGS.TS Dương Tuấn Anh hướng dẫn tận tình đóng góp nhiều ý kiến quý báu suốt trình thực luận văn Chân thành cảm ơn Q thầy phịng Sau Đại học nhiệt tình tổ chức, theo dõi, động viên tạo điều kiện để chương trình đào tạo Cao học kết thúc tốt đẹp Cảm ơn tất bạn bè đồng nghiệp giúp đỡ công việc, động viên mặt tinh thần để luận văn hồn thành Xin tỏ lịng biết ơn sâu sắc lời động viên khuyến khích nhiệt tình gia đình để đạt thành hôm Lời cuối xin cảm ơn tất Quý thầy cô trường Đại Học Bách Khoa TP.Hồ Chí Minh, người nhiều bỏ công sức để truyền đạt kiến thức cho em suốt trình học Cao học Vì thời gian có hạn kiến thức cịn hạn chế, chắn khơng thể tránh khỏi thiếu sót Rất mong đóng góp ý kiến quý báu Quý thầy cô bạn Tác giả Phạm Hồng Thái Phạm Hồng Thái Nâng cao hiệu tìm kiếm tương tự liệu chuỗi thời gian với độ đo tương tự xoắn thời gian động TĨM TẮT Tìm kiếm tương tự liệu chuỗi thời gian ngày đóng vai trò quan trọng lĩnh vực khai phá liệu chuỗi thời gian Luận văn đề nghị giải pháp tìm kiếm tất mẫu trùng với mẫu truy vấn liệu chuỗi thời gian Trong luận văn đề cập tới hai loại giải pháp cần thiết kế thực cách mã hóa liệu chuỗi thời gian số kỹ thuật nâng cao hiệu tìm kiếm tương tự Chúng sử dụng độ đo xoắn thời gian động cho việc tìm kiếm chuỗi thời gian đề nghị cách mã hóa liệu (ASEG), phương pháp xấp xỉ gộp đoạn thích nghi theo liệu (APCA) kết hợp với phương pháp xấp xỉ dựa vào phân đoạn, Ngồi luận văn cịn làm chặt chặn nhóm Sakurai đề nghị giải thuật tìm kiếm theo khoảng áp dụng kỹ thuật đề nghị để nâng cao hiệu tìm kiếm Qua thực nghiệm cho thấy, kỹ thuật tìm kiếm tương tự mà đề nghị hiệu với liệu thời gian thực tế nhân tạo Phạm Hồng Thái ii Nâng cao hiệu tìm kiếm tương tự liệu chuỗi thời gian với độ đo tương tự xoắn thời gian động ABSTRACT Similarity search on time-series data sets is of growing inportance in time series data mining The thesis proposes methods of efficient retrieval of all whole sequences in the time series databases which are similar to a query sequence Two kinds of the methods, dimensionality reduction technique and some techniques to speed up searching, are devised and implemented We use Dynamic Time Warping distance as the basis for similarity queries on time-series data and introduce an innovative dimensionality reduction technique, the adaptive piecewise aggregate approximation combined with segmentation approximation which we call ASEG (Adaptive Segmentation approximation) Moreover, we present a tighter lower bound and implement range query search using the above techniques to speed up searching The experiments show that the proposed method is effective with real data and synthetic data Phạm Hồng Thái iii Nâng cao hiệu tìm kiếm tương tự liệu chuỗi thời gian với độ đo tương tự xoắn thời gian động MỤC LỤC LỜI CẢM ƠN i TÓM TẮT LUẬN VĂN ii ABSTRACT iii MỤC LỤC .iv DANH MỤC HÌNH .vii DANH MỤC BẢNG .ix Chương 1: GIỚI THIỆU ĐỀ TÀI 1.1 Dữ liệu chuỗi thời gian .1 1.2 Bài toán so trùng liệu chuỗi thời gian 1.3 Mục tiêu giới hạn đề tài 1.4 Tóm lược kết đạt 1.5 Cấu trúc luận văn .8 Chương 2: NHỮNG CÔNG TRÌNH LIÊN QUAN ĐẾN ĐỀ TÀI 10 2.1 Các cơng trình độ đo tương tự 11 2.2 Các công trình liên quan tới kỹ thuật thu giảm số chiều 16 2.2.1 Phương pháp biến đổi Fourier rời rạc 17 2.2.2 Phương pháp biến đổi Wavelet rời rạc 17 2.2.3 Phương pháp xấp xỉ gộp đoạn 19 2.2.4 Phương pháp xấp xỉ gộp đoạn thích nghi theo liệu 19 2.2.5 Phương pháp phân rã kỳ dị 21 2.2.6 Phương pháp xấp xỉ tuyến tính đoạn 21 2.3 Các cơng trình cấu trúc mục toàn chuỗi thời gian 22 2.4 Các cơng trình liên quan đến tìm kiếm tương tự tồn chuỗi thời gian .25 2.4.1 Cơng trình Yi cộng 25 2.4.2 Cơng trình Kim cộng 26 2.4.3 Cơng trình Chu cộng .27 2.4.4 Cơng trình Keogh Zhu D.Shasha 27 2.4.5 Cơng trình Salvado 28 Phạm Hồng Thái iv Nâng cao hiệu tìm kiếm tương tự liệu chuỗi thời gian với độ đo tương tự xoắn thời gian động 2.4.6 Công trình Daniel Lemire 28 2.2.7 Cơng trình Sakurai 29 Chương 3: CƠ SỞ LÝ THUYẾT NỀN TẢNG 31 3.1 Độ đo xoắn thời gian động 31 3.1.1 Các khái niệm liên quan 31 3.1.2 Cách tính khoảng cách sử dụng độ đo xoắn thời gian động 34 3.1.3.Ràng buộc q trình tính khoảng cách sử dụng độ đo DTW 36 3.2 Phương pháp xấp xỉ gộp đoạn thích nghi 38 3.3 Sử dụng chặn tìm kiếm tương tự 40 Chương 4: HỆ THỐNG SO TRÙNG MÂU .42 4.1 Đặt vấn đề 42 4.2 Hướng giải 42 4.3 Kiến trúc hệ thống 43 4.4 Hoạt động hệ thống 45 4.4.1 Q trình chuẩn hóa liệu 45 4.4.2 Phương pháp xấp xỉ đoạn thích nghi 47 4.4.3 Sử dụng chặn giải thuật kết thúc sớm 50 4.4.4 Quá trình tìm kiếm thô 57 4.4.5 Quá trình tinh chỉnh 60 4.4.6 Xây dựng mục 61 4.5 Kết luận 61 Chương 5: THỰC NGHIỆM .62 5.1 So sánh độ chặt chặn 62 5.1.1 Tiêu chí đánh giá 62 5.1.2 Kết thực nghiệm tập liệu tổng hợp 64 5.1.3 Kết thực nghiệm nhiều tập liệu 65 5.2 So sánh tỉ lệ thu giảm truy xuất thời gian đáp ứng hệ thống 67 5.2.1 Tiêu chí đánh giá 67 5.2.2 Kết thực nghiệm nhiều tập liệu 68 Phạm Hồng Thái v Nâng cao hiệu tìm kiếm tương tự liệu chuỗi thời gian với độ đo tương tự xoắn thời gian động 5.2.3 Thực nghiệm KNN Range Query 70 5.3 Kết thực nghiệm phương pháp thu giảm số chiều ASEG 73 5.3.1 Thực nghiệm với giải thuật KNN Serch .74 5.3.2 Thực nghiệm với giải thuật Range Query Search .76 5.4 Kết luận 77 Chương 6: KẾT LUẬN .78 6.1 Tổng kết 78 6.2 Những đóng góp đề tài 78 6.3 Hướng phát triển 79 DANH MỤC TÀI LIỆU THAM KHẢO 80 BẢNG ĐỐI CHIẾU CÁC THUẬT NGỮ ANH VIỆT .88 Phạm Hồng Thái vi Nâng cao hiệu tìm kiếm tương tự liệu chuỗi thời gian với độ đo tương tự xoắn thời gian động DANH MỤC HÌNH Hình 1.1 Đồ thị biểu diễn liệu chuỗi thời gian Hình 1.2 Ví dụ tốn so trùng toàn .6 Hình 2.1 Minh họa trường hợp tính chất hai mẫu 12 Hình 2.2 Minh họa hai đường biểu diễn giống hình dạng 13 Hình 2.3 Minh họa cách tính khoảng cách theo DWT 14 Hình 2.4 Minh họa phương pháp LCS 15 Hình 2.5 Minh họa phương pháp DFT 17 Hình 2.6 Minh họa phương pháp DWT 18 T Hình 2.7 Minh họa phương pháp PAA 19 Hình 2.8 Minh họa phương pháp APCA .20 Hình 2.9 Minh họa phương pháp phân rã kỳ dị 21 Hình 2.10 Minh họa phương pháp tuyến tính tưng đoạn PLA .22 Hình 2.11 Cách tạo KD-Tree 24 Hình 2.12 Cách tạo R-Tree .25 Hình 2.13 Mơ hình Yi .26 Hình 3.1 Bất đẳng thức tam giác 32 Hình 3.2 Lỗi so trùng nhầm so trùng sót 32 Hình 3.3 Minh họa chuỗi Euclide DTW 34 Hình 3.4 Ma trận tính khoảng cách DTW .35 Hình 3.5 Minh họa tính đơn điệu tăng 36 Hình 3.6 Minh họa tính liên tục 36 Hình 3.7 Minh họa tính biên 37 Hình 3.8 Minh họa hạn chế khơng gian tìm kiếm 37 Hình 3.9 Minh họa phương pháp thu giảm số chiều ACPA 38 Hình 3.10 Các thơng số phương pháp thu giảm số chiều ACPA .39 Hình 4.1 Kiến trúc hệ thống 44 Hình 4.2 Chuẩn hóa liệu 46 Phạm Hồng Thái vii Nâng cao hiệu tìm kiếm tương tự liệu chuỗi thời gian với độ đo tương tự xoắn thời gian động 5.3.2 Thực nghiệm với giải thuật tìm kiếm theo khoảng (Range Query) Effect of Threshold on Pruning Power 25 20 15 10 2000 5000 10000 15000 Pruning Power (%) 30 25000 20000 Thresholds LBS_Sak LBS-Imp LBS-Imp+ASEG Hình 5.10 Tỉ lệ thu giảm truy xuất theo khoảng Effect of Threshold on Response Time 250 200 150 100 50 2000 5000 10000 15000 20000 Response Time (ms) 300 25000 Thresholds LBS_Sak LBS-Imp LBS-Imp+ASEG Hình 5.11 Thời gian đáp ứng hệ thống theo khoảng Phạm Hồng Thái 76 Nâng cao hiệu tìm kiếm tương tự liệu chuỗi thời gian với độ đo tương tự xoắn thời gian động R=2000 R=5000 R=10000 R=15000 R=20000 R=25000 Pruning Power (%) LB_Sak 6.80 12.00 17.47 18.93 20.93 24.67 LB_Imp 6.80 11.73 15.73 19.07 20.93 23.87 LB_Imp+ASEG 5.87 10.40 14.27 17.07 20.13 23.20 Time response (ms) LB_Sak 108.60 133.60 178.60 204.20 265.40 284.40 LB_Imp 99.80 120.60 168.80 192.80 256.60 284.40 LB_Imp+ASEG 95.60 115.60 164.40 184.80 241.80 273.20 Bảng 5.7 Số liệu thực nghiệm với giải thuật Range Queries (ASEG) Kết thực nghiệm cho thấy kết hợp ASEG LB_Imp có hiệu với giải thuật KNN Range queries, thông số thực nghiệm cho thấy ASEG kết hợp với LB_Imp nhanh khoảng trung bình khoảng 8% so với LB_Imp nhanh gần 20 % so với phương pháp nhóm Sakurai đề nghị 5.4 Kết luận Với việc cải tiến phương pháp thu giảm số chiều SEG thành ASEG làm chặt chặn LB_Sak nói trên, chúng tơi chứng minh phương pháp đề tốt so với phương pháp cũ Kết minh chứng lý thuyết dựa thực nghiệm khẳng định áp dụng cải tiến đề tài tăng hiệu phương pháp lên đáng kể Phạm Hồng Thái 77 Nâng cao hiệu tìm kiếm tương tự liệu chuỗi thời gian với độ đo tương tự xoắn thời gian động CHƯƠNG KẾT LUẬN Chương tổng kết việc làm được, đóng góp luận văn nêu lên hướng mở rộng cho nghiêm cứu sau 6.1 Tổng kết Luận văn trình bày nhiều giải thuật nhiều cách thực so trùng chuỗi liệu chuỗi thời gian Chúng giải vấn đề tốn tìm kiếm tương tự cách mã hóa liệu phương pháp cải thiện tốc độ thực tìm kiếm tương tự sử dụng độ đo xoắn thời gian động (DTW) Thứ nhất, trình bày số cách mã hóa liệu điển hình Sau đó, dựa phân tích phương pháp xu hướng cơng trình nghiên cứu gần chúng tơi sử dụng phương pháp mã hóa xấp xỉ dựa vào phân đoạn (SEG) nhóm tác giả [43] đề nghị cách mã hóa (ASEG) xấp xỉ dựa vào phân đoạn thích nghi theo liệu Thực chất cách mã hóa kết hợp phương pháp xấp xỉ dựa vào phân đoạn [43] phương pháp xấp xỉ gộp đoạn thích nghi theo liệu (ACPA) nhóm Keogh đề nghị [21] Thứ hai, làm chặt chặn nhóm Sakurai [43] đề nghị Nhờ nâng cao tốc tộ tìm kiếm so với phương pháp cũ Các kết thực nghiệm cho thấy tính hiệu phương pháp mà luận văn đề nghị so với phương pháp sử dụng cơng trình nghiên cứu trước 6.2 Những đóng góp đề tài Đề nghị cách mã hóa liệu thích nghi theo liệu ASEG, phương pháp cho kết gần gũi trực quan Làm chặt chặn nhóm Sakurai Chặn cho kết chặt so với chặn cũ Do nâng cao hiệu tìm Phạm Hồng Thái 78 Nâng cao hiệu tìm kiếm tương tự liệu chuỗi thời gian với độ đo tương tự xoắn thời gian động kiếm Các kết luận chứng minh xác tốn học Đồng thời đưa đánh giá thực tế dựa kết thực nghiệm Đề xuất giải thuật tìm theo khoảng (range queries search) sử dụng kỹ thuật 6.3 Hướng phát triển Đề tài nêu vấn đề số cách giải toán so trùng mẫu Tuy nhiên nhiều điểm khác cần phải nghiên cứu thêm để đề tài hoàn thiện Trong đề tài kết thực nghiệm thực nghiệm trên, liệu tổng hợp lấy từ nguồn [43], liệu giá chứng khoán (4MB), liệu nhân tạo 200 Mb số tập liệu trích xuất từ liệu mẫu nhóm Keogh [24] Do cần phải có thực nghiệm nhiều loại liệu khác để đưa kết luận xác giải thuật phù hợp cho loại liệu Trong giải pháp ta thấy chúng phụ thuộc vào nhiều thông số khác Tính hiệu giải pháp phụ thuộc nhiều vào thơng số Vì ta tìm hiểu xây dựng hệ thống tự tìm thơng số phù hợp dựa đặc trưng liệu Hơn nữa, kết tìm kiếm tương tự đưa vào ứng dụng khác tìm luật, quan hệ phân loại, gom nhóm, dự báo liệu… Đây hướng nghiên cứu tốt giúp cho hệ hỗ trợ định lĩnh vực công nghiệp Phạm Hồng Thái 79 Nâng cao hiệu tìm kiếm tương tự liệu chuỗi thời gian với độ đo tương tự xoắn thời gian động DANH MỤC TÀI LIỆU THAM KHẢO Agrawal, R., Faloutsos, C., & Swami, A (1993) Efficient similarity [1] search in sequence databases In proceeding of the 4th Conference on Foundations of Data Organization and Algorithms Agrawal,R., Lin, K.I., Sawhney, H., and Shim, K., Fast similarity search in [2] [3] [4] the presence of noise, scaling, and translation in time series databases In proceedings of VLDB, pp 490-501, Setember 1995 Beckmann, N., H.P Kriegel, R Schneider, B Seeger "The R*-tree: an efficient and robust access method for points and rectangles" Proceedings of the 1990 ACM SIGMOD International Conference on Management of Data, May 23-25, 1990 , pp 322-331 Bentley, J., “Multidimensional binary search trees used for associative searching” Journal of Communications of the ACM, Vol 18, No 9, 1975, pp 509- 517 Berndt, D and Clifford, J (1996) Finding [5] patterns in time series: a dynamic programming approach Journal of advances in Knowledge Discovery and Data Mining, AAAI/MIT Press, Menlo Park, CA, pp 229-248 Berndt, D and Clifford, J (1996) Finding patterns in time series: a dynamic programming approach Journal of advances in Knowledge [6] Discovery and Data Mining, AAAI/MIT Press, Menlo Park, CA, pp 229248 Chan, K and Fu, W (1999) Efficient time series matching by wavelets In [7] proceedings of the 15th IEEE International Conference on Data Engineering (ICDE1999), March 23-26, 1999, pp 126-133 Phạm Hồng Thái 80 Nâng cao hiệu tìm kiếm tương tự liệu chuỗi thời gian với độ đo tương tự xoắn thời gian động Chu, S., Keogh, E., Hart, D., Pazzani, M., S (2002) Iterative deepening [8] dynamic time warping for time series In proceedings of SIAM International Conference on Data Mining, 2002 Dipandar D And Stephanie F., 1996, Novelty detection in time series data [9] using ideas form immunology In proceeding of neural information procesing system conference, NIPS Faloutsos, C., Ranganathan, M., and Manolopoulos, M., Fast subsequence [10] [11] [12] matching in time-series databases In proceedings of ACM SIGMOD,May 1994 pp 419-429) Fu, T., Chung, F., Luk, R., and C Ng "Financial Time Series Indexing Based on Low Resolution Clustering" Proceedings of the 4th IEEE International Conference on Data Mining (ICDM'04) Workshop on Temporal Data Mining: Algorithms, Theory and Applications, November 1, 2004, pp 5-14 Gavrilov, M., D Anguelov, P Indyk and R Motwani "Mining the stock market: which measure is best?" Proceedings of the 6th ACM Interantional Conference on Knowledge Discovery and Data Mining (KDD 2000) August 20-23, pp 487-496 Goldin, D., Gunopulos, D and Mannila, H (1997) Finding similar time [13] [14] series In proceedings of the 1st European Symposium on Principles of Data Mining and Knowledge Discovery (PKDD'97), June 24-27, 1997, pp 88-100 Guttman, A., "R-trees: a Dynamic Index Structure for Spatial Searching" Proceedings of the ACM SIGMOD International Conference on Management of Data, June 18-21, 1984, pp 47-57 Keogh, E and Pazzani, M (1999) An Indexing Scheme for Fast Similarity [15] Search in Large Time Series Databases In proceedings of the 11th International Conference on Scientific and Statistical Database Management (SSDBM 1999), July 28-30, 1999, pp 56-67 Phạm Hồng Thái 81 Nâng cao hiệu tìm kiếm tương tự liệu chuỗi thời gian với độ đo tương tự xoắn thời gian động [16] Keogh, E., “A Decade of Progress in Indexing and Mining Large Time Series Databases” Tuorial of 32nd International Conference on Very Large Data Bases (VLDB’2006), September 12-15, 2006 Keogh, E and Chakpararti, K., Mehrotra, S., Pazzani, M (2001) Locally [17] Adaptive Dimensionality Reduction For Index Large Time Series Databases ACM SIGMOD May, 2001, Santa Barbara, California, USA Keogh, E., Exact indexing of dynamic time warping In proceedings of [18] VLDB, International Conference on Data Mining, August, 2002, pp 406-417 Keogh, E and Chu, S., Hart, D., Pazzani, M (1999) An Online Algorithm for Segmenting Time Series In proceedings of the 11th International [19] Conference on Scientific and Statistical Database Management (SSDBM 1999), July 28-30, 1999, pp 56-67 Keogh, E., [20] Chakrabarti, K., Pazzani, M & Mehrotra, S (2000) Dimensionality Reduction for Fast Similarity Search in Large Time Series Databases Knowledge and Information Systems 3(3), pp 263-286 Keogh, E., Chakrabarti, K., Pazzani, M & Mehrotra, S (2001) Locally adaptive dimensionality reduction for indexing large time series [21] databases In proceedings of ACM SIGMOD Conference on Management of Data, May pp 151-162 [22] Keogh, E & Kasetty, S (2002) On the need for time series data mining benchmarks: A survey and empirical demonstration In the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining July 23 - 26, 2002 Edmonton, Alberta, Canada pp 102-111 Keogh, E (2007) Mining shape and time series databases with symbolic [23] representations Tutorial of the 13rd ACM Interantional Conference on Phạm Hồng Thái 82 Nâng cao hiệu tìm kiếm tương tự liệu chuỗi thời gian với độ đo tương tự xoắn thời gian động Knowledge Discovery and Data Mining, August 12-15, 2007 Keogh, E., Tutorials, Available at: [24] http://www.cs.ucr.edu/~eamonn/tutorials.html Kim, S.W., Park, S., and Chu, W., An idex-based approach for similarity [25] search supporting time warping in large sequence databases In proceedings of ICDE, pp 607-614, April, 2001 Korn, F., Jagadish, H and Faloutsos, C (1997) Efficiently supporting ad hoc queries in large datasets of time sequences In proceedings of the 1997 [26] ACM SIGMOD International Conference on Management of Data (CIKM 1997), May 13-15, pp 289-300 Lemire, D Et al S (2008) Faster Retrieval a Two – Pass Dynamic – Time – [27] Warping Lower Bound Data Mining and Knowledge Discovery Journal, 2008 Lin, J Keogh, E., Patel, Wei, L., Lonardi, S (2007) Experiencing SAX: A [28] Novel Symbolic Representation of Time Series Data Mining and Knowledge Discovery Journal, 2007 Lin, J., Keogh, E., Lonardi, S., Lankford, J P & Nystrom, D M (2004) Visually Mining and Monitoring Massive Time Series In proceedings of [29] the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining Seattle, WA Aug 22-25 Lin, J., Keogh, E., Lonardi, S & Chiu, B (2003) A Symbolic [30] Representation of Time Series, with Implications for Streaming Phạm Hồng Thái 83 Nâng cao hiệu tìm kiếm tương tự liệu chuỗi thời gian với độ đo tương tự xoắn thời gian động Algorithms In proceedings of the 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery San Diego, CA June 13 Lkhagva, B , Suzuki, Y and Kawagoe, K (2006) New Time Series Data Representation ESAX for Financial Applications In proceedings of the [31] International Special Workshop on Databases for Next-Generation Researchers (SWOD 2006) in conjunction with International Conference on Data Engineering (ICDE 2006), April 7, 2006, pp 17-22 M L Hetland, (2003) A Survey of Recent Methods for Efficient Retrieval [32] of Similar Time Sequences In Data Mining in Time Series Databases, (M Last, A Kandel, and H Bunke, Eds.) Singapore: World Scientific, pp 23-42 Nguyen Quoc Viet Hung and Duong Tuan Anh (2007) Combining SAX and Piecewise Linear Approximation to Improve Similarity Search on [33] Financial Time Series In proceedings of International Symposium on Information Technology Convergence,(ISITC 2007) November 23-24, 2007 Jeonju, Korea pp 58-62 Nguyen Quoc Viet Hung Nhận dạng mẫu đáng quan tâm tập [34] liệu chuỗi thời gian Luận văn thạc sĩ, Khoa Khoa Học Kỹ Thuật Máy Tính, Đại Học Bách Khoa Tp Hồ Chí Minh Park Lin, S., Lee, D., Chu, W., (2001) Fast Retrieval of Similar [35] Subsequences in Long Sequence Database [36] Park, S., Kim, S., and Chu, W., "Segment-based approach for subsequence searches in sequence databases" Proceedings of the 16th ACM Symposium on Applied Computing (SAC 2001), March 11-14, 2001, pp 248-252 Phạm Hồng Thái 84 Nâng cao hiệu tìm kiếm tương tự liệu chuỗi thời gian với độ đo tương tự xoắn thời gian động Pevzner, P A and Sze, S H (2000) Combinatorial approaches to finding subtle signals in DNA sequences In proceedings of the 8th International [37] Conference on Intelligent Systems for Molecular Biology La Jolla, CA, Aug 19-23 pp 269-278 Popivanov, I and Miller, R (2002) Similarity search over time series data [38] using wavelets In proceedings of the 18th International Conference on Data Engineering (ICDE 2002), 26 February - March, 2002, pp 212-221 Prakash A, Blanchette M, Sinha S, Tompa M (2004) Motif discovery in [39] heterogeneous sequence data In Pacific Symposium on Biocomputing: January 2004; Hawaii, 2004, 348-359 Rabiner, L., and Juang, B.H., Fundamentals of speech recognition., [40] Englewood Cliffs, N.J., 1993 Rafiei, D and Mendelzon, A.O (1998) Efficient retrieval of similar time sequences using dft In proceedings of the 5th International Conference on [41] Foundations of Data Organization and Algorithms (FODO 1998), November 12-13, 1998, pp 249-257 Sakoe, H., Chiba, S., Dynamic programming algorithm optimization for [42] spoken word recognition, IEEE Vol ASSP-26, No.1, February 1978 Sakurai, Y., Yoshikawa, M., Faloutsos, C., (2006) FTW: Fast Similarity Search Under The Time Warping Distance ACM SIGMOD-SIGACT- [43] SIGART Symposium on princeples of database system (PODS), pp 326-337, Baltimore, Maryland June 13-16 2005 Phạm Hồng Thái 85 Nâng cao hiệu tìm kiếm tương tự liệu chuỗi thời gian với độ đo tương tự xoắn thời gian động Salvado, S., Chan, P., (2007) Toward accurate dynamic time warping in [44] linear time and space, SIGMOD 2007 [45] Samet, H., “The quadtree and related hierarchical data structure” Journal of ACM Computing Surveys, Vol 16, No 1, 1984, pp.187-260 Sarkka S., et al., 2004, Time series prediction by Kalman smoother with [46] cross validated noise density In proceeding of IEEE international joint conference on neural networks, JCNN04, Hungary, pp 1653-1657 Shasha, D and Wang, T (1990) New techniques for best-match retrieval [47] ACM Trans on Information Systems, Vol 8(2) pp 140-158 Sebastiani, P and Ramoni, M (2001) Clustering continuous time series In C E Brodley and A P Danyluk, editors, Proceedings of the 18th [48] International Conference on Machine Learning(ICML’01), pp 497–504 Morgan Kaufmann, 2001 Shou, Y., Mamoulis, N., Cheung, D.W., (2005) Fast and Exact Warping of [49] Time Series Using Adaptive Segmental Approximations Smyth, P (1997) Clustering sequences with Hidden Markov Models In [50] M C Mozer, M I Jordan, and T Petsche, editors, Advances in Neural Information Processing Systems, volume 9, p 648 MIT Press, 1997 Wei, L., Keogh, E., Xi, X (2006) SAXually Explicit Images: Finding [51] Unusual Shapes In proceedings of the 6th IEEE International Conference on Data Mining (ICDM 2006), December 18-22, 2006, pp 711-720 Phạm Hồng Thái 86 Nâng cao hiệu tìm kiếm tương tự liệu chuỗi thời gian với độ đo tương tự xoắn thời gian động Wu, Y., Agrawal, D and Abbadi, A.E (2000) A comparison of dft and dwt based similarity search in time-series databases In proceedings of the 9th [52] ACM CIKM International Conference on Information and Knowledge Management (CIKM 2000), November 6-11, 2000, pp 488-495 Xia, B (1997) Similarity Search in Time Series Data Sets In Master [53] thesis, Simon Fraser University, 1997 Xiong, Y and Yeung, D (2003) Model-based clustering of sequential data [54] using ARMA mixtures In proceedings of the 4th ACM Postgraduate Research Day, pp 203–210, 2003 Yi,B.K., H.V.Jagadish, and C.Faloutsos Effects retreval of similar time [55 sequence under time warping In proceedings of ICDE, pp 201-208, February 1998 Zhu, Z., and Shasha, D., Warping indexes with envelope transforms for [56] query by humming In proceedings of ACM SIGMOD, pp 181-192, June 2003 Phạm Hồng Thái 87 Nâng cao hiệu tìm kiếm tương tự liệu chuỗi thời gian với độ đo tương tự xoắn thời gian động BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt Amplitude scale Co giãn biên độ Adaptive Piecewise aggregate Xấp xỉ gộp đoạn thích nghi Viết tắt APCA approximation Adaptive Segmentation Xấp xỉ dựa vào phân đoạn thích nghi ASEG approximation Base line Đường Boundary condition Tính biên Classification Phân loại Clustering Gom cụm Collision matrix Ma trận đụng độ Continuity Tính liên tục Data adaptive Thích nghi liệu Data normalization Chuẩn hóa liệu Dimensional reduction Thu giảm số chiều Discrete Fourier transform Phép biến đổi Fourier rời rạc DFT Discrete Wavelet transform Phép biến đổi Wavelet rời rạc DWT Discretizeation Rời rạc hóa Distance Khoảng cách Dynamic time warping Xoắn thời gian động Early stopping Algorithm Giải thuật kết thúc sớm False alarm Lỗi so trùng nhầm False dismissal Lỗi so trùng sót Feature Đặc trưng KNN Search Tìm kiếm k láng giềng gần KNN Longest common subsequence Chuỗi chung dài LCSS Phạm Hồng Thái DTW 88 Nâng cao hiệu tìm kiếm tương tự liệu chuỗi thời gian với độ đo tương tự xoắn thời gian động Match Trùng khớp Monotonicity Tính đơn điệu tăng Neighborhood Nhóm liền kề Peakpoint Điểm cực trị Piecewise aggregate approximation Xấp xỉ gộp đoạn PAA Query data processing Truy vấn liệu Range Query Tìm kiếm theo khoảng Refinement Quá trình tinh chỉnh Representation of data Biểu diễn liệu Response Time Thời gian đáp ứng Segmentation Phân đoạn Segmentation approximation Xấp xỉ dựa vào phân đoạn SEG Singular value decomposition Phân rã kỳ dị SVD Sequence Chuỗi liệu thời gian Similarity search Tìm kiếm tương tự Similarity measure Độ đo tương tự Subsequence Chuỗi Subsequence matching So trùng chuỗi Transform matrix Ma trận chuyển đổi Time series Chuỗi thời gian Warping path Đường xoắn Warping window Hạn chế khơng gian tìm kiếm Whole sequence Tồn chuỗi Whole sequence matching So trùng chuỗi Phạm Hồng Thái 89 Nâng cao hiệu tìm kiếm tương tự liệu chuỗi thời gian với độ đo tương tự xoắn thời gian động LÝ LỊCH TRÍCH NGANG Họ tên: Phạm Hồng Thái Nơi sinh: Nam Định Ngày, tháng, năm sinh: 03/01/1973 Địa liên lạc: 2A Út Tịch, phường 4, quận Tân Bình, TP.Hồ Chí Minh Q TRÌNH ĐÀO TẠO - Năm 1991 – 1996: sinh viên trường Đại học Kỹ Thuật - Năm 2007 – 2009: học viên Cao học khoa học máy tính, trường Đại học Bách Khoa TP.Hồ Chí Minh Q TRÌNH CƠNG TÁC: - Năm 1997 đến nay: Cục 893 – Bộ Nội Vụ Phạm Hồng Thái 90 ... Hồng Thái Nâng cao hiệu tìm kiếm tương tự liệu chuỗi thời gian với độ đo tương tự xoắn thời gian động • Các cơng trình liên quan đến nâng cao hiệu tìm kiếm tương tự chuỗi liệu thời gian (fast... Thái 10 Nâng cao hiệu tìm kiếm tương tự liệu chuỗi thời gian với độ đo tương tự xoắn thời gian động 2.1 Những cơng trình đo độ tương tự Để giải tốn tìm kiếm tương tự liệu chuỗi thời gian cần... Thái Nâng cao hiệu tìm kiếm tương tự liệu chuỗi thời gian với độ đo tương tự xoắn thời gian động 1.2 Bài toán so trùng liệu chuỗi thời gian Bài toán so trùng mẫu hay tìm kiếm tương tự liệu chuỗi

Ngày đăng: 15/02/2021, 18:23

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w