1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm kiếm tương tự trên dữ liệu chuỗi thời gian dạng luồng

97 8 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 97
Dung lượng 1,45 MB

Nội dung

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN TRƯỜNG MẠNH HÙNG TÌM KIẾM TƯƠNG TỰ TRÊN DỮ LIỆU CHUỖI THỜI GIAN DẠNG LUỒNG Chuyên ngành: KHOA HỌC MÁY TÍNH LUẬN VĂN THẠC SĨ TPHCM, tháng 12 năm 2011 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học : PGS.TS Dương Tuấn Anh Cán chấm nhận xét 1: PGS TS Đỗ Phúc Cán chấm nhận xét : TS Võ Thị Ngọc Châu Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 07 tháng 01 năm 2012 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: TS Bùi Hoài Thắng PGS TS Dương Tuấn Anh PGS TS Đỗ Phúc TS Võ Thị Ngọc Châu TS Phạm Văn Chung Xác nhận Chủ tịch Hội đồng đánh giá LV Bộ môn quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA………… ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA Xà HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Trường Mạnh Hùng MSHV: 09070440 Ngày, tháng, năm sinh: 01/05/1980 Nơi sinh: TP.Hồ Chí Minh Chuyên ngành: Khoa Học Máy Tính Mã số : 60.48.01 TÊN ĐỀ TÀI: Tìm kiếm tương tự liệu chuỗi thời gian dạng luồng (Similarity search in streaming time series data) NHIỆM VỤ VÀ NỘI DUNG: • Tỉm hiểu framework Kontaki cộng cho vấn đề tìm kiếm tương tự liệu chuỗi thời gian dạng luồng • Nghiên cứu vận dụng framework Kontaki phương pháp thu giảm số chiều xấp xỉ gộp đoạn (PAA) thay biến đổi Fourier rời rạc (DFT) cấu trúc mục Skyline thay cấu trúc mục R*-Tree • Hiện thực thử nghiệm so sánh hiệu cấu trúc mục Skyline với cấu trúc mục R*-Tree tìm kiếm tương tự liệu chuỗi thời gian dạng luồn NGÀY GIAO NHIỆM VỤ : 14/02/2011 NGÀY HOÀN THÀNH NHIỆM VỤ: 02/12/2011 CÁN BỘ HƯỚNG DẪN: PGS TS Dương Tuấn Anh TP HCM, ngày……tháng ……năm 20…… CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO PGS TS Dương Tuấn Anh TRƯỞNG KHOA………… Tìm kiếm tương tự chuỗi thời gian dạng luồng LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Ngày 30 tháng 11 năm 2011 Nguyễn Trường Mạnh Hùng Nguyễn Trường Mạnh Hùng i Tìm kiếm tương tự chuỗi thời gian dạng luồng LỜI CẢM ƠN Tôi xin gởi lời cảm ơn chân thành sâu sắc đến PGS TS Dương Tuấn Anh, người Thầy tận tình hướng dẫn tơi suốt q trình học Cao học tạo điều kiện để tơi hồn thành luận văn Tơi xin cảm ơn gia đình, bạn bè động viên tạo điều kiện tốt để tơi tiếp tục theo đuổi việc học tập nghiên cứu Tôi trân trọng dành tặng thành luận văn cho Cha Mẹ Nhờ công lao dưỡng dục Người mà chúng có thành ngày hôm Con xin hứa tiếp tục cố gắng phấn đấu để vươn cao Nguyễn Trường Mạnh Hùng ii Tìm kiếm tương tự chuỗi thời gian dạng luồng TĨM TẮT LUẬN VĂN Tìm kiếm tương tự liệu chuỗi thời gian toán quan trọng lĩnh vực khai phá liệu Với phát triển nhanh chóng liệu chuỗi thời gian nhiều ứng dụng từ lĩnh vực tài lĩnh vực khoa học, ngày có nhiều ứng dụng địi hỏi phải xử lý liệu chuỗi thời gian dạng luồng M Kontaki cộng đề xuất framework tìm kiếm tương tự chuỗi thời gian dạng luồng với cấu trúc mục IDC-Index Đề tài tập trung mở rộng framework với phương pháp thu giảm số chiều khác Chúng sử dụng phương pháp xấp xỉ gộp đoạn làm phương pháp thu giảm số chiều phương pháp hoạt động theo kiểu gia tăng để đáp ứng yêu cầu môi trường luồng Độ đo Euclid tiếp tục sử dụng làm độ đo tương tự Bên cạnh chúng tơi đề xuất sử dụng cấu trúc mục Skyline thay cho cấu trúc mục R*-Tree Qua thực nghiệm chứng tỏ cấu trúc mục hiệu R*Tree môi trường luồng Nguyễn Trường Mạnh Hùng iii Tìm kiếm tương tự chuỗi thời gian dạng luồng ABSTRACT Similarity search on streaming timeseries is one of important problems in data mining With the rapid delopment of timeseries in many applications from finance to scientific, there are more and more applications required process streaming timeseries M Kontaki et al had proposed a framwork for similarity search in streaming timeseries with IDC-Index This thesis focused on extending this framework with another dimensional reduction We used piecewise aggregate approximation (PAA) as dimensional reduction and this dimensional reduction works in an incremental manner to satisfy the demands of streaming environment Euclide distance continued to be used as similarity measure Moreover, we also proposed using Skyline index to replace for R*-Tree Experiment results have shown that the proposed index is more effective than R*-Tree in streaming environment Nguyễn Trường Mạnh Hùng iv Tìm kiếm tương tự chuỗi thời gian dạng luồng MỤC LỤC LỜI CAM ĐOAN i  LỜI CẢM ƠN ii  TÓM TẮT LUẬN VĂN iii  ABSTRACT iv  MỤC LỤC v  DANH MỤC HÌNH viii  CHƯƠNG 1:  GIỚI THIỆU ĐỀ TÀI 1  1.1  Dữ liệu chuỗi thời gian 1  1.2  Dữ liệu chuỗi thời gian dạng luồng 2  1.3  Bài tốn tìm kiếm tương tự chuỗi thời gian 3  1.4  Mục tiêu giới hạn đề tài 5  1.5  Cấu trúc luận văn 5  CHƯƠNG 2:  TỔNG HỢP CÁC CƠNG TRÌNH LIÊN QUAN 7  2.1  Các độ đo tươ‰ –ự 7  2.1.1  Độ đo Minkowski 8  2.1.2  Độ đo xoắn thời gian động 9  2.1.3  Độ đo chuỗi chung dài 10  2.2  Các phương pháp thu giảm số chiều 11  2.2.1  Các phương pháp biến đổi sang miền tần số 12  2.2.2  Các phương pháp xấp xỉ đoạn 14  2.3  Cấu trúc mục 17  2.3.1  Cấu trúc mục R-Tree/R*-Tree 17  2.3.2  Cấu trúc mục VA-Stream/VA+-Stream 20  2.3.3  Cấu trúc mục Skyline 21  2.4  Các cơng trình tìm kiếm tương tự chuỗi thời gian dạng luồng .21  2.5  Kết luận 24  Nguyễn Trường Mạnh Hùng v Tìm kiếm tương tự chuỗi thời gian dạng luồng CHƯƠNG 3:  CƠ SỞ LÝ THUYẾT VÀ HƯỚNG TIẾP CẬN 25  3.1  Phương pháp biến đổi Fourier rời rạc 25  3.2  Cấu trúc mục R*-Tree 26  3.2.1  Tính chất R*-Tree: 26  3.2.2  Xây dựng R*-Tree 27  3.2.3  Tìm kiếm R*-Tree 28  3.3  Cấu trúc mục để tính tốn DFT gia tăng .29  3.3.1  Tính tốn DFT gia tăng .31  3.3.2  Chính sách cập nhật trì hỗn 34  3.3.3  Lựa chọn ngưỡng cập nhật Δu .35  3.3.4  Xử lý truy vấn .36  3.4  Cấu trúc mục Skyline 38  3.4.1  Vùng bao đường chân trời 38  3.4.2  Tính chất cấu trúc mục Skyline 39  3.4.3  Xây dựng cấu trúc mục Skyline 40  3.4.4  Hàm khoảng cách Skyline 41  3.5  Phương pháp xấp xỉ gộp đoạn .42  3.6  Kết luận 43  CHƯƠNG 4:  HỆ THỐNG TÌM KIẾM TƯƠNG TỰ TRÊN CHUỖI THỜI GIAN DẠNG LUỒNG 44  4.1  Đặt vấn đề 44  4.2  Hướng giải 45  4.3  Kiến trúc hệ thống .46  4.4  Cập nhật mục 47  4.4.1  Rút trích đặc trưng 48  4.4.2  Tổ chức lưu trữ cấu trúc mục 49  4.5  Xử lý truy vấn 50  4.6  Kết luận 51  Nguyễn Trường Mạnh Hùng vi Tìm kiếm tương tự chuỗi thời gian dạng luồng CHƯƠNG 5:  THỰC NGHIỆM 52  5.1  Các tiêu chuẩn thực nghiệm 52  5.2  Đánh giá kết thực nghiệm .54  5.2.1  Thực nghiệm truy vấn vùng 54  5.2.2  Thực nghiệm truy vấn lân cận gần 59  5.2.3  Thực nghiệm số đoạn thu giảm .63  5.3  Kết luận 71  CHƯƠNG 6:  KẾT LUẬN 72  6.1  Tổng kết .72  6.2  Những đóng góp đề tài 72  6.3  Hướng phát triển 73  TÀI LIỆU THAM KHẢO 75  PHỤ LỤC 1: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT i  PHỤ LỤC 2: LÝ LỊCH TRÍCH NGANG iv  Nguyễn Trường Mạnh Hùng vii Tìm kiếm tương tự chuỗi thời gian dạng luồng Hình 5-28: Kết thực nghiệm thời gian xây dựng mục với tập liệu SỨC GIÓ R*-Tree Skyline theo số lượng đoạn thu giảm Hình 5-29: Kết thực nghiệm số nút với tập liệu SỨC GIÓ R*-Tree Skyline theo số lượng đoạn thu giảm Nguyễn Trường Mạnh Hùng 69 Tìm kiếm tương tự chuỗi thời gian dạng luồng Hình 5-30: Kết thực nghiệm chiều cao với tập liệu SỨC GIÓ R*-Tree Skyline theo số lượng đoạn thu giảm Hình 5-31: Kết thực nghiệm kích thước tập tin với tập liệu SỨC GIÓ R*-Tree Skyline theo số lượng đoạn thu giảm Nguyễn Trường Mạnh Hùng 70 Tìm kiếm tương tự chuỗi thời gian dạng luồng Dựa vào kết thực nghiệm biểu diển đồ thị, chúng tơi có số nhận xét sau: • Thời gian CPU tăng theo số lượng đoạn thu giảm Nguyên nhân việc phụ thuộc số lượng đoạn thu giảm có liên quan đến số chiều sử dụng cấu trúc mục Trong trình tìm kiếm tương tự có tính tốn độ tương tự thành phần liệu Độ đo tương tự dùng độ đo Euclid có thời gian tính tốn phụ thuộc vào số chiều thành phần liệu • Số lần truy cập đĩa R*-Tree Skyline xấp xỉ thời gian CPU R*-Tree lớn Skyline • Thời gian xây dựng mục R*-Tree tăng nhanh theo số lượng đoạn thu giảm so với Skyline • Thời gian cập nhật mục Skyline tốt so với R*-Tree • Số lượng nút chiều cao trường hợp Skyline ổn định tăng so với R*- Tree Do kích thước tập tin Skyline hồn tồn nhỏ so với kích thước tập tin R*-Tree 5.3 Kết luận Trong hệ thống tìm kiếm chuỗi thời gian dạng luồng, cấu trúc mục giúp nâng cao hiệu tìm kiếm Tuy nhiên hiệu mục không phụ thuộc thân cấu trúc mục mà phụ thuộc vào liệu được lập mục Thông thường hệ thống liên quan đến chuỗi thời gian, người ta thường dùng cấu trúc R*-Tree biến thể làm cấu trúc mục Qua kết thực nghiệm kết luận mục Skyline với khả cập nhật nhanh chóng thích hợp để làm cấu trúc mục cho ứng dụng liên quan liệu chuỗi thời gian dạng luồng, đặc biệt với tập liệu có kích thước lớn Hiệu mục Skyline loại liệu khác cần tiến hành thêm Nguyễn Trường Mạnh Hùng 71 Tìm kiếm tương tự chuỗi thời gian dạng luồng CHƯƠNG 6: KẾT LUẬN Trong chương tổng kết việc làm được, đóng góp luận văn nêu lên hướng mở rộng cho nghiêm cứu sau 6.1 Tổng kết Luận văn trình bày giải thuât cách thực tìm kiếm tương tự liệu chuỗi thời gian dạng luồng Chúng giải vấn đề toán cách lập mục để nâng cao tốc độ tìm kiếm Luận văn sử dụng phương pháp xấp xỉ gộp đoạn (PAA) với cải tiến tính tốn gia tăng làm phương pháp thu giảm số chiều Phương pháp ứng dụng nhiều nhiều ứng dụng khác chứng minh có hiệu việc thu giảm số chiều cho liệu thời gian Trong hầu hết toán, cấu trúc mục dùng lưu trữ chuỗi thời gian thường cấu trúc R*-Tree biến thể Luận văn đề nghị sử dụng cấu trúc mục Skyline làm cấu trúc mục cho liệu chuỗi thời gian sau thu giảm số chiều liệu nhằm nâng cao hiệu tìm kiếm Các kết thực nghiệm cho thấy tính hiệu cấu trúc mục Skyline, đặc biệt môi trường luồng, so với cấu trúc mục dùng để lưu trữ liệu thời gian sử dụng cơng trình nghiên cứu trước 6.2 Những đóng góp đề tài Các kết đạt đề tài bao gồm: • Đề nghị mơ hình kết hợp phương pháp xấp xỉ gộp đoạn với cấu trúc mục cho toán tìm kiếm tương tự liệu chuỗi thời gian dạng luồng Nguyễn Trường Mạnh Hùng 72 Tìm kiếm tương tự chuỗi thời gian dạng luồng • Đề nghị sử dụng cấu trúc mục Skyline làm cấu trúc mục lưu trữ liệu chuỗi thời gian dạng luồng kết hợp với phương pháp xấp xỉ gộp đoạn Cấu trúc mục chứng minh hiệu kết thực nghiệm • Mở rộng framework cho tất tốn tìm kiếm tương tự liệu chuỗi thời gian dạng luồng với phương pháp thu giảm số chiều cấu trúc mục 6.3 Hướng phát triển Đề tài nêu vấn đề số cách giải vấn đề tìm kiếm tương tự liệu chuỗi thời gian dạng luồng Tuy nhiên nhiều điểm khác cần phải nghiên cứu thêm để đề tài hoàn thiện Đề tài sử dụng hai tập liệu chứng khoán sức gió làm thực nghiệm nên khơng tránh khỏi nhiều thiếu sót Do cần phải kiểm thử nhiều tập dữliệu nhằm tăng độ xác cho kết đề tài Đề tài mở rộng theo hướng sau: • Tập liệu o Hỗ trợ tập liệu cập nhật riêng phần (fraction update), lần cập nhật có số luồng tập liệu cập nhật • Truy vấn o Hỗ trợ tập truy vấn gồm đa truy vấn cập nhật liên tục (multiple continuous queries) o Hỗ trợ truy vấn tương tự ghép nối (similarity join query) mơi trường luồng • Độ đo tương tự Nguyễn Trường Mạnh Hùng 73 Tìm kiếm tương tự chuỗi thời gian dạng luồng o Sử dụng độ đo tương tự khác, chẳng hạn độ đo xoắn thời gian động (Dynamic Time Warping – DTW) • Phương pháp thu giảm số chiều o Sử dụng phương pháp thu giảm số chiều khác mà tính tốn gia tăng Nguyễn Trường Mạnh Hùng 74 Tìm kiếm tương tự chuỗi thời gian dạng luồng TÀI LIỆU THAM KHẢO [1] R Agrawal, C Faloutsos, A Swami, Efficient similarity search in sequence databases, in Proceedings of the 4th International Conference on Foundations of Data Organization and Algorithms (FODO '93), Chicago, Illinois, USA, October 13-15, 1993, pp 69-84 [2] S Babu, J Widom, Continuous queries over data streams, in ACM SIGMOD Record, Volume 30, Issue 3, September 2001, pp 109-120 [3] N Beckmann, H.P Kriegel, R Schneider, B Seeger, The R*-tree: an efficient and robust access method for points and rectangles, in Proceedings of the ACM SIGMOD, Atlantic City, New Jersey, USA, May 23-25, 1990, pp 322-331 [4] D Berndt, J Clifford, Using dynamic time warping to find patterns in time series, in Proceedings of AAAI Workshop on Knowledge Discovery in Databases (KDD94), Seattle, Washington, USA, pp 359-370 [5] K Chan, A.W Fu, Efficient time series matching by wavelets, in Proceedings of the 15th IEEE International Conference on Data Engineering (ICDE1999), March 23-26, 1999, pp 126-133 [6] S Chandrasekaran, M J Franklin, Streaming queries over streaming data, in Proceedings of the 28th International Conference on Very Large Databases (VLDB 2002), Hong Kong, China, August 20-23, 2002, pp 203214 [7] L Gao, X S Wang, Continually evaluating similarity-based pattern queries on a streaming time series, in Proceedings of the 2002 ACM SIGMOD international conference on Management of data (SIGMOD '02), Madison, Wisconsin, June 3-6, 2002, pp 370-381 Nguyễn Trường Mạnh Hùng 75 Tìm kiếm tương tự chuỗi thời gian dạng luồng [8] A Guttman, R-tree: A dynamic index structure for spatial searching, in Proceedings of the 1984 ACM SIGMOD International Conference on Management of Data (SIGMOD ’84), Boston, Massachusetts, USA, June 18-21, 1984, pp 47-57 [9] J Han, M Kamber, Mining stream, time-series, and sequence data, in Data Mining: Concepts and Techniques, Second Edition, Morgan Kaufmann, 2006, pp 467-534 [10] E Keogh, A decade of progress in indexing and mining large timeseries databases, in Proceedings of the 32nd international conference on Very large data bases (VLDB’2006), Seoul, Korea, September 12-15, 2006, pp 1268 - 1268 [11] E Keogh, M J Pazzani, An enhanced representation of time series which allows fast and accurate classification, clustering and relevance feedback, in Proceedings of the 4th International Conference on Knowledge Discovery and Data Mining, New York City, New York, USA, Aug 27-31, 1998, pp 239-241 [12] E Keogh, S Chu, D Hart, M J Pazzani, An online algorithm for segmenting time series, in Proceedings of the IEEE International Conference on Data Mining (ICDM '01), San Jose, California, USA, 29 Nov 2001 - 02 Dec 2001, pp 289-296 [13] E Keogh, K Chakrabarti, M Pazzani, S Mehrotra, Dimensionality reduction for fast similarity search in large time series databases, in Knowledge and Information Systems, vol 3, no 3, 2000, pp.263-286 [14] E Keogh, Exact indexing of Dynamic Time Warping, in Proceedings of 28th International Conference on Very Large Data Bases, 2002, pp.406417 Nguyễn Trường Mạnh Hùng 76 Tìm kiếm tương tự chuỗi thời gian dạng luồng [15] E Keogh, K Chakrabarti, M Pazzani, S Mehrotra, Locally adaptive dimensionality reduction for indexing large time series databases, in Proceedings of the 2001 ACM SIGMOD Conference on Management of Data,, May 21-24, 2001, pp 151-162 [16] E Keogh, Mining shape and time series databases with symbolic representations, in Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining (KDD’07), August 12-15, 2007 [17] M Kontaki, A N Papadopoulos, Y.Manolopoulos, Adaptive similarity search in streaming time series with sliding windows, Data & Knowledge Engineering, vol 16, no 6, pp 478–502, November 2007 [18] M Kontaki, A N Papadopoulos, Y.Manolopoulos, Efficient similarity search in streaming time sequences, in: Proceedings of the 16th International Conference on Scientific and Statistical Database Management (SSDBM 2004), Santorini, Greece, 2004 [19] M Kontaki, A N Papadopoulos, Y.Manolopoulos, Similarity search in time series databases, Encyclopedia of Database Technologies & Applications, IDEA Group Publishing, pp 646-651, 2005 [20] F Korn, H Jagadish, C Faloutsos, Efficiently supporting ad hoc queries in large datasets of time sequences, in Proceedings of the ACM SIGMOD International Conference on Management of Data (SIGMOID’97), Tucson, Arizona, USA, May 13-15, 1997, pp 289-300 [21] D Kwon, S Lee, S Lee, Indexing the current positions of moving objects using the lazy update R-tree, in Proceedings of the 3rd International Conference on Mobile Data Management, Washington, DC, USA, 2002, pp.113-120 Nguyễn Trường Mạnh Hùng 77 Tìm kiếm tương tự chuỗi thời gian dạng luồng [22] M Lee, W Hsu, C S Jensen, B Cui, K L Teo, Supporting frequent updates in R-trees: a bottom-up approach, in Proceedings of the 29th International Conference on Very Large Data Bases (VLDB 2003), Berlin, Germany, 2003, pp 608-619 [23] Q.Li , I F V Lopez, B Moon, I Fern, Skyline index for time series data, IEEE Transactions on Knowledge and Data Engineering, Vol 16, No 6, Jun 2004, pp 669-684 [24] Tropical Atmosphere Ocean (TAO) Project Home Page, http://www.pmel.noaa.gov/tao/ [25] X Lian, L Chen, Efficient similarity search over future stream time series, IEEE Transactions on Knowledge and Data Engineering, vol 20, no 1, Jan 2008, pp 40-54 [26] X Liu, H Ferhatosmanoglu, Efficient k-NN search on streaming data series, in: Proceedings of the 8th International Symposium on Spatial and Temporal Databases (SSTD 2003), Santorini Island, Greece, July 24-27, 2003, pp 83-101 [27] U Y Ogras, H Ferhatosmanoglu, Online summarization of dynamic time series data, The VLDB Journal, Volume 15, Issue 1, January 2006, pp 84-98 [28] T Seidl, H P Kriegel, Optimal multi-step k-nearest neighbor search, in: Proceedings of the ACM SIGMOD Conference, Seatle, WA, USA, 1998, pp.154–165 [29] M Vlachos, D.Gunopulos, G.Das, Indexing time series under condition of noise, M Last, A Kandel & H Bunke (Eds.), Data Mining in Time Series Databases, World Scientific Publishing, 2004 Nguyễn Trường Mạnh Hùng 78 Tìm kiếm tương tự chuỗi thời gian dạng luồng [30] R Weber, H J Schek, S Blott, A quantitative analysis and performance study for similarity-search methods in high-dimensional spaces, in: Proceedings of the 24th International Conference on Very Large Databases (VLDB 1998), New York, USA, 1998, pp.194–205 [31] H Wu, B Salzberg, D Zhang, Online event-driven subsequence matching over financial data streams, in: Proceedings of the ACM SIGMOD International Conference on Management of Data, Paris, France, June 13-18, 2004, pp 23-34 [32] Y Wu, D Agrawal, A El Abbadi, A comparison of DFT and DWT based similarity search in time-series databases, in Proceedings of the 9th ACM CIKM International Conference on Information and Knowledge Management, McLean, Virginia, USA, 2000, pp 488-495 [33] Yahoo! Finance, http://finance.yahoo.com/ [34] B Yi, C Faloutsos, Fast time sequence indexing for arbitrary Lp norms, in Proceedings of the 26th VLDB Conference, Cairo, Egypt, 2000, pp 385-394 Nguyễn Trường Mạnh Hùng 79 Tìm kiếm tương tự chuỗi thời gian dạng luồng PHỤ LỤC 1: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt Viết tắt adaptive piecewise constant xấp xỉ số đoạn thích approximation nghi batch processing xử lý hàng loạt best-fit xấp xỉ tốt branch and bound nhánh cận bottom skyline đường chân trời continuous queries truy vấn liên tục deferred update policy sách cập nhật trì hỗn depth first search tìm kiếm theo chiều sâu dimensional reduction thu giảm số chiều discrete Fourier transform phép biến đổi Fourier rời rạc DFT discrete Wavelet transform phép biến đổi Wavelet rời rạc DWT dynamic time warping xoắn thời gian động DTW eigenwave đường giá trị riêng entry phần tử envelope vùng bao error bounds giới hạn lỗi false dismissals tìm kiếm sót fast Fourier transform phép biến đổi Fourier nhanh feature extraction rút trích đặc trưng fraction update cập nhật riêng phần histograms biểu đồ tần số Nguyễn Trường Mạnh Hùng APCA BSky FFT i Tìm kiếm tương tự chuỗi thời gian dạng luồng incremental DFT computation tính tốn DFT gia tăng IDC internal node nút nội leaf node nút longest common subsequence chuỗi chung dài lower bound cận minimum bounding rectangle hình chữ nhật bao nhỏ mobility tính di động multiple continuous queries đa truy vấn cập nhật liên tục multidimensional hash bảng băm đa phân giải multi-resolution model mơ hình đa phân giải online transform-based tổng hợp trực tuyến dựa biến summarization đổi overlap phủ lấp piecewise aggregate approximation xấp xỉ gộp đoạn PAA piecewise linear approximation xấp xỉ tuyến tính đoạn PLA piecewise linear representation biểu diễn tuyến tính đoạn point queries truy vấn điểm priority queue hàng ưu tiên randomized algorithm thuật toán ngẫu nhiên random sampling lấy mẫu ngẫu nhiên root nút gốc recursive least squares estimation dự đốn bình phương tốt thiểu đệ LCS MBR RLSE quy segmentation phân đoạn similarity join query truy vấn tương tự kết nối similarity k-nearest neighbors truy vấn tương tự k-lận-cận-gần- query similarity range query truy vấn tương tự vùng Nguyễn Trường Mạnh Hùng k-NN ii Tìm kiếm tương tự chuỗi thời gian dạng luồng singular value decomposition phân rã trị riêng sketches tóm tắt skyline bounding region vùng bao đường chân trời sliding window cửa sổ trượt spatial access methods phương pháp mục không gian squared error bình phương sai số static time series chuỗi thời gian tĩnh stream data liệu dạng luồng streaming time series chuỗi thời gian dạng luồng subsequence matching so trùng chuỗi synopsis tóm tắt time series chuỗi thời gian top skyline đường chân trời transform-based online summary tóm tắt trực tuyến dựa biến SVD SBR SAM TSky đổi whole matching Nguyễn Trường Mạnh Hùng so trùng tồn iii Tìm kiếm tương tự chuỗi thời gian dạng luồng PHỤ LỤC 2: LÝ LỊCH TRÍCH NGANG Họ tên: NGUYỄN TRƯỜNG MẠNH HÙNG Ngày, tháng, năm sinh: 01/05/1980 Nơi sinh: TP.HCM Địa liên lạc: 219/3 Mai Xuân Thưởng, Phường 6, Quận 6, TP HCM Email: hungntm@gmail.com / hung.nguyen@sutrixmedia.com Q TRÌNH ĐÀO TẠO • Năm 1997 – 2002: Sinh viên Đại học trường ĐH Bách Khoa Tp HCM, Khoa Cơng Nghệ Thơng Tin • Năm 2009 – 2011: Học viên Cao học trường ĐH Bách Khoa Tp HCM, Khoa Khoa Học & Kỹ Thuật Máy Tính Q TRÌNH CƠNG TÁC • 11/2002 – 05/2005: Lập trình viên, cơng ty SCN IT Solution • 05/2005 – 10/2005: Lập trình viên, cơng ty giải pháp phần mềm FPT • 11/2005 – 08/2008: Quản trị dự án, công ty Sài Gịn Tân Thế Kỷ • 08/2008 – 02/2012: Trưởng phận phát triển công nghệ NET, công ty Sutrix Media Vietnam • 02/2012 – Nay: Giám đốc kỹ thuật, công ty Sutrix Media Vietnam Nguyễn Trường Mạnh Hùng iv ... Hùng ii Tìm kiếm tương tự chuỗi thời gian dạng luồng TÓM TẮT LUẬN VĂN Tìm kiếm tương tự liệu chuỗi thời gian toán quan trọng lĩnh vực khai phá liệu Với phát triển nhanh chóng liệu chuỗi thời gian. .. tìm kiếm tương tự chuỗi thời gian dạng luồng thực tìm kiếm tương tự dựa chuỗi thời gian lưu trữ hoàn chỉnh tiến hành dự đoán liệu trước liệu thực tế đến Đề tài tập trung theo hướng tìm kiếm tương. .. phương pháp tìm kiếm tương tự thích nghi chuỗi thời gian dạng luồng M Kontaki cộng đề xuất năm 2007 [17] Mục tiêu đề tài mở rộng framework tìm kiếm tương tự liệu chuỗi thời gian dạng luồng mà M

Ngày đăng: 29/08/2021, 17:42

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN