1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm kiếm tương tự trên dữ liệu chuỗi thời gian dạng luồng sử dụng phép biến đổi PLA và skyline index

100 13 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

TRƯỜNG ĐẠI HỌC BÁCH KHOA TP HỒ CHÍ MINH KHOA KHOA HỌC MÁY TÍNH TRẦN THỊ THANH NGA TÌM KIẾM TƯƠNG TỰ TRÊN DỮ LIỆU CHUỖI THỜI GIAN DẠNG LUỒNG SỬ DỤNG PHÉP BIẾN ĐỔI PLA VÀ SKYLINE INDEX Chuyên ngành: Khoa học máy tính LUẬN VĂN THẠC SĨ TP Hồ Chí Minh, tháng năm 2012 Cơng trình hoàn thành tại: Trường Đại học Bách Khoa – ĐHQG-TPHCM Cán hướng dẫn khoa học: PGS.TS Dương Tuấn Anh Cán chấm nhận xét 1: Cán chấm nhận xét 2: Luận văn Thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG TPHCM ngày 18 tháng năm 2012 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: TS Bùi Hoài Thắng PGS TS Lê Hoài Bắc TS Võ Thị Ngọc Châu PGS TS Dương Tuấn Anh TS Lê Thanh Vân Xác nhận Chủ tịch Hội đồng đánh giá Luận văn Trưởng Khoa quản lý chuyên ngành sau Luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA ĐẠI HỌC QUỐC GIA TP HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập – Tự – Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Trần Thị Thanh Nga MSHV: 10070489 Ngày sinh: 01/05/1982 Nơi sinh: Thái Bình Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 I TÊN ĐỀ TÀI: Tìm kiếm tương tự liệu chuỗi thời gian dạng luồng (Similarity search in streaming time series data) NHIỆM VỤ VÀ NỘI DUNG: - Tìm hiểu framework M Kontaki cộng cho vấn đề tìm kiếm tương tự liệu chuỗi thời gian dạng luồng Vận dụng framework M Kontaki dùng phương pháp thu giảm số chiều xấp xỉ tuyến tính đoạn (PLA) thay biến đổi Fourier rời rạc (DFT) dùng cấu trúc mục Skyline R*-Tree - Hiện thực thực nghiệm để so sánh hiệu cấu trúc mục Skyline với R*-Tree tìm kiếm tương tự liệu chuỗi thời gian dạng luồng II NGÀY GIAO NHIỆM VỤ: 04/07/2011 III NGÀY HOÀN THÀNH NHIỆM VỤ: 18/07/2012 IV CÁN BỘ HƯỚNG DẪN: PGS TS Dương Tuấn Anh CÁN BỘ HƯỚNG DẪN TP HCM, ngày tháng năm 2012 (Họ tên chữ ký) CHỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên chữ ký) PGS TS Dương Tuấn Anh TRƯỞNG KHOA ………………………… (Họ tên chữ ký) Tìm kiếm tương tự chuỗi thời gian dạng luồng LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ Luận văn, công việc trình bày Luận văn tơi thực chưa có phần nội dung Luận văn nộp để lấy cấp trường trường khác Ngày 30 tháng 06 năm 2012 Trần Thị Thanh Nga Trần Thị Thanh Nga - 10070489 i Tìm kiếm tương tự chuỗi thời gian dạng luồng LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành sâu sắc đến Thầy tôi, PGS TS Dương Tuấn Anh, người Thầy tận tình hướng dẫn tơi suốt q trình học Cao học thời gian làm Luận văn Cảm ơn Thầy tạo điều kiện tốt để em hồn thành tốt Luận văn Tôi xin cảm ơn người thân gia đình, bạn bè động viên tạo điều kiện để tơi tiếp tục theo đuổi việc học tập nghiên cứu Tôi trân trọng dành tặng thành Luận văn cho cha mẹ Nhờ công lao dưỡng dục Người mà có thành ngày hơm Con xin hứa tiếp tục phấn đấu để tiến xa đường học vấn Trần Thị Thanh Nga - 10070489 ii Tìm kiếm tương tự chuỗi thời gian dạng luồng TĨM TẮT LUẬN VĂN Tìm kiếm tương tự liệu chuỗi thời gian toán quan trọng lĩnh vực khai phá liệu Với phát triển nhanh chóng liệu chuỗi thời gian nhiều ứng dụng từ lĩnh vực tài lĩnh vực khoa học, ngày có nhiều ứng dụng địi hỏi phải xử lý liệu chuỗi thời gian dạng luồng M Kontaki cộng đề xuất framework tìm kiếm tương tự chuỗi thời gian dạng luồng với cấu trúc mục IDC-Index Đề tài tập trung mở rộng framework với phương pháp thu giảm số chiều xấp xỉ tuyến tính đoạn PLA Phương pháp thu giảm hoạt động theo kiểu gia tăng để đáp ứng yêu cầu môi trường liệu luồng Độ đo Euclid sử dụng làm độ đo tương tự Bên cạnh chúng tơi đề xuất sử dụng cấu trúc mục Skyline thay cho cấu trúc mục R*-Tree Qua nhiều thực nghiệm chứng tỏ hiệu cấu trúc mục Skyline so với R*-Tree môi trường luồng Trần Thị Thanh Nga - 10070489 iii Tìm kiếm tương tự chuỗi thời gian dạng luồng ABSTRACT Similarity search on streaming timeseries is one of important problems in data mining With the rapid development of timeseries in many applications from finance to scientific, there are more and more applications required process streaming timeseries M Kontaki et al had proposed a framework for similarity search in streaming timeseries with IDC-Index This thesis focused on extending this framework with another dimensional reduction We used PLA as dimensional reduction and this dimensional reduction works in an incremental manner to satisfy the demand of streaming environment The Euclidean distance continued to be used as similarity measure Moreover, we also proposed using Skyline Index to replace for R*-Tree Experiment results have shown that the proposed index is more effective than R*-Tree in streaming environment Trần Thị Thanh Nga - 10070489 iv Tìm kiếm tương tự chuỗi thời gian dạng luồng MỤC LỤC CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI 1.1 Dữ liệu chuỗi thời gian 1.2 Dữ liệu chuỗi thời gian dạng luồng 1.3 Truy vấn tương tự chuỗi thời gian dạng luồng 1.4 Mục tiêu giới hạn đề tài 1.5 Cấu trúc luận văn 2.1 Các cơng trình độ đo tương tự 2.1.1 Độ đo Minkowski 2.1.2 Độ đo xoắn thời gian động (Dynamic Time Warping – DWT) 2.2 Các công trình liên quan đến biểu diễn chuỗi thời gian 10 2.2.1 Các phương pháp thu giảm số chiều 11 2.2.2 Các phương pháp rời rạc liệu 15 2.3 Các cơng trình cấu trúc mục 16 2.3.1 K-D-Tree/Quad Tree 16 2.3.2 R-Tree/R*-Tree 17 2.3.3 Cấu trúc mục Skyline 19 2.3.4 Cấu trúc xấp xỉ file xấp xỉ hóa véc tơ (VA-File) 20 2.4 Các cơng trình tìm kiếm tương tự chuỗi thời gian dạng luồng 20 2.5 Kết luận 23 CHƯƠNG 3: CƠ SỞ LÝ THUYẾT NỀN TẢNG 25 3.1 Phương pháp biến đổi Fourier rời rạc 25 3.2 Cấu trúc mục R*-Tree 26 3.2.1 Thêm 27 3.2.2 Xóa phần tử R*-Tree: 29 3.2.3 Tìm kiếm R*-Tree 29 3.3 Cấu trúc mục để tính DFT gia tăng 31 3.3.1 Tính tốn DFT gia tăng 32 3.3.2 Chính sách cập nhật trì hỗn 32 3.3.3 Lựa chọn ngưỡng cập nhật ∆u 33 Trần Thị Thanh Nga - 10070489 v Tìm kiếm tương tự chuỗi thời gian dạng luồng 3.3.4 Xử lý truy vấn 34 3.4 Cấu trúc mục Skyline 35 3.4.1 Vùng bao đường chân trời 36 3.4.2 Hàm tính khoảng cách sử dụng cho Skyline 36 3.4.3 Xây dựng cấu trúc mục Skyline 37 3.5 Phương pháp xấp xỉ tuyến tính đoạn khả mục (Indexable Piecewise Linear Approximation) 39 3.5.1 Giới thiệu PLA khả mục 39 3.5.2 Khoảng cách chặn PLA 41 3.5.3 Lập mục PLA 43 3.5.4 Phương pháp tính PLA gia tăng 49 3.6 Kết luận 51 CHƯƠNG 4: HIỆN THỰC VÀ THỰC NGHIỆM 52 4.1 Đặt vấn đề 52 4.2 Giải vấn đề 52 4.2.1 Kiến trúc hệ thống 53 4.2.2 Cập nhật mục 53 4.2.3 Cách tạo SBR dùng phương pháp PLA 55 4.3 Thực nghiệm 56 4.3.1 Tập liệu mẫu 56 4.3.2 Đánh giá kết thực nghiệm 57 4.4 Kết luận 81 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 82 5.1 Kết luận 82 5.2 Những đóng góp đề tài 82 5.3 Hướng phát triển 82 TÀI LIỆU THAM KHẢO 84 PHỤ LỤC 1: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH VIỆT i PHỤ LỤC 2: LÝ LỊCH TRÍCH NGANG iii Trần Thị Thanh Nga - 10070489 vi Tìm kiếm tương tự chuỗi thời gian dạng luồng DANH MỤC HÌNH Hình 1: Dữ liệu chuỗi thời gian (dữ liệu chứng khoán) (nguồn [19]) Hình 2: Truy vấn so trùng toàn Hình 3: Truy vấn so trùng chuỗi Hình 1: Cách tính độ đo Euclid (nguồn [17]) Hình 2: Nhược điểm độ đo Minkowski (nguồn [17]) Hình 3: Cách tính độ đo xoắn thời gian động ([17]) Hình 4: Sự khác hai độ đo Euclid DTW (nguồn [17]) 10 Hình 5: Các phương pháp biểu diễn liệu DFT, DWT (nguồn [12]) 12 Hình 6: Các phương pháp biểu diễn liệu APCA, PAA, PLA (nguồn [12]) 14 Hình 7: Rời rạc hóa liệu theo phương pháp SAX (nguồn [25]) 15 Hình 8: Cách tạo K-D-Tree 17 Hình 9: Cách tạo R-Tree 18 Hình 10: Biến thể R-Tree thành LUR-Tree với liên kết trực tiếp (nguồn [21]) 18 Hình 11: Biến thể R-Tree hỗ trợ cập nhật thường xuyên theo hướng tiếp cận từ lên (nguồn [21]) 19 Hình 1: Ý tưởng phương pháp biến đổi Fourier rời rạc (Nguồn [32]) 25 Hình 2: Ví dụ R-Tree với 12 điểm 27 Hình 3: Lưu đồ giải thuật thêm vào R*-Tree 28 Hình 4: Tìm kiếm vùng R*-Tree 30 Hình 5: Kiến trúc hệ thống xử lý truy vấn dựa IDC-Index (Nguồn [18]) 32 Hình 6: Xác định ngưỡng cập nhật ∆u (nguồn [18]) 34 Hình 7: Vùng bao đường chân trời chuỗi thời gian (Nguồn[22]) 36 Hình 8: Mở rộng đường chân trời (nguồn [22]) 38 Hình 9: Phân đoạn PLA chặn (nguồn [8]) 42 Hình 10: Trường hợp (Đoạn thẳng A1A2 nằm hồn tồn góc phần tư thứ ba (nguồn [8])) 46 Hình 11: Trường hợp (đoạn thẳng A1A2 nằm góc phần tư thứ thứ ba [8]) 47 Trần Thị Thanh Nga - 10070489 vii Tìm kiếm tương tự chuỗi thời gian dạng luồng trúc mục Trong q trình tìm kiếm tương tự có tính tốn độ tương tự thành phần liệu Độ đo tương tự dùng độ đo Euclid có thời gian tính tốn phụ thuộc vào số chiều thành phần liệu - Số lần truy cập đĩa R*-Tree Skyline xấp xỉ thời gian CPU R*-Tree lớn Skyline - Thời gian xây dựng mục R*-Tree tăng nhanh theo số lượng đoạn thu giảm so với Skyline - Thời gian cập nhật mục Skyline tốt so với R*-Tree - Số lượng nút chiều cao trường hợp Skyline ổn định tăng so với R*-Tree Do kích thước tập tin Skyline hoàn toàn nhỏ so với kích thước R*-Tree Thực nghiệm kích thước cửa sổ trượt Kích thước cửa sổ trượt thay đổi từ 64, 128, 256, 512, 1024, số đoạn thu giảm Workload bao gồm 400 cập nhật, 100 truy vấn hầu hết liệu, riêng liệu SubjectA TAO workload gồm 100 cập nhật 400 truy vấn Trần Thị Thanh Nga - 10070489 76 Tìm kiếm tương tự chuỗi thời gian dạng luồng Hình 27: Kết thực nghiệm liệu EEG-DatasetIVa_aa Hình 28: Kết thực nghiệm liệu EEG – DatasetIVa_al Trần Thị Thanh Nga - 10070489 77 Tìm kiếm tương tự chuỗi thời gian dạng luồng Hình 29: Kết thực nghiệm liệu EEG-DatasetIVa_av Hình 30: Kết thực nghiệm liệu ERP Trần Thị Thanh Nga - 10070489 78 Tìm kiếm tương tự chuỗi thời gian dạng luồng Hình 31: Kết thực nghiệm liệu Mallat Hình 32: Kết thực nghiệm liệu Stocks Trần Thị Thanh Nga - 10070489 79 Tìm kiếm tương tự chuỗi thời gian dạng luồng Hình 33: Kết thực nghiệm liệu TAO Nhận xét: - Thời gian CPU tăng theo kích thước cửa sổ trượt Và hầu hết trường hợp thời gian CPU Skyline tối ưu R*-Tree - Số lần truy cập đĩa R*-Tree Skyline xấp xỉ nhau, tăng lên theo kích thước cửa sổ trượt Trong hầu hết trường hợp thực nghiệm trên, liệu lớn số lần truy cập đĩa R*-Tree lớn Skyline - Thời gian xây dựng mục R*-Tree có giảm theo kích thước cửa sổ trượt Trong thời gian xây dựng mục Skyline khơng có chênh lệch lớn kích thước cửa sổ trượt tăng lên Và thời gian xây dựng mục Skyline tốt R*-Tree - Thời gian cập nhật mục Skyline R*-Tree tăng lên theo kích thước cửa sổ trượt Do đặc trưng phương pháp Skyline tạo đường tuyến tính, nên việc lấy đường chân trời Skyline phải thao tác nhiều việc lấy đường bao MBR R*Trần Thị Thanh Nga - 10070489 80 Tìm kiếm tương tự chuỗi thời gian dạng luồng Tree Do thời gian cập nhật Skyline phải thực nhiều Tuy vậy, thời gian cập nhật Skyline R*-Tree hầu hết trường hợp nhau, không chênh lệch nhiều 4.4 Kết luận Việc sử dụng cấu trúc mục hệ thống tìm kiếm tương tự chuỗi thời gian dạng luồng giúp nâng cao hiệu tìm kiếm Tuy nhiên kết thực nghiệm nhiều liệu cho thấy, hiệu việc sử dụng mục phụ thuộc vào việc sử dụng mục mà phụ thuộc vào liệu Thông thường hệ thống liên quan đến chuỗi thời gian người ta thường dùng cấu trúc mục R*Tree biến thể để làm cấu trúc mục Qua thực nghiệm kết luận cấu trúc mục Skyline với khả cập nhật nhanh chóng, nên thích hợp với liệu chuỗi thời gian dạng luồng đặc biệt với tập liệu có kích thước lớn Trần Thị Thanh Nga - 10070489 81 Tìm kiếm tương tự chuỗi thời gian dạng luồng CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Trong Luận văn chúng tơi trình bày cách thực hệ thống tìm kiếm tương tự liệu chuỗi thời gian dạng luồng cách sử dụng phương pháp thu giảm số chiều PLA với cải tiến tính tốn gia tăng Ngồi ra, thực nghiệm nhiều liệu khác nhau, việc sử dụng cấu trúc mục Skyline cho hiệu cao so với dùng cấu trúc mục R*-Tree đề tài chứng tỏ phương pháp thu giảm số chiều PLA hồn tồn phù hợp với cấu trúc mục Skyline Qua nhiều đánh giá thực nghiệm, đề nghị sử dụng cấu trúc mục Skyline làm cấu trúc mục cho liệu chuỗi thời gian dạng luồng sau thu giảm để nâng cao hiệu tìm kiếm 5.2 Những đóng góp đề tài - Đề nghị mơ hình kết hợp phương pháp PLA với cấu trúc mục cho toán tìm kiếm tương tự chuỗi thời gian dạng luồng - Đề nghị sử dụng cấu trúc mục Skyline làm cấu trúc mục lưu trữ chuỗi thời gian dạng luồng kết hợp với phương pháp PLA Cấu trúc mục chứng minh hiệu R*-Tree kết thực nghiệm - Mở rộng framework cho tất tốn tìm kiếm tương tự liệu chuỗi thời gian dạng luồng với phương pháp thu giảm số chiều khác cấu trúc mục 5.3 Hướng phát triển Đề tài nêu vấn đề cách giải tốn tìm kiếm tương tự liệu thời gian dạng luồng sử dụng phương pháp PLA với chiều dài phân đoạn Đề tài mở rộng với hướng dùng phương pháp PLA với chiều dài phân đoạn khác nhau, tùy vào vị trí phân bố liệu để phân đoạn nhằm đưa lại kết tìm kiếm tương tự xác Trần Thị Thanh Nga - 10070489 82 Tìm kiếm tương tự chuỗi thời gian dạng luồng Ngồi nâng cấp cấu trúc mục Skyline cách giảm diện tích SBR xuống thấp để việc lập mục tối ưu Trần Thị Thanh Nga - 10070489 83 Tìm kiếm tương tự chuỗi thời gian dạng luồng TÀI LIỆU THAM KHẢO [1] R Agrawal, C Faloutsos, A Swami, Efficient similarity search in sequence databases, in Proceedings of the 4th Internaltional Conference on Foundations of Data Organization and Algorithms (FODO ’93), Chicago, Illinois, USA, October 13-15, 1993, pp 69-84 [2] S Babu, J.Widom, Continuous queries over data streams, in ACMSIGMOD Record, Volume 30, Issue 3, September 2001, pp 109-120 [3] BCI Comptetition III: Download area, http://bbci.de/competition/iii/download/ [4] N Beckmann, H.P Kriegel, R Schneider, B Seeger, The R*-Tree: an efficient and robust access method for points and rectangles,in Proceedings of the ACMSIGMOD, Atlantic City, New Jersey, USA, May 23-25, 1990, pp 322-331 [5] D Berndt, J Clifford, Using dynamic time warping to find patterns in time series, in Proceedings of AAAI Workshop on Knowledge Discovery in Databases (KDD94), Seattle, Washington, USA, pp 359-370 [6] K Chan, J Clifford, Efficient time series matching by wavelets, in Proceedings of 15th IEEE International Conference on Data Engineering (ICDE1999), March 23-26, 1999, pp 126-133 [7] S Chandrasekaran, M J Franklin, Streaming queries over streaming data, in Proceedings of the 28th International Conference on Very Large Database (VLDB 2002), Hong Khong, China, August 20-23, 2002, pp 203-214 [8] Q Chen, L Chen, X Lian, Y Liu, Indexable PLA for Efficient Similarity Search, Proceedings of the 33rd international conference on Very large databases, September 23-27, Vienna, Austria [9] L Gao, X S Wang, Continually evaluating similarity-based pattern queries on a streaming time series, in Proceeding of the 2002 ACM SIGMOD Trần Thị Thanh Nga - 10070489 84 Tìm kiếm tương tự chuỗi thời gian dạng luồng international conference on Management of data (SIGMOD ’02), Madison, Wisconsin, June 3-6, 2002, pp 370-381 [10] A Guttman, R-tree: A dynamic index structure for spatial searching, in Proceedings of the 1984 ACM SIGMOD International conference on Management of Data (SIGMOD ’84), Boston, Massachusetts, USA, June 18-21, 1984, pp 47-57 [11] J Han, M Kamber, Mining stream, time-series, and sequence data, in Data Mining: concepts and Techniques, Second Edition, Morgan Kaufmann, 2006, pp 467-534 [12] E Keogh, A decade of progress in indexing and mining large timeseries databases, in Proceedings of the 32nd international conference on Very large databases (VLDB ‘2006), Seoul, Korea, September 12-15, 2006, pp 1268-1268 [13] E Keogh, M J Pazzani, An enhanced representation of time series which allows fast and accurate classification, clustering and relevance feedback, in Proceedings of the 4th International Conference on Knowledge Discovery and Data Mining, New York, USA, Aug 27-31, 1998, pp 239-241 [14] E Keogh, S Chu, D Hart, M J Pazzani, An online algorithm for segmenting time series, in Proceeding of the IEEE International Conference on Data Mining (ICDM ’01), San Jose, California, USA, 29 Nov 2001 – 02 Dec 2001, pp 289296 [15] E Keogh, K Chakrabarti, M Pazzani, S Mehrotra, Dimensionality reduction for fast similarity search in large time series databases, in Knowledge and Information Systems, vol 3, no 3, 2000, pp 263-286 [16] E Keogh, K Chakrabarti, M Pazzani, S Mehrotra, Locally adaptive dimensionality reduction for indexing large time series databases, in Proceedings of the 2001 ACM SIGMOD Conference on Management of Data, May 21-24, 2001, pp 151-162 Trần Thị Thanh Nga - 10070489 85 Tìm kiếm tương tự chuỗi thời gian dạng luồng [17] E Keogh, Mining shape and time series database with symbolic representations, in Proceedings of the 13th ACM SIGKDD iternational conference on Knowledge discovery and data mining (KDD ’07), August 12-15, 2007 [18] M Kontaki, A N Papadopoulos, Y Manolopoulos, Adaptive similarity search in streaming time series with sliding windows, Data & Knowledge Engineering, vol 16, no 6, November 2007, pp 478-502 [19] M Kontaki, A N Papadopoulos, Y Manolopoulos, Similarity search in time series databases, Encyclopedia of Database Technologies & Applications, IDEA Group Publishing, 2005, pp 646-651 [20] D Kwon, S Lee, Indexing the current positions of moving objects using the lazy update R-tree, in Proceedings of the 3rd International Conference on Mobile Data Management, Washington, DC, USA, 2002, pp 113-120 [21] M Lee, W Hsu, C S Jensen, B Cui, K.L Teo, Supporting frequent update in R-trees: a bottom-up approach, in Proceedings of the 29th International Conference on Very Large Data Bases (VLDB 2003), Berlin, Germany, 2003, pp 608-619 [22] Q Li, I F V Lopez, B Moon, I Fern, Skyline index for time series data, IEEE Transactions on Knowledge and Data Engineering, Vol 16, No 6, Jun 2004, pp 669-684 [23] X Lian, L Chen, Efficent similarity search over future stream time series, IEEE Transactions on Knowledge and Data Engineering, Vol 20, No 1, Jan 2008, pp 40-54 [24] X Lian, L Chen, J Xu Yu, G Wang, G Yu, Similarity Match Over High Speed Time-Series Streams, Proc 23rd Int’l Conf Data Eng (ICDE), 2007 [25] J Lin, E Keogh, S Lonardi, B Chiu, A symbolic representation of time series, with implications for streaming algorithms, in Proceedings of the 8th Trần Thị Thanh Nga - 10070489 86 Tìm kiếm tương tự chuỗi thời gian dạng luồng ACM SIGMOD Workshop on Reasearch Issues in Data Mining and Knowledge Discovery, San Diego, CA Jun 13, 2003 [26] X Liu, H Ferhatosmanoglu, Efficient k-NN search on streaming data series, in Proceedings of the 8th International Symposium on Spatial and Temporal Databases (SSTD 2003), Santorini Island, Greece, July 24-27, 2003, pp 83-101 [27] U Y Ogras, H Ferhatosmanoglu, Online summarization of dynamic time series data, The VLDB Journal, Volume 15, Issue 1, January 2006, pp 84-98 [28] T Seidl, H P Kriegel, Optimal multi-step k-nearest neighbor search, in: Proceeding of the ACM SIGMOD Conference, Seatle, WA, USA, 1998, pp 154-165 [29] Tropical Atmosphere Ocean (TAO) Project Home Page, http://www.pmel.noaa.gov/tao [30] R Weber, H J Schek, S Bloot, A quantitative analysis and performance study for similarity-search methods in high-demensional spaces, in Proceedings of the 24th International Conference on Very Large Databases (VLDB 1998), New York, USA, 1998, pp 194-205 [31] H Wu, B Salzberg, D Zhang, Online event-driven subsequence matching over financial data streams, in Proceedings of the ACM SIGMOD International Conference on Management of Data, Paris, France, Jun 13-18, 2004, pp 23-34 [32] Y Wu, D Agrawal, A El Abbadi, A comparison of DFT and DWT based similarity search in timeseries databases, in Proceedings of the 9th ACM CIKM International Conference on Information and Knowledge Management, McLean, Virginia, USA, 2000, pp 488-495 Trần Thị Thanh Nga - 10070489 87 Tìm kiếm tương tự chuỗi thời gian dạng luồng PHỤ LỤC 1: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH VIỆT Thuật ngữ tiếng Anh adaptive piecewise constant batch processing best-fit branch and bound bottom skyline continuous queries ceferred update policy depth first search dimensional reduction Discrete Fourier Transform Discrete Wavelet Transform Dynamic Time Warping eigenwave entry envelope error bounds false dismissals Fast Fourier Transform feature extraction fraction update histograms Incremental DFT Computation internal node leaf node lower bound Minimum Bounding Rectange mobility multiple contiuous queries multidimensional hash multi-resolution model online transform-based summarization overlap Piecewise Aggregate Approximation Trần Thị Thanh Nga - 10070489 Thuật ngữ tiếng Việt xấp xỉ số đoạn thích nghi xử lý hàng loạt xấp xỉ tốt nhánh cận đường chân trời truy vấn liên tục sách cập nhật trì hỗn tìm kiếm theo chiều sâu thu giảm số chiều phép biến đổi Fourier rời rạc phép biến đổi Wavelet rời rạc xoắn thời gian động đường giá trị riêng phần tử vùng bao giới hạn lỗi tìm kiếm sót phép biến đổi Fourier nhanh rút trích đặc trưng cập nhật riêng phần biểu đồ tần số tính tốn DFT gia tăng nút nội nút cận hình chữ nhật bao nhỏ tính di động đa truy vấn cập nhật liên tục bảng băm đa phân giải mơ hình đa phân giải tổng hợp trực tuyến dựa biến đổi chồng lấp xấp xỉ gộp đoạn Viết tắt APCA Bsky DFT DWT DTW FFT IDC MBR PAA i Tìm kiếm tương tự chuỗi thời gian dạng luồng Piecewise Linear Approximation Piecewise Linear Representation point queries priority queue pruning power randomized algorithm random sampling Recursive least squares estimation segmentation similarity join query similarity k-nearest neighbors query similarity range query sketches Skyline Bounding Region sliding window spatial access methods squared error static time series stream data streaming time series subsequence matching synopsis time series top skyline transform-based online summary whole matching Trần Thị Thanh Nga - 10070489 xấp xỉ tuyến tính đoạn biểu diễn tuyến tính đoạn truy vấn điểm hàng đợi ưu tiên hiệu suất thu giảm thuật toán ngẫu nhiên lấy mẫu ngẫu nhiên dự đốn bình phương tối thiểu đệ quy phân đoạn truy vấn tương tự kết nối truy vấn tương tự k-láng-giềng-gầnnhất truy vấn tương tự vùng tóm tắt vùng bao đường chân trời cửa sổ trượt phương pháp mục khơng gian bình phương sai số chuỗi thời gian tĩnh liệu luồng chuỗi thời gian dạng luồng so trùng chuỗi tóm tắt chuỗi thời gian đường chân trời tóm tắt trực tuyến dựa biến đổi so trùng toàn PLA RLSE k-NN SBR SAM TSky ii Tìm kiếm tương tự chuỗi thời gian dạng luồng PHỤ LỤC 2: LÝ LỊCH TRÍCH NGANG Họ tên: TRẦN THỊ THANH NGA Ngày, tháng, năm sinh: 01/05/1982 Nơi sinh: Thái Bình Địa liên lạc: 144/9, đường số 9, phường Linh Tây, Q Thủ Đức, TP HCM Email: ngattt82@gmail.com QUÁ TRÌNH ĐÀO TẠO  Năm 2005-2009: Sinh viên trường Đại học Khoa học Tự nhiên – ĐHQGHN  Năm 2010-2012: Học viên Cao học trường ĐH Bách Khoa TPHCM, Khoa Khoa học & Kỹ thuật Máy tính Q TRÌNH CƠNG TÁC  2003-2010: Nhân viên, làm việc Trung tâm Nghiên cứu phát triển Công nghệ phần mềm - Trường ĐH Công nghệ - ĐHQGHN Trần Thị Thanh Nga - 10070489 iii ... vii Tìm kiếm tương tự chuỗi thời gian dạng luồng CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI 1.1 Dữ liệu chuỗi thời gian Chuỗi thời gian (time series) liệu có yếu tố thời gian quan sát theo thời gian Dữ liệu. .. kiếm tương tự chuỗi thời gian dạng luồng 1.3 Truy vấn tương tự chuỗi thời gian dạng luồng Khác với sở liệu truyền thống, sở liệu chuỗi thời gian chứa liệu bị nhiễu liệu sai Do khả tồn hai chuỗi thời. .. 10070489 ii Tìm kiếm tương tự chuỗi thời gian dạng luồng TÓM TẮT LUẬN VĂN Tìm kiếm tương tự liệu chuỗi thời gian toán quan trọng lĩnh vực khai phá liệu Với phát triển nhanh chóng liệu chuỗi thời gian

Ngày đăng: 29/08/2021, 17:42

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN