1. Trang chủ
  2. » Tất cả

Hcmute phát hiện motif trên chuỗi thời gian dựa vào cấu trúc chỉ mục đa chiều và ý tưởng từ bỏ sớm

53 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 53
Dung lượng 2,81 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH CƠNG TRÌNH NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG PHÁT HIỆN MOTIF TRÊN CHUỖI THỜI GIAN DỰA VÀO CẤU TRÚC CHỈ MỤC ĐA CHIỀU VÀ Ý TƯỞNG TỪ BỎ SỚM S K C 0 9 MÃ SỐ: T2014-20TĐ S KC 0 Tp Hồ Chí Minh, 2014 Luan van TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH KHOA CƠNG NGHỆ THƠNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KH&CN CẤP TRƯỜNG TRỌNG ĐIỂM PHÁT HIỆN MOTIF TRÊN CHUỖI THỜI GIAN DỰA VÀO CẤU TRÚC CHỈ MỤC ĐA CHIỀU VÀ Ý TƯỞNG TỪ BỎ SỚM Mã số: T2014-20TĐ Chủ nhiệm đề tài: Nguyễn Thành Sơn TP HCM, 12/2014 Luan van MỤC LỤC DANH MỤC CÁC HÌNH ẢNH DANH MỤC CÁC TỪ VIẾT TẮT PHẦN MỞ ĐẦU PHẦN NỘI DUNG 10 CHƯƠNG Các kiến thức sở 10 1.1 Tổng quan đề tài 10 1.2 Các cơng trình liên quan 12 1.2.1 Các độ đo tương tự 12  Độ đo Minkowski 13  Độ đo xoắn thời gian động 14 1.2.2 Thu giảm số chiều chuỗi thời gian 15  Điều kiện chặn 16 1.2.3 Các phương pháp thu giảm số chiều dựa vào rút trích đặc trưng 16 1.3 Rời rạc hóa chuỗi thời gian 22 1.4 Cấu trúc mục R-tree 23 1.5 Phát motif liệu chuỗi thời gian 24 1.5.1 Các khái niệm motif .24 1.5.2 Tổng quan số phương pháp phát motif tiêu biểu 28 CHƯƠNG Phương pháp đề xuất 35 2.1 Độ đo khoảng cách 35 2.2 Kỹ thuật từ bỏ sớm 38 2.3 Mô tả giải thuật 38 CHƯƠNG Kết thực nghiệm 41 CHƯƠNG Kết luận hướng phát triển 45  Đóng góp đề tài 45  Hạn chế đề tài 45  Hướng phát triển 45 TÀI LIỆU THAM KHẢO 46 i Luan van DANH MỤC CÁC HÌNH ẢNH Hình 1.1 Đường biểu diễn chuỗi thời gian 10 Hình 1.2 Ví dụ motif chuỗi xuất ba lần chuỗi thời gian dài 11 Hình 1.3 Minh họa hai chuỗi thời gian giống 13 Hình 1.4 Khoảng cách hai đường biểu diễn giống hình dạng lệch thời gian 14 Hình 1.5 Minh họa cách tính khoảng cách theo DTW 15 Hình 1.6 Minh họa phương pháp DFT 17 Hình 1.7 Minh họa phương pháp Haar Wavelet 18 Hình 1.8 Minh họa phương pháp PAA 19 Hình 1.9 Các trường hợp hai đoạn có giá trị trung bình khoảng cách Euclid khác 19 Hình 1.10 Minh họa trình nhận dạng điểm PIP 21 Hình 1.11 Minh họa kỹ thuật xén liệu chuỗi thời gian có chiều dài 64 21 Hình 1.12 Minh họa phương pháp SAX với a = 23 Hình 1.13 Minh họa R-tree 24 Hình 1.14 Một ví dụ chuỗi tương tự tầm thường 25 Hình 1.15 A) Một ví dụ hai motif có chung số đối tượng (B) minh họa hai motif thỏa DISTANCE(Ci, Ck) > 2R 26 Hình 1.16 Giải thuật brute-force dùng phát motif bậc theo định nghĩa 28 Hình 1.17 Ví dụ minh họa chuỗi thời gian T biểu diễn SAX chuỗi T 30 Hình 1.18 Ví dụ minh họa lần lặp thứ giải thuật chiếu ngẫu nhiên 30 Hình 1.19 Một ví dụ minh họa ý tưởng sử dụng điểm tham chiếu 32 Hình 2.1 Một ví dụ cách tính Dregion(s, R) 36 Hình 2.2 Minh họa trực quan ý tưởng kỹ thuật từ bỏ sớm 38 Hình 2.3 Thuật tốn phát motif bậc k hàng đầu (theo Định nghĩa 1.5) với hỗ trợ R*-tree 39 Hình 2.4 Minh họa thuật tốn tính khoảng cách Euclid kết hợp với ý tưởng từ bỏ sớm 40 Luan van Hình 3.1 Các kết thực nghiệm thời gian thực độ hữu hiệu ba thuật toán tập liệu Stock với chiều dài motif khác kích thước tập liệu chọn cố định (10000 chuỗi) 42 Hình 3.2 Các kết thực nghiệm thời gian thực độ hữu hiệu ba thuật toán tập liệu Stock với kích thước khác chiều dài motif cố định 512 43 Hình 3.3 Các kết thực nghiệm thời gian thực độ hữu hiệu ba thuật toán tập liệu khác với kích thước cố định (10000 chuỗi) chiều dài motif cố định 512 44 Luan van DANH MỤC CÁC TỪ VIẾT TẮT APCA Adaptive Piecewise Constant Approximation DTW Dynamic Time Warping DFT Discrete Fourier Transform DWT Discrete Wavelet Transform EP Extreme Points ESAX Extended Symbolic Aggregate approximation iSAX indexable SAX k-NN k-Nearest Neighbors MBR Minimum Bounding Rectangle MK Mueen Keogh MrMotif Multi-resolution Motif PAA Piecewise Aggregate Approximation PIP Perceptually Important Point SAX Symbolic Aggregate approXimation Luan van TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc KHOA CNTT Tp HCM, Ngày tháng 11 năm 2014 THÔNG TIN KẾT QUẢ NGHIÊN CỨU Thông tin chung: - Tên đề tài: Phát motif chuỗi thời gian dựa vào cấu trúc mục đa chiều ý tưởng từ bỏ sớm việc tính khoảng cách Euclid - Mã số: T2014-20TĐ - Chủ nhiệm: Nguyễn Thành Sơn - Cơ quan chủ trì: Trường Đại học SPKT Tp HCM - Thời gian thực hiện: 6/2013- 10/2014 Mục tiêu: Đề xuất phương pháp cho toán phát motif chuỗi thời gian phân tích trực tiếp liệu chuỗi thời gian dạng số mà không cần phải qua giai đoạn rời rạc hóa số phương pháp phát motif giới thiệu phương pháp đạt hiệu mặt thời gian lẫn khơng gian lưu trữ Tính sáng tạo: Phương pháp phát motif dựa vào cấu trúc mục đa chiều ý tưởng từ bỏ sớm việc tính khoảng cách Euclid giúp thực tốn phát motif đạt hiệu mặt thời gian lẫn khơng gian lưu trữ Ngồi ra, phương pháp phân tích trực tiếp liệu chuỗi thời gian dạng số mà không cần phải qua giai đoạn rời rạc hóa liệu Kết nghiên cứu: Đề xuất phương pháp cho toán phát motif liệu chuỗi thời gian dựa vào cấu trúc mục đa chiều ý tưởng từ bỏ sớm việc tính khoảng cách Euclid Sản phẩm: Một báo đăng tạp chí Khoa học Cơng nghệ, báo cáo chương trình demo Luan van Hiệu quả, phương thức chuyển giao kết nghiên cứu khả áp dụng: Có thể áp dụng giảng dạy sau đại học chuyên đề chuỗi thời gian, sử dụng làm sở cho việc phát triển ứng dụng lĩnh vực liên quan khác Trưởng Đơn vị (ký, họ tên) Chủ nhiệm đề tài (ký, họ tên) Luan van INFORMATION ON RESEARCH RESULTS General information: Project title: Discovering approximate k-motifs in a long time series with the support of R*-tree and the idea of early abandoning Code number: T2014-20TĐ Coordinator: Nguyen Thanh Son Implementing institution: HCM City University of Technical Education Duration: from 6/2013 to 10/2014 Objective(s): Propose a new method for discovering time series motif with the support of R*-tree and the idea of early abandoning This method can work directly on numerical time series data but without applying some discretization process and be disk efficient Creativeness and innovativeness: A new method for discovering time series motif with the support of R*-tree and the idea of early abandoning This approach employs the index structure to speed up the search for matching neighbors of a subsequence and is disk efficient It can work directly on numerical time series data but without applying some discretization process Research results: We proposed a new method for discovering time series motif with the support of R*-tree and the idea of early abandoning Products: A paper published in Journal of Science and Technology, a technical report and a demo Effects, transfer alternatives of reserach results and applicability: It can be used to lecture for the major course of time series at postgraduate level or as a base for developing application softwares in some other relevant areas Luan van PHẦN MỞ ĐẦU Tình hình nghiên cứu ngồi nước Từ hình thức hóa vào năm 2002, phát motif liệu chuỗi thời gian dùng để giải toán nhiều lĩnh vực ứng dụng khác ví dụ dùng motif để kiểm tra chữ ký [14], dùng motif để phát hình ảnh lặp sở liệu hình dạng [42], dùng motif để dự báo giá chứng khoán [18], dùng bước tiền xử lý nhiều công việc khai phá liệu cao cấp hơn, ví dụ gom cụm chuỗi thời gian [33], phân lớp chuỗi thời gian [3] Hiển nhiên, độ phức tạp phương pháp phát xác motif theo kiểu brute-force bậc hai theo số chuỗi sở liệu chuỗi thời gian hay chiều dài chuỗi thời gian mà từ chuỗi trích Vì lý đó, có nhiều thuật tốn phát motif xấp xỉ giới thiệu ([6], [2], [28], [29], [36], [43]) Các cách tiếp cận thường có độ phức tạp tính tốn O(n) hay O(nlogn), với n số chuỗi sở liệu chuỗi thời gian hay chiều dài chuỗi thời gian mà từ chuỗi trích Độ phức tạp giải thuật giảm so với phương pháp tìm kiếm xác Tuy nhiên, chúng u cầu số lớn tham số cần xác định trước Một số thuật toán phát motif xấp xỉ thường dựa kỹ thuật xử lý chuỗi ký tự Điều khuyến khích nhà nghiên cứu tìm kiếm phương pháp biến đổi khác để chuyển chuỗi thời gian thành chuỗi ký tự, sau sử dụng kỹ thuật xử lý chuỗi có để phát motif Trong số thuật toán đề xuất, thuật tốn thơng dụng phương pháp chiếu ngẫu nhiên Chiu cộng giới thiệu [6] Thuật tốn phát motif thời gian tuyến tính Đây thuật tốn trích dẫn nhiều sở cho nhiều cách tiếp cận việc giải toán phát motif liệu chuỗi thời gian ([43], [39]) Tuy nhiên, kỹ thuật xử lý chuỗi ký tự chưa thật hữu hiệu làm việc chuỗi thời gian dạng số Tính cấp thiết đề tài Dữ liệu chuỗi thời gian loại liệu sử dụng phổ biến lĩnh vực khoa học, công nghệ, y học thương mại Chẳng hạn, y khoa người ta sử Luan van Trước giới thiệu định nghĩa Dregion(s, R), chúng tơi mơ tả cách tính khoảng cách cho thỏa mãn điều kiện chặn nhóm (group lower bound condition), nghĩa Dregion(s, R) ≤ D(s, C), với chuỗi C MBR R Chú ý chuỗi thời gian có chiều dài n xem điểm không gian n chiều Giả sử xây dựng cấu trúc mục cho chuỗi thời gian cách chèn điểm C = {c1, c2, , cn} vào cấu trúc mục đa chiều dựa MBR Giả sử xấp xỉ chuỗi thời gian có chiều dài n m đoạn có chiều dài (m R) Xóa x khỏi X if (X is null) Break else { if (L is null) L1 = X else if (DIS_EARLY_ABAN (si, Cj, 2R) > 2R Cj L) { if (số phần tử L < k) Chèn X vào L cho phần tử L theo thứ tự giảm dần số đối tượng có phần tử Else If (số đối tượng X > số đối tượng phần tử Lk ) Xóa phần tử Lk khỏi L Chọn vị trí y L có số đối tượng lớn thỏa điều kiện số đối tượng phần tử Ly < số đối tượng X Chèn X vào L vị trí y } } Tìm vùng bao chữ nhật nhỏ chuỗi sj (MBRj) ADD(MBRj, R*-tree) } // tìm lân cận khơng tầm thường chuỗi si phạm vi ngưỡng R R*-tree NEAREST_THRESHOLD_R(si, R*-tree, R) Duyệt R*-tree gốc để tìm nút mk có Dregion(si, MBRk) ≤ R Với nút mk tìm được, Tìm phần tử x mk lân cận không tầm thường phạm vi ngưỡng R si Đưa vị trí x vào danh sách (X) lân cận không tầm thường chuỗi si Trả X ADD(MBRj, R*-tree) //Chèn chuỗi thời gian j vào R*-tree dựa vào MBRj Chọn R*-tree cho MBR cần mở rộng chèn MBRj vào Thêm phần tử vào nút Nếu nút bị đầy -Tách nút thành hai nút cho tổng diện tích hai vùng bao hai nút sau tách nhỏ - Tiến trình tách nút lặp lại cho nút cha nút cha bị đầy việc tách nút gây Hình 2.3 Thuật tốn phát motif bậc k hàng đầu (theo Định nghĩa 1.5) với hỗ trợ R*-tree 39 Luan van Trong thuật toán Hình 2.3, thủ tục NEAREST_THRESHOLD_R(si, R*-tree, R) dùng để tìm lân cận khơng tầm thường chuỗi si phạm vi ngưỡng tương tự R dựa vào hỗ trợ cấu trúc mục R*-tree Thủ tục NEAREST_THRESHOLD_R sử dụng hàm tính khoảng cách Dregion(s, R) chuỗi s MBR R R*-tree, xác định Định nghĩa 2.1 thỏa Bổ đề 2.1 Thủ tục trả danh sách X chứa vị trí chuỗi lân cận khơng tầm thường chuỗi si Khi có danh sách X, chuỗi sx tương ứng với phần tử x X khôi phục gọi hàm DIS_EARLY_ABAN(si, sx, R) để tính khoảng cách Euclid hai chuỗi si, sx có áp dụng ý tưởng từ bỏ sớm (xem Hình 2.4) Nếu DIS_EARLY_ABAN(si, sx, R) > R x xóa bỏ X Nếu X thỏa điều kiện định nghĩa motif (Định nghĩa 1.5), chèn vào danh sách motif bậc k hàng đầu cho phần tử danh sách thứ tự giảm dần theo số đối tượng phần tử danh sách Quá trình lặp lại khơng cịn chuỗi cần xem xét // Hàm tính khoảng cách Euclid kết hợp với ý tưởng từ bỏ sớm DIS_EARLY_ABAN(x, y, BestSoFar) sum = 0; Bsf = BestSoFar * BestSoFar For (i = 0; i < x.length and sum ≤ Bsf; i++) sum = sum + (xi - yi) * (xi - yi) return square_root(sum) Hình 2.4 Minh họa thuật tốn tính khoảng cách Euclid kết hợp với ý tưởng từ bỏ sớm Để giảm độ phức tạp, thuật toán áp dụng cho tốn phát motif xấp xỉ chuỗi thời gian biến đổi phương pháp thu giảm số chiều dùng với R*-tree PAA, APCA, DFT, DWT, v.v 40 Luan van CHƯƠNG Kết thực nghiệm Các giải thuật dùng thực nghiệm viết ngôn ngữ C# chạy máy Core Duo 1.60 GHz, 1.00 GB RAM Thực nghiệm thực so sánh hai phương pháp phát motif đề xuất luận án với giải thuật chiếu ngẫu nhiên (Random Projection - RP) Giải thuật chiếu ngẫu nhiên lựa chọn để so sánh thuật tốn sử dụng rộng rãi để phát motif chuỗi thời gian từ giới thiệu, phát motif thời gian tuyến tính, thuật tốn trích dẫn nhiều sở cho nhiều cách tiếp cận cho toán phát motif liệu chuỗi thời gian ([43], [39]) Ngồi ra, chúng tơi cịn so sánh phương pháp đề xuất với cách tiếp cận sử dụng R*-tree Sự so sánh dựa thời gian thực độ hữu hiệu (efficiency) Ở đây, đánh giá độ hữu hiệu thuật toán đề xuất dựa tỉ số số lần hàm tính khoảng cách Euclid gọi với số lần gọi hàm tính khoảng cách Euclid thực thuật toán brute force [24] Số lần phương pháp đề xuất gọi hàm tính khoảng cách Euclid Độ hữu hiệu = (3.1) Số lần thuật tốn brute-force gọi hàm tính khoảng cách Euclid (3.1) Phương pháp có giá trị độ hữu hiệu thấp phương pháp tốt Độ hữu hiệu cho thấy mức độ cải tiến phương pháp đề xuất so với giải thuật bruteforce Trong hai tiêu chuẩn đánh giá độ hữu hiệu xem quan trọng tiêu chuẩn hoàn toàn độc lập với thực hệ thống Thực nghiệm thực bốn tập liệu khác nhau: hai tập liệu có nhiều chuỗi lặp lại: ECG, Waveform, Stock Consumer Chúng thực thực nghiệm tập liệu có kích thước khác từ 10000 đến 30000 chuỗi cho tập chiều dài motif biến đổi từ 128 đến 1024 Trong thực nghiệm tỉ lệ thu giảm số chiều chọn 32:1 cho tất phương pháp Với phương pháp RP, kích thước ký tự SAX chọn Số cột chọn để dùng làm mặt nạ (mask) chọn ngẫu nhiên từ đến 20 nhằm đảm bảo phân bố phép chiếu đủ rộng để ngăn chặn độ phức tạp thuật toán trở thành bậc hai Kết thực nghiệm phương pháp RP trình bày báo cáo kết trung bình 41 Luan van lần lặp (chúng cho RP thực lặp 10 lần tính kết trung bình lần lặp) Tuy nhiên, phương pháp lặp, RP cần thực nhiều lần lặp để kết hội tụ Lý so sánh kết lần lặp thấy phương pháp đề xuất thực tốt phương pháp RP thực lần lặp  Kết thực nghiệm Run R*-tree Time 20 (s) RP Run Time (s) R*-tree + E aban 15 R*-tree R*-tree + E aban 10 0 (a) 128 256 512 Efficiency 1024 motif length R*-tree RP 128 256 (b) 128 256 512 1024 Motif length R*-tree + E aban 0.15 0.1 0.05 (c) 512 1024 Motif length Hình 3.1 Các kết thực nghiệm thời gian thực độ hữu hiệu ba thuật toán tập liệu Stock với chiều dài motif khác kích thước tập liệu chọn cố định (10000 chuỗi) Hình 3.1 trình bày kết thực nghiệm từ ba thuật toán dùng R*-tree, RP R*-tree kết hợp với ý tưởng từ bỏ sớm thực tập liệu Stock có kích thước 10000 chuỗi với chiều dài motif khác Hình 3.1(a) kết thực nghiệm thời gian thực ba thuật tốn Hình 3.1(b) trình bày kết so sánh thời gian thực hai phương pháp dùng R*-tree R*-tree kết hợp với ý tưởng từ bỏ sớm Hình 3.1(c) trình bày kết so sánh độ hữu hiệu ba thuật tốn Chúng ta thấy hai Hình 3.1(a) Hình 3.1(b), thời gian thực phương pháp dùng R*-tree kết hợp với ý tưởng từ bỏ sớm tốt so với thời gian thực hai phương pháp cịn lại Trong Hình 3.1(c), thấy độ hữu hiệu phương pháp dùng R*-tree kết hợp với ý tưởng từ bỏ sớm độ hữu hiệu phương pháp dùng R*-tree giống nhau, độ hữu hiệu hai phương pháp tốt so với độ hữu hiệu phương pháp RP 42 Luan van Run R*-tree Time (s) 300 RP Run Time 40 (s) R*-tree + E aban R*-tree R*-tree + E aban 30 200 20 100 10 (a) 10000 15000 20000 25000 30000 (b) Number of sequences Efficiency R*-tree RP 10000 15000 20000 25000 30000 Number of sequences R*-tree + E aban 0.06 0.04 0.02 (c) 10000 15000 20000 25000 30000 Number of sequences Hình 3.2 Các kết thực nghiệm thời gian thực độ hữu hiệu ba thuật toán tập liệu Stock với kích thước khác chiều dài motif cố định 512 Hình 3.2 trình bày kết thực nghiệm từ ba thuật toán dùng R*-tree, RP R*- tree kết hợp với ý tưởng từ bỏ sớm thực tập liệu Stock với kích thước khác chiều dài motif cố định 512 Hình 3.2(a) kết thực nghiệm thời gian thực ba thuật tốn Hình 3.2(b) trình bày kết so sánh thời gian thực hai phương pháp dùng R*-tree R*-tree kết hợp với ý tưởng từ bỏ sớm Hình 3.2(c) trình bày kết so sánh độ hữu hiệu ba thuật toán Kết thực nghiệm trường hợp cho thấy thời gian thực phương pháp dùng R*-tree kết hợp với ý tưởng từ bỏ sớm tốt so với hai phương pháp lại Độ hữu hiệu phương pháp dùng R*-tree kết hợp với ý tưởng từ bỏ sớm độ hữu hiệu phương pháp dùng R*-tree giống Độ hữu hiệu hai phương pháp tốt độ hữu hiệu phương pháp RP Hình 3.3 trình bày kết thực nghiệm từ ba thuật toán dùng R*-tree, RP R*- tree kết hợp với ý tưởng từ bỏ sớm thực bốn tập liệu khác có kích thước cố định (10000 chuỗi) chiều dài motif chọn cố định 512 Hình 3.3(a) kết thực nghiệm thời gian thực ba thuật tốn Hình 3.3(b) trình bày kết so sánh thời gian thực hai phương pháp dùng R*-tree R*tree kết hợp với ý tưởng từ bỏ sớm Hình 3.3(c) trình bày kết so sánh độ hữu hiệu ba thuật toán Một lần nữa, thời gian thực phương pháp dùng R*-tree 43 Luan van kết hợp với ý tưởng từ bỏ sớm tốt so với hai phương pháp lại Độ hữu hiệu phương pháp dùng R*-tree kết hợp với ý tưởng từ bỏ sớm độ hữu hiệu phương pháp dùng R*-tree giống Độ hữu hiệu hai phương pháp tốt độ hữu hiệu phương pháp RP R*-tree Run Time 150 (s) RP Run Time (s) 40 R*-tree + E aban 100 R*-tree R*-tree + E aban 20 50 0 (a) Stock ECG W.Form Consumer (b) Datasets R*-tree Stock ECG W.Form Consumer Datasets RP R*-tree + E aban ECG W.Form Consumer Efficiency 0.4 0.3 0.2 0.1 (c) Stock Datasets Hình 3.3 Các kết thực nghiệm thời gian thực độ hữu hiệu ba thuật toán tập liệu khác với kích thước cố định (10000 chuỗi) chiều dài motif cố định 512 Kết thực nghiệm cho thấy phương pháp chúng tơi đề xuất có kết tốt so với phương pháp RP dựa hai số đánh giá thường sử dụng nghiên cứu toán phát motif chuỗi thời gian thời gian thực thi độ hữu hiệu Có điều chúng tơi sử dụng cấu trúc mục đa chiều giúp tìm lân cận gần cách hữu hiệu, sử dụng ý tưởng từ bỏ sớm việc tính khoảng cách Euclid giúp tăng nhanh tốc độ tính tốn giai đoạn hậu kiểm (nghĩa giảm độ phức tạp tính tốn khoảng cách Euclid) Trong phương pháp RP phải thực lặp lại việc chiếu ngẫu nhiên nhiều lần có kết hội tụ, điều gây chi phí tính tốn cao 44 Luan van CHƯƠNG Kết luận hướng phát triển Chương trình bày đóng góp nghiên cứu đề tài này, số hạn chế hướng phát triển tương lai  Đóng góp đề tài Đề tài đề xuất đề xuất phương pháp sử dụng cấu trúc mục đa chiều (R*-tree) kết hợp với ý tưởng từ bỏ sớm Kết thực nghiệm cho thấy phương pháp đề xuất thực toán phát motif hữu hiệu so với phương pháp chiếu ngẫu nhiên dựa hai tiêu chí thời gian thực độ hữu hiệu  Hạn chế đề tài Điểm hạn chế việc sử dụng cấu trúc mục R*-tree MBR nút mức phủ lấp Sự phủ lấp (overlap) làm giảm hiệu thực thi việc tìm kiếm dựa vào mục  Hướng phát triển Từ nghiên cứu kết đạt đề tài này, đề nghị hướng nghiên cứu sau: Cải tiến mục R*-tree nghiên cứu cấu trúc mục khác nhằm khắc phục điểm hạn chế mục R*-tree 45 Luan van TÀI LIỆU THAM KHẢO [1] R Agrawal, C Faloutsos, A Swami , "Efficient similarity search in sequence databases," in Proceedings of the 4th International Conference on Foundations of Data Organization and Algorithms, Chicago, 1993, pp 69-84 [2] P Beaudoin, S Coros, M van de Panne, Pierre Poulin, "Motion-motif graphs in time series," in SCA '08 Proceedings of the 2008 ACM SIGGRAPH/Eurographics Symposium on Computer Animation, 2008, pp 117-126 [3] K Buza and L S Thieme, "Motif-based Classification of Time Series with Bayesian Networks and SVMs," in A Fink et al (eds.) Advances in Data Analysis, Data Handling and Business Intelligences, Studies in Classification, Data Analysis, Knowledge Organization Springer-Verlag, 2010, pp 105-114 [4] N Beckmann, H Kriegel, R Schneider, B Seeger, "The R*-tree: An efficient and robust access method for points and rectangles," in Proc of 1990 ACM SIGMOD Conf., Atlantic City, NJ, 1990, pp 322-331 [5] D Berndt and J Clifford, "Finding Patterns in time series: a dynamic programming approach," Journal of advances in Knowledge Discovery and Data Mining, pp 229248, 1996 [6] B Chiu, E Keogh, S Lonardi, "Probabilistic discovery of time series motifs," in Proc of the 9th International Conference on Knowledge Discovery and Data mining (KDD'03), 2003, pp 493-498 [7] N Castro and P Azevedo, "Multiresolution Motif Discovery in Time Series," in Proceedings of the SIAM International Conference on Data Mining (SDM 2010), Columbus, Ohio, USA, 2010, pp 665-676 [8] K Chan and A W Fu, "Efficient Time Series Matching by Wavelets," in Proceedings of the 15th IEEE Int'l Conference on Data Engineering, Sydney, Australia, 1999, pp 126-133 [9] F.L Chung, T.C Fu, R Luk, V Ng, "Flexible Time Series Pattern Matching Based on Perceptually Important Points," in International Joint Conference on Artificial Intelligence Workshop on Learning from Temporal and Spatial Data, 2001, pp 17 [10] P Ferreira, P Azevedo, C Silva, R Brito, "Mining approximate motifs in time series," in proc of the 9th Int Conf on Discovery Science., 2006, pp 89-101 [11] C Faloutsos, M Ranganathan, Y Manolopoulos, "Fast Subsequence Matching in Time Series Databases," in Proceedings of the ACM SIGMOD International Conference on Management of Data, Minneapolis, NM, 1994, pp 419-429 46 Luan van [12] E Fink, K B Pratt, "Indexing of compressing time series," in Mark Last, Abraham Kandel and Horst Bunke, editors Data mining in time series Databases, World Scientific, Singapore., 2003 [13] E Fink, H S Gandhi, "Compression of time series by extracting major extrema," Journal of Experimental & Theoretical Artificial Intelligence, vol 23, no 2, pp 255270, Jun 2011 [14] C Gruber, M Coduro, B Sick, "Signature Verification with Dynamic RBF Networks and Time Series Motifs," in Proc of 10th Int Workshop on Frontiers in Handwriting Recognition, p 2006 [15] A Guttman, "R-trees: a Dynamic Index Structure for Spatial Searching," in Proc of the ACM SIGMOD Int Conf on Management of Data, 1984, pp 47-57 [16] R Hyndman Time Series Data Library [Online] http://www.datamarket.com [17] J Han and M Kamber, Data Mining: Concepts and Techniques, Second Edition ed Morgan Kaufmann publishers, 2006 [18] Y Jiang, C Li, J Han, "Stock temporal prediction based on time series motifs," in Proc of 8th Int Conf on Machine Learning and Cybernetics, 2009 [19] E Keogh, "A Tutorial on Indexing and Mining Time Series Data," in The IEEE International Conference on Data Mining (ICDM 2001), San Jose, USA, November 29, 2001 [20] E Keogh, "Mining Shape and Time Series Databases with Symbolic Representations," in Tutorial of the 13rd ACM International Conference on Knowledge Discovery and Data mining (KDD 2007), 2007, pp 12-15 [21] E Keogh and C A Ratanamahatana, "Exact Indexing of Dynamic Time Warping," in VLDB '02 Proceedings of the 28th international conference on Very Large Data Bases , 2002, pp 406-417 [22] E Keogh, K Chakrabarti , M Pazzani , S Mehrotra , "Dimensionality Reduction for Fast Similarity Search in Large Time Series Databases," in Proceedings of Conference on Knowledge and Information Systems, 2000, pp 263-286 [23] E Keogh, K Chakrabarti, S Mehrotra, M Pazzani, "Locally Adaptive Dimensionality Reduction for Indexing Large Time Series Databases," in Proceedings of ACM SIGMOD Conference on Management of Data, Santa Barbara, CA, 2001, pp 151-162 [24] J Lin, E Keogh, S Lonardi, P Patel , "Finding Motifs in Time Sries," in Proc 2nd Workshop on Temporal Data Mining, Edmonton, Alberta, Canada, 2002 [25] Y Lin, M D McCool, A A Ghorbani, "Motif and Anomaly Discovery of TimeSeries Based on Subseries Join," in Proceedings of the International 47 Luan van MultiConference of Engineers and Computer Scientists (IMECS 2010), Hong Kong, 2010 [26] B Lkhagva, Y Suzuki, and K Kawagoe, "New Time Series Data Representation ESAX for Financial Applications," in Proceedings of the International Special Workshop on Databases for Next-Generation Researchers (SWOD 2006) in conjunction with International Conference on Data Engineering, ICDE 2006 , Georgia, USA, 2006, pp 17-22 [27] J Lin, E Keogh, S Leonardi, B Chiu, "A symbolic Representation of Time Series with Implications for Streaming Algorithms," in Proceedings of the 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery, San Diego, CA, 2003, pp 2-11 [28] J Meng, J Yuan, M Hans and Y Wu, "Mining Motifs from Human Motion," in Proc of EUROGRAPHICS, 2008 [29] D Minnen, C L Isbell, I Essa, T Starner, "Discovering Multivariate Motifs using Subsequence Density Estimation and Greedy Mixture Learning," in AAAI'07 Proceedings of the 22nd national conference on Artificial intelligence, 2007, pp 615620 [30] A Mueen, E Keogh , Q Zhu , S Cash, "Exact Discovery of Time Series Motifs," in Proc of SIAM Int on Data Mining, 2009, pp 473-484 [31] D Minnen, C Isbell, I Essa, T Starner, "Detecting Subdimensional Motifs: An Efficient Algorithm for Generalized Multivariate Pattern Discovery," in Seventh IEEE International Conference on Data Mining, 2007, pp 601-606 [32] A Metwally, D Agrawal, A El Abbadi , "Efficient Computation of Frequent and Top-k Elements in Data Streams," in Proceedings of the 10th International Conference on Database Theory, 2005, pp 398-412 [33] L Phu and D T Anh, "Motif-based Method for Initialization k-Means Clustering of Time Series Data ," in Proc of 24th Australasian Joint Conference (AI 2011), Dianhui Wang, Mark Reynolds (Eds.), LNAI 7106, Springer-Verlag, Perth, Australia, Dec 5-8, 2011, pp 11-20 [34] K.B Pratt, and E.Fink, (2002) ‘Search for patterns in compressed time series’, International Journal of Image and Graphics, Vol 2, No 1, pp.89–106 [35] I Popivanov, R J Miller, "Efficient Similarity Queries Over Time Series Data Using Wavelets," in Proceedings of the 18th International Conference on Data Engineering, San Jose, California, USA, 2002, pp 212-221 [36] S Rombo and G Terracina, "Discovering representative models in large time series databases," in Proc of the 6th International Conference on Flexible Query Answering Systems, 2004, pp 84-97 48 Luan van [37] A Ratanamahatana, E Keogh, A J Bagnall, S Lonardi, "A Novel Bit Level Time Series Representation with Implications for Similarity Seach and Clustering," in Proc 9th Pacific-Asian Int Conf on Knowledge Discovery and Data Mining (PAKDD’05), Hanoi, Vietnam, 2005, pp 51-65 [38] J Shieh and E Keogh, "iSAX: indexing and mining terabyte sized time series," in Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2008, pp 623-631 [39] Y Tanaka, K Iwamoto and K Uehara, "Discovery of Time Series Motif from Multi-Dimensional Data Based on MDL Principle," in Machine Learning 58, 2005, pp 269-300 [40] H Tang and S S Liao, "Discovering original motifs with different lengths from time series," Know.-Based Syst 21,7, pp 666-671, Oct 2008 [41] Cao Duy Truong, Duong Tuan Anh, 2013, An Efficient Method for Discovering Motif in Large Time Series.Proc of 5th Asian Conference on Intelligent Information and Database Systems (ACIIDS 2013), Part I, Kuala Lumpur, Malaysia, March 18-20, Ali Selamat, Ngoc Thanh Nguyen, Halibollar Haron (Eds.), LNAI 7802, SpringerVerlag, pp 135-145 [42] X Xi, E Keogh, L Wei, A Mafra-Neto, "Finding Motifs in a Database of Shapes," in Proc of SIAM, 2007, pp 249-270 [43] D Yankov, E Keogh, J Medina, B Chiu, V Zordan, "Detecting Motifs Under Uniform Scaling," in Proceedings of the 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2007, pp 844-853 49 Luan van S K L 0 Luan van ... ĐIỂM PHÁT HIỆN MOTIF TRÊN CHUỖI THỜI GIAN DỰA VÀO CẤU TRÚC CHỈ MỤC ĐA CHIỀU VÀ Ý TƯỞNG TỪ BỎ SỚM Mã số: T2014-20TĐ Chủ nhiệm đề tài: Nguyễn Thành Sơn TP HCM, 12/2014 Luan van MỤC LỤC DANH MỤC... lớp chuỗi thời gian. , … Ý nghĩa lý luận thực tiễn 3.1 Ý nghĩa lý luận Bài toán phát motif dựa tốn tìm kiếm tương tự Sử dụng cấu trúc mục đa chiều ý tưởng từ bỏ sớm giúp giảm thiểu thời gian. .. với chuỗi C MBR R Chú ý chuỗi thời gian có chiều dài n xem điểm không gian n chiều Giả sử xây dựng cấu trúc mục cho chuỗi thời gian cách chèn điểm C = {c1, c2, , cn} vào cấu trúc mục đa chiều dựa

Ngày đăng: 02/02/2023, 10:15

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w