Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 22 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
22
Dung lượng
2,8 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH CÔNG TRÌNH NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG PHÁT HIỆN MOTIF TRÊN CHUỖI THỜI GIAN DỰA VÀO CẤU TRÚC CHỈ MỤC ĐA CHIỀU VÀ Ý TƯỞNG TỪ BỎ SỚM S K C 0 9 MÃ SỐ: T2014-20TĐ S KC 0 Tp Hồ Chí Minh, 2014 TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KH&CN CẤP TRƯỜNG TRỌNG ĐIỂM PHÁT HIỆN MOTIF TRÊN CHUỖI THỜI GIAN DỰA VÀO CẤU TRÚC CHỈ MỤC ĐA CHIỀU VÀ Ý TƯỞNG TỪ BỎ SỚM Mã số: T2014-20TĐ Chủ nhiệm đề tài: Nguyễn Thành Sơn TP HCM, 12/2014 MỤC LỤC DANH MỤC CÁC HÌNH ẢNH DANH MỤC CÁC TỪ VIẾT TẮT PHẦN MỞ ĐẦU PHẦN NỘI DUNG 10 CHƯƠNG Các kiến thức sở 10 1.1 Tổng quan đề tài 10 1.2 Các công trình liên quan 12 1.2.1 Các độ đo tương tự 12 Độ đo Minkowski 13 Độ đo xoắn thời gian động 14 1.2.2 Thu giảm số chiều chuỗi thời gian 15 Điều kiện chặn 16 1.2.3 Các phương pháp thu giảm số chiều dựa vào rút trích đặc trưng 16 1.3 Rời rạc hóa chuỗi thời gian 22 1.4 Cấu trúc mục R-tree 23 1.5 Phát motif liệu chuỗi thời gian 24 1.5.1 Các khái niệm motif .24 1.5.2 Tổng quan số phương pháp phát motif tiêu biểu 28 CHƯƠNG Phương pháp đề xuất 35 2.1 Độ đo khoảng cách 35 2.2 Kỹ thuật từ bỏ sớm 38 2.3 Mô tả giải thuật 38 CHƯƠNG Kết thực nghiệm 41 CHƯƠNG Kết luận hướng phát triển 45 Đóng góp đề tài 45 Hạn chế đề tài 45 Hướng phát triển 45 TÀI LIỆU THAM KHẢO 46 i DANH MỤC CÁC HÌNH ẢNH Hình 1.1 Đường biểu diễn chuỗi thời gian 10 Hình 1.2 Ví dụ motif chuỗi xuất ba lần chuỗi thời gian dài 11 Hình 1.3 Minh họa hai chuỗi thời gian giống 13 Hình 1.4 Khoảng cách hai đường biểu diễn giống hình dạng lệch thời gian 14 Hình 1.5 Minh họa cách tính khoảng cách theo DTW 15 Hình 1.6 Minh họa phương pháp DFT 17 Hình 1.7 Minh họa phương pháp Haar Wavelet 18 Hình 1.8 Minh họa phương pháp PAA 19 Hình 1.9 Các trường hợp hai đoạn có giá trị trung bình khoảng cách Euclid khác 19 Hình 1.10 Minh họa trình nhận dạng điểm PIP 21 Hình 1.11 Minh họa kỹ thuật xén liệu chuỗi thời gian có chiều dài 64 21 Hình 1.12 Minh họa phương pháp SAX với a = 23 Hình 1.13 Minh họa R-tree 24 Hình 1.14 Một ví dụ chuỗi tương tự tầm thường 25 Hình 1.15 A) Một ví dụ hai motif có chung số đối tượng (B) minh họa hai motif thỏa DISTANCE(Ci, Ck) > 2R 26 Hình 1.16 Giải thuật brute-force dùng phát motif bậc theo định nghĩa 28 Hình 1.17 Ví dụ minh họa chuỗi thời gian T biểu diễn SAX chuỗi T 30 Hình 1.18 Ví dụ minh họa lần lặp thứ giải thuật chiếu ngẫu nhiên 30 Hình 1.19 Một ví dụ minh họa ý tưởng sử dụng điểm tham chiếu 32 Hình 2.1 Một ví dụ cách tính Dregion(s, R) 36 Hình 2.2 Minh họa trực quan ý tưởng kỹ thuật từ bỏ sớm 38 Hình 2.3 Thuật toán phát motif bậc k hàng đầu (theo Định nghĩa 1.5) với hỗ trợ R*-tree 39 Hình 2.4 Minh họa thuật toán tính khoảng cách Euclid kết hợp với ý tưởng từ bỏ sớm 40 Hình 3.1 Các kết thực nghiệm thời gian thực độ hữu hiệu ba thuật toán tập liệu Stock với chiều dài motif khác kích thước tập liệu chọn cố định (10000 chuỗi) 42 Hình 3.2 Các kết thực nghiệm thời gian thực độ hữu hiệu ba thuật toán tập liệu Stock với kích thước khác chiều dài motif cố định 512 43 Hình 3.3 Các kết thực nghiệm thời gian thực độ hữu hiệu ba thuật toán tập liệu khác với kích thước cố định (10000 chuỗi) chiều dài motif cố định 512 44 DANH MỤC CÁC TỪ VIẾT TẮT APCA Adaptive Piecewise Constant Approximation DTW Dynamic Time Warping DFT Discrete Fourier Transform DWT Discrete Wavelet Transform EP Extreme Points ESAX Extended Symbolic Aggregate approximation iSAX indexable SAX k-NN k-Nearest Neighbors MBR Minimum Bounding Rectangle MK Mueen Keogh MrMotif Multi-resolution Motif PAA Piecewise Aggregate Approximation PIP Perceptually Important Point SAX Symbolic Aggregate approXimation TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc KHOA CNTT Tp HCM, Ngày tháng 11 năm 2014 THÔNG TIN KẾT QUẢ NGHIÊN CỨU Thông tin chung: - Tên đề tài: Phát motif chuỗi thời gian dựa vào cấu trúc mục đa chiều ý tưởng từ bỏ sớm việc tính khoảng cách Euclid - Mã số: T2014-20TĐ - Chủ nhiệm: Nguyễn Thành Sơn - Cơ quan chủ trì: Trường Đại học SPKT Tp HCM - Thời gian thực hiện: 6/2013- 10/2014 Mục tiêu: Đề xuất phương pháp cho toán phát motif chuỗi thời gian phân tích trực tiếp liệu chuỗi thời gian dạng số mà không cần phải qua giai đoạn rời rạc hóa số phương pháp phát motif giới thiệu phương pháp đạt hiệu mặt thời gian lẫn không gian lưu trữ Tính sáng tạo: Phương pháp phát motif dựa vào cấu trúc mục đa chiều ý tưởng từ bỏ sớm việc tính khoảng cách Euclid giúp thực toán phát motif đạt hiệu mặt thời gian lẫn không gian lưu trữ Ngoài ra, phương pháp phân tích trực tiếp liệu chuỗi thời gian dạng số mà không cần phải qua giai đoạn rời rạc hóa liệu Kết nghiên cứu: Đề xuất phương pháp cho toán phát motif liệu chuỗi thời gian dựa vào cấu trúc mục đa chiều ý tưởng từ bỏ sớm việc tính khoảng cách Euclid Sản phẩm: Một báo đăng tạp chí Khoa học Công nghệ, báo cáo chương trình demo Hiệu quả, phương thức chuyển giao kết nghiên cứu khả áp dụng: Có thể áp dụng giảng dạy sau đại học chuyên đề chuỗi thời gian, sử dụng làm sở cho việc phát triển ứng dụng lĩnh vực liên quan khác Trưởng Đơn vị (ký, họ tên) Chủ nhiệm đề tài (ký, họ tên) INFORMATION ON RESEARCH RESULTS General information: Project title: Discovering approximate k-motifs in a long time series with the support of R*-tree and the idea of early abandoning Code number: T2014-20TĐ Coordinator: Nguyen Thanh Son Implementing institution: HCM City University of Technical Education Duration: from 6/2013 to 10/2014 Objective(s): Propose a new method for discovering time series motif with the support of R*-tree and the idea of early abandoning This method can work directly on numerical time series data but without applying some discretization process and be disk efficient Creativeness and innovativeness: A new method for discovering time series motif with the support of R*-tree and the idea of early abandoning This approach employs the index structure to speed up the search for matching neighbors of a subsequence and is disk efficient It can work directly on numerical time series data but without applying some discretization process Research results: We proposed a new method for discovering time series motif with the support of R*-tree and the idea of early abandoning Products: A paper published in Journal of Science and Technology, a technical report and a demo Effects, transfer alternatives of reserach results and applicability: It can be used to lecture for the major course of time series at postgraduate level or as a base for developing application softwares in some other relevant areas PHẦN MỞ ĐẦU Tình hình nghiên cứu nước Từ hình thức hóa vào năm 2002, phát motif liệu chuỗi thời gian dùng để giải toán nhiều lĩnh vực ứng dụng khác ví dụ dùng motif để kiểm tra chữ ký [14], dùng motif để phát hình ảnh lặp sở liệu hình dạng [42], dùng motif để dự báo giá chứng khoán [18], dùng bước tiền xử lý nhiều công việc khai phá liệu cao cấp hơn, ví dụ gom cụm chuỗi thời gian [33], phân lớp chuỗi thời gian [3] Hiển nhiên, độ phức tạp phương pháp phát xác motif theo kiểu brute-force bậc hai theo số chuỗi sở liệu chuỗi thời gian hay chiều dài chuỗi thời gian mà từ chuỗi trích Vì lý đó, có nhiều thuật toán phát motif xấp xỉ giới thiệu ([6], [2], [28], [29], [36], [43]) Các cách tiếp cận thường có độ phức tạp tính toán O(n) hay O(nlogn), với n số chuỗi sở liệu chuỗi thời gian hay chiều dài chuỗi thời gian mà từ chuỗi trích Độ phức tạp giải thuật giảm so với phương pháp tìm kiếm xác Tuy nhiên, chúng yêu cầu số lớn tham số cần xác định trước Một số thuật toán phát motif xấp xỉ thường dựa kỹ thuật xử lý chuỗi ký tự Điều khuyến khích nhà nghiên cứu tìm kiếm phương pháp biến đổi khác để chuyển chuỗi thời gian thành chuỗi ký tự, sau sử dụng kỹ thuật xử lý chuỗi có để phát motif Trong số thuật toán đề xuất, thuật toán thông dụng phương pháp chiếu ngẫu nhiên Chiu cộng giới thiệu [6] Thuật toán phát motif thời gian tuyến tính Đây thuật toán trích dẫn nhiều sở cho nhiều cách tiếp cận việc giải toán phát motif liệu chuỗi thời gian ([43], [39]) Tuy nhiên, kỹ thuật xử lý chuỗi ký tự chưa thật hữu hiệu làm việc chuỗi thời gian dạng số Tính cấp thiết đề tài Dữ liệu chuỗi thời gian loại liệu sử dụng phổ biến lĩnh vực khoa học, công nghệ, y học thương mại Chẳng hạn, y khoa người ta sử dụng toán chuỗi thời gian để xây dựng chương trình dò tìm tự động điện não đồ bệnh nhân để phát bệnh, lĩnh vực chứng khoán ta ứng dụng toán chuỗi thời gian để xây dựng chương trình dự báo xu biến động chứng khoán thời gian tới, v.v… Từ hình thức hóa vào năm 2002, toán phát motif liệu chuỗi thời gian nhận nhiều quan tâm nghiên cứu tầm quan trọng nhiều ứng dụng lĩnh vực khác dùng motif để kiểm tra chữ ký, dùng motif để phát hình ảnh lặp sở liệu hình dạng, dùng motif để dự báo giá chứng khoán, dùng bước tiền xử lý nhiều công việc khai phá liệu cao cấp hơn, ví dụ gom cụm chuỗi thời gian, phân lớp chuỗi thời gian., … Ý nghĩa lý luận thực tiễn 3.1 Ý nghĩa lý luận Bài toán phát motif dựa toán tìm kiếm tương tự Sử dụng cấu trúc mục đa chiều ý tưởng từ bỏ sớm giúp giảm thiểu thời gian tìm kiếm tương tự thời gian tính toán khoảng cách Euclid Ngoài ra, phương pháp đề xuất tính toán trực tiếp liệu chuỗi thời gian dạng số mà không cần phải trải qua giai đoạn rời rạc hóa liệu 3.2 Ý nghĩa thực tiễn Nghiên cứu tảng cho nghiên cứu toán khác khai phá liệu chuỗi thời gian Ngoài ra, áp dụng giảng dạy chuyên đề cho sinh viên sau đại học Các đối tượng nghiên cứu Dữ liệu chuỗi thời gian, motif liệu chuỗi thời gian kết nghiên cứu công bố phát motif liệu chuỗi thời gian Phạm vi phương pháp nghiên cứu 5.1 Phạm vi nghiên cứu Cấu trúc mục đa chiều sử dụng cho toán tìm kiếm tương tự Phương pháp tìm kiếm motif liệu chuỗi thời gian 5.2 Các phương pháp nghiên cứu Tổng kết kết nghiên cứu liên quan trước Đánh giá hiệu phương pháp Thực nghiệm để kiểm tra kết Nghiên cứu tài liệu, ứng dụng mô hình lý thuyết chứng minh thực nghiệm PHẦN NỘI DUNG CHƯƠNG Các kiến thức sở 1.1 Tổng quan đề tài Một chuỗi thời gian (time series) chuỗi điểm liệu đo theo khoảng thời gian liền theo tần suất thời gian thống Hình 1.1 minh họa ví dụ chuỗi thời gian biểu diễn tỉ giá chuyển đổi trung bình hàng tháng đô la Úc đô la Mỹ (đơn vị đô la Úc) từ 7/1969 đến 8/1995 Hình 1.1 Đường biểu diễn chuỗi thời gian ([16]) Các toán thường nghiên cứu khai phá liệu chuỗi thời gian gồm tìm kiếm tương tự (similarity search), gom cụm (clustering), phân lớp (classification), phát motif (motif discovery), khai phá luật (rule discovery), phát bất thường (anomaly detection), trực quan hóa (visualization), dự báo (forecast) Những khó khăn thách thức nghiên cứu liệu chuỗi thời gian [19]: - Dữ liệu thường lớn Chẳng hạn, giờ, liệu điện tâm đồ (ECG) lên đến 1GB - Phụ thuộc nhiều vào yếu tố chủ quan người dùng tập liệu đánh giá mức độ tương tự chuỗi thời gian - Dữ liệu không đồng nhất: định dạng liệu khác nhau, tần số lấy mẫu khác Ngoài ra, liệu bị nhiễu, thiếu vài giá trị không 10 Bài toán tìm kiếm tương tự (so trùng) sở liệu chuỗi thời gian nhiều nhà nghiên cứu quan tâm năm qua toán thành phần tảng nhiều toán khác khai phá liệu chuỗi thời gian Đây toán khó kích thước liệu chuỗi thời gian thường lớn lập mục liệu chuỗi thời gian cách dễ dàng hệ thống sở liệu truyền thống Một vài thí dụ ứng dụng tìm kiếm tương tự chuỗi thời gian nêu sau: - Tìm khứ, giai đoạn mà số lượng sản phẩm bán tháng vừa - Tìm sản phẩm có chu kỳ doanh số giống - Tìm đoạn nhạc hát giống đoạn nhạc có quyền - Tìm tháng khứ mà có lượng mưa giống tháng vừa - Tìm năm khô hạn mà mực nước sông mức thấp Motif chuỗi thời gian mẫu xuất với tần suất cao Hình 1.2 minh họa ví dụ motif chuỗi xuất ba lần chuỗi thời gian dài Hình 1.2 Ví dụ motif chuỗi xuất ba lần chuỗi thời gian dài ([6]) Từ hình thức hóa vào năm 2002, phát motif liệu chuỗi thời gian dùng để giải toán nhiều lĩnh vực ứng dụng khác ví dụ dùng motif để kiểm tra chữ ký [14], dùng motif để phát hình ảnh lặp sở liệu hình dạng [42], dùng motif để dự báo giá chứng khoán [18], dùng bước tiền xử lý nhiều công việc khai phá liệu cao cấp hơn, ví dụ gom cụm chuỗi thời gian [33], phân lớp chuỗi thời gian [3] 11 Hiển nhiên, độ phức tạp phương pháp phát xác motif theo kiểu brute-force bậc hai theo số chuỗi sở liệu chuỗi thời gian hay chiều dài chuỗi thời gian mà từ chuỗi trích Vì lý đó, có nhiều thuật toán phát motif xấp xỉ giới thiệu ([6], [2], [28], [29], [36], [43]) Các cách tiếp cận thường có độ phức tạp tính toán O(n) hay O(nlogn), với n số chuỗi sở liệu chuỗi thời gian hay chiều dài chuỗi thời gian mà từ chuỗi trích Độ phức tạp giải thuật giảm so với phương pháp tìm kiếm xác Tuy nhiên, chúng yêu cầu số lớn tham số cần xác định trước Một số thuật toán phát motif xấp xỉ thường dựa kỹ thuật xử lý chuỗi ký tự Điều khuyến khích nhà nghiên cứu tìm kiếm phương pháp biến đổi khác để chuyển chuỗi thời gian thành chuỗi ký tự, sau sử dụng kỹ thuật xử lý chuỗi có để phát motif Trong số thuật toán đề xuất, thuật toán thông dụng phương pháp chiếu ngẫu nhiên Chiu cộng giới thiệu [6] Thuật toán phát motif thời gian tuyến tính Đây thuật toán trích dẫn nhiều sở cho nhiều cách tiếp cận việc giải toán phát motif liệu chuỗi thời gian ([43], [39]) Tuy nhiên, kỹ thuật xử lý chuỗi ký tự chưa thật hữu hiệu làm việc chuỗi thời gian dạng số 1.2 Các công trình liên quan Trong phần này, giới thiệu tóm tắt sở lý thuyết độ đo tương tự, phương pháp thu giảm số chiều, cấu trúc mục thường dùng công trình liên quan tới toán nghiên cứu 1.2.1 Các độ đo tương tự Trong toán chuỗi thời gian, để so sánh chuỗi người ta sử dụng độ đo tương tự Hai đối tượng xem giống độ đo tương tự chúng 0, xem tương tự độ đo tương tự chúng nhỏ giá trị qui ước trước Để tính toán so sánh, độ đo biểu diễn thành số thực phải thỏa tính chất sau: - D(x,y) = x = y - D(x, y) = D(y, x) 12 - D(x, y) với x, y - D(x, y) < D(x, z) + D(y, z) Dưới độ đo thường sử dụng Độ đo Minkowski Ký hiệu Sim(X,Y) (độ tương tự hai chuỗi X Y có chiều dài n) định nghĩa sau: n Sim( X , Y ) P xi yi P , với xi X, yi Y, i = 1, …, n (1.1) i 1 Trong đó, p = (Euclid) độ đo thường sử dụng (1.1) (1.1) Độ đo có ưu điểm tính toán dễ dàng Tuy nhiên có số nhược điểm phương pháp tính toán dựa cặp giá trị tương ứng hai chuỗi nên trường hợp tính chất hai mẫu giống giá trị khác (có đường khác hay có biên độ dao động khác nhau) khoảng cách hai mẫu khác Hình 1.3 minh họa trường hợp (b) (a) Hình 1.3 Minh họa hai chuỗi thời gian giống (a) đường khác (b) biên độ giao động khác ([20]) Để khắc phục trường hợp trước áp dụng giải thuật ta cần thực chuẩn hóa liệu Các phương pháp chuẩn hóa thường dùng là: - Chuẩn hóa trung bình zero (Zero-Mean normalization) [17] Chuỗi Q biến đổi thành chuỗi Q’ theo công thức Q’[i] = (Q[i]- mean(Q)) / var(Q) (1.2) Với mean(Q) giá trị trung bình Q var(Q) độ lệch chuẩn Q (1.2) - Chuẩn hóa nhỏ nhất-lớn (Min-Max normalization) [17] Chuỗi Q biến đổi thành chuỗi Q’ theo công thức 13 Q'[i] Q[i] Minold ( Maxnew Minnew ) Minnew Maxold Minold Với Minold Maxold giá trị nhỏ lớn chuỗi ban đầu (1.3) (1.3) Minnew Maxnew giá trị nhỏ lớn chuỗi sau chuẩn hóa Độ đo xoắn thời gian động Trong trường hợp hai mẫu cần so sánh có hai đường biểu diễn không hoàn toàn giống hình dạng biến đổi giống so sánh độ tương tự hai mẫu cách so sánh cặp điểm 1-1 (so điểm thứ i đường thứ điểm thứ i đường thứ hai) không phù hợp Hình 1.4 minh họa hai đường biểu diễn giống hình dạng lệch thời gian Trong trường hợp này, tính khoảng cách cách ánh xạ 1-1 hai đường kết khác dẫn đến kết cuối không giống mong muốn Vì để khắc phục nhược điểm này, điểm ánh xạ với nhiều điểm ánh xạ không thẳng hàng Phương pháp gọi xoắn thời gian động (Dynamic Time Warping - DTW) [5] Hình 1.4 Khoảng cách hai đường biểu diễn giống hình dạng lệch thời gian (a) tính theo độ đo Euclid (b) tính theo độ đo DTW ([20]) Cách tính DTW Cách đơn giản để tính DTW hai đường X Y ta xây dựng ma trận Dm x n với m = |X| n= |Y| Khi đó, Dij = d(xi , yj ) Sau xây dựng ma trận D , ta tìm đường từ ô (0,0) đến ô (m,n) thỏa mãn ràng buộc sau: - Không qua trái hay xuống Đường phải liên tục Ô (i,j) thuộc đường phải thỏa |i - j| [...]... nước các sông đều ở mức thấp Motif trong chuỗi thời gian là mẫu xuất hiện với tần suất cao nhất Hình 1.2 minh họa ví dụ về motif là chuỗi con xuất hiện ba lần trong chuỗi thời gian dài hơn Hình 1.2 Ví dụ về motif là chuỗi con xuất hiện ba lần trong chuỗi thời gian dài hơn ([6]) Từ khi được hình thức hóa vào năm 2002, phát hiện motif trong dữ liệu chuỗi thời gian đã và đang được dùng để giải quyết các... hiện motif dựa trên bài toán tìm kiếm tương tự Sử dụng cấu trúc chỉ mục đa chiều và ý tưởng từ bỏ sớm sẽ giúp giảm thiểu thời gian tìm kiếm tương tự và thời gian tính toán khoảng cách Euclid Ngoài ra, phương pháp đề xuất còn có thể tính toán trực tiếp trên dữ liệu chuỗi thời gian dạng số mà không cần phải trải qua giai đoạn rời rạc hóa dữ liệu 3.2 Ý nghĩa thực tiễn Nghiên cứu này sẽ là nền tảng cho những... trong khai phá dữ liệu chuỗi thời gian Ngoài ra, còn có thể áp dụng giảng dạy như một chuyên đề cho sinh viên sau đại học 4 Các đối tượng nghiên cứu Dữ liệu chuỗi thời gian, motif trên dữ liệu chuỗi thời gian và các kết quả nghiên cứu đã công bố về phát hiện motif trên dữ liệu chuỗi thời gian 5 Phạm vi và các phương pháp nghiên cứu 5.1 Phạm vi nghiên cứu Cấu trúc chỉ mục đa chiều sử dụng cho bài toán... chuỗi trong cơ sở dữ liệu chuỗi thời gian hay chiều dài của chuỗi thời gian mà từ đó các chuỗi con được trích ra Vì lý do đó, có nhiều thuật toán phát hiện motif xấp xỉ đã được giới thiệu ([6], [2], [28], [29], [36], [43]) Các cách tiếp cận này thường có độ phức tạp tính toán là O(n) hay O(nlogn), với n là số chuỗi trong cơ sở dữ liệu chuỗi thời gian hay chiều dài của chuỗi thời gian mà từ đó các chuỗi. .. thể phát hiện motif trong thời gian tuyến tính Đây là thuật toán được trích dẫn nhiều và là cơ sở cho nhiều cách tiếp cận hiện nay trong việc giải bài toán phát hiện motif trên dữ liệu chuỗi thời gian ([43], [39]) Tuy nhiên, các kỹ thuật xử lý chuỗi ký tự chưa thật sự hữu hiệu khi làm việc trên chuỗi thời gian dạng số 1.2 Các công trình liên quan Trong phần này, chúng tôi giới thiệu tóm tắt cơ sở lý... nhau như dùng motif để kiểm tra chữ ký, dùng motif để phát hiện những hình ảnh lặp trong cơ sở dữ liệu hình dạng, dùng motif để dự báo giá chứng khoán, và cũng được dùng như bước tiền xử lý trong nhiều công việc khai phá dữ liệu cao cấp hơn, ví dụ như gom cụm chuỗi thời gian, phân lớp chuỗi thời gian. , … 3 Ý nghĩa lý luận và thực tiễn 3.1 Ý nghĩa lý luận Bài toán phát hiện motif dựa trên bài toán... các bài toán về chuỗi thời gian để xây dựng chương trình dò tìm tự động trên điện não đồ của bệnh nhân để phát hiện bệnh, hoặc trong lĩnh vực chứng khoán ta có thể ứng dụng các bài toán về chuỗi thời gian để xây dựng chương trình dự báo xu thế biến động của chứng khoán trong thời gian sắp tới, v.v… Từ khi được hình thức hóa vào năm 2002, bài toán phát hiện motif trên dữ liệu chuỗi thời gian đã nhận được... Một số thuật toán phát hiện motif xấp xỉ thường dựa trên các kỹ thuật xử lý chuỗi ký tự Điều này đã khuyến khích các nhà nghiên cứu tìm kiếm các phương pháp biến đổi khác nhau để chuyển chuỗi thời gian thành chuỗi ký tự, sau đó sử dụng các kỹ thuật xử lý chuỗi đã có để phát hiện motif Trong số các thuật toán đã được đề xuất, thuật toán thông dụng là phương pháp chiếu ngẫu nhiên do Chiu và các cộng sự... nhược điểm là thời gian chạy lâu, tuy nhiên gần đây đã có những công trình tăng tốc độ tìm kiếm tương tự dùng độ đo DTW, tiêu biểu nhất là công trình của Keogh và các cộng sự, năm 2002 [21] Hình 1.5 minh họa cách tính khoảng cách theo DTW Hình 1.5 Minh họa cách tính khoảng cách theo DTW 1.2.2 Thu giảm số chiều chuỗi thời gian Thu giảm số chiều là phương pháp biểu diễn chuỗi thời gian n chiều X = {x1, x2,... thuật thu giảm số chiều áp dụng phương pháp DFT do Agrawal và các cộng sự đề xuất đầu tiên năm 1993 [1] Ý tưởng cơ bản của phương pháp này là để thu giảm số chiều một chuỗi thời gian X có chiều dài n vào không gian đặc trưng N chiều (N