Hcmute dự báo trên chuỗi thời gian sử dụng phương pháp so trùng mẫu dưới độ đo xoắn thời gian động

49 2 0
Hcmute dự báo trên chuỗi thời gian sử dụng phương pháp so trùng mẫu dưới độ đo xoắn thời gian động

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH CƠNG TRÌNH NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG DỰ BÁO TRÊN CHUỖI THỜI GIAN SỬ DỤNG PHƯƠNG PHÁP SO TRÙNG MẪU DƯỚI ĐỘ ĐO XOẮN THỜI GIAN ĐỘNG MÃ SỐ: T2018-29TĐ SKC 0 Tp Hồ Chí Minh, tháng 12/2018 Luan van TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH KHOA CƠNG NGHỆ THƠNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KH&CN CẤP TRƯỜNG TRỌNG ĐIỂM DỰ BÁO TRÊN CHUỖI THỜI GIAN SỬ DỤNG PHƯƠNG PHÁP SO TRÙNG MẪU DƯỚI ĐỘ ĐO XOẮN THỜI GIAN ĐỘNG Mã số: T2018-29TĐ Chủ nhiệm đề tài: Nguyễn Thành Sơn TP HCM, 12/2018 Luan van MỤC LỤC DANH MỤC CÁC HÌNH ẢNH DANH MỤC CÁC BẢNG DANH MỤC CÁC TỪ VIẾT TẮT PHẦN MỞ ĐẦU PHẦN NỘI DUNG CHƯƠNG Các kiến thức sở 1.1 Tổng quan đề tài .8 1.2 Lý thuyết sở cơng trình liên quan 10 1.2.1 Các độ đo tương tự 10  Độ đo Minkowski .10  Độ đo xoắn thời gian động 11 1.2.2 Thu giảm số chiều chuỗi thời gian 13  Điều kiện chặn 13 1.2.3 Các phương pháp thu giảm số chiều dựa vào rút trích đặc trưng 14 1.3 Rời rạc hóa chuỗi thời gian 21 1.4 Cấu trúc mục đa chiều 22 1.5 Tổng quan số phương pháp dự báo liệu chuỗi thời gian 25 CHƯƠNG Dự báo chuỗi thời gian sử dụng phương pháp so trùng mẫu độ đo xoắn thời gian động 28 2.1 So trùng mẫu độ đo xoắn thời gian động (DTW – Dynamic Time Warping) 28 2.2 Dự báo chuỗi thời gian dựa vào so trùng mẫu độ đo xoắn thời gian động .33 CHƯƠNG Kết thực nghiệm 36 3.1 Môi trường liệu thực nghiệm 36 3.2 Tiêu chuẩn đánh giá 37 3.3 Kết thực nghiệm 37 CHƯƠNG Kết luận hướng phát triển 40  Đóng góp đề tài .40  Hạn chế đề tài 40  Hướng phát triển 40 TÀI LIỆU THAM KHẢO 41 i Luan van DANH MỤC CÁC HÌNH ẢNH Hình 1.1 Đường biểu diễn chuỗi thời gian Hình 1.2 Minh họa hai chuỗi thời gian giống 11 Hình 1.3 Khoảng cách hai đường biểu diễn giống hình dạng 12 Hình 1.4 Minh họa cách tính khoảng cách theo DTW .13 Hình 1.5 Minh họa phương pháp DFT .14 Hình 1.6 Minh họa phương pháp Haar Wavelet 15 Hình 1.7 Minh họa phương pháp PAA 16 Hình 1.8 Các trường hợp hai đoạn có giá trị trung bình .16 Hình 1.9 Minh họa trình nhận dạng điểm PIP 18 Hình 1.10 Minh họa kỹ thuật xén liệu chuỗi thời gian có chiều dài 64 .19 Hình 1.11 Minh họa phương pháp MP_C 21 Hình 1.12 Minh họa phương pháp SAX với a = 22 Hình 1.13 Minh họa R-tree 23 Hình 1.14 Minh họa SBR SBR xấp xỉ ba chuỗi thời gian 24 Hình 2.1 Một ví dụ cách tính khoảng cách DTW Q C (A) Hai chuỗi thời gian Q C giống lệch pha (B) Để tính khoảng cách DTW hai chuỗi, ma trận xoắn xây dựng để tìm đường tối ưu .28 Hình 2.2 Một ví dụ minh họa (A) Sakoe-Chiba Band (B) Itakura Parallelogram 29 Hình 2.3 (A) Sử dụng Sakoe-Chiba Band để tạo vùng bao (B) Vùng bao Q sử dụng Sakoe-Chiba band (C) Chặn khoảng cách DTW dược tính khoảng cách Euclid chuỗi ứng viên C phần bên gần vùng bao chuỗi truy vấn Q 30 Hình 2.4 Thuật tốn đối sánh mẫu độ đo DTW sử dụng khoảng cách chặn 31 Hình 2.5 Thuật tốn tìm k lân cận gần độ đo DTW 33 Hình 2.6 Ý tưởng cách tiếp cận dựa phương pháp so trùng mẫu 34 Hình 2.7 Minh họa thuật toán dự báo dựa phương pháp so trùng mẫu 34 Hình 3.1 Minh họa bốn tập liệu dùng thực nghiệm 36 Luan van DANH MỤC CÁC BẢNG Bảng Các lỗi dự báo thực nghiệm tập liệu monthly rain với k từ tới 10 .38 Bảng Kết thực nghiệm tập liệu monthly rain với k tốt 38 Bảng Kết thực nghiệm bốn tập liệu 38 Bảng Thời gian thực thi hai phương pháp bốn tập liệu 39 Luan van DANH MỤC CÁC TỪ VIẾT TẮT ARIMA model Autoregressive Integrated Moving Average model APCA Adaptive Piecewise Constant Approximation CV(RMSE) Coefficient of variation of the RMSE DTW Dynamic Time Warping DFT Discrete Fourier Transform DWT Discrete Wavelet Transform ESAX Extended Symbolic Aggregate approximation ECG Electrocardiogram iSAX indexable SAX k-NN k-Nearest Neighbors MBR Minimum Bounding Rectangle MP_C Middle Points_Clipping MAE Mean absolute error PAA Piecewise Aggregate Approximation PIP Perceptually Important Point PSF Pattern sequence-based forecasting RMSE Root-mean-square error SAX Symbolic Aggregate approximation SBR Skyline Bounding Region Luan van TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH CỘNG HỒ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc KHOA CNTT Tp HCM, Ngày 30 tháng 12 năm 2018 THƠNG TIN KẾT QUẢ NGHIÊN CỨU Thơng tin chung: - Tên đề tài: Dự báo chuỗi thời gian sử dụng phương pháp so trùng mẫu độ đo xoắn thời gian động - Mã số: T2018-29TĐ - Chủ nhiệm: Nguyễn Thành Sơn - Cơ quan chủ trì: Trường Đại học SPKT Tp HCM - Thời gian thực hiện: 12 tháng Mục tiêu: Ứng dụng phương pháp so trùng mẫu độ đo xoắn thời gian động dự báo liệu chuỗi thời gian Tính sáng tạo: Dữ liệu chuỗi thời gian sử dụng phổ biến nhiều lĩnh vực từ khoa học, cơng nghệ, tài chính, thương mại, y học, quan phủ Dự báo xác liệu chuỗi thời gian quan trọng để hỗ trợ định lãnh vực đời sống Đề tài đề xuất phương pháp đơn giản hiệu cho toán dự báo chuỗi thời gian Kết nghiên cứu: Đề xuất phương pháp cho toán dự báo chuỗi thời gian sử dụng phương pháp so trùng mẫu độ đo xoắn thời gian động Sản phẩm: Một báo đăng tạp chí Khoa học Trường Đại học Sư phạm Tp HCM Hiệu quả, phương thức chuyển giao kết nghiên cứu khả áp dụng: Có thể áp dụng giảng dạy sau đại học chuyên đề chuỗi thời gian, sử dụng làm sở cho việc phát triển ứng dụng lĩnh vực liên quan khác Trưởng Đơn vị (ký, họ tên) Chủ nhiệm đề tài (ký, họ tên) Luan van INFORMATION ON RESEARCH RESULTS General information: Project title: Pattern matching under dynamic time warping for time series prediction Code number: T2018-29TĐ Coordinator: Nguyen Thanh Son Implementing institution: HCM City University of Technical Education Duration: 12 months Objective(s): Investigate the use of pattern matching under dynamic time warping for time series prediction Creativeness and innovativeness: Time series data arise in so many applications of various areas ranging from science, engineering, business, finance, economy, medicine to government The accuracy of time series forecasting is fundamental to many decision processes We proposed a new method which is simple and effective for forecasting time series data Research results: A new method proposed for forecasting time series data Products: A paper published in Journal of Science, HCM City University of Education Effects, transfer alternatives of reserach results and applicability: It can be used to lecture for the major course of time series at postgraduate level or as a base for developing application softwares in some other relevant areas Luan van PHẦN MỞ ĐẦU Tình hình nghiên cứu nước Dự báo liệu chuỗi thời gian công việc phức tạp thách thức nhà nghiên cứu Tuy có số phương pháp thường sử dụng liệu chuỗi thời gian phương pháp làm trơn theo hàm mũ, mơ hình ARIMA, mạng nơ ron nhân tạo Nhưng hai phương pháp đầu nắm bắt đặc trưng tuyến tính chuỗi thời gian, cịn việc mạng nơ ron nhân tạo xử lý cách hiệu liệu có tính xu hướng tính mùa hay khơng vấn đề gây bàn cãi có nhận định trái ngược cộng đồng nghiên cứu dự báo liệu chuỗi thời gian [1] Mặt khác, gần số phương pháp dự báo liệu chuỗi thời gian dựa vào hướng tiếp cận so trùng mẫu ứng dụng dự báo cho số lĩnh vực cụ thể (như thời tiết, chứng khoán, giá điện nhu cầu sử dụng điện) hướng tiếp cận đáng quan tâm Tính cấp thiết đề tài Dữ liệu chuỗi thời gian loại liệu sử dụng phổ biến lĩnh vực khoa học, công nghệ, y học thương mại Chẳng hạn, y khoa người ta sử dụng toán chuỗi thời gian để xây dựng chương trình dị tìm tự động điện não đồ bệnh nhân để phát bệnh, lĩnh vực chứng khốn ta ứng dụng tốn chuỗi thời gian để xây dựng chương trình dự báo xu biến động chứng khoán thời gian tới, v.v… Một nghiên cứu khảo sát từ 4000 hình lấy ngẫu nhiên báo tin tức giới xuất giai đoạn từ 1974 đến 1989 cho thấy 75% hình biểu diễn liệu chuỗi thời gian [2] Dự báo xác liệu chuỗi thời gian quan trọng để hỗ trợ định lãnh vực đời sống Ý nghĩa lý luận thực tiễn 3.1 Ý nghĩa lý luận Ứng dụng phương pháp so trùng mẫu độ đo xoắn thời gian động (DTW – Dynamic Time Warping) dự báo liệu chuỗi thời gian hướng tiếp cận cho toán đầy thách thức Một thể phương pháp so trùng mẫu giải thuật k-lân cận gần dùng cho dự báo chuỗi thời gian Kết thực nghiệm Luan van cách tiếp cận k-lân cận gần độ đo DTW so sánh với mơ hình tương tự sử dụng độ đo thông dụng Euclid dự báo chuỗi thời gian 3.2 Ý nghĩa thực tiễn Nghiên cứu tảng cho nghiên cứu toán khác khai phá liệu chuỗi thời gian Ngồi ra, cịn áp dụng giảng dạy chuyên đề cho học viên sau đại học Các đối tượng nghiên cứu Dữ liệu chuỗi thời gian toán dự báo chuỗi thời gian Phạm vi phương pháp nghiên cứu 5.1 Phạm vi nghiên cứu Dự báo chuỗi thời gian 5.2 Các phương pháp nghiên cứu  Tổng kết kết nghiên cứu liên quan trước Đánh giá hiệu phương pháp Thực nghiệm để kiểm tra kết  Nghiên cứu tài liệu, ứng dụng mơ hình lý thuyết chứng minh thực nghiệm Luan van m chiều dài đoạn j Theo định nghĩa vùng bao MBR kết hợp với node U cấu trúc mục định nghĩa hàm khoảng cách Dregion(Q, R), với chuỗi C đặt node U vùng bao MBR R kết hợp với node U, ta dễ dàng thấy Dregion(Q,R) ≤ DTW(Q, C), C vùng bao MBR R Để tránh suy biến cấu trúc mục đa chiều sử dụng với tập liệu có số chiều cao, ta sử dụng phương pháp xấp xỉ gộp đoạn (Piecewise Aggregate Approximation - PAA) để xấp xỉ chuỗi ứng viên vùng bao chuỗi truy vấn Chi tiết phương pháp giới thiệu [49] Hình 2.5 minh họa thuật tốn k-NN cho tốn đối sánh mẫu độ đo DTW sử dụng cấu trúc mục đa chiều Thuật toán tương tự thuật toán giới thiệu [49] Trong thuật toán này, hàng đợi ưu tiên dùng để chứa node duyệt qua mục theo thứ tự tăng dần khoảng cách tính với chuỗi truy vấn Q Hàm tính khoảng cách Dregion(Q, R) dùng để tìm kiếm R*-tree Nếu phần tử hành phần tử liệu hàm tính khoảng cách DTW(Q, C) sử dụng Một chuỗi đưa từ item_list sand kNN_result chuỗi k lân cận gần Q Trong trường hợp xử lý chuỗi chuỗi thời gian dài, so trùng tầm thường loại bỏ thuật toán đối sánh mẫu cách dùng vị trí tương đối chuỗi Nghĩa cặp chuỗi ứng viên so trùng khơng tầm thường vị trí hai chuỗi cách khoảng w (w xác định người dùng) Algorithm: Tìm k lân cận gần độ đo DTW Input: Cơ sở liệu chuỗi thời gian D, chuỗi truy vấn Q số lân cận gần k Output: k lân cận gần distance = Push root node of index and distance into queue while queue is not empty curr_item = Pop the top item of queue if curr_item is a non-leaf node 32 Luan van for each child node U in curr_item distance = Dregion(Q, R) Push U and distance into queue end for else if curr_item is a leaf node for each data item C in curr_item distance = Dregion(Q, R) Push C and distance into queue end for else Retrieve original sequence of C from database distance = DTW(Q, C) Insert C and distance into item_list end if for each sequence C in item_list which conforms to the condition DTW(Q,C) ≤ curr_item.Distance remove C from item_list Add C to kNN_result If | kNN_result| = k return kNN_result end for end while Hình 2.5 Thuật tốn tìm k lân cận gần độ đo DTW 2.2 Dự báo chuỗi thời gian dựa vào so trùng mẫu độ đo xoắn thời gian động Trong đề tài này, chúng tơi sử dụng thuật tốn tìm k lân cận gần (k-NN) dựa cấu trúc mục đa chiều Cách tiếp cận k-lân cận gần kỹ thuật dự báo phi tham số (non-parametric), hiểu theo nghĩa người dùng biết trước mối quan hệ lý thuyết trị xuất trị nhập toán dự báo, tự nhiên trực giác Ý tưởng cách tiếp cận nhận dạng mẫu khứ khớp với mẫu hành dùng tri thức cách mà chuỗi thời gian biến đổi khứ tình tương tự để dự báo biến đổi tương lai Ngoài ra, với cách tiếp cận k-lân cận gần này, mẫu dự báo hồi tiếp trở lại vào tập liệu để sử dụng cho lần dự báo sau, nhờ tầm (horizon) dự báo kéo dài theo yêu cầu (kỹ thuật gọi dự báo lặp – iterated prediction) Hình 2.6 trình bày ý tưởng cách tiếp cận 33 Luan van Dữ liệu chuẩn hóa Chèn mẫu dự báo Dự báo dựa vào thuật toán k-NN DTW Mẫu dự báo Tiếp? Yes No Kết thúc Hình 2.6 Ý tưởng cách tiếp cận dựa phương pháp so trùng mẫu Cho trạng thái (mẫu) hành có chiều dài w chuỗi thời gian có chiều dài n (w

Ngày đăng: 02/02/2023, 10:06

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan