1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(Đề tài NCKH) dự báo trên chuỗi thời gian sử dụng phương pháp so trùng mẫu dưới độ đo xoắn thời gian động

55 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH CƠNG TRÌNH NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG DỰ BÁO TRÊN CHUỖI THỜI GIAN SỬ DỤNG PHƯƠNG PHÁP SO TRÙNG MẪU DƯỚI ĐỘ ĐO XOẮN THỜI GIAN ĐỘNG MÃ SỐ: T2018 SKC006489 Tp Hồ Chí Minh, tháng 12/2018 TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH KHOA CƠNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KH&CN CẤP TRƯỜNG TRỌNG ĐIỂM DỰ BÁO TRÊN CHUỖI THỜI GIAN SỬ DỤNG PHƯƠNG PHÁP SO TRÙNG MẪU DƯỚI ĐỘ ĐO XOẮN THỜI GIAN ĐỘNG Mã số: T2018-29TĐ Chủ nhiệm đề tài: Nguyễn Thành Sơn TP HCM, 12/2018 MỤC LỤC DANH MỤC CÁC HÌNH ẢNH DANH MỤC CÁC BẢNG DANH MỤC CÁC TỪ VIẾT TẮT .3 PHẦN MỞ ĐẦU PHẦN NỘI DUNG CHƯƠNG Các kiến thức sở .8 1.1 Tổng quan đề tài 1.2 Lý thuyết sở cơng trình liên quan 10 1.2.1 Các độ đo tương tự 10 • Độ đo Minkowski 10 • Độ đo xoắn thời gian động 11 1.2.2 Thu giảm số chiều chuỗi thời gian 13 • Điều kiện chặn 13 1.2.3 Các phương pháp thu giảm số chiều dựa vào rút trích đặc trưng .14 1.3 Rời rạc hóa chuỗi thời gian 21 1.4 Cấu trúc mục đa chiều 22 1.5 Tổng quan số phương pháp dự báo liệu chuỗi thời gian .25 CHƯƠNG Dự báo chuỗi thời gian sử dụng phương pháp so trùng mẫu độ đo xoắn thời gian động 28 2.1 So trùng mẫu độ đo xoắn thời gian động (DTW – Dynamic Time Warping) 28 2.2 Dự báo chuỗi thời gian dựa vào so trùng mẫu độ đo xoắn thời gian động 33 CHƯƠNG Kết thực nghiệm 36 3.1 Môi trường liệu thực nghiệm 36 3.2 Tiêu chuẩn đánh giá 37 3.3 Kết thực nghiệm 37 CHƯƠNG Kết luận hướng phát triển 40 • Đóng góp đề tài 40 • Hạn chế đề tài 40 • Hướng phát triển 40 TÀI LIỆU THAM KHẢO 41 i DANH MỤC CÁC HÌNH ẢNH Hình 1.1 Đường biểu diễn chuỗi thời gian Hình 1.2 Minh họa hai chuỗi thời gian giống 11 Hình 1.3 Khoảng cách hai đường biểu diễn giống hình dạng .12 Hình 1.4 Minh họa cách tính khoảng cách theo DTW 13 Hình 1.5 Minh họa phương pháp DFT 14 Hình 1.6 Minh họa phương pháp Haar Wavelet 15 Hình 1.7 Minh họa phương pháp PAA 16 Hình 1.8 Các trường hợp hai đoạn có giá trị trung bình 16 Hình 1.9 Minh họa trình nhận dạng điểm PIP 18 Hình 1.10 Minh họa kỹ thuật xén liệu chuỗi thời gian có chiều dài 64 19 Hình 1.11 Minh họa phương pháp MP_C 21 Hình 1.12 Minh họa phương pháp SAX với a = 22 Hình 1.13 Minh họa R-tree 23 Hình 1.14 Minh họa SBR SBR xấp xỉ ba chuỗi thời gian 24 Hình 2.1 Một ví dụ cách tính khoảng cách DTW Q C (A) Hai chuỗi thời gian Q C giống lệch pha (B) Để tính khoảng cách DTW hai chuỗi, ma trận xoắn xây dựng để tìm đường tối ưu 28 Hình 2.2 Một ví dụ minh họa (A) Sakoe-Chiba Band (B) Itakura Parallelogram 29 Hình 2.3 (A) Sử dụng Sakoe-Chiba Band để tạo vùng bao (B) Vùng bao Q sử dụng Sakoe-Chiba band (C) Chặn khoảng cách DTW dược tính khoảng cách Euclid chuỗi ứng viên C phần bên gần vùng bao chuỗi truy vấn Q 30 Hình 2.4 Thuật tốn đối sánh mẫu độ đo DTW sử dụng khoảng cách chặn 31 Hình 2.5 Thuật tốn tìm k lân cận gần độ đo DTW 33 Hình 2.6 Ý tưởng cách tiếp cận dựa phương pháp so trùng mẫu 34 Hình 2.7 Minh họa thuật tốn dự báo dựa phương pháp so trùng mẫu 34 Hình 3.1 Minh họa bốn tập liệu dùng thực nghiệm 36 DANH MỤC CÁC BẢNG Bảng Các lỗi dự báo thực nghiệm tập liệu monthly rain với k từ tới 10 38 Bảng Kết thực nghiệm tập liệu monthly rain với k tốt 38 Bảng Kết thực nghiệm bốn tập liệu 38 Bảng Thời gian thực thi hai phương pháp bốn tập liệu .39 DANH MỤC CÁC TỪ VIẾT TẮT ARIMA model Autoregressive Integrated Moving Average model APCA Adaptive Piecewise Constant Approximation CV(RMSE) Coefficient of variation of the RMSE DTW Dynamic Time Warping DFT Discrete Fourier Transform DWT Discrete Wavelet Transform ESAX Extended Symbolic Aggregate approximation ECG Electrocardiogram iSAX indexable SAX k-NN k-Nearest Neighbors MBR Minimum Bounding Rectangle MP_C Middle Points_Clipping MAE Mean absolute error PAA Piecewise Aggregate Approximation PIP Perceptually Important Point PSF Pattern sequence-based forecasting RMSE Root-mean-square error SAX Symbolic Aggregate approximation SBR Skyline Bounding Region TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc KHOA CNTT Tp HCM, Ngày 30 tháng 12 năm 2018 THÔNG TIN KẾT QUẢ NGHIÊN CỨU Thông tin chung: - Tên đề tài: Dự báo chuỗi thời gian sử dụng phương pháp so trùng mẫu độ đo xoắn thời gian động - Mã số: T2018-29TĐ - Chủ nhiệm: Nguyễn Thành Sơn - Cơ quan chủ trì: Trường Đại học SPKT Tp HCM - Thời gian thực hiện: 12 tháng Mục tiêu: Ứng dụng phương pháp so trùng mẫu độ đo xoắn thời gian động dự báo liệu chuỗi thời gian Tính sáng tạo: Dữ liệu chuỗi thời gian sử dụng phổ biến nhiều lĩnh vực từ khoa học, cơng nghệ, tài chính, thương mại, y học, quan phủ Dự báo xác liệu chuỗi thời gian quan trọng để hỗ trợ định lãnh vực đời sống Đề tài đề xuất phương pháp đơn giản hiệu cho toán dự báo chuỗi thời gian Kết nghiên cứu: Đề xuất phương pháp cho toán dự báo chuỗi thời gian sử dụng phương pháp so trùng mẫu độ đo xoắn thời gian động Sản phẩm: Một báo đăng tạp chí Khoa học Trường Đại học Sư phạm Tp HCM Hiệu quả, phương thức chuyển giao kết nghiên cứu khả áp dụng: Có thể áp dụng giảng dạy sau đại học chuyên đề chuỗi thời gian, sử dụng làm sở cho việc phát triển ứng dụng lĩnh vực liên quan khác Chủ nhiệm đề tài (ký, họ tên) Trưởng Đơn vị (ký, họ tên) INFORMATION ON RESEARCH RESULTS General information: Project title: Pattern matching under dynamic time warping for time series prediction Code number: T2018-29TĐ Coordinator: Nguyen Thanh Son Implementing institution: HCM City University of Technical Education Duration: 12 months Objective(s): Investigate the use of pattern matching under dynamic time warping for time series prediction Creativeness and innovativeness: Time series data arise in so many applications of various areas ranging from science, engineering, business, finance, economy, medicine to government The accuracy of time series forecasting is fundamental to many decision processes We proposed a new method which is simple and effective for forecasting time series data Research results: A new method proposed for forecasting time series data Products: A paper published in Journal of Science, HCM City University of Education Effects, transfer alternatives of reserach results and applicability: It can be used to lecture for the major course of time series at postgraduate level or as a base for developing application softwares in some other relevant areas PHẦN MỞ ĐẦU Tình hình nghiên cứu ngồi nước Dự báo liệu chuỗi thời gian công việc phức tạp thách thức nhà nghiên cứu Tuy có số phương pháp thường sử dụng liệu chuỗi thời gian phương pháp làm trơn theo hàm mũ, mơ hình ARIMA, mạng nơ ron nhân tạo Nhưng hai phương pháp đầu nắm bắt đặc trưng tuyến tính chuỗi thời gian, cịn việc mạng nơ ron nhân tạo xử lý cách hiệu liệu có tính xu hướng tính mùa hay khơng vấn đề gây bàn cãi có nhận định trái ngược cộng đồng nghiên cứu dự báo liệu chuỗi thời gian [1] Mặt khác, gần số phương pháp dự báo liệu chuỗi thời gian dựa vào hướng tiếp cận so trùng mẫu ứng dụng dự báo cho số lĩnh vực cụ thể (như thời tiết, chứng khoán, giá điện nhu cầu sử dụng điện) hướng tiếp cận đáng quan tâm Tính cấp thiết đề tài Dữ liệu chuỗi thời gian loại liệu sử dụng phổ biến lĩnh vực khoa học, công nghệ, y học thương mại Chẳng hạn, y khoa người ta sử dụng toán chuỗi thời gian để xây dựng chương trình dị tìm tự động điện não đồ bệnh nhân để phát bệnh, lĩnh vực chứng khốn ta ứng dụng tốn chuỗi thời gian để xây dựng chương trình dự báo xu biến động chứng khoán thời gian tới, v.v… Một nghiên cứu khảo sát từ 4000 hình lấy ngẫu nhiên báo tin tức giới xuất giai đoạn từ 1974 đến 1989 cho thấy 75% hình biểu diễn liệu chuỗi thời gian [2] Dự báo xác liệu chuỗi thời gian quan trọng để hỗ trợ định lãnh vực đời sống Ý nghĩa lý luận thực tiễn 3.1 Ý nghĩa lý luận Ứng dụng phương pháp so trùng mẫu độ đo xoắn thời gian động (DTW – Dynamic Time Warping) dự báo liệu chuỗi thời gian hướng tiếp cận cho toán đầy thách thức Một thể phương pháp so trùng mẫu giải thuật k-lân cận gần dùng cho dự báo chuỗi thời gian Kết thực nghiệm cách tiếp cận k-lân cận gần độ đo DTW so sánh với mơ hình tương tự sử dụng độ đo thông dụng Euclid dự báo chuỗi thời gian 3.2 Ý nghĩa thực tiễn Nghiên cứu tảng cho nghiên cứu toán khác khai phá liệu chuỗi thời gian Ngồi ra, cịn áp dụng giảng dạy chuyên đề cho học viên sau đại học Các đối tượng nghiên cứu Dữ liệu chuỗi thời gian toán dự báo chuỗi thời gian Phạm vi phương pháp nghiên cứu 5.1 Phạm vi nghiên cứu Dự báo chuỗi thời gian 5.2 Các phương pháp nghiên cứu  Tổng kết kết nghiên cứu liên quan trước Đánh giá hiệu phương pháp Thực nghiệm để kiểm tra kết • Nghiên cứu tài liệu, ứng dụng mơ hình lý thuyết chứng minh thực nghiệm Algorithm: Đối sánh mẫu độ đo DTW sử dụng khoảng cách chặn Input: Cơ sở liệu chuỗi thời gian D, chuỗi truy vấn Q Output: ID chuỗi lân cận gần nhất, k, với Q khoảng cách tốt bsf_distance Create a bounding envelope (U, L) for Q bsf_distance = infinity for i = to |D| lb_distance = LB_DTW(Q, Ci) //Ci ∈ D if lb_distance < bsf_distance dtw_distance = DTW(Q, Ci) if dtw_distance < bsf_distance bsf_distance = dtw_distance k=i end if end if end for return (k, bsf_distance) Hình 2.4 Thuật tốn đối sánh mẫu độ đo DTW sử dụng khoảng cách chặn Để thêm chuỗi vào R*-tree, với chuỗi có chiều dài n sở liệu, ta tạo vùng bao hình chữ nhật nhỏ (Minimum Bounding Rectangle MBR) R không gian N chiều (N < n) Sau chuỗi đưa vào R*-tree dựa MBR Để tìm lân cận gần với chuỗi truy vấn Q dựa vào R*-tree, ta cần hàm tính khoảng cách Dregion(Q, R) chuỗi Q với vùng bao MBR R kết hợp với node R*-tree cho Dregion(Q, R) ≤ DTW(Q, C), ∀C chuỗi bao MBR R Definition Cho chuỗi truy vấn Q có chiều dài n, Một tập chuỗi thời gian C vùng bao MBR R C không gian N chiều (N < n), nghĩa R = (L, H), L= {L1, L2, …, LN} H={H1, H2, …, HN} điểm thấp cao đường chéo R Hàm khoảng cách Dregion(Q, R) chuỗi Q MBR R định nghĩa sau [52] D where region D region (6) m chiều dài đoạn j Theo định nghĩa vùng bao MBR kết hợp với node U cấu trúc mục định nghĩa hàm khoảng cách Dregion(Q, R), với chuỗi C đặt node U vùng bao MBR R kết hợp với node U, ta dễ dàng thấy Dregion(Q,R) ≤ DTW(Q, C), ∀C vùng bao MBR R Để tránh suy biến cấu trúc mục đa chiều sử dụng với tập liệu có số chiều cao, ta sử dụng phương pháp xấp xỉ gộp đoạn (Piecewise Aggregate Approximation - PAA) để xấp xỉ chuỗi ứng viên vùng bao chuỗi truy vấn Chi tiết phương pháp giới thiệu [49] Hình 2.5 minh họa thuật toán k-NN cho toán đối sánh mẫu độ đo DTW sử dụng cấu trúc mục đa chiều Thuật toán tương tự thuật toán giới thiệu [49] Trong thuật toán này, hàng đợi ưu tiên dùng để chứa node duyệt qua mục theo thứ tự tăng dần khoảng cách tính với chuỗi truy vấn Q Hàm tính khoảng cách Dregion(Q, R) dùng để tìm kiếm R*-tree Nếu phần tử hành phần tử liệu hàm tính khoảng cách DTW(Q, C) sử dụng Một chuỗi đưa từ item_list sand kNN_result chuỗi k lân cận gần Q Trong trường hợp xử lý chuỗi chuỗi thời gian dài, so trùng tầm thường loại bỏ thuật tốn đối sánh mẫu cách dùng vị trí tương đối chuỗi Nghĩa cặp chuỗi ứng viên so trùng không tầm thường vị trí hai chuỗi cách khoảng w (w xác định người dùng) Algorithm: Tìm k lân cận gần độ đo DTW Input: Cơ sở liệu chuỗi thời gian D, chuỗi truy vấn Q số lân cận gần k Output: k lân cận gần distance = Push root node of index and distance into queue while queue is not empty curr_item = Pop the top item of queue if curr_item is a non-leaf node 32 for each child node U in curr_item distance = Dregion(Q, R) Push U and distance into queue end for else if curr_item is a leaf node for each data item C in curr_item distance = Dregion(Q, R) Push C and distance into queue end for else Retrieve original sequence of C from database distance = DTW(Q, C) Insert C and distance into item_list end if for each sequence C in item_list which conforms to the condition DTW(Q,C) ≤ curr_item.Distance remove C from item_list Add C to kNN_result If | kNN_result| = k return kNN_result end for end while Hình 2.5 Thuật tốn tìm k lân cận gần độ đo DTW 2.2 Dự báo chuỗi thời gian dựa vào so trùng mẫu độ đo xoắn thời gian động Trong đề tài này, sử dụng thuật tốn tìm k lân cận gần (k-NN) dựa cấu trúc mục đa chiều Cách tiếp cận k-lân cận gần kỹ thuật dự báo phi tham số (non-parametric), hiểu theo nghĩa người dùng biết trước mối quan hệ lý thuyết trị xuất trị nhập tốn dự báo, tự nhiên trực giác Ý tưởng cách tiếp cận nhận dạng mẫu khứ khớp với mẫu hành dùng tri thức cách mà chuỗi thời gian biến đổi khứ tình tương tự để dự báo biến đổi tương lai Ngoài ra, với cách tiếp cận k-lân cận gần này, mẫu dự báo hồi tiếp trở lại vào tập liệu để sử dụng cho lần dự báo sau, nhờ tầm (horizon) dự báo kéo dài theo yêu cầu (kỹ thuật gọi dự báo lặp – iterated prediction) Hình 2.6 trình bày ý tưởng cách tiếp cận 33 Dữ chuẩn hóa liệu đượ Hình 2.6 Ý tưởng cách tiếp cận dựa phương pháp so trùng mẫu Cho trạng thái (mẫu) hành có chiều dài w chuỗi thời gian có chiều dài n (w

Ngày đăng: 28/12/2021, 20:56

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w