Dự báo trên chuỗi thời gian dựa trên so trùng mẫu sử dụng nhiều độ đo Dự báo trên chuỗi thời gian dựa trên so trùng mẫu sử dụng nhiều độ đo Dự báo trên chuỗi thời gian dựa trên so trùng mẫu sử dụng nhiều độ đo Dự báo trên chuỗi thời gian dựa trên so trùng mẫu sử dụng nhiều độ đo Dự báo trên chuỗi thời gian dựa trên so trùng mẫu sử dụng nhiều độ đo
TĨM TẮT Trong báo cáo này, chúng tơi đề xuất mơ hình dự báo liệu ch̃i thời gian dựa so trùng mẫu sử dụng nhiều độ đo Mô hình xây dựng dựa sở lý thuyết cực tiểu đại số để ước lượng tham số ảnh hưởng độ đo cho sai số MSE làm nhỏ Mơ hình đề xuất có khả dự báo đa dạng loại liệu cho kết dự báo tốt Chúng tiến hành thực nghiệm 03 độ đo: Euclid, Xoắn thời gian động (DTW), Chuỗi chung dài (LCSS) để so sánh với phương pháp đề xuất Sau trình thực nghiệm dự báo với liệu thực tế, mơ hình sử dụng nhiều độ đo tốn dự báo ch̃i thời gian dựa so trùng mẫu cho dự báo tốt so với dự báo mơ hình tương tự sử dụng độ đo Từ khóa: Dự báo; Đối sánh mẫu; Ch̃i thời gian; Xoắn thời gian động; Chuỗi chung dài ABSTRACT In this paper, we propose a model for forecasting time series data based on pattern matching using multiple distances It was built on the basis of the minimum theory of algebra to estimate the parameters that influence the measures so that the MSE minimizes The proposed model is capable of forecasting a variety of data types and gives better forecasting results We also conducted experiments on three distances: Euclid, Dynamic Time Warping(DTW), Longest Common Subsequence (LCSS) to compare with the proposed method After experiments with real data, the proposed model for better prediction than the forecast on the same model using a distance Keywords: Forecasting; Pattern matching; Time series; Dynamic Time Warping; Longest Common Subsequence XII MỤC LỤC LỜI CẢM ƠN XI TÓM TẮT XII DANH SÁCH CÁC CHỮ VIẾT TẮT XV DANH SÁCH CÁC BẢNG XVI DANH MỤC HÌNH ẢNH XVII CHƯƠNG I: TỔNG QUAN CHƯƠNG II: CƠ SỞ LÝ THUYẾT 2.1 Khái niệm 2.2 Các độ đo tương tự 2.2.1 Độ đo Minkowski 2.2.2 Độ đo xoắn thời gian động (DTW) 2.2.3 Độ đo chuỗi chung dài (LCSS) 11 2.3 Chuẩn hóa ch̃i thời gian (Time series data normalizatioin) 13 2.3.1 Chuẩn hóa trung bình zero (Zero-Mean normalization) 13 2.3.2 Chuẩn hóa nhỏ nhất-lớn (Min-Max normalization) 13 2.4 Thu giảm số chiều liệu chuỗi thời gian 13 Các phương pháp biến đổi sang miền tần số 14 2.4.1 2.4.1.1 Phương pháp biến đổi Fourier rời rạc (DFT) 14 2.4.1.2 Phương pháp biến đổi wavelet rời rạc (DWT) 14 Các phương pháp xấp xỉ tuyến tính đoạn 15 2.4.2 2.4.2.1 Phương pháp xấp xỉ tuyến tính đoạn (PLA) 15 2.4.2.2 Phương pháp xấp xỉ gộp đoạn (PAA) 15 2.4.2.3 Phương pháp xấp xỉ số đoạn thích nghi (APCA) 15 2.4.2.4 Phương pháp xấp xỉ gộp ký hiệu hóa (SAX) 16 2.5 Rút trích ch̃i 17 2.6 Cửa sổ trượt (Sliding Window) 17 2.7 Tổng quan tình hình nghiên cứu dự báo liệu chuỗi thời gian 18 2.8 Dự báo ch̃i thời gian phân loại tốn dự báo chuỗi thời gian 20 2.9 Phân loại phương pháp dự báo chuỗi thời 21 2.9.1.1 Phương pháp trung bình di động (MA model) 21 2.9.1.2 Phương pháp làm trơn hàm mũ (exponential smoothing) 21 XIII Dự báo dựa làm trơn ngoại suy liệu chuỗi thời gian 21 2.9.1 2.9.1.1 Phương pháp dự báo tuyến tính 21 2.9.1.2 Mơ hình tự hồi quy bậc p - AR(p) 22 2.9.1.3 Mơ hình trung bình trượt bậc q - MA(q) 22 2.9.1.4 Mơ hình hỡn hợp tự hồi quy-trung bình trượt bậc (p,q) - ARMA(p,q) 22 Phương pháp dự báo phi tuyến 22 2.9.2 2.9.2.1 Mơ hình mạng nơ ron nhân tạo (ANN) 23 2.9.2.2 Mơ hình Markov ẩn (HMM) 23 2.10 Dự báo chuỗi thời gian dựa vào so trùng mẫu sử dụng thuật toán KNN 24 CHƯƠNG III: ĐỀ XUẤT PHƯƠNG PHÁP DỰ BÁO TRÊN CHUỖI THỜI GIAN DỰA TRÊN SO TRÙNG MẪU SỬ DỤNG NHIỀU ĐỘ ĐO 28 3.1 Đề xuất phương pháp dự báo chuỗi thời gian dựa so trùng mẫu sử dụng nhiều độ đo 28 3.2 Mơ hình tốn học phương pháp dự báo chuỗi thời gian dựa so trùng mẫu sử dụng nhiều độ đo 29 3.3 Áp dụng xác định tham số ước lượng 31 3.3.1 Trường hợp sử dụng độ đo 31 3.3.2 Trường hợp sử dụng 03 độ đo 32 CHƯƠNG VI: THỰC NGHIỆM 34 CHƯƠNG V: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 42 4.1 Đóng góp luận văn 42 4.2 Hạn chế luận văn 42 4.3 Hướng phát triển 42 TÀI LIỆU THAM KHẢO 44 XIV DANH SÁCH CÁC CHỮ VIẾT TẮT ANN: Artificial Neural Network APCA: Adaptive Piecewise Constant Approximation AR: Autoregressive model ARIMA: Auto Regressive Integrated Moving Average ARMA: Auto Regressive Moving Average DE: Differential Evolution DFT: Discrete Fourier Transform DTW: Dynamic Time Warping DWT: Discrete Wavelet Transform EWMA: Exponentially Weighted Moving Average HMM: Hidden Markov Model LCSS: Longest Common Subsequence LS-SVM: least square support vector machine MA: Moving Average MAE: Mean Absolute Error MSE: Mean Squared Error PAA: Piecewise Aggregate Approximation PLA: Piecewise Linear Pproximation RMSE: Root Mean Square Error SARIMA: Seasonal Autorregressive Integrated Moving Average SAX: Symbolic Sggregate Approximation SES: Simple Exponential Smoothing SVM: Support Vector Machine XV DANH SÁCH CÁC BẢNG Bảng 4.1 Mô tả tập liệu dùng thực nghiệm 34 Bảng 4.2 kết độ xác trung bình mơ hình dự báo tập liệu daily-min-temperatures 36 Bảng 4.3 Kết lỡi dự báo trung bình theo tháng, thực nghiệm tập liệu dailymin-temperatures với k = 36 Bảng 4.4 Kết thực nghiệm lỗi dự báo tập liệu Monthly Rain 37 Bảng 4.5 Kết thực nghiệm lỗi dự báo tập liệu Gold prices 37 Bảng 4.6 Kết thực nghiệm lỗi dự báo tập liệu Natural gaz 38 Bảng 4.7 Kết thực nghiệm lỗi dự báo tập liệu Milk production 39 Bảng 4.8 Kết thực nghiệm so sánh độ phức tạp thời gian trung bình phương pháp dự báo tập liệu 40 XVI DANH MỤC HÌNH ẢNH Hình 2.1: Hình ảnh ch̃i thời gian Hình 2.2: Mơ tả thành phần xu hướng tiến lên Hình 2.3: Mơ tả thành phần mùa Hình 2.4: Mơ tả thành phần chu kỳ Hình 2.5: Minh họa hai chuỗi thời gian giống (a) đường khác (b) biên độ giao động khác Hình 2.6: Khoảng cách hai đường biểu diễn giống hình dạng Hình 2.7: Minh họa cách tính khoảng cách theo DTW [6] 10 Hình 2.8: Minh họa (A) Sakoe-Chiba Band [7]và (B) Itakura Parallelogram [8] 10 Hình 2.9: (A) Sử dụng Sakoe-Chiba Band để tạo vùng bao (B) Vùng bao Q sử dụng Sakoe-Chiba band (C) Chặn khoảng cách DTW dược tính khoảng cách Euclid ch̃i ứng viên C phần bên gần vùng bao chuỗi truy vấn Q 11 Hình 2.10: Ví dụ hiệu của ϵ δ, tính tốn LCSS [9] 13 Hình 2.11: Minh họa biến đổi ch̃i thời gian x thành x’ phương pháp DFT [1] 14 Hình 2.12: Minh họa biến đổi chuỗi thời gian x thành x’ phương pháp Haar wavelet [11] 14 Hình 2.13: Minh họa phương pháp PAA 15 Hình 2.14: Một ch̃i thời gian biến đổi PAA mã hóa thành ký hiệu SAX Ch̃i thời gian mã hóa thành abfedbc 16 Hình 2.15: Minh họa ch̃i C ch̃i thời gian T 17 Hình 2.16: Minh họa cửa sổ trượt liệu ch̃i thời gian 17 Hình 2.17: Ví dụ dự báo liệu ch̃i thời gian 20 Hình 2.18: Minh họa ANN 23 Hình 2.19: Một ví dụ mơ hình HMM 03 trạng thái [15] 23 Hình 2.20: Ý tưởng cách tiếp cận dựa phương pháp so trùng mẫu 24 Hình 2.21: Minh họa thuật toán dự báo dựa phương pháp so trùng mẫu 25 Hình 2.22: Các bước thuật toán dự báo dựa phương pháp so trùng mẫu 25 Hình 2.23: Minh họa thuật tốn tính khoảng cách Euclid kết hợp với ý tưởng từ bỏ sớm [11] 26 Hình 2.24: Thuật tốn sử dụng độ đo khoảng cách giới hạn để tăng tốc tìm kiếm 27 XVII CHƯƠNG I: TỔNG QUAN Sự phát triển công nghệ thông tin việc ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống, kinh tế xã hội nhiều năm qua đồng nghĩa với lượng liệu quan thu thập lưu trữ ngày tích lũy nhiều lên Họ lưu trữ liệu cho ẩn chứa giá trị định đó Tuy nhiên, theo thống kê có lượng nhỏ liệu (khoảng từ 5% đến 10%) ln phân tích, số cịn lại họ khơng biết phải làm hoặc làm với chúng họ tiếp tục thu thập tốn với ý nghĩ lo sợ có đó quan trọng bị bỏ qua sau có lúc cần đến Mặt khác, mơi trường cạnh tranh, người ta ngày cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc định ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lượng liệu khổng lồ có Với lý vậy, phương pháp quản trị khai thác sở liệu truyền thống ngày không đáp ứng thực tế làm phát triển khuynh hướng kỹ thuật đó khai phá liệu (Data Mining) Khai phá liệu nghiên cứu, ứng dụng nhiều lĩnh vực khác nước giới, Việt Nam kỹ thuật tương đối mẻ nhiên nghiên cứu dần đưa vào ứng dụng Dự báo nhu cầu thiếu cho hoạt động người bối cảnh bùng nổ thông tin Dự báo cung cấp sở cần thiết cho hoạch định, nói khơng có khoa học dự báo dự định tương lai người vạch khơng có thuyết phục đáng kể Người ta chia phương pháp dự báo thành hai loại: định tính định lượng Phương pháp định tính thường phụ thuộc vào kinh nghiệm chuyên gia lĩnh vực liên quan, đó phương pháp định lượng sử dụng liệu khứ theo thời gian, dựa liệu lịch sử để phát chiều hướng vận động đối tượng phù hợp với mơ hình tốn học đó đồng thời sử dụng mơ hình đó làm mơ hình ước lượng Tiếp cận định lượng dựa giả định giá trị tương lai biến số dự báo phụ thuộc vào xu vận động đối tượng đó khứ Trang Nhiều loại phương pháp dự báo phát triển nhiều nhà nghiên cứu Một số phương pháp phổ biến để dự đốn ch̃i thời gian làm mịn theo cấp số nhân , mơ hình ARIMA, mạng lưới thần kinh nhân tạo (ANN) Máy vectơ hỗ trợ (SVM) Phương pháp dự báo chuỗi thời gian dựa vào so trùng mẫu giới thiệu [1] sử dụng độ đo Euclid, độ đo xoắn thời gian động (Dynamic Time Warping) [2], … Phương pháp dự báo có ưu điểm đơn giản hiệu Tuy nhiên, độ xác phương pháp phụ thuộc nhiều vào độ đo tương tự sử dụng Các hương pháp lai (hybrid) giới thiệu dự báo chuỗi thời gian như: phương pháp máy vectơ hỡ trợ bình phương nhỏ (LS-SVM) kết hợp với KNN; phương pháp kết hợp thông tin mơ-đun ANN để dự đốn ch̃i thời gian; ANN phương thức khớp mẫu theo phương pháp dự báo dựa khoảng cách Euclide; phương pháp lai kết hợp mơ hình ARIMA mơ hình HyFIS để dự báo chuỗi thời gian đơn biến; kết hợp mô hình ANN mơ hình SVM vng nhỏ Trong năm gần đây, nghiên cứu phát triển hệ thống thơng minh sử dụng để dự báo luồng liệu Các phương pháp đề xuất theo hướng thuật toán trực tuyến thường dựa quy tắc mờ (fuzzy rules) thuật tốn tiến hóa Dữ báo liệu chuỗi thời gian dựa phương pháp định lượng tồn nhiều ứng dụng thực tế từ lĩnh vực khoa hoc kỹ thuật kinh tế, tài Trong lĩnh vực này, việc tìm kiếm ch̃i truy vấn có xuất sở liệu ch̃i thời gian (tìm kiếm tương tự) việc làm cần thiết Nhiều nhà nghiên cứu có đóng góp cải tiến quan trọng Tuy nhiên, theo PGS TS Dương Tuấn Anh số nhóm vấn đề sau cần tiếp tục nghiên cứu cải tiến: [3] - Nhóm 1: Nghiên cứu so sánh thực nhiệm hiệu phương pháp tìm kiếm tương tự nhà nghiên cứu đề xuất; - Nhóm 2: Nghiên cứu so sánh thực nghiệm hiệu độ đo tương tự khác đề xuất; - Nhóm 3: Đề xuất cấu trúc mục hữu hiệu cho chuỗi thời gian; Trang - Nhóm 4: Ứng dụng phương pháp tìm kiếm tương tự lĩnh vực khai phá liệu chuỗi thời gian Trong luận văn “DỰ BÁO TRÊN CHUỖI THỜI GIAN DỰA TRÊN SO TRÙNG MẪU SỬ DỤNG NHIỀU ĐỘ ĐO” này, với mong muốn đề xuất thực nghiệm việc kết hợp độ đo tương tự toán so trùng mẫu nhằm đánh giá hiệu phương pháp này, góp phần vào làm rõ thêm hiệu việc kết hợp nhiều độ đo Trên sở nghiên cứu TS Nguyễn Thành Sơn [4], xin phát biểu nội dung nghiên cứu sau: Mục tiêu nghiên cứu: Đánh giá hiệu phương pháp so trùng mẫu chuỗi thời gian phương pháp so trùng mẫu chuỗi thời gian sử dụng nhiều độ đo Các mục tiêu nghiên cứu cụ thể: - Nghiên cứu ch̃i thời gian tính chất - Nghiên cứu độ đo tương tự sử dụng dự báo chuỗi thời gian - Nghiên cứu áp dụng giải thuật K-NN dự báo chuỗi thời gian - Nghiên cứu ước lượng giá trị tham số dựa lý thuyết toán học - Nghiên cứu tìm phương pháp lai đơn giản, chất lượng hiệu suất cao Phương pháp nghiên cứu: Trên sở lý thuyết chuỗi thời gian, độ đo tương tự, phương pháp so trùng mẫu kiến thức toán học để chứng minh cho cho hiệu việc sử dụng nhiều độ đo Thực nghiệm, kiểm tra, so sánh, đánh giá phương pháp liệu thời gian ngắn hạn khác đa dạng lĩnh vực khác Ý nghĩa khoa học và thực tiễn của luận văn Luận văn tiến hành thực việc dự báo chuỗi thời gian dựa so trùng mẫu sử dụng nhiều độ đo để nâng cao chất lượng dự báo liệu ch̃i thời gian mơ hình sử dụng độ đo Tiến hành thực nghiệm với nhiều liệu thực tế có tính chất khác nhau, đánh giá kiểm tra tính đắn sở lý thuyết xây dựng luận văn Cấu trúc luận văn Trang Luận văn trình bày gồm thành phần sau đây: Chương I: Tổng quan Chương II: Cơ sở lý thuyết Chương III: Đề xuất phương pháp dự báo chuỗi thời gian dựa so trùng mẫu sử dụng nhiều độ đo Chương IV: Thực nghiệm Chương V: Kết luận hướng phát triển Trang ̅̅̅̅̅̅ Dj: định thức nhận từ D cách thay cột thứ j cột tự do, j=1, 𝑚 Như dựa vào kiến thức toán học ta thấy 𝑀𝑆𝐸𝑀ộ𝑡 độ đ𝑜 ≥ 𝑀𝑆𝐸𝑚 độ đ𝑜 3.3 Áp dụng xác định tham số ước lượng Trong phần trình bày cơng thức xác định tham số ước lượng tương ứng với độ đo để MSE nhỏ dự báo chuỗi thời gian dựa so trùng mẫu sử dụng nhiều độ đo 3.3.1 Trường hợp sử dụng độ đo 𝑀𝑆𝐸 = ∑𝑛𝑖=1(𝑌𝑖 − 𝑌𝑗 )2 , 𝑌𝑑ự 𝑏á𝑜,𝑗 = 𝑎1 𝑌1(𝑖) + 𝑎2 𝑌2(𝑖) ∀ ∑𝑚 𝑗=1 𝑎𝑗 = 𝑛 𝑀𝑆𝐸 = ∑(𝑌𝑖 − 𝑎1 𝑌1(𝑖) − 𝑎2 𝑌2(𝑖) )2 𝑖=1 Do a1 + a2 = nên a1 = 1- a2 ta có: 𝑀𝑆𝐸 = ∑𝑛𝑖=1[𝑌𝑖 − (1 − 𝑎2 )𝑌1(𝑖) − 𝑎2 𝑌2(𝑖) ] 𝑛 𝑀𝑆𝐸 = ∑[𝑌𝑖 − 𝑌1(𝑖) + 𝑎2 𝑌1(𝑖) − 𝑎2 𝑌2(𝑖) ] 𝑖=1 𝑛 𝑀𝑆𝐸 = ∑[𝑌𝑖 − 𝑌1(𝑖) + 𝑎2 𝑌1(𝑖) − 𝑎2 𝑌2(𝑖) ] 𝑖=1 𝑛 𝑀𝑆𝐸 = ∑[𝑌𝑖 − 𝑌1(𝑖) − 𝑎2 (𝑌2(𝑖) − 𝑌1(𝑖) )] 𝑖=1 𝑛 2 𝑀𝑆𝐸 = ∑[𝑌𝑖 − 𝑌1(𝑖) ] − 2𝑎2 (𝑌2(𝑖) − 𝑌1(𝑖) )(𝑌𝑖 − 𝑌1(𝑖) ) + [𝑎2 (𝑌2(𝑖) − 𝑌1(𝑖) )] 𝑖=1 Ta tính được, 𝜕𝑀𝑆𝐸 𝜕𝑎2 𝜕𝑀𝑆𝐸 𝜕𝑎2 = ∑𝑛𝑖=1[−2(𝑌2(𝑖) − 𝑌1(𝑖) )(𝑌𝑖 − 𝑌1(𝑖) ) + 2𝑎2 (𝑌2(𝑖) − 𝑌1(𝑖) ) ], cho = 0, Ta có 𝑎2 = ∑𝑛 𝑖=1(𝑌2(𝑖) − 𝑌1(𝑖))(𝑌𝑖 −𝑌1(𝑖) ) ∑𝑛 𝑖=1(𝑌2(𝑖) − 𝑌1(𝑖) ) Vậy ta có nghiệm tham số ước lượng sau: 𝑎1 = − 𝑎2 ∑𝑛𝑖=1(𝑌2(𝑖) − 𝑌1(𝑖) )(𝑌𝑖 − 𝑌1(𝑖) ) { 𝑎2 = ∑𝑛𝑖=1(𝑌2(𝑖) − 𝑌1(𝑖) ) Trang 31 3.3.2 Trường hợp sử dụng 03 độ đo 𝑛 𝑀𝑆𝐸 = ∑(𝑌𝑖 − 𝑌𝑑ự 𝑏á𝑜,𝑗 )2 𝑖=1 𝑌𝑑ự 𝑏á𝑜 = 𝑎1 𝑌1(𝑖) + 𝑎2 𝑌2(𝑖) + 𝑎3 𝑌3(𝑖) ∀ ∑𝑚 𝑗=1 𝑎𝑗 = 𝑛 𝑀𝑆𝐸 = ∑(𝑌𝑖 − 𝑎1 𝑌1(𝑖) − 𝑎2 𝑌2(𝑖) − 𝑎3 𝑌3(𝑖) )2 𝑖=1 Do a1 + a2 + a3 = nên a1 = - a2 - a3 ta có: 𝑛 𝑀𝑆𝐸 = ∑[𝑌𝑖 − (1 − 𝑎2 − 𝑎3 )𝑌1(𝑖) − 𝑎2 𝑌2(𝑖) − 𝑎3 𝑌3(𝑖) ] 𝑖=1 𝑛 𝑀𝑆𝐸 = ∑[𝑌𝑖 − 𝑌1(𝑖) + 𝑌1(𝑖) 𝑎2 + 𝑌1(𝑖) 𝑎3 − 𝑎2 𝑌2(𝑖) − 𝑎3 𝑌3(𝑖) ] 𝑖=1 𝑛 𝑀𝑆𝐸 = ∑[𝑌𝑖 − 𝑌1(𝑖) + 𝑌1(𝑖) 𝑎2 − 𝑎2 𝑌2(𝑖) + 𝑌1(𝑖) 𝑎3 − 𝑎3 𝑌3(𝑖) ] 𝑖=1 𝑛 𝑀𝑆𝐸 = ∑[𝑌𝑖 − 𝑌1(𝑖) − (𝑌2(𝑖) − 𝑌1(𝑖) )𝑎2 − (𝑌3(𝑖) − 𝑌1(𝑖) )𝑎3 ] 𝑖=1 𝑛 𝑀𝑆𝐸 = ∑[𝑌𝑖 − 𝑌1(𝑖) ] 𝑖=1 𝑛 2 + 𝑎2 ∑[(𝑌2(𝑖) − 𝑌1(𝑖) )] 𝑖=1 𝑛 𝑛 2 + 𝑎3 ∑[ (𝑌3(𝑖) − 𝑌1(𝑖) )] − 2𝑎2 ∑(𝑌𝑖 − 𝑌1(𝑖) )(𝑌2(𝑖) − 𝑌1(𝑖) ) 𝑖=1 𝑛 𝑖=1 𝑛 + 2𝑎2 𝑎3 ∑(𝑌2(𝑖) − 𝑌1(𝑖) )(𝑌3(𝑖) − 𝑌1(𝑖) ) − 2𝑎3 ∑[(𝑌𝑖 − 𝑌1(𝑖) )(𝑌3(𝑖) 𝑖=1 𝑖=1 − 𝑌1(𝑖) )] Đặt 𝑎2 = 𝑥, 𝑎3 = 𝑦, 𝑛 𝐴 = ∑[(𝑌2(𝑖) − 𝑌1(𝑖) )] 𝑖=1 Trang 32 𝑛 𝐵 = ∑[ (𝑌3(𝑖) − 𝑌1(𝑖) )] 𝑖=1 𝑛 𝐶 = ∑(𝑌𝑖 − 𝑌1(𝑖) )(𝑌2(𝑖) − 𝑌1(𝑖) ) 𝑖=1 𝑛 𝐷 = ∑(𝑌2(𝑖) − 𝑌1(𝑖) )(𝑌3(𝑖) − 𝑌1(𝑖) ) 𝑖=1 𝑛 𝐸 = ∑(𝑌𝑖 − 𝑌1(𝑖) )(𝑌3(𝑖) − 𝑌1(𝑖) ) 𝑖=1 MSE(x, y) = Ax + By − 2Cx − 2Dy + 2Exy ≤ x, y ≤ { (*) Đặt = {(x, y) ∈ R , ≤ x, y ≤ } Phương trình * hàm tối ưu có điều kiện ta sử dụng tối ưu hóa để ước lượng tham số Hoặc sử dụng phương pháp Gradient Descent, sau: 2Ax − 2C + 2Ey 2A + 2E x 2C ∇f(x, y) = [ ] [ y] − [ ] ]=[ 2By − 2D + 2Ex 2E + 2B 2D x0 Chọn X0 = [y ] ∈ Ta tìm Xk+1 = Pc [Xk − λ∇f(Xk )], < λ < ‖𝑀‖, ‖𝑀‖ = λ𝑚𝑎𝑥 Điều kiện dừng, ‖Xk − Xk+1 ‖ < ε Pc (𝑋) = max(𝑙𝑏, min(𝑋, 𝑢𝑏) 𝑣ớ𝑖 𝑙𝑏 = [ ] , 𝑢𝑏 = [ ], Với Pc (𝑋) phép chiếu X tập xác định Khi Xk+1 đạt điều kiện dừng với ε xác định trước, xk+1 ta có Xk+1 = [y ] k+1 𝑎2 = xk+1 𝑎 = yk+1 { 𝑎1 = − xk+1 − yk+1 Trang 33 CHƯƠNG VI: THỰC NGHIỆM Trong chương chúng tơi trình bày cách thức thực nghiệm đánh giá kết thực nghiệm để so sánh tính hiệu phương pháp dự báo chuỗi thời gian sử dụng nhiều độ đo so với phương pháp dự báo thông thường liệu khác Dữ liệu thực nghiệm Thực nghiệm thực nhiều liệu thuộc lĩnh vực khác Các liệu lấy từ nhiều nguồn khác Internet Bảng 4.1 mô tả tóm tắt liệu dùng thực nghiệm Bảng 4.1 Mô tả tập liệu dùng thực nghiệm Tập liệu Mô tả Nguồn Nhiệt độ thấp ngày TP Melbourne, Úc từ 1981-1990 Monthly rain, Lượng mưa trung bình coppermine, theo tháng từ 1/1933mm 12/1976 Gold prices Giá vàng trung bình ngày từ 2/1/2009 đến 31/12/2012 Natural gaz Lượng khí ga trung bình tuần từ ngày 31/12/1993 đến 27/7/2012 Milk Sản lượng sữa trung bình Production tháng từ 1/1962 đến 12/1975 daily-mintemperatures https://www.kaggle.com/paulbrabban/dailyminimum-temperatures-in-melbourne https://www.qlik.com/us/products/qlik-datamarket?q=provider:tsdl http://www.forexpros.com/commodities/ goldhistorical-data http://tonto.eia.gov/dnav/ng/hist/nw_epg0_sao _r88_bcfw.htm https://datamarket.com/data/set/22ox/monthlymilk-production-pounds-per-cow-jan-62-dec75#!ds=22ox&display=line Môi trường thực nghiệm Các thực nghiệm thực máy tính có cấu sau: CPU Core i5, Ram 8GB, hệ điều hành Window 10 64bits Ngơn ngữ lập trình sử dụng Python kết hợp với Pycharm IDE Tiêu chuẩn đánh giá Luận văn đánh giá độ xác mơ hình dự báo dựa tiêu chuẩn lỡi trung bình tuyệt đối (MAE) Sai số trung bình gốc (RMSE) MAE RMSE tính theo cơng thức sau n MAE Yobs,i Ymod el ,i n i1 Trang 34 4.1 n RMSE i 1 (Yobs,i Ymod el ,i ) 4.2 n Trong đó Yobs,i giá trị quan sát thời điểm i Ymodel,i giá trị dự báo mô hình thời điểm ,n chiều dài ch̃i dự báo Việc dùng hai độ đo lỗi thể góc nhìn khác đánh giá hai mơ hình dự báo Đánh giá thực nghiệm Để đánh giá độ xác mơ hình dự báo, Luận văn chọn thực dự báo theo phương pháp ‘one step ahead’ Mỗi tập liệu chia thành phần: phần training dùng cho việc tìm kiếm tương tự phần test dùng cho việc đánh giá độ xác dự báo Tỷ lệ phần training phần test tùy thuộc vào tập liệu Luận văn thực nghiệm dự báo toàn tập test sau đó tính độ xác trung bình Để đánh giá ảnh hưởng k k-NN đến độ xác dự báo, luận văn thực nghiệm đánh giá độ xác dự báo với giá trị k khác Bảng 4.2 mô tả kết thực nghiệm tập liệu daily-min-temperatures với k thay đổi từ đến Trong tập liệu này, giá trị nhiệt độ từ đến 1799 dùng để tìm kiếm lân cận gần nhất, giá trị từ 1800 đến 2000 dùng để đánh giá độ mơ hình dự báo Chiều dài ch̃i tìm kiếm chọn 30 Trong bảng 4.2 kết độ xác trung bình mơ hình dự báo tính tồn kết độ xác dự báo tập test Kết thực nghiệm cho thấy k có ảnh hưởng đến kết dự báo với giá trị k dùng thực nghiệm mơ hình đề xuất cho kết dự báo tốt mơ hình tương tự dùng độ đo Các kết thực nghiệm thực với k tốt chọn mỗi tập liệu Bảng 4.3 kết thực nghiệm lỗi dự báo trung bình theo tháng tháng cuối tập liệu daily-min-temperatures với k = Phần lại tập liệu dùng để tìm kiếm tương tự Chiều dài ch̃i tìm kiếm chọn 30 Kết thực nghiệm cho thấy phương pháp đề xuất cho kết tốt so với phương pháp lại Trang 35 Bảng 4.2 kết độ xác trung bình mơ hình dự báo tập liệu daily-min-temperatures k Euclid 0.09556 0.08428 0.07854 0.07816 0.07674 0.07811 0.07835 0.07818 DTW 0.09292 0.08838 0.08871 0.08637 0.08358 0.08347 0.08116 0.07956 MAE LCS 0.12944 0.12944 0.11036 0.10338 0.10099 0.09855 0.09767 0.09743 Kết hợp độ đo 0.04837 0.04631 0.04629 0.04615 0.04415 0.,04514 0.04508 0.04472 Bảng 4.3 Kết lỗi dự báo trung bình theo tháng, thực nghiệm tập liệu dailymin-temperatures với k = Tháng thứ T Bình Tháng thứ T Bình Euclid 0.05962 0.06914 0.09253 0.10431 0.04564 0.07425 DTW 0.05685 0.08142 0.08995 0.11979 0.06077 0.08176 Euclid 0.07426 0.08734 0.10554 0.13061 0.05615 0.09078 DTW 0.07400 0.09521 0.10515 0.14047 0.07982 0.09893 MAE LCS Kết hợp độ đo 0.08817 0.01857 0.11859 0.03910 0.09862 0.06158 0.10158 0.05765 0.09603 0.04363 0.10060 0.04411 RMSE LCS Kết hợp độ đo 0.11137 0.03280 0.15159 0.06894 0.12131 0.07951 0.13260 0.09853 0.11210 0.05468 0.12579 0.06689 Bảng 4.4 mô tả kết thực nghiệm lỡi dự báo trung bình theo năm tập liệu Monthly rain năm cuối từ 1968 đến 1976, với k = 7, chiều dài ch̃i tìm kiếm chọn 30 Phần lại tập liệu dùng để tìm kiếm tương tự Kết thực nghiệm cho thấy dù có vài trường hợp kết lỗi dự báo phương pháp đề xuất lớn phương pháp dùng độ đo, kết dự báo trung bình tồn năm dự báo phương pháp đề xuất nhỏ phương pháp dùng riêng lẻ độ đo Trang 36 Bảng 4.4 Kết thực nghiệm lỗi dự báo tập liệu Monthly Rain Năm thứ T bình Năm thứ T bình Euclid 0.11322 0.08117 0.09931 0.12342 0.09974 0.10557 0.15231 0.09007 0.03229 0.09968 DTW 0.11584 0.07996 0.09596 0.12957 0.09910 0.09504 0.15017 0.08566 0.03520 0.09850 Euclid 0.129779 0.084119 0.142912 0.159489 0.112176 0.125884 0.243696 0.100377 0.040988 0.126602 DTW 0.132010 0.083993 0.137710 0.161705 0.110708 0.119257 0.239887 0.096827 0.044089 0.125132 MAE LCS 0.12091 0.09238 0.09035 0.13305 0.11550 0.10897 0.15620 0.10296 0.03632 0.10629 RMSE LCS 0.133624 0.096715 0.134758 0.165223 0.121307 0.121986 0.240511 0.111059 0.045189 0.130041 Kết hợp độ đo 0.10732 0.07868 0.08887 0.12177 0.09594 0.10111 0.14881 0.08671 0.02672 0.09510 Kết hợp độ đo 0.123858 0.082235 0.134700 0.157459 0.106405 0.118381 0.237933 0.097537 0.038231 0.121860 Bảng 4.5 Kết thực nghiệm lỗi dự báo tập liệu Gold prices Tháng thứ T bình Tháng thứ T bình Euclid 0.052892 0.053783 0.041052 0.072640 0.051856 0.054114 DTW 0.048404 0.048484 0.039093 0.070987 0.053485 0.117875 Euclid 0.066467 0.057459 0.045122 0.080024 0.059930 0.061801 DTW 0.060615 0.051562 0.042632 0.077968 0.058316 0.058219 MAE LCS 0.191157 0.234850 0.186163 0.399908 0.264967 0.189829 RMSE LCS 0.200318 0.244517 0.210625 0.409106 0.286285 0.270170 Kết hợp độ đo 0.001630 0.000000 0.001144 0.072011 0.051122 0.013474 Kết hợp độ đo 0.003942 0.000000 0.003893 0.079988 0.059849 0.029534 Bảng 4.5 kết thực nghiệm lỡi dự báo trung bình theo tháng tháng cuối tập liệu Gold prices với k = 7, chiều dài ch̃i tìm kiếm chọn Trang 37 30 Phần lại tập liệu dùng để tìm kiếm tương tự Kết thực nghiệm cho thấy kết dự báo trung bình tháng toàn năm dự báo phương pháp đề xuất nhỏ phương pháp dùng riêng lẻ độ đo Bảng 4.6 kết thực nghiệm lỡi dự báo trung bình theo tháng 36 tháng cuối tập liệu Natural gaz với k = 5, chiều dài chuỗi tìm kiếm chọn 24 Phần cịn lại tập liệu dùng để tìm kiếm tương tự Kết thực nghiệm cho thấy dù có vài trường hợp kết lỗi dự báo phương pháp đề xuất lớn phương pháp dùng độ đo, kết dự báo trung bình tồn 36 tháng dự báo phương pháp đề xuất nhỏ phương pháp dùng riêng lẻ độ đo Bảng 4.6 Kết thực nghiệm lỗi dự báo tập liệu Natural gaz Tháng thứ T bình Tháng thứ T bình Euclid 0.25822 0.26917 0.22482 0.29413 0.23438 0.40054 0.28021 DTW 0.26171 0.27714 0.23318 0.29546 0.22416 0.38277 0.27907 Euclid 0.306324 0.319195 0.244436 0.332916 0.253009 0.365892 0.303629 DTW 0.292544 0.310895 0.250823 0.330544 0.245131 0.348499 0.296406 MAE LCS 0.40194 0.26301 0.28173 0.32105 0.17201 0.51893 0.32645 RMSE LCS 0.461622 0.334331 0.338145 0.379369 0.216477 0.499039 0.371497 Kết hợp độ đo 0.19572 0.23615 0.11021 0.27554 0.06978 0.40054 0.21466 Kết hợp độ đo 0.285171 0.303038 0.185217 0.322500 0.100550 0.365623 0.260350 Bảng 4.7 kết thực nghiệm lỗi dự báo 17 tháng cuối tập liệu Milk production với k = 5, chiều dài ch̃i tìm kiếm chọn 12 Phần lại tập liệu dùng để tìm kiếm tương tự Kết thực nghiệm cho thấy dù có trường hợp kết lỗi dự báo phương pháp đề xuất lớn phương pháp dùng độ đo, kết dự báo trung bình tồn 17 tháng dự báo phương pháp đề xuất nhỏ phương pháp dùng riêng lẻ độ đo Trang 38 Bảng 4.7 Kết thực nghiệm lỗi dự báo tập liệu Milk production Tháng thứ 10 11 12 13 14 15 16 17 T bình Tháng thứ 10 11 12 13 14 15 16 17 T bình Euclid 0.339984 0.231891 0.121034 0.011699 0.000000 0.079447 0.017268 0.075481 0.048878 0.214864 0.241787 0.398758 0.341907 0.244231 0.141747 0.012861 0.002324 0.148480 DTW 0.319111 0.236619 0.129968 0.001162 0.000361 0.068990 0.054407 0.112981 0.048878 0.237861 0.241787 0.398758 0.341907 0.248598 0.149679 0.021675 0.011098 0.154343 Euclid 0.339984 0.231891 0.121034 0.011699 0.000000 0.079447 0.017268 0.075481 0.048878 0.214864 0.241787 0.398758 0.341907 0.244231 0.141747 0.012861 0.002324 0.148480 DTW 0.319111 0.236619 0.129968 0.001162 0.000361 0.068990 0.054407 0.112981 0.048878 0.237861 0.241787 0.398758 0.341907 0.248598 0.149679 0.021675 0.011098 0.154343 MAE LCS 0.498397 0.395032 0.240064 0.123558 0.127885 0.045072 0.146795 0.209295 0.062500 0.329327 0.386979 0.695272 0.559135 0.410737 0.312179 0.187179 0.110857 0.284721 RMSE LCS 0.498397 0.395032 0.240064 0.123558 0.127885 0.045072 0.146795 0.209295 0.062500 0.329327 0.386979 0.695272 0.559135 0.410737 0.312179 0.187179 0.110857 0.284721 Kết hợp độ đo 0.339984 0.231891 0.121034 0.000000 0.000000 0.045072 0.017268 0.075481 0.048878 0.214864 0.241787 0.398758 0.341907 0.244231 0.141747 0.012861 0.002324 0.145770 Kết hợp độ đo 0.339984 0.231891 0.121034 0.000000 0.000000 0.045072 0.017268 0.075481 0.048878 0.214864 0.241787 0.398758 0.341907 0.244231 0.141747 0.012861 0.002324 0.145770 Ngoài việc so sánh phương pháp dựa độ xác, luận văn cịn đánh giá phương pháp dựa thời gian thực thi trung bình chúng Để tính thời gian thực thi trung bình đề tài thực thuật báo dự báo toàn tập liệu test, Trang 39 sau đó tính thời gian thực thi trung bình cho dự báo Bảng 4.8 kết thực nghiệm so sánh thời gian thực thi trung bình phương pháp dự báo ba tập liệu daily-min-temperatures, natural gas, monthly-rain, milk-production gold-price Kết thực nghiệm cho thấy thời gian thực thi phương pháp đề xuất luận văn thời gian thực thi lâu phương pháp dự báo sử dụng độ đo cộng thêm thời gian cần để tổng hợp kết dự báo từ phương pháp dùng độ đo Tuy nhiên, thời gian cần để tổng hợp kết dự báo từ phương pháp dùng độ đo thường nhỏ độ phức tạp tính tốn O(l) Bảng 4.8 Thời gian thực thi trung bình thuật toán thực nghiệm tập liệu khác Độ phức tạp thời gian trung bình (ms) Chiều dài ch̃i tìm kiếm Euclid DTW LCS Kết hợp độ đo Tập liệu: daily-min-temperatures 30 0.590789 1.58118 0.982161 1.58118 60 0.545844 1.651559 1.770095 1.800252 90 0.966887 3.157465 4.717307 4.720856 0.238994 0.66602 0.255172 0.668524 12 0.302042 0.793179 0.351485 0.804032 24 0.376927 0.883158 0.485334 0.889059 0.116642 0.372422 0.136077 0.374711 12 0.116828 0.370985 0.147256 0.373817 24 0.125137 0.477664 0.206855 0.479407 0.024992 0.393873 0.134302 0.393873 12 0.024992 0.393873 0.134302 0.393873 30 0.203617 0.602661 0.327691 0.604502 60 0.248728 0.782127 0.783909 0.821265 90 0.266855 1.169899 1.520539 1.577361 Tập liệu: NaturalGas Tập liệu: monthly-rain Tập liệu: milk-production Tập liệu: gold-price Nhận xét chung kết thực nghiệm: Từ kết thực nghiệm tập liệu thực thuộc lĩnh vực khác ta thấy sử dụng mơ hình dự báo dựa vào so trùng mẫu dùng nhiều độ đo cho kết Trang 40 dự báo tốt so với trường hợp dùng độ đo Có điều mỡi độ đo có ưu nhược điểm riêng nên sử dụng nhiều độ đo mỗi độ đo có thể hỗ trợ khắc phục nhược điểm độ đo khác Trang 41 CHƯƠNG V: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Chương trình bày đóng góp nghiên cứu luận văn này, số hạn chế hướng phát triển tương lai 3.4 Đóng góp của luận văn Qua thời gian nghiên cứu, Luận văn đáp ứng mục tiêu đề ban đầu, cụ thể là: - Hiểu ch̃i thời gian tính chất - Hiểu độ đo tương tự sử dụng dự báo chuỗi thời gian - Hiểu cách áp dụng giải thuật K-NN dự báo ch̃i thời gian - Đề xuất mơ hình dự báo dựa so trùng mẫu sử dụng nhiều độ đo cách ước lượng giá trị tham số dựa lý thuyết toán học - Thực nghiệm đánh giá kết 3.5 Hạn chế của luận văn Do hạn chế thời gian, Luận văn chưa thực đánh giá thực nghiệm dựa tiêu chí khác nhau, chưa tối ưu hóa thuật tốn tìm kiếm tương tự xây dựng giao diện thân thiện với người sử dụng Hầu hết giải thuật khai phá liệu chuỗi thời gian thường đòi hỏi phải xác định giá trị số thông số đầu vào việc xác định thông số thường không dễ dàng người dùng Việc xác định thông số đầu vào thường địi hỏi người dùng q trình thử sửa sai thực nghiệm tốn thời gian Giải thuật đề xuất luận văn không tránh khỏi hạn chế nêu Đó việc dự báo liệu chuỗi thời gian giải thuật K-NN người dùng phải xác định tham số k phù hợp 3.6 Hướng phát triển Từ nghiên cứu kết đạt luận văn này, dự định hướng nghiên cứu sau: - Đánh giá thực nghiệm phương pháp đề xuất dựa tiêu chí khác CV(RMSE), thời gian thực thi, lượng nhớ cần sử dụng Trang 42 - Nghiên cứu tối ưu hóa thuật tốn tìm kiếm tương tự - Nghiên cứu đề xuất phương pháp xác định k cách tự động - Cải tiến giao diện chương trình để thân thiện với người dùng Trang 43 TÀI LIỆU THAM KHẢO [1] Agrawal, R., Faloutsos, C and Swami, A., Efficient Similarity Search in Sequence Databases, Chicago: In Proc of the Fourth International Conference on Foundations of Data Organization and Algorithms, 1993 [2] Berndt, D J., Clifford, J., Using Dynamic Time Warping to Find Patterns in Time Series, Seattle, Washington: In KDD-94: AAAI Workshop on Knowledge Discovery in Database, 1994 [3] D T Anh, "Tổng quan tìm kiếm tương tự liệu ch̃i thời gian," Tạp chí Phát triển KH&CN, tập 14, số K2 – 2011, p 71 – 79, 2011 [4] N T Son, "Pattern matching-based prediction using affine combination of two measures: two are better than one," Int J Business Intelligence and Data Mining, Vol 12, No 3, 2017, p 236 – 256, 2017 [5] E Keogh, "Mining Shape and Time Series Databases with Symbolic Representations," in Tutorial of the 13rd ACM International Conference on Knowledge Discovery and Data mining (KDD 2007), 2007 [6] K E., ",A Tutorial Finding Repeated Structure in Time Series Data," In 2015 SIAM International Conference on DATA MINING, SDM2015, Vancouver, Canada., 2015 [7] H Sakoe, S chiba, , "Dynamic programming algorithm optimization for spoken word recognition," in IEEE Trans Acoustics, Speech, and Signal Proc, 1978 [8] F Itakura, "Minimum prediction residual principle applied to speech recognition," in IEEE Trans Acoustics, Speech, and Signal Proc, 1975 [9] E Keogh, C A Ratanamahatana,, "Exact indexing of dynamic time warping”," Journal of Knowledge and Information Systems, vol 7, no 3, p 358 – 386, 2005 [10] Potolea, Hasna, Rodica, "The Longest Common Subsequence Distance usin ga Complexity Factor," In Proceedings of the 8th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management, vol Volume 1, pp pages 336-343, 2016 [11] T Gorecki, "Using derivatives in a longest common subsequence dissimilarity measure for time series classification," Pattern Recognition Letters, vol 45, p 99– 105, 2014 Trang 44 [12] S J Wilson, "Biểu diễn liệu khai phá liệu chuỗi thời gian: Phương pháp tiếp cận miền thời gian," Thống kê hội nhập, Số – 2017, p 35 – 41, 2017 [13] E Keogh, K Chakrabarti, M Pazzani, S Mehrotra, "Dimensionality Reduction for Fast Similarity Search in Large Time Series Databases," in Conference on Knowledge and Information Systems, 2000 [14] J Lin, E Keogh, S Leonardi, B Chiu,, "A symbolic Representation of Time Series with Implications for Streaming Algorithms," in the 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery, San Diego, CA, 2003 [15] P Schäfer, "Scalable time series similarity search for data analytics," 2015 [16] L Wang, N Simões, S Ochoa, J P Leitão, R Pina, C Onof, A Sá Marques, Č Maksimović, R Carvalho, L David , "An enhanced blend of SVM and Cascade methods for short-term rainfall forecasting," 12nd International Conference on Urban Drainage, Porto Alegre/Brazil, 10-16 September 2011, pp 1-8, 2011 [17] Giuseppe Ateniese, Giovanni Felici, Luigi V Mancini, Angelo Spognardi, Antonio Villani, and Domenico Vitali, "Hacking Smart Machines with Smarter Ones: How to Extract Meaningful Data from Machine Learning Classifiers," International Journal of Security and Networks, 2013 [18] A Mueen, E Keogh , Q Zhu , S Cash, "Exact Discovery of Time Series Motifs," in Proc of SIAM Int on Data Mining, pp pp 473-484, 2009 Trang 45 ... XUẤT PHƯƠNG PHÁP DỰ BÁO TRÊN CHUỖI THỜI GIAN DỰA TRÊN SO TRÙNG MẪU SỬ DỤNG NHIỀU ĐỘ ĐO 28 3.1 Đề xuất phương pháp dự báo chuỗi thời gian dựa so trùng mẫu sử dụng nhiều độ đo ... PHÁP DỰ BÁO TRÊN CHUỖI THỜI GIAN DỰA TRÊN SO TRÙNG MẪU SỬ DỤNG NHIỀU ĐỘ ĐO Trong chương này, xin trình bày đề xuất mơ hình dự báo chuỗi thời gian phương pháp so trùng mẫu sử dụng nhiều độ đo, ... độ đo Mơ hình dự báo ch̃i thời gian dựa so trùng mẫu sử dụng nhiều độ đo xây dựng dựa phương trình dự báo hồi quy ước lượng tham số để đạt MSE cực tiểu Ta có Ydự báo, j kết tổng hợp hàm dự báo sử