Dự báo mực nước sông nhà bè theo tiếp cận khai phá dữ liệu chuỗi thời gian

79 5 0
Dự báo mực nước sông nhà bè theo tiếp cận khai phá dữ liệu chuỗi thời gian

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - VŨ KHÁNH TƯỜNG VÂN DỰ BÁO MỰC NƯỚC SÔNG NHÀ BÈ THEO TIẾP CẬN KHAI PHÁ DỮ LIỆU CHUỖI THỜI GIAN LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin Mã số ngành: 60480201 TP HỒ CHÍ MINH, tháng 11 năm 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM - VŨ KHÁNH TƯỜNG VÂN DỰ BÁO MỰC NƯỚC SÔNG NHÀ BÈ THEO TIẾP CẬN KHAI PHÁ DỮ LIỆU CHUỖI THỜI GIAN LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin Mã số ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: PGS.TS ĐỖ PHÚC TP HỒ CHÍ MINH, tháng 11 năm 2017 i LỜI CAM ĐOAN Tác giả xin cam đoan cơng trình nghiên cứu thân tác giả Các liệu kết nghiên cứu kết luận luận án trung thực không chép từ bát kỳ nguồn Việc tham khảo nguồn tài liệu ( có ) thực trích dẫn ghi nguồn tài liệu tham khảo quy định TPHCM, Ngày 23 tháng năm 2017 Học viên Vũ Khánh Tường Vân ii LỜI CẢM ƠN Trong thời gian học tập, nghiên cứu thực luận văn này, nhận giúp đỡ vô to lớn quý thầy cô trường Đại học Hutech, quan, gia đình, bạn bè đồng nghiệp Tơi xin tỏ lịng biết ơn chân thành đến: Tôi xin trân trọng cảm ơn người thầy tơi PGS.TS.Đỗ Phúc, người tận tình hướng dẫn giúp đỡ suốt thời gian học tập, nghiên cứu thực đề tài Cho gửi lời cảm ơn đến tập thể quý thầy cô trực tiếp giảng dạy lớp Cao học khóa 15SCT11 – nghành Cơng nghệ Thơng tin tận tình giảng dạy, hướng dẫn tơi suốt thời gian học tập, nghiên cứu trường Đại học Hutech Một nguồn động viên lớn từ Ban lãnh đạo Huyện Nhà bè tạo điều kiện thời gian động viên mặt tinh thần q trình tơi thực đề tài Đặc biệt xin gửi lời cảm ơn đến gia đình, bạn bè, đồng nghiệp bạn học viên lớp Cao học khóa 15SCT11 ngành Cơng nghệ thơng tin ủng hộ, động viên, giúp đỡ suốt thời gian học tập nghiên cứu thực đề tài Xin chân thành cảm ơn ! TP.HCM, Ngày 23 tháng năm 2017 Học viên Vũ Khánh Tường Vân iii TÓM TẮT LUẬN VĂN Luận văn trình bày phương pháp dự báo liệu chuỗi thời gian kết hợp mơ hình Auto Regression Integrated Move Average (ARIMA) Support Vector Machine (SVM) ứng dụng mơ hình kết hợp vào tốn dự báo mực nước sơng Nhà bè Đối tượng nghiên cứu đề tài tập trung vào mơ hình dự báo liệu chuỗi thời gian đặc biệt mơ hình ARIMA, thuật giải SVM phương pháp kết hợp ARIMA SVM dự báo liệu chuỗi thời gian Bên cạnh đề tài cịn trình bày kết áp dụng mơ hình dự báo liệu chuỗ thời gian vào thực tế dựa liệu thu thập trạm Tân An huyện Nhà bè Phạm vi nghiên cứu đề tài giới hạn việc tìm hiểu ứng dụng mơ hình dự báo liệu chuỗi thời gian mơ hình ARIMA, thuật giả SVM mơ hình kết hợp ARIMA SVM Tuy phạm vi nghiên cứu đề tài giới hạn việc tìm hiểu ứng dụng mơ hình dự báo liệu chuỗi thời gian đề tài mang lại số ý nghĩa khoa học thực tiễn Về khoa học kết thực nghiệm đề tài cố thêm tính đắn hướng tiếp cận kếp hợp mơ hình dự báo liệu chuỗi thời gian nói chung mơ hình dự báo liệu chuỗi thời gian kếp hợp ARIMA SVM nói riêng Về thực tiễn kết dự báo mơ hình kếp hợp ARIMA SVM giúp nâng cao khả dự đoán thủy văn, hỗ trợ cảnh báo xâm nhập mặn khô hạn nhằm kịp thời có biện pháp xử lý tình trạng xâm nhập mặn, giảm thiểu tối đa khả rủi ro cho mùa màng, ngăn chặn kịp thời nguy xâm nhập mặn Luận văn tổ chức theo cấu trúc sau Chương Tổng Quan Trong chương trình bày khái niệm, tính chất chuỗi thời gian, tổng quan phương pháp dự báo liệu chuỗi thời gian iv Chương Khảo Sát Các Kỹ Thuật Dự Báo Hiện Nay Về Chuỗi Thời Gian Giới thiệu số nội dung sở lý thuyết dự báo chuỗi thời gian số phương pháp khai phá liệu chuỗi thời gian Chương Phân Tích Bài Tốn Dự Báo Mực Nước Và Thiết Kế Mơ Hình Dự Báo Dự báo chuỗi thời gian qua mơ hình ARIMA, cơng cụ áp dụng vào mơ hình, Dự báo chuỗi thời gian SVM dự báo mơ hình kết hợp ARIMA SVM Chương Hiện Thực, Thử Nghiệm Đánh Giá Dùng phần mềm Eviews cho trình thi hành trình bày thực nghiệm mơ hình ARIMA cho liệu mực nước sơng trạm Tân An huyện Nhà bè Ngôn ngữ R cho dự báo SVM bước trình thi hành mơ hình kết hợp, đưa kết đánh giá với thực tế Chương Phần Kết luận Tổng kết kết khóa luận phương hướng nghiên cứu v MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii TÓM TẮT LUẬN VĂN iii MỤC LỤC v DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT viii DANH MỤC CÁC BẢNG ix DANH MỤC CÁC HÌNH x MỞ ĐẦU Chương TỔNG QUAN 1.1 Dự Báo 1.2 Dự báo thủy văn 1.3 Tổng quan khai phá liệu .5 1.3.1 Khai phá liệu (Data Mining) 1.3.2 Khám phá tri thức (Knownledge Discovery - KD) 1.3.3 Các kỹ thuật khai phá liệu 1.3.4 Dạng liệu khai phá Chương Khảo Sát Các Kỹ Thuật Dự Báo Hiện Nay Về Chuỗi Thời Gian 2.1 Khái Niệm Chuỗi Thời Gian Mã Hóa Dữ Liệu Chuỗi Thời Gian .7 2.1.1 Khái niệm chuỗi thời gian 2.1.2 Biểu diễn chuỗi thời gian 2.1.3 Các thành phần liệu chuỗi thời gian 2.1.4 Phân loại chuỗi thời gian 2.1.5 Khái niệm khai phá liệu chuỗi thời gian 2.2 Một Số Phương Pháp Khai Phá Dữ Liệu Chuỗi Thời Gian [2] 10 2.2.1 Phân lớp 10 2.2.2 Dự báo 11 2.2.3 Phát mẫu bất thường 12 2.2.4 Phân đoạn 12 2.2.5 Tìm mơ típ 14 vi 2.3 Tiền Xử Lý Và Tìm Kiếm Tương Tự Trên Dữ Liệu Chuỗi Thời Gian .14 2.3.1 Tiền xử lý liệu thời gian 14 2.3.2 Tìm kiếm tương tự liệu chuỗi thời gian 17 2.3.3 Tầm Quan Trọng Của Khai Phá Dữ Liệu Chuỗi Thời Gian 23 Chương Phân Tích Bài Tốn Dự Báo Thiết Kế Mơ Hình Dự Báo 27 3.1 Mơ tả sông Nhà Bè .27 3.1.1 Phát biểu toán 28 3.1.2 Ý nghĩa toán 28 3.2 Các mơ hình 29 3.2.1 Hàm tự tương quan ACF (AutoCorrelation Function) 29 3.2.2 Hàm tự tương quan phần PACF 29 3.2.3 Mơ hình AR(p) 29 3.2.4 Mô hình AM(q) 29 3.2.5 Sai phân I(d) 29 3.2.6 Mơ hình ARIMA 29 3.2.7 Các bước phát triển mơ hình 30 3.3 Phần mềm EVIEWS .31 3.3.1 Giới thiệu phần mềm ứng dụng Eviews 31 3.3.2 Cách sữ dụng 32 3.4 Support vector Machine 34 3.4.1 Giới thiệu 34 3.4.2 Support Vector Machine dự báo chuỗi thời gian 37 3.5 Mơ hình kết hợp ARIMA Support Vector Machine 40 3.5.1 Giới thiệu 40 3.5.2 Nội dung 41 3.5.3 Một số kết tham khảo đánh giá 42 Chương Hiện Thực, Thử Nghiệm Đánh Giá 44 4.1 Dự báo mơ hình ARIMA 44 4.1.1 Mơ hình ARIMA cho dự báo Thủy văn 44 4.1.2 Thực nghiệm ARIMA 44 4.1.3 Thực dự báo 54 vii 4.2 Thực nghiệm SVM cho toán dự báo 56 4.3 Kết hợp kết dự báo 57 4.3.1 Giới thiêu độ đo 57 4.3.2 Kết dự báo đánh giá 58 Chương PHẦN KẾT LUẬN 60 TÀI LIỆU THAM KHẢO 61 viii DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT CHỮ VIẾT TẮT DIỄN GIẢI ACF Auto Crrelation AR Auto Regresion ARIMA Auto Regresion Integrated Move Average BJ Phương pháp Box-Jenkins RMSE Root Mean Square Error MEA Mean Absolute Error MAPE Mean Absolute Percentage Error SVR Support Vector Regression SVM Support Vector Machine DTW Dynamic Time Warping DWT Discrete Wavelet Transform 52 Hình 4.14 Kết mơ hình ARIMA1 DLDINH - Ta loại bỏ AR(8) AR(9) AR(10) AR(11) AR(12) AR(28) AR(31) MA(14) MA(28) MA(31) Để ước lượng mơ hình ARIMA2 DLDINH Trên cửa sổ lệnh, ta nhập - LS DLDINH C AR(1) AR(13) MA(1) nhấn enter  kết Hình 4.15 Kết mơ hình ARIMA2 DLDINH - Ta loại bỏ MA(1) 53 Để ước lượng mơ hình ARIMA3 DLDINH Trên cửa sổ lệnh, ta nhập - LS DLDINH C AR(1) AR(13) nhấn enter  kết Hình 4.16 kết mơ hình ARIMA3 DLDINH - Ta loại bỏ AR(13) Để ước lượng mơ hình ARIMA4 DLDINH Trên cửa sổ lệnh, ta nhập - LS DLDINH C AR(1) nhấn enter  kết Hình 4.17 Kết mơ hình ARIMA4 DLDINH 54 Ta tiến hành kiểm định xem mơ hình ARIMA vừa ước lượng phù hợp chưa cách tách phần dư mơ hình: So sánh lựa chọn mơ hình tối ưu theo tiêu chọn mơ hình + dự báo Bảng 4.1 Tiêu chuẩn đánh giá mơ hình ARIMA ARIMA ARIMA ARIMA ARIMA AIC -1.007247 -0.957265 -0.729257 -0.733217 SIC -0.846650 -0.903733 -0.686431 -0.701098 198.3189 Log likelihood Schwaiz criterion -0.846650 179.2223 -0.903733 136.7248 -0.686431 136.4455 -0.701098 Adjusted R-squared 0.314770 0.240336 0.032708 0.033851 S.E of regression 0.140649 0.148091 0.167108 0.167009 Ta chọn mơ hình ARIMA1 4.1.3 Thực dự báo Ta chạy dự báo với mơ hình ARIMA1 cho khoảng ngày từ 12/24/2014 đến 28/12/2014 so sánh với liệu gốc Tại cửa sổ Equation ấn nút Forecast Hình 4.18 Thực chạy dự báo với mơ hình ARIMA1 55 Hình 4.19 Kết liệu dự báo mơ hình ARIMA1 so với lệu gốc 56 Bảng đánh giá dự báo DINH so với DINH thực tế Bảng 4.2 Bảng đánh giá dự báo so với thực tế Ngày 24/12/2014 25/12/2014 26/12/2014 27/12/2014 28/12/2014 DINH (Test) 150 148 148 138 136 DINH (DB Arima) 147.61 144.85 138.02 131.39 124.38 Tỷ lệ % Arima 2.4% 3.2% 10.0% 6.6% 11.6% Đánh giá: kết dự báo (mức độ sai số từ xấp xỉ 2.4% đến 11.6% ) % Trung bình dự báo cho ngày 6.8% lớn dự báo ngắn hạn 4.2 Thực nghiệm SVM cho toán dự báo Sau lựa chọn mơ hình ARIMA phù hợp đế dự báo thành phần tuyến tính chuỗi thời gian Bước thứ hai sử dụng phương pháp SVM ước lượng hồi quy đế dự báo thành phần phi tuyến tính chuỗi thời gian Như đề cập chương 3, chuỗi thời gian xt thường bao gồm hai thành phần tuyến tính Lt phi tuyến tính Nt x t = L t + N t (4.1) Nếu gọi Lt kết dự báo mơ hình ARIMA' Khi thành phần cịn lại (residuals) et chuỗi thời gian sau lấy kết thực tế trừ kết dự báo xác định sau: et = xt-Lt (4.2) Thành phần lại et chứa thành phần phi tuyến tính Nt chuỗi thời gian Do phương pháp SVM ước lượng hồi quy sử dụng để dự báo thành phần phi tuyến tính N t dựa e t Trong phần mềm thống kê R sử dụng hàm svm0 thư viện e1071 để huấn luyện mô hình trước dự báo Chi tiết hàm svm() tham khảo [11] Để tăng độ xác kết dự báo, R hỗ trợ hàm tune thư viện e1 Chỉ tiết vế tham số tham khảo [11], hàm hỗ trợ nhiều tham số, có tham số quan trọng epsilon cost giúp tăng độ xác dự báo điều chỉnh overfitting Để chọn giá trị thích hợp cho ta sử dụng phương pháp grid search 57 Kết dự báo mơ hình ARIMA ARIMA+SVM thực R Giá trị độ đo MAE, MAPE, RMSE thực R 4.3 Kết hợp kết dự báo Kết dự báo mô hình kết hợp ARIMA Support Vector Machine tổng hợp kết dự báo thành phần tuyến tính L t mơ hình ARIMA kết dự báo thành phần phi tuyến tính N t phương pháp SVM ước lượng hồi quy x t = L t + N ¡ (4.3) Bằng cách cộng hai kết dự báo L t N t lại ta thu kết dự báo x t sau mơ hình kết hợp ARIMA Support Vector Machine x t bao gồm kết dự báo cho hai thành phần tuyến tính phi tuyến tính chuỗi thời gian 4.3.1 Giới thiêu độ đo Nhiều nghiên cứu ứng dụng sử dụng độ đo sau để đánh giá hiệu phương pháp, mơ hình dự báo liệu chuỗi thời gian Root Mean Square Error (RMSE): độ đo cho biết khác biệt giá trị dự 58 báo giá trị thực tế chuỗi thời gian Giá trị RMSE bé mơ hình cho kết dự báo xác [12]  xˆ  x  n RMSE  t 1 t t n (4.4) Mean Absolute Error (MAE): giống RMSE, MAE độ đo cho biết khác biệt giá trị dự báo giá trị thực tế chuỗi thời gian Giá trị MAE bé mơ hình cho kết dự báo xác [12],  xˆ  x n MAE  t 1 t n t (4.5) Mean Absolute Percentage Error (MAPE): độ đo cho biết tỉ lệ phần trăm sai lệch kết dự báo kết thực tế so với kết thực tế Giá trị MAPE bé mơ hình cho kết dự báo xác [12] MAPE  n xˆt  xt 100 (4.6)  n t 1 xt 4.3.2 Kết dự báo đánh giá Để đánh giá hiệu dự báo mơ hình kết hợp ARIMA Support Vector Machine, báo cáo trình bày kết dự báo mơ hình tự hồi quy (AR), mơ hình ARIMA, hình 4.20 kết dự báo mơ hình kết hợp ARIMA Support Vector Machine 59 Hình 4.20 Kết dự báo mơ hình kết hợp ARIMA SVM Chú thích: Các giá trị tính băng phần mềm thống kê R Từ kết dự báo thấy mơ hình kết hợp ARIMA Support Vector Machine cho kết dự tốt tập dự liệu so với mơ hình khác mơ hình tự hồi quy (AR), mơ hình ARIMA Điều chứng tỏ mơ hình kết hợp ARIMA Support Vector Machine phù hợp để dự báo cho liệu Bảng 4.3 Bảng đánh giá dự báo so với thực tế Ngày 24/12/2014 25/12/2014 26/12/2014 27/12/2014 28/12/2014 DINH DINH (Test) (DB Arima) 150 147.61 148 144.85 148 138.02 138 131.39 136 124.38 Tỷ lệ % DINH (DB Tỷ lệ % Arima SVM+Arima) ARIMA+SVM 2.4% 150.4 0.4% 3.2% 148.4 0.4% 10.0% 143.8 4.2% 6.6% 138.4 0.4% 11.6% 132.38 3.6% Nhìn vào bảng đánh giá kết ta thấy mơ hình kết hợp ARIMA+SVM cho kết tốt với % Trung bình ngày 1.8% 60 Chương PHẦN KẾT LUẬN Luận văn trình bày tổng quan khai phá liệu: khái niệm, kỹ thuật khai phá liệu ứng dụng khai phá liệu Trong luận văn tập trung vào kỹ thuật khai phá liệu chuỗi thời gian áp dụng vào tốn thực tế quan tâm tốn dự báo nói chung dự báo đỉnh triều nói riêng Luận văn trình bày số nội dung sở lý thuyết chuỗi thời gian thực, mơ hình ARIMA (các cơng cụ áp dụng mơ hình, quy trình xây dựng mơ hình) phần mềm Eviews , áp dụng Eviews để thi hành bước mơ hình ARIMA dự báo nắm quy trình dùng phần mềm Eviews để xây dựng mơ hình ARIMA cho liệu thời gian thực, tính tốn giá trị dự báo cho chuỗi liệu thủy văn Luận văn áp dụng sở lý thuyết nghiên cứu tiến hành thực nghiệm chuỗi liệu Dinh Chan triều dựa liệu lịch sử chuỗi dự báo mực nước triều ngày ( dự báo ngắn hạn) Kết dự báo phân tích, kiểm tra, đối chiếu với giá thực tế cho thấy kết xác, độ tin cậy cao Như cho thấy mơ hình kết hợp ARIMA SVM đưa cho chuỗi liệu luận văn phù hợp để dự báo ngắn hạn mực nước Bên cạnh kết đạt được, luận văn số hạn chế: - Trong thực tế để dự báo mực nước sơng có tác động yếu tố ngoại lai sức gió, triều cường, lượng mưa, tốc độ dòng chảy… làm cho sai số dự báo tăng Do kết mơ hình đưa mang tính chất tham khảo nhiều Đây mơ hình phân tích kĩ thuật, chưa thể dự báo cách sách, phụ thuộc vào biến – Thời gian, trình dự báo phụ thuộc vào nhiều yếu tố 61 TÀI LIỆU THAM KHẢO [1] Dương Tuấn Anh (2011) , “Tổng Quan Về Tìm Kiếm Tương Tự Trên Dữ Liệu Chuỗi Thời Gian”, Tạp chí Phát triển Khoa học Công nghệ [2] Đỗ Phúc (2014), Bài giảng Datamining, Trường Đại học Công nghệ thông tin Đại học Quốc gia thành phố Hồ Chí Minh [3] Nguyễn Doãn Cường, “Kỹ thuật khám phá tri thức từ sở liệu chuỗi thời gian áp dụng cho sở liệu thị trường chứng khoán” [4] Thục Đoan & Cao Hào Thi (2012 - 2014), đọc “Chuỗi thời gian kinh tế lượng”, Chương trình giảng dạy kinh tế Fullbright TÀI LIỆU TIẾNG ANH [5] Bernard Hugueney and Bernadette Bouchon-Meunier (2001), “Time-Series Segmentation and Symbolic Representation, from Process-Monitoring to DataMining”, B Reusch (Ed.): Fuzzy Days 2001, LNCS 2206, pp 118–123 [6] Fabian Mörchen (2003), “Time series feature extraction for data mining using DWT and DFT” [7] Fabian Mörchen (2006), “Time Series Knowledge Mining”, Ph.D Thesis, Philipps University, Marburg, Germany [8] HongzhanNie, GuohuiLiu, XiaomanLiu, YongWang (2012) “Hybird of ARIMA and SVMs for Short-Term Load Forecasting” Energy Procedia, 16, str1455-1460 [9] Ling-Feng Pai, Chih-Sheng Lin (2004), “ A Hybird ARIMA and Support Vector Machines model in stock price Forecasting” , OMEGA The international journal of management science [10] Mr Marina Milanović , Milan Stamenković (2011), “Data Mining In Time Series”, Ekonomski Horizonti, 13, (1) str 5-25 [11] SVM Tutorial (Nov 2014), Http://www.svm-tutorial.com/2014/11 62 [12] Thoranin Sujjaviriyasup, Komkrit Pitiruek (2013) “Hybird Arima - Support vector machine model for agricultural production planning” Applied Mathematical Sciences, Vol 7, 2013, no 57, 2833 – 2840 [13] Wikipedia, https://vi.wikipedia.org/wiki/Sông_Nhà_Bè [14] Yiming Yang, Qiang Yang, WeiLu, Jialin Pan, Rong Pan, Chenhui Lu, Lei Li, and Zhenxing Qin (2005), “ Preprocessing Time Series Data for Classification with Application to CRM”, S Zhang and R Jarvis (Eds.): AI 2005, LNAI 3809, pp 133–142 PHỤ LỤC MÃ NGUỒN R Mã nguồn dự báo chuỗi thời gian mơ hình kết hợp ARIMA SVM #install packages search() install.packages("hydroGOF") install.packages("tseries") install.packages("ggplot2") install.packages("e1071") install.packages("forecast") # Load library library(HydroGOF) library(ggplot2) library(e1071) library(tseries) library(forecast) # Read data from folder D:/BAILV setwd("D:/BAILV") train

Ngày đăng: 05/03/2021, 15:24

Tài liệu cùng người dùng

Tài liệu liên quan