7. Bố cục luận văn
3.1. Giới thiệu về các sông tỉnh Bình Định
Các sông trong tỉnh đều bắt nguồn từ những vùng núi cao của sƣờn phía đông dãy Trƣờng Sơn. Các sông ngòi không lớn, độ dốc cao, ngắn, hàm lƣợng phù sa thấp, tổng trữ lƣợng nƣớc 5,2 tỷ m³, tiềm năng thuỷ điện 182,4 triệu kw. Ở thƣợng lƣu có nhiều dãy núi bám sát bờ sông nên độ dốc rất lớn, lũ lên xuống rất nhanh, thời gian truyền lũ ngắn. Ở đoạn đồng bằng lòng sông rộng và nông có nhiều luồng lạch, mùa kiệt nguồn nƣớc rất nghèo nàn; nhƣng khi lũ lớn nƣớc tràn ngập mênh mông vùng hạ lƣu gây ngập úng dài ngày vì các cửa sông nhỏ và các công trình che chắn nên thoát lũ kém. Trong tỉnh có bốn con sông lớn là sông Côn ( bắt nguồn từ phía bắc xã An Toàn huyện An Lão, chảy về hƣớng tây nam rồi nam, và hợp lƣu với sông Say ở rìa bắc xã Vĩnh Sơn huyện Vĩnh Thạnh. Sau đó sông chảy theo hƣớng đông nam qua huyện Vĩnh Thạnh nơi có hồ Vĩnh Sơn, thủy điện Vĩnh Sơn, hồ Định Bình, huyện Tây Sơn để rồi gặp các nhánh nhỏ bắt nguồn từ An Khê và Vân Canh tạo thành dòng lớn hơn), Lại Giang (đƣợc hình thành từ sự hợp nhất của hai dòng sông là An Lão và Kim Sơn), La Tinh (Sông La Tinh bắt nguồn từ hồ Hội Sơn thuộc vùng núi phía Tây huyện Phù Cát. Nhiều suối nhỏ khởi nguồn từ các dãy núi thuộc hai xã Cát Sơn và Cát Lâm đã tập hợp tạo nên thƣợng nguồn sông La Tinh) và Hà Thanh (Sông Hà Thanh bắt nguồn từ miền núi phía Tây Nam huyện Vân Canh, tỉnh Bình Định ở độ cao 500 m so với mực nƣớc biển, chảy theo hƣớng Tây Nam – Đông Bắc) cùng các sông nhỏ nhƣ Châu Trúc hay Tam Quan. Ngoài các sông đáng kể nói trên còn lại là hệ thống các suối nhỏ chằng chịt thƣờng chỉ có nƣớc chảy về mùa lũ và mạng lƣới các sông suối ở miền núi tạo điều kiện cho phát triển thuỷ lợi và thuỷ điện. Độ che phủ của rừng đến nay chỉ còn khoảng trên 40% nên hàng năm
các sông này gây lũ lụt, sa bồi, thuỷ phá nghiêm trọng. Ngƣợc lại, mùa khô nƣớc các sông cạn kiệt, thiếu nƣớc tƣới.
Dự báo mực nƣớc sông cho hệ thống các sông miền Bình Định nói chung và hệ thống sông An Hòa nói riêng có một ý nghĩa vô cùng quan trọng nhằm giảm thiểu những ảnh hƣởng của thiên tai lũ lụt cho nhân dân hiện đang sống ở các vùng hạ lƣu và ven biển. Hiện nay trong thủy văn có rất nhiều phƣơng pháp đƣợc dùng để xây dựng các phƣơng án dự báo mực nƣớc sông, tuy nhiên với đặc điểm dốc và ngắn của các sông và điều kiện hạn chế về mặt số liệu hiện tại ở lƣu vực các sông này, nên các phƣơng pháp thống kê nhƣ phân tích hồi quy nhiều biến thƣờng đƣợc dùng. Ngoài việc sử dụng phƣơng pháp nói trên, nghiên cứu đã tiến hành ứng dụng mạng nơron thần kinh, là một phƣơng pháp mới để xây dựng các phƣơng án dự báo cho sông An Hòa ở tỉnh Bình Định. Đây là các phƣơng pháp đơn giản nhƣng tận dụng triệt để các thông tin (dữ liệu đo đạc) hiện có trên lƣu vực và đặc biệt rất thuận tiện cho việc dự báo tác nghiệp [7].
Hình 3.1. Hệ thống sông ngòi Bình Định (thuộc Chi cục thủy lợi Bình Định) 3.2. PHÁT BIỂU BÀI TOÁN
Bài toán đƣợc đặt ra là lấy số liệu cụ thể về mực nƣớc tại trạm sông An Hòa vào lúc 7 giờ 00 các ngày trong tháng 9, tháng 10, tháng 11, tháng 12 của những năm 2016, năm 2017, năm 2018, năm 2019 và dự đoán cho những tháng mƣa tiếp theo của năm 2020.
Tập dữ liệu huấn luyện đƣợc chia thành những khoảng dữ liệu thời gian, những khoảng thời gian đầu đƣợc dùng làm huấn luyện cho mô hình Arima (chạy huấn luyện Arima chọn mô hình phù hợp (tìm p,d,q)). Dữ liệu thuộc khoảng thời gian còn lại sẽ đƣợc chạy huấn luyện dữ liệu với mô hình FFNN để dự báo lỗi cho mô hình Arima vừa xây dựng. Sử dụng Arima đã huấn luyện để dự báo giá trị cho các điểm thời gian trong tập dữ liệu thử nghiệm và mô hình nơron cũng đƣợc sử dụng để dự báo lỗi cho mô hình Arima trong tập dữ liệu thử nghiệm.
Kết quả sẽ là giá trị tổng hợp của 2 mô hình Arima và nơron.
Bảng dữ liệu gồm các giờ trong ngày, mực nƣớc tại trạm An Hòa H(m), của các tháng 9, tháng 10, tháng 11, tháng 12 của các năm 2016, 2017, 2018 và 2019 đƣợc thể hiện ở bảng sau:
Hình 3.2. Mực nƣớc sông năm 2016, 2017, 2018, 2019 3.3. CÔNG CỤ MÔ PHỎNG BÀI TOÁN
R là một công cụ rất mạnh cho học máy, thống kê và phân tích dữ liệu. Đây là một ngôn ngữ lập trình, cho phép chúng ta tƣơng tác với nhiều nguồn dữ liệu và các gói thống kê (SAS, SPSS), ngôn ngữ này rất phù hợp cho việc mô phỏng dữ liệu qua bảng biểu. một vài tính năng thống kê nổi bật của R nhƣ
Basic Statistics , Static graphics, Probability distributions,…
Những điểm mạnh của R:
R có những package thống kê toàn diện nhất với công nghệ mới nhất,
R là open-source nên bất kỳ ai cũng có thể sử dụng và cải tiến nó.
Vì là open-source nên R có thế đƣợc dùng mọi lúc mọi nơi cho bất cứ
việc gì, kể cả bán các sản phẩm từ R theo điều kiện của giấy phép.
R có thể chạy trên bất kỳ hệ điều hành nào.
Bất kỳ ai cũng đƣợc hỗ trợ để đƣa ra ý tƣởng phát triển, fix bug, phát
triển package mới.
3.4. THỬ NGHIỆM CHƢƠNG TRÌNH 3.4.1. Tập dữ liệu thực nghiệm 3.4.1. Tập dữ liệu thực nghiệm
Trong bài luận văn này, các mô hình dự báo chuỗi thời gian sẽ đƣợc cài đặt và thực nghiệm trên tập dữ liệu mực nƣớc sông tại trạm An Hòa (thuộc hệ thống sông Bình Định) đƣợc thu thập từ các ngày trong tháng 9, tháng 10, tháng 11, tháng 12 của các năm 2016, năm 2017, năm 2018, năm 2019 (31/12/2019, 487 ngày) dựa trên số liệu thống kê của Chi cục thủy lợi phòng chống thiên tai Bình Định: https://pcttbinhdinh.gov.vn/chi-cuc-thuy-loi/. Tập dữ liệu thực nghiệm
sẽ đƣợc chia thành hai phần: 80% các điểm thời gian đƣợc sử dụng để huấn luyện, 20% các điểm thời gian còn lại sẽ đƣợc sử dụng cho thử nghiệm mô hình.
Hình 3.3 Dữ liệu mực nƣớc sông
Chú thích: Cột thể hiện mực nước giá trị H(m)
3.4.2. Đánh giá các mô hình dự báo
Để đánh giá chất lƣợng dự báo, bài luận văn sử dụng các độ đo lỗi RMSE (Root Mean Square Error) và MAPE (Mean Absolute Percentage Error):
RMSE = (3-1)
MAPE = *100 (3-2)
với n là số điểm thời gian thử nghiệm. là giá trị thực tế.
là giá trị dự báo từ mô hình.
Để đánh giá hiệu quả của phƣơng pháp kết hợp, sau đây tôi thực hiện việc dự báo cho bài toán trên bằng các mô hình độc lập Arima, mạng nơron và cuối cùng là phƣơng pháp kết hợp hai dạng trên.
3.4.3. Dự báo bằng mô hình Arima
Sử dụng hàm ACF, PACF để xác định các giá trị q, p thích hợp cho mô hình. Kết quả từ chuỗi dữ liệu cho thấy q có thể nhận các giá trị 2, 1, 1 và p có thể nhận các giá trị 3, 1, 1. Chúng ta cần tìm ra một mô hình Arima phù hợp để dự báo mực nƣớc sông.
Dữ liệu đƣợc kết nối nhƣ sau:
Lấy thông số Arima:
Thông số Arima đƣợc thể hiện hai biểu đồ bên dƣới
Chạy Arima: Arima(2,1,1)
Sau khi chạy huấn luyện dữ liệu kiểm tra độ lỗi bằng RMSE ta thấy đƣợc Arima (3,1,1) có độ lỗi thấp hơn Arima (2,1,1) đƣợc thể hiện qua bảng 3.1.
Bảng 3.1. Độ lỗi dự báo của mô hình ARIMA
Mô hình RMSE MAPE
ARIMA (2,1,1) 0.4044582 1.022975
ARIMA (3,1,1) 0.4044367 1.022834
3.4.4. Dự báo bằng mô hình FFNN
Chạy huấn luyện dữ liệu 1 lớp 1 node cho đến node thứ 5. Chạy nơron 1 lớp 1 node
Độ lỗi RMSE và MAPE
Chạy nơron 1 lớp 2 node
Độ lỗi RMSE và MAPE
Chạy nơron 1 lớp 3 node
Độ lỗi RMSE và MAPE
Chạy nơron 1 lớp 4 node
Độ lỗi RMSE và MAPE
Chạy nơ ron 1 lớp 5 node
Độ lỗi RMSE và MAPE
Chạy kiểm tra dữ liệu 1 lớp 1 node cho đến node thứ 5.
Kiểm tra node thứ 1.
Kiểm tra node thứ 3.
Kiểm tra node thứ 5.
Mô hình FFNN (p-r-q) với p là số lớp đầu vào, r là số lớp ẩn và q là số lớp đầu ra, ta chạy kiểm tra bộ dữ liệu l lớp chạy từ node thứ 1 đến node thứ 5 cho thấy đƣợc độ lỗi RMSE và MAPE của mô hình FFNN đƣợc tổng hợp Bảng 3.2.
Bảng 3.2. Độ lỗi dự báo của mô hình FFNN
Mô hình RMSE MAPE
FFNN(1-1-1) 0.1966972 0.0077241
FFNN(1-2-1) 0.1425288 0.0041041
FFNN(1-3-1) 0.1443039 0.0036074
FFNN(1-4-1) 0.1568701 0.0053831
FFNN(1-5-1) 0.1396084 0.0036271
Sau khi huấn luyện tập dữ liệu một lớp chạy từ node 1 đến node thứ 5 ta đo đƣợc độ lỗi RMSE ở node thứ 5 FFNN(1-5-1) là nhỏ nhất 0.1396048 và MAPE 0.0036271.
3.4.5. Kết quả kết hợp mô hình Arima và FFNN
Mô hình kết hợp A-FFNN(p,d,q,r) trong đó mô hình Arima (p,d,q) với p là bậc tự hồi quy, d bậc sai phân chuỗi thời gian khảo sát và q là bậc trung bình
trƣợt kết hợp với các tham số gồm 1 lớp ẩn (r), các node chạy từ 1 đến 5 và 1 lớp đầu ra của FFNN. Kết quả thực nghiệm của các mô hình dự báo mực nƣớc sông trạm An Hòa đƣợc thể hiện ở Bảng 3.3.
Bảng 3.3. Bảng so sánh độ lỗi dự báo của mô hình A-FFNN
Mô hình RMSE MAPE
A-FFNN(3,1,1,1) 0.1308421 0.0058887
A-FFNN(3,1,1,2) 0.1114224 0.0049632
A-FFNN(3,1,1,3) 0.1252366 0.0056757
A-FFNN(3,1,1,4) 0.0338697 0.0013524
A-FFNN(3,1,1,5) 0.0450041 0.0017826
Sau khi kết hợp giữa Arima và FFNN huấn luyện tập dữ liệu của Arima và nơron, ta sử dụng nơron để dự báo độ lỗi cho Arima và kết quả đo đƣợc là tổng giá trị của chúng. Kết quả thực nghiệm cho thấy mô hình kết hợp A- FFNN cho kết quả dự báo tốt hơn các mô hình khác dựa vào độ đo RMSE và MAPE (xem Bảng 3.4).
Bảng 3.4. Bảng so sánh độ lỗi dự báo của các mô hình
Mô hình RMSE MAPE
ARIMA (3,1,1) 0.4044367 1.022834
FFNN(1-5-1) 0.1396084 0.0036271
3.5. KẾT LUẬN CHƢƠNG 3
Trong Chƣơng 3, ngoài việc thử nghiệm dự báo mực nƣớc sông theo thời gian bởi các mô hình độc lập, tôi đã thử nghiệm dự báo bằng mô hình kết hợp giữa ARIMA và Mạng nơron. Kết quả thử nghiệm cho thấy sự kết hợp này ít lỗi hơn so với việc chạy từng mô hình độc lập.
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN
Dự báo chuỗi thời gian là một bài toán khó nhƣng rất quan trọng trong các lĩnh vực kinh tế và tài chính. Gần đây, dự báo về biến động thiên tai nhận đƣợc nhiều quan tâm của các nhà nghiên cứu trong kinh tế và kể cả khoa học máy tính. Với các đặc trƣng của mình, mực nƣớc biến động thƣờng xuyên dẫn đến việc dự báo gặp nhiều khó khăn. Trong bài luận văn thực nghiệm các mô hình dự báo ARIMA, FFNN, A-FFNN để dự báo mực nƣớc sông trong ngày tiếp theo. Kết quả thực nghiệm cho thấy, các mô hình kết hợp Arima và mạng nơron đều có độ lỗi dự báo thấp hơn các mô hình riêng lẻ, chứng tỏ mô hình kết hợp sẽ cho dự báo tốt hơn với các độ đo RMSE và MAPE.
Một số kết quả đạt đƣợc:
- Hiểu đƣợc một số lý thuyết về các mô hình dự báo; - Kết hợp, dự báo các mô hình chuỗi thời gian.
- Thử nghiệm, so sánh kết quả thực hiện các mô hình.
Nhìn chung, với chuỗi dữ liệu biến động lớn, các mô hình Arima và mạng nơron còn gặp nhiều khó khăn trong dự báo trên tập dữ liệu này. Trong tƣơng lai, các mô hình Deep Learning sẽ đƣợc nghiên cứu thử nghiệm với kỳ vọng mang lại kết quả dự báo tốt hơn.
DANH MỤC TÀI LIỆU THAM KHẢO
Tiếng Việt
[1] Nguyễn Quốc Dƣơng, Lê Phƣơng Thảo, Đinh Thị Quỳnh Nhƣ, Cao Thị Ái Loan, Phùng Thị Hồng Diễm, Lê Thanh Bính, Ứng dụng Shiny kết hợp với mô hình ARIMA để dự báo đại dịch COVID-19(Khoa Sƣ phạm, Trƣờng Đại học Quy NhơnKhoa Toán và Thống kê, Trƣờng Đại học Quy Nhơn)
[2] Lê Hữu Vinh & Nguyễn Đình Thuân, Kỷ yếu Hội nghị Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR). Huế, 07- 08/06/2019.
[3] Lê Hải Khôi & Trần Đức Minh, Về một phƣơng pháp dự báo dữ liệu sử dụng mạng nơron. (Tạp chí Tin học và Điều khiển học 20(2004), N2). [4] Trần Đức Minh, Trần Huy Dƣơng, Vũ Đức Thi, Kỷ yếu Hội nghị Quốc
gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR).Hà Nội, ngày 09-10/07/2015.
[5] Nguyễn Quang Hoan (2005), Giáo trình mạng nơ ron nhân tạo, Học viện công nghệ bƣu chính viễn thông.
[6] Nguyễn Đình Thúc (2000), Mạng nơ ron nhân tạo – phƣơng pháp và ứng dụng, Nhà xuất bản Giáo dục.
[7] PGS.TS. Lê Văn Nghinh, Ths. Hoàng Thanh Tùng, Ks. Nguyễn Ngọc Hải Nghiên cứu ứng dụng mạng Nơron thần kinh vào dự báo lũ các sông ở tỉnh Bình Định và Quảng Trị.
Tiếng Anh
[8] G. Box and Jenkin (1970), Time Series Analysis, Forecasting and Control, 4 ed., San Francisco: Holden-Day, 1970, pp. 234-239.
Canada: Mc GrawHill, pp. 777-784.
[10] D. Dickey and W. Fuller (1979), “Distribution of the Estimators for Autoregressive Time Series with a Unit Root”, Journal of the American Statistical Association, vol. 74, pp. 427-431.
[11] G. Peter Zhang, “Times series forecasting using a hybrid ARIMA and neural network model”, Neurocomputing, vol. 50, pp. 159–75, 2003. [12] Nitin Merh, Vinod P. Saxena, Kamal Raj Pardasani, “A comparison
between hybrid approaches of ANN and ARIMA for Indian stock trend forecasting”, Journal of Business Intelligence, vol. 3, no. 2, pp. 23–43, 2010.