Bài viết Xây dựng các mô hình hồi quy hỗ trợ véc tơ dự báo mực nước trạm Cao Lãnh, tỉnh Đồng Tháp nghiên cứu xây dựng các mô hình hồi quy hỗ trợ véc tơ dự báo mực nước trạm Cao Lãnh, tỉnh Đồng Tháp.
TẠP CHÍ KHÍ TƯỢNG THỦY VĂN Bài báo khoa học Xây dựng mơ hình hồi quy hỗ trợ véc tơ dự báo mực nước trạm Cao Lãnh, tỉnh Đồng Tháp Lê Xn Hịa1, Nguyễn Tiền Giang2* Đài Khí tượng Thủy văn tỉnh Đồng Tháp, Đài Khí tượng Thủy văn khu vực Nam Bộ, Tổng cục Khí tượng Thủy văn, Bộ Tài Ngun Mơi trường; lexuanhoakttv@gmail.com Khoa Khí tượng Thủy văn Hải dương học, Trường Đại học Khoa học Tự nhiên, ĐHQGHN; giangnt@vnu.edu.vn *Tác giả liên hệ: giangnt@vnu.edu.vn; Tel.: +84–912800896 Ban Biên tập nhận bài: 15/7/2022; Ngày phản biện xong: 23/8/2022; Ngày đăng bài: 25/8/2022 Tóm tắt: Trong nghiên cứu này, ba dạng hàm kernel: Radial basis function (RBF), tuyến tính (Linear) Sigmoid sử dụng mơ hình máy học Support Vector Regression (SVR) với ba chuỗi liệu đầu vào là: mực nước cao ngày (HmaxCL); mực nước thấp ngày (HminCL); mực nước trung bình ngày (HtbCL) khứ để dự báo mực nước tương lai trạm Cao Lãnh, tỉnh Đồng Tháp Kết cho thấy, hàm nhân mơ hình đưa kết dự báo với độ xác cao thể qua số NSE > 0,95 tất các liệu đầu vào khác hàm nhân khác mơ hình SVR Trong ba chuỗi liệu đầu vào hàm nhân thử nghiệm chuỗi liệu HmaxCL cho sai số tối ưu Kết nghiên cứu tài liệu tham khảo tốt cho việc xây dựng mơ hình máy học phục vụ dự báo mực nước tương lai cho trạm thủy văn Cao Lãnh, tỉnh Đồng Tháp Từ khóa: SVR; RBF; Tuyến tính; Sigmoid; ML; Cao Lãnh Mở đầu Ngày nay, nghiên cứu liệu chuỗi thời gian đem lại ứng dụng quan trọng, đảm bảo tính thực tế cao lĩnh vực: tài chính, thống kê, xử lý liệu, dự báo tượng thiên tai,… Một số tốn dự báo chuỗi thời gian kết hợp xây dựng dự báo thích hợp Trong nghiên cứu dự báo lưu lượng, dự báo dòng chảy sử dụng mơ hình thủy văn phân bố hay bán phân bố khác Các mơ hình xây dựng để mơ q trình dịng chảy khả mơ có độ xác cao q trình vật lý phân tích độ nhạy cảm cách tồn diện [1] Ngồi mơ hình tốt cho nhà khoa học việc giải thích tồn q trình ẩn đằng sau [2] Chính mơ hình áp dụng nhiều rộng rãi nhiều khu vực giới Tuy nhiên, việc sử dụng mơ hình cần số liệu lớn thông tin địa lý, mưa, dịng chảy… Bên cạch việc hiệu chỉnh kiểm định mơ hình cịn phức tạp địi hỏi phải có nhiều thời gian, kinh nghiệm kiến thức người xây dựng, chạy mơ hình cho lưu vực Chính việc sử dụng loại mơ hình nhiều khu vực tốn dự báo thời đoạn ngắn cịn bị hạn chế [3] Từ hạn chế mô hình truyền thống khuyến khích phát triển mơ hình dựa vào chuỗi số liệu mà phát triển Tạp chí Khí tượng Thủy văn 2022, 740(1), 87-97; doi:10.36335/VNJHM.2022(740(1)).87-97 http://tapchikttv.vn/ Tạp chí Khí tượng Thủy văn 2022, 740(1), 87-97; doi:10.36335/VNJHM.2022(740(1)).87-97 88 phương pháp máy học (Machine Learning – ML) Các mơ hình ML công cụ tiềm việc dự báo dịng chảy mơ hình ML xây dựng cách nhanh chóng, dễ dàng mà khơng cần địi hỏi có hiểu biết q trình vật lý ẩn đằng sau Ngồi ra, lượng liệu yêu cầu tối thiểu, với khả tính tốn, hiệu chỉnh kiểm định nhanh so với mơ hình vật lý truyền thống, cách sử dụng phức tạp ưu điểm lớn mà mơ hình dựa vào số liệu mang lại [4] Trong tốn mơ phỏng, dự báo dịng chảy, mơ hình trí tuệ nhân tạo Artificial Neural Network (ANN) ứng dụng từ năm 90 [5–6] Nhưng năm trở lại đây, với tiến vượt bậc ngành khoa học máy tính với quan tâm cộng đồng khoa học tới vấn đề liên quan đến liệu lớn (big data), mơ hình trí tuệ nhân tạo, máy học ngày sử dụng rộng rãi đa dạng Các thuật toán ANN, Random Forest (RF) Support Vector Machine (SVM) ba thuật toán ML sử dụng rộng rãi nghiên cứu dự báo dòng chảy [7] SVM, thuật tốn học máy có giám sát đề xuất Vapnik (1963), mơ hình sử dụng phổ biến dự báo dịng chảy Mơ hình cho thấy tiềm cao dự báo dòng chảy ngắn hạn dài hạn [8–9] Khi so sánh với phương pháp khác, mơ hình SVM với biến thể LS–SVR hay SVR cho kết tốt cho thấy khả dự báo dịng chảy xác với nhiều loại liệu khác [10–12] Việc áp dụng mơ hình SVM/SVR cho dự báo dịng chảy, dịng xả lũ hồ đươc nghiên cứu nhiều lưu vực Trung Quốc ví dụ nghiên cứu [13] dự báo dòng xả thời đoạn dài hồ thủy điện Manwan, hay nghiên cứu Guo nnk [14] dự báo dòng chảy tới khu vực đập Tam Hiệp sông Dương Tử Những nghiên cứu đưa kết khẳng định mơ hình SVR cho khả dự báo dịng chảy xác Đồng Tháp tỉnh có nhiều hệ thống sơng ngịi dầy đặc, nằm đầu nguồn sơng Tiền thượng lưu ảnh hưởng dòng chảy từ bên Campuchia cịn hạ lưu ảnh hưởng thủy triều, việc dự báo mực nước cho tỉnh Đồng Tháp nói chung, Tp Cao Lãnh nói riêng gặp nhiều khó khăn, nhiều thời gian độ xác chưa cao Từ khó khăn việc xây dựng mơ hình máy học để phục vụ dự báo mực nước cần thiết dự báo viên Chính tác giả nghiên cứu xây dựng mơ hình hồi quy hỗ trợ véc tơ dự báo mực nước trạm Cao Lãnh, tỉnh Đồng Tháp Phương pháp nghiên cứu số liệu sử dụng 2.1 Khu vực nghiên cứu Đồng Tháp 13 tỉnh vùng đồng sông Cửu Long, nằm đầu nguồn sông Tiền, lãnh thổ tỉnh Đồng Tháp nằm giới hạn tọa độ 10°07’–10°58’ vĩ độ Bắc 105°12’–105°56’ kinh độ Đông Phía bắc giáp với tỉnh Long An, phía tây bắc giáp tỉnh Preyveng thuộc Campuchia, phía nam giáp An Giang Cần Thơ Tỉnh Đồng Tháp có đường biên giới quốc gia giáp với Campuchia với chiều dài khoảng 50 km từ Hồng Ngự đến Tân Hồng, với cửa Thơng Bình, Dinh Bà, Mỹ Cân Thường Phước Hệ thống đường quốc lộ 30, 80, 54 với quốc lộ N1, N2 gắn kết Đồng Tháp với thành phố Hồ Chí Minh tỉnh khu vực (Hình 1) Trạm thủy văn Cao Lãnh đặt phường 6, thành phố Cao Lãnh, tỉnh Đồng Tháp, có tọa độ 10°25’0.41” vĩ độ Bắc 105°38’38.79” kinh độ Đơng, phía bắc giáp với khu dân cư, phía nam hướng sơng Tiền, phía Đơng bến phà hoạt động cách trạm gần 100 m, phía tây bãi đất trống (Hình 1) 2.2 Thuật tốn SVR Thuật toán Support Vector Regression (SVR) thuật toán học với chế hồi quy mơ hình Support Vector Machine (SVM) – thuật tốn học máy có giám sát đề xuất lần [15] sử dụng rộng rãi việc giải tốn phi tuyến tính Thuật tốn SVM bao gồm hai bước Đầu tiên, liệu đầu vào ánh xạ lên Tạp chí Khí tượng Thủy văn 2022, 740(1), 87-97; doi:10.36335/VNJHM.2022(740(1)).87-97 89 không gian nhiều chiều sử dụng hàm kernel Sau đó, thuật tốn tìm kiếm siêu phẳng (hyperplane) để phân tách liệu thông qua việc đánh giá khoảng cách từ điểm liệu ánh xạ đến siêu phẳng Hình Bản đồ hành tỉnh Đồng Tháp khu vực nghiên cứu Ví dụ với tập liệu huấn luyện {Xi, Yi}Ii=1 I số lượng điểm liệu Hàm ước lượng SVR có dạng f(x) = (w×φ(x)) + b (1) Trong φ(x) hàm ánh xạ liệu đầu vào lên không gian đa chiều; w vectơ trọng số, b hệ số thiên lệch [16] Như vậy, để tìm siêu phẳng, cần phải tối đa hóa khoảng cách vector gần với mặt siêu phẳng theo w b, phương trình đây: min(2 ∥ 𝑤 ∥2 + 𝐶 ∑𝐼𝑖=1 𝜉𝑖 + 𝜉𝑖∗ ) (2) Với điều kiện buộc: 𝑦𝑖 − (w × φ(x) + 𝑏) ≤ ε + 𝜉𝑖 (w × φ(x) + b) − 𝑦𝑖 ≤ ε + 𝜉𝑖∗ ∗ 𝜉𝑖 𝜉𝑖 ≥ 0, 𝑖 = 1, … , 𝐼 (3) Trong C > 0, số điều chỉnh thay đổi giá trị hàm mục tiêu sai số đào tạo; 𝜉𝑖 𝜉𝑖∗ biến bù, xác định khoảng cách giới hạn cho phép từ biến dung sai ϵ Áp dụng nhân tử Lagrange vào phương trình số (1), ta có: 𝑓(𝑥) = ∑𝐼𝑖=1(𝑎𝑖 − 𝑎𝑖∗ )𝐾(𝑥, 𝑥𝑖 ) + 𝑏 (4) Với 𝑎𝑖 𝑣à𝑎𝑖∗ nhân tử Lagrange, K hàm kernel Khai triển dạng toàn phương phương trình (3) sau: 𝑤(𝑎𝑖 , 𝑎𝑖∗ ) = ∑𝐼𝑖=1 𝑦𝑖 (𝑎𝑖 − 𝑎𝑖∗ ) − 𝜖 ∑𝐼𝑖=1(𝑎𝑖 + 𝑎𝑖∗ ) − ∑𝐼𝑖=1 ∑𝐼𝑗=1(𝑎𝑖 − 𝑎𝑖∗ )(𝑎𝑖 + 𝑎𝑖∗ ) 𝐾(𝑥, 𝑥𝑖 ) (5) Với điều kiện: ∑𝐼𝑖=1(𝑎𝑖 − 𝑎𝑖∗ ) = 0 ≤ 𝑎𝑖 ≤ 𝐶, 𝑖 = 1, … , 𝐼 (6) Tạp chí Khí tượng Thủy văn 2022, 740(1), 87-97; doi:10.36335/VNJHM.2022(740(1)).87-97 90 ≤ 𝑎𝑖∗ ≤ 𝐶, 𝑖 = 1, … , 𝐼 Các hàm kernel phổ biến RBF, tuyến tính,và Sigmoid thử nghiệm nghiên cứu có phương trình sau [17]: Hàm RBF 𝐾(𝑥, 𝑥𝑖 ) = exp(−β|𝑥, 𝑥𝑖 |2 ) (7) Hàm tuyến tính 𝐾(𝑥, 𝑥𝑖 ) = 𝑥 𝑥𝑖 Hàm Sigmoid 𝐾(𝑥, 𝑥𝑖 ) = tanh((γ(𝑥 𝑥𝑖 ) + 𝑟) 2.3 Lựa chọn số liệu đầu vào Lựa chọn số liệu đầu vào phần quan trọng việc xây dựng mơ hình ML Mục tiêu việc lựa chọn biến đầu vào cho mô hình gồm: Cải thiện kết dự báo mơ hình, tăng tốc độ tính tốn, để hiểu rõ trình ẩn đằng sau [18] Với mục tiêu xây dựng đánh giá khả dự báo mơ hình SVR, hàm kernel thử nghiệm để dự báo mực nước tương lai trước ngày cho trạm thủy văn Cao Lãnh Các số liệu mực nước lớn ngày, nhỏ ngày, trung bình ngày trạm thủy văn Cao Lãnh từ tháng 1/2000 tới tháng 12/2020 tổng hợp 2.4 Phương pháp đánh giá mơ hình Để đánh giá hiệu dự báo của mơ hình, nghiên cứu sử dụng số đánh giá mô hình bao gồm Nash–Sutcliffe Efficiency (NSE) [19] số sai số quân phương (RMSE–Root Mean Square Error) [20] NSE số thống kê thường sử dụng để đánh giá chất lượng mơ hình thủy văn Chỉ số tính tốn theo cơng thức sau: 𝑁𝑆𝐸 = − [ 𝑜𝑏𝑠 ∑𝑛 −𝑌𝑖𝑠𝑖𝑚 ) 𝑖=1(𝑌𝑖 𝑜𝑏𝑠 −𝑌 ̅) ∑𝑛 𝑖=1(𝑌𝑖 2 ] (8) Trong 𝑌𝑖𝑜𝑏𝑠 giá trị mực nước thực đo thời điểm i; 𝑌𝑖𝑠𝑖𝑚 giá trị mực nước tính tốn/ mơ thời điểm i; 𝑌̅ giá trị trung bình mực nước thực đo; n độ dài chuỗi giá trị thực đo NSE có giá trị khoảng –∞ đến 1, với NSE = giá trị tối ưu nhất, tương đồng tuyệt đối giá trị thực đo tính tốn Tiêu chí để đánh giá chất lượng cho số NSE chia sau: NSE ≤ 0,5 xếp loại không đat; 0,5 ≤ NSE ≤ 0,65 xếp loại đạt yêu cầu; 0,65 ≤ NSE ≤ 0,75 xếp loại tốt; 0,75 ≤ NSE ≤ xếp loại tốt [21] Chỉ số NSE, RMSE nhiều nghiên cứu áp dụng mô hình dự báo áp dụng RMSE sử dụng hàm mục tiêu để tối ưu hóa mơ hình Cơng thức tính tốn số RMSE sau: RMSE = √( obs ∑n −Ysim ) i=1(Yi i n ) (9) Trong dó Yiobs giá trị mực nước thực đo thời điểm i; Yisim giá trị mực nước tính tốn/ mô thời điểm i Các số sử dụng để đánh giá hàm kernel mơ hình SVR 2.5 Thiết lập mơ hình SVR Để áp dụng mơ hình SVR dự báo mực nước trạm thủy văn Cao Lãnh tình Đồng Tháp, nghiên cứu sử dụng thư viện Scikit–learn chạy Python Bộ số liệu đầu vào mơ hình chia làm phần: huấn luyện (training), thẩm định (validation) kiểm tra (testing) Số liệu từ 01/01/2000 tới 12/9/2014 dùng để huấn luyện mơ hình, số liệu từ 13/9/2014 tới ngày 5/11/2017 dùng để thẩm định phần lại từ 06/11/2017 tới 31/12/2020 dùng để kiểm tra Tạp chí Khí tượng Thủy văn 2022, 740(1), 87-97; doi:10.36335/VNJHM.2022(740(1)).87-97 91 Do số liệu phần huấn luyện hạn chế để tránh tình trạng khớp nhiều (overfiting) với liệu đào tạo mơ hình, nghiên cứu sử dụng phương pháp kiểm định chéo nhiều lớp (k–fold cross validation) [22] Đầu tiên, số liệu huấn luyện chia làm k phần nhỏ Sau đó, phần số liệu giữ lại để kiểm tra, (k–1) phần lại sử dụng để huấn luyện Quá trình diễn liên tục tất phần sử dụng làm số liệu kiểm tra Nếu kết dự báo phần tốt tương đồng mơ hình phù hợp để áp dụng cho liệu kiểm tra nêu Thực tế triển khai cho thấy, việc thay đổi giá trị k không mang lại kết khác biệt đáng kể tác giả lựa chọn k = 10 thường dùng phổ biến để áp dụng cho nghiên cứu Để đánh giá hiệu mơ hình, thơng số mơ hình tối ưu cơng cụ GridSearchCV sẵn có thư viện scikit–learn GridSearchCV áp dụng thông số khác mô hình thiết lập, qua tìm thơng số tối ưu hàm kernel mô hình Từ thiết lập đó, chạy hàm kernel mơ hình để tìm hàm kernel tối ưu Kết thảo luận Sau chạy hiệu chỉnh GridSearchCV, thông số tối ưu số đánh giá qua trình huấn lun thẩm định mơ hình thể Bảng Bảng cho thấy chuỗi số liệu cho máy học (training) có số tương quan lớn, hàm kernel cho hệ số tương quan lớn 0,97; thấp 0,974 chuỗi liệu mực nước thấp cao 0,976 chuỗi mực nước cao Điều cho thấy việc máy học đạt kết cao Còn chuỗi thẩm định hệ số tương quan cho kết tốt (R2 > 0,95) Tương quan thấp 0,952 hàm rbf chuỗi liệu mực nước thấp tương quan cao chuỗi liệu mực nước lớn với hàm rbf Bảng Giá trị thông số tối ưu hàm kernel mơ hình SVR C Gamma Epsilon R (máy học) R2(thẩm định) RBF 1000,0 0,002 0,1 0,976 0,962 HmaxCL Linear Sigmoid 501,18 1000,0 0,004 0,004 0,1 0,1 0,976 0,976 0,958 0,960 RBF 1000,0 0,002 0,1 0,974 0,952 HminCL Linear Sigmoid 3,98107 501,187 0,001 0,008 0,1 0,1 0,975 0,976 0,954 0,955 RBF 501,187 0,004 0,1 0,975 0,958 HtbCL Linear 3,98107 0,001 0,1 0,975 0,958 Sigmoid 251,188 0,0158 0,1 0,975 0,958 Sau có thơng số tối ưu này, ta sử dụng để chạy kiểm tra hàm kernel mơ hình chuỗi liệu từ 06/11/2017 tới 31/12/2020 Dữ liệu dùng để kiểm tra mơ hình chưa sử dụng nên ta dùng chuỗi để đánh giá hàm kernel mô hình chuỗi liệu khác Kết thể bảng Bảng Sai số hàm kernel mơ hình SVR HmaxCL HminCL HtbCL RBF Linear Sigmoid RBF Linear Sigmoid RBF Linear Sigmoid NSE 0,959 0,957 0,958 0,950 0,952 0,953 0,958 0,959 0,959 RMSE 7,37 7,71 7,45 12,43 12,16 12,03 8,17 8,16 8,15 3.1 Kết hiệu chỉnh kiểm định mơ hình SVR với chuỗi liệu mực nước cao ngày trạm thủy văn Cao Lãnh Kết bảng cho thấy số NSE hàm kernel mô hình lớn 0,95, kết tốt, thấy tương đồng cao giá trị mực nước lớn ngày thực đo tính tốn Từ kết tính tốn số NSE RMSE cho ta thấy hàm kernel RBF cho sai số thấp nhất, tối ưu cho tương quan cao hàm kernel Tạp chí Khí tượng Thủy văn 2022, 740(1), 87-97; doi:10.36335/VNJHM.2022(740(1)).87-97 92 mơ hình cho chuỗi liệu mực nước lớn ngày Một số hình ảnh so sánh chuỗi thực đo tính tốn hàm kernel mơ hình trình bày Hình 2–4 Hình Chuỗi liệu mực nước cao ngày trạm Cao Lãnh từ năm 2000–2020 (a) (b) Hình Kết dự báo hàm kernel RBF mơ hình với số liệu mực nước cao ngày thực đo giai đoạn kiểm tra từ 06/11/2017 tới 31/12/2020 sử dụng (a) hàm kernel RBF (b) hàm kernel tuyến tính Hình Kết dự báo hàm kernel Sigmoid mơ hình với số liệu mực nước cao ngày thực đo giai đoạn kiểm tra từ 06/11/2017 tới 31/12/2020 Tạp chí Khí tượng Thủy văn 2022, 740(1), 87-97; doi:10.36335/VNJHM.2022(740(1)).87-97 93 3.2 Kết hiệu chỉnh kiểm định mơ hình SVR với chuỗi liệu mực nước thấp ngày trạm thủy văn Cao Lãnh Kết chuỗi liệu mực nước thấp nhấy ngày cho thấy số NSE hàm kernel lớn 0,95; thấp 0,95 hàm rbf cao 0,953 hàm sigmoid (Bảng 2) Cho thấy tương đồng cao giá trị HminCL thực đo tính tốn Ở chuỗi liệu cho ta thấy hàm sigmoid cho sai số thấp hàm rbf hàm tuyến tính Kết so sánh mực nước dự báo thực đo quan trắc giai đoạn kiểm tra từ 06/11/2017 tới 31/12/2020 trình bày Hình 5–7 Hình Chuỗi liệu mực nước thấp ngày trạm Cao Lãnh từ năm 2000–2020 (a) (b) Hình Kết dự báo hàm kernel RBF mơ hình với số liệu mực nước thấp ngày thực đo giai đoạn kiểm tra từ 06/11/2017 tới 31/12/2020 sử dụng (a) hàm kernel RBF (b) hàm kernel tuyến tính Hình Kết dự báo hàm kernel Sigmoid mô hình với số liệu mực nước thấp ngày thực đo giai đoạn kiểm tra từ 06/11/2017 tới 31/12/2020 Tạp chí Khí tượng Thủy văn 2022, 740(1), 87-97; doi:10.36335/VNJHM.2022(740(1)).87-97 94 3.3 Kết hiệu chỉnh kiểm định mô hình SVR với chuỗi liệu mực nước trung bình ngày trạm thủy văn Cao Lãnh Kết Bảng cho thấy số NSE có tương đồng cao giá trị thực đo tính tốn, chuỗi liệu Htb số NSE hàm rbf cho kết 0,958 thấp hàm tuyến tính sigmoid có số NSE = 0,959 Như chuỗi liệu mực nước trung bình ngày hàm sigmoid cho sai số thấp có tương đồng lớn hàm rbf tuyến tính Kết so sánh mực nước dự báo quan trắc giai đoạn kiểm tra 06/11/2017 tới 31/12/2020 trình bày Hình 8–10 Hình Chuỗi liệu mực nước trung bình ngày trạm Cao Lãnh từ năm 2000–2020 (a) (b) Hình Kết dự báo với số liệu mực nước trung bình ngày thực đo giai đoạn kiểm tra từ 06/11/2017 tới 31/12/2020 sử dụng: (a) hàm kernel RBF (b) hàm tuyến tính Hình 10 Kết dự báo hàm kernel Sigmoid mơ hình với số liệu mực nước trung bình ngày thực đo giai đoạn kiểm tra từ 06/11/2017 tới 31/12/2020 Tạp chí Khí tượng Thủy văn 2022, 740(1), 87-97; doi:10.36335/VNJHM.2022(740(1)).87-97 14 13 12 11 10 95 12.43 12.16 12.03 8.178.168.15 7.377.727.45 0.959 0.957 0.958 NSE HmaxCL 0.959 0.953 0.952 RMSE HmaxCL NSE HminCL RMSE HminCL RBF Linear Sigmoid 0.958 0.959 0.959 NSE HtbCL RMSE HtbCL Hình 11 Sai số hàm kernel mơ hình SVR chuỗi liệu đầu vào Chỉ số sai số NSE cho ta thấy liệu đầu vào ba hàm kernel RBF, Linear, Sigmoid cho sai số NSE lớn 0,95, khẳng định tương đồng cao liệu thực đo với tính tốn mơ hình SVR Với chuỗi liệu đầu vào mực nước cao ngày: sai số RMSE tốt ba hàm kernel mơ hình SVR có độ chênh lệch khơng đáng kể Nhưng với hàm kernel RBF cho sai số thấp với RMSE = 7,37 Còn chuỗi liệu đầu vào mực nước trung bình thấp ngày hàm kernel Sigmoid lại cho sai số tốt hàm kernel Rbf Linear Kết luận Nghiên cứu bước đầu thử nghiệm thành công hàm kernel Rbf, Linear, Sigmoid mô hình SVR dự báo mực nước trạm thủy văn Cao Lãnh tỉnh Đồng Tháp Ba trường hợp tính tốn dự báo mực nước cao nhất, trung bình thấp ngày với hàm kernel khác Kết cho thấy, với liệu đầu vào HmaxCL hàm kernel Rbf cho kết có độ xác cao, với liệu đầu vào HtbCL HminCL hàm kernel Rbf lại cho sai số khơng tốt hàm kernel Sigmoid Như việc lựa chọn liệu đầu vào hàm kernel mơ hình quan trọng định hiệu việc dự báo mơ hình SVR Dựa phân tích kết tính tốn, chúng tơi đề xuất sử dụng liệu mực nước ngày lớn để làm liệu đầu vào cho mơ hình SVR với hàm kernel Rbf Ngồi cịn số hạn chế nghiên cứu tác giả chưa đưa hết hàm kernel vào sử dụng để so sánh đánh giá hàm kernel mô hình SVR Việc chạy hàm kernel cịn thời gian lực tính tốn hệ thống máy tính tác giả có vi xử lý chưa cao Đóng góp tác giả: Xây dựng ý tưởng nghiên cứu: N.T.G., L.X.H.; xử lý số liệu L.X.H.; thiết lập mơ hình: L.X.H.; N.T.G.; Viết thảo báo: L.X.H.; Chỉnh sửa báo: N.T.G Lời cảm ơn: Nghiên cứu có hỗ trợ mặt liệu phương pháp luận từ đề tài mã số NĐT.58.RU/19 Bộ Khoa học Công nghệ tài trợ Bài báo góp ý, chỉnh sửa TS Lê Vũ Việt Phong Lời cam đoan: Các tác giả cam đoan báo cơng trình nghiên cứu tác giả, chưa công bố đâu, không chép từ nghiên cứu trước Tài liệu tham khảo Elsafi, S.H Artificial Neural Networks (ANNs) for flood forecasting at Dongola Station in the River Nile, Sudan Alexandria Eng J 2014, 53(3), 655–662 Tạp chí Khí tượng Thủy văn 2022, 740(1), 87-97; doi:10.36335/VNJHM.2022(740(1)).87-97 96 VanderKwaak, J.E.; Loague, K Hydrologic–Response simulations for the R–5 catchment with a comprehensive physics–based model Water Resour Res 2001, 37(4), 999–1013 Nayak, P.C.; Sudheer, K.P.; Rangan, D.M.; Ramasastri, K.S Short–term flood forecasting with a neurofuzzy model Water Resour Res 2005, 41(4), W04004 Mosavi, A.; Ozturk, P Flood Prediction Using Machine Learning, Literature Review Water 2018, 1–40 Jain, S.K.; Das, A.; Srivastava, D.K Application of ANN for Reservoir Inflow Prediction and Operation J Water Resour Plan Manag 1999, 125(5), 263–271 Maier, H.R.; Dandy, G.C The Use of Artificial Neural Networks for the Prediction of Water Quality Parameters Water Resour Res 1996, 32(4), 1013–1022 Mosavi, A.; Rabczuk, T.; Varkonyi–Koczy, A.R Reviewing the Novel Machine Learning Tools for Materials Design International Conference on Global Research and Education: Recent Advances in Technology Research and Education, 2018, 50– 58 Asefa, T.; Kemblowski, M.; McKee, M.; Khalil, A Multi–time scale stream flow predictions: The support vector machines approach J Hydrol 2006, 318(1–4), 7– 16 Londhe, S.; Gavraskar, S Stream Flow Forecasting using Least Square Support Vector Regression, Soft Comput Civ Eng 2018, 2(2), 56–88 10 Adnan, R.M.; Yuan, X.; Kisi, O.; Adnan, M.; Mehmood, A Stream Flow Forecasting of Poorly Gauged Mountainous Watershed by Least Square Support Vector Machine, Fuzzy Genetic Algorithm and M5 Model Tree Using Climatic Data from Nearby Station Water Resour Manag 2018, 32(14), 4469–4486 11 Maity, R.; Bhagwat, R.; Bhatnagar, A Potential of support vector regression for prediction of monthly streamflow using endogenous property Hydrol Process 2010, 24(7), 917–923 12 Rafidah, A.; Suhaila, Y Modeling River Stream Flow Using Support Vector Machine Appl Mech Mater 2013, 315, 602–605 13 Lin, J.; Cheng, C.; Chau, K Using support vector machines for long–term discharge prediction Using support vector machines for long–term discharge prediction Hydrol Sci J 2006, 51(4), 599–612 14 Guo, J.; Zhou, J.; Qin, H.; Zou, Q.; Li, Q Monthly streamflow forecasting based on improved support vector machine model Expert Syst Appl 2011, 38(10), 13073– 13081 15 Vapnik, V.N The Nature of Statistical Learning Theory Springer, New York, 1995 16 Vapnik, V.N An overview of statistical learning theory IEEE Trans Neural Networks 1999, 10(5), 988–999 17 Londhe, S.N.; Gavraskar, S Stream Flow Forecasting Using Least Square Support Vector Regression J Soft Comput Civ Eng 2018, 2-2, 56–88 18 Guyon, I.; Elisseeff, A An Introduction to Variable and Feature Selection J Mach Learn Res 2003, 3(3), 1157–1182 19 Nash, J.E.; Sutcliffe, J.V River Flow Forecasting Through Conceptual Models Part Ia Discussion of Principles J Hydrol 1970, 10, 282–290 20 https://en.wikipedia.org/wiki/Root–mean–square_deviation 21 Lam, Đ.H.; Phương, N.H.; Đạt, N.Đ.; Giang, N.T Xây dựng mơ hình MIKE 11 phục vụ công tác dự báo thủy văn xâm nhập mặn tỉnh Bến Tre Tạp chí Khí tượng Thủy văn 2022, 740(1), 38–49 22 Hải, C.H.; Phương, T.A.; Như, T.Q.; Cường, T.M Áp dụng mơ hình trí tuệ nhân tạo vào dự báo lưu lượng đến hồ lưu vực sơng Ba Tạp chí Khí tượng Thủy văn 2019, 705, 22–33 Tạp chí Khí tượng Thủy văn 2022, 740(1), 87-97; doi:10.36335/VNJHM.2022(740(1)).87-97 97 Building support vector regression models for water level forecasting at Cao Lanh station, Dong Thap province Le Xuan Hoa1, Nguyen Tien Giang2* Dong Thap Province Hydrometeorological Station; lexuanhoakttv@gmail.com Faculty of Hydrology, Meteorology & Oceanography, VNU University of Science, VNU–HN; giangnt@vnu.edu.vn Abstract: In this study, kernel functions Rbf, Linear (Linear) and Sigmoid are used in the Support Vector Regression (SVR) model and input data series are: daily highest water level (HmaxCL); lowest water level of the day (HminCL); average daily water level (HtbCL) in the past to forecast the future water level at Cao Lanh station, Dong Thap province The results show that all kernel functions in the SVR models give forecast results with high accuracy as shown by the NSE index > 0.95 for all different input data Among the input data series and tested kernel functions, the predicted HmaxCL data series has smallest error This result is a good reference for building a machine learning model for forecasting future water levels for Cao Lanh Hydrological Station, Dong Thap province Keywords: SVR; RBF; Linear; Sigmoid; Machine Learning; Cao Lanh ... nghiên cứu xây dựng mơ hình hồi quy hỗ trợ véc tơ dự báo mực nước trạm Cao Lãnh, tỉnh Đồng Tháp Phương pháp nghiên cứu số liệu sử dụng 2.1 Khu vực nghiên cứu Đồng Tháp 13 tỉnh vùng đồng sông Cửu... cho tỉnh Đồng Tháp nói chung, Tp Cao Lãnh nói riêng gặp nhiều khó khăn, nhiều thời gian độ xác chưa cao Từ khó khăn việc xây dựng mơ hình máy học để phục vụ dự báo mực nước cần thiết dự báo viên... tốn hàm kernel mơ hình trình bày Hình 2–4 Hình Chuỗi liệu mực nước cao ngày trạm Cao Lãnh từ năm 2000–2020 (a) (b) Hình Kết dự báo hàm kernel RBF mơ hình với số liệu mực nước cao ngày thực đo