Nghiên cứu này xây dựng các mô hình dựa trên cơ sở dữ liệu sẵn có để dự đoán tình trạng xói mòn bằng các thuật toán học máy. Một bộ dữ liệu xói mòn đất được thu thập trong ba năm từ 2009-2011 vùng Tây Bắc Việt Nam đã được sử dụng để xây dựng và kiểm nghiệm các mô hình.
Kỷ yếu Hội nghị: Nghiên cứu “Khoa học Trái đất Môi trường” DOI: 10.15625/vap.2019.000130 DỰ BÁO XĨI MỊN ĐẤT DO MƢA GÂY RA Ở VÙNG ĐỒI NÚI VIỆT NAM BẰNG CÁC PHƢƠNG PHÁP HỌC MÁY Vũ Đình Tuấn1,3, Hồng Nhật Đức2, Trần Xn Linh3 Khoa Môi trường, Trường Đại học Khoa học tự nhi n, Đại học u c gia ội Email: vudinhtuaniae@gmail.com Khoa Xây dựng, Đại học Duy Tân, Email: tranxuanlinh@dtu.edu.vn Viện Nghiên cứu phát triển, Đại học Duy Tân, Email: hoangnhatduc@dtu.edu.vn TĨM TẮT Xói mịn mưa gây vấn đề nghiêm trọng vùng đồi núi nhiệt đới Các mơ hình dự báo xói mịn đất truyền thống (vật lý, kinh nghiệm) gặp khó khăn q trình phát triển dự báo xác Do đó, nghiên cứu xây dựng mơ hình dựa sở liệu sẵn có để dự đốn tình trạng xói mịn thuật tốn học máy Một liệu xói mịn đất thu thập ba năm từ 2009-2011 vùng Tây Bắc Việt Nam sử dụng để xây dựng kiểm nghiệm mơ hình Kết nghiên cứu cho thấy tất mơ hình học máy đạt kết dự đoán tốt với tỷ lệ xác phân loại cao 80 % Trong mơ hình dựa RVM thuật tốn phù hợp đạt kết dự đoán cao hai giai đoạn đào tạo (tỷ lệ xác đạt 92,54 %) giai đoạn kiểm nghiệm (tỷ lệ xác đạt 91,74 %) Từ khóa: Dự báo xói mịn đất, liệu thực nghiệm, vùng đồi núi, học máy GIỚI THIỆU Xói mòn đất nước gây đất từ đồng ruộng, phá vỡ cấu trúc đất suy giảm chất hữu chất dinh dưỡng (Spekken et al., 2016) Xói mịn cịn làm giảm độ dày tầng đất trồng trọt giảm độ phì nhiêu đất Ngồi xói mịn cịn gây bồi lắng hạ lưu, làm suy giảm chức sông, hồ chứa mương thoát nước, tăng nguy lũ lụt chặn kênh tưới tiêu (Morgan, 2005) Xói mịn đất vùng nhiệt đới trở nên nghiêm trọng kết hợp với điều kiện khác Chẳng hạn đất dễ bị xói mịn vào đầu mùa vụ mưa lớn, lớp phủ mặt đất thấp Trong năm gần đây, phương pháp học máy áp dụng để phân tích liệu từ thí nghiệm nhằm mục đích dự đốn xói mịn đất Các mơ hình dựa học máy cung cấp giải pháp thay hữu ích để đối phó với tính chất đa biến phức tạp tượng khoa học đất khoa học địa chất (Shahin, 2016) Nghiên cứu nhằm mục đích mở rộng kiến thức cách thiết lập mơ hình dự báo xói mịn đất cho vùng đồi núi nhiệt đới dựa năm phương pháp học máy: mơ hình trí tuệ nhân tạo (ANN), Vectơ hỗ trợ (SVM), Vectơ hỗ trợ tối thiểu (LSSVM), Vectơ liên quan (RVM) Fuzzy-K (FKNN) Một liệu, gồm mười biến, thu thập từ thí nghiệm Sơn La sử dụng để xây dựng hiệu đính mơ hình PHƢƠNG PHÁP 2.1 Mạng nơ ron nhân tạo (Artificial Neural Network (ANN)) ANN phương pháp học máy sử dụng rộng rãi lấy cảm hứng từ mạng lưới thần kinh sinh học Phương pháp mơ q trình thu nhận kiến thức lý luận xảy não người (Hagan et al., 2014; Tran and Hoang, 2016) 2.2 Máy véc tơ hỗ trợ (Support Vector Machine (SVM)) N n Cho tập liệu huấn luyện {xk , yk }k với liệu đầu xk R vào nhãn lớp tương ứng yk { 1, 1} , thuật toán SVM thiết lập ranh giới định cho khoảng cách lớp 259 Hồ Chí Minh, tháng 11 năm 2019 lớn tốt Hơn nữa, SVM dựa vào thủ thuật Kernel để đối phó với vấn đề phân loại phi tuyến (Tien Bui et al., 2015; Chou et al., 2016) 2.3 Máy véc tơ hỗ trợ quân phƣơng tối thiểu (Least Squares Support Vector Machine (LSSVM)) LSSVM phiên bình phương nhỏ SVM tiêu chuẩn, cấu trúc mơ hình xác định cách giải tập hợp hệ thống tuyến tính thay vấn đề tối ưu hóa phi tuyến (Hoang and Tien Bui, 2016) 2.4 Máy véc tơ liên quan (Relevance Vector Machine (RVM)) RVM đề xuất Tipping (Tipping, 2000) phương pháp dựa suy luận Bayesian sử dụng để giải vấn đề phân loại Dạng chức RVM tương tự máy vectơ hỗ trợ Hơn nữa, phương pháp dựa tối đa hóa kỳ vọng sử dụng để xây dựng mơ hình dự đốn RMV 2.5 Thuật toán Fuzzy k-Nearest Neighbor (FKNN) Thuật toán FKNN, đề xuất Keller et al (Keller et al., 1985), biến thể nâng cao thuật toán k Nearest Neighbor (KNN) thông thường FKNN sử dụng khái niệm lý thuyết tập mờ để cải thiện lực học tập hiệu suất dự đoán KNN Phương thức FKNN gán thành viên mờ mẫu đầu vào cho nhãn lớp nhãn Nhãn lớp kèm với mức độ thành viên tối đa chọn làm đầu cho mẫu đầu vào quan tâm KẾT QUẢ VÀ THẢO LUẬN Tập liệu gốc phân tách thành Tập huấn luyện (80% liệu) Tập kiểm tra (20% liệu) Bộ thứ sử dụng để huấn luyện mơ hình, thứ hai nhằm mục đích kiểm tra hiệu suất mơ hình Q trình chạy tiến hành lặp lặp lại 30 lần để nâng cao khả xác mơ hình Trong lần chạy, 20% liệu trích xuất ngẫu nhiên để tạo thành liệu thử nghiệm; phần lại liệu cho đào tạo mơ hình Sau 30 lần chạy, kết dự đốn năm mơ hình sử dụng tóm tắt bảng Kết bảng cho thấy mơ hình RVM đạt độ xác dự đốn mong muốn hai giai đoạn đào tạo (CAR = 92,54% AUC = 0,97) giai đoạn thử nghiệm (CAR = 91,74% AUC = 0,96) LSSVM mơ hình tốt thứ hai (CAR = 88,19% AUC = 0,96); SVM xếp hạng mơ hình thứ ba (CAR = 85,90% AUC = 0,96), theo sau ANN (CAR = 85,28% and AUC = 0.94) FKNN (CAR = 83,68% AUC = 0,90) Kết giá trị đặc biệt cao TPR (0.90) TNR (0,94) RVM mang lại Biểu đồ hình hộp thể hình tóm tắt kết CAR AUC năm mơ hình thu từ 30 lần chạy Bảng Kết dự đốn mơ hình Metrics FKNN Mean Std CAR (%) AUC TPR FPR FNR TNR 85,64 0,91 0,85 0,14 0,15 0,86 1,97 0,02 0,02 0,02 0,02 0,02 CAR (%) 83,68 4,74 ANN SVM Mean Std Mean Std Giai đoạn đào tạo 88,67 2,96 91,81 6,70 0,96 0,01 0,99 0,00 0,86 0,07 0,96 0,03 0,09 0,07 0,13 0,15 0,14 0,07 0,04 0,03 0,91 0,07 0,87 0,15 Giai đoạn thử nghiệm 4,80 5,44 85,28 85,90 260 LSSVM Mean Std RVM Mean Std 92,22 0,98 0,88 0,04 0,12 0,96 1,11 0,00 0,02 0,02 0,02 0,02 92,54 0,97 0,91 0,06 0,09 0,95 0,90 0,01 0,02 0,01 0,02 0,01 88,19 4,90 91,74 3,07 Kỷ yếu Hội nghị: Nghiên cứu “Khoa học Trái đất Môi trường” AUC TPR FPR FNR TNR 0,90 0,85 0,18 0,15 0,83 0,04 0,06 0,09 0,06 0,09 0,94 0,82 0,12 0,18 0,88 0,04 0,11 0,09 0,07 0,09 0,96 0,92 0,20 0,08 0,80 0,02 0,06 0,12 0,03 0,12 0,96 0,86 0,09 0,14 0,91 0,03 0,07 0,07 0,02 0,07 0,96 0,90 0,06 0,10 0,94 0,02 0,06 0,04 0,02 0,04 (a) (b) Hình Hiệu suất dự báo mơ hình: (a) CAR, (b) AUC So sánh hiệu suất mơ hình theo phương pháp xếp hạng Wilcoxon (Bảng 2) cho thấy, RVM vượt trội đáng kể so với mơ hình chuẩn khác LSSVM xếp thứ hai, có hai vượt trội đáng kể trước FKNN ANN trước SVM FKNN mơ hình có độ dự báo xác thấp nhất, SVM, LSSVM RVM, chí ANN Bảng So sánh hiệu suất mơ hình với thử nghiệm xếp hạng Wilcoxon Models FKNN ANN SVM LSSVM RVM FKNN x + ++ ++ ++ Models FKNN ANN SVM LSSVM RVM FKNN x 0.3669 0.0282 0.0050 0.0000 (a) Test result ANN SVM LSSVM RVM -x + x -++ + x -++ ++ ++ x (b) p-values ANN SVM LSSVM RVM 0.3669 0.0282 0.0050 0.0000 x 0.3470 0.0137 0.0000 0.3470 x 0.0931 0.0001 0.0137 0.0931 x 0.0020 0.0000 0.0001 0.0020 x KẾT LUẬN Năm thuật tốn đại diện cho mơ hình học máy khác ứng dụng để dự báo xói mịn đất Kết thử nghiệm hỗ trợ kiểm tra xếp hạng phương pháp Wilcoxon mơ hình RVM phù hợp tốn dự đốn xói mịn đất Mơ hình RVM đạt kết tốt đào tạo (CAR = 92,54 % AUC = 0,97) sau giai đoạn thử nghiệm (CAR = 91,74 % AUC = 0,96) Các thuật toán học tập khác thể hiệu suất tốt tất giá trị CAR vượt 80 % tất giá trị AUC lớn 0,9 Do đó, kết khẳng 261 Hồ Chí Minh, tháng 11 năm 2019 định mạnh mẽ hiệu việc áp dụng trí thơng minh nhân tạo để giải vấn đề quan tâm Hơn nữa, mơ hình RVM cơng cụ hứa hẹn để nhanh chóng xác định khu vực xói mịn đất tiềm phát triển biện pháp phòng ngừa TÀI LIỆU THAM KHẢO [1] Chou, J.-S., Yang, K.-H., Lin, J.-Y., 2016 Peak Shear Strength of Discrete Fiber-Reinforced Soils Computed by Machine Learning and Metaensemble Methods Journal of Computing in Civil Engineering 30, 04016036 [2] Hagan , M.T., Demuth, H.B., Beale, M.H., Jesús, O.D., 2014 Neural Network Design (2nd Edition) Martin Hagan; edition (September 1, 2014), ISBN-10: 0971732116 [3] Hoang, N.-D., Tien Bui, D., 2016 Predicting earthquake-induced soil liquefaction based on a hybridization of kernel Fisher discriminant analysis and a least squares support vector machine: a multidataset study B Eng Geol Environ., 1-14 [4] Keller, J.M., Gray, M.R., Given, J.A., 1985 A Fuzzy K-Nearest Neighbor Algorithm IEEE T Syst Man Cy 15, 580-585 [5] Morgan, R.P.C., 2005 Soil Erosion and Conservation Blackwell Science Ltd, Oxford, England [6] Shahin, M.A., 2016 State-of-the-art review of some artificial intelligence applications in pile foundations Geoscience Frontiers 7, 33-44 [7] Spekken, M., de Bruin, S., Molin, J.P., Sparovek, G., 2016 Planning machine paths and row crop patterns on steep surfaces to minimize soil erosion Comput Electron Agric 124, 194-210 [8] Tien Bui, D., Tran, A.T., Klempe, H., Pradhan, B., Revhaug, I., 2015 Spatial prediction models for shallow landslide hazards: a comparative assessment of the efficacy of support vector machines, artificial neural networks, kernel logistic regression, and logistic model tree Landslides, 1-18 [9] Tipping, M.E., 2000 The Relevance Vector Machine Adv Neural Inf Process Syst., MIT Press 12, 652–658 [10] Tran, T.-H., Hoang, N.-D., 2016 Predicting Colonization Growth of Algae on Mortar Surface with Artificial Neural Network J Comput Civ Eng 30, 04016030 262 Kỷ yếu Hội nghị: Nghiên cứu “Khoa học Trái đất Môi trường” MACHINE LEARNING APPROACHES FOR PREDICTING RAINFALLINDUCED SOIL EROSION IN TROPICAL HILLY NORTHWEST VIETNAM Tuan Vu Dinh1,3, Nhat-Duc Hoang2, Xuan-Linh Tran3 Faculty of Environmental Sciences, VNU University of Science, Vietnam National University vudinhtuaniae@gmail.com Faculty of Civil Engineering, Duy Tan University Email: hoangnhatduc@dtu.edu.vn Institute of Research and Development, Duy Tan University, Email: tranxuanlinh@dtu.edu.vn ABSTRACT Rainfall-induced soil erosion is a critical problem for landowners in tropical hilly regions Conventional erosion prediction models either physical or empirical or both face difficulty in model development, and predictive accuracy due to the appropriateness of erosion concepts employed This study attemp to predict erosion status using five machine learning algorithms: Fuzzy k-Nearest Neighbor (FKNN), Artificial Neural Network (ANN), Support Vector Machine (SVM), Least Squares Support Vector Machine (LSSVM), and Relevance Vector Machine (RVM) A data set consisting of recorded daily soil erosion in 2009-2011 from 24 bounded plots in two experiments in Northwest Vietnam was used to construct and verify the models The data featuring ten factors affecting soil erosion, was randomly assigned into two sets: Training Set (80) used for model establishment and Testing Set (20 %) used to test model performance The research finding shows that all machine learning algorithms can attain good predictive outcomes, reflected by the fact that all classification accuracy rates surpass 80 % The Wilcoxon signed-rank test indicates that RVM is the most appropriate learning algorithm since it achieves the highest prediction results in both training phase (classification accuracy rate = 92.54 %) and testing phase (classification accuracy rate = 91.74%) Key words: Soil Erosion Prediction, Experimental data set, Hilly Region, Machine Learning 263 ... tốn đại diện cho mơ hình học máy khác ứng dụng để dự báo xói mòn đất Kết thử nghiệm hỗ trợ kiểm tra xếp hạng phương pháp Wilcoxon mô hình RVM phù hợp tốn dự đốn xói mịn đất Mơ hình RVM đạt kết... 2000) phương pháp dựa suy luận Bayesian sử dụng để giải vấn đề phân loại Dạng chức RVM tương tự máy vectơ hỗ trợ Hơn nữa, phương pháp dựa tối đa hóa kỳ vọng sử dụng để xây dựng mơ hình dự đốn... 0,06 0,10 0,94 0,02 0,06 0,04 0,02 0,04 (a) (b) Hình Hiệu suất dự báo mơ hình: (a) CAR, (b) AUC So sánh hiệu suất mơ hình theo phương pháp xếp hạng Wilcoxon (Bảng 2) cho thấy, RVM vượt trội đáng