Bài viết Ứng dụng mô hình học máy dự báo chất lượng nước dưới đất: Điển hình tại khu vực thành phố Hội An, tỉnh Quảng Nam nghiên cứu dự báo chất lượng nước dưới đất khu vực lân cận bãi rác Cẩm Hà, Tp. Hội An, Quảng Nam bằng các mô hình học máy.
Lê Phước Cường, Ngơ Viết Thắng 106 ỨNG DỤNG MƠ HÌNH HỌC MÁY DỰ BÁO CHẤT LƯỢNG NƯỚC DƯỚI ĐẤT: ĐIỂN HÌNH TẠI KHU VỰC THÀNH PHỐ HỘI AN, TỈNH QUẢNG NAM APPLICATION OF MACHINE LEARNING MODELS IN UNDERGROUND WATER PREDICTION: A CASE STUDY IN HOIAN CITY, QUANGNAM PROVINCE Lê Phước Cường*, Ngô Viết Thắng Trường Đại học Bách khoa - Đại học Đà Nẵng1 *Tác giả liên hệ: lpcuong@dut.udn.vn (Nhận bài: 10/02/2022; Chấp nhận đăng: 28/3/2022) Tóm tắt - Bài báo nghiên cứu dự báo chất lượng nước đất khu vực lân cận bãi rác Cẩm Hà, Tp Hội An, Quảng Nam mơ hình học máy Nghiên cứu tiến hành phân tích liệu chất lượng nước đất mùa mưa mùa khơ Bộ liệu với 268 dịng, gồm biến đầu vào (Fe, As, Mo, Co, Ni, Al, Zn, Pb) biến đầu (GWQI) Các tác giả nghiên cứu xác định mơ hình dự báo tối ưu dựa vào giá trị sai số tuyệt đối trung bình (MAE), sai số tồn phương trung bình (RMSE) R2 Ngôn ngữ R dùng để tối ưu hố mơ hình hồi quy tuyến tính (LR), rừng ngẫu nhiên (RF), máy hỗ trợ vec-tơ (SVM), K- điểm liệu gần (KNN), mạng lập thể (Cubist) với tỉ lệ “Huấn luyện”:“Kiểm tra” từ 70:30 đến 85:15 Kết thu cho thấy, mơ hình Cubist tỷ lệ 70:30 tối ưu cho liệu khu vực lân cận bãi rác Cẩm Hà với độ tin cậy R2 98,8% 96% Abstract - This article studies to predict groundwater quality in the vicinity of Cam Ha landfill, Hoi An city, Quang Nam province by machine learning models The study analyzed dataset on groundwater quality in rainy and dry seasons Dataset with 268 lines, including input variables (Fe, As, Mo, Co, Ni, Al, Zn, Pb) and output oneis the groundwater quality index (GWQI) Authors determined the optimal forecasting model based on the mean absolute error (MAE), root mean square error (RMSE) and R2 R language was used in order to optimize machine learning models, such as: linear regression (LR), random forest (RF), support vector machine (SVM), K-nearest neighbors (KNN), Cubist with Train:Test ratio from 70:30 to 85:15 The obtained results show that the Cubist model at the ratio 70:30 is the most optimal one for the dataset in the vicinity of Cam Ha landfill with the R2 value of 98.8% and 96 %, respectively Từ khóa - Học máy; nước đất; Groundwater Quality Index (GWQI); bãi rác Cẩm Hà Key words - Machine learning; groundwater; Groundwater Quality Index (GWQI); Cam Ha landfill Đặt vấn đề Đất, nước đất nguồn tài ngun vơ q giá, đóng vai trò định cho tồn phát triển người Hiện nay, vấn đề ô nhiễm nguồn nước chủ đề nóng tồn cầu nói chung Việt Nam nói riêng Nguyên nhân gây nên tình trạng nhiễm mơi trường nước chủ yếu từ ý thức số người dân, doanh nghiệp thiếu trách nhiệm bất cập, hạn chế công tác quản lý, bảo vệ mơi trường [1] Điển hình khu vực bãi rác Cẩm Hà nằm địa bàn thôn Bầu Ốc Thượng, xã Cẩm Hà, thành phố Hội An có diện tích khoảng 1,3 hectares (ha), sức chứa 100.000 m3 nơi tập trung rác thải toàn thành phố Hơn 40 năm tồn tại, bãi rác trở nên q tải, hình dung bãi rác núi khổng lồ cao ngất chứa chất hàng nghìn thứ rác thải hỗn tạp chưa qua xử lý đổ Do bãi rác tạm thời, không đảm bảo điều kiện vệ sinh môi trường khiến cho khu vực nồng nặc thứ mùi hôi thối bốc lên gây ảnh hưởng nghiêm trọng đến sức khỏe, đời sống người dân, nguy ô nhiễm nguồn nước đất lớn Chính vậy, việc dự báo chất lượng môi trường nước đất có ý nghĩa quan trọng trình phát triển chung thành phố Hiện nay, việc ứng dụng học máy (machine learning) để đưa mơ hình dự báo chất lượng nước đất triển khai số nghiên cứu [2], [3], [4], vấn đề mẻ nước ta Bên cạnh đó, việc sử dụng số chất lượng nước đất (GWQI) giá trị có khả cung cấp ảnh hưởng tổng hợp thơng số chất lượng tồn chất lượng nước hỗ trợ tích cực cho việc dự báo chất lượng nước đất thời gian qua [3], [4], [5], [6], [7], [8], [9], [10], [11] Trong nghiên cứu này, tác giả phân tích số mơ hình có khả dự báo chất lượng nước đất, bao gồm: Hồi quy tuyến tính (LR-Linear Regression), rừng ngẫu nhiên (RF - Random Forest), máy hỗ trợ véctơ (SVM - Support vector machine), K điểm liệu gần (KNN - K nearest neighbor), mạng lập thể (Cubist) Từ giá trị sai số tuyệt đối trung bình (MAE), sai số tồn phương trung bình (RMSE) R2 tác giả đề xuất mơ hình dự báo chất lượng nước đất có độ xác cao phù hợp với khu vực nghiên cứu thành phố Hội An, tỉnh Quảng Nam Đối tượng phương pháp nghiên cứu 2.1 Đối tượng Nghiên cứu sử dụng sở liệu chất lượng nước đất gồm 268 dòng với biến, có biến đầu vào (Fe, As, Mo, Co, Ni, Al, Zn, Pb) biến đầu (GWQI), nước đất lấy mẫu khu vực lân cận bãi rác Cẩm Hà, xã Cẩm Hà, thành phố Hội An, tỉnh Quảng Nam (Hình 1) Tất mẫu nước đất khu vực nghiên cứu lấy hai mùa mưa (07/202112/2021) mùa khô (1/2021-06/2021) The University of Danang - University of Science and Technology (Phuoc-Cuong Le, Viet-Thang Ngo) ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ - ĐẠI HỌC ĐÀ NẴNG, VOL 20, NO 5, 2022 Hình Các vị trí lấy mẫu nước đất khu vực lân cận bãi rác Cẩm Hà, thành phố Hội An, tỉnh Quảng Nam 2.2 Phương pháp phân tích hố địa Tổng cộng 268 mẫu nước đất tầng chứa nước Holocene đem thực phân tích thơng số hố lý Các mẫu nước đất lấy phương pháp khoan sâu lòng đất khu vực nghiên cứu độ sâu thích hợp, tuỳ địa điểm mà có độ sâu lấy mẫu dao động từ 10m đến 20m Quá trình lấy mẫu thực tuân theo quy trình khuyến nghị quy chuẩn kỹ thuật quốc gia chất lượng nước ngầm Bộ tài nguyên môi trường Việt Nam ban hành QCVN 09MT:2015/BTNMT Theo đó, quy trình lấy mẫu nước đất đảm bảo tiêu chuẩn yêu cầu TCVN 6663-1:2011, ISO 5667-1:2006; TCVN 6663-3:2008, ISO 5667-3:2003; TCVN 6663-11:2011, ISO 5667-11:2009 268 mẫu nước đất khu vực nghiên cứu lấy suốt mùa mưa (07/2021-12/2021) mùa khô (1/2021-06/2021) Độ dẫn điện, pH nhiệt độ mẫu nước đất đo thiết bị đo di động HANA EC-HI8733 thiết bị AZ pH-8601 Các mẫu nước thu thập bảo quản lọ polyetylen (đã rửa qua mẫu nước ngầm đó) trước phân tích nguyên tố vi lượng đa lượng Các mẫu nước đất trước phân tích axit hố axit HNO3 đạt chuẩn phân tích, 65% (Merck, Đức) đến độ pH khoảng 1-2 Các mẫu giữ ổn định nhiệt độ phòng đem phân tích nguyên tố vi lượng, đa lượng Nồng độ nguyên tố vết As, Mo, Co, Ni, Al, Zn Pb xác định phương pháp quang phổ khối kết hợp cao tần cảm ứng (ICP-MS) Nguyên tố Fe xác định nồng độ phương pháp quang phổ hấp thụ nguyên tử (AAS) Các thí nghiệm phân tích hàm lượng kim loại thực Phân viện Bảo hộ An toàn lao động miền Trung, Đà Nẵng Trung tâm Nghiên cứu Bảo vệ Môi trường, Trường Đại học Bách khoa - Đại học Đà Nẵng Tất phương pháp phân tích thơng số hoá lý tuân theo quy chuẩn QCVN 09-MT:2015/BTNMT Việc đảm bảo chất lượng/kiểm soát chất lượng (QA/QC) thực chun gia có chun mơn sâu phân tích hố học phịng thí nghiệm, bao gồm việc phân tích mẫu trắng, phân tích lặp lại/mẫu kiểm soát chứng nhận chất lượng hố chất phân tích 2.3 Phương pháp học máy Trong báo này, tác giả trình bày nghiên cứu mơ hình học máy (LR, RF, SVM, KNN Cubist) để dự 107 báo chất lượng nước đất thông qua số GWQI Dữ liệu để thực mơ hình học máy cần đủ lớn, có độ tin cậy cao thông số nước đất LR - Linear Regression (Hồi quy tuyến tính) Trong thống kê, hồi quy tuyến tính cách tiếp cận tuyến tính để mơ hình hóa mối quan hệ phản ứng vô hướng nhiều biến giải thích (cịn gọi biến phụ thuộc độc lập) Giống tất hình thức phân tích hồi quy, hồi quy tuyến tính tập trung vào phân phối xác suất có điều kiện phản hồi cho giá trị yếu tố dự đốn, thay phân phối xác suất chung tất biến này, lĩnh vực phân tích đa biến RF - Random Forest (Rừng ngẫu nhiên) RF kết hợp dự đoán, phụ thuộc vào giá trị vector ngẫu nhiên lấy mẫu độc lập (Independently) với phân bố cho tất có rừng RF loại thuật toán tổng hợp (Ensemble) gọi tổng hợp (aggregation) bootstrap phương pháp học máy phổ biến SVM - Support vector machine (Máy hỗ trợ vector) SVM thuật toán phân lớp phổ biến hiệu SVM khái niệm thống kê khoa học máy tính cho tập hợp phương pháp học có giám sát liên quan đến để phân loại phân tích hồi quy SVM dạng chuẩn nhận liệu vào phân loại chúng vào hai lớp khác Do đó, SVM thuật toán phân loại nhị phân KNN - K Nearest neighbors (K- Điểm liệu gần nhất) KNN thuật toán phân cụm (Clustering), kỹ thuật học có giám sát sử dụng để phân loại (Classify) điểm liệu dựa vị trí (Position) chúng điểm liệu gần KNN dự đoán mẫu sử dụng mẫu K- điểm liệu gần từ tập huấn luyện Cubist (Mạng lập thể) Cubist thuật toán dựa nguyên tắc (rules) sử dụng để xây dựng mơ hình dự báo dựa việc phân tích liệu đầu vào Nó phát triển dựa mở rộng mơ hình định với khả xử lý lên tới hàng nghìn biến đầu vào Tác giả sử dụng ngơn ngữ R để thao tác thuật tốn mơ hình học máy nhằm chọn mơ hình học máy tối ưu việc dự báo chất lượng nước đất dựa vào số GWQI Bộ liệu thực phần mềm thống kê R- Studio Số liệu đầu vào tính tốn hiệu chỉnh phù hợp nhằm loại bỏ số liệu không đáng tin cậy, phù hợp cho việc đọc liệu đầu vào máy tính Để thực mơ hình học máy, tác giả phân tích liệu đầu vào biến thông qua biểu đồ mối tương quan biến (Hình 2) Sau hiểu rõ liệu, tác giả tiến hành phân chia liệu ban đầu thành phần ngẫu nhiên gồm Huấn luyện (Training), Kiểm tra (Test) Kiểm chứng (Validation) theo tỷ lệ train:test khoảng (70:30) - (85:15) (Bảng Bảng 2) Tiến hành thao tác thuật tốn từ mơ hình học máy, thu kết mơ hình tối ưu dựa vào số MAE, RMSE R2 Lê Phước Cường, Ngô Viết Thắng 108 Hình Biểu đồ tương quan biến liệu Kết nghiên cứu khảo sát 3.1 Phân tích điển hình mẫu nước đất mùa mưa tháng 11/2021 khu vực nghiên cứu Dựa vào đặc điểm, tính chất khu vực nguồn có khả gây nhiễm, tác giả chọn nhóm vị trí lấy mẫu nước đất bao gồm: N0, N1, N2, N3, N4 Hình Trong đó: N0 điểm đại diện cho khu vực khơng chịu tác động nguồn ô nhiễm; N1 điểm đại diện cho khu vực chịu tác động từ khu chăn nuôi gia súc, gia cầm bãi rác; N2 điểm đại diện cho khu vực chịu tác động từ nhà máy đốt rác bãi rác; N3 điểm đại diện cho khu vực chịu tác động trực tiếp từ bãi rác, nghĩa trang; N4 điểm đại diện cho khu vực chịu tác động từ bãi rác Hình Biểu đồ phân tích kết mẫu nước đất khu vực bãi rác Cẩm Hà Kết phân tích số nước đất khu vực lân cận bãi rác Cẩm Hà biểu diễn biểu đồ Hình Hình Hình Biểu đồ phân tích kết mẫu nước đất khu vực bãi rác Cẩm Hà 3.2 Kết thực mơ hình học máy Tác giả thực phân tích mối tương quan biến đầu vào biến đầu GWQI (Hình 2) nhận thấy có tương quan thấp Do vậy, cần mơ hình học máy để giải vấn đề dự báo chất lượng nước đất khu vực nghiên cứu Thơng thường, có tương quan lớn cần sử dụng đường tuyến tính giản đơn (linear regression) giải vấn đề dự báo, điều chứng minh cần thiết việc áp dụng mơ hình học máy dự báo chất lượng nước dưới đất khu vực nghiên cứu Sau thực mơ hình từ liệu Training Validation theo tỷ lệ (70:30) - (85:15), thu bảng kết số MAE, RMSE R2 Bảng Bảng Kết mơ hình tối ưu thu thực mơ hình học máy với tỷ lệ 70:30 thể qua Hình Hình ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ - ĐẠI HỌC ĐÀ NẴNG, VOL 20, NO 5, 2022 Hình Biểu đồ kết từ liệu Training với tỷ lệ 70:30 109 Hình Biểu đồ kết từ liệu Validation với tỷ lệ 70:30 Bảng Kết thực mơ hình từ liệu Huấn luyện (Training) Split Ratio 70:30 71:29 72:28 73:27 74:26 75:25 76:24 77:23 78:22 79:21 80:20 81:19 82:18 83:17 84:16 85:15 LR 2,43 2,43 3,18 2,42 2,38 2,81 2,63 2,74 2,63 2,76 2,95 2,67 3,18 2,96 2,67 2,13 SVM 1,36 1,57 1,87 1,81 1,39 1,69 1,60 1,93 1,69 1,95 1,49 1,84 1,64 1,66 1,39 1,49 MAE (min) KNN RF 1,99 0,90 2,62 0,80 3,07 0,67 2,66 0,82 1,65 0,68 2,35 0,67 2,33 0,67 2,79 0,71 3,04 0,77 2,74 0,79 2,43 0,53 2,74 0,72 2,75 0,79 2,79 0,79 2,02 0,73 2,53 0,81 Cubist 0,74 0,68 0,69 0,74 0,61 0,70 0,61 0,71 0,71 0,73 0,64 0,71 0,77 0,59 0,64 0,47 LR 3,06 3,22 4,20 2,98 2,95 3,46 3,38 3,18 3,07 3,40 3,68 3,21 3,74 3,37 3,14 2,69 SVM 1,61 1,97 2,14 2,07 1,75 1,98 1,78 2,39 2,33 2,30 1,86 2,23 2,01 1,96 1,78 1,88 Training RMSE (min) KNN RF 2,85 1,33 3,79 1,05 4,24 0,95 3,25 1,05 2,12 0,84 2,98 0,84 3,43 0,90 3,71 0,87 4,33 1,09 3,95 0,94 3,19 0,64 3,68 0,85 3,92 1,00 3,75 0,98 2,61 0,95 3,07 0,93 Cubist 0,87 0,95 0,83 1,02 0,76 0,93 0,82 0,89 0,84 1,01 0,95 1,15 0,94 0,76 0,80 0,66 LR 0,269 0,269 0,393 0,258 0,341 0,259 0,198 0,141 0,234 0,209 0,181 0,275 0,246 0,279 0,301 0,179 SVM 0,516 0,394 0,191 0,270 0,338 0,396 0,422 0,206 0,166 0,199 0,461 0,192 0,363 0,421 0,392 0,356 R2 (max) KNN 0,161 0,554 0,449 0,394 0,602 0,346 0,627 0,598 0,395 0,613 0,592 0,581 0,556 0,494 0,477 0,611 RF 0,987 0,985 0,986 0,991 0,976 0,974 0,991 0,987 0,987 0,985 0,994 0,992 0,985 0,991 0,982 0,986 Cubist 0,988 0,995 0,992 0,992 0,990 0,987 0,994 0,992 0,900 0,989 0,991 0,994 0,988 0,989 0,990 0,994 Bảng Kết thực mơ hình từ liệu Kiểm chứng (Validation) Split Ratio 70:30 71:29 72:28 73:27 74:26 75:25 76:24 77:23 78:22 79:21 80:20 81:19 82:18 83:17 84:16 85:15 LR 3,43 3,03 2,86 2,50 2,31 2,656 1,89 1,91 1,96 2,10 1,71 2,00 2,74 1,85 2,79 2,50 MAE (min) SVM KNN RF 1,44 3,38 2,66 1,43 2,55 1,70 1,65 3,25 2,20 1,40 2,38 1,72 1,51 2,63 2,08 1,41 2,65 2,13 1,20 2,33 1,89 1,29 2,59 2,11 1,29 1,68 1,33 1,29 2,30 1,67 1,44 2,17 1,69 1,12 1,55 1,46 1,34 1,71 1,71 1,24 1,97 1,81 1,36 3,00 2,00 1,37 2,78 1,92 Cubist 0,93 0,91 1,04 0,97 1,23 0,88 1,09 1,40 1,20 1,05 1,15 1,45 1,54 1,27 1,13 1,56 LR 4,30 3,73 4,30 3,52 2,56 3,28 2,30 2,22 2,37 2,46 2,11 2,33 3,26 2,39 3,37 2,74 Validation RMSE (min) SVM KNN RF 1,72 4,36 3,46 1,78 3,48 2,13 1,92 4,69 2,83 1,76 3,74 2,14 1,70 3,35 2,41 1,77 3,51 2,46 1,53 2,82 2,45 1,62 3,23 2,55 1,69 2,21 1,69 1,62 2,70 1,93 1,66 2,76 1,94 1,52 1,85 1,64 1,56 2,14 2,04 1,47 2,46 2,24 1,76 3,50 2,43 1,78 3,40 2,30 Bàn luận 4.1 Bàn luận kết phân tích mẫu nước đất mùa mưa tháng 11/2021 Kết phân tích mẫu nước đất khu vực bãi rác Cẩm Hà so sánh với QCVN 09MT:2015/BTNMT: Quy chuẩn kĩ thuật quốc gia chất Cubist 1,26 1,25 1,28 1,32 1,48 1,39 1,37 1,68 1,58 1,33 1,51 1,91 2,02 1,71 1,39 2,06 LR 0,12 0,09 0,23 0,16 0,13 0,11 0,26 0,12 0,20 0,17 0,28 0,18 0,15 0,18 0,25 0,274 SVM 0,41 0,37 0,17 0,34 0,47 0,49 0,66 0,50 0,39 0,41 0,35 0,53 0,37 0,58 0,47 0,343 R2 (max) KNN 0,24 0,18 0,13 0,13 0,09 0,25 0,14 0,19 0,20 0,24 0,29 0,32 0,34 0,50 0,19 0,343 RF 0,36 0,66 0,38 0,53 0,58 0,28 0,41 0,30 0,30 0,36 0,31 0,64 0,51 0,43 0,65 0,318 Cubist 0,96 0,92 0,92 0,80 0,88 0,84 0,90 0,59 0,42 0,78 0,62 0,43 0,49 0,60 0,57 0,392 lượng nước đất Theo kết thu từ Hình Hình 4, thơng số độ cứng tổng (tính theo CaCO3), Sunfat, Clorua, Mn, có hàm lượng (mg/l) thấp, nằm giới hạn cho phép QCVN 09-MT:2015/BTNMT Chỉ số Pemanganat vị trí N3 N4 vượt 1,2 1,55 lần so với QCVN 09-MT:2015/BTNMT Hàm 110 lượng amoni tất vị trí vượt giới hạn cho phép QCVN 09-MT:2015/BTNMT, cụ thể vị trí N0 vượt 1,7 lần, N1 vượt 2,5 lần, N2 vượt 4,8 lần, N3 vượt 7,0 lần vị trí N4 vượt 2,8 lần Hàm lượng amoni nước đất cao không gây độc trực tiếp mà sản phẩm chuyển hóa từ amoni nitrit nitrat yếu tố gây độc hại Nguyên nhân dẫn đến hàm lượng amoni cao phần hoạt động sản suất nông nghiệp sử dụng nhiều phân bón thuốc hóa học, nguồn ô nhiễm từ bãi rác Cẩm Hà Với kết điển hình cụ thể khu vực cho thấy, nguy ô nhiễm lớn, thời gian đến việc áp dụng mơ hình học máy để dự báo thường xuyên cập nhật tình hình nhiễm thơng qua việc ứng dụng mơ hình tối ưu từ nghiên cứu hồn tồn cấp thiết 4.2 Bàn luận kết thực mô hình học máy Sau hồn thiện thuật tốn chạy mơ hình chọn, ta thu bảng kết với cách chia tỷ lệ từ tập liệu ban đầu khoảng (70:30) – (85:15) Mơ hình lựa chọn mơ hình tối ưu cho dự báo chất lượng nước đất khu vực khảo sát dựa vào giá trị nhỏ số sai số tuyệt đối trung bình (MAE), sai số tồn phương trung bình (RMSE) độ tin cậy R2 cao Từ bảng kết liệu Training Bảng cho thấy, mơ hình Cubist, RF mơ hình có số MAE, RMSE thấp độ tin cậy R2 cao Trong đó, mơ hình Cubist mơ hình có số MAE, RMSE thấp tỷ lệ (85:15) có giá trị 0,47 0,66 độ tin cậy R2 99,4% Tiếp theo, để kiểm định lại độ xác mơ hình ta sử dụng tập liệu Validation cho kết Bảng Quan sát Bảng tỷ lệ (85:15) cho kết R2 không khả quan (39%) Kết hợp bảng kết quả, nhìn chung mơ hình Cubist có kết cao Huấn luyện Kiểm chứng lại tỷ lệ (70:30) Các mơ hình khác khơng cho kết khả quan Huấn luyện Kiểm chứng lại, cho kết khả quan Huấn luyện kiểm tra lại khơng đạt kết tốt (R2 khơng cao) Kết luận Kết nghiên cứu, phân tích thực mơ hình học máy cho thấy, việc áp dụng khoa học công nghệ tiên tiến, thông minh, tự động công tác quản lý giám sát chất lượng môi trường nước đất khu vực khảo sát hữu ích quan trọng Thơng qua đó, biết trạng ô nhiễm môi trường nước đất khu vực khảo sát, từ đưa giải pháp quản lý khắc phục tình trạng nhiễm Hơn thời đại nay, với tham gia, hỗ trợ phần mềm giúp cho việc tính tốn, đưa dự báo, liệu khó tính toán sở từ Lê Phước Cường, Ngơ Viết Thắng liệu có dễ tính tốn diễn thuận lợi Bên cạnh đó, việc đánh giá chất lượng nguồn nước đất gặp vài thách thức mẫu thu thập quy mô lớn, xử lý số liệu nhiều thời gian, thiết bị, hố chất nguồn lực người Ngồi ra, việc tính tốn số chất lượng nước đất trình lâu dài, cần nguồn lực kinh tế lớn Vì vậy, để giải vấn đề này, học máy (machine learning) cách tiếp cận tiềm tiết kiệm chi phí, hiệu đáng tin cậy đánh giá chất lượng nước đất Lời cảm ơn: Nghiên cứu tài trợ Bộ Giáo dục Đào tạo Việt Nam đề tài mã số B2022-DNA-04 TÀI LIỆU THAM KHẢO [1] S Varol, A Davraz, “Evaluation of the groundwater quality with WQI (Water Quality Index) and multivariate analysis: a case study of the Tefenni plain (Burdur/Turkey)”, Environmental Earth Sciences., Vol 73, No 4, 2015, pp 1725-1744, [2] Ahmed, U., Mumtaz, R., Anwar, H., Shah, A.A., Irfan, R., GarcíaNieto, J., “Efficient water quality prediction using supervised Machine Learning”, Water, 2019, 11 (11), 2210 [3] Bui, D.T., Khosravi, K., Tiefenbacher, J., Nguyen, H., Kazakis, N., “Improving prediction of water quality indices using novel hybrid machine-learning algorithms”, Science of The Total Environment, 2020a, p 137612 [4] Bui, D.T., Hoang, N.D., Martínez-Alvarez, F., Ngo, P.T.T., Hoa, P.V., Pham, T.D., Samui, P., Costache, R “A novel deep learning neural network approach for predicting flash flood susceptibility: a case study at a high frequency tropical storm area”, Sci Total Environ 2020b, 701, 134413 [5] Kazakis, N., Mattas, C., Pavlou, A., Patrikaki, O., Voudouris, K “Multivariate statistical analysis for the assessment of groundwater quality under different hydrogeological regimes”, Environmental Earth Sciences, 2017, 76 (9), 349 [6] Kim, J., Han, H., Johnson, L.E., Lim, S., Cifelli, R “Hybrid machine learning framework for hydrological assessment”, J Hydrol., 2019, 577, 123913 [7] Li, P.Y., Wu, J.H., Qian, H “Groundwater quality assessment based on entropy weighted osculating value method”, Int J Environ Sci 2010, (4), 621-630 [8] Li, Z., Yang, T., Huang, C.S., Xu, C.Y., Shao, Q., Shi, P., Wang, X., Cui, T “An improved approach for water quality evaluation: TOPSIS-based informative weighting and ranking (TIWR) approach”, Ecol Indicat 2018, 89, 356-364 [9] Lu, H., Ma, X “Hybrid decision tree-based machine learning models for short- term water quality prediction”, Chemosphere, 2020, 249, 126169 [10] Maier, H.R., Dandy, G.C “Neural networks for the prediction and forecasting of water resources variables: a review of modelling issues and applications”, En- viron Model Software, 2000, 15 (1), 101-124 [11] Palani, S., Liong, S.Y., Tkalich, P “An ANN application for water quality fore- casting”, Mar Pollut Bull., 2008, 56 (9), 1586-1597 ... sử dụng đường tuyến tính giản đơn (linear regression) giải vấn đề dự báo, điều chứng minh cần thiết việc áp dụng mơ hình học máy dự báo chất lượng nước dưới đất khu vực nghiên cứu Sau thực mơ hình. .. hình học máy Tác giả thực phân tích mối tương quan biến đầu vào biến đầu GWQI (Hình 2) nhận thấy có tương quan thấp Do vậy, cần mơ hình học máy để giải vấn đề dự báo chất lượng nước đất khu vực. .. 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ - ĐẠI HỌC ĐÀ NẴNG, VOL 20, NO 5, 2022 Hình Các vị trí lấy mẫu nước đất khu vực lân cận bãi rác Cẩm Hà, thành phố Hội An, tỉnh Quảng Nam 2.2 Phương pháp phân