1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Công nghệ thông tin: Xây dựng ứng dụng dự báo chất lượng nước dưới đất dựa vào công nghệ trí tuệ nhân tạo

83 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây dựng ứng dụng dự báo chất lượng nước dưới đất dựa vào công nghệ trí tuệ nhân tạo
Tác giả Phan Thanh Tuấn
Người hướng dẫn TS. Dương Thị Thúy Nga, TS. Phan Nam Long
Trường học Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Công nghệ thông tin
Thể loại Luận văn thạc sĩ
Năm xuất bản 2023
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 83
Dung lượng 55,05 MB

Nội dung

LỜI CAM ĐOANLuận văn thạc sĩ về "Xây dựng ứng dụng dự báo chất lượng nước dưới đất dựavào CN trí tuệ nhân tao” là kết quả NC của riêng tôi dựa trên các nguồn và tài liệu tham khảo có liê

Trang 1

ĐẠI HỌC QUÓC GIA THÀNH PHÓ HÒ CHÍ MINHTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

PHAN THANH TUAN

XÂY DỰNG ỨNG DỤNG DỰ BÁO CHÁT LƯỢNG NƯỚC DƯỚI ĐÁT

DỰA VÀO CÔNG NGHỆ TRÍ TUỆ NHÂN TẠO

LUẬN VĂN THẠC SĨNGÀNH CÔNG NGHỆ THÔNG TIN

Mã số: 8480201

TP HÒ CHÍ MINH - năm 2023

Trang 2

ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINHTRUONG DAI HOC CONG NGHE THONG TIN

Phan Thanh Tuấn

XÂY DUNG UNG DỤNG DỰ BAO CHAT LƯỢNG NƯỚC DƯỚI DAT

DỰA VÀO CÔNG NGHE TRÍ TUỆ NHÂN TAO

LUẬN VĂN THẠC SĨNGÀNH CÔNG NGHỆ THÔNG TIN

Mã số: 8480201

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS DƯƠNG THỊ THÚY NGA

TS PHAN NAM LONG

TP HÒ CHÍ MINH - năm 2023

Trang 3

LỜI CAM ĐOAN

Luận văn thạc sĩ về "Xây dựng ứng dụng dự báo chất lượng nước dưới đất dựavào CN trí tuệ nhân tao” là kết quả NC của riêng tôi dựa trên các nguồn và tài liệu tham

khảo có liên quan trong lĩnh vực này.

Học viên

Phan Thanh Tuấn

Trang 5

CHƯƠNG 1: TONG QUAN VE DE TÀI 25cererrrrerrrriire 141.1 Giới thiệu đề tài 522222222+rt22222211122 2122211111 C11111 ccrtrrrrrrer 14

1.1.1 Giới thiệu asen có trong nước đưới đất -+2c+sc+ccxszesrr 14

CHƯƠNG 2: CƠ SỞ LÝ THUYÊTT evvveeeseeeeeeetrtretrtrrrrrii 19

2.1 Máy học và phân loại máy hoc? ¿-¿- + +52 5++++E‡£££srertzkerrrerrerkrrer 19

2.1.1 Linear Ñ€BT€SSIOT: c2 22.23 L2 2.21210111121210 01111 re 20

2.1.2 Random TEOT€SLL: ¿12t S1 111 1212111 12112121 11111 HH 21

2.1.3 Support Vector Machines (SM): - Street 23

2.2 Một số thư viện ::ccccccccccctttrvtrrrrrrrrrtrrrrrrrrrrrrrrrrrrrrrrirriiiiiiiiiiirrrrrrrrrr 23

2.2.1 Scikit-learm: 1 222123 L2 E221 1212 1212111012111 g0 ưếc 23

3.1 Bộ DL thu thập dùng cho máy hOC - 65+ S+S**EE+tererererrvservrkrvree 30

3.1.1 Nguồn cung cấp DL 22552c222vscrrerrteerrrrreerrrrrrrrrrerrr 30)

3.1.2 Mô tả bộ DL thu thập dùng cho máy học -‹ -‹ - OO.

3.2 Đánh giá và XD bộ DL chuẩn

CHƯƠNG 4: PHƯƠNG PHÁP THỰC NGHIỆM VÀ ĐÁNH GIÁ THUẬT

"90/92 ẽ.ẽ.ẽ 354.1 Các chỉ số đánh giá TT - -:c:c2ccvvreeerrtererrtterrerrrrrrerrrrrrerrre 354.2 Môi trường dùng cho huấn luyện máy học - ¿¿5c++225+zcsvcsscee 36

4.3 Phương pháp thực nghiệm và đánh giá TTT - ¿+ - + + scs£+zx+xseerxr+ 36

Trang 6

4.3.1 Kết quả thực nghiệm với TT SVM -.::ccvcccscccsccccccsec SO4.3.2 Kết quả thực nghiệm với TT MLR ¿+z++222++zz+22v+zcz+rz 374.3.3 Kết quả thực nghiệm với TT RE ¿-+z++222++z++22EE+ererrrreerrrr 384.3.4 Tổng hợp kết qua

CHUONG 5: XÂY DỰNG VÀ TRIEN KHAI UNG DUNG DỰ BAO CHAT

LƯỢNG NƯỚC DƯỚỚI ĐÁTT - 2£ EE+sdEEEE+edeEEEveseeEvvessrtrrvassrrrre 42

5.1 Mô hình ứng dụng dự báo CLNDEĐ - - - (5c St rên 42

5.2 Giao điện ứng dụng dự báo chat lượng Asen

CHƯƠNG 6: KÉT LUẬN VÀ HƯỚNG PHÁT TRIÊN

6.2 Hướng phát triỂn 222+++222222212221222211111111.22211111111 221111 xe 62TÀI LIEU THAM KHAO - 22 2e<22SeEEEYeedeEEE+eeeeEEvestrerrxesersrrsaerie 63

Trang 7

Danh sách các ký hiệu và chữ viết tắt

Ký hiệu Ý nghĩa

AI Artificial Intelligence: trí tuệ nhân tạo

MAE Mean Absolute Error: Sai số trung bình tuyệt đối

MSE Mean Squared Error: Sai số trung bình bình phương

RMSE Root Mean Squared Error: Sai số trung bình bình phương cănCLNDĐ Chất lượng nước dưới đất

hqtt Hồi quy tuyến tính

Trang 8

Ý nghĩa nội dung các học máy -: 2++++++2222Evxvrrrrrttrrrrrrrrrrrrre 20

DL mẫu với 569 vị trí khoan theo toa độ (X, Y) -::cc5s+cc++ecz+ 31

Công thức tính các chỉ số đánh giá mô hình máy học - 35

So sánh các TT dựa vào sai SỐ cu neo

Biểu đồ so sánh giá trị kiểm thử và dự báo giá trị asen - 40

Bang dự báo Asen dựa vào TT SVM che 4I

Các mẫu DL gồm Fe, Mn, pH, Hardness, Coliforms, EC - 41

Mô tả thông tin DL địa li ec - ¿+ 5 + S52 SE*E‡E‡EEEEEekekEErrkrkrkekrrree 44

Mô tả thông tin bảng DL các chất trong nước dưới đất . - 44

Trang 9

Danh sách các hình vẽ, đồ thị

Hình 1.1: Asen là một chất độc nguy hiểm -.-2 2¿¿222++++22EE+zvtttEEvrrrrrrrree 14Hình 1.2: Nguồn nước ban có chứa asen 2¿©++++2222++tt2EEEEvrtrrrvrrrrrrrree 14Hình 1.3: Bản đồ heatmap nước dưới đất tại Đắk Nông .-¿-©ccccccccccccce 16Hình 1.4: Ban đồ asen trong nước dưới dat tại Dak Nông dưới mức tiêu chuẩn 10

Hình 1.5: Ban đồ asen trong nước dưới dat tại Đắk Nông trên mức tiêu chuẩn 10 ppb 16Hình 2.1 Giải thích về khái niệm máy học là gì -¿¿++222+zzevcvvcceee 19

Hình 2.2: Phân loại máy hoc - ¿+ + + S++k#k‡ESEvEExEkrkerrkrkskrrrrrkrkrkrrrrrkrkrke 19

Hình 2.3: Trực quan về đường hồi quy tuyến tính và DL - -¿-¿5css+ 21

Hình 2.4: Mã giả của thuật toán Random Forest cscscssesesseessseeseseeeseseeeeeeneeseeseaees 2

Hình 2.5: Ví dụ về 4 cây con trong mô hình Random Forest 2 22Hình 2.6: Ví dụ về mặt cắt tối ưu trong Support Vector Machines . - 23

Hình 2.7: Trang chủ của Scikit-learn https://scikit-learn.OTg/ -. - ¿5-55 <s= 24

Hình 2.8: Xác định đối tượng thuộc loại nào.

Hình 2.9: Dự báo một thuộc tính có giá trị liên tục được liên kết với một đối tượng 25Hình 2.10: Tự động nhóm các đối tượng tương tự thành bộ - -«-«-«ec<c++ 25Hình 2.11: Giảm số lượng các biến ngẫu nhiên để xem xét . . -+ 26Hình 2.12: So sánh, xác nhận và lựa chọn các tham số và mô hình .-. 26Hình 2.13: Khai thác tính năng va chuân hóa -¿2222vvvvcc++tzvvvvvevcee 27

Hình 2.14: Trang chủ thư viện SciPy, website: SCipy.OTB -c-ccccccccrcererrsex 28

Hình 3.1: Khoan, lay mẫu và đo lường theo toa độ (X, y) - : -c:c5cccscccez 30Hình 3.2: Original, Scaled và Normalized DL của chất Fe -2 31Hình 3.3: Original, Scaled và Normalized DL của chất Mn - 3 ÍHình 3.4: Original, Scaled và Normalized DL của chất pH 32Hình 3.5: Original, Scaled và Normalized DL của chất Hardness 32Hình 3.6: Original, Scaled và Normalized DL của chat Coliforms

Hình 3.7: Original, Scaled va Normalized DL của chat EC 33Hinh 3.8: So dé phan bố Asen theo toa độ địa chất trong bộ dataset

Hình 3.9: Sơ đồ phân bổ các chat trong bộ dataset

Hình 4.1: Kết quả dự báo của TT SVM

Hình 4.2: Kết quả dự báo của TT MLR 2¿¿¿£222V2vvvvvettrEEErtrrrirrrrrrrrrerree 37Hình 4.3: Kết quả dự báo của TT RF 2222222c++2222EEEEvrrrtttrErrrtrrrrirrrrrrrrrree 38

Trang 10

Hình 4.4: Biểu đồ sai số của các TT

Hình 5.1: Hệ thống dự báo chất lượng nước dưới mm 42 Hình 5.2: Lưu dé TT dự báo chất lượng nước dưới đất -©+zz+22cz+cceee 43

Hình 5.3: Quy trình các bước xây dựng hệ thống dự báo chất lượng nước dưới đất 43

Hình 5.4: Trang chủ của hệ thống dự báo chất lượng nước : -= 46

Hình 5.5: Trang thông tin vị trí dự báo chất Asen trong nước - -= 46

Hình 5.6: Nong độ Asen tại huyện Cư lút -¿-2c:2222+++e22vv+rtevcrvrrrrrrrrrerre 47 Hình 5.7: Nong độ Asen tại huyện Đắk Glong -ccccc+22ccvvvverrrrrrrrrrrerree 47 Hình 5.8: Nong độ Asen tại huyện Đắk Song -2:-©2222+222v++ccvczvvrrrrrrercree 48 Hình 5.9: Nong độ Asen tại huyện Đắk Mil -2255ccccistrrrrrtrrrrrrrrrrrree 48 Hình 5.10: Nong độ Asen tại huyện Đắk R”Lấp -ccccc¿++2ccvvrverersrrrrrree 49 Hình 5.11: Nồng độ Asen tại huyện Gia Nghĩa - 2222c2222zccrvcrxecrrrrrrecree 49 Hình 5.12: Nồng độ Asen tại huyện Krông Nô 22-2222 22222ccrvcrverrrrrrrecree 50 Hình 5.13: Nồng độ Asen tại huyện Tuy Đức Hình 5.14: Giao diện tải dữ liệu Hình 5.15: Giao diện chọn file cần phân tích chất Asen Hình 5.16: Giao diện dữ liệu gốc với phần Asen đề trống Hình 5.17: Giao điện chất Asen đã được dự báo Hình 5.18: Lưu kết quả dự báo vào cơ sở dữ liệu ¿-5- 55+ s<cc+t+csceesr+ 53 Hình 5.19: Dự báo nồng độ Asen trung bình của huyện (Cư Jứt) . - 53

Hình 5.20: Điểm lay mẫu tại vị tri NN_CJ14 (Asen: 14.97) của huyện Cu lứt 54

Hình 5.21: Điểm lấy mẫu tại vị trí NN_CJ95 (Asen: 7.723) của huyện Cu jứt 54

Hình 5.22: Dự báo nồng độ Asen trung bình của huyện (Đắk Mil) - 54

Hình 5.23: Điểm lay mẫu tại vị trí NN_DM29 (Asen: 11.965) của huyện Dak Mil 55

Hình 5.24: Điểm lấy mẫu tại vị trí NN_DM21 (Asen: 5.997) của huyện Dak Mil .55

Hình 5.25: Dự báo nồng độ Asen trung bình của huyện (Krông Nô) - 55

Hình 5.26: Điểm lấy mẫu tại vị trí NN_KN66 (Asen: 20.297) của huyện Krông Nô 56

Hình 5.27: Điểm lấy mẫu tại vị trí NN_KN123 (Asen: 7.01) của huyện Krông No 56

Hình 5.28: Dự báo nồng độ Asen trung bình của huyện (Đắk Song) - 56

Hình 5.29: Điểm lấy mẫu tại vị trí NN_DS11 (Asen: 11.944) của huyện Đắk Song .57

Hình 5.30: Điểm lay mẫu tại vị tri NN_DS33 (Asen: 1.586) của huyện Đắk Song .57

Hình 5.31: Dự báo nồng độ Asen trung bình của huyện (Tuy Đức) - 57

Hình 5.32: Diém lay mẫu tại vị tri NN_TD12 (Asen: 1.534) của huyện Tuy Đức 58

10

Trang 11

Dự báo nồng độ Asen trung bình của huyện (Gia Nghia) 59Điểm lay mẫu tại vị trí NN_GN33 (Asen: 11.116) của huyện Gia Nghia 59Điểm lay mẫu tại vị trí NN_GN8 (Asen: 8.85) của huyện Gia Nghĩa 60

Dự báo nồng độ Asen trung bình của huyện (Đắk Glong) 60Điểm lấy mẫu tại vị trí NN_DG57 (Asen: 14.195) của huyện Đắk Glong 60Điểm lấy mẫu tại vị trí NN_DG35 (Asen: 3.644) của huyện Đắk Glong 61

11

Trang 12

MỞ DAU

Hiện nay, trong nguồn nước có nhiễm chất asen hiện đang là một vấn đề nghiêm

trọng Asen là một hợp chất độc hại xuất hiện có thể trong đất, nước và không khí Nhiều

khu vực nông thôn, nơi đó vẫn phụ thuộc vào các giếng đào dé lay nước uống hàng ngày

và các giếng này thường chứa nồng độ asen vượt quá mức cho phép

Ở các nước phát triển, các giới chức, nhà khoa học cố gắng dé giảm thiểu lượngasen trong nước dưới đất Các biện pháp bao gồm: đưa ra các tiêu chuân nước uống antoàn hơn, khuyến nghị kiểm soát mạnh mẽ hơn ô nhiễm do xử lý nước thải và dùng cácnhà máy xử lý nước dé loại bỏ asen khỏi nước uống Đó là lý do tôi thực hiện luận văn,luận văn này sẽ dùng DL tại khu vực tỉnh Đắk Nông

Trong phạm vi đề tài này, việc phát triển các ứng dụng dự báo CLNDĐ là một PPứng dung CN máy học dự báo vào HT quản lý CLNDD, cung cap thêm kênh tham khảo,nghiên cứu khoa học giúp đỡ hơn cho công việc quản lý và XD các chiến lược

Mục đích của đề tài, là ứng dụng CN học máy cho bài toán dự báo chỉ sé asen cótrong nước dưới đất dùng mô hình TT phù hợp Ngoài ra, cần đến các thư viện nâng cao

và công cụ chuyên sâu hỗ trợ học máy dùng cho công việc XD và phát triển hệ thống

Các bước thu thập DL sau:

e Xác định mục dich thu thập: vi trí, số lượng và tần suất các mẫu nước cần

thu thập.

© Thu thập mẫu nước dưới đất một cách hiệu quả: như khoan giéng, đào giéng

hoặc đào mương để lay mẫu nước đưới dat

© Chuẩn bị thiết bị và vật liệu: bao gồm ống lây mẫu, bình chứa mẫu, bơm

nước, dụng cụ khoan, vật liệu vệ sinh và bảo vệ mẫu

© Tiến hành lấy mẫu nước dưới đất: cần lay đủ sé lượng và mang đi đánh giá

© Vận chuyển mẫu nước về nơi thí nghiệm sẽ phân tích: bảo quản mẫu nước

trong điều kiện thích hợp để đạt được độ chính xác của quá trình phân tích

© Đánh giá kết quả phân tích: có quy chuẩn dé so sánh và đánh giá mức độ

trong nước dưới đất có nhiễm asen

12

Trang 13

© DL thu thập sẽ được hệ thống lưu trữ và phân tích: dé có thông số phù hợp

trên bộ DL huấn luyện sẽ áp dung các kỹ thuật học máy

Luận văn sẽ đưa ra một TT tổng quát cho dự báo CLNDD Kết quả dự báo đượchiển thị trực quan trong giao diện trang web đề người dùng truy cập và thuận tiện

13

Trang 14

CHƯƠNG 1: TONG QUAN VE DE TÀI

1.1 Giới thiệu đề tài

1.1.1 Giới thiệu asen có trong nước dưới đất

Asen hay còn gọi là As Là nguyên tố phô biến có thứ tự 20 trong vỏ trái đất, thứ

14 trong nước biển và thứ 12 trong cơ thể con người

‘wb thành hoàn G -w au en ng asen đất ngư

chyumun “duro smu donee

®@@®€@®@ “

ĐAIĐNG - RỤC count " BIỂN NỘN Lắc Sat êm và at spare

rp 0g sb tro tana ase

i ih sẽ tok ta sen mu on

Hình 1.1; Asen là một chất độc nguy hiểm

*_ Asen có ảnh hướng đến sức khóe như thế nào?

Asen là chất gây ô nhiễm lớn đứng đầu danh sách các chất gây hại mà con người

có thể tiếp xúc như uống nước, hít thở không khí, ăn các thực phẩm

14

Trang 15

Hiện nay, ô nhiễm asen là một trong những vấn đề môi trường đáng lo ngại nhấttrên thế giới, hàng triệu người có thé bị ảnh hưởng Mức độ asen vượt ngưỡng 10ppb

theo WHO & BYT trong nước sinh hoạt gây lo ngại lớn.

Tiếp xúc với nước có chứa asen thông qua thực phẩm hoặc nước uống có thể gâyhại nghiêm trọng cho hệ thống tiêu hóa, tim mạch và thần kinh trung ương của con người

Y Các triệu chứng phổ biến:

e = Triệu chứng da: Nồi mẫn, đỏ, ngứa, hoặc bong tróc da Có thể xuất hiện vết

bam tím hoặc sưng trên da Da có thé trở nên khô và kháng kháng vi khuẩn.e_ Triệu chứng hô hấp: Ho, khan tiếng, hoặc khó thở Có thé gây ra viêm phổi,

viêm mũi, hoặc viêm xoang.

e _ Triệu chứng tiêu hóa: Buôn ói, tiêu chảy hoặc táo bón Có thé gây viêm loét

lạ dày hoặc ruột.

e Triệu chứng thần kinh: Mat ngủ, mệt mỏi, giảm năng lượng, chóng mặt, đau

đầu, chứng mất trí, tụt huyết ap, và run chân tay.

e Triệu chứng tim mạch: Nhịp tim không đều, nhanh hoặc chậm, và áp lực máu

tăng.

e = Triệu chứng thận: Tang ure va creatinine trong mau, gây ra tình trạng suy thận.

© _ Triệu chứng ung thư: tiếp xúc asen lâu dài có thé tăng nguy cơ mắc bệnh ung

thư, như ung thư (da, phổi, bàng quang và gan)

CLNDB tại các vùng đổi núi ở Việt Nam chứa asen ở các mức độ khác nhau Nồng

độ asen trong nước ngầm ở nhiều vùng miền núi Việt Nam vượt tiêu chuẩn cho phép của

WHO & BYT.

Do đó, việc dự báo nồng độ asen trong nước ngầm ở khu vực miễn núi có ý nghĩahết sức quan trọng nhằm đảm bảo an toàn sức khỏe cộng đồng và bảo vệ nguồn nước

15

Trang 16

Bind® Voth hơmfarpe

Hình 1.5: Ban dé asen trong nước dưới đất tai Đắk Nông trên mức tiêu chuẩn 10 ppb

16

Trang 17

1.1.2 Mục tiêu

Mục tiêu của luận văn này là XD một ứng dụng dự báo CLNDĐ theo không gian

khi dùng các mẫu nước từ những lỗ khoan tại khu vực tỉnh Đắk Nông

1.1.3 Đối tượng và phạm vi

> Đối tượng:

e Thu thập DL: bộ DL các chất đặc trưng như: Fe, Mn, pH, hardness,

Coliforms, EC được lấy mẫu từ vị trí khoan theo không gian

Hardness (độ cứng của nước) là một chỉ số đo lường mức độ đề cập củacác ion kim loại kiềm và kiềm thổ trong nước

EC (Electrical Conductivity - độ dẫn điện) là một đại lượng đo lường khả

năng dẫn điện của nước Nước có EC cao thường sẽ thấy mức độ ô nhiễm

XD mô hình dự báo: dùng học máy và mô hình tại các vị trí khác nhau.

Hiển thị DL: Hiện thị kết quả dưới dạng biểu đồ

Cập nhật DL: Cập nhật thông tin mới về asen trong nước

> Phạm vi: trên địa bàn 8 huyện thuộc tỉnh Đắk Nông

17

Trang 18

1.2 Tổng quan tình hình

1.2.1 Giới thiệu chung

Mặc dù đã có nhiều NC về ô nhiễm asen trong nguồn nước ở nước ta, nhưng chođến nay thì hệ thống dự báo chất lượng asen chưa được triển khai thực tế

1.2.2 Các NC trong và ngoài nước

e NC đánh giá nồng độ As, Hg và Pb trong nước tại khu vực nông thôn Miền Trung(2019) được thực hiện bởi Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà

Nội.

e NC đánh giá nồng độ As trong nước tại vùng Tây Bắc Việt Nam (2019) đượcthực hiện bởi Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội và Trường

Đại học Sư phạm Hà Nội.

e Đánh giá sự phân bố và tiềm ân ô nhiễm asen trong nước dưới đất tại tỉnh Hà

Tĩnh (2020) được thực hiện bởi Viện Công nghệ Sinh học và Thực phẩm, Trường Đại

học Bách khoa Hà Nội.

e Global groundwater quality with special reference to arsenic contamination: a

review (2019): đưa ra bản đồ toàn cầu về CLNDD và đánh giá tình hình 6 nhiễm asentrên toàn thế giới

® Arsenic contamination in groundwater: a global perspective with emphasis on

the Asian scenario (2020): ô nhiễm asen trong nước dưới đất trên toàn thế giới và đặcbiệt là tại châu Á

® Arsenic in groundwater: current status and challenges for drinking water

provision in rural areas (2021): van đề 6 nhiễm asen trong nước dưới đất và thách thứctrong việc cung cấp nước uống cho các khu vực nông thôn trên toàn thế giới

® Groundwater arsenic contamination and associated health risks in India: a review

(2021): đánh giá tinh hình 6 nhiễm asen trong nước dưới đất tại An Độ và các rủi ro liênquan đến sức khỏe

18

Trang 19

CHƯƠNG 2: CƠ SỞ LÝ THUYET

2.1 Máy học và phân loại máy học?

Machine Learning (máy học) là một nhánh của trí tuệ nhân tạo (AI) và khoa họcmáy tính cung cấp khả năng cho các hệ thống tự "học" từ dữ liệu mà không cần lập trình

rõ ràng Máy học tập trung vào việc sử dụng DL và TT dé bắt chước cách con người học

và cải thiện độ chính xác theo thời gian.

te ©te Cciectming

Hình 2.1 Giải thích về khái niệm máy học là gì

Phân loại máy học: cơ bản được phân loại thành học máy giám sát hoặc học may không giám sát.

Học có giêm sat Học không giõm sat

Supervised Learning Unsupervised Learning

Phan Loại

machine Learning

Hình 2.2: Phân loại máy học

19

Trang 20

Tên máy học Định nghĩa

Học có giám Học máy có thê áp dụng mọi thứ nó đã học được trong quá khứ

sát (DL quá khứ) vào DL mới dé dự báo các sự kiện trong tương

lai Nói cách khác, học có giám sát sử dụng các bộ DL được gannhãn dé huấn luyện các TT nhằm phân loại DL hoặc dự báo kếtquả chính xác Nếu thành công, mô hình sẽ được sử dụng trong

các trường hợp tương tự.

Học không Đối với DL không rõ nguồn góc, trường hợp này máy không cógiám sát chìa khóa dé trả lời mà phải phân tích DL, hình ảnh và tìm mối

tương quan dé đưa ra câu trả lời chính xác Nói cách khác, các

TT nay tự động phát hiện các mẫu hoặc nhóm DL an mà khôngcần sự can thiệp của con người

Học bán giám Trong học máy bán giám sát, máy nhận cả hai loại DL đầu vào

sát được gắn nhãn và không được gắn nhãn Điều này áp dụng khi

có quá nhiều DL hoặc quá nhiều thông tin đề sắp Xếp Lúc này,

các đáp án được phân loại theo thông tin, hệ thống dé xuất đáp

án và xây dựng mô hình chung.

Học củng cố - Máy học thực hiện một tập hợp các hoạt động và quy tắc đượcHọc tăng phê duyệt trước và hoạt động theo các khuôn khổ hiện có Máy

cường học phân tích và giám sát kết quả hoạt động, đồng thời tự động

cập nhật đề có kết quả tốt hơn

Bang 2.1 Y nghĩa nội dung các học máy

Tuy nhiên ở giới hạn dé án các TT dùng chỉ tập trung ở học có giám sát nên tôi tậptrung giới thiệu các TT phổ biến liên quan tới dé tài, sau đây là các TT phô biến của học

có giám sát được dùng trong đề tài của tôi

Trang 21

Do tính tuyến tính của TT hqtt, giải quyết mqh tuyến tính giữa các bpt và bdl, môhình tạo ra một đường thang trong không gian đặc trưng Đường thang này thể hiện mqhgiữa các biến và cách bpt thay đồi dựa trên giá trị của bdl Mô hình sẽ có gắng điều chỉnh

độ nghiêng của đường thang để tìm được mqh tốt nhất giữa các biến Hình 2.1 là mộtminh họa đồ thị của mô hình hqtt, trong đó đường thẳng biểu diễn mqh tuyến tính giữacác biến thông qua các điểm DL được thu thập trong quá khứ

Y

Đường hồi quy

tuyến tính

Biến phụ thuộc (Biến mục tiêu)

Biến độc lập (biến dự đoán) X

Hình 2.3: Trực quan về đường hồi quy tuyến tính và DL

Các giá trị cho các biến x và y là tập DL huấn luyện dé biểu diễn mô hình hqtt

Ap dung vao thuc té dự báo như: giá nhà đất, giá chứng khoán, điểm số của học

sinh, cũng có thể dự báo khí tượng

Trang 22

7 def fit(self, X, y):

8 n_samples, n_features = X.shape

20 predictions = np.zeros((X.shape[0], self.n_estimators))

21 for i, tree in enumerate(self.estimators):

22 predictions[:, i] = tree.predict(X)

23 return np.mean(predictions, axis=1)

Hình 2.4: Mã giả cua thuật toán Random Forest

Nếu chỉ dùng một cây quyết định và mục này rơi vào trường hợp của cây thứ ba,

dự đoán sẽ cho kết quả là 0 Tuy nhiên, nếu ta xem xét giá trị trung bình từ bốn cây quyết định, dự đoán sẽ là 1 Điều này là nguyên tắc co bản của TT Random Forest trong việc

giảm thiêu sai sót.

Prediction = 1 Prediction = 1 Pradiction = 0 Prediction = 1

Hình 2.5: Vi dụ về 4 cây con trong mô hình Random Forest

22

Trang 23

2.1.3 Support Vector Machines (SVM):

Thuật toán SVM là một TT phan loại có giám sát được dùng dé phân loại các đối tượng dựa trên các tính năng của chúng SVM dùng một hàm hồi quy để tạo ra một đường phân cách (hyperplane) giữa hai nhóm đối tượng Đường phân cách này được tìm thấy như tối đa hóa khoảng cách giữa các đối tượng và đường phân cách Khi áp dụng,

TT SVM có thê thay đổi hiệu suất với mô hình phân loại bằng cách tối ưu hóa các đối

tượng và đặc trưng tương ứng.

Một ví dụ trong hình 2.4 có hai tập hình tròn và hình vuông, SVM sẽ lựa chọn tìm

đường thắng nằm giữa hai tập đối tượng, sao cho khoảng cách từ các đối tượng đến đường phân cách là lớn nhất.

2.2 Một số thư viện

2.2.1 Scikit-learn:

Nội dung giới thiệu về chức năng của Scikit-learn được thể hiện tại trang chủ của

nó (Hình 2.5) tóm tắt lại như sau: “Scikit-learn là một thư viện mã nguồn mở mạnh mẽ

và da chức năng, dùng dé phân tích và du báo DL Thư viện này được XD trên cơ sở của các thư viện phổ biến như NumPy, SciPy và Matplotlib, đem đến cho người dùng một số

công cụ và TT da dang trong lĩnh vực học may.”

23

Trang 24

bean Install User Guide API Examples Community More ~ Go

° ° S e and efficient tools for predictive

scikit-learn ety ¿

¢ Accessible to everybody, and reusable

in various contexts

-s Built on Num

Machine Learning in Python

Hình 2.7: Trang chu cua Scikit-learn https://scikit-learn.org/.

Thông qua giới thiệu Scikit-learn có thé được dùng trong các công việc như: Phan loại, Hồi quy, Phân cụm, Giam kích thước, Lựa chọn mô hình,

* Classification — Phân loại

¢ Ung dung: Dùng dé phân loại các đối tượng như phân loa thư rác, phân loại

hình ảnh cá thể.

« - Thuật toán: SVM, Nearest Neighbors, Random Forest

+ Regression — Hồi quy

« Ung dụng: Dự báo phản ứng thuốc, dự đoán giá cổ phiếu, dự đoán chất lượng.

e - Thuật toán: SVM, k Nearest Neighbors, Random Forest

24

Trang 25

¢ Ung dụng: Phân khúc khách hàng, kết quả thử nghiệm nhóm

e _ Thuật toán: k-Means, spectral clustering, mean-shift

25

Trang 26

+ Dimensionality reduction — Giảm kích thước

- Ung dụng: Trực quan hóa, tăng hiệu qua

e - Thuật toán: PCA, feature selection, non-negative matrix factorization

Hình 2.11: Giảm số lượng các biến ngẫu nhiên dé xem xét.

+ Model selection — Lựa chọn mô hình

¢ Ung dụng: Cải thiện độ chính xác thông qua điều chỉnh tham số

e _ Thuật toán: grid search, cross validation, metrics

1.00

=== AUC (train) , — AUC (test)

Trang 27

+ Preprocessing — Tiền xứ lý

« Ung dụng: Chuyên đổi DL đầu vào như văn bản dé dùng với các thuật toán máy

học.

« _ Thuật toán: preprocessing, feature extraction

Input data strategy='uniform' strategy='quantile' strategy='kmeans'

Hình 2.13: Khai thác tinh năng và chuẩn hóa.

2.2.2 SciPy:

Nội dung về chức năng của SciPy được thê hiện tại trang chủ của nó (Hình 2.12) với nội dung được hiểu như sau “SciPy là một thư viện mã nguon mở mạnh mẽ cho Python, cung cấp nhiều TT và công cụ cho các tác vụ toi wu hóa, tích hợp, nội suy, giá trị riêng, thong kê và nhiêu loại bài toán khác Các TT và cấu trúc DL được cung cấp bởi SciPy được dùng rộng rãi trên toàn thé giới Ngoài ra, SciPy tích hợp các triển khai toi tu hóa cao được viết bằng ngôn ngữ cấp thấp như Fortran, C và C++ Diéu này giúp SciPy tận dụng sự linh hoạt của Python cùng với tốc độ biên dịch mã Với cú pháp cap cao, SciPy dễ dàng tiếp cận và hiệu quả cho các lập trình viên, không phân biệt nên tảng hoặc trình độ kinh nghiệm Thư viện này được phân phối dưới giấy phép BSD tự do và được phát triển và duy trì công khai trên GitHub, nhờ sự sẻ chia của cộng đồng da dạng

hơn.

27

Trang 28

Install Documentation Community AboutUs Contribute

‹ C i Py Fundamental algorithms for scientific computing in Python

FUNDAMENTAL ALGORITHMS BROADLY APPLICABLE FOUNDATIONAL

SciPy provides algorithms for optimization, The algorithms and data structures provided by Extends NumPy providing additional tools for

integration, interpolation, eigenvalue problems, SciPy are broadly applicable across domains array computing and provides specialized data

algebraic equations, differential equations, structures, such as sparse matrices and

statistics and many other classes of problems k-dimensional trees.

PERFORMANT EASY TO USE OPEN SOURCE

SciPy wraps highly-optimized implementations SciPy's high level syntax makes it accessible and Distributed under a liberal BSD license, SciPy is

written in low-level languages like Fortran, C, and productive for programmers from any developed and maintained publicly on GitHub by a

C++ Enjoy the flexibility of Python with the speed background or experience level vibrant, responsive, and diverse community.

of compiled code.

Hình 2.14: Trang chu thư viện SciPy, website: scipy.org

SciPy là một thu viện mạnh mẽ và quan trong trong Python Dựa trên NumPy, thu

viện truy cập của Python cho các mang số học và mang đa chiều SciPy bổ sung và mở rộng các chức năng của NumPy, mang đến một bộ công cụ mạnh mẽ dé thao tác các tác

vụ khó trong lĩnh vực máy học và tính toán số Tích hợp SciPy cho phép người dùng học hỏi các tính năng và TT phong phú này một cách hiệu quả, đồng thời áp dụng chúng vào các dự án máy học và tính toán số của họ.

Một số tính năng chính của SciPy trong lĩnh vực máy học:

- _ Tích hợp số (Integration): SciPy cung cấp các kỹ thuật tích phân số dé tính các phép

tính gần đúng của tích phân Điều này giúp giải quyết vấn đề tích hợp với các TT học

máy.

- _ Tối wu hóa (Optimization): SciPy cung cấp TT tối ưu hóa dé tìm giá trị tối ưu của

hàm mục tiêu Các TT này có thể được dùng để tìm siêu tham số tốt nhất cho mô

28

Trang 29

hình máy học của bạn hoặc để giải quyết các vấn đề tối ưu hóa khác trong quá trìnhđào tạo mô hình và tối ưu hóa mô hình.

- Xử lý tin hiệu (Signal Processing): SciPy cung cấp các công cụ xử lý tín hiệu như

loc bằng bộ lọc FIR và IIR, biến đổi Fourier và Laplace Điều này hữu ích cho quátrình tiền xử lý DL và trích xuất tính năng từ DL tín hiệu như âm thanh và video

- Đại số tuyến tính (Linear Algebra): SciPy cung cấp các ham và công cụ dé làm các

phép tính đại số tuyến tính như ma trận, phân tích giá trị riêng Điều này hữu íchtrong nhiều TT máy học như PCA, hatt và phân loại yếu tó

-_ Xử lý ảnh (Image Processing): SciPy có các công cụ thao tác với ảnh như biến đồi

màu sắc, lọc ảnh, phân đoạn và xử lý biên Điều này hữu ích cho quá trình tiền xử lý

và phân tích ảnh trong thị giác máy tính và nhận dạng hình ảnh.

29

Trang 30

CHƯƠNG 3: THU THẬP VÀ XÂY DỰNG BỘ DỮ LIỆU

3.1 Bộ DL thu thập dùng cho máy học

3.1.1 Nguồn cung cấp DL

Bộ DL được thu thập bằng cách khoan giếng và lấy mẫu nước Kết quả phân tíchnồng độ Asen được phân tích bởi chuyên gia tại Đắk Nông hình ảnh chụp quá trình khoangiếng lầy mẫu được thực hiện trong hình 3.1

Hình 3.1: Khoan, lấy mẫu và đo lường theo toa độ (x, y)

3.1.2 Mô tả bộ DL thu thập dùng cho máy học

* Bang DL trên Excel, để dự báo Asen trongnước dưới đất trên địa bàn Đắk Nông

với 569 lượt mẫu (tương ứng 569 lỗ khoan) theo không gian

30

Trang 31

Thông số cần dự báo Factor 1 Factor2 Factor3 Factor4 Factor 5 Factor 6 Toạ độ

TT |ID As Fe Mn pH Hardness |Coliforms |EC x Y

1ỊNN_CJ70 17.75) 0.0546) 0.011 7.3 179| 70) 503) 431904.3| 1401732 2jNN_DG48 4.934) 0.0174 0.031 6.5 28) 70) 120) 424566.3| 1317294 3|NN_DM45 4.205 7.984) 0.21 5.8 155| 2300) 420) 420692.5| 1385554 4/NN_DG4 2.717 0.433 0.323 6 25) 40) 50) 429745.7| 1322041

5|NN_GN43 2.189] 0.004) 0.001 6.8 19 21 30| 411150.3| 1331056

6|NN_DM6 10.819) 0.1335) 0.025 6.5 119| 40) 280) 417416.9| 1377116 565/NN_KN3 10.051, 0.0183| 0.0021 6.4 77| 0.1 250) 430347.7| 1384012 566/NN_KN57 1153| 0.0041 0.001 6.1 110| 0.1 290) 423896.2| 1381197

DL được lưu trữ dưới dạng định dang CSV va các bản ghi theo không gian (vi trí

Bộ DL chuẩn hoá sẽ có 569 dòng dữ liệu

Original Data Scaled data Normalized data

Original Data Scaled data Normalized data

Trang 32

Original Data Scaled data Normalized data

Original Data Scaled data Normalized data

Hinh 3.5: Original, Scaled va Normalized DL cua chat Hardness

Original Data Scaled data Normalized data

Trang 33

Original Data Scaled data Normalized data

20 0.0035

Hình 3.7: Original, Scaled va Normalized DL của chat EC

Dé kiểm thử với các TT may học dùng trong luận văn này chia bộ DL đã chuẩn hóathành hai phần:

e Phan một: 70% dữ liệu được sử dụng làm dữ liệu huấn luyện

e Phan hai: 30% dit liệu được sử dụng làm dit liệu kiểm thử.

Tổng hợp từ những DL thu thập được, DL đầu vào cho các TT máy học được chuẩn

Trang 35

CHƯƠNG 4: PHƯƠNG PHÁP THỰC NGHIỆM VÀ ĐÁNH GIÁ

THUẬT TOÁN MÁY HỌC

4.1 Các chỉ số đánh giá TT

Luận văn này dùng PP thống kê để đánh giá hiệu quả của các mô hình dự báo CLNDĐ Đánh giá được thực hiện bằng cách so sánh giá trị du báo với giá trị thực dé đo

độ chính xác của các TT học máy trên một tập DL.

Các chỉ số đánh giá được dùng trong luận văn:

Trong đó:

Y,: giá trị thực tế thời điểm t

Y,: giá trị dự báo thời điểm t (ứng với quan sat t)

Et! sai số dự báo tại thời diém t

Bảng 4.1: Công thức tính các chỉ số đánh giá mô hình máy học.

MAE ở công thức (4.1) khoảng mà giá tri (0, +00) Đề đo lường sự chênh lệch giữa

mô hình dự báo và tập DL kiểm thử Chỉ số MAE thường được sử dụng để tính toán độ tin cậy của các mô hình dự đoán Phép đo số liệu càng nhỏ, mô hình học máy càng chính

xác và đáng tin cậy.

35

Trang 36

MSE ở công thức (4.2), một phép đo sự khác biệt giữa các giá trị dự báo và thực

tế MSE càng nhỏ, mô hình dự báo càng gần với DL thực.

RMSE ở công thức (4.3) và giá trị khoảng (0, +00) Được dùng đánh giá các mô

hình dự báo RMSE là giá trị thé hiện độ lớn trung bình của sai số của dự báo.

Cac giá tri MAE va RMSE có gia tri bang 0 khi va chi khi giá trị nhiệt độ dự bao được bằng với giá trị nhiệt độ quan trắc tại mọi thời điểm trong không gian và thời gian 4.2 Môi trường dùng cho huấn luyện máy học

Máy tính được dùng để thực hiện huấn luyện cho các mô hình TT máy hoc là thiết bị laptop HP với thông số cấu hình như sau:

e CPU: Intel(R) Core(TM) i7-8550U CPU @ 1.80GHz 1.99 GHz

e RAM: 16.0 GB

e SSD: 256 GB

e GPU: Intel (R) UHD Graphics 620

e OS: Windows 10 Pro 64-bit (10.0, Build 19044)

Phan mềm Visual Studio Code (VSC) là một môi trường phat triển tích hợp (IDE) được sử dụng đề xây dựng ứng dụng phần mềm Với dung lượng nhỏ gọn, còn

hỗ trợ nhiều gói phát triển phần mềm gồm Python, JavaScript và nhiều ngôn ngữ lập

trình khác.

4.3 Phương pháp thực nghiệm và đánh giá TT

4.3.1 Kết quả thực nghiệm với TT SVM

° MAE - Mean absolute error: 0.23

° MSE - Mean squared error: 0.24

° RMSE - Root mean squared error: 0.49

36

Trang 37

Biểu đồ so sánh kết quả kiểm thử và kết quả dự báo

Hình 4.1: Kết quả dự báo của TT SVM

4.3.2 Kết quả thực nghiệm với TT MLR

° MAE - Mean absolute error: 2.10

° MSE - Mean squared error: 7.67

° RMSE - Root mean squared error: 2.77

Biểu đồ so sánh kết quả kiểm thử và kết quả dự báo

19.31 19.43

17.89

7.38 15.6 511

B Giá trị kiểm thử Dy báo giá trị Asen

Hình 4.2: Kết quả dự báo của TT MLR

37

Trang 38

4.3.3 Kết quả thực nghiệm với TT RE

° MAE - Mean absolute error: 0.43

° MSE - Mean squared error: 1.03

° RMSE - Root mean squared error: 1.01

Biểu đồ so sánh kết quả kiểm thử va kết qua dự báo

m Giá trị kiêm thử m Dự báo giá trị Asen

Hình 4.3: Kêt quả dự báo cua TT RF

ˆ h ? F2 a F2

Độ sai số của các thuật toán

MAE m MSE m RMSE

Hình 4.4: Biểu đồ sai số của các TT

Thuật toán SVM (Support Vector Machine) hồi qui tuyến tính dựa vào các giá trị sai số như MAE, RMSE Khi các giá trị sai số này càng nhỏ, dự báo của mô hình càng gần giá trị thực tế, cho kết quả dự báo chính xác và đáng tin cậy hơn.

38

Trang 39

TT MAE MSE RMSE

SVM 0.23 0.24 0.49

MLR 2.10 7.67 2.77

RF 0.43 1.03 1.01

Bang 4.2: So sánh các TT dựa vào sai số

Hiệu suất cao trong các bài toán phân loại: SVM đã được chứng minh là một trong những thuật toán phân loại mạnh mẽ và hiệu quả Xử lý tốt các bài toán phân loại phức tạp, bao gôm cả việc dự báo nông độ asen trong nước dựa trên nhiêu yếu tô ảnh

hưởng.

Hỗ trợ dữ liệu không đông nhất và nhiễu: SVM cô khả năng xử lý đữ liệu như vậy ma van tạo ra một mô hinh dự báo chính xác và 6n định.

Tinh ôn định và khả năng tổng quát hóa: SVM cô tính ôn định cao và kha năng

tông quát hóa tốt trên dik liệu mới Điều này có nghĩa là mô hình SVM được huấn luyện

có khả năng dự bao chất lượng nước asen không chỉ trên tập dữ liệu huấn luyện ma còn

trên đữ liệu mới chưa từng thấy trước đó Điều này là rất quan trọng trong thực tế, vì

chúng ta muốn có một mô hỉnh dự báo chat lượng nước asen ma có thé ap dung cho

nhiều nguôn nước khác nhau.

Có khả năng xử ly dit liệu lớn: SVM có thé được áp dụng cho các tập dữ liệu lớn

mà không gặp van dé về hiệu suất và bộ nhớ Điều này cho phép áp dụng SVM trong các ứng dụng thực tế, nơi việc dự báo nông độ asen trong nước có thé yêu câu xử lý lượng

di liệu lớn từ nhiều nguồn nước.

Có lý thuyết tốt: SVM cô ly thuyết co bản rất mạnh và được réng rãi trong lĩnh

vực học máy Nó đã được kiểm chứng va có nhiều bang ching về hiệu suất va độ tin

cậy của nó trong nhiêu ứng dụng thực tế.

4.3.4 Tổng hợp kết quả

Qua các lần thực nghiệm bang các TT máy học khác nhau được dùng trong phạm

vi luận văn này, các kết qua cho thấy bộ DL CLNDD phù hợp và khả thi với PP áp dung

mô hình máy học đề dự báo chất lượng Asen.

39

Trang 40

Thuật Biểu đồ so sánh kết quả kiểm thử và kết quả dựbáo Áp dụng

Ngày đăng: 08/11/2024, 17:20

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w