Van dé áp dụng các mô hình theo chuỗi thời gian có những thách thức trongviệc tìm được chính xác kích thước của cửa số dữ liệu, đồng thời cũng cần xác địnhkhoảng thời gian dự báo và số c
Trang 1ĐẠI HỌC QUOC GIA TP HCM TRUONG ĐẠI HỌC CÔNG NGHỆ THONG TIN
HUỲNH ĐỨC TÂM
PHAN TÍCH DỰ BAO ĐỘ MAN NƯỚC THÔ
TRƯỚC XỬ LÝ BẰNG MÔ HÌNH DỰ BÁO
Trang 2LỜI CAM ĐOAN
Tôi xin cam đoan những nội dung được trình bày trong luận văn “Phân tích
dự báo độ mặn nước thô trước xử lý bằng mô hình dự báo theo chuỗi thời gian” là
một thành quả phân tích thực hiện nghiên cứu và thực nghiệm của chính bản thân.
Trong quá trình thực hiện và làm luận văn này có sử dụng và trích dẫn các công trình khoa học từ nhiều nguồn lược khảo nhất định, các thông tin lược khảo đều được tôi viện dẫn và ghi rõ nguồn gốc tài liệu.
Trong luận văn không có bắt kỳ các thông tin hay nguồn tài liệu nghiên cứu
từ các nhà khoa học khác được viện dẫn trong lúc thực hiện đề tài này khi không có ghi rõ trích dẫn theo đúng các quy định đã ban hành của trường.
TP HCM, ngày 27 tháng 12 năm 2023
Tác giả
Huỳnh Đức Tâm
Trang 3LỜI CẢM ƠN
Lời đầu tiên bản thân tôi xin gửi lời chân thành cảm ơn đến thầy hướng dẫn
là TS Đỗ Trọng Hợp đã hướng dẫn tôi tận tình trong thời gian hoàn thành luận văn
cao học tại trường.
Tôi cũng chân thành biết ơn đến các quý thầy cô trong Phòng Đào tạo SauĐại học trường Đại học Công nghệ Thông tin đã hỗ trợ cũng như cung cấp cho tôinhững tri thức, kiến thức, và kinh nghiệm quý báu cho tôi trong suốt quá trình nghiên
cứu học tập ở trường.
Đồng thời, tôi cũng muốn gởi những lời cảm ơn chân thành tới gia đình tôi
và các bạn bè tôi đã hỗ trợ tôi trong suốt toàn bộ thời gian học tập cũng như nghiên
cứu thực nghiệm đê hoàn thiện nội dung luận văn này.
Vì thời gian thực hiện và cũng như kiến thức bản thân tôi còn có nhiều hạnchế cho nên trong luận văn không thể tránh được các thiếu sót trong quá trình thựchiện làm luận văn ở trường Tôi cũng cầu mong được nhận những góp ý và lời chỉdạy quý báu của quý thầy cô
Trang 4MỤC LỤC
IEURv 0 0n 4 3
LO] CAM ON nh o3 4
Danh mục các ky hiệu và chữ VIẾ ẤT, TH TH 2101111111121 1111111511111 ctee 8
Danh muc bang 1e Ố 9
Danh mục hình vẽ, đồ thi c.e.ccceccecceccscssseccesecssesecsecsessesecsecsecersussucsecersessecaearearencaee 10 60100 14 CHƯƠNG 1 TONG QUAN -5555c 22tr l6
In): 8n 5<4 ÒỎ l6
1.2 Mục tiêu của nghiÊn CỨU - - -c- c1 1151 58 11 1 919 1911 1 HH nh HH ngư 17
1.3 Đối tượng nghiên cứu -.2-+¿+22+2++22E++2EE+E2EX22731271E2711 271x121 2.cee 17
1.4 Pham 000i 6120) 01071565 18
1.5 Cấu trúc luận văn ¿-c- c- kEx+Ek+EEEEEkSEkEEESEEE1EE1E111111111711111517111 111 1 crxk, 19
CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 222225: 222vveccrrrrrrrrrkereed 20
2.1 Tổng quan về trí tuệ nhân tạO 2: 2+2+++2E++2E+EtEEE+SEEEtEEEEtEEEverkerrrkrerrree 20
P n4 00 .ồ.Ố.Ố S 20
2.1.2 0 21
2.1.3 Quy trimh May NOC eee eseeseeceeeeseeseeseeesecseeseeeeseeseeaeeceecseeseeseeeeeeseesaesaeee 21
2.1.4 Cac phương pháp may hoc (Machine Learning) - 5s s<+s+c++ 25 2.1.5 Ứng dụng của máy học và học sâu - 5 kg ng 27 2.1.6 Những thuận lợi và thách thức của máy hỌC -¿- ++« + £+xc+vcsxrseee 27
2.2 Cac m6 hinh 6 0i 2n 28
"in 28
Trang 52.2.2 Mang no-ron Nhan ta0 0 29
2.2.3 Mạng no ron tích chập [ 1 3] - ¿6k k£+k+xE+EEEEEEk+ekskkskkskrsrsereerke 32 2.2.4 Long short-term memory [ Ï)] ¿<6 + +2 E*3E£E#kEekEekeeEekEekrskrserke 34 2.2.5 Gated recurrent unit (GRU) [13] - - ¿<2 + £**£EE+vEE+eeeeeeseeseeee 37 2.2.6 Temporal Convolutional Networks (TCN) [16] «c<«c<<<sc<e 38 2.3 So sánh các mô hình máy học trong dự báo theo chuỗi thời gian 40
2.4 Bài toán về dự báo độ mặn theo chuỗi thời gian và các nghiên cứu liên quan 42
2.4.1 Phân tích dự báo độ mặn nước sông Chao Phraya - Thái Lan 43
2.4.2 Phân tích dự báo độ mặn nước sông Qiantang - Trung Quốc 43
2.4.3 Phân tích dự báo chất lượng nước sông Al-Kufa — Iraq . :-s 44 2.4.4 Phân tích dự báo độ mặn nước sông Pinggang — Trung Quốc 44
2.4.5 Phân tích dự báo độ chất lượng nước sông Hor Rood - lran 45
CHƯƠNG 3 THỰC NGHIEM - 5222 222 2xeErterrrrerrrrerrree 47 3.1 Môi trường thực nghiệm và các bộ dữ liệu - 5- ssx++x+++v£sveserseexe 47 3.2 Quy trình tiến hành thực nghiệm -2- ¿2+ E££EE£EEE£EEE£EEESEEEEErrrerrkrrrkee 41 3.2.1 Tiền xử lý đữ liệu - +2 z+EE<SEE2 E2 121127112715 271211111 11.11 xe 48 3.2.2 Tạo dữ liệu trung 8Ø141 - s9 TT HH ng HH nếp 50 3.2.3 Chia dit lIỆU - - + + TS TH HH TH TH TH TT HH Hit 51 3.2.4 Chuan hóa bộ dữ liệu -. 22-©2¿22S+2EE+2EEESEEEEEEEEEEEEEEEEEErerkrrrrkree 51 3.2.5 Huấn luyện dữ liệu ¿-©2¿2+<+EE2EEC2EEE2E117112711271211111 021111 1e 53 3.2.6 Đánh giá hiệu suat cc.ccccccsssesssesssesssesssessssssssssscssesssecsssesssesesssecssesssesseeeseessecs 53 3.3 Kết quả thực nghiệm -2¿- 2£ ©2S£+2<+2EEEEEE1221221711711271 11.21121111 1y 55 3.3.1 Kết qua quá trình thực nghiệm so sánh theo kích thước cửa sé dữ liéu 55
3.3.2 Kết qua thực nghiệm so sánh theo khoảng thời gian dự báo 65
Trang 63.3.3 Kết quả thực nghiệm tiến hành so sánh theo số lượng biến -c 76
3.3.4 Kết qua thực nghiệm của các mô hình 2-2 ©z++z+x++zx++xxecxeez 77
CHƯƠNG 4 KET LUẬN VÀ HUONG PHAT TRIÉN 2-5¿ 79
AL K6t nh ceccccecsscsscsssesesesssvssscsscsersavssvesussussssssvcsusssesatsssesussassassassssssssateaveasees 79
4.2 Dinh hướng phat triỂn - 2-22 22¿©+2+EEEt2EEEE2EEE2EEE2E1EE21E 221 2211.crrrree 79
TÀI LIEU THAM KHẢO 2-52 SsSSeSESE2EE2EE2EE2EEEEEEEEE2EE211211211 11112 80
Trang 7DANH MỤC CÁC KÝ HIỆU VÀ CHU VIET TAT
Ký hiệu viết tắt | Ý nghĩa tiếng Việt Ý nghĩa tiếng Anh
MTV Một thành viên One member
TNHH Trách nhiệm hữu hạn Limited liability company
ANN Mang noron nhan tao Artificial neural networks
ML May hoc Machine learning
DL Hoc sau Deep learning
Al Tri tué nhan tao Artificial intelligence
; 53 Convolutional Neural
CNN Mang no-ron tich chap Networks
GRU Công nút hồi tiếp Gated recurrent unitsLSTM Mang bộ nhớ đài và ngắn | Long short-term memory
: r1 - Temporal Convolutional
TCN Mang tich chap thoi gian Networks
MAE ns % aD PP 4 Mean absolute error
MSE Trung Dink của b inh Mean Squared Error
phương các sai sô
RMSE Trung bình của các sai số | Root Mean Squared Error
MAPE Trung bình của phân trăm | Mean Absolute Percent
Trang 8DANH MỤC BANG
Bang 2.1 Minh họa đồ thị ba hàm kích hoạt [15] 2-5 5z s2+s2+5++se2xezx+ 36
Bang 2.2 Bang so sánh ưu điểm và nhược điểm của các mô hình 41
Bang 3.1 Bang tong hop theo độ do MAE khi so sánh kích thước của cửa số dữ Ti€U - ame / c ẻẻ 65
Bang 3.6 Bang tong hợp theo độ do MAE khi so sánh thời gian dự bao 74
Bảng 3.7 Bảng tổng hợp theo độ do MSE khi so sánh thời gian dự báo 75
Bang 3.8 Bảng tông hợp theo độ do RMSE khi so sánh thời gian dự báo 75
Bang 3.9 Bảng tông hợp theo độ đo R2 khi so sánh thời gian dự báo 76
Bảng 3.10 Bang tổng hợp theo độ đo MAPE khi so sánh thời gian dự báo 76
Trang 9DANH MỤC HINH VE, DO THỊ
Hình 1.1 VỊ trí địa lý trạm bơm Hoa Phú - 5 5555 + £+£+e+sexseeseersee 1§
Hình 2.1 Quy trình máy ho - 6 5 1 3191193119119 1 1 91 91 ng ng nưkp 22
Hình 2.2 Sơ đồ minh họa 0113040100157 31
Hình 2.3 Gradient descent và stochastic gradient descent [6] - - 32
Hình 2.4 Sơ đồ minh hoa mạng CNN [ 14] 2-2 2+2 s+++z+ezxzxezxe+zeee 33
Hình 2.5 Minh họa LLS”TÌM - c1 ng HH HH giết 34
Himh 2.6 Minh hoa TON 005 39
Hình 3.1 Quy trình thực nghiỆm - - 5 231312313311 E11 gi nưkp 47
Hình 3.2 Kết quả phân tích theo hệ số tương quan Pearson -2- +: 49Hình 3.3 Kết quả kiêm tra tính dừng của chỉ tiêu độ mặn 2-2-5: 50Hình 3.4 Biéu đồ tự tương quan (trai) và tương quan riêng phan (phải) 50
Hình 3.5 Hình phân bố dữ liệu trước quá trình chuân hóa (trái) và sau quá trình
chuẩn hóa (phải) 5-5252 SE SE2E22E9EEEEE2E5EE9E121121715112121711121 21111 cxee 52
Hình 3.6 Kết quả thử nghiệm trên độ đo MAE của các mô hình với thời gian dự
Trang 10Hình 3.10 Kết quả thử nghiệm trên độ đo MSE của các mô hìn có thời gian dự báo
1 Da NAY o- 58
Hình 3.11 Kết quả thử nghiệm trên độ do MSE cua các mô hin có thời gian dự báo
1a DAY 010 7.2 58
Hình 3.12 Kết qua thử nghiệm trên độ do RMSE của các mô hin có thời gian dự
bao 1a MOt NAY 1n 4 59
Hình 3.13 Kết qua thử nghiệm trên độ do RMSE của các mô hình với thời gian dự
bao 1a v6 177 59
Hình 3.14 Kết quả, thử nghiệm trên độ đo RMSE của các mô hình có thời gian dự
báo là bảy ngày - c- c St nSn HH H901 01H TH Thu HH TH HH HH TH 60
Hình 3.15 Kế qua thử nghiệm trên độ đo R? của các mô hin có thời gian dự báo là
Hình 3.16 Kế quả thử nghiệm trên độ đo R? của các mô hình có thời gian dự báo
bá U Nnn ốôÔô.aãốẽ /ˆ 61
Hình 3.17 Kế quả thử nghiệm trên độ đo R? của các mô hình có thời gian dự báo
I0 0 ố.ố aỪDỪD 61
Hình 3.18 Kết quả thử nghiệm trên độ đo MAPE của các mô hình có thời gian dự
bao 1a MOt NAY 00727277 -3 62
Hình 3.19 Kết quả thử nghiệm trên độ đo MAPE của các mô hình có thời gian dự
bao 1a ba 177 62
Hình 3.20 Kết quả thử nghiệm trên độ do MAPE của các mô hình có thời gian dự
bao 1a bay NYAy 011777 1 63
Hình 3.21 Kết quả thử nghiệm trên độ do MAE của các mô hình với kích thước
cửa sô dữ liệu là bảy ngày - 2-52-2221 2EEEE2EE21 2121121121111 re 67
11
Trang 11Hình 3.22 Kết quả thử nghiệm trên độ đo MAE của các mô hình với kích thước
cửa số dữ liệu là 15 ngày, - 52522 2 12212 1271711111112 crk 67
Hình 3.23 Kết qua thử nghiệm trên độ do MAE của các mô hình với kích thước
cửa số dit liệu là 30 ngày, - - 5-55 S22 21211221211271 21111111111 re 68
Hình 3.24 Kết quả thử nghiệm trên độ đo MSE của các mô hình với kích thước cửa
số dữ liệu là bảy ngày, 5 5-55 St 2E 1121121121101121111211 11111111 re 68
Hình 3.25 Kết quả thử nghiệm trên độ đo MSE của các mô hình với kích thước cửa
số dữ liệu là 15 ngày - 5-5 Ssc St t2 2112112112112212117111111111 2111k 69
Hình 3.26 Kết quả thử nghiệm trên độ đo MSE của các mô hình với kích thước cửa
SO dit lidu 0l) - 69
Hình 3.27 Kết qua thử nghiệm trên độ do RMSE cua các mô hình với kích thước
cửa số dit liệu là bảy ngày -¿5¿©52 +22 1221221212121 cree 70
Hình 3.28 Kết quả thử nghiệm trên độ đo RMSE của các mô hình với kích thước
cửa số dữ liệu là 15 gay cecceccccccccsesssesseessesssessesssessesssessusssessssssesssecsecsueesecsseeses 70
Hình 3.29 Kết quả thử nghiệm trên độ đo RMSE của các mô hình với kích thước
cửa số dữ liệu là 30 ngày 2¿- 2 ©5£+SE£2E2EE22EE2E1E211221211221 21 E1rrxe 71
Hình 3.30 Kết qua thử nghiệm trên độ do R? của các mô hình với kích thước cửa
số dit liệu là bảy ngày - 5 5s St 1 112112112112112111111 1111.1111.111 xe 71
Hình 3.31 Kết qua thử nghiệm trên độ đo R? của các mô hình với kích thước cửa
số dit liệu là 15 ngày ¿- 5 Ss St SE 2 211211 2112112212217111 1111.11.11.21 re 72
Hình 3.32 Kết quả thử nghiệm trên độ đo R? của các mô hình với kích thước cửa
số dữ liệu là 30 ngày - s52 St 2E 2E 2 211211211211 221111111 11111111 re 72
Hình 3.33 Kết quả thử nghiệm trên độ đo MAPE của các mô hình với kích thước
cửa sô dit liệu là bảy ngày -5-©5c 5c 22222 221221221271 212121 xe 73
12
Trang 12Hình 3.34 Kết quả thử nghiệm trên độ đo MAPE của các mô hình với kích thước
cửa số dữ liệu là 15 ngàyy - 22 2+2 E£EESEEEEE2E1 2112212112121 E1 crxee 73
Hình 3.35 Kết qua thử nghiệm trên độ đo MAPE của những mô hình với kích thước
cửa số dit liệu là 30 ngày, - - 5-55 S22 21211221211271 21111111111 re 74
Hình 3.36 Kết qua dự báo độ mặn của mô hình CNN_ I Var với kích thước cửa số
dữ liệu là bảy ngày va thời gian dự báo là một ngày - - - 77
Hình 3.37 Kết quả dự phân tích báo độ mặn của mô hình CNN_ I Var với với kích
thước cửa số dữ liệu là bảy ngày và thời gian dự báo là ba ngày 78
Hình 3.38 Kết qua phân tích dự báo độ mặn của mô hình LSTM 3Var có kích
thước cửa số dữ liệu là bảy ngày và thời gian dự báo là bảy ngày 78
13
Trang 13MO DAU
Nước là nguồn tai nguyên vô cùng quý bau và cũng là thành phan quan trongkhông thể nào thiếu trong sinh hoạt và cũng như trong các hoạt động duy trì hoạtđộng sống của con người Trong những năm gan đây, van đề về 6 nhiễm và giới hạn
về tài nguyên nước đã và đang thu hút sự theo đõi cũng như đang được lưu ý ngàycàng nhiều của cộng đồng Trong tình hình đó, việc theo dõi cũng như dự báo diễnbiến chất lượng nguồn nước là một nhiệm vụ khẩn cấp nhăm có thé bao đảm được
an ninh nguồn cấp nước sạch và thực sự đảm bảo sự an toàn đối với người dùngcũng như cộng đồng
Hiện nay, trong ngành san xuất và cung cấp nước sinh hoạt, độ mặn của
nguồn nước cung cấp đến tay người dân là một trong các đặc tính quan trọng làmảnh hưởng tới tính chat của chất lượng nước sau xử lý, theo quy chuẩn hiện hành ởViệt Nam thì ngưỡng độ mặn nước cấp dùng trong sinh hoạt cho phép độ mặn tối
da là 250 mg/L Độ mặn thay đổi theo mùa và thời gian nên việc dự báo độ mặnnước mặt trong xử lý nước là một trong các khó khăn lớn Nhằm đáp ứng và phục
vụ được yêu cầu dự báo này, việc vận dụng các mô hình va thuật toán dé dự báotheo chuỗi thời gian đã trở thành nhiệm vụ thiết yếu
Van dé áp dụng các mô hình theo chuỗi thời gian có những thách thức trongviệc tìm được chính xác kích thước của cửa số dữ liệu, đồng thời cũng cần xác địnhkhoảng thời gian dự báo và số chỉ tiêu chất lượng được sử dụng Đối với nghiên cứutrong luận văn này, các dữ liệu chuyên tiếp được tạo từ dữ liệu thô dựa trên kíchthước của cửa số dit liệu và độ dài thời gian dự báo dé có thé làm rõ việc có haykhông các yếu tố này làm tác động đến hiệu quả khi đưa ra dự báo của các mô hìnhmáy học hay không Ngoài ra, mối tương quan giữa số lượng biến và hiệu suất dự
báo trong quy trình thử nghiệm của các mô hình cũng được làm rõ Trong quá trình
nghiên cứu đã cũng tiến hành làm những so sánh giữa các mô hình tiên tiến bao gồmANN, CNN, ARIMA, GRU, LSTM và TCN dé dự báo từ đó chọn ra được các mô
14
Trang 14hình có kết quả phù hợp cho các bối cảnh nhất định Từ những kết quả của nghiêncứu cũng đồng thời có thể hỗ trợ đưa ra các dự báo dựa trên căn cứ khoa học, qua
đó có thé làm nâng cao tính hiệu quả và cũng nâng cao độ tin cậy trong quy trình
quản lý các nguôn tải nguyên nước.
15
Trang 15Chương 1 Tổng quan
CHƯƠNG 1 TONG QUAN
1.1 Ly do chon dé tai
Tinh trạng nguồn nước sạch bi 6 nhiễm và biến đổi khí hậu đã gây ra tác
động không tốt đến tình hình chất lượng của nguồn nước và độ mặn nguồn nướctrong những vùng xử lý nước thô Những biến đổi tiêu cực theo thời gian ảnh hưởngtới độ mặn của nước sông đòi hỏi các phương pháp dự báo tiên tiến và chính xác dé
có thể phục vụ yêu cầu sản lượng nước ngày càng cao trong bối cảnh khó khăn này.Việc nước sạch được cung cấp cho vùn đô thị gan mười triệu dân như thành phố HồChí Minh là một vấn cần phải được quan tâm và chú trọng
Trong công tác phối hợp hoạt động giữa Nhà máy nước Tân Hiệp và Công
ty TNHH MTV Khai thác Thủy lợi Dầu Tiếng - Phước Hòa ứng biến khi độ mặnnước sông vượt ngưỡng cho phép 250 mg/L thì sẽ có sự hỗ trợ từ đơn vị quản lý hồ
Dau Tiếng phối hợp tăng lượng nước xả từ hồ dé có thé giảm độ mặn, đồng thời
dừng bơm ở Trạm bơm Hòa Phú của Nhà máy nước Tân Hiệp trong thời gian độ
mặn vượt ngưỡng Việc dự báo trước độ mặn nước sông sẽ hỗ trợ công tác phối hợp
sớm hơn trước khi độ mặn vượt ngưỡng cho phép.
Trong quá trình xử lý nước, độ mặn của nguồn nước trong hệ thống nước cấp
phục vụ ăn uống và sinh hoạt luôn được quan tâm Đầu tiên là đối với hệ thống ốngdẫn nước băng gang thép, ở độ mặn cao, bề mặt thép dần hình thành màng bảo vệ.Các ion clorua trong dung dịch muối chủ yếu ảnh hưởng đến cấu trúc của các vảy
ăn mòn và gây ra hiện tượng ăn mòn rỗ Các ion clorua tăng lên dẫn đến nhiều vết
rỗ trên bề mặt thép [1] Ngoài ra, nếu độ mặn của nước uống cao còn tác động đếnviệc dư thừa muối đối với sức khỏe như là tăng huyết áp hoặc huyết áp cao ở cả nam
và nữ, dẫn đến nguy cơ đột quy cao hơn Phụ nữ mang thai được phát hiện là cónguy cơ đặc biệt cao huyết áp khi thai kỳ, và cũng có thể có các triệu chứng tiền sảngiật, tỷ lệ tử vong và mắc bệnh đối với trẻ sơ sinh [2]
16
Trang 16Chương 1 Tổng quan
Ứng dụng máy học có thể trở thành tiềm năng trong ngành cung cấp nước
Mô hình ML phục vụ dự báo theo chuỗi thời gian có thể áp dụng sâu rộng trongngành cung cấp nước Khi xây dựng và cài đặt một mô hình dự báo phù hợp và có
hiệu suất cao, các tổ chức quản lý có thé du báo độ mặn của nước thô trước khi xử
lý, để có thê từ đó hỗ trợ đưa ra quyết định và phương án xử lý cho phù hợp, nhằm
có thể giảm thiểu được các ảnh hưởng tiêu cực của độ mặn trong các hệ thống cung
câp nước và quy trình xử lý nước.
1.2 Mục tiêu của nghiên cứu
về tổng quan, đề tài nghiên cứu lược khảo các phương pháp và khảo sát các
mô hình ML trong dự báo theo chuỗi thời gian So sánh sai số khi thay đổi khoảngthời gian dự báo và cũng như kích thước cửa số dit liệu quan sát, đồng thời so sánh các ảnh hưởng của số lượng biến tới hiệu suất trong quy trình thử nghiệm Trong
nghiên cứu cũng đưa lựa chọn được mô hình dự báo phù hợp đề có thể dự đoán độ
mặn của nước thô vào nhà máy nước Tân Hiệp.
1.3 Đôi tượng nghiên cứu
Những mô hình máy học được áp dụng trong nghiên cứu dự báo theo chuỗi
thời gian như: ARIMA, ANN, CNN, GRU, LSTM, TCN.
Bộ dữ liệu tiến hành thực nghiệm: dữ liệu là bản bao cáo tình hình các chỉtiêu chất lượng nước của sông Sài Gòn đã được ghi nhận và giám sát trong thời gian
6 năm (bat đầu từ 01/01/2017 cho đến 31/12/2022) tiến hành tại trạm bơm Hòa Phú(Xã Hoà Phú, Huyện Củ Chi, Thành phố Hồ Chí Minh) Dữ liệu được thu thập từcác sensor gắn tại trạm bơm và phòng thí nghiệm Dữ liệu có bước thời gian là 60phút dé quan trắc độ mặn Bang dữ liệu được tổng hợp trung bình của ngày gồm
2191 hàng và 50 thuộc tính, trong đó dữ liệu nước thô vào nhà máy có 10 thuộc tính.
Các thuộc tính gồm có chỉ tiêu pH nước sông, độ đục, nồng độ mangan, nông độ
sat, độ màu, độ mặn, tông cặn lơ lững, độ dân, nông độ oxy hòa tan, nông độ
17
Trang 17Chương 1 Tổng quan
aminium Bang đữ liệu này phục phục công tác sản xuất trong nội bộ nhà máy khôngđăng tải lên công thông tin khách hàng
Hình 1.1 Vi trí địa lý trạm bom Hòa Phú
1.4 Phạm vi của nghiên cứu
Trong luận văn này tập trung vào việc phân tích dự báo độ mặn của nước thô
trước khi xử lý, đặc biệt sử dụng các mô hình máy học dự báo theo chuỗi thời gian
Nghiên cứu sẽ gồm có các yếu tô chính như sau:
Lay va ghi nhận dữ liệu độ mặn nước sông: Trong suốt quy trình thực hiệnnghiên cứu, dữ liệu quan trắc về độ mặn của nước thô từ trạm bơm được ghi nhận
Dữ liệu sẽ bao phủ một khoảng thời gian liên tục dé có thé bảo đảm được tính toàn
vẹn và cũng như có tính tin cậy trong quy trình thực hiện thử nghiệm.
Quá trình tiền xử lý dữ liệu: dữ liệu sẽ được tiến hành xử lý dé có thé loại bỏđược các giá tri ngoại lai và xử lý được các dữ liệu còn thiếu trong bộ dữ liệu Sau
đó, tạo bộ dữ liệu trung gian dựa trên thời gian dự báo, kích thước cửa số dit liệu và
sô lượng biên, giai đoạn tiép đên là giai đoạn quan trong đó là chuân hóa chuân hóa
18
Trang 18Chương 1 Tổng quan
dữ liệu Nhờ đó có thé làm tăng độ chính xác và hiệu quả của mô hình phân tích dự
báo.
Phân tích dữ liệu theo chuỗi thời gian: Chúng tôi dùng các thuật toán và các
phương pháp phân tích theo chuỗi thời gian như phân tích đồ thị, phân tích mối tựtương quan và phô, dé hiểu rõ xu hướng, chu kỳ và thay đổi của độ mặn trong dữ
liệu nước sông.
Xây dựng và cài đặt những mô hình dự báo: Nghiên cứu sử dụng những thuật
toán và mô hình dự báo theo chuỗi thời gian như ARIMA, ANN, CNN, GRU,
LSTM, TCN Nghiên cứu sẽ xây dung va cai dat mô hình dự báo dự báo độ man
nước thô trong khoảng thời gian nhất định dựa trên dữ liệu giám sát được trong quákhứ Sau cùng là quá trình đánh giá hiệu suất và đồng thời đánh giá so sánh độ lồi
của các mô hình hình dự báo.
1.5 Cau trúc luận văn
Luận văn được phan chia thành 5 chương cu thê như bên dưới:
+ Chương 1: Giới thiệu tông quan và định hướng nghiên cứu
+ Chương 2: Cơ sở lý thuyết
+ Chương 3: Thực nghiệm.
+ Chương 4: Kết luận và hướng phát trién
19
Trang 19Chương 2 Cơ sở lý thuyết
CHUONG 2 CƠ SỞ LÝ THUYET
2.1 Tổng quan về trí tuệ nhân tạo
2.1.1 Khái niệm
Trí tuệ nhân tao (AI) là một trong những phân nghành nhỏ của khoa học máy
tính, lĩnh vực này chủ yếu thiết kế các chương trình máy tính có thê làm được cáctác vụ mả con người vốn giỏi, bao gồm hiểu được ngôn ngữ tự nhiên, hiểu lời nói
và nhận dạng được hình ảnh Vào giữa thế kỷ 20, thiết kế hệ thống trí tuệ nhân tạođược lấy ý tưởng từ sự am hiểu các khái niệm về cách hoạt động giống bộ não của
loài người [3].
AI được tao ra nhằm thúc đây và nâng cao các hệ thống hoặc máy móc dé cóthé hoạt động và làm được các tác vụ mà trước đó chỉ làm được bởi con người.Thuật ngữ này vẫn có thể được dùng cho những thiết bị máy móc hoặc những dự án
có liên kết với việc phát triển những hệ thong sử dụng những kha năng suy luậngiống con người Cu thé, AI có kha năng xử lý cũng như có thé học được từ dữ liệu,đồng thời thực thi các chức năng như suy luận, phân loại, khám phá ý nghĩa từ dữliệu, đưa ra nhận xét, khái quát hóa thông tin, va có thé học tập từ các trải nghiệmtrong quá khứ AI có thê làm các việc bao gồm việc phân loại ảnh, dự báo tương lai
từ những đữ liệu hiện có ở hiện tại, xử lý ngôn ngữ, đồng thời nhiều chức năng khác
mà trước đây thường yêu cầu sự tham gia chủ động của con người [4]
Machine Learning (ML) hay máy học là một mảng nhỏ trong lĩnh vực AI.
Máy học cho phép phần mềm tự động dự báo kết quả một cách chính xác hơn trong
khi không cần con người phải cải đặt cụ thể và chỉ tiết từng bước Học máy dựa trên
nguyên lý rằng nó có thé cài đặt các mô hình phân tích dựa vào những tap đữ liệumẫu (training data) và từ đó sử dụng các mô hình này nhằm đưa ra kết qua dự đoán
về những dit liệu mới mà không nhất thiết phải có các luật hoặc quy tắc cụ thể được
lập trình trước Quá trình này thường làm nâng cao tính chính xác của ứng dụng
20
Trang 202.1.3.
Chương 2 Cơ sở lý thuyết
trong quá trình sử dụng Học máy là một trong những công cụ hữu ích dé có thé tự
động quá trình phân tích dit liệu và đưa ra dự báo kết quả, giúp tạo ra các phần mềm
có thể "học" được từ dữ liệu và điều chỉnh hoạt động của chúng một cách chủ độngtrong khi không cần sự thao tác chỉ tiết từ phía con người [3]
Học sâu là một trong những phân ngành của AI và liên quan việc van dụng
các công thức đã được lấy ý tưởng từ những kiến trúc cũng như những chức năng
bộ não của con người Học sâu thường vận dụng các mạng thần kinh nhân tạo nhằm
làm các tác vụ có liên quan tới quá trình xử lý và phân tích dữ liệu Học sâu cũng
có nhiệm vụ rất quan trọng đối với phát triển những ứng dụng thực tế và dịch vụ AI
Nó giúp cải thiện và làm tăng được tính tự động hóa Học sâu còn cho phép các hệ
thống có thể chủ động làm những nhiệm vụ như phân tích bộ dữ liệu và cũng nhưchủ động đưa ra các quyết định trong khi không cần sự điều chỉnh của con người.Những ứng dụng của học sâu rất đa dạng, từ trợ lý kỹ thuật số trong các phương tiệngiao đến việc có thể điều khiến từ xa máy móc của những tòa nhà thông qua giọng
nói, phát hiện khả nghi trong các giao dịch qua thẻ tín dụng, và thậm chí là ô tô tự
lái Những công nghệ như thé này cũng có thé được áp dụng nhằm đề xuất nội dung
tự động cho những chương trình truyền hình dựa trên thói quen của khán giả và
những người bạn của những khán giả đó [Š].
Mục tiêu
Mục tiêu của AI nói chung và máy học (ML) cùng với học sâu (DL) nói riêng
là cải thiện tiện ích cho người sử dụng đồng thời tăng cường năng suất, đồng thờithúc đây sự tiễn bộ trong nhiều lĩnh vực tự động hóa, đồng hóa với thời đại hiện đại
Cụ thể, AI và ML tạo ra những khả năng cho những hệ thống và các ứng dụng tựhọc hỏi từ dữ liệu và thích nghỉ với môi trường Nhờ đó làm ra các sản phẩm tri tuệ
và các tiện ich thông minh hơn, có thé dự báo và những phản hồi nhanh chóng hơn
Quy trình máy học
Các giai đoạn điển hình bao gồm các công đoạn như sau [6] :
21
Trang 21Chương 2 Cơ sở lý thuyết
e Thu thập và tiền xử lý đữ liệu
e Xây dựng bộ dữ liệu.
e Huấn luyện, đánh giá và sang lọc mô hình
e Triên khai và giám sat.
Thu thập va tiên xửiý Xây dựng bộ dữ liệu Huấn luyện, đánh giá Triển khai và giám sát
dữ liệu và sàng lọc mô hình
Hình 2.1 Quy trình máy học
a) Thu thập và tiền xử lý dit liệu
Thu thập dữ liệu là công đoạn quan trọng nhất trong máy học Dữ liệu sauquy trình thu thập sẽ tác động đến độ chính xác và sai số của mô hình học máy Nếu
dữ liệu không phù hợp hoặc thiếu chính xác thì mô hình có thê không học được cácmẫu chính xác do đó làm cho dự báo sẽ có tính chính xác thấp [6] Dữ liệu thu thập
có chất lượng hay không do nhiều yếu tô bao gồm sự đa dạng của các nguồn dit liệubao gom những cuộc khảo sát, dữ liệu về lịch sử, các thiết bị cảm biến Phương phápthu thập dữ liệu cũng cần phải phù hop với nhu cầu nghiên cứu Quy trình xử lýnguồn dit liệu gồm những giai đoạn như làm sạch, loại bỏ giá trị ngoại lai và chuẩn
là bước quan trọng trong quá trình khám phá tri thức, bởi vì quyết định chất lượng
phải dựa trên dữ liệu chất lượng Phát hiện các bất thường trong dữ liệu, sửa chữachúng sớm và giảm dữ liệu can phân tích có thê dan đên lợi ích lớn trong việc ra
22
Trang 22Chương 2 Cơ sở lý thuyết
quyết định Tiền xử lý dữ liệu bao gồm việc làm sạch dữ liệu, chuẩn hóa, biến đồi,trích xuất và lựa chọn đặc trưng Đầu ra của một phương pháp tiền xử lý dữ liệu làmột tập hợp đặc trưng mới sẽ tăng hiệu suất phân tích cuối cùng Điều này xảy ra vì
số chiều của dữ liệu và thời gian phân tích được giảm bớt, từ đó cho phép các thuậttoán phân tích hoạt động hiệu quả hơn Theo một cách nào đó, độ chính xác có thể
được cải thiện [7].
b) Xây dựng bộ dữ liệu
Giai đoạn chia nhỏ dữ liệu là giai đoạn thiết yếu trong máy học Bộ dữ liệu
sẽ được phân tách thành ba phan: bộ dữ liệu dùng dé huấn luyện, bộ dữ liệu dùng
dé xác nhận và bộ dữ liệu dùng dé thử nghiệm [6].
e Bộ dữ liệu huấn luyện tạo được áp dụng để đào tạo mô hình máy học
e Bộ dữ liệu kiểm định đề đánh giá độ lỗi của các mô hình máy học Mô
hình máy học sẽ được huấn luyện trên bộ dữ liệu huấn luyện và được
đánh giá kết quả trên bộ đữ liệu kiểm định Việc so sánh này để xác
định xem mô hình máy học có đang hoạt động tốt hay không và có
cần thay đổi các thông số của các mô hình hay không.
e Bộ dữ liệu thử nghiệm được áp dung dé đánh giá hiệu suất cuối cùng
của những mô hình máy học Mô hình máy học sẽ được huấn luyện từ
bộ dữ liệu dùng để huấn luyện và tiếp sau đó được so sánh trên bộ dữliệu thử nghiệm Việc đánh giá so sánh này đề tìm ra các mô hình máyhọc có kết quả dự báo có tính chính xác trên bộ dữ liệu mới hay không.c) Huấn luyện, đánh giá và sàng lọc mô hình
Khi có được bộ dữ liệu thì quá trình đào tạo những mô hình là giai đoạn quan
trọng nhất trong học máy Những mô hình học máy sẽ học cách phân biệt nhữngmẫu trong bộ đữ liệu dùng dé huấn luyện và từ đó đưa ra các dự báo [6]
23
Trang 23Chương 2 Cơ sở lý thuyết
Quy trình huấn luyện áp dụng cho các mô hình máy học được chia ra các
bước sau:
e Lựa chọn mô hình: Đây là bước đầu tiên là chọn các mô hình máy học
dé phù hợp với van đề nghiên cứu Có rất nhiều mô hình học may học khác nhau, tuy nhiên ở các mô hình đều có điểm mạnh và nhược điểm
nhất định
e Khởi tạo mô hình: Sau khi chon mô hình máy học, cần khởi tạo những
tham số của các mô hình Những tham số của các mô hình là nhữnggiá trị kiểm soát cách mô hình học cách phân biệt các mẫu trong dữ
liệu.
e Huấn luyện mô hình: Việc huấn luyện được tiễn hành trên bộ dữ liệu
huấn luyện Huấn luyện các mô hình sẽ bao gồm việc áp dụng cáctham số dùng trong các mô hình đề phát hiện ra các mẫu trong bộ dữliệu và từ đó sẽ có thé đưa ra được các dự báo
e_ Đánh giá các mô hình: Ngay sau khi các mô hình máy học được huấn
luyện, thì cần phải đánh giá hiệu suất trên bộ dữ liệu kiểm định Quá
trình đánh giá mô hình sẽ giúp xác định xem các mô hình máy học có
đang hoạt động tốt hay không và liệu có cần thay đổi các tham số của
các mô hình hay không.
e Tinh chỉnh mô hình: Nếu các mô hình máy học không hoạt động tốt
trên bộ dữ liệu kiểm định, có thé cần tinh chỉnh và thay đổi các tham
số trong các mô hình Quy trình điều chỉnh mô hình sẽ bao gồm việcthay đổi những giá trị của những tham số để cải thiện hiệu năng của
các mô hình máy học.
e Đánh giá các mô hình trên bộ dữ liệu thử nghiệm: Sau quy trình mô
hình máy học được tỉnh chỉnh, cần đánh giá so sánh hiệu suất của các
mô hình bang bộ dữ liệu thử nghiệm Quá trình đánh giá mô hình sẽ
24
Trang 24Chương 2 Cơ sở lý thuyết
giúp xác định xem mô hình học máy có khả năng dự báo chính xác
trên bộ dữ liệu mới hay không.
d) Triển khai và giám sát
Sau tất cả các quá trình trong ba giai đoạn trước, chúng ta hiện có một quytrình thu thập cũng như tiền xử lý bộ dữ liệu được thiết lập tốt và một mô hình dự
báo được huấn luyện chính xác Giai đoạn cuối cùng của hệ thống học máy bao gồm
việc lưu các kết quả mô hình từ các giai đoạn trước và triển khai chúng trên dữ liệumới, cũng như giám sát hiệu suất và cập nhật các mô hình dự đoán thường xuyên
[6].
2.1.4 Các phương pháp máy học (Machine Learning)
Một số kiêu máy học được sử dụng phổ biến trong máy học nói chung cũng
như trong việc phát hiện hành động nói riêng như: học có giám sat, học tang cường,
học bán giám sát và học không có giám sát [8, 9].
e Học có giám sát: Các mô hình được huấn luyện bằng dữ liệu đã có
nhãn Trong suốt quy trình huấn luyện, thì các thuật toán liên tục điềuchỉnh các tham số của các mô hình cho đến khi sai số được tính giữakết quả đầu ra và đầu ra kỳ vọng cho một đầu vào cụ thé được giảmthiêu Học có giám sát hay được ứng dụng trong các nghiên cứu phânloại và bài toán hồi quy Phân loại có nghĩa là xác định, đối với một mẫu đầu vao cụ thé, mục gì (hoặc danh mục) một thứ gì đó thuộc về,
ví dụ như chó hoặc mèo, nam hay nữ, ung thư hay không ung thư,
hàng thật hay hàng giả, và còn nhiều trường hợp khác Những thuậttoán áp dụng trong học có giám sát được sử dụng rộng rãi nhất baogồm: máy vector hỗ trợ, naive Bayes, phân tích đĩnh lượng tuyến tính
(linear discriminant analysis), cây quyết định (decision trees), thuật
toan k-nearest neighbor, mang no-ron (multilayer perceptron), va hoc
tương tự (similarity learning) Hồi quy là đối với những dit liệu cho
25
Trang 25Chương 2 Cơ sở lý thuyết
trước, điều chỉnh dit liệu với một mô hình dé tìm được những tham số
phù hợp nhất Những thuật toán hồi quy được dùng phô biến nhất bao
gồm: hổi quy đa thức, hỗồi quy logistic, hồi quy tuyến tính
e Học không có giám sát: Các mô hình máy học được huấn luyện với
bộ dữ liệu không được dán nhãn Các thuật toán sẽ nghiên cứu dữ liệu
và chia nó thành các nhóm dựa trên vào đặc tính Học không có giám
sát thường được áp dung cho việc gom nhóm (clustering) và liên kết
(association) Gom nhóm có nghĩa là chia bộ dữ liệu thành những
nhóm khác nhau Thuật toán gom nhóm dùng nhiều nhất là thuật toánK-means clustering Liên kết có nghĩa là phát hiện những quy tắc mô
tả phần lớn của bộ dữ liệu Một thuật toán liên kết phố biến là thuật
toán Apriori.
e Hoc bán giám sat: Tất cả bộ dữ liệu đã dán nhãn và bộ dữ liệu chưa
dán nhãn đều được sử dụng, và đặc biệt hữu ích khi chúng ta khôngthể dán nhãn cho tất cả dữ liệu Thủ tục cơ bản là gom nhóm dữ liệuthành những nhóm riêng biệt bằng thuật toán học không có giám sát,sau đó áp dụng bộ dữ liệu dán nhãn hiện có dé gan nhãn cho phan con
lai của bộ dữ liệu chưa được dán nhãn Những thuật toán hoc ban giảm
sát được đùng rộng rải nhất bao gồm tự huấn luyện, các phương pháp
sinh ra (generative methods), mô hình hỗn hợp (mixture models), và
các phương pháp dựa trên đồ Mô hình học bán giám sát thường được
ứng dụng trong nghiên cứu phân tích giọng nói, phân loại nội dung
trên internet, và phân loại chuỗi protein
e Học tăng cường: Những thuật toán học cách tìm ra thông qua thử va
sai, những hành động nào có thé đem lại phần thưởng tích luỹ tối da.Học tăng cường thường được sử dụng nhiều trong robot học
26
Trang 26Chương 2 Cơ sở lý thuyết
2.1.5 Ứng dụng của máy học và học sâu
Rat nhiều lĩnh vực có thé sử dụng AI, ML, DL như [10]:
e Trong các ứng dụng nghiên cứu phân tích dữ liệu sau đó áp dụng trong
các hệ quyết định.
e Trong những nghiên cứu về y học cũng như chuẩn đoán bệnh
e Trong những nghiên cứu về lấy dữ liệu trên website và gợi ý
e Trong các nghiên cứu về đữ liệu sinh học
e Trong các ứng dụng về tài chính và chứng khoán, doanh nghiệp
e Trong các ứng dụng về nhận dạng
e Trong các ứng dụng trong văn phòng thông minh.
e Trong các ứng dụng và giáo dục.
2.1.6 Những thuận lợi và thách thức của máy học
Máy học đã trở thành lĩnh vực nghiên cứu rất quan trọng đồng thời cũng pháttriển mạnh mẽ suốt nhiều thập kỷ gần đây Một số thuận lợi và thách thức của máyhọc đã xuất hiện, và nghiên cứu này sẽ liệt kê về chúng trong luận văn này [11]
Thuận lợi của Máy học:
e Tăng cường khả năng dự đoán: Máy học cho phép hệ thống có thé học
hỏi từ đữ liệu để có thể tạo ra những mô hình dự báo Từ đó giúp cải
thiện khả năng đưa ra dự báo và xử lý các dự báo phức tạp mà trong
khi con người khó có thể dự báo được
e Tự động hóa công việc có tính chu ky lặp lại nhiều lần: May học có
thé tự động hóa nhiều tác vụ, giúp giảm công việc thủ công va tối ưuhóa hiệu suất làm việc
e H6 trợ phân tích dữ liệu lớn: xử lý đồng thời phân tích thông tin
27
Trang 27Chương 2 Cơ sở lý thuyết
e Tự động hóa quyết định: Máy học có thé được tự động hóa quyết định
trong những lĩnh vực như kinh tế, cũng như tài chính, y tế, và sản xuất,giúp tối ưu hóa các quy trình.
Thách thức của Máy học:
e _ Dữ liệu chất lượng kém: Máy học yêu cau dữ liệu chất lượng cao nhằm
huấn luyện các mô hình Nếu như các bộ dữ liệu đầu vào không chínhxác hoặc thiếu sót, kết quả của máy học có thể bị sai lệch.
e Giải thích kết quả: Mô hình máy học thường rat phức tạp và rất khó
hiểu, và đặc biệt là các mô hình sâu (deep learning) Việc giải thích
tại sao một quyết định cụ thé được đưa ra có thé khó khăn.
e Vấn dé bảo mật: Việc áp dụng máy học có thể tạo ra những rủi ro về
bảo mật và xâm phạm quyền riêng tư, và đặc biệt là khi dữ liệu của cánhân được dùng dé dao tạo các mô hình máy học
e Tái sử dụng các mô hình: Những mô hình máy học đôi khi không thé
áp dụng lại trong nhiều trường hợp nhau nếu không thể áp dụng dễdàng đối với dữ liệu mới
e Bias: May học có thé tự động “học” các bias từ bộ dữ liệu đầu vào, va
ảnh hưởng đến độ chính xác
2.2 Các mô hình máy học
2.2.1 ARIMA
Mô hình ARIMA kết hợp ba yếu tố quan trọng: tự hồi quy tự động (AR
-AutoRegressive), tích hợp (I - Integrated), và trung bình động (MA - Moving
Average).
Công thức cơ bản của mô hình ARIMA là ARIMA(p, d, q) Trong đó, mô
hình có p là bậc tự hồi qui, d là sai phân của chuỗi thời gian được khảo sát, q là bậc
trung bình trược.
28
Trang 28Chương 2 Cơ sở lý thuyết
ARIMA đã được ứng dụng rộng rải trong nhiều lĩnh vực như tài chính, kinh
tế, dự báo thời tiết, và còn rất nhiều những ứng dụng khác Đặc biệt, ARIMA thườngđược vận dụng đề dự báo giá trị cô phiếu giao dịch hàng ngày, dự báo doanh số bánhàng và cũng như các biến thời gian khác Dé có thé xác định được các tham số p,
d, và q của mô hình ARIMA là một phần rất quan trọng trong quá trình mô hình hóa
theo chuỗi thời gian
+ Xác định d: xác định số lần tích hợp cần thiết dé biến đổi chuỗi thời gian
ban đầu thành dữ liệu có tính dừng Dé xác định được giá trị d có thé áp dụng kiểmđịnh Augmented Dickey-Fuller hoặc kiểm định Kwiatkowski-Phillips-Schmidt-Shin Nếu giá trị p tính được của kiêm định ADF là lớn hơn mức ý nghĩa (thường là 0,05), cần tiếp tục tích hợp chuỗi thời gian cho đến khi nó trở nên dừng yếu (có giá
trị p thấp hơn)
+ Xác định p: xác định được SỐ lượng các giá tri trước đó mà mô hìnhARIMA sẽ áp dụng dé có thé dự đoán giá trị hiện tại Dé có thé xác định được giátri p, cần sử dụng hàm tự tương quan (ACF) và biểu đồ PACF (Partial
AutoCorrelation Function).
+ Xác định q: xác định được số lượng các giá trị ngẫu nhiên trong quá khứ
khi ARIMA sẽ áp dụng dé dự báo các giá trị hiện tại Nhằm có thé xác định giá tri
của q, có thé áp dụng biểu đồ ACF và PACF [12].
Mạng nơ-ron nhân tạo
Khi nói về mạng noron, chúng ta phải bắt đầu bằng mạng nơ-ron truyền thống
(NNs), còn gọi là mạng noron nhân tạo (ANNs) Mạng noron truyền thống là mô
phỏng máy tính của các mạng nơ-ron sinh học trong não người Khái niệm về mạngnơ-ron đã được giới thiệu lần đầu tiên bởi các nhà thần kinh học người Mỹ Warren
McCulloch cùng với nhà logic học người Mỹ Walter Pitts vào năm 1943 Mạng
nơron sinh học là một hệ thống mạng các noron liên kết Nơ-ron sinh học thôngthường bao gồm cơ thé tế bảo, các nhánh dendrit và một trục axon Co thé tế bao
29
Trang 29Chương 2 Cơ sở lý thuyết
cũng được gọi là soma, trong khi đendrit và axon là các sợi đỉnh tròn bắt nguồn từ
nó Thường thì dendrit bat nguồn một vài trăm micromet từ soma, trong khi axon
có thé dai tới một mét Ở cuối axon là các đầu nối axon, và mỗi đầu nối này kết nóivới một nơ-ron khác thông qua kết nối hóa sinh (synapse) Đối với mỗi nơ-ron, cácdendrit là đầu vào từ các nơ-ron khác, và axon là đầu ra đến các nơ-ron khác Một
bộ não người thông thường có khoảng 100 tỷ noron [9]
Tương tự với các nơron sinh học, các noron nhân tạo cũng có hai đầu gồm:một đầu giá trị đi vào va một đầu giá trị đi ra, như được thể hiện trong Hình 3.1.Các nơ-ron nhân tạo có thé nhận tín hiệu đầu vao, đồng thời nhân chúng với trọng
số, cộng chúng lại với nhau, và sau đó đưa chúng qua một hàm kích hoạt phi tuyếntinh để có đầu ra Hàm kích hoạt của một nút được dùng xác định đầu ra của nút đódưới dạng một hàm của một đầu vào hoặc một tập hợp các đầu vảo Tương tự giống
các mạng noron sinh học, các mạng noron nhân tạo tạo thành từ những noron nhân
tạo được liên kết với nhau thành mạng Thông thường, chúng có ba lớp, như đượcthé hiện trong Hình 2.2, có một lớp đầu vào, sau đến một lớp an và sau cùng là mộtlớp đầu ra Ly do chúng chỉ có một lớp an là độ phức tạp sẽ tăng lên nếu số lớp tăng
^
lên.
30
Trang 30Chương 2 Cơ sở lý thuyết
Biological Neuron Artificial Neuron
"i 4 Sigmoid
-Activation Function
>
https://en.wikipedia.org/wiki/Neuron Weight Bias y=0(wjx;+b)
Artificial Neural Networks
Input Hidden Output
Layer Layer Layer
Biological Neural Networks
https://en.wikipedia.org/wiki/Neuron
Hình 2.2 Sơ đồ minh họa mạng nơ-ron [6]
Dé có thé huấn luyện một mạng noron nhân tạo, trước hết chúng ta khởi tạongẫu nhiên những trọng số của mạng nơ-ron, sau đó chúng ta đưa vào mạng một tập
dữ liệu dé huấn luyện, với những đầu vào và những đầu ra cụ thé Mỗi khi mang san xuất ra một đầu ra từ các đầu vào, nó sử dụng một hàm mất mát dé so sánh đầu ra tính toán được với đầu ra mong muốn, sau đó trả về sự khác biệt, được gọi là lỗi,cho mạng dé điều chỉnh các trọng số một cách tương ứng Đây là thuật toán lantruyền ngược, viết tắt là "lan truyền ngược của lỗi." Các trọng số được điều chỉnhdựa trên lỗi bằng cách vận dụng phương pháp gradient descent, mà tính toán độ dốccủa các lỗi liên quan đến các trọng số trong mạng noron và có thê điều chỉnh đượccác trọng số dé có thể giảm thiéu các lỗi Quy trình này được lập trình lặp lại nhiềulần cho đến lúc các trọng số trong mạng noron ồn định Huấn luyện mạng noronnhân tạo về cơ ban là bai toán tối ưu hóa [9]
Thuật toán tối ưu hóa Gradient descent thực hiện lặp đi lặp lại nhiều lầnthường được áp dụng dé tim một gia tri cuc tiểu cục bộ của một hàm Với ý tưởng
31
Trang 31Chương 2 Cơ sở lý thuyết
là tiến hành các bước lặp lại theo hướng ngược với độ dốc, độ dốc cho biết hướng
có độ dốc lớn nhất Điều này giống như việc đi từ đỉnh của một ngọn núi và tìmcách khám phá đáy Gradient descent tiêu chuẩn tuân theo con đường có độ dốc lớnnhất và thường bị kẹt tai gia tri cực tiêu cục bộ Stochastic gradient descent là mộtphiên bản khác của gradient descent, giải quyết vấn đề thông qua thêm tính ngẫu
nhiên vào con đường, như được minh họa trong Hình 2.3 Stochastic gradient
descent hội tụ (đạt đến gia tri cực tiéu toan cuc) nhanh hon nhiều so với gradient
descent [9].
Gradient Decent Stochastic Gradient Decent
Hình 2.3 Gradient descent và stochastic gradient descent [6]
Sau quá trình huấn luyện, ban có thé cung cấp mạng với một tập dữ liệu chưatừng dùng trong suốt quy trình huấn luyện như đầu vào, và mạng sẽ cho bạn mộtđầu ra được dự đoán Thông thường, những mạng nơ-ron nhân tạo cần rất nhiều thờigian và cũng như dữ liệu dé huấn luyện, nhưng sau khi được huấn luyện, mô hìnhcũng có khả năng tạo ra kết quả rất nhanh chóng [9]
Mạng nơ ron tích chập [13]
Mạng noron tích chập là mạng noron học sâu được dùng rất phổ biến CNNchủ yếu được dùng trong phân tích hình ảnh, ví dụ như phân loại ảnh, phát hiện vậtthể và phân cắt ảnh CNN cũng được sử dụng trong nhiều hệ thống đề xuất, xử lýngôn ngữ, và phân tích tài chính Đến nay, đã có nhiều CNN được phát triển, như
LeNet, AlexNet, GoogLeNet (hiện nay là Inception), VGG, ResNet, DenseNet,
MobileNet, EffecientNet, YOLO, và nhiều mạng khác
32
Trang 32Chương 2 Cơ sở lý thuyết
Conv1D Network MLP Network
|_| Predicted
—
Multi-step-ahead Daily
Rainfall
Input Conv1D Conv1D Dropout Conv1D Conv1D Dropout Flatten Fully connected
Features Layer Layer Layer Layer Layer Layer Layer Dense Layer
Hình 2.4 Sơ đồ minh họa mang CNN (14J.
Lớp tích chập (Convolutional Layer): Day là cau trúc cốt lõi của một mạngnoron tích chập CNN sử dụng những bộ lọc đặc trưng (còn được gọi là kernel) détrích xuất thông tin đặc trưng từ đầu vào Quá trình tích chập về cơ ban là nhân các
giá trị ma trận hình ảnh với giá trị của kernel như một tích vô hướng theo từng phần
tử, sau đó cộng tất cả các giá trị để có được kết quả tích chập
Hàm kích hoạt (Activation function) của một nút cho phép đầu ra của nút đódưới dạng một hàm của một đầu vào hoặc tập hợp các đầu vào Có ba hàm hoạt hóaphô biến được áp dụng là ReLU, hàm Tanh và hàm sigmoid Trong học sâu, ReLUthường được ưa chuộng hơn vì nó làm cho quá trình huấn luyện mạng nơ-ron trở
nên nhanh hơn rât nhiêu.
Lớp kết nối: Các noron trong lớp kết nối có kết nối đến tat cả các kích hoạttrong lớp trước, như được thé hiện trong các mạng nơron nhân tạo thông thường(không có tích chập) Lớp kết nối đầy đủ cũng được gọi là lớp dense.
Lớp dropout (Dropout layer): Loại bỏ một số nút trong mạng nơ-ron để ngănchặn việc quá khớp Lớp dropout có thể được vận dụng đối với phần lớn các loạilớp, thường sau lớp kết nối đầy đủ của mô hình
Lớp dau ra: sử dụng đưa ra dau ra cuôi cùng của mạng noron tích chập Đôi với các mạng noron dùng trong phân loại, sô lượng đâu ra phụ thuộc vào sô lượng
33
Trang 33Chương 2 Cơ sở lý thuyết
lớp (classes) Trong với các mạng noron dùng cho hồi quy (regression) thì chỉ cómột đầu ra duy nhất
Long short-term memory [13]
Bộ nhớ dài và ngắn (LSTM) là một phiên ban của SimpleRNN có khả năng
“học” các yếu tố phụ thuộc lâu dài SimpleRNN kết hợp trạng thái ân từ bước thờigian trước và đồng thời đầu vào hiện tại thông qua một lớp tanh dé thực hiện sự lặp
lại LSTMs cũng thực hiện sự lặp lại theo cách tương tự, nhưng không chỉ có một
lớp tanh đơn, có bốn lớp tương tác theo một cách cụ thể Hình 2.5 minh họa các biếnđổi được áp dụng trong trạng thái ấn ở vị trí thời gian t.
Biểu đồ có vẻ phức tạp, nhưng hãy xem xét từng thành phần Dòng trên cùngcủa biéu đồ là trạng thái ô c, đại diện cho bộ nhớ nội tại của đơn vị Dòng dưới cùng
là trạng thái ấn h, và các công i, f, o và g là cơ ché ma LSTM sir dung dé cai thiénvan dé biến mất độ dốc Trong suốt quá trình huấn luyện, LSTM học các tham số
của những công này:
Hinh 2.5 Minh hoa LSTM
Một cách thay thé dé hiểu cách các cổng hoạt động bên trong một 6 LSTM
là xem xét các phương trình của ô Các phương trình này mô tả cách giá trị của trạng
34
Trang 34Chương 2 Cơ sở lý thuyết
thai ẩn h: tại vị trí t được tính từ giá trị của trạng thái ấn hy tại vị trí trước đó Nóichung, mô tả dựa trên phương trình thường rõ ràng và ngắn gọn hơn và thường làcách mà một thiết kế 6 mới được giới thiệu trong các bài báo học thuật Biéu đồ, khi
được cung cấp, có thé tương tự hoặc khác so với những biểu đồ bạn đã thấy trước
đó Vì những lý do nay, thường là hợp lý học cách đọc các phương trình và hình
dung thiết kế 6 Dé được kết quả, chúng tôi sẽ mô tả các biến thé ô khác trong cuốnsách này chỉ bằng các phương trình
Bộ phương trình biểu diễn một LSTM được thé hiện như sau:
đi qua vector đâu tiên.
Công quên xác định mức độ bạn muốn cho phép trạng thái trước đó h điqua Cổng đầu vào xác định mức độ bạn muốn cho phép cập nhật trạng thái mớiđược ước tính cho giá tri của đầu vào hiện tại x đi qua, và công đầu ra xác định mức
độ bạn muốn tiết lộ trạng thái ấn nội tại cho tầng tiếp theo Trạng thái ấn nội tại bàđược ước tính dựa trên giá trị đầu vào hiện tại x: và trạng thái ấn ở trước đó là hes
35
Trang 35Chương 2 Cơ sở lý thuyết
Lưu ý rằng phương trình cho g giống hệt với phương trình của SimpleRNN, ngoại
trừ đối với trường hợp này, mô hình sẽ điều chỉnh đầu ra bằng đầu ra của vector đầu
vao i.
Dựa trên i, f, o va g, chúng ta có thé tinh được trạng thái ở 6 c; tại thời điểm
t như sau: trạng thái 6 cr tại thời điểm (t-1) nhân với giá trị của cổng quên g, cộngvới trang thái g nhân với công đầu vào i Điều này về cơ bản là một cách dé kết hợp
bộ nhớ trước đây và đầu vào mới - thiết lập công quên thành 0 làm lơ đi bộ nhớ cũ
và thiết lập công đầu vào thành 0 làm lơ đi trạng thái mới được tính toán Cuối cùng,trạng thái ân của h; ngay tại thời điểm t có thé tính được dựa vào trang thái 6 c: tại
thời điêm t, với công đâu ra o.
LSTM là một tùy chọn thay thế hoàn toàn cho SimpleRNN; khác biệt duynhất là LSTM có khả năng chống lại van dé gradient vanishing Có thé thay thé một
ô RNN trong một mạng bang một LSTM ma không can quan tam bat ctr tac độngphụ nào Thường thì sẽ thấy kết quả tốt hơn cùng với thời gian huấn luyện kéo dài
hơn.
Các hàm dung đề kích hoạt được sử dụng phô biến gồm: hàm sigmoid, hàm
Tanh và hàm Relu.
Bảng 2.1 Minh họa đồ thị ba hàm kích hoạt [15]
Sigmoid Tanh Relu
36
Trang 36Chương 2 Cơ sở lý thuyết
Gated recurrent unit (GRU) [13]
GRU là một phiên ban don giản của LSTM , nó giữ lai khả năng chống lạivan dé gradient vanishing giống như LSTM, nhưng cau trúc nội tại của nó đơn giảnhon và do đó nhanh hơn trong quá trình huấn luyện, vì cần ít tính toán hơn dé cập
nhật trạng thái ân của nó.
Thay vì có các cổng đầu vào (i), quên (f) và đầu ra (o) trong 6 LSTM, 6 GRU
có hai công: một công cập nhật (z) và một công cải đặt lại (r) Công cập nhật dung
xác định mức độ bộ nhớ trước đó cần được giữ lại, và công cài đặt lại dung dé xácđịnh việc kết hợp giữ đầu vào mới với bộ nhớ trước đó Không có trạng thái ô cốđịnh riêng biệt khác với trang thai ấn như trong LSTM
Ô GRU xác định cách tính toán trạng thái ấn h tại một thời điểm t từ mộttrạng thái ân hy tại bước thời gian trước đó bằng cách sử dụng bộ phương trình sau
an hr tại thời điểm t được tính đưới dang một hàm của trạng thái ô c và trạng thái ân
ở trước đó hy Các tham số W¿, Uz, W¿, Ur và We, Uc được học trong suốt quy trìnhhuấn luyện di liệu
37
Trang 37Chương 2 Cơ sở lý thuyết
2.2.6 Temporal Convolutional Networks (TCN) [16]
Mang tích chập thời gian (TCN) rút trích các quy tắc tốt nhất trong thiết kếmạng tích chập thành một kiến trúc đơn giản có thê là một điểm khởi đầu thuận tiệnnhưng mạnh mẽ Chúng ta gọi kiến trúc được trình bày này là mạng tích chập thờigian (TCN), tác gia sử dụng thuật ngữ này không dé đặt tên cho một kiến trúc thực
sự mới mẻ, mà là để mô tả một tập hợp các kiến trúc đơn giản Các đặc điểm phân
biệt của TCN là:
© Các tích chập trong kiến trúc là dạng "gây ra", có nghĩa là không có
thông tin "rò ri" từ tương lai vào quá khứ.
e Kiến trúc có thé nhận một chuỗi có bất kỳ độ dài nào và ánh xạ nó
thành một chuỗi đầu ra có cùng một độ dài, giống như với RNN Ngoài
ra, chúng tôi nhân mạnh cách xây dựng các kích thước lịch sử hiệuqua rất lâu (nghĩa là khả năng của mạng đề nhìn sâu vào quá khứ dé
đưa ra kết qua dự báo) bằng cách kết hợp các mạng sâu (được bồ sungbăng các lớp dư) và tích chập mở rộng
Đề đạt được điểm thứ hai, TCN sử dụng các phép tích chập tạo ra sự tươngtác, nghĩa là các phép tích chập mà đầu ra ở thời điểm t chỉ tương tác với các phần
tử từ thời điểm t và trước đó trong tang trước
TCN = 1D FCN + causal convolutions (2.11)
38
Trang 38Chương 2 Cơ sở lý thuyết
Một nhược điểm lớn của thiết kế cơ bản này là dé đạt được một kích thướclịch sử hiệu quả lâu dài, chúng ta cần một mạng rất sâu hoặc các bộ lọc rất lớn, cảhai trong số đó đều không khả thi đặc biệt khi các phương pháp này được công bốlần đầu Do đó, trong các phần sau, chúng tôi mô tả cách tích hợp các kỹ thuật từkiến trúc tích chập hiện đại vào một TCN đề cho phép cả mạng sâu và lịch sử hiệuquả rất dài.
2.2.6.2 Tích chập trải rộng (Dilated Convolutions)
Một phép tích chập tương tác (causal convolutions) đơn giản chỉ có thé nhìnlại một lịch sử với kích thước tuyến tính phụ thuộc vào độ sâu của mạng Điều nàykhiến việc áp dụng phép tích chập tương tác như đã nêu trên các tác vụ trên chuỗitrở thành cản trở, đặc biệt là đối với những nhiệm vụ yêu cầu lịch sử dài hơn Giải
pháp của tac giả là sử dụng các phép tích chập trải rộng (dilated convolutions) cho
phép có một vùng tiếp nhận lớn theo cấp số mũ Cụ thể hơn, đối với đầu vào chuỗi
1-D với x € R" và một bộ lọc ƒ : {0, ,k-1} —> R, phép tích chập trải rộng F trên
phần tử s của chuỗi được định nghĩa như sau:
Hinh 2.6 Minh hoa TCN
Trong đó, d là hệ s6 trải rộng (dilation factor), k là kích thước của bộ lọc, va
s — đ:i là sự xem xét đến hướng của quá khứ Trải rộng (dilation) tương đương với
việc đưa ra một bước có định giữa mỗi hai điểm lấy mẫu liền kề trên bộ lọc Khi
39
Trang 39Chương 2 Cơ sở lý thuyết
d=1, một phép tích chập trải rộng trở thành một phép tích chập thông thường Sử
dụng trải rộng lớn hơn cho phép dau ra ở tầng cao nhất biểu diễn một phạm vi rộng
hơn của dau vao, từ đó mở rộng hiệu suât lĩnh vực tiép thu của một ConvNet.
Điều này cung cấp cho mô hình hai cách đề tăng vùng tiếp thu của TCN: lựachọn kích thước bộ lọc lớn hơn k và tăng hệ số trải rộng d, trong đó lịch sử hiệu quảcủa một tầng như vậy là (k — 1)d Như thông thường khi sử dụng phép tích chập trai rộng, chúng ta tăng d theo ham mũ với độ sâu của mạng (tức là d = O(2') ở tang icủa mạng) Điều này đảm bảo rằng có ít nhất một bộ lọc nào đó sẽ tác động lên mỗiđầu vào trong lịch sử hiệu quả, đồng thời cho phép có một lịch sử hiệu quả cực kỳ
lớn thông qua mạng sâu.
2.2.6.3 Residual Connections
Residual block chứa một nhánh dan ra một chuôi các biên đôi F, dau ra của
chúng được cộng vào đầu vào x của khối:
o = Activation(x + F(x)) (2.13)
Điều này thực tế cho phép các tang học các sửa đồi cho việc ánh xa danh tinhthay vì toàn bộ biến đồi, điều này đã được thể hiện nhiều lần là có lợi cho các mạngrất sâu Khác với ResNet tiêu chuẩn, đầu vào được cộng trực tiếp vào đầu ra củaham dư thừa, trong khi trong TCN, kích thước của đầu vào và kích thước của đầu
ra có thé có độ rộng khác nhau Đề giải quyết việc độ rộng kích thước của dit liệuđầu vào và kích thước của dit liệu đầu ra không khớp nhau, tác giả sử dụng mộtphép tích chập 1x1 bổ sung dé đảm bảo phép cộng theo từng phần @ nhận vào các
tensor có cùng kích thước.
2.3 So sánh các mô hình máy học trong dự báo theo chuỗi thời gian
Đề có thể giới hạn số lượng các mô hình sử dụng trong phân tích dự báo theochuỗi thời gian có thé dựa trên Bang 2.2 dé định tinh xem cần ưu tiên sử dụng môhình nào Đối với dữ liệu có tính dừng và chỉ sử dụng một biến thì có thé lựa chọn
40
Trang 40Chương 2 Cơ sở lý thuyết
mô hình ARIMA Đối với dữ liệu có nhiều biến phụ thuộc và có các quan hệ phụ
thuộc đài hạn thì có thể dùng LSTM hoặc TCN, nếu có các quan hệ phụ thuộc ngắn
hạn hơn thì có thé dùng GRU Đối với dit liệu nhiều biến và có quan hệ phụ thuộc
ngắn hạn hoặc cục bộ thì có thể dùng ANN hoặc CNN
Bảng 2.2 Bảng so sánh ưu điêm và nhược diém của các mô hình.
Mô hình Ưu điểm Nhược điểm
ARIMA [17] | - Có thê xử lý đữ liệu có tính | - Giả định dữ liệu có tính tuyến tính
dừng với sự phụ thuộc tuyến | và tính dừng
tính - Không thê xử dit liệu đa biến
- Có thể lập mô hình xu hướng | - Yêu cầu lựa chọn cần thận các siêu
và tính thời vụ tham số
- Có thé dua ra dự báo với | - Không phù hợp dé dự báo dài hạn
khoảng tin cậy.
ANN [17] - Có thê xử lý các môi quan hệ | - Yêu cầu lựa chọn cần thận các siêu
phi tuyến tính giữa các biến tham số
- Có thé được sử dung cho cả | - Có thé dé bị quá khớp
chuỗi thời gian đơn biến và đa | - Không phù hợp đề dự báo dài hạn.biến
- Có thê nắm bắt các mẫu phức
tạp trong đữ liệu.
CNN [18] - Có thê xử ly các tập dữ liệu | - Gia định rang các mẫu là bất biến.
lớn và các chuỗi dài - Không thé nắm bắt các yếu tố phụ
- Có thé năm bắt các mẫu và | thuộc dai han
phần phụ thuộc cục bộ
- Có thể được sử dụng để tríchxuất đặc trưng dé kết hợp với
các mô hình khác.
GRU [19] - Có ít tham số hơn LSTM - Yêu cầu lựa chọn cần thận các siêu
- Có thể xử lý các mối quan hệ | tham số.
phụ thuộc ngắn hạn và phi | - Có thể tốn kém về mặt tính toán
tuyến tính - Khó xử lý các phụ thuộc dài hạn
- Có thé sử dụng cho chuỗi thời
gian đa biến
41