LỜI CAM ĐOANTôi xin cam đoan luận văn thạc sĩ của tôi về chủ đề xây dựng ứng dụng dự báo nhiệt độ không khí dựa theo mô hình Bayes và công nghệ máy học là công sức nghiên cứu của riêng t
Trang 1ĐẠI HỌC QUOC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
ø2*cs
à
Nguyễn Văn Tâm
XÂY DỰNG ỨNG DỤNG DỰ BÁO NHIỆT ĐỘ KHÔNG KHÍ DỰA THEO MÔ HÌNH BAYES VÀ CÔNG NGHỆ MÁY HỌC
LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN
Mã số: 8.48.02.01
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS DƯƠNG THỊ THÚY NGA
TP HÒ CHÍ MINH - 2023
Trang 2LỜI CAM ĐOAN
Tôi xin cam đoan luận văn thạc sĩ của tôi về chủ đề xây dựng ứng dụng dự báo
nhiệt độ không khí dựa theo mô hình Bayes và công nghệ máy học là công sức
nghiên cứu của riêng tôi Các thông số và dữ liệu được dùng trong bài là chính xác
và chưa từng được thể hiện ở công trình nghiên cứu nào khác.
Tắt cả những tài liệu và nguồn tham khảo đều được trích dẫn cũng như được tham chiếu đầy đủ.
Học viên
Nguyễn Văn Tâm
Trang 3LỜI CẢM ƠN
Tôi xin được bắt đầu luận văn thạc sĩ này với sự biết ơn đến các giảng viên tại Trường Dai học Công nghệ Thông tin (ĐHQG TP.HCM) đã truyền đạt kiến thức và kinh nghiệm chuyên môn để giúp tôi hoàn chỉnh dự án này Những kiến thức và kinh nghiệm tích lũy mà các thầy cô đã chia sẻ làm hành trang, nguồn động lực và cảm hứng dé hoàn thành việc nghiên cứu này.
Ngoài ra, tôi biết ơn sâu sắc đến TS Dương Thị Thúy Nga - Đại học Tài nguyên và Môi trường TP.HCM, người đã trực tiếp hướng dẫn và chia sẻ kiến thức chuyên môn một cách tận tình Sự nhiệt huyết của cô đã giúp tôi vững vàng kiến thức
về chủ đề này Sự khích lệ, quan tâm và hướng dẫn của cô ấy đã giúp tôi vượt qua những trở ngại trong quá trình nghiên cứu và góp phan đáng kể vào việc hoàn tat luận
văn.
Hơn nữa, tôi cũng xin cảm ơn đến TS Nguyễn Gia Tuan Anh, người đã truyền đạt thông tin kiến thức trong học tập cũng như trong cuộc sống Những lời góp ý và
sự giúp đỡ từ thầy đã truyền cảm hứng và động lực cho tôi để tôi có thể hoàn thành
luận văn này.
Và tôi cũng muốn gửi lời cảm ơn đến TS Nguyễn Tan Cam người luôn hỗ trợ, tận tâm, và giải đáp bất cứ thắc mắc nào giúp tôi có thêm nhiều kiến thức mức và tự tin hơn trong việc giải quyết các khó khăn.
Một lần nữa, từ tận đáy lòng tôi xin cảm ơn, luôn ghi nhớ va trân quý những bài học quý giá mà mọi người đã truyền đạt cho tôi, những người đã hỗ trợ và đóng
góp cho bài luận này.
TP Hồ Chí Minh, ngày 20 tháng 08 năm 2023
Học viên
Nguyễn Văn Tâm
Trang 41 GIGI THIEU DE TAI
1.1 _ Nhiệt độ không khí e-.«-«ecsecssesesssessetsetsetserssstetsetserserssre 8
1.2 Ảnh hưởng của NĐKK cccccc22222vvvccrrrrrerrrsrrrrrree §
1.3 Mục tiêu nghiên cỨu ¿+ + + + +Ek+k#keEEEEEEkEkekerrkrkekrkrrie 9
1.4 Đối tượng và phạm vi nghiên cứu -cccccc+++ccvcvvveccezee 9 2 TONG QUAN TINH HÌNH NGHIÊN CUU 10
2.1 Gidi thiệu chung 0 2.2 _ Tình hình nghiên cứu trong nước 0 2.3 Tình hình nghiên cứu ngoài nước 2
2.4 Những tồn tại cần giải quyết 4 CHƯƠNG 2: CƠ SỞ LÝ THUYET „17
2.1 Mang nơ-ron hồi quy (RNN - Recurrent Neural Network) [13] 20
Trang 53.3 Giới thiệu Pytorch [17] cccccxsecserreterrrrerrrrrerrrrrerrree 28
CHƯƠNG 3: THU THẬP VÀ XÂY DỰNG BỘ DU LIỆU - 30
1 Bộ dữ liệu thu thập sử dụng cho máy học ¿- - 2 +5s5++<+c+c++ 30
1.1 Nguồn cung cấp dit liệu -¿¿¿22222++22CEvvrrttEEvvrrrrrrrrrerrrer 30
1.2 _ Quá trình thu thập dữ liệu 555c+c+seeeeeeeeeseeeeexeeeexe- SA 1.3 Mô tả bộ dữ liệu thu thập dùng cho máy học -.-‹-‹ - OD.
2 Đánh giá và xây dựng bộ dữ liệu chuẩn - ¿ 2+5 36
2.1 Thống kê dữ liệu theo chu kỳ hàng tháng : + 36 2.2 Lựa chọn thuật toán máy học trên bộ dữ liệu chuẩn - 37 CHƯƠNG 4: PHƯƠNG PHÁP VÀ THỰC NGHIEM - 39
1 _ Các chỉ số đánh giá thuật toán -©22++2222+2+t2v2Exverrrrkrrrerrrer 39
2 Môi trường dùng cho huấn luyện máy học ¿- ¿222cc 40
3 Phương pháp thực nghiệm và đánh giá thuật toán - - -‹-«- Al
3.1 Kết quả thực nghiệm với Bayesian Ridge -+ 42 3.2 Kết quả thực nghiệm với RNN [2l] -c¿52scceccsssceex 47 3.3 Tổng hợp kết qua cccsseccsssssesscsossessossusesssssusssssssesecssssecsessiseeesssuecessseees 56 CHUONG 5: TRIEN KHAI UNG DỤNG -ceSSSĂsSsSeseeeeeesessee 62
1 Mô hình ứng dụng dự báo nhiệt độ không khí 55+ 62
2 Giao diện ứng dụng dự báo NĐKK -.¿- 5-5 5c+sxsvsxsrererreersrer 73
2.1 Trang chủ ĂS SH HH ưưn 73
2.2 Trang thống kê
CHƯƠNG 6: KET LUẬN VÀ HƯỚNG PHÁT TRIEN - 81
1 Thuận lợi và khó khăn - + tt +kEEExtEkeEtekerkerrrkerkrkrrkrrkrkrrke 81
2 Kết quả dat được -cccc 2222222211122 21211111 re 81
3 Hướng phát triển 22-+++2222++2t222211222211E 21211 CE.E.crrrrii 83 TÀI LIEU THAM KHẢO 2ses°vVVEES2+veseeevtEvvvvxssetrtssrvrressee 85
Trang 6Danh mục các ký hiệu và chữ viết tắt
Danh mục các ký hiệu và chữ viết tắt
IKý hiệu lv nghia
INDKK Nhiệt độ không khí
DBTT Dự báo thời tiết
ĐNB Đông Nam Bộ thuộc Việt Nam
Q.1-HCM Quận 1 thuộc thành phó Hồ Chí Minh
INWP Numerical Weather Prediction
TT & DD Thực tế và dự đoán
IHL & KT Huan luyện và kiêm thử
IMHHQ IM6 hình hồi quy
IHQTT Hỏi quy tuyén tinh
IMHDB IMô hình dự báo
CSDL Cơ sở dữ liệu
IBDL Bộ dữ liệu
GIS (Geographic Information Systems
IRNN ‘Recurrent Neural Network
GRU Gated Recurrent Unit
IL achine Learning
(AI Artificial Intelligence
SVMs ‘Support Vector Machines
IDTs Decision Trees
IDL Deep Learning
\CNNs {Convolutional Neural Networks
SL Supervised Learning
SSL Semi-supervised Learning
SciPy Scientific Python
LAPACK Linear Algebra PACKage
GMAO (Global Modeling and Assimilation Office
Trang 7Danh mục các ký hiệu và chữ viết tắt
SRB Surface Radiation Budget
CERES Clouds and the Earth’s Radiant Energy System
IFLASHFLUX [Fast Longwave and SHortwave Flux
IWCRP 'World Climate Research Programmer
GEWEX Global Energy and Water Cycle Experiment's
ASDC Science Data Center
INASA National Aeronautics and Space Administration
MAE Mean Absolute Error
MSE Mean Squared Error
IRMSE Root Mean Square Error
ACC Accuracy
LSTM Long Short- Term Memory
IPOWER Prediction of Worldwide Energy Resources
GEOS Goddard Earth Observing System
MERRA Modern-Era Retrospective analysis for Research and Applications,
‘Version 2 IDE Integrated Development Environment
Trang 8Danh mục các bảng
Danh mục các bảng
Bảng 1 Những luận văn có nội dung tương tự - - 5 5s ssserseererrke 12 Bang 2 Bảng so sánh phương pháp trong luận văn và các nghiên cứu liên quan 14
Bang 4 Công thức tính các chỉ số đánh giá mô hình máy học - 39
Bảng 5 Khung dit liệu của Q.1-HM - SG 3S 32.13 gi ey 41
Bang 6 Cách thức dự đoán của MHHQ Bayesian Ridge - «- 43
Bảng 8 Bảng kết quả đánh giá sai số của mô hình Bayesian Ridge 47Bảng 9 Bảng thiết lập và huấn luyện một mô hình RNN . -: - 47
Bang 11 Bảng kết quả đánh giá sai số của mô hình Vanila RNN - 50Bảng 12 Bảng các thông số mô hình RNN-LSTM ¿-2¿©2+©5+2cszs 50Bang 13 Bang kết quả đánh giá sai số của mô hình RNN-LSTM - 54Bảng 14 Bảng các thông số mô hình RNN-GRU -¿ 5¿©+©5++zs++cxzz 54Bang 15 Bảng kết quả đánh giá sai số của mô hình RNN-GRU 56
Bang 16 Bảng kết quả của các thuật toán dự báo trên dữ liệu thành phố Hồ Chí Minh
¬— Ễ VY ` OO: ce seceeesseccenenseecsnsnscarseseceecssesseacerenssers 57
Bang 17 Bảng kết quả của các thuật toán dự báo trên dữ liệu tỉnh Đồng Nai 57Bảng 18 Bảng kết quả của các thuật toán dự báo trên dữ liệu tỉnh Bình Dương 58Bảng 19 Bảng kết quả của các thuật toán dự báo trên dữ liệu tinh Bình Phước 58
Bang 20 Bảng kết quả của các thuật toán dự báo trên dit liệu tỉnh Tây Ninh 59Bảng 21 Bảng kết quả của các thuật toán dự báo trên dữ liệu tỉnh Bà Rịa - Vũng Tàu
— 59 Bang 21 Danh sách các ACfOT - -.G- c 1119111 111111191111 HH ng ng kh 63 Bang 23 Danh sách các s€-Case - G1 HH HH HT nghiệt 63
Bang 25 Đặc tả Use-case 2 - LH HH HH TH HH HH nhiệt 65
Bảng 26 Mô tả thông tin dữ liệu địa ÌÍ - 2c 3 2+2 +*EsEEeerrrersrerrrerrserrke 71
Bang 27 Mô tả thông tin dit liệu của NDKK tầm 2 mét 2-5-5555 552 71
Trang 9Danh mục các bảng
Bảng 28 Mô tả màn hình trang chủ
Bảng 29 Mô ta màn hình trang thống kê -2- 2-52 2 E+EE+2E£2EE+EEeEEzEezrxzei
Bang 30 Bang so sánh kết quả với các nghiên cứu khác -szsz2 2e:
Trang 10Danh mục các hình vẽ, đồ thị
Danh mục các hình vẽ, đồ thị
Hình 1 Cách mô hình học sâu hoạt động - 52c + + *+Sireirrrrrrrerrke 18
Hình 2 Sơ đồ phân loại máy học - 2 2 s©++E£+E£+EE+EEeEEEzEEerxerkerrerrerred 18Himh 3 Mang no-ron hi Quy 00787 .- 21Hình 4 Mạng than kinh tái phát là gì - ¿- ¿5£ 5 +EE+EE+EE2EE+Ee£Eerkerxerxerxrree 22
Hình 5 Trang chủ dự án POWER của NASA cc csSHn 31
Hình 6 Sự thay đôi của nhiệt độ trung bình hàng tháng tại Q.1 - HCM 37
Hình 7 Sơ đồ dữ liệu dùng dé huấn luyện máy học .: -: ¿5+5 38
Hình 8 Biéu đồ hién thị dự đoán từ MHHQ Bayesian Ridge -5- 44Hình 9 Biéu đồ giữa TT & DD của mô hình Bayesian Ridge - 45Hình 10 Kết quả so sánh giữa TT & DĐ của mô hình Bayesian Ridge trong 30 ngày
¬ 7.7 ở 46
Hình 11 Biéu đồ các giá trị sai số giữa HL & KT của mô hình Vanila RNN 49Hình 12 Kết qua so sánh giữa TT & DD của mô hình Vanila RNN 49Hình 13 Kết quả so sánh giữa TT & DD của mô hình Vanila RNN trong 30 ngày50Hình 14 Biéu đồ các giá trị sai số giữa HL & KT của mô hình RNN-LSTM 52Hình 15 Kết quả so sánh giữa TT & DD của mô hình RNN-LSTM 53
Hình 16 Kết quả so sánh giữa TT & DD của mô hình RNN-LSTM trong 30 ngày
¬ - - ‹.ẮẦẨẮ.ố 53
Hình 17 Biéu đồ các giá trị sai số giữa HL & KT của mô hình RNN-GRU 55Hình 18 Kết quả so sánh giữa TT & DD của mô hình RNN-GRU 55Hình 19 Kết qua so sánh giữa TT & DD của mô hình RNN-GRU trong 30 ngày 56
Hình 20 Sơ đồ Use case của hệ thống 2-2-2 ©5£2S2+EE+EE£EEE2EESEEeEkerkerrerred 62Hình 21 Kiến trúc tổng quan hệ thống dự báo NĐKK - 2-52 52 s2=s2 67
Hình 22 Lưu đồ thuật toán dự báo NĐKK - 55c 69
Hình 23 Màn hình trang chủ ứng dung dự báo NĐKK c-.c+xs«2 73 Hình 24 Màn hình dự báo NDKK khu vực địa lý - cS-csscssereireereereee 75
Hình 25 Màn hình trang thống kê, ứng dụng dự báo NĐKK - 76Hình 26 Biểu diễn NDKK tại tinh Đồng Nai với thông tin của giá trị thực tế từ ngày
"65: 651927000888 77
Trang 11Danh mục các hình vẽ, đồ thị
Hình 27 Biéu diễn NDKK tai tỉnh Đồng Nai với thông tin của giá trị dự báo từ ngày2/2 Aén 60051920EEPPnP008Ẻ 78
Hình 28 Biéu diễn NDKK từ ngày 1/1 đến 31/03/2023 khu vực Binh Phước 79
Hình 29 Dữ liệu được xuất dưới dạng file csv từ ngày 1/1 đến 31/03/2023 khu vực
20003221177 80
Trang 12MỞ DAU
MỞ DAU
Luận văn này tập trung vào việc xây dựng một ứng dụng sử dụng mô hình
Bayes và công nghệ máy học dé dự báo nhiệt độ không khí (NDKK) NDKK là yếu
tố quan trọng trong hệ thống khí quyền và có tác động đến thời tiết trên Trai Dat
Nghiên cứu về nhiệt độ không khí giúp hiểu cách các yếu tổ trong bầu khí
quyền biến đổi và tương tác với nhau Nó liên quan đến áp suất không khí, tốc độ gió,
độ âm tương đối cũng như hiện tượng mưa, bão, tuyết và sương mu Vi vậy, nhiệt độ
không khí có vai trò quan trọng trong việc dự báo thời tiết (DBTT) và ảnh hưởng khí
hậu tới sinh vật trên Trái Đắt
Mục tiêu của luận văn này là nghiên cứu va phân tích về NDKK, cùng việcphát triển được một hệ thong hiệu quả dé quản lý và dự báo nhiệt độ không khí Délàm điều này, luận văn sẽ sử dụng thông tin thu thập và phân tích từ các trạm quansát, áp dụng công nghệ tiên tiền như mô hình Bayes và các thuật toán máy học
Nghiên cứu này mong muốn hiểu rõ hơn về ảnh hưởng của NDKK đối với thờitiết, cũng như tìm ra cách để đối phó và ngăn chặn các tác động tiêu cực của biến đổi
khí hậu Dựa trên kiến thức lý thuyết và thực tế, nghiên cứu nay hy vọng sẽ đóng góp
vào sự phát triên của lĩnh vực liên quan.
Trang 13CHƯƠNG 1: TONG QUAN DE TAI
CHUONG 1: TONG QUAN DE TAI
Chương 1 sé bắt dau với một tom tắt về dé tài, giới thiệu khái niệm về nhiệt độkhông khí và tác động cua nó đối với sức khỏe con người Tiếp theo, chương sẽ phân
tích mục tiêu và phạm vi nghiên cứu, dong thời xem xét tình trạng nghiên cứu vềNĐKK cả trong và ngoài nước Cuối cùng, chương cũng sẽ nhấn mạnh vào nhữngthách thức còn tôn đọng chưa được giải quyết
1 GIỚI THIỆU ĐÈ TÀI
1.1 Nhiệt độ không khí
NDKK là nguyên nhân làm anh hưởng trực tiếp đến các chỉ số thời tiết như
độ âm tương đối, tốc độ bay hơi của nước, hướng gió và cũng như các hiện tượngthời tiết như mưa, mưa đá và tuyết Do đó nó tác động đến môi trường sống tự nhiên
của các loài sinh vật trên Trái Dat
Đề cho ra DBTT có độ chính xác cao phải cần đến một hệ thống dự báo cho
chỉ số nay NDKK cũng được dùng dé dự đoán các chi số liên quan khác trong phạm
VI.
1.2 Ảnh hưởng của NDKKTrong nhiều khía cạnh khác nhau của cuộc sống như:
Dự Báo Cho Thời TiếtNDKK là yếu tổ cốt lõi trong những mô hình DBTT Các mô hình này đa số
sử dụng các thông tin như nhiệt độ hiện tại cùng với các dữ liệu khác dé dự đoán thayđổi thời tiết trong tương lai
NDKK giúp đo lường và phân tích các trạng thái khí tượng khác nhau như áp
suất, độ âm, và sự đi chuyển của không khí
NDKK ảnh hưởng đến cách các hiện tượng được hình thành như mây, mưa,
và các khu vực áp suât cao hoặc thâp.
Trang 14CHƯƠNG 1: TONG QUAN DE TAI
Phân Tích va Dự Báo Môi Trường
Chỉ số NDKK mô ta sự thay đổi nhiệt độ đối với một khoảng thời gian cụ thé
và giúp các chuyên gia DBTT suy luận về các yếu tố như nắng, mây, gió và nhiệt độ
ở một khu vực.
Ngoài ra, NDKK ảnh hưởng đến các yếu tố khác như áp suất không khí, độ4m và mức độ sương mù Vi dụ: một mức NDKK thấp có thé dẫn đến độ 4m cao và
ngược lại.
Hiểu Biết Tông Quan về Thời Tiết
Dự Báo Tổng Quan: Khi kết hợp NDKK với các yếu tổ khác như độ ẩm và ápsuất không khí cung cấp một cái nhìn tổng quan về thời tiết, giúp dự báo chính xác
hơn về các hiện tượng như mưa, tuyết, sương mù, hoặc nắng nóng
Ứng Dụng Lĩnh Vực Khác
Trong nông nghiệp: Dự báo nhiệt độ không khí giúp nông dân lập kế hoạch
gieo trồng và thu hoạch
Sức Khỏe và An Toàn Công Cộng: Cảnh báo về nhiệt độ cực đoan giúp ngănchặn các vấn đề sức khỏe liên quan đến thời tiết
Quản Lý Năng Lượng: Dự báo nhiệt độ giúp các doanh nghiệp ngành năng
lượng dự đoán và quan lý nhu cầu về sưởi 4m và làm mát
Tom lại, NDKK không chi quan trọng trong DBTT mà còn có ảnh hưởng rộng rãi đôi với môi trường, kinh tê, sức khỏe công cộng, và nhiêu lĩnh vực khác.
1.3 Mục tiêu nghiên cứu
Luận văn này tạo ra với ứng dụng dự báo NDKK có thể ước lượng nhiệt độ
không khí trong tương lai, thực hiện các phương pháp xử lý dit liệu dé tăng độ chínhxác của việc dự báo NDKK băng cách thực hiện mô hình Bayes và công nghệ máy
Trang 15CHƯƠNG 1: TONG QUAN DE TAI
Đối tượng nghiên cứu:
Dữ liệu NDKK: Bộ dữ liệu NDKK thang độ C (°C) ở độ cao 2 mét (T2M)
của 6 tinh/thanh vung DNB theo chu kỳ 24 giờ (hoặc một ngày) từ ngày
10/01/1981 đến ngày 01/03/2023
Mô Hình Bayes và công nghệ máy học: Một mô hình thống kê được áp
dụng dé dự đoán NĐKK Dữ liệu về NĐKK sẽ được thực hiện dé tạo ra và
điều chỉnh mô hình này
Triển khai Ứng Dụng: Quản lý, thống kê và dự báo NĐKK
Phạm vi nghiên cứu của luận văn:
NDKK (°C) ở độ cao 2 mét (T2M) của 6 tỉnh/thành thuộc vùng DNB.
2 TONG QUAN TINH HÌNH NGHIÊN CỨU
2.1 Giới thiệu chung
Nghiên cứu về DBTT trong nước đang gặp nhiều thách thức và ít có hệ thống
dự báo NDKK được áp dụng rộng rãi cũng như một vài yếu tố kỹ thuật chưa đượcgiải quyết hoàn toàn
Những trở ngại chủ yếu bao gồm:
Có nhiều khó khăn khi tích hợp và phân tích dữ liệu Việc tạo mô hình dựbáo (MHDB) trở nên khó khăn do dữ liệu về NDKK bằng dữ liệu thực tế
là khó tìm kiếm và chưa có độ tin cậy cao Nếu có cũng chưa được đánhgiá và công bố các kiểm chứng
Ứng dụng một mô hình dự báo NDKK thực tế với đầu ra chính xác, tin cậy
là một trong những thách thức khi xây dựng mô hình hóa và dự đoán Đềgiải quyết van dé này, luận văn sẽ tiếp cận bang mô hình Bayes và các công
nghệ máy học.
2.2 Tình hình nghiên cứu trong nước
Một số trung tâm nghiên cứu khí tượng ở nước ta sử dụng mô hình DBTTtruyền thống Synop dé DBTT Phương pháp này dựa vào thống kê các hình thế thời
tiết đã gây ra mưa lớn trong quá khứ cho từng khu vực Mặt khác, hạn chế chính của
10
Trang 16CHƯƠNG 1: TONG QUAN DE TAI
phương pháp Synop là nó có thé mở rộng thời gian dự báo, điều này chi mang lại độchính xác cao trong khoảng thời gian từ một đến hai ngày
Với sự phát triển của khoa học và công nghệ, các phương pháp mới như họcmáy (ML) đã được áp dụng vào DBTT truyền thống
e_ Một nhóm nghiên cứu gồm có Nguyễn Dau Hoàng, Nhâm Ngọc Tân và
Nguyễn Thị Huế từ Bộ Thông tin và Truyền thông - Bộ Tài nguyên và Môi
trường [2] đã sử dụng các phương pháp ML dé DBTT tại Việt Nam Mục
tiêu chính của nghiên cứu này là xây dựng một MHDB xâm nhập mặn cho
lưu vực sông Hậu bằng cách sử dụng các phương pháp ML có giám sát.Các mô hình ML có giám sát được thử nghiệm bao gồm mô hình hồi quy(MHHQ) tuyến tính và MHDB chuỗi thời gian ARIMA Kết quả của những
mô hình này sau đó được tích hợp vào phần mềm thử nghiệm như một phần
của dự án nghiên cứu do Bộ tài trợ.
e Trong một nghiên cứu khác "Dự đoán chuỗi thời gian dựa trên ML: Nghiên
cứu điền hình, dự báo nhiệt độ ở Việt Nam", của các tác giả Ngô Thị ThanhHòa, Chu Thị Quyên, Nguyễn Thị Câm Ngoan [1] tập trung vào việc sửdụng máy học dé dự báo nhiệt độ ở Việt Nam dữ liệu đầu vào bao gồm cácchuỗi nhiệt độ hàng ngày từ nhiều thành phố của Việt Nam Mục tiêu của
dự án là dự đoán nhiệt độ trong 7 ngày tới tại các thành phố khác nhau ởViệt Nam bằng cách sử dụng dữ liệu trước đó về nhiệt độ và lượng mưathu thập từ năm 2014 đến năm 2019 Dữ liệu được thu thập tại các khoảngthời gian đều đặn là 3 giờ từ nhiều địa điểm khác nhau, tổng cộng có 17.528
giá trị BDL bao gồm nhiều địa điểm như BẮC QUANG, QUẢNG HÀ,TAM ĐẢO, CAT TIÊN, KỲ ANH, A LƯỚI và NAM ĐÔNG Tập dữ liệu
huấn luyện bao gồm dữ liệu thu thập từ thang 1 năm 2014 đến tháng 12năm 2017, trong khi tập dữ liệu kiểm tra bao gồm đữ liệu thu thập từ tháng
1 năm 2018 đến thang 12 năm 2019 Nghiên cứu này nhân mạnh tính hiệuquả của phương pháp LSTM trong dự đoán nhiệt độ và đề xuất nó là một
phương pháp thay thế khả thi cho các phương pháp dự báo hiện tại
Qua các thông tin trên cho thấy việc áp dụng máy học cho dự báo nhiệt độ nóiriêng và thời tiết nói chung đang dần trở thành một xu hướng
11
Trang 17CHƯƠNG 1: TONG QUAN DE TAI
Các luận văn có nội dung tương tự:
Bảng mô tả các luận văn có nội dung tương tự như sau:
Bảng 1 Những luận văn có nội dung tương tự
thuật toán học sâu
RNN-GRU Ngoài ra,
công việc bao gồm việc
Chưa có phần thống kê
trong ứng dụng dự báo
2.3 Tình hình nghiên cứu ngoài nước
Nhiều tác giả nước ngoài đã tiên hành nghiên cứu và phát triên các phương
pháp sử dung các công nghệ máy học dé cải thiện dự báo nhiệt độ và thời tiết Phươngpháp này cho phép tích hợp kiến thức tiền định với dữ liệu thực tế dé tăng độ chính
xác của DBTT.
e Nhóm tác giả do Seyed Matin Malakouti dan đầu đã công bố trong tạp chí
Case Studies in Chemical and Environmental Engineering, Vol.7 Bài báo
"Utilizing time series data from 1961 to 2019 worldwide and machine
learning to create a Global Temperature Change Prediction Model" cua
12
Trang 18CHƯƠNG 1: TONG QUAN DE TAI
Seyed Matin Malakouti [8] tap trung vao phat triển một mô hình dé dựđoán sự thay đối nhiệt độ toàn cầu bang cách sử dụng thuật toán ML va dirliệu chuỗi thời gian từ năm 1961 đến 2019 Nghiên cứu nhắn mạnh sự quan
trọng của việc theo dõi và dự đoán sự thay đôi nhiệt độ dé có hiểu biết tốt
hơn về xu hướng khí hậu trong tương lai và hỗ trợ người ra quyết địnhtrong việc giảm thiểu hậu quả của biến đổi khí hậu
Nghiên cứu sử dung dit liệu Thay đôi Nhiệt độ Bề mặt Toàn cầu do
NASA-GISS ghi nhận va áp dụng các thuật toán ML như Bayesian Ridge, Extra
Trees và Random Forests dé tạo ra một mô hình dự đoán Các thuật toán
này được đánh giá dựa trên các tiêu chí như MAE, MSE, RMSE, R},
RMSLE, MAPE và thời gian thực thi Giá trị sai số bình phương trung bình
(RMSE) đạt được khi sử dụng Bayesian Ridge là 0.5298.
e Các tác giả N Qona'ah và Sutikno cũng đã công bố trong tạp chí
Proceeding International Conference on Science and Engineering, Vol.3
với bai bao "Temperature Forecast Using Ridge Regression as Model Output Statistics"[12] nghiên cứu cai thiện dự báo nhiệt độ tai Indonesia
bang cách sử dung Ridge Regression Nghiên cứu này nhằm mục dich nâng
cao độ chính xác của việc dự báo nhiệt độ tối đa và tối thiểu bằng cách sửdụng đữ liệu DBTT Số (NWP), đồng thời giảm thiểu sự tương quan giữacác biến Đánh giá của mô hình bằng cách sử dụng Sai số Bình phươngTrung bình Dự đoán (RMSEP) cho thấy RMSEP cho nhiệt độ tối đa ở mứctrung bình (0.9-1.2), trong khi RMSEP cho nhiệt độ tối thiểu ở mức tốt
(0.5-0.8) Mô hình này cho thấy mức độ chính xác cao hơn so với mô hình
NWP hiện tại, và đề xuất sử dụng nó cho dự báo nhiệt độ bởi BMKG vớikhả năng cải thiện tỷ lệ lỗi lên đến 90.49%
Những bài báo này chứng minh rằng các phương pháp này đã thành công trong
việc áp dụng máy học cho dự báo nhiệt độ và thời tiết ở nhiều quốc gia khắp thế giới
Ngoài ra, việc sử dụng các phương pháp này còn giúp tăng cường độ chính xác va tin cậy trong việc dự báo.
13
Trang 19CHƯƠNG 1: TONG QUAN DE TAI
2.4 Những tồn tại cần giải quyết
Bảng 2 Bảng so sánh phương pháp trong luận văn và các nghiên cứu liên quan
Dự đoán chuỗi thời gian
dựa trên ML: Nghiên cứu
điển hình, dự báo nhiệt độ
ở Việt Nam [2]
So sánh toàn diện giữa
các MHDB khác nhau (SARIMA, XGBoost, LSTM, Prophet), bao
gồm cả kỹ thuật truyềnthống và tiên tiến
Hiệu quả của LSTM trong
dự báo chuỗi thời gian
theo mùa được chứng
minh rõ ràng.
Cho thấy hiệu quả cạnh
tranh của dự báo dựa trên
mạng nơ-ron so với các
phương pháp truyềnthống
Dữ liệu cụ thể sử dụngtrong nghiên cứu hạn chế
worldwide and machine
learning to create a Global
và dự đoán xu hướng
nhiệt độ toàn cau
Áp dụng nhiều thuật toán
ML khác nhau (như Extra
Trees, Random Forest,
Light Gradient Boosting
Machine, K Nearest
Neighbors, Gradient
Kết quả dựa trên mô hìnhmáy học có thé không
hoàn toàn chính xác khi
áp dụng vao dtr liệu mới
hoặc trong các điều kiệnbiến đổi khí hậu nhanh
Trang 20CHƯƠNG 1: TONG QUAN DE TAI
Boosting, Bayesian Ridge) cho phép so sánh
va chon lựa phương pháp
hiệu quả nhất
Mô hình tập trung vào dự
đoán sự thay đôi nhiệt độtoàn cầu, có thể không
chính xác cho dự báo ở
cấp độ địa phương hoặc
khu vực.
Temperature Forecast
Using Ridge Regression
as Model Output Statistics
[12]
Su dung Ridge
Regression nhu mot Model Output Statistics
(MOS) dé cai thién du
bao nhiệt độ, đặc biệt hiệu quả trong việc giảm
thiểu độ sai lệch của dự
báo NWP.
Cải thiện đáng ké chấtlượng DBTT ngắn hạn,
đặc biệt quan trọng cho
khí nhiệt đới và địa hình đa Indonesia với hậu
dạng
Dự báo vẫn còn phụ thuộc
vào dữ liệu NWP, có thể
không chính xác ở những vùng có địa hình phức tạp
hoặc thay đổi nhanh
chóng.
Kho khăn trong việc ap dụng cho đữ liệu từ các
khu vực với điều kiện thời
tiết và địa hình khác biệt
lớn, như ở các khu vực núi
non
Trong luận văn này Luận văn nay tiép cận băng việc kêt hop Bayesian và
Ridge Regression dé xem liệu có thé đạt được dự báochính xác hơn so với MHHQ truyền thống, nhờ vàokhả năng điều chỉnh linh hoạt và xử lý tốt sự khôngchắc chắn Phương pháp Bayesian cho phép biéu diễntham số mô hình dưới dạng phân bố xác suất, tăng
cường tính linh hoạt, khả năng thích ứng với dữ liệu mới và cập nhật mô hình khi có thông tin mới.
Bayesian Ridge Regression áp dụng điều chuẩn, giúp
giảm thiểu hiện tượng overfitting - một vấn đề quan
15
Trang 21CHƯƠNG 1: TONG QUAN DE TAI
trong trong dự báo chuỗi thời gian, đặc biệt khi lam
việc với đữ liệu có nhiều nhiễu hoặc không ôn định
Những lý do này làm cho Bayesian Ridge Regression
trở thành một lựa chọn hợp lý và mạnh mẽ bối cảnh dự
báo chuỗi thời gian.
Với kiến thức công nghệ còn hạn chế, Việt Nam hiện có ít hệ thống dự báoNDKK Phát triển hệ thống dự báo NDKK riêng sẽ mang lại lợi ích quan trọng:
Đầu tiên, nó nâng cao kiến thức công nghệ thông tin trong lĩnh vực DBTT
Việc xây dựng hệ thông NDKK sẽ cung cấp công cụ quan trọng cho nhà nghiên cứu,chuyên gia và cơ quan chức năng theo dõi, đánh giá biến đổi khí hậu trong nước
Hơn nữa, việc phát triển hệ thông dự báo NDKK riêng cũng cho phép tối ưu
hóa các yếu t6 cụ thê liên quan đến vùng địa lý Với việc sử dung dit liệu từ các thành
phố và vùng miền khác nhau trong nước, hệ thong có thé hiểu rõ hơn về yếu tố, các
chỉ số khác nhau ảnh hưởng đến NĐKK, như địa hình, vị tri địa lý, và hệ thống không
khí khu vực Điều nay cho phép tinh chỉnh các MHDB dé đảm bảo rằng dự đoán
NDKK được chính xác và dang tin cậy hon.
Tóm lại, việc phát triển một hệ thống dự báo NĐKK riêng tại Việt Nam sẽ gópphần vào việc nâng cao tri thức về công nghệ thông tin, cung cấp thông tin chính xác,đáng tin cậy cho các nhà nghiên cứu và người dùng cuối Đồng thời, nó cũng sẽ tăng
cường kha năng ứng phó với biến đồi khí hậu và sự kiện thời tiết cực đoan
16
Trang 22CHƯƠNG 2: CƠ SỞ LÝ THUYET
CHƯƠNG 2: CƠ SỞ LÝ THUYÉT
Chương thứ 2 sẽ cung cấp các cơ sở lý thuyết về máy học và các mô hình dự đoán dé
hỗ trợ xây dựng và phát triển mô hình dự báo nhiệt độ không khi
1 Tổng quan về máy học
Học máy, hay còn gọi là Máy học — ML thuộc lĩnh vực Trí tuệ nhân tạo(AI)
cho phép hệ thống tự học và điều chỉnh đữ liệu mà không cần được lập trình theo mộtcách cụ thé Quá trình này liên quan đến việc cung cấp dit liệu đến những thuật toán
đề chúng thiết lập các mô hình toán học từ các mẫu và xu hướng trong dữ liệu Những
mô hình này có khả năng tự động dự đoán hoặc đưa ra quyết định mà không cần sự
can thiệp trực tiếp từ con người
Học sâu, một phần của lĩnh vực ML, sử dụng các thuật toán tạo các lớp dé tao
ra một “mang neural nhân tao” có khả năng hoc từ đó chi ra dự đoán Quyết địnhthông minh tự động đã làm thay đổi toàn bộ lĩnh vực nay Có nhiều bước tiến lớn như
việc dùng Mang nơ-ron tích chập (CNNs) làm cho việc nhận ra hình anh và Mạng
nơ-ron hồi quy (RNNs) dùng vào việc xử lý thông tin tuần tự như văn bản và giọng
nói.
Thuật toán học sâu được xây dựng trên cau trúc làm việc của não người Ví
dụ, não người có hàng triệu tế bào thần kinh liên kết với nhau nhằm mục đích xử lý
thông tin Cũng như, mạng nơ-ron học sâu (hay còn gọi là mạng nơ-ron nhân tạo)
sinh ra từ các lớp nơ-ron nhân tạo làm việc song song trong máy tính Những “nút”
của mang neural này là các đơn vị phần mềm thực hiện các phép toán dé khai thác dữ
17
Trang 23CHƯƠNG 2: CƠ SỞ LÝ THUYET
liệu Các mạng này sử dụng những nút nay dé xử lý các van đề khó trong một lĩnh
Hình 1 Cách mô hình học sâu hoạt động
Nguồn: Machine learning cơ ban [5]
Hiện nay, ML đóng vai trò không thê thiếu trong công nghệ tiên tiến như xe
không người lái, trợ lý giọng nói ảo và dự đoán phân tích Lĩnh vực nay đang được
thúc đây và phát triển bởi sự nghiên cứu cả trong môi trường học thuật và côngnghiệp Với việc tạo ra càng nhiều dữ liệu và tận dụng nguồn tai nguyên tính toánmạnh mẽ hơn, khả năng của ML vẫn tiếp tục được mở rộng
Categorical
Target Variable
Dự báo Hình ảnh Phân khúc ‘Market basket Phan loai Tim đường di Tối ưu hóa Xe không
thời thiết y khoa khách hàng analysis văn bản trên DL GPS makerting người lái
Hình 2 Sơ đồ phân loại máy học
Nguồn: Machine learning cơ ban [5]
18
Trang 24CHƯƠNG 2: CƠ SỞ LÝ THUYET
1.1 Học có giám sát
Hay còn gọi Supervised Learning, là một phương pháp học từ dữ liệu đã được
gan nhãn dé dự đoán hoặc phân loại dữ liệu mới Phương pháp này huấn luyện một
mô hình dé dự đoán đầu ra của dữ liệu mới một cách chính xác sử dụng tập đữ liệu
huấn luyện với đầu vào đã biết và đầu ra mong muốn
Bao gồm hai loại tác vụ chính:
Phân Loại: Trong tác vụ phân loại, đầu ra mong muốn là một nhãn thuộc một
số lớp cụ thé Vi dụ, phân loại email là 'spam' hoặc 'không spam’
Hồi Quy: Trong hồi quy, mục tiêu là dự đoán một giá tri liên tục Vi dụ, dự
đoán giá nhà dựa trên diện tích, vi trí, v.v.
1.2 Học không giám sát
Phương pháp này tận dụng cấu trúc tự nhiên của dữ liệu dé triển khai các nhiệm
vụ như chia nhóm hoặc cắt giảm số chiều của di liệu, nhằm cải thiện tính toán và
quản lý dữ liệu.
Trong ngữ cảnh toán học, phương pháp này xảy ra khi chúng ta chỉ có dữ liệu
đầu vào X mà không biết giá trị nhãn Y tương ứng Trái ngược với Học có giám sát,
nơi câu trả lời đưa ra đúng cho mỗi dữ liệu đã được biết trước
Các bai toán Học không giám sát thường được phân thành hai loại:
Phân nhóm (Clustering): Day là bài toán sử dụng phân chia toàn BDLcủa X
thành nhiều nhóm nhỏ dựa trên sự tương đồng giữa các dữ liệu Một ứng dụng điển
hình là trong việc xử lý tin tức sai Sử dụng kỹ thuật này, chúng ta có khả năng gom
nhóm các bải viết không đúng sự thật dựa vào nội dung, cách dùng từ và các đặc điểm
khác, từ đó giúp xác định tính xác thực của thông tin.
Liên kết (Association): Mục tiêu của loại này là tìm ra các quy luật dựa trên
dữ liệu đã có Một ứng dụng thông thường là khi muốn biết rõ về mối liên hệ giữa
các yếu tố trong tập dữ liệu
1.3 Hoc bán giảm sát
Được sử dụng khi chúng ta đối mặt với các thách thức của bài toán, nơi tập dữliệu lớn X bao gồm một phần không nhỏ không có nhãn
19
Trang 25CHƯƠNG 2: CƠ SỞ LÝ THUYET
Giả định cụ thé là khi chỉ một phần nhỏ của ảnh hoặc văn ban được gan nhãn,chăng hạn như bức tranh liên quan đến con người, động vật, hoặc văn bản trong các
dé tài khoa học và chính trị Trái ngược với điều đó, phần lớn dé liệu không có nhãn
được tự động tập hợp từ nguồn Internet Cho thấy rất nhiều bài toán ML thuộc vào
loại này, khi quá trình thu nạp dữ liệu có nhãn thường đòi hỏi nhiều nguồn lực về cả
chi phí và thời gian Đối với nhiều loại dữ liệu đặc biệt, việc gan nhãn thậm chí cần
sự chuyên gia, như trong trường hợp của ảnh y học Ngược lại, việc tìm kiếm dữ liệukhông có nhãn thường không mắt chi phí và có thé thực hiện dé dàng từ Internet
2 Một số thuật toán máy học phố biến
2.1 Mạng nơ-ron hồi quy (RNN - Recurrent Neural Network) [13]
Là mạng nơ-ron có đầu ra từ bước trước được đưa vào như là đầu vào chobước hiện tại Hầu hết các đầu vào và đầu ra đều đơn lập không liên kết ở các mạngnơ-ron truyền thống, nhưng trong những tình huống cần dự đoán từ tiếp theo trong
một câu, cần nhớ các từ trước đó Do đó, RNN tạo ra đề khắc phục vấn đề này voi sựgiúp sức của một tầng ân (hidden layer) Đặc điểm chính và cần thiết nhất của RNN
là trạng thái ân (hidden state), nó lưu một vài thông tin về một chuỗi Do đó cũngđược coi là trạng thái bộ nhớ vì nó lưu đầu vào trước đó của mạng RNN dùng cáctham số giống nhau cho mỗi đầu vào, vì nó triển khai cùng một nhiệm vụ trên hầu hết
các dau vào hoặc các tang an đê tạo ra dau ra Từ đó, giúp giảm độ khó vê tham sô.
20
Trang 26CHƯƠNG 2: CƠ SỞ LÝ THUYET
|w Unfold Ìw le |w
@ ® @ 8
Hình 3 Mạng nơ-ron hồi quy
Nguồn: Giới thiệu mạng nơ ron hồi quy [13]
Kiến trúc của Mạng No-ron hồi quyMạng nơ-ron hồi quy (RNN) có cùng dạng đầu vào và đầu ra như bắt kỳ kiến
trúc nơ-ron sâu (deep neural architecture) nao khác Mặt khác, sự khác nhau sinh ra
trong cách thông tin chạy từ đầu vào đến đầu ra Khác với mạng nơ-ron sâu (deep
neural networks) nơi chúng ta có các ma trận trọng số khác biệt cho mỗi mạng Dense,trong RNN, trọng số trên toàn mạng giữ nguyên Nó tính toán trạng thái ân (hidden
state) H, cho mỗi đầu vào X;bằng việc áp dụng các công thức sau:
Trang 27CHƯƠNG 2: CƠ SỞ LÝ THUYET
RECURRENT NEURAL NETWORKS
So RNN 51 RNN_ Šn RNN | RNN ls
Cell Cell TM Cell Cell
Xo Xị Xn X;
Hình 4 Mạng thần kinh tái phát là gì
Nguồn: Giới thiệu mạng nơ ron hồi quy [13]
RNN bao gồm nhiều đơn vị hàm kích hoạt cố định, mỗi đơn vi tương ứng vớimột bước thời gian Mỗi đơn vị có một trạng thái nội tại được gọi là trạng thái an củadon vị Trạng thái 4n này biểu thị kiến thức về quá khứ mà mạng hiện tại đang giữ tạimột thời điểm cụ thé Trạng thái an nay được cập nhật ở mỗi bước thời gian dé biểu
thị sự biến đổi trong kiến thức của mạng về quá khứ Trạng thái ấn được cập nhậtbăng cách sử dụng mối quan hệ tái phát sau đây:
Công thức dé tính trạng thái hiện tại là:
hy = ƒ(h_„X.) (2.2)
Trong đó:
e h, là trạng thái hiện tai.
e h,_¡ là trạng thai trước đó.
e X, là trạng thái đầu vào
Công thức áp dụng hàm kích hoạt (tanh) là:
h, = tanh(W„ph,_¡ + WenXt) (2.2.1)
Trong do:
e whh -> trọng số tai neuron tái phát
e wxh -> trọng số tại neuron đầu vàoCông thức tính toán đầu ra:
22
Trang 28CHƯƠNG 2: CƠ SỞ LÝ THUYET
Ve = Wnyh; (2.2.2)
e Y,->daura
e Why -> trọng số tại lớp đầu ra
Các tham số này được cập nhật bằng lan truyền ngược (Backpropagation) Tuynhiên, vì RNN hoạt động trên dữ liệu tuần tự, nên sử dụng phương pháp cập nhật qua
thời gian (Backpropagation through time).
Nó bao gồm các công (gates) chức năng dé kiểm soát việc truyền thông tintrong mang và lưu trữ Các công này bao gồm công quên (forget gate), công đầu vào(input gate), và cong đầu ra (output gate)
LSTM có thé học va ghi nhớ thông tin dài hạn, nên thường sử dụng ở các tác
vụ đòi hỏi việc theo dõi thông tin lâu dài như trong NLP và cùng với các vấn đề phântích đến chuỗi thời gian
Don vi tuần hoàn có công (GRU - Gated Recurrent Unit):
GRU cũng là một kiến trúc mang nơ-ron RNN và cũng giải quyết van đề bimắt gradient
Tương tự như LSTM nhưng nó đơn giản hóa về kiến trúc bằng cách chỉ sửdụng hai công chức năng: cổng cập nhật (update gate) và công khởi tao (reset gate)
GRU có ít tham số hơn và thường có khả năng học nhanh hơn so với LSTM,nhưng có khả năng không thể hiệu quả băng LSTM trong việc theo dõi thông tin dài
hạn.
2.2 Định lý Bayes [14]
Giúp tìm ra khả năng một sự kiện diễn ra khi biết trước khả năng mà sự kiện
khác đã đưa ra Định lý này có phương trình toán học:
23
Trang 29CHƯƠNG 2: CƠ SỞ LÝ THUYET
Bước căn bản đầu tiên cần phải xác định sự kiện A bằng xác suất, giả sử rằng
sự kiện B là chính xác Thi sự kiện B có thé coi là bang chứng
P(A) là xác suất tiên nghiệm của A Bằng chứng là sự kiện B
Xác suất hậu nghiệm của B, có thé được coi là xác suất của sự kiện sau khi có
Sự không tương đồng giữa HQTT truyền thống và hồi quy Bayesian là giả
định cơ bản về quá trình tạo ra dữ liệu HOTT truyền thống giả định rằng dữ liệu tuân
theo phân phối Gaussian hoặc bình thường, trong khi hồi quy Bayesian có những giảđịnh rõ nét hơn về tính chất của đữ liệu và đặt một phân phối xác suất trước cho các
số liệu Hồi quy Bayesian cũng mang lại nhiều tính linh hoạt hơn khi cho phép thêmcác tham số hoặc phân phối trước, và nó dùng dé triển khai mô hình phức tạp tùy ýthé hiện rõ ràng các niềm tin trước đó về dữ liệu Hơn nữa, hồi quy Bayesian cung
cấp các phép đo dự đoán chính xác hơn từ ít điểm dữ liệu hơn và có khả năng xây
24
Trang 30CHƯƠNG 2: CƠ SỞ LÝ THUYET
dựng ước lượng cho sự không chắc chắn xung quanh các ước lượng Ngược lại,HQTT truyền thống dễ thực hiện hơn và nhanh hơn với các mô hình đơn giản và cóthé cung cấp kết quả tốt khi những giả định về dữ liệu là hợp lệ
Hồi quy Bayesian rất hữu ích khi đữ liệu không đủ trong tập dữ liệu hoặc dữliệu phân phối kém Đầu ra của MHHQ Bayesian được thu được từ một phân phối
xác suất, so với các kỹ thuật hồi quy thông thường nơi mà đầu ra chỉ được thu được
từ một giá trị đơn lẻ của mỗi thuộc tính.
Các đặc trưng độc lập cho HQTT là X = {x1, xạ, , Xp} nơi mà x; đại diện đại
diện cho đặc trưng độc lập thứ i va biến mục tiêu sẽ là Y Giả sử chúng ta có mẫu
của (X,y).
Mối quan hệ tuyến tính bao gồm các biến phụ thuộc Y và những đặc trưng độc
lập X có thé được biểu diễn như sau:
Y = Wo + WiXị †+W¿x; + -'' + WyXy + £ (2.4)
Hoặc
y=ƒ(,w)+ e (2.4.1)
Trong đó w = {Wo, Wy, Wo, , w„} là những hệ số hồi quy biểu thị mối quan
hệ giữa các biến phụ thuộc, biến độc lập và là thuật ngữ lối
Công thức này giả định răng lối ¢ tuân thủ theo quy định giữa phân phối chuẩn
với trung bình 0 và phương sai không đổi ø? (e ~ N(0,ø?) Giả định nay cho phép
mô hình hóa phân phối của biến mục tiêu xung quanh các giá trị mục tiêu dự đoán.
2.3.1 Bayesian Ridge Bayesian Ridge là một thuật toán trong học có giám sát, thuộc loại HOTT Nó
ứng dụng phương thức Bayes để ước chừng hệ số của MHHQ Dựa vào, việc dùng
các phân phối trước (prior distribution) cho các hệ số, Bayesian Ridge có khả năng
tự điều chỉnh độ khó của mô hình, giúp giảm tình trạng quá khớp (overfitting)
Dưới day là công thức cơ bản cua Bayesian Ridge:
y=Xw+ ứ (2.5)
Ta có:
e y là vector mục tiêu.
25
Trang 31CHƯƠNG 2: CƠ SỞ LÝ THUYET
e X là ma trận dữ liệu đầu vào
e a là sai số ngầu nhiên được tuân theo phân phối chuẩn
e w là vector trọng số (hệ số hồi quy)
Bayesian Ridge tính toán giá tri có điều kiện của w và ơ dựa trên dữ liệu Các
hệ số này được cập nhật theo quy tac Bayes, dựa vào dữ liệu quan sát và phân phối
trước.
Bayesian Ridge không chỉ cung cấp một dự đoán duy nhất như HQTT thôngthường, mà nó cung cấp một phân phối dự đoán, cho phép đánh giá độ chắc chắn của
các dự đoán.
3 Một sô thư viện sử dụng thuật toán máy học
Sự xuất hiện của nhiều thư viện mới với mục đích giải quyết các vấn đề MLhiệu quả nhất có thé Các thư viện phô biến như:
3.1 Giới thiệu Scikit learn [15]
Được xem là thư viện máy học mã nguồn mở phổ biến của Python, còn được
gọi là sklearn Một loạt các công cụ và thuật toán được cung cấp cho các nhiệm vụ
ML khác nhau, chăng hạn như phân loại, hồi quy, phân cụm, tiền xử lý, lựa chọn môhình và giảm chiều dit liệu
Scikit-Learn từ các thư viện khoa hoc Python khác, chăng hạn như NumPy,
SciPy và matplotlib, và nó hoạt động tốt khi tích hợp với hệ sinh thái Python rộnglớn Nó cho ra một giao diện nhất quán và ứng dụng của các phương pháp ML mộtcách đơn giản, tiếp cận nhanh cho người mới và chuyên gia
Một số tính năng quan trọng của Scikit-Learn là:
Giao diện API nhất quan: Dua ra một API trực quan và nhất quán từ đó có thể
dễ dùng và thay đổi giữa các thuật toán khác nhau
Tiền xử lý dữ liệu: SciKit-Learn cung cấp nhiều kỹ thuật tiền xử lý, bao gồm
chuẩn hóa, tỉ lệ, mã hóa biến phân loại, xử lý giá tri thiếu và trích dẫn đặc trưng
Trước khi huấn luyện một mô hình ML, những bước xử lý trước này rất quan trọng
dé chuẩn bị dit liệu
26
Trang 32CHƯƠNG 2: CƠ SỞ LÝ THUYET
Phân tích mô hình: SciKit-Learn cung cấp các độ do cho nhiệm vụ hồi quy,phân cụm và phân loại để đánh giá hiệu suất của các mô hình ML Ngoài ra, dé cảithiện khả năng hiểu của mô hình, nó cung cấp phương pháp điều chỉnh siêu tham số,phương pháp lựa chọn mô hình và điều chỉnh qua lại
Tích hợp với các thư viện Python khác: Scikit-Learn hoạt động tốt với thư viện
Python bao gồm pandas để xử lý dữ liệu, NumPy/SciPy cho tính toán số học và
matplotlib dé trình bay đữ liệu trực quan
Tom lại, SciKit-Learn là một thư viện mạnh mẽ và linh hoạt giúp quy trình tao
dụng và triển khai mô hình ML trở nên đơn giản hơn Là nguồn tài nguyên dé làm
việc với dự án ML bằng Python
27
Trang 33CHƯƠNG 2: CƠ SỞ LÝ THUYET
3.2 Giới thiệu Tensorflow [16]
TensorFlow, mã nguồn mở của Google, hỗ trợ tạo và ap dụng mô hình ML vahọc sâu, cung cấp cách linh hoạt và tối ưu để xây dựng mô hình ML qua biểu đồ tínhtoán và luồng đữ liệu
TensorFlow trình bày các quá trình tính toán thông qua một biểu đồ tính toán
được gọi là "biểu đồ dòng dữ liệu" Các node (nút) và biến được bao gồm trong một
biểu đồ dòng dữ liệu Trong khi các node hiển thị các phép tinh, thì các biến chứa cácgiá trị có thé chuyền đổi quy trình huấn luyện Dữ liệu có thể được truyền qua nhiềuphép tính khác nhau trong biểu đồ do các nút liên kết lẫn nhau thông qua luồng dữ
liệu.
Tích hợp với NumPy và scikit-learn là một lợi thế của TensorFlow.TensorFlow cung cấp một API phong phú và mạnh mẽ cho việc phát trién mô hình
học máy, bao gồm các lớp, ham mất mát (loss functions), tối ưu hóa và các cách đánh
giá Bên cạnh đó, các công cụ TensorFlow Datasets và TensorFlow Transform hỗ trợ
xử lý các dữ liệu phức tạp.
TensorFlow có thé dùng ở nhiều nền tảng tính toán khác nhau, chang hạn nhưmáy tinh cá nhân, cụm máy tính và hệ thống đám mây như Google Cloud Dé tận
dụng thê mạnh của tính toán song song và tăng hiệu suất tính toán của các mô hình
lớn, dựa trên sự hỗ trợ tình toán đồng thời của cả GPU và TPU
TensorFlow được ưa thích trong lĩnh vực học máy và học sâu nhờ sự phát triển
và hỗ trợ đáng kê từ cộng đồng nghiên cứu và người dùng
3.3 Giới thiệu Pytorch [17]
Pytorch, mã nguồn mở do Facebook phát triển, hỗ trợ Deep Learning và là mộttrong những framework phổ biến nhất trong AI, cùng với Keras và TensorFlow Từ
năm 2019, Pytorch đã trở thành một trong những framework được sử dụng rộng rãi
sau TensorFlow.
Pytorch thường được ưu tiên trong việc nghiên cứu các ứng dụng AI do khả
năng triển khai các bài toán một cách dé dang Với tính năng tính toán động theo biểu
đồ, Pytorch rất giúp it cho các nhà nghiên cứu khi gỡ lỗi và trực quan hóa dữ liệu
Có nhiều ưu điểm của Pytorch bao gồm:
e_ Dễ học và hỗ trợ viết mã đơn giản hơn
28
Trang 34CHƯƠNG 2: CƠ SỞ LÝ THUYET
e Bộ API phong phú giúp mở rộng Thư viện Pytorch.
e Hỗ trợ tính toán động theo biéu đồ
e Linh hoạt, tốc độ cao và tối ưu quá trình nghiên cứu mô hình
e _ Hỗ tro GPU và CPU.
e Dễ dàng gỡ lỗi với IDE PyCharm và các công cụ khác.
e Hỗ trợ nén tang đám mây
Tuy nhiên, Pytorch còn một số hạn chế do là một framework mới ra đời vàonăm 2016, vì vậy không phổ biến cho đến hiện tại Thiếu các công cụ giám sát và
trực quan như bảng tensor.
Bên cạnh đó, Pytorch có số lượng nhà phát triển trong cộng đồng hạn chế hơn
so với các Framework khác.
Tại sao Pytorch lại được ưa chuộng trong cộng đồng nghiên cứu? Mặc dù rađời sau TensorFlow và Keras, Pytorch đã chiếm được lòng tin vì các lý do sau:
e So với Keras và TensorFlow, tính năng autograd của Pytorch đã giúp
nhà nghiên cứu linh hoạt tùy chỉnh mô hình dễ dàng theo từng trường
hợp Hơn nữa, Pytorch giúp hoàn toàn kiểm soát quá trình huấn luyện
mô hình.
e_ PyTorch có một cộng đồng người dùng và đóng góp viên rất lớn Bên
cạnh đó, Pytorch có thê tích hợp nhanh chóng với các thư viện khác
như NumPy và Caffe2 đề triển khai mô hình ở các môi trường không
giống nhau
29
Trang 35CHƯƠNG 3: THU THẬP VÀ XÂY DỰNG BỘ DỮ LIỆU
CHƯƠNG 3: THU THẬP VÀ XÂY DỰNG BỘ DỮ LIỆU
Chương 3 sẽ giới thiệu nguôn cấp dữ liệu, diễn giải quy trình thu thập dữ liệudành cho máy học, dữ liệu lưu trữ và phân tích Sau đó, luận văn sẽ đánh giả để tạo
ra một bộ dữ liệu chuẩn Lựa chọn thuật toan may học phù hợp cho việc thử nghiệmhuấn luyện mô hình tiên đoán nhiệt độ không khi
1 Bộ dữ liệu thu thập sử dụng cho máy học
1.1 Nguồn cung cấp dữ liệu
Việc đánh giá một bộ dữ liệu (BDL) tốt thường dựa trên các tiêu chí:
Tính chính xác (Accuracy): Dữ liệu có đáng tin cậy và phản ánh đúng
thực tế hay không là một trong những yếu tô quan trọng nhất Sự chính xác
có thê được đánh giá bằng cách so sánh với đữ liệu thực tế hoặc thông quaquá trình kiểm định, xác nhận từ các nguồn độc lập
Tinh đa dạng và phong phú (Completeness): Một BDL tốt cần cung cấp
thông tin đa dạng và phong phú, bao gồm những thông tin chỉ tiết, đa chiều
về đối tượng hay hiện tượng đang được nghiên cứu
Tính liên tục và đồng nhất (Consistency): Dữ liệu cần được cập nhật liêntục và tuân theo một tiêu chuân đồng nhất, không có sự nảy sinh hay thay
đổi không đáng ké giữa các lần cập nhật
Tính kịp thời (Timeliness): Tính kip thời trong tiêu chí đánh giá dữ liệu
đề cập đến việc dữ liệu được cập nhật và cung cấp trong khoảng thời gianphù hợp, phan ánh thông tin gần nhất và thực tế nhất có thé
Tính tin cậy và bảo mật (Believability): Dữ liệu cần phải được bảo mật
và có nguồn gốc rõ ràng, người sử dụng có thé tin tưởng vào tính xác thực
và không bị biến đổi không đáng ké từ nguồn cung cấp
Tính dễ hiểu (Interpretability): Đề cập đến kha năng hiểu và diễn giải
dir liệu một cách dé dàng và rõ ràng Điều này ám chỉ rằng dữ liệu đượccung cấp cần phải được trình bày một cách có thé hiểu được bởi người sử
dụng, không quá phức tạp hoặc không rõ ràng.
30
Trang 36CHƯƠNG 3: THU THẬP VÀ XÂY DỰNG BỘ DỮ LIỆU
Qua các tiêu chí trên cho thấy luận văn có thể sử dụng dữ liệu từ nguồn dự ánPOWER (Prediction of Worldwide Energy Resources) của NASA là hợp lý Nguồn
dữ liệu sử dụng dit liệu khoa học Trái Dat thu thập từ các cảm biến trên vệ tinh và
được rút ra từ các mô hình khí quyền toàn cầu Dự án này thuộc Chương trình Khoahọc Ứng dụng của NASA và nhằm mục đích nâng cao khả năng truy cập và sử dụngcác quan sát Trái Dat dé hỗ trợ nghiên cứu và ứng dung cộng đồng trong các lĩnh vực
như năng lượng tái tạo, xây dựng bền vững, và khí hậu nông nghiệp
sass /@p- NASA Prediction Of Worldwide Energy Resources
Supp rth Science’s
POWE lobal Community
(GloCo) Si October 11th &
12th, 2023 n, the agenda, and last ye !
Hinh 5 Trang chu du 4n POWER cua NASA
Nguồn: The Power Project [19]
Hệ thống Quan sát Trái Đất Goddard của NASA, thường được gọi là GEOS(Goddard Earth Observing System), là một hệ thống mô hình toàn cầu phức tạp đượcphát triển và duy trì bởi Trung tâm Vũ trụ Goddard của NASA GEOS được thiết kế
để mô phỏng các quá trình sinh học, hóa học và vật lý của hệ thống Trái Dat, cung
cấp một cách hiéu sâu sắc về hệ thống khí hậu và thời tiết của hành tinh Nó tích hợp
đữ liệu từ đa nguồn quan sát khác, bao gồm cả vệ tinh và quan sát mặt đất, dé tao ramột hình ảnh toàn điện về tình trạng của hiện tại rồi đưa kết quả dự báo cho tương lai
của khí quyền, đại dương, và các hệ thống sinh quyền khác trên Trái Dat GEOS giúp
31
Trang 37CHƯƠNG 3: THU THẬP VÀ XÂY DỰNG BỘ DỮ LIỆU
cải thiện hiéu biệt vê các quá trình khí hậu và là công cụ quan trọng cho các nha
nghiên cứu khí hậu và thời tiết
MERRA-2, hay còn gọi là "Modern-Era Retrospective analysis for Research and Applications, Version 2," là một dự án quan trọng của NASA Dự án này cung
cấp dữ liệu từ năm 1980 và được giới thiệu dé thay thế bộ dữ liệu MERRA gốc Sựnâng cấp đáng kể trong hệ thống tổng hợp dữ liệu cho phép MERRA-2 tích hợp các
quan sát hiện đại vê bức xạ siêu phô và quan sát bang sóng vi ba, cũng như dir liệu từ
GPS-Radio Occultation Dự án này cũng sử dụng quan sát hồ sơ ozone của NASAbắt đầu từ cuối năm 2004 Ngoài ra, MERRA-2 còn bao gồm những cải tiễn trong môhình GEOS và hệ thống tổng hợp GSI
Lựa chọn MERRA-2 Power bởi vì các lý do như sau:
Chat lượng dữ liệu: Dữ liệu từ MERRA-2 Power được tạo từ mô hìnhtoán học phức tạp và sử đụng nhiều thông tin đa dạng từ các cảm biến trêntoàn cầu Điều này tạo ra đữ liệu chất lượng cao, cung cấp thông tin chỉ tiết
bao gồm cả thông tin về hướng và tốc độ của chúng
Khả năng dự báo: MERRA-2 Power không chỉ cung cấp dữ liệu quan sát
mà còn cung cấp dự báo về năng lượng trong tương lai Điều này đặc biệthữu ích cho các nhà nghiên cứu, doanh nghiệp và chính phủ dé lập kế hoạch
và quản lý nguồn năng lượng tái tạo
Độ tin cậy cao: Dữ liệu từ MERRA-2 Power đã kiểm định và xác nhận từ
cộng đồng nghiên cứu khoa học, tăng độ tin cậy và đáng tin cậy của thông
tin được cung cap.
Độ tin cậy cao của dữ liệu từ MERRA-2 Power của NASA có nguồn gốc từ
một sô yêu tô:
Phương pháp thu thập dữ liệu: Dữ liệu trong MERRA-2 Power không
chỉ được thu thập từ một nguồn duy nhất mà được tích hợp từ nhiều nguồnkhác nhau như vệ tinh, máy đo trên bề mặt đất, và mô hình hóa toán học
Sự kết hợp của các nguồn này cho ta thay được sự đa dang và phong phú
trong dữ liệu, giúp cải thiện độ chính xác và đáng tin cậy.
32
Trang 38CHƯƠNG 3: THU THẬP VÀ XÂY DỰNG BỘ DỮ LIỆU
¢ Quá trình xác minh và kiểm định: Dữ liệu từ MERRA-2 Power đã kiêm
định, so sánh với dữ liệu thực tế thu thập từ các thiết bị đo lường trên thực
địa Quá trình này giúp đánh giá và cải thiện chất lượng của dir liệu được
tao ra từ mô hình toán học và các thuật toán xử lý dtr liệu.
e Độ tin cậy trong mô hình hóa: MERRA-2 Power sử dụng các mô hình
toán học và thuật toán phức tạp dé tái hiện môi trường khí quyền và các
quá trình diễn ra trong tự nhiên Sự chính xác của mô hình hóa này đã được
kiểm định và cải thiện theo thời gian, giúp tăng độ tin cậy của dữ liệu được
tạo ra.
e Công bố và đánh giá từ cộng đồng khoa học: Dữ liệu từ MERRA-2
Power thường được công bố công khai và có sự tham gia đánh giá, đóng
góp ý kiến từ cộng đồng khoa học Sự đóng góp này giúp cải thiện liên tục
chất lượng của dữ liệu và tăng độ tin cậy của nó
Từ việc sử dụng nhiều nguồn dữ liệu, quá trình kiểm định cần thận và sự thamgia của cộng đồng nghiên cứu, MERRA-2 Power đã xây dựng được độ tin cậy cao
trong việc cung cấp xây dựng các MHDB
Trong quá trình thực hiện nghiên cứu cho luận văn, việc nhận được BDL thực
từ giảng viên hướng dẫn là một nguồn thông tin quý giá, cung cấp đữ liệu từ năm
1978 đến năm 2018 của vùng ĐNB Tuy nhiên, quá trình đánh giá và phân tích BDLnày đã tiết lộ một số vấn dé nghiêm trọng Đặc biệt, thông tin về nhiệt độ ở một số
tỉnh có sự trùng lặp đáng ngờ, và quan trọng hơn, đữ liệu của tỉnh Bình Phước — một
địa điểm chủ chốt trong nghiên cứu — đã bị mat mát
Sự mat mát này không chỉ là một sự cố đơn lẻ, mà còn ảnh hưởng trực tiếpđến chất lượng và độ tin cậy của toàn bộ nghiên cứu Bình Phước, với tư cách là mộttrong những khu vực trọng điểm trong luận văn, đóng vai trò quan trọng trong việc
hiểu rõ các xu hướng và biến đổi khí hậu ở ĐNB Sự vắng mặt của dir liệu từ khu vựcnay tao ra một khoảng trống lớn trong phân tích, làm giảm khả năng của nghiên cứu
trong việc cung cấp cái nhìn toàn diện và sâu sắc về các mô hình thời tiết và khí hậu
khu vực.
Dé giải quyết van dé này và cung cấp một giải pháp thay thé, luận văn đã quyết
định sử dụng bộ dữ liệu MERRA2 từ dự án POWER cua NASA.
33
Trang 39CHƯƠNG 3: THU THẬP VÀ XÂY DỰNG BỘ DỮ LIỆU
Sử dụng nguồn dé liệu MERRA2 từ dự án POWER của NASA đã giúp giảiquyết những khó khăn mà BDL thực gặp phải Đây không chỉ là một bước tiến quantrọng trong việc khắc phục những thiếu sót, ma còn mở ra cơ hội dé nâng cao phạm
vi và chất lượng của phân tích Với nguồn dit liệu mới này, nghiên cứu không chỉ có
thé bù đắp cho những thông tin còn thiếu, mà còn có khả năng cung cấp cái nhìn chỉ
tiết hơn, chính xác hơn về các xu hướng và mô hình khí hậu trong khu vực, từ đó
nâng cao độ tin cậy và giá trị của nghiên cứu.
1.2 Quá trình thu thập dữ liệu
Thu thập dữ liệu từ dự án POWER của NASA
Dự án POWER của NASA thu nap đữ liệu từ nhiều nguồn khác nhau, bao gồmcác hệ thong vé tinh va MHDB Cu thé, cac nguồn dữ liệu chính bao gồm:
Meteorology (Khí tượng):
MERRA 2: Từ ngày 1 tháng 1 năm 1981 cho đến vài tháng trong thời gian gần
thực tế Được cung cấp bởi GMAO
Những đội ngũ kỹ thuật và khoa học trong Bộ Khoa học Trái đất cũng hỗ trợ
dự án POWER Những đội ngũ này bao gồm WCRP, GEWEX, NASA/GEWEX SRB
va CERES tại NASA LaRC, cũng như Global Modeling and Assimilation Office
Với sự hợp tac của NASA LaRC Sciences Data Center (ASDC), dữ liệu được thu nap từ các dich vu web của POWER.
Bài luận văn gồm thu thập BDL nhiệt độ T2M (Nhiệt độ tại độ cao 2 mét sovới mặt đất °C) từ nguồn MERRA2
Dự án POWER của NASA cung cấp API dé lay dữ liệu NDKK trong khoảngthời gian, dựa trên 2 điểm tọa độ dé khoanh vùng truy vấn đữ liệu như ví dụ sau:
e Tọa độ A: 10.787884
e Tọa độ B: 106.698402
Dữ liệu nhận được từ NASA là một ma trận 2 chiều gồm tập các điểm thuộc
vùng được quét tai vi trí quét.
Dựa trên ma trận và thông số tọa độ địa lý, hệ thống tính toán và trích xuất giátrị tọa độ của các tinh/thanh phố tương ứng và lưu thành dataset
34
Trang 40CHƯƠNG 3: THU THẬP VÀ XÂY DỰNG BỘ DỮ LIỆU
1.3 Mô tả bộ dữ liệu thu thập dùng cho máy học
Bằng cách sử dụng công cụ tải về tự động tích hợp trong hệ thống của luận
văn, dữ liệu về nhiệt độ được lay từ POWER của NASA và được cập nhật mỗi 24 giờ(hoặc một ngày) Dữ liệu này được lay từ DNB va được lưu trữ trong dang tập tin
CSV Giá trị được hiển thị dưới dạng số với don vị là độ tiêu chuẩn (°C)
Bảng 3 Mô tả dữ liệu dùng cho huấn luyện máy học
„ 10.787884 Thành phô
Hồ Chí Quận | , 15391 | 10/01/1981 | 01/03/2023
106.69840
Minh 2
35