Luận văn thạc sĩ Công nghệ thông tin: Xây dựng ứng dụng dự báo nhiệt độ không khí dựa theo mô hình Bayes và công nghệ máy học

LỜI CAM ĐOANTôi xin cam đoan luận văn thạc sĩ của tôi về chủ đề xây dựng ứng dụng dự báo nhiệt độ không khí dựa theo mô hình Bayes và công nghệ máy học là công sức nghiên cứu của riêng t

Trang 1

ĐẠI HỌC QUOC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

ø2*cs

à

Nguyễn Văn Tâm

XÂY DỰNG ỨNG DỤNG DỰ BÁO NHIỆT ĐỘ KHÔNG KHÍ DỰA THEO MÔ HÌNH BAYES VÀ CÔNG NGHỆ MÁY HỌC

LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN

Mã số: 8.48.02.01

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS DƯƠNG THỊ THÚY NGA

TP HÒ CHÍ MINH - 2023

Trang 2

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn thạc sĩ của tôi về chủ đề xây dựng ứng dụng dự báo

nhiệt độ không khí dựa theo mô hình Bayes và công nghệ máy học là công sức

nghiên cứu của riêng tôi Các thông số và dữ liệu được dùng trong bài là chính xác

và chưa từng được thể hiện ở công trình nghiên cứu nào khác.

Tắt cả những tài liệu và nguồn tham khảo đều được trích dẫn cũng như được tham chiếu đầy đủ.

Học viên

Nguyễn Văn Tâm

Trang 3

LỜI CẢM ƠN

Tôi xin được bắt đầu luận văn thạc sĩ này với sự biết ơn đến các giảng viên tại Trường Dai học Công nghệ Thông tin (ĐHQG TP.HCM) đã truyền đạt kiến thức và kinh nghiệm chuyên môn để giúp tôi hoàn chỉnh dự án này Những kiến thức và kinh nghiệm tích lũy mà các thầy cô đã chia sẻ làm hành trang, nguồn động lực và cảm hứng dé hoàn thành việc nghiên cứu này.

Ngoài ra, tôi biết ơn sâu sắc đến TS Dương Thị Thúy Nga - Đại học Tài nguyên và Môi trường TP.HCM, người đã trực tiếp hướng dẫn và chia sẻ kiến thức chuyên môn một cách tận tình Sự nhiệt huyết của cô đã giúp tôi vững vàng kiến thức

về chủ đề này Sự khích lệ, quan tâm và hướng dẫn của cô ấy đã giúp tôi vượt qua những trở ngại trong quá trình nghiên cứu và góp phan đáng kể vào việc hoàn tat luận

văn.

Hơn nữa, tôi cũng xin cảm ơn đến TS Nguyễn Gia Tuan Anh, người đã truyền đạt thông tin kiến thức trong học tập cũng như trong cuộc sống Những lời góp ý và

sự giúp đỡ từ thầy đã truyền cảm hứng và động lực cho tôi để tôi có thể hoàn thành

luận văn này.

Và tôi cũng muốn gửi lời cảm ơn đến TS Nguyễn Tan Cam người luôn hỗ trợ, tận tâm, và giải đáp bất cứ thắc mắc nào giúp tôi có thêm nhiều kiến thức mức và tự tin hơn trong việc giải quyết các khó khăn.

Một lần nữa, từ tận đáy lòng tôi xin cảm ơn, luôn ghi nhớ va trân quý những bài học quý giá mà mọi người đã truyền đạt cho tôi, những người đã hỗ trợ và đóng

góp cho bài luận này.

TP Hồ Chí Minh, ngày 20 tháng 08 năm 2023

Học viên

Nguyễn Văn Tâm

Trang 4

1 GIGI THIEU DE TAI

1.1 _ Nhiệt độ không khí e-.«-«ecsecssesesssessetsetsetserssstetsetserserssre 8

1.2 Ảnh hưởng của NĐKK cccccc22222vvvccrrrrrerrrsrrrrrree §

1.3 Mục tiêu nghiên cỨu ¿+ + + + +Ek+k#keEEEEEEkEkekerrkrkekrkrrie 9

1.4 Đối tượng và phạm vi nghiên cứu -cccccc+++ccvcvvveccezee 9 2 TONG QUAN TINH HÌNH NGHIÊN CUU 10

2.1 Gidi thiệu chung 0 2.2 _ Tình hình nghiên cứu trong nước 0 2.3 Tình hình nghiên cứu ngoài nước 2

2.4 Những tồn tại cần giải quyết 4 CHƯƠNG 2: CƠ SỞ LÝ THUYET „17

2.1 Mang nơ-ron hồi quy (RNN - Recurrent Neural Network) [13] 20

Trang 5

3.3 Giới thiệu Pytorch [17] cccccxsecserreterrrrerrrrrerrrrrerrree 28

CHƯƠNG 3: THU THẬP VÀ XÂY DỰNG BỘ DU LIỆU - 30

1 Bộ dữ liệu thu thập sử dụng cho máy học ¿- - 2 +5s5++<+c+c++ 30

1.1 Nguồn cung cấp dit liệu -¿¿¿22222++22CEvvrrttEEvvrrrrrrrrrerrrer 30

1.2 _ Quá trình thu thập dữ liệu 555c+c+seeeeeeeeeseeeeexeeeexe- SA 1.3 Mô tả bộ dữ liệu thu thập dùng cho máy học -.-‹-‹ - OD.

2 Đánh giá và xây dựng bộ dữ liệu chuẩn - ¿ 2+5 36

2.1 Thống kê dữ liệu theo chu kỳ hàng tháng : + 36 2.2 Lựa chọn thuật toán máy học trên bộ dữ liệu chuẩn - 37 CHƯƠNG 4: PHƯƠNG PHÁP VÀ THỰC NGHIEM - 39

1 _ Các chỉ số đánh giá thuật toán -©22++2222+2+t2v2Exverrrrkrrrerrrer 39

2 Môi trường dùng cho huấn luyện máy học ¿- ¿222cc 40

3 Phương pháp thực nghiệm và đánh giá thuật toán - - -‹-«- Al

3.1 Kết quả thực nghiệm với Bayesian Ridge -+ 42 3.2 Kết quả thực nghiệm với RNN [2l] -c¿52scceccsssceex 47 3.3 Tổng hợp kết qua cccsseccsssssesscsossessossusesssssusssssssesecssssecsessiseeesssuecessseees 56 CHUONG 5: TRIEN KHAI UNG DỤNG -ceSSSĂsSsSeseeeeeesessee 62

1 Mô hình ứng dụng dự báo nhiệt độ không khí 55+ 62

2 Giao diện ứng dụng dự báo NĐKK -.¿- 5-5 5c+sxsvsxsrererreersrer 73

2.1 Trang chủ ĂS SH HH ưưn 73

2.2 Trang thống kê

CHƯƠNG 6: KET LUẬN VÀ HƯỚNG PHÁT TRIEN - 81

1 Thuận lợi và khó khăn - + tt +kEEExtEkeEtekerkerrrkerkrkrrkrrkrkrrke 81

2 Kết quả dat được -cccc 2222222211122 21211111 re 81

3 Hướng phát triển 22-+++2222++2t222211222211E 21211 CE.E.crrrrii 83 TÀI LIEU THAM KHẢO 2ses°vVVEES2+veseeevtEvvvvxssetrtssrvrressee 85

Trang 6

Danh mục các ký hiệu và chữ viết tắt

IKý hiệu lv nghia

INDKK Nhiệt độ không khí

DBTT Dự báo thời tiết

ĐNB Đông Nam Bộ thuộc Việt Nam

Q.1-HCM Quận 1 thuộc thành phó Hồ Chí Minh

INWP Numerical Weather Prediction

TT & DD Thực tế và dự đoán

IHL & KT Huan luyện và kiêm thử

IMHHQ IM6 hình hồi quy

IHQTT Hỏi quy tuyén tinh

IMHDB IMô hình dự báo

CSDL Cơ sở dữ liệu

IBDL Bộ dữ liệu

GIS (Geographic Information Systems

IRNN ‘Recurrent Neural Network

GRU Gated Recurrent Unit

IL achine Learning

(AI Artificial Intelligence

SVMs ‘Support Vector Machines

IDTs Decision Trees

IDL Deep Learning

\CNNs {Convolutional Neural Networks

SL Supervised Learning

SSL Semi-supervised Learning

SciPy Scientific Python

LAPACK Linear Algebra PACKage

GMAO (Global Modeling and Assimilation Office

Trang 7

Danh mục các ký hiệu và chữ viết tắt

SRB Surface Radiation Budget

CERES Clouds and the Earth’s Radiant Energy System

IFLASHFLUX [Fast Longwave and SHortwave Flux

IWCRP 'World Climate Research Programmer

GEWEX Global Energy and Water Cycle Experiment's

ASDC Science Data Center

INASA National Aeronautics and Space Administration

MAE Mean Absolute Error

MSE Mean Squared Error

IRMSE Root Mean Square Error

ACC Accuracy

LSTM Long Short- Term Memory

IPOWER Prediction of Worldwide Energy Resources

GEOS Goddard Earth Observing System

MERRA Modern-Era Retrospective analysis for Research and Applications,

‘Version 2 IDE Integrated Development Environment

Trang 8

Danh mục các bảng

Bảng 1 Những luận văn có nội dung tương tự - - 5 5s ssserseererrke 12 Bang 2 Bảng so sánh phương pháp trong luận văn và các nghiên cứu liên quan 14

Bang 4 Công thức tính các chỉ số đánh giá mô hình máy học - 39

Bảng 5 Khung dit liệu của Q.1-HM - SG 3S 32.13 gi ey 41

Bang 6 Cách thức dự đoán của MHHQ Bayesian Ridge - «- 43

Bảng 8 Bảng kết quả đánh giá sai số của mô hình Bayesian Ridge 47Bảng 9 Bảng thiết lập và huấn luyện một mô hình RNN . -: - 47

Bang 11 Bảng kết quả đánh giá sai số của mô hình Vanila RNN - 50Bảng 12 Bảng các thông số mô hình RNN-LSTM ¿-2¿©2+©5+2cszs 50Bang 13 Bang kết quả đánh giá sai số của mô hình RNN-LSTM - 54Bảng 14 Bảng các thông số mô hình RNN-GRU -¿ 5¿©+©5++zs++cxzz 54Bang 15 Bảng kết quả đánh giá sai số của mô hình RNN-GRU 56

Bang 16 Bảng kết quả của các thuật toán dự báo trên dữ liệu thành phố Hồ Chí Minh

¬— Ễ VY ` OO: ce seceeesseccenenseecsnsnscarseseceecssesseacerenssers 57

Bang 17 Bảng kết quả của các thuật toán dự báo trên dữ liệu tỉnh Đồng Nai 57Bảng 18 Bảng kết quả của các thuật toán dự báo trên dữ liệu tỉnh Bình Dương 58Bảng 19 Bảng kết quả của các thuật toán dự báo trên dữ liệu tinh Bình Phước 58

Bang 20 Bảng kết quả của các thuật toán dự báo trên dit liệu tỉnh Tây Ninh 59Bảng 21 Bảng kết quả của các thuật toán dự báo trên dữ liệu tỉnh Bà Rịa - Vũng Tàu

— 59 Bang 21 Danh sách các ACfOT - -.G- c 1119111 111111191111 HH ng ng kh 63 Bang 23 Danh sách các s€-Case - G1 HH HH HT nghiệt 63

Bang 25 Đặc tả Use-case 2 - LH HH HH TH HH HH nhiệt 65

Bảng 26 Mô tả thông tin dữ liệu địa ÌÍ - 2c 3 2+2 +*EsEEeerrrersrerrrerrserrke 71

Bang 27 Mô tả thông tin dit liệu của NDKK tầm 2 mét 2-5-5555 552 71

Trang 9

Danh mục các bảng

Bảng 28 Mô tả màn hình trang chủ

Bảng 29 Mô ta màn hình trang thống kê -2- 2-52 2 E+EE+2E£2EE+EEeEEzEezrxzei

Bang 30 Bang so sánh kết quả với các nghiên cứu khác -szsz2 2e:

Trang 10

Danh mục các hình vẽ, đồ thị

Hình 1 Cách mô hình học sâu hoạt động - 52c + + *+Sireirrrrrrrerrke 18

Hình 2 Sơ đồ phân loại máy học - 2 2 s©++E£+E£+EE+EEeEEEzEEerxerkerrerrerred 18Himh 3 Mang no-ron hi Quy 00787 .- 21Hình 4 Mạng than kinh tái phát là gì - ¿- ¿5£ 5 +EE+EE+EE2EE+Ee£Eerkerxerxerxrree 22

Hình 5 Trang chủ dự án POWER của NASA cc csSHn 31

Hình 6 Sự thay đôi của nhiệt độ trung bình hàng tháng tại Q.1 - HCM 37

Hình 7 Sơ đồ dữ liệu dùng dé huấn luyện máy học .: -: ¿5+5 38

Hình 8 Biéu đồ hién thị dự đoán từ MHHQ Bayesian Ridge -5- 44Hình 9 Biéu đồ giữa TT & DD của mô hình Bayesian Ridge - 45Hình 10 Kết quả so sánh giữa TT & DĐ của mô hình Bayesian Ridge trong 30 ngày

¬ 7.7 ở 46

Hình 11 Biéu đồ các giá trị sai số giữa HL & KT của mô hình Vanila RNN 49Hình 12 Kết qua so sánh giữa TT & DD của mô hình Vanila RNN 49Hình 13 Kết quả so sánh giữa TT & DD của mô hình Vanila RNN trong 30 ngày50Hình 14 Biéu đồ các giá trị sai số giữa HL & KT của mô hình RNN-LSTM 52Hình 15 Kết quả so sánh giữa TT & DD của mô hình RNN-LSTM 53

Hình 16 Kết quả so sánh giữa TT & DD của mô hình RNN-LSTM trong 30 ngày

¬ - - ‹.ẮẦẨẮ.ố 53

Hình 17 Biéu đồ các giá trị sai số giữa HL & KT của mô hình RNN-GRU 55Hình 18 Kết quả so sánh giữa TT & DD của mô hình RNN-GRU 55Hình 19 Kết qua so sánh giữa TT & DD của mô hình RNN-GRU trong 30 ngày 56

Hình 20 Sơ đồ Use case của hệ thống 2-2-2 ©5£2S2+EE+EE£EEE2EESEEeEkerkerrerred 62Hình 21 Kiến trúc tổng quan hệ thống dự báo NĐKK - 2-52 52 s2=s2 67

Hình 22 Lưu đồ thuật toán dự báo NĐKK - 55c 69

Hình 23 Màn hình trang chủ ứng dung dự báo NĐKK c-.c+xs«2 73 Hình 24 Màn hình dự báo NDKK khu vực địa lý - cS-csscssereireereereee 75

Hình 25 Màn hình trang thống kê, ứng dụng dự báo NĐKK - 76Hình 26 Biểu diễn NDKK tại tinh Đồng Nai với thông tin của giá trị thực tế từ ngày

"65: 651927000888 77

Trang 11

Danh mục các hình vẽ, đồ thị

Hình 27 Biéu diễn NDKK tai tỉnh Đồng Nai với thông tin của giá trị dự báo từ ngày2/2 Aén 60051920EEPPnP008Ẻ 78

Hình 28 Biéu diễn NDKK từ ngày 1/1 đến 31/03/2023 khu vực Binh Phước 79

Hình 29 Dữ liệu được xuất dưới dạng file csv từ ngày 1/1 đến 31/03/2023 khu vực

20003221177 80

Trang 12

MỞ DAU

Luận văn này tập trung vào việc xây dựng một ứng dụng sử dụng mô hình

Bayes và công nghệ máy học dé dự báo nhiệt độ không khí (NDKK) NDKK là yếu

tố quan trọng trong hệ thống khí quyền và có tác động đến thời tiết trên Trai Dat

Nghiên cứu về nhiệt độ không khí giúp hiểu cách các yếu tổ trong bầu khí

quyền biến đổi và tương tác với nhau Nó liên quan đến áp suất không khí, tốc độ gió,

độ âm tương đối cũng như hiện tượng mưa, bão, tuyết và sương mu Vi vậy, nhiệt độ

không khí có vai trò quan trọng trong việc dự báo thời tiết (DBTT) và ảnh hưởng khí

hậu tới sinh vật trên Trái Đắt

Mục tiêu của luận văn này là nghiên cứu va phân tích về NDKK, cùng việcphát triển được một hệ thong hiệu quả dé quản lý và dự báo nhiệt độ không khí Délàm điều này, luận văn sẽ sử dụng thông tin thu thập và phân tích từ các trạm quansát, áp dụng công nghệ tiên tiền như mô hình Bayes và các thuật toán máy học

Nghiên cứu này mong muốn hiểu rõ hơn về ảnh hưởng của NDKK đối với thờitiết, cũng như tìm ra cách để đối phó và ngăn chặn các tác động tiêu cực của biến đổi

khí hậu Dựa trên kiến thức lý thuyết và thực tế, nghiên cứu nay hy vọng sẽ đóng góp

vào sự phát triên của lĩnh vực liên quan.

Trang 13

CHƯƠNG 1: TONG QUAN DE TAI

CHUONG 1: TONG QUAN DE TAI

Chương 1 sé bắt dau với một tom tắt về dé tài, giới thiệu khái niệm về nhiệt độkhông khí và tác động cua nó đối với sức khỏe con người Tiếp theo, chương sẽ phân

tích mục tiêu và phạm vi nghiên cứu, dong thời xem xét tình trạng nghiên cứu vềNĐKK cả trong và ngoài nước Cuối cùng, chương cũng sẽ nhấn mạnh vào nhữngthách thức còn tôn đọng chưa được giải quyết

1 GIỚI THIỆU ĐÈ TÀI

1.1 Nhiệt độ không khí

NDKK là nguyên nhân làm anh hưởng trực tiếp đến các chỉ số thời tiết như

độ âm tương đối, tốc độ bay hơi của nước, hướng gió và cũng như các hiện tượngthời tiết như mưa, mưa đá và tuyết Do đó nó tác động đến môi trường sống tự nhiên

của các loài sinh vật trên Trái Dat

Đề cho ra DBTT có độ chính xác cao phải cần đến một hệ thống dự báo cho

chỉ số nay NDKK cũng được dùng dé dự đoán các chi số liên quan khác trong phạm

VI.

1.2 Ảnh hưởng của NDKKTrong nhiều khía cạnh khác nhau của cuộc sống như:

Dự Báo Cho Thời TiếtNDKK là yếu tổ cốt lõi trong những mô hình DBTT Các mô hình này đa số

sử dụng các thông tin như nhiệt độ hiện tại cùng với các dữ liệu khác dé dự đoán thayđổi thời tiết trong tương lai

NDKK giúp đo lường và phân tích các trạng thái khí tượng khác nhau như áp

suất, độ âm, và sự đi chuyển của không khí

NDKK ảnh hưởng đến cách các hiện tượng được hình thành như mây, mưa,

và các khu vực áp suât cao hoặc thâp.

Trang 14

Phân Tích va Dự Báo Môi Trường

Chỉ số NDKK mô ta sự thay đổi nhiệt độ đối với một khoảng thời gian cụ thé

và giúp các chuyên gia DBTT suy luận về các yếu tố như nắng, mây, gió và nhiệt độ

ở một khu vực.

Ngoài ra, NDKK ảnh hưởng đến các yếu tố khác như áp suất không khí, độ4m và mức độ sương mù Vi dụ: một mức NDKK thấp có thé dẫn đến độ 4m cao và

ngược lại.

Hiểu Biết Tông Quan về Thời Tiết

Dự Báo Tổng Quan: Khi kết hợp NDKK với các yếu tổ khác như độ ẩm và ápsuất không khí cung cấp một cái nhìn tổng quan về thời tiết, giúp dự báo chính xác

hơn về các hiện tượng như mưa, tuyết, sương mù, hoặc nắng nóng

Ứng Dụng Lĩnh Vực Khác

Trong nông nghiệp: Dự báo nhiệt độ không khí giúp nông dân lập kế hoạch

gieo trồng và thu hoạch

Sức Khỏe và An Toàn Công Cộng: Cảnh báo về nhiệt độ cực đoan giúp ngănchặn các vấn đề sức khỏe liên quan đến thời tiết

Quản Lý Năng Lượng: Dự báo nhiệt độ giúp các doanh nghiệp ngành năng

lượng dự đoán và quan lý nhu cầu về sưởi 4m và làm mát

Tom lại, NDKK không chi quan trọng trong DBTT mà còn có ảnh hưởng rộng rãi đôi với môi trường, kinh tê, sức khỏe công cộng, và nhiêu lĩnh vực khác.

1.3 Mục tiêu nghiên cứu

Luận văn này tạo ra với ứng dụng dự báo NDKK có thể ước lượng nhiệt độ

không khí trong tương lai, thực hiện các phương pháp xử lý dit liệu dé tăng độ chínhxác của việc dự báo NDKK băng cách thực hiện mô hình Bayes và công nghệ máy

Trang 15

Đối tượng nghiên cứu:

Dữ liệu NDKK: Bộ dữ liệu NDKK thang độ C (°C) ở độ cao 2 mét (T2M)

của 6 tinh/thanh vung DNB theo chu kỳ 24 giờ (hoặc một ngày) từ ngày

10/01/1981 đến ngày 01/03/2023

Mô Hình Bayes và công nghệ máy học: Một mô hình thống kê được áp

dụng dé dự đoán NĐKK Dữ liệu về NĐKK sẽ được thực hiện dé tạo ra và

điều chỉnh mô hình này

Triển khai Ứng Dụng: Quản lý, thống kê và dự báo NĐKK

Phạm vi nghiên cứu của luận văn:

NDKK (°C) ở độ cao 2 mét (T2M) của 6 tỉnh/thành thuộc vùng DNB.

2 TONG QUAN TINH HÌNH NGHIÊN CỨU

2.1 Giới thiệu chung

Nghiên cứu về DBTT trong nước đang gặp nhiều thách thức và ít có hệ thống

dự báo NDKK được áp dụng rộng rãi cũng như một vài yếu tố kỹ thuật chưa đượcgiải quyết hoàn toàn

Những trở ngại chủ yếu bao gồm:

Có nhiều khó khăn khi tích hợp và phân tích dữ liệu Việc tạo mô hình dựbáo (MHDB) trở nên khó khăn do dữ liệu về NDKK bằng dữ liệu thực tế

là khó tìm kiếm và chưa có độ tin cậy cao Nếu có cũng chưa được đánhgiá và công bố các kiểm chứng

Ứng dụng một mô hình dự báo NDKK thực tế với đầu ra chính xác, tin cậy

là một trong những thách thức khi xây dựng mô hình hóa và dự đoán Đềgiải quyết van dé này, luận văn sẽ tiếp cận bang mô hình Bayes và các công

nghệ máy học.

2.2 Tình hình nghiên cứu trong nước

Một số trung tâm nghiên cứu khí tượng ở nước ta sử dụng mô hình DBTTtruyền thống Synop dé DBTT Phương pháp này dựa vào thống kê các hình thế thời

tiết đã gây ra mưa lớn trong quá khứ cho từng khu vực Mặt khác, hạn chế chính của

10

Trang 16

phương pháp Synop là nó có thé mở rộng thời gian dự báo, điều này chi mang lại độchính xác cao trong khoảng thời gian từ một đến hai ngày

Với sự phát triển của khoa học và công nghệ, các phương pháp mới như họcmáy (ML) đã được áp dụng vào DBTT truyền thống

e_ Một nhóm nghiên cứu gồm có Nguyễn Dau Hoàng, Nhâm Ngọc Tân và

Nguyễn Thị Huế từ Bộ Thông tin và Truyền thông - Bộ Tài nguyên và Môi

trường [2] đã sử dụng các phương pháp ML dé DBTT tại Việt Nam Mục

tiêu chính của nghiên cứu này là xây dựng một MHDB xâm nhập mặn cho

lưu vực sông Hậu bằng cách sử dụng các phương pháp ML có giám sát.Các mô hình ML có giám sát được thử nghiệm bao gồm mô hình hồi quy(MHHQ) tuyến tính và MHDB chuỗi thời gian ARIMA Kết quả của những

mô hình này sau đó được tích hợp vào phần mềm thử nghiệm như một phần

của dự án nghiên cứu do Bộ tài trợ.

e Trong một nghiên cứu khác "Dự đoán chuỗi thời gian dựa trên ML: Nghiên

cứu điền hình, dự báo nhiệt độ ở Việt Nam", của các tác giả Ngô Thị ThanhHòa, Chu Thị Quyên, Nguyễn Thị Câm Ngoan [1] tập trung vào việc sửdụng máy học dé dự báo nhiệt độ ở Việt Nam dữ liệu đầu vào bao gồm cácchuỗi nhiệt độ hàng ngày từ nhiều thành phố của Việt Nam Mục tiêu của

dự án là dự đoán nhiệt độ trong 7 ngày tới tại các thành phố khác nhau ởViệt Nam bằng cách sử dụng dữ liệu trước đó về nhiệt độ và lượng mưathu thập từ năm 2014 đến năm 2019 Dữ liệu được thu thập tại các khoảngthời gian đều đặn là 3 giờ từ nhiều địa điểm khác nhau, tổng cộng có 17.528

giá trị BDL bao gồm nhiều địa điểm như BẮC QUANG, QUẢNG HÀ,TAM ĐẢO, CAT TIÊN, KỲ ANH, A LƯỚI và NAM ĐÔNG Tập dữ liệu

huấn luyện bao gồm dữ liệu thu thập từ thang 1 năm 2014 đến tháng 12năm 2017, trong khi tập dữ liệu kiểm tra bao gồm đữ liệu thu thập từ tháng

1 năm 2018 đến thang 12 năm 2019 Nghiên cứu này nhân mạnh tính hiệuquả của phương pháp LSTM trong dự đoán nhiệt độ và đề xuất nó là một

phương pháp thay thế khả thi cho các phương pháp dự báo hiện tại

Qua các thông tin trên cho thấy việc áp dụng máy học cho dự báo nhiệt độ nóiriêng và thời tiết nói chung đang dần trở thành một xu hướng

11

Trang 17

Các luận văn có nội dung tương tự:

Bảng mô tả các luận văn có nội dung tương tự như sau:

Bảng 1 Những luận văn có nội dung tương tự

thuật toán học sâu

RNN-GRU Ngoài ra,

công việc bao gồm việc

Chưa có phần thống kê

trong ứng dụng dự báo

2.3 Tình hình nghiên cứu ngoài nước

Nhiều tác giả nước ngoài đã tiên hành nghiên cứu và phát triên các phương

pháp sử dung các công nghệ máy học dé cải thiện dự báo nhiệt độ và thời tiết Phươngpháp này cho phép tích hợp kiến thức tiền định với dữ liệu thực tế dé tăng độ chính

xác của DBTT.

e Nhóm tác giả do Seyed Matin Malakouti dan đầu đã công bố trong tạp chí

Case Studies in Chemical and Environmental Engineering, Vol.7 Bài báo

"Utilizing time series data from 1961 to 2019 worldwide and machine

learning to create a Global Temperature Change Prediction Model" cua

12

Trang 18

Seyed Matin Malakouti [8] tap trung vao phat triển một mô hình dé dựđoán sự thay đối nhiệt độ toàn cầu bang cách sử dụng thuật toán ML va dirliệu chuỗi thời gian từ năm 1961 đến 2019 Nghiên cứu nhắn mạnh sự quan

trọng của việc theo dõi và dự đoán sự thay đôi nhiệt độ dé có hiểu biết tốt

hơn về xu hướng khí hậu trong tương lai và hỗ trợ người ra quyết địnhtrong việc giảm thiểu hậu quả của biến đổi khí hậu

Nghiên cứu sử dung dit liệu Thay đôi Nhiệt độ Bề mặt Toàn cầu do

NASA-GISS ghi nhận va áp dụng các thuật toán ML như Bayesian Ridge, Extra

Trees và Random Forests dé tạo ra một mô hình dự đoán Các thuật toán

này được đánh giá dựa trên các tiêu chí như MAE, MSE, RMSE, R},

RMSLE, MAPE và thời gian thực thi Giá trị sai số bình phương trung bình

(RMSE) đạt được khi sử dụng Bayesian Ridge là 0.5298.

e Các tác giả N Qona'ah và Sutikno cũng đã công bố trong tạp chí

Proceeding International Conference on Science and Engineering, Vol.3

với bai bao "Temperature Forecast Using Ridge Regression as Model Output Statistics"[12] nghiên cứu cai thiện dự báo nhiệt độ tai Indonesia

bang cách sử dung Ridge Regression Nghiên cứu này nhằm mục dich nâng

cao độ chính xác của việc dự báo nhiệt độ tối đa và tối thiểu bằng cách sửdụng đữ liệu DBTT Số (NWP), đồng thời giảm thiểu sự tương quan giữacác biến Đánh giá của mô hình bằng cách sử dụng Sai số Bình phươngTrung bình Dự đoán (RMSEP) cho thấy RMSEP cho nhiệt độ tối đa ở mứctrung bình (0.9-1.2), trong khi RMSEP cho nhiệt độ tối thiểu ở mức tốt

(0.5-0.8) Mô hình này cho thấy mức độ chính xác cao hơn so với mô hình

NWP hiện tại, và đề xuất sử dụng nó cho dự báo nhiệt độ bởi BMKG vớikhả năng cải thiện tỷ lệ lỗi lên đến 90.49%

Những bài báo này chứng minh rằng các phương pháp này đã thành công trong

việc áp dụng máy học cho dự báo nhiệt độ và thời tiết ở nhiều quốc gia khắp thế giới

Ngoài ra, việc sử dụng các phương pháp này còn giúp tăng cường độ chính xác va tin cậy trong việc dự báo.

13

Trang 19

2.4 Những tồn tại cần giải quyết

Bảng 2 Bảng so sánh phương pháp trong luận văn và các nghiên cứu liên quan

Dự đoán chuỗi thời gian

dựa trên ML: Nghiên cứu

điển hình, dự báo nhiệt độ

ở Việt Nam [2]

So sánh toàn diện giữa

các MHDB khác nhau (SARIMA, XGBoost, LSTM, Prophet), bao

gồm cả kỹ thuật truyềnthống và tiên tiến

Hiệu quả của LSTM trong

dự báo chuỗi thời gian

theo mùa được chứng

minh rõ ràng.

Cho thấy hiệu quả cạnh

tranh của dự báo dựa trên

mạng nơ-ron so với các

phương pháp truyềnthống

Dữ liệu cụ thể sử dụngtrong nghiên cứu hạn chế

worldwide and machine

learning to create a Global

và dự đoán xu hướng

nhiệt độ toàn cau

Áp dụng nhiều thuật toán

ML khác nhau (như Extra

Trees, Random Forest,

Light Gradient Boosting

Machine, K Nearest

Neighbors, Gradient

Kết quả dựa trên mô hìnhmáy học có thé không

hoàn toàn chính xác khi

áp dụng vao dtr liệu mới

hoặc trong các điều kiệnbiến đổi khí hậu nhanh

Trang 20

Boosting, Bayesian Ridge) cho phép so sánh

va chon lựa phương pháp

hiệu quả nhất

Mô hình tập trung vào dự

đoán sự thay đôi nhiệt độtoàn cầu, có thể không

chính xác cho dự báo ở

cấp độ địa phương hoặc

khu vực.

Temperature Forecast

Using Ridge Regression

as Model Output Statistics

[12]

Su dung Ridge

Regression nhu mot Model Output Statistics

(MOS) dé cai thién du

bao nhiệt độ, đặc biệt hiệu quả trong việc giảm

thiểu độ sai lệch của dự

báo NWP.

Cải thiện đáng ké chấtlượng DBTT ngắn hạn,

đặc biệt quan trọng cho

khí nhiệt đới và địa hình đa Indonesia với hậu

dạng

Dự báo vẫn còn phụ thuộc

vào dữ liệu NWP, có thể

không chính xác ở những vùng có địa hình phức tạp

hoặc thay đổi nhanh

chóng.

Kho khăn trong việc ap dụng cho đữ liệu từ các

khu vực với điều kiện thời

tiết và địa hình khác biệt

lớn, như ở các khu vực núi

non

Trong luận văn này Luận văn nay tiép cận băng việc kêt hop Bayesian và

Ridge Regression dé xem liệu có thé đạt được dự báochính xác hơn so với MHHQ truyền thống, nhờ vàokhả năng điều chỉnh linh hoạt và xử lý tốt sự khôngchắc chắn Phương pháp Bayesian cho phép biéu diễntham số mô hình dưới dạng phân bố xác suất, tăng

cường tính linh hoạt, khả năng thích ứng với dữ liệu mới và cập nhật mô hình khi có thông tin mới.

Bayesian Ridge Regression áp dụng điều chuẩn, giúp

giảm thiểu hiện tượng overfitting - một vấn đề quan

15

Trang 21

trong trong dự báo chuỗi thời gian, đặc biệt khi lam

việc với đữ liệu có nhiều nhiễu hoặc không ôn định

Những lý do này làm cho Bayesian Ridge Regression

trở thành một lựa chọn hợp lý và mạnh mẽ bối cảnh dự

báo chuỗi thời gian.

Với kiến thức công nghệ còn hạn chế, Việt Nam hiện có ít hệ thống dự báoNDKK Phát triển hệ thống dự báo NDKK riêng sẽ mang lại lợi ích quan trọng:

Đầu tiên, nó nâng cao kiến thức công nghệ thông tin trong lĩnh vực DBTT

Việc xây dựng hệ thông NDKK sẽ cung cấp công cụ quan trọng cho nhà nghiên cứu,chuyên gia và cơ quan chức năng theo dõi, đánh giá biến đổi khí hậu trong nước

Hơn nữa, việc phát triển hệ thông dự báo NDKK riêng cũng cho phép tối ưu

hóa các yếu t6 cụ thê liên quan đến vùng địa lý Với việc sử dung dit liệu từ các thành

phố và vùng miền khác nhau trong nước, hệ thong có thé hiểu rõ hơn về yếu tố, các

chỉ số khác nhau ảnh hưởng đến NĐKK, như địa hình, vị tri địa lý, và hệ thống không

khí khu vực Điều nay cho phép tinh chỉnh các MHDB dé đảm bảo rằng dự đoán

NDKK được chính xác và dang tin cậy hon.

Tóm lại, việc phát triển một hệ thống dự báo NĐKK riêng tại Việt Nam sẽ gópphần vào việc nâng cao tri thức về công nghệ thông tin, cung cấp thông tin chính xác,đáng tin cậy cho các nhà nghiên cứu và người dùng cuối Đồng thời, nó cũng sẽ tăng

cường kha năng ứng phó với biến đồi khí hậu và sự kiện thời tiết cực đoan

16

Trang 22

CHƯƠNG 2: CƠ SỞ LÝ THUYET

CHƯƠNG 2: CƠ SỞ LÝ THUYÉT

Chương thứ 2 sẽ cung cấp các cơ sở lý thuyết về máy học và các mô hình dự đoán dé

hỗ trợ xây dựng và phát triển mô hình dự báo nhiệt độ không khi

1 Tổng quan về máy học

Học máy, hay còn gọi là Máy học — ML thuộc lĩnh vực Trí tuệ nhân tạo(AI)

cho phép hệ thống tự học và điều chỉnh đữ liệu mà không cần được lập trình theo mộtcách cụ thé Quá trình này liên quan đến việc cung cấp dit liệu đến những thuật toán

đề chúng thiết lập các mô hình toán học từ các mẫu và xu hướng trong dữ liệu Những

mô hình này có khả năng tự động dự đoán hoặc đưa ra quyết định mà không cần sự

can thiệp trực tiếp từ con người

Học sâu, một phần của lĩnh vực ML, sử dụng các thuật toán tạo các lớp dé tao

ra một “mang neural nhân tao” có khả năng hoc từ đó chi ra dự đoán Quyết địnhthông minh tự động đã làm thay đổi toàn bộ lĩnh vực nay Có nhiều bước tiến lớn như

việc dùng Mang nơ-ron tích chập (CNNs) làm cho việc nhận ra hình anh và Mạng

nơ-ron hồi quy (RNNs) dùng vào việc xử lý thông tin tuần tự như văn bản và giọng

nói.

Thuật toán học sâu được xây dựng trên cau trúc làm việc của não người Ví

dụ, não người có hàng triệu tế bào thần kinh liên kết với nhau nhằm mục đích xử lý

thông tin Cũng như, mạng nơ-ron học sâu (hay còn gọi là mạng nơ-ron nhân tạo)

sinh ra từ các lớp nơ-ron nhân tạo làm việc song song trong máy tính Những “nút”

của mang neural này là các đơn vị phần mềm thực hiện các phép toán dé khai thác dữ

17

Trang 23

liệu Các mạng này sử dụng những nút nay dé xử lý các van đề khó trong một lĩnh

Hình 1 Cách mô hình học sâu hoạt động

Nguồn: Machine learning cơ ban [5]

Hiện nay, ML đóng vai trò không thê thiếu trong công nghệ tiên tiến như xe

không người lái, trợ lý giọng nói ảo và dự đoán phân tích Lĩnh vực nay đang được

thúc đây và phát triển bởi sự nghiên cứu cả trong môi trường học thuật và côngnghiệp Với việc tạo ra càng nhiều dữ liệu và tận dụng nguồn tai nguyên tính toánmạnh mẽ hơn, khả năng của ML vẫn tiếp tục được mở rộng

Categorical

Target Variable

Dự báo Hình ảnh Phân khúc ‘Market basket Phan loai Tim đường di Tối ưu hóa Xe không

thời thiết y khoa khách hàng analysis văn bản trên DL GPS makerting người lái

Hình 2 Sơ đồ phân loại máy học

Nguồn: Machine learning cơ ban [5]

18

Trang 24

1.1 Học có giám sát

Hay còn gọi Supervised Learning, là một phương pháp học từ dữ liệu đã được

gan nhãn dé dự đoán hoặc phân loại dữ liệu mới Phương pháp này huấn luyện một

mô hình dé dự đoán đầu ra của dữ liệu mới một cách chính xác sử dụng tập đữ liệu

huấn luyện với đầu vào đã biết và đầu ra mong muốn

Bao gồm hai loại tác vụ chính:

Phân Loại: Trong tác vụ phân loại, đầu ra mong muốn là một nhãn thuộc một

số lớp cụ thé Vi dụ, phân loại email là 'spam' hoặc 'không spam’

Hồi Quy: Trong hồi quy, mục tiêu là dự đoán một giá tri liên tục Vi dụ, dự

đoán giá nhà dựa trên diện tích, vi trí, v.v.

1.2 Học không giám sát

Phương pháp này tận dụng cấu trúc tự nhiên của dữ liệu dé triển khai các nhiệm

vụ như chia nhóm hoặc cắt giảm số chiều của di liệu, nhằm cải thiện tính toán và

quản lý dữ liệu.

Trong ngữ cảnh toán học, phương pháp này xảy ra khi chúng ta chỉ có dữ liệu

đầu vào X mà không biết giá trị nhãn Y tương ứng Trái ngược với Học có giám sát,

nơi câu trả lời đưa ra đúng cho mỗi dữ liệu đã được biết trước

Các bai toán Học không giám sát thường được phân thành hai loại:

Phân nhóm (Clustering): Day là bài toán sử dụng phân chia toàn BDLcủa X

thành nhiều nhóm nhỏ dựa trên sự tương đồng giữa các dữ liệu Một ứng dụng điển

hình là trong việc xử lý tin tức sai Sử dụng kỹ thuật này, chúng ta có khả năng gom

nhóm các bải viết không đúng sự thật dựa vào nội dung, cách dùng từ và các đặc điểm

khác, từ đó giúp xác định tính xác thực của thông tin.

Liên kết (Association): Mục tiêu của loại này là tìm ra các quy luật dựa trên

dữ liệu đã có Một ứng dụng thông thường là khi muốn biết rõ về mối liên hệ giữa

các yếu tố trong tập dữ liệu

1.3 Hoc bán giảm sát

Được sử dụng khi chúng ta đối mặt với các thách thức của bài toán, nơi tập dữliệu lớn X bao gồm một phần không nhỏ không có nhãn

19

Trang 25

Giả định cụ thé là khi chỉ một phần nhỏ của ảnh hoặc văn ban được gan nhãn,chăng hạn như bức tranh liên quan đến con người, động vật, hoặc văn bản trong các

dé tài khoa học và chính trị Trái ngược với điều đó, phần lớn dé liệu không có nhãn

được tự động tập hợp từ nguồn Internet Cho thấy rất nhiều bài toán ML thuộc vào

loại này, khi quá trình thu nạp dữ liệu có nhãn thường đòi hỏi nhiều nguồn lực về cả

chi phí và thời gian Đối với nhiều loại dữ liệu đặc biệt, việc gan nhãn thậm chí cần

sự chuyên gia, như trong trường hợp của ảnh y học Ngược lại, việc tìm kiếm dữ liệukhông có nhãn thường không mắt chi phí và có thé thực hiện dé dàng từ Internet

2 Một số thuật toán máy học phố biến

2.1 Mạng nơ-ron hồi quy (RNN - Recurrent Neural Network) [13]

Là mạng nơ-ron có đầu ra từ bước trước được đưa vào như là đầu vào chobước hiện tại Hầu hết các đầu vào và đầu ra đều đơn lập không liên kết ở các mạngnơ-ron truyền thống, nhưng trong những tình huống cần dự đoán từ tiếp theo trong

một câu, cần nhớ các từ trước đó Do đó, RNN tạo ra đề khắc phục vấn đề này voi sựgiúp sức của một tầng ân (hidden layer) Đặc điểm chính và cần thiết nhất của RNN

là trạng thái ân (hidden state), nó lưu một vài thông tin về một chuỗi Do đó cũngđược coi là trạng thái bộ nhớ vì nó lưu đầu vào trước đó của mạng RNN dùng cáctham số giống nhau cho mỗi đầu vào, vì nó triển khai cùng một nhiệm vụ trên hầu hết

các dau vào hoặc các tang an đê tạo ra dau ra Từ đó, giúp giảm độ khó vê tham sô.

20

Trang 26

|w Unfold Ìw le |w

@ ® @ 8

Hình 3 Mạng nơ-ron hồi quy

Nguồn: Giới thiệu mạng nơ ron hồi quy [13]

Kiến trúc của Mạng No-ron hồi quyMạng nơ-ron hồi quy (RNN) có cùng dạng đầu vào và đầu ra như bắt kỳ kiến

trúc nơ-ron sâu (deep neural architecture) nao khác Mặt khác, sự khác nhau sinh ra

trong cách thông tin chạy từ đầu vào đến đầu ra Khác với mạng nơ-ron sâu (deep

neural networks) nơi chúng ta có các ma trận trọng số khác biệt cho mỗi mạng Dense,trong RNN, trọng số trên toàn mạng giữ nguyên Nó tính toán trạng thái ân (hidden

state) H, cho mỗi đầu vào X;bằng việc áp dụng các công thức sau:

Trang 27

RECURRENT NEURAL NETWORKS

So RNN 51 RNN_ Šn RNN | RNN ls

Cell Cell TM Cell Cell

Xo Xị Xn X;

Hình 4 Mạng thần kinh tái phát là gì

Nguồn: Giới thiệu mạng nơ ron hồi quy [13]

RNN bao gồm nhiều đơn vị hàm kích hoạt cố định, mỗi đơn vi tương ứng vớimột bước thời gian Mỗi đơn vị có một trạng thái nội tại được gọi là trạng thái an củadon vị Trạng thái 4n này biểu thị kiến thức về quá khứ mà mạng hiện tại đang giữ tạimột thời điểm cụ thé Trạng thái an nay được cập nhật ở mỗi bước thời gian dé biểu

thị sự biến đổi trong kiến thức của mạng về quá khứ Trạng thái ấn được cập nhậtbăng cách sử dụng mối quan hệ tái phát sau đây:

Công thức dé tính trạng thái hiện tại là:

hy = ƒ(h_„X.) (2.2)

Trong đó:

e h, là trạng thái hiện tai.

e h,_¡ là trạng thai trước đó.

e X, là trạng thái đầu vào

Công thức áp dụng hàm kích hoạt (tanh) là:

h, = tanh(W„ph,_¡ + WenXt) (2.2.1)

Trong do:

e whh -> trọng số tai neuron tái phát

e wxh -> trọng số tại neuron đầu vàoCông thức tính toán đầu ra:

22

Trang 28

Ve = Wnyh; (2.2.2)

e Y,->daura

e Why -> trọng số tại lớp đầu ra

Các tham số này được cập nhật bằng lan truyền ngược (Backpropagation) Tuynhiên, vì RNN hoạt động trên dữ liệu tuần tự, nên sử dụng phương pháp cập nhật qua

thời gian (Backpropagation through time).

Nó bao gồm các công (gates) chức năng dé kiểm soát việc truyền thông tintrong mang và lưu trữ Các công này bao gồm công quên (forget gate), công đầu vào(input gate), và cong đầu ra (output gate)

LSTM có thé học va ghi nhớ thông tin dài hạn, nên thường sử dụng ở các tác

vụ đòi hỏi việc theo dõi thông tin lâu dài như trong NLP và cùng với các vấn đề phântích đến chuỗi thời gian

Don vi tuần hoàn có công (GRU - Gated Recurrent Unit):

GRU cũng là một kiến trúc mang nơ-ron RNN và cũng giải quyết van đề bimắt gradient

Tương tự như LSTM nhưng nó đơn giản hóa về kiến trúc bằng cách chỉ sửdụng hai công chức năng: cổng cập nhật (update gate) và công khởi tao (reset gate)

GRU có ít tham số hơn và thường có khả năng học nhanh hơn so với LSTM,nhưng có khả năng không thể hiệu quả băng LSTM trong việc theo dõi thông tin dài

hạn.

2.2 Định lý Bayes [14]

Giúp tìm ra khả năng một sự kiện diễn ra khi biết trước khả năng mà sự kiện

khác đã đưa ra Định lý này có phương trình toán học:

23

Trang 29

Bước căn bản đầu tiên cần phải xác định sự kiện A bằng xác suất, giả sử rằng

sự kiện B là chính xác Thi sự kiện B có thé coi là bang chứng

P(A) là xác suất tiên nghiệm của A Bằng chứng là sự kiện B

Xác suất hậu nghiệm của B, có thé được coi là xác suất của sự kiện sau khi có

Sự không tương đồng giữa HQTT truyền thống và hồi quy Bayesian là giả

định cơ bản về quá trình tạo ra dữ liệu HOTT truyền thống giả định rằng dữ liệu tuân

theo phân phối Gaussian hoặc bình thường, trong khi hồi quy Bayesian có những giảđịnh rõ nét hơn về tính chất của đữ liệu và đặt một phân phối xác suất trước cho các

số liệu Hồi quy Bayesian cũng mang lại nhiều tính linh hoạt hơn khi cho phép thêmcác tham số hoặc phân phối trước, và nó dùng dé triển khai mô hình phức tạp tùy ýthé hiện rõ ràng các niềm tin trước đó về dữ liệu Hơn nữa, hồi quy Bayesian cung

cấp các phép đo dự đoán chính xác hơn từ ít điểm dữ liệu hơn và có khả năng xây

24

Trang 30

dựng ước lượng cho sự không chắc chắn xung quanh các ước lượng Ngược lại,HQTT truyền thống dễ thực hiện hơn và nhanh hơn với các mô hình đơn giản và cóthé cung cấp kết quả tốt khi những giả định về dữ liệu là hợp lệ

Hồi quy Bayesian rất hữu ích khi đữ liệu không đủ trong tập dữ liệu hoặc dữliệu phân phối kém Đầu ra của MHHQ Bayesian được thu được từ một phân phối

xác suất, so với các kỹ thuật hồi quy thông thường nơi mà đầu ra chỉ được thu được

từ một giá trị đơn lẻ của mỗi thuộc tính.

Các đặc trưng độc lập cho HQTT là X = {x1, xạ, , Xp} nơi mà x; đại diện đại

diện cho đặc trưng độc lập thứ i va biến mục tiêu sẽ là Y Giả sử chúng ta có mẫu

của (X,y).

Mối quan hệ tuyến tính bao gồm các biến phụ thuộc Y và những đặc trưng độc

lập X có thé được biểu diễn như sau:

Y = Wo + WiXị †+W¿x; + -'' + WyXy + £ (2.4)

Hoặc

y=ƒ(,w)+ e (2.4.1)

Trong đó w = {Wo, Wy, Wo, , w„} là những hệ số hồi quy biểu thị mối quan

hệ giữa các biến phụ thuộc, biến độc lập và là thuật ngữ lối

Công thức này giả định răng lối ¢ tuân thủ theo quy định giữa phân phối chuẩn

với trung bình 0 và phương sai không đổi ø? (e ~ N(0,ø?) Giả định nay cho phép

mô hình hóa phân phối của biến mục tiêu xung quanh các giá trị mục tiêu dự đoán.

2.3.1 Bayesian Ridge Bayesian Ridge là một thuật toán trong học có giám sát, thuộc loại HOTT Nó

ứng dụng phương thức Bayes để ước chừng hệ số của MHHQ Dựa vào, việc dùng

các phân phối trước (prior distribution) cho các hệ số, Bayesian Ridge có khả năng

tự điều chỉnh độ khó của mô hình, giúp giảm tình trạng quá khớp (overfitting)

Dưới day là công thức cơ bản cua Bayesian Ridge:

y=Xw+ ứ (2.5)

Ta có:

e y là vector mục tiêu.

25

Trang 31

e X là ma trận dữ liệu đầu vào

e a là sai số ngầu nhiên được tuân theo phân phối chuẩn

e w là vector trọng số (hệ số hồi quy)

Bayesian Ridge tính toán giá tri có điều kiện của w và ơ dựa trên dữ liệu Các

hệ số này được cập nhật theo quy tac Bayes, dựa vào dữ liệu quan sát và phân phối

trước.

Bayesian Ridge không chỉ cung cấp một dự đoán duy nhất như HQTT thôngthường, mà nó cung cấp một phân phối dự đoán, cho phép đánh giá độ chắc chắn của

các dự đoán.

3 Một sô thư viện sử dụng thuật toán máy học

Sự xuất hiện của nhiều thư viện mới với mục đích giải quyết các vấn đề MLhiệu quả nhất có thé Các thư viện phô biến như:

3.1 Giới thiệu Scikit learn [15]

Được xem là thư viện máy học mã nguồn mở phổ biến của Python, còn được

gọi là sklearn Một loạt các công cụ và thuật toán được cung cấp cho các nhiệm vụ

ML khác nhau, chăng hạn như phân loại, hồi quy, phân cụm, tiền xử lý, lựa chọn môhình và giảm chiều dit liệu

Scikit-Learn từ các thư viện khoa hoc Python khác, chăng hạn như NumPy,

SciPy và matplotlib, và nó hoạt động tốt khi tích hợp với hệ sinh thái Python rộnglớn Nó cho ra một giao diện nhất quán và ứng dụng của các phương pháp ML mộtcách đơn giản, tiếp cận nhanh cho người mới và chuyên gia

Một số tính năng quan trọng của Scikit-Learn là:

Giao diện API nhất quan: Dua ra một API trực quan và nhất quán từ đó có thể

dễ dùng và thay đổi giữa các thuật toán khác nhau

Tiền xử lý dữ liệu: SciKit-Learn cung cấp nhiều kỹ thuật tiền xử lý, bao gồm

chuẩn hóa, tỉ lệ, mã hóa biến phân loại, xử lý giá tri thiếu và trích dẫn đặc trưng

Trước khi huấn luyện một mô hình ML, những bước xử lý trước này rất quan trọng

dé chuẩn bị dit liệu

26

Trang 32

Phân tích mô hình: SciKit-Learn cung cấp các độ do cho nhiệm vụ hồi quy,phân cụm và phân loại để đánh giá hiệu suất của các mô hình ML Ngoài ra, dé cảithiện khả năng hiểu của mô hình, nó cung cấp phương pháp điều chỉnh siêu tham số,phương pháp lựa chọn mô hình và điều chỉnh qua lại

Tích hợp với các thư viện Python khác: Scikit-Learn hoạt động tốt với thư viện

Python bao gồm pandas để xử lý dữ liệu, NumPy/SciPy cho tính toán số học và

matplotlib dé trình bay đữ liệu trực quan

Tom lại, SciKit-Learn là một thư viện mạnh mẽ và linh hoạt giúp quy trình tao

dụng và triển khai mô hình ML trở nên đơn giản hơn Là nguồn tài nguyên dé làm

việc với dự án ML bằng Python

27

Trang 33

3.2 Giới thiệu Tensorflow [16]

TensorFlow, mã nguồn mở của Google, hỗ trợ tạo và ap dụng mô hình ML vahọc sâu, cung cấp cách linh hoạt và tối ưu để xây dựng mô hình ML qua biểu đồ tínhtoán và luồng đữ liệu

TensorFlow trình bày các quá trình tính toán thông qua một biểu đồ tính toán

được gọi là "biểu đồ dòng dữ liệu" Các node (nút) và biến được bao gồm trong một

biểu đồ dòng dữ liệu Trong khi các node hiển thị các phép tinh, thì các biến chứa cácgiá trị có thé chuyền đổi quy trình huấn luyện Dữ liệu có thể được truyền qua nhiềuphép tính khác nhau trong biểu đồ do các nút liên kết lẫn nhau thông qua luồng dữ

liệu.

Tích hợp với NumPy và scikit-learn là một lợi thế của TensorFlow.TensorFlow cung cấp một API phong phú và mạnh mẽ cho việc phát trién mô hình

học máy, bao gồm các lớp, ham mất mát (loss functions), tối ưu hóa và các cách đánh

giá Bên cạnh đó, các công cụ TensorFlow Datasets và TensorFlow Transform hỗ trợ

xử lý các dữ liệu phức tạp.

TensorFlow có thé dùng ở nhiều nền tảng tính toán khác nhau, chang hạn nhưmáy tinh cá nhân, cụm máy tính và hệ thống đám mây như Google Cloud Dé tận

dụng thê mạnh của tính toán song song và tăng hiệu suất tính toán của các mô hình

lớn, dựa trên sự hỗ trợ tình toán đồng thời của cả GPU và TPU

TensorFlow được ưa thích trong lĩnh vực học máy và học sâu nhờ sự phát triển

và hỗ trợ đáng kê từ cộng đồng nghiên cứu và người dùng

3.3 Giới thiệu Pytorch [17]

Pytorch, mã nguồn mở do Facebook phát triển, hỗ trợ Deep Learning và là mộttrong những framework phổ biến nhất trong AI, cùng với Keras và TensorFlow Từ

năm 2019, Pytorch đã trở thành một trong những framework được sử dụng rộng rãi

sau TensorFlow.

Pytorch thường được ưu tiên trong việc nghiên cứu các ứng dụng AI do khả

năng triển khai các bài toán một cách dé dang Với tính năng tính toán động theo biểu

đồ, Pytorch rất giúp it cho các nhà nghiên cứu khi gỡ lỗi và trực quan hóa dữ liệu

Có nhiều ưu điểm của Pytorch bao gồm:

e_ Dễ học và hỗ trợ viết mã đơn giản hơn

28

Trang 34

e Bộ API phong phú giúp mở rộng Thư viện Pytorch.

e Hỗ trợ tính toán động theo biéu đồ

e Linh hoạt, tốc độ cao và tối ưu quá trình nghiên cứu mô hình

e _ Hỗ tro GPU và CPU.

e Dễ dàng gỡ lỗi với IDE PyCharm và các công cụ khác.

e Hỗ trợ nén tang đám mây

Tuy nhiên, Pytorch còn một số hạn chế do là một framework mới ra đời vàonăm 2016, vì vậy không phổ biến cho đến hiện tại Thiếu các công cụ giám sát và

trực quan như bảng tensor.

Bên cạnh đó, Pytorch có số lượng nhà phát triển trong cộng đồng hạn chế hơn

so với các Framework khác.

Tại sao Pytorch lại được ưa chuộng trong cộng đồng nghiên cứu? Mặc dù rađời sau TensorFlow và Keras, Pytorch đã chiếm được lòng tin vì các lý do sau:

e So với Keras và TensorFlow, tính năng autograd của Pytorch đã giúp

nhà nghiên cứu linh hoạt tùy chỉnh mô hình dễ dàng theo từng trường

hợp Hơn nữa, Pytorch giúp hoàn toàn kiểm soát quá trình huấn luyện

mô hình.

e_ PyTorch có một cộng đồng người dùng và đóng góp viên rất lớn Bên

cạnh đó, Pytorch có thê tích hợp nhanh chóng với các thư viện khác

như NumPy và Caffe2 đề triển khai mô hình ở các môi trường không

giống nhau

29

Trang 35

CHƯƠNG 3: THU THẬP VÀ XÂY DỰNG BỘ DỮ LIỆU

Chương 3 sẽ giới thiệu nguôn cấp dữ liệu, diễn giải quy trình thu thập dữ liệudành cho máy học, dữ liệu lưu trữ và phân tích Sau đó, luận văn sẽ đánh giả để tạo

ra một bộ dữ liệu chuẩn Lựa chọn thuật toan may học phù hợp cho việc thử nghiệmhuấn luyện mô hình tiên đoán nhiệt độ không khi

1 Bộ dữ liệu thu thập sử dụng cho máy học

1.1 Nguồn cung cấp dữ liệu

Việc đánh giá một bộ dữ liệu (BDL) tốt thường dựa trên các tiêu chí:

Tính chính xác (Accuracy): Dữ liệu có đáng tin cậy và phản ánh đúng

thực tế hay không là một trong những yếu tô quan trọng nhất Sự chính xác

có thê được đánh giá bằng cách so sánh với đữ liệu thực tế hoặc thông quaquá trình kiểm định, xác nhận từ các nguồn độc lập

Tinh đa dạng và phong phú (Completeness): Một BDL tốt cần cung cấp

thông tin đa dạng và phong phú, bao gồm những thông tin chỉ tiết, đa chiều

về đối tượng hay hiện tượng đang được nghiên cứu

Tính liên tục và đồng nhất (Consistency): Dữ liệu cần được cập nhật liêntục và tuân theo một tiêu chuân đồng nhất, không có sự nảy sinh hay thay

đổi không đáng ké giữa các lần cập nhật

Tính kịp thời (Timeliness): Tính kip thời trong tiêu chí đánh giá dữ liệu

đề cập đến việc dữ liệu được cập nhật và cung cấp trong khoảng thời gianphù hợp, phan ánh thông tin gần nhất và thực tế nhất có thé

Tính tin cậy và bảo mật (Believability): Dữ liệu cần phải được bảo mật

và có nguồn gốc rõ ràng, người sử dụng có thé tin tưởng vào tính xác thực

và không bị biến đổi không đáng ké từ nguồn cung cấp

Tính dễ hiểu (Interpretability): Đề cập đến kha năng hiểu và diễn giải

dir liệu một cách dé dàng và rõ ràng Điều này ám chỉ rằng dữ liệu đượccung cấp cần phải được trình bày một cách có thé hiểu được bởi người sử

dụng, không quá phức tạp hoặc không rõ ràng.

30

Trang 36

Qua các tiêu chí trên cho thấy luận văn có thể sử dụng dữ liệu từ nguồn dự ánPOWER (Prediction of Worldwide Energy Resources) của NASA là hợp lý Nguồn

dữ liệu sử dụng dit liệu khoa học Trái Dat thu thập từ các cảm biến trên vệ tinh và

được rút ra từ các mô hình khí quyền toàn cầu Dự án này thuộc Chương trình Khoahọc Ứng dụng của NASA và nhằm mục đích nâng cao khả năng truy cập và sử dụngcác quan sát Trái Dat dé hỗ trợ nghiên cứu và ứng dung cộng đồng trong các lĩnh vực

như năng lượng tái tạo, xây dựng bền vững, và khí hậu nông nghiệp

sass /@p- NASA Prediction Of Worldwide Energy Resources

Supp rth Science’s

POWE lobal Community

(GloCo) Si October 11th &

12th, 2023 n, the agenda, and last ye !

Hinh 5 Trang chu du 4n POWER cua NASA

Nguồn: The Power Project [19]

Hệ thống Quan sát Trái Đất Goddard của NASA, thường được gọi là GEOS(Goddard Earth Observing System), là một hệ thống mô hình toàn cầu phức tạp đượcphát triển và duy trì bởi Trung tâm Vũ trụ Goddard của NASA GEOS được thiết kế

để mô phỏng các quá trình sinh học, hóa học và vật lý của hệ thống Trái Dat, cung

cấp một cách hiéu sâu sắc về hệ thống khí hậu và thời tiết của hành tinh Nó tích hợp

đữ liệu từ đa nguồn quan sát khác, bao gồm cả vệ tinh và quan sát mặt đất, dé tao ramột hình ảnh toàn điện về tình trạng của hiện tại rồi đưa kết quả dự báo cho tương lai

của khí quyền, đại dương, và các hệ thống sinh quyền khác trên Trái Dat GEOS giúp

31

Trang 37

cải thiện hiéu biệt vê các quá trình khí hậu và là công cụ quan trọng cho các nha

nghiên cứu khí hậu và thời tiết

MERRA-2, hay còn gọi là "Modern-Era Retrospective analysis for Research and Applications, Version 2," là một dự án quan trọng của NASA Dự án này cung

cấp dữ liệu từ năm 1980 và được giới thiệu dé thay thế bộ dữ liệu MERRA gốc Sựnâng cấp đáng kể trong hệ thống tổng hợp dữ liệu cho phép MERRA-2 tích hợp các

quan sát hiện đại vê bức xạ siêu phô và quan sát bang sóng vi ba, cũng như dir liệu từ

GPS-Radio Occultation Dự án này cũng sử dụng quan sát hồ sơ ozone của NASAbắt đầu từ cuối năm 2004 Ngoài ra, MERRA-2 còn bao gồm những cải tiễn trong môhình GEOS và hệ thống tổng hợp GSI

Lựa chọn MERRA-2 Power bởi vì các lý do như sau:

Chat lượng dữ liệu: Dữ liệu từ MERRA-2 Power được tạo từ mô hìnhtoán học phức tạp và sử đụng nhiều thông tin đa dạng từ các cảm biến trêntoàn cầu Điều này tạo ra đữ liệu chất lượng cao, cung cấp thông tin chỉ tiết

bao gồm cả thông tin về hướng và tốc độ của chúng

Khả năng dự báo: MERRA-2 Power không chỉ cung cấp dữ liệu quan sát

mà còn cung cấp dự báo về năng lượng trong tương lai Điều này đặc biệthữu ích cho các nhà nghiên cứu, doanh nghiệp và chính phủ dé lập kế hoạch

và quản lý nguồn năng lượng tái tạo

Độ tin cậy cao: Dữ liệu từ MERRA-2 Power đã kiểm định và xác nhận từ

cộng đồng nghiên cứu khoa học, tăng độ tin cậy và đáng tin cậy của thông

tin được cung cap.

Độ tin cậy cao của dữ liệu từ MERRA-2 Power của NASA có nguồn gốc từ

một sô yêu tô:

Phương pháp thu thập dữ liệu: Dữ liệu trong MERRA-2 Power không

chỉ được thu thập từ một nguồn duy nhất mà được tích hợp từ nhiều nguồnkhác nhau như vệ tinh, máy đo trên bề mặt đất, và mô hình hóa toán học

Sự kết hợp của các nguồn này cho ta thay được sự đa dang và phong phú

trong dữ liệu, giúp cải thiện độ chính xác và đáng tin cậy.

32

Trang 38

¢ Quá trình xác minh và kiểm định: Dữ liệu từ MERRA-2 Power đã kiêm

định, so sánh với dữ liệu thực tế thu thập từ các thiết bị đo lường trên thực

địa Quá trình này giúp đánh giá và cải thiện chất lượng của dir liệu được

tao ra từ mô hình toán học và các thuật toán xử lý dtr liệu.

e Độ tin cậy trong mô hình hóa: MERRA-2 Power sử dụng các mô hình

toán học và thuật toán phức tạp dé tái hiện môi trường khí quyền và các

quá trình diễn ra trong tự nhiên Sự chính xác của mô hình hóa này đã được

kiểm định và cải thiện theo thời gian, giúp tăng độ tin cậy của dữ liệu được

tạo ra.

e Công bố và đánh giá từ cộng đồng khoa học: Dữ liệu từ MERRA-2

Power thường được công bố công khai và có sự tham gia đánh giá, đóng

góp ý kiến từ cộng đồng khoa học Sự đóng góp này giúp cải thiện liên tục

chất lượng của dữ liệu và tăng độ tin cậy của nó

Từ việc sử dụng nhiều nguồn dữ liệu, quá trình kiểm định cần thận và sự thamgia của cộng đồng nghiên cứu, MERRA-2 Power đã xây dựng được độ tin cậy cao

trong việc cung cấp xây dựng các MHDB

Trong quá trình thực hiện nghiên cứu cho luận văn, việc nhận được BDL thực

từ giảng viên hướng dẫn là một nguồn thông tin quý giá, cung cấp đữ liệu từ năm

1978 đến năm 2018 của vùng ĐNB Tuy nhiên, quá trình đánh giá và phân tích BDLnày đã tiết lộ một số vấn dé nghiêm trọng Đặc biệt, thông tin về nhiệt độ ở một số

tỉnh có sự trùng lặp đáng ngờ, và quan trọng hơn, đữ liệu của tỉnh Bình Phước — một

địa điểm chủ chốt trong nghiên cứu — đã bị mat mát

Sự mat mát này không chỉ là một sự cố đơn lẻ, mà còn ảnh hưởng trực tiếpđến chất lượng và độ tin cậy của toàn bộ nghiên cứu Bình Phước, với tư cách là mộttrong những khu vực trọng điểm trong luận văn, đóng vai trò quan trọng trong việc

hiểu rõ các xu hướng và biến đổi khí hậu ở ĐNB Sự vắng mặt của dir liệu từ khu vựcnay tao ra một khoảng trống lớn trong phân tích, làm giảm khả năng của nghiên cứu

trong việc cung cấp cái nhìn toàn diện và sâu sắc về các mô hình thời tiết và khí hậu

khu vực.

Dé giải quyết van dé này và cung cấp một giải pháp thay thé, luận văn đã quyết

định sử dụng bộ dữ liệu MERRA2 từ dự án POWER cua NASA.

33

Trang 39

Sử dụng nguồn dé liệu MERRA2 từ dự án POWER của NASA đã giúp giảiquyết những khó khăn mà BDL thực gặp phải Đây không chỉ là một bước tiến quantrọng trong việc khắc phục những thiếu sót, ma còn mở ra cơ hội dé nâng cao phạm

vi và chất lượng của phân tích Với nguồn dit liệu mới này, nghiên cứu không chỉ có

thé bù đắp cho những thông tin còn thiếu, mà còn có khả năng cung cấp cái nhìn chỉ

tiết hơn, chính xác hơn về các xu hướng và mô hình khí hậu trong khu vực, từ đó

nâng cao độ tin cậy và giá trị của nghiên cứu.

1.2 Quá trình thu thập dữ liệu

Thu thập dữ liệu từ dự án POWER của NASA

Dự án POWER của NASA thu nap đữ liệu từ nhiều nguồn khác nhau, bao gồmcác hệ thong vé tinh va MHDB Cu thé, cac nguồn dữ liệu chính bao gồm:

Meteorology (Khí tượng):

MERRA 2: Từ ngày 1 tháng 1 năm 1981 cho đến vài tháng trong thời gian gần

thực tế Được cung cấp bởi GMAO

Những đội ngũ kỹ thuật và khoa học trong Bộ Khoa học Trái đất cũng hỗ trợ

dự án POWER Những đội ngũ này bao gồm WCRP, GEWEX, NASA/GEWEX SRB

va CERES tại NASA LaRC, cũng như Global Modeling and Assimilation Office

Với sự hợp tac của NASA LaRC Sciences Data Center (ASDC), dữ liệu được thu nap từ các dich vu web của POWER.

Bài luận văn gồm thu thập BDL nhiệt độ T2M (Nhiệt độ tại độ cao 2 mét sovới mặt đất °C) từ nguồn MERRA2

Dự án POWER của NASA cung cấp API dé lay dữ liệu NDKK trong khoảngthời gian, dựa trên 2 điểm tọa độ dé khoanh vùng truy vấn đữ liệu như ví dụ sau:

e Tọa độ A: 10.787884

e Tọa độ B: 106.698402

Dữ liệu nhận được từ NASA là một ma trận 2 chiều gồm tập các điểm thuộc

vùng được quét tai vi trí quét.

Dựa trên ma trận và thông số tọa độ địa lý, hệ thống tính toán và trích xuất giátrị tọa độ của các tinh/thanh phố tương ứng và lưu thành dataset

34

Trang 40

1.3 Mô tả bộ dữ liệu thu thập dùng cho máy học

Bằng cách sử dụng công cụ tải về tự động tích hợp trong hệ thống của luận

văn, dữ liệu về nhiệt độ được lay từ POWER của NASA và được cập nhật mỗi 24 giờ(hoặc một ngày) Dữ liệu này được lay từ DNB va được lưu trữ trong dang tập tin

CSV Giá trị được hiển thị dưới dạng số với don vị là độ tiêu chuẩn (°C)

Bảng 3 Mô tả dữ liệu dùng cho huấn luyện máy học

„ 10.787884 Thành phô

Hồ Chí Quận | , 15391 | 10/01/1981 | 01/03/2023

106.69840

Minh 2

35

Tiêu đề	Xây dựng ứng dụng dự báo nhiệt độ không khí dựa theo mô hình Bayes và công nghệ máy học
Tác giả	Nguyễn Văn Tõm
Người hướng dẫn	TS. Dương Thị Thúy Nga
Trường học	ĐẠI HỌC QUOC GIA TP HCM
Chuyên ngành	Công nghệ thông tin
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2023
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	91
Dung lượng	43,14 MB