Tiếp theo, khóa luận sử dụng dữ liệu về chất lượng không khí được thu thập từ các trạm quan trắc ô nhiễm không khí dé đánh giá chỉ sé AQI tai cac dia diém, va sử dụng các thuật toán, mô
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THÓNG THÔNG TIN
NGUYEN VĂN LỰC - 19521811
LÊ VĂN ANH ĐỨC — 19521374
KHÓA LUẬN TÓT NGHIỆP
XÂY DUNG HE THONG GOI Ý DIA DIEM DU LICH DUA TREN DIEU KIEN THỜI TIẾT, CHAT LƯỢNG
KHONG KHi BANG PHUONG PHAP HOC MAY VA
TICH HOP MANG XA HOI
BUILDING A TOURISM LOCATION RECOMMENDATION SYSTEM
BASED ON WEATHER CONDITIONS, AIR QUALITY USING MACHINE LEARNING METHODS AND INTEGRATING SOCIAL
NETWORKS
KY SU NGANH HE THONG THONG TIN
GIANG VIEN HUONG DAN PGS.TS NGUYEN ĐÌNH THUAN
ThS DO DUY THANH
TP HO CHi MINH, 2023
Trang 2Tiếp theo, tôi cũng muốn bày tỏ lòng biết ơn đến các thầy/cô trong khoa HệThống Thông Tin đã truyền đạt cho tôi những kiến thức bồ ích, rèn luyện các kỹ năng
và tạo môi trường, điều kiện tốt nhất dé tôi hoàn thành khóa luận này Bên cạnh đótôi cũng xin gửi lời cảm ơn đến những người bạn luôn bên tôi động viên, khuyến
khích giúp tôi có được ý chí không bỏ cuộc và hoàn thành khóa luận này một cách
tốt nhất
Do thời gian nghiên cứu và kiến thức có hạn, nên trong khóa luận không thêtránh khỏi có một số sai sót Tôi rất mong nhận được sự góp ý của các Thay/Cé dégiúp tôi có thêm nhiều kiến thức và kinh nghiệm hơn, cũng như giúp khóa luận của
tôi được hoàn thiện hơn.
Lời cảm ơn không thé đủ dé bày tỏ lòng biết ơn sâu sắc của tôi đến tat cả mọingười vì vậy tôi xin chúc tất cả mọi người luôn tràn đầy sức khỏe và thành công trong
cuộc sông.
TP Hồ Chí Minh, ngày tháng năm 2023
Sinh viên thực hiện
Nguyễn Văn Lực
Lê Văn Anh Đức
Trang 3TÓM TAT KHÓA LUẬN -.- mm h 1
Chương 1 MO DAU i.ceccccccsscssssssessesssessessessussuessessvssvsssessessecsuessessessecsuessessessesaneeseeses 2
1.1 Lí do chọn dé tài ¿555522222 EEEEEEE231211221271 2121121111111 tre 2
1.2 Mục tiêu đề tài -¿- 5c 2k 2x2 221221 21211211211271111211 211111 eree 2
1.3 Đối tượng và phạm vi nghiên cứu -2- 2s x2+E++E£+Exerxezxzrerrserxees 3
1.3.1 _ Đối tượng nghiên cứu 2¿©52+c++EE+EE£EEE2EEEEEEEErEkrrkrrkerxee 3
1.3.2 Phạm vi nghiên CỨU - - 5 5s k3 nghiệt 3
1.4 Môi trường phat triỂn 2 ©52++<+EE£EES2E2E1271712112117217121 211 EU 4
Chương 2 CÁC NGHIÊN CỨU LIEN QUAN - 2-2 2+ +Ee£k+£kzEzrzrezes 5
2.1 Spatio-attention embedded recurrent neural network for air quality
šs9010710:10P20 277 5
2.2 Prediction of air quality index based on LSTM [Ä3] - -<-s-«<+ 5
2.3 A fuzzy multiple linear regression model based on meteorological factors
for air quality index forecast [Z(] -. - 5 1E 93 1191 11H ng ng re 6
2.4 A novel ensemble reinforcement learning gated unit model for daily PM2.5 forecasting [5] oo eecccesecsssecesecesseceseeceseeceseceeeceeeceaeeeaeceseeceaeeceaeceseeceseeceaeessaeeses 6
2.5 Deep object detection of crop weeds: Performance of YOLOv7 on a real
case dataset from UAV images [6] - - 5 + S1 1S HH ng ng 7
2.6 YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time Object detectOrs Ti 7
2.7 Các ứng dụng, hệ thống liên quan -2- 2 2 2 +E2E£+EE+EE+EEzEezrerrxerxee 8
Chương 3 CƠ SỞ LÍ THUYÊTT - 2-2 2+ £+E£EE£EE£EEEEEEEEEEEEEerEerkerkerkrree 10
3.1 Chuỗi thời gian (Time Series) 2: ¿5522222 2E£EE2EEEEEerkrkrkererrrrs 10
3.1.1 Định ngÏĩa -Q SG SE SH HH ng rệt 10
Trang 43.1.2 Xu hướng (Tirend) - - + 5s + kg ng ng grư 10
3.1.3 Mùa vụ (SeasonnaÌTEV) - sgk rưy 10
3.1.4 Chu ky (Cycle) na 11
3.1.5 Dao động ngẫu nhiên (NOiSe) ccccccscseesssesessssesesssseseescsesesesseseeeeseees 11
3.1.6 Hàm tương quan (Autocorrelation Function) -« s«++ 11
3.1.7 Hàm tự tương quan mau phan (Partial Autocorrelation Function) 11
3.1.8 Định tính hóa (Differencing) «2.0 ce eeeeeesceeeeeeeeeeeeeeeeeeeeeeseeeeeeaeens 11
3.2 Đánh giá chất lượng không khí — AQI -2- 2 2 +£s2+£z+£s+rserxeez 11
3.2.1 Hướng dẫn tính toán chỉ số chat lượng không khí . 12
3.2.2 Tính toán giá trị VN_ AQ[ - L1 H*H*H HH HH HH hệt 13 3.2.3 Tính toán giá tri AQI ngày (A(QÏởÏ) - - -Ă Series 15 3.3 bên 0.30 qu — 17
3.3.1 Định nghĩa .SĂ SH HH TH HH như 17
KS,.C s Vvể ‹.““ 17
3.4 Mô hình LLSTM - G2 tk ST TH TT HH HH Hư 18
B.A Định nghĩa Ăn HT HH ng HH như 18 3.4.2 _ Công thúc tinh toán LLSTÌM .- SH ng rg 19 3.5 bên 060 — 23
3.5.1 Định nghĩa - Gv HH HH HH nh như 23 3.5.2 Công thức tính toán GIRU G5 1v ng re 24
3.6 M6 hinh ARIMA ae 26
3.6.1 Tu hdi quy tự động (Auto Regression) c.csccsssessesssessesseeseesesseeses 26
3.6.2 k8 ¡N0 2y2r 0177 27 3.6.3 Trung bình động (Moving aVerag€) nen 27
Trang 53.7 Mô hình Hồi quy tuyến tính (Linear Regression) . : : 28
3.7.1 Hồi quy tuyến tính đơn biến -¿ 2¿©2+©2++cx+2£x2zxrrxeerxesrxee 28
3.7.2 Hỏi quy tuyến tính đa biến 2-52 252+E+ExeExcrEvrxerxerkerree 29
3.8 Mô hình Deep Q-Learning - - - - 5 3+ 1321113151111 1111k rrre 30
3.8.1 ia - L.A 30 3.8.2 Quá trình hoạt động - - c1 11 32 111 1111111111111 kg 31
3.9 M6 hinh noan ÔÒỎ 32
3.9.1 Dir nghia 32
3.9.2 Quy trình thuật foán - - 5 +5 + HH ngư 32 3.10 Các phương pháp đánh giá mô hình [ 7] - « +55 «++s<<<++s-++++ 34
3.10.1 Mean Absolute Error (MAE) - 2< Ăc 1S eeree 34
3.10.2 Mean Absolute Percentage Error (MAPPE) .- << <<<<+<e+ 34
3.10.3 Root Mean Squared Error (RMSE) - c5 + +sssseseseeeses 35
3.11 You Only Look Once (YOLO) - ¿2 +++2E++EE£+EE+zEerxesrxerreeee 35
Chương 4 PHAN TÍCH THIET KE VÀ THUC NGHIỆM - 40
AL Kién tric d6 tai šắ 5 40
4.2 Phase 1 — Hoc mô hình dự báo, phat hiện đối TƯỢNG cà Sseece 40
4.2.1 MG hình dự báo -2-©5¿+2+2Ekt2EEEEEEEEEEEEEEEEkCErkrrrrrree 40
4.2.2 Mô hình phát hiện đối tượng - 2-52 2+S£+E+Eezxerterxerxereee 46
4.3 Phase 2— Xây dựng hệ thống API - 2-2 ©2E£+EE+EE+EEtEEEzExerxerxerex 49
4.3.1 Thiết kế thành phần chức năng -2 2 2+x+£E++Ez+Eerxerseee 49
4.3.2 Thiết kế thành phan dữ liệu 2-2: 5¿+5£+2++x+£xzxzrserxerseee 57
4.4 Phase 3 — Triển khai hệ thống API lên Sever Cloud Linux 61
4.5 Phase 4— Xây dựng giao diện và giao tiếp với API -secs5c+¿ 62
Trang 6Chương 5 KET QUA ĐẠT DUGC VÀ HƯỚNG PHÁT TRIÊN
5.1 Kết quả đạt được
5.2 Hướng phát triển
TÀI LIỆU THAM KHẢO
Trang 7Hình 10 Mô hình Deep Q-Learning -¿- + + 5+ + 1x HH ng ng ng rưệt 30 Hình 11 Các bước hoạt động mô hình KNN cà seeeseesssee 33 Himh 004900915 36
Hinh 13 YOLO 7 38
Hình 14 Kiến trúc đề ti scescesecsssseseccssnsvecensnnsecesssnecesstieccessnseecesnnseceesnnseseesnnseeeesnes 40
Hình 15 Kết quả trả về của weafherapi - ¿+ s+ck+Ex+EE+EE+EzErkerkerkerkersrree 41200) 08138.400.000 nh 444 42Hình 17 Kết quả crawl data - Thêm cột AQI - 2 ¿©+¿2++x++zx++z++zx+zr+z 43
Hình 18 Trực quan dữ lIỆU - 5 G1 9n ng ng Hư 43 Hình 19 Dự đoán AQT - RÌNN - SH HH HH Hàng Hưng Hư 44
Hình 20 Dự đoán AQT - LLSÏTÏM - Ăn ng HH Hư 44
Hinh 21 Du ối0):i0.49)016)100 755 aa Ố 44 Hình 22 Dự đoán AQI - LinearRe€gTr€SSIOII 55 5 SE *+E+sEEseeeeeerereere 45 Hình 23 Dự đoán AQT - ARIIMA - Ăn HH HH Hàng HH gi ưệt 45 Hình 24 Dự đoán AQT - KÌN SH HH HH HT HH ng HH tư 45
Hình 25 Dự đoán AQI - Deep Q-Learning 5 Sc* + ssvvseersereersrerrs 46
Hình 26 Dữ liệu đã gắn nhãn - 2-2 2 2E SE£EEEEEEEEEEEEEEEEE2E2E E2 erkrree 47
Hình 27 Dữ liệu sau khi nhận diện - - - <5 2E * SE S2 EEEE+eezeeeeeezzzz 48
Hình 28 Kết quả về các chỉ số đánh giá mô hình 2-2 2 2 s2 +x+£++£sz£+z +2 48
Trang 8Activity Diagram Tính toán AQÏ 5 - 5 HH ng Hư, 51
Activity Diagram Dự đoán AQI trong 7 ngày tiếp theo - 52
Activity Diagram Phát hiện các địa điểm du lịch -: 53
Activity Diagram Xem dự báo AQI, thời tiẾt ¿5-5 sccsrzes 54Activity Diagram Xem các địa điểm gợi ý sceccescesssesstessesssessseestesstesseessees 55Activity Diagram Đăng bài viết lên mạng xã hội - - 56
Sequence thu thập và tính toán giá tri AQÌ -+++-+++s+<cxssxsss 57Sequence đăng bài và gắn caption -:-©5c+22+z+£xerxczxrrxerxerkres 57
Đặt lịch dé hệ thống tự động thu thập dữ liệu mỗi giờ - 61
Đặt lịch cho các thuật toán chạy - -. 5 + Sss* + +sveseeeeeereesers 62 Touriest App - Màn hình đăng nhập - - 5 5 5< +<£+sc<+eesserses 62 Touriest App - Màn hình đăng ky - - - 5 ScS*sk+EEsskksekesreekrree 63
Touriest App - Màn hình trang ChủỦ - - 2555 < + +svEsseeeseeeeeers 64
Touriest App - Màn hình trang ChỦ - c5 555 + + ++seseeeeeseeeeeers 65
Touriest App - Màn hình chỉ tiết địa điểm du lịch -: 66
Touriest App - Màn hình xem vị trí địa điểm trên map - 67
Touriest App - Man hình xem bài dang - - 5 5< 5<<5<<+sx+s+sx+ 68
Touriest App - Màn hình đăng bải - Ăn seeeeerrerseesee 69
Touriest App - Màn hình xem thời tiẾt - 2-2 2 52 ©522£2+£s+£xcseez 70Touriest App - Màn hình danh sách tỉnh/ thành phố - 71Touriest App - Màn hình xem chat lượng không khí ngày hiện tại 72Touriest App - Màn hình dự đoán chất lượng không khí 7 ngày tiếp theo73
Touriest App - Màn hình xem các vùng du lịch gợi ý - 74
Touriest App - Màn hình xem các địa điểm du lịch gợi ý ở trong vùng đã
Trang 9DANH MỤC BANG
Bang 1 Khoảng giá trị AQI và đánh giá chất lượng không khí - 11
Bang 2 Tinh toán AQI giờ (AQIh) của O3 sử dung giá tri BPi cho O3 (1h) 14
Bang 3 Bảng số liệu trung bình 1 giờ của O3 ¿- 2-52 2+cz+Ee£kerxerxerxersrree 15Bảng 4 Bảng số liệu trung bình 8 giờ của O3 ¿ 2¿©2+c22+ccxccrxrerxerrecree 15Bảng 5 Kết quả các chỉ số đánh giá mô hình sau khi train -:55+ 46
Bang 6 Bảng thuộc tính người dùng - 5 5 + 1n HH HH gi rưệt 57
Bảng 7 Bảng ham người đùÙng - - - + 31223119112 1 9111111 1 1H ng ng rưy 58
Bảng 8 Bảng thuộc tinh Weatherr s11 vn TH HH ng kg 58 Bang 9 Bang ham Weather 0 cccceccccssccsscesseceseeceseeceaeeeeaeeseeceaceeeaeeeeaeceeaeeeeeesaes 58 Bang 10 Bang thuộc tinh DestinatiOn - 5-5 5 + 1 ng rưệt 59
Bảng 11 Bảng ham DesfInafIOH s1 E1 9 931 vn nh ngư 59
Bang 12 Bảng thuộc tính AQQIL - 5c 5c + S129 1191 HH HH HH giết 59
Bảng 13 Bảng hàm AQIL ngàng HH gà 60
Bảng 14 Bảng thuộc tính dự đoán AQI - - 2 5-32 32 SEsirserrrsrrrerrrrrre 60 Bang 15 Bảng hàm dự đoán AQI - c2 1323139111191 1 111811811 11 rkre 60 Bang 16 Bảng thuộc tính POSK 5G 2 + E3 ST HH HH HH tưệt 60
Bang 17 Bảng hàm POS( - G111 TT HH HH 61
Trang 11TÓM TẮT KHÓA LUẬN
Du lịch là một ngành ngày càng phát triển ở Việt Nam, tuy nhiên đi kèm với
sự phát triển đó thì cũng có những hệ lụy khác như: làm tăng số lượng rác thải ở cáckhu du lịch, tăng độ ô nhiễm không khí do có nhiều xe cộ đi lại Việc có một ungdụng hữu ich giúp khách du lịch lựa chọn địa điểm phủ hợp nhất là một điều cần thiết.Khóa luận này tập trung vào việc phát triển một hệ thống gợi ý địa điểm du lịch dựatrên điều kiện thời tiết, chất lượng không khí và tích hợp mạng xã hội
Đầu tiên, khóa luận tập trung vào việc thu thập dữ liệu về điều kiện thời tiết từcác nguồn đáng tin cậy như dự báo thời tiết, trạm quan trắc thời tiết Dữ liệu này sẽ
được sử dụng dé xác định các yếu tố như nhiệt độ, độ âm, mưa, nang tại các địa điểm
khác nhau.
Tiếp theo, khóa luận sử dụng dữ liệu về chất lượng không khí được thu thập
từ các trạm quan trắc ô nhiễm không khí dé đánh giá chỉ sé AQI tai cac dia diém, va
sử dụng các thuật toán, mô hình dự báo đề dự báo giá trị AQI trong các giờ tiếp theotại các địa điểm du lịch Từ đó cung cấp cho người dùng các dự báo chính xác trong
tương lai.
Cuối cùng, khóa luận tích hợp thêm mạng xã hội dé du khách có thé check in,
đăng các thông tin về chuyến đi của mình cũng như kết bạn, giao tiếp với mọi người
Hệ thống gợi ý địa điểm này là một ứng dụng di động (Android/IOS) giúp cho khách
du lịch có thé truy cập mọi lúc mọi nơi để tìm kiếm và lay thông tin một cách nhanh
chóng, giúp tiết kiệm rất nhiều thời gian và cải thiện chất lượng của những chuyến
đi, giúp họ tận hưởng và khám phá những địa điểm phù hợp với sở thích cá nhân
Nội dung khóa luận gồm 4 chương chính:
e Chương 1: MỞ DAU
e_ Chương 2: CAC NGHIÊN CUU LIEN QUAN
e Chương 3: CƠ SO LÍ THUYET
e Chương 4: PHAN TÍCH THIET KE VÀ THUC NGHIỆM
e Chương 5: KET QUA ĐẠT ĐƯỢC VA HƯỚNG PHAT TRIEN
Trang 12do có nhiều xe cộ đi lại Việc có một ứng dụng hữu ích giúp khách du lịch lựa chọnđịa điểm phù hợp nhất dựa trên điều kiện thời tiết và chất lượng không khí là một
điêu cân thiệt Dé tai nay là một đê tài mang tinh ứng dụng cao va có nhiêu lợi ích cho khách du lịch nói riêng và ngành du lịch nói chung như:
1.2.
e Với sự phát triển ngày càng nhanh của ngành du lich ở Việt Nam thì việc cần
một ứng dụng đề cung cấp thông tin và gợi ý địa điểm du lịch phù hợp có thêgiúp thu hút rất nhiều khách du lịch
Điều kiện thời tiết và chất lượng không khí là những yếu tố chiếm phần quantrọng trong trải nghiệm và sức khỏe của khách du lịch, gây ra rất nhiều thiệthại về chi phí kinh tế [1] Việc tích hợp thông tin này vào ứng dụng giúp chongười dùng có được thông tin hữu ích về địa điểm du lịch, tiết kiệm thời gian,công sức tìm kiếm, đồng thời có cái nhìn tong quan về môi trường du lịch, từ
đó quyết định chọn địa điểm phù hợp
Mang xã hội và công nghệ di động đã trở thành một phần không thé thiếu trongcuộc sống hiện đại Việc tích hợp mạng xã hội vào ứng dụng giúp cho ngườidùng có thể tương tác, chia sẻ và nhận được các gợi ý, thông tin từ cộng đồng.Điều này cũng giúp cải thiện trải nghiệm của khách du lịch và mang lại tương
tác xã hội cho người dùng.
Mục tiêu đê tài
Xây dựng được một ứng dụng di động gợi ý địa điểm du lịch cho các du kháchdựa trên điều kiện thời tiết, chất lượng không khí và tích hợp thêm mạng xã hội vào
ứng dụng:
e_ Phát triển một hệ thống gợi ý địa điểm du lịch: Xây dựng một hệ thống hoạt
động tự động dé gợi ý địa điểm du lịch dựa trên thông tin về điều kiện thời tiết
Trang 13và chất lượng không khí Hệ thống sẽ sử dụng các thuật toán và công nghệ phù
hợp để xác định và đánh giá các địa điểm du lịch phù hợp với các tiêu chí này
e Tích hợp mạng xã hội và thông tin từ người dùng: Tạo sự kết nối với các nền
tảng mạng xã hội và tích hợp thông tin từ người dùng, bao gồm việc thu thập
dữ liệu về trải nghiệm du lịch, đánh giá và phản hồi Thông tin này sẽ được sửdụng để cải thiện hệ thống gợi y và đưa ra các dia điểm du lịch phù hợp với sởthích và mong muốn của người dùng
e Cung cấp thông tin chỉ tiết và hữu ich: Đưa ra thông tin chỉ tiết và hữu ích về
các địa điểm du lịch được gợi ý, bao gồm thông tin về thời tiết, chất lượngkhông khí, hoạt động du lịch, điểm tham quan, dịch vụ và tiện nghi Mục tiêu
là cung cấp cho người dùng một cái nhìn tổng quan và chỉ tiết về các địa điểm
du lịch dé họ có thé đưa ra quyết định thông minh và có trải nghiệm du lịch
tốt hơn
e Tăng cường trải nghiệm du lịch và sự tương tác xã hội: Tao điều kiện cho
người dùng tương tác, chia sẻ trải nghiệm du lịch và giao lưu với cộng đồng
du lịch thông qua tích hợp mạng xã hội Mục tiêu là tạo ra một môi trường trực
tuyến thú vị và hap dẫn dé người ding có thé tận hưởng và chia sẻ trải nghiệm
du lịch của mình.
1.3 Đối tượng và phạm vi nghiên cứu
1.3.1 Đối tượng nghiên cứu
Đề tài nhắm đến những người muốn tìm kiếm thông tin và gợi ý địa điểm dulịch dựa trên điều kiện thời tiết, chất lượng không khí và sử dụng mạng xã hội dé
tương tac va chia sẻ trải nghiệm du lich.
Các đặc trưng của chất lượng không khí và chỉ số đánh giá chất lượng khôngkhí AQI trên các tỉnh thành ở Việt Nam từ 04-2023 đến 06-2023
Các địa điểm nỗi tiếng ở thành phó Hồ Chí Minh
1.3.2 Phạm vỉ nghiên cứu
- Dé tai tập trung nghiên cứu về các vân dé sau:
Trang 14e Gợi ý địa điểm du lịch: Nghiên cứu sẽ tập trung vào việc phát triển hệ
thống gợi ý địa điểm du lịch dựa trên thông tin về điều kiện thời tiết vàchất lượng không khí Hệ thống sẽ đưa ra các địa điểm du lịch phù hợp
và cung cấp thông tin chỉ tiết về chúng
e_ Thông tin về điều kiện thời tiết và chất lượng không khí: Nghiên cứu
sẽ tìm hiểu và sử dụng thông tin về điều kiện thời tiết và chất lượngkhông khí từ các nguồn đáng tin cậy, sử dụng mô hình đánh giá chất
lượng không khí dé đánh giá chất lượng không khí Mục tiêu là cungcấp cho người dùng thông tin chính xác và đáng tin cậy về các yếu tố
này.
e Tích hợp mạng xã hội và thông tin từ người dùng: Nghiên cứu sẽ xây
dựng cơ chế dé tích hợp mạng xã hội và thu thập thông tin từ người
dùng, bao gồm dữ liệu về trải nghiệm du lịch, đánh giá và phản hồi
Thông tin này sẽ được sử dụng đề cải thiện hệ thống gợi ý và tăng cường
tương tác xã hội.
e Trải nghiệm du lịch và tương tác xã hội: Nghiên cứu sẽ xem xét cách
tăng cường trải nghiệm du lịch và tương tác xã hội
Môi trường phát triển
Xây dựng các mô hình dự báo, phát hiện: Python
Xây dựng hệ thống API: NodeJS
Xây dựng giao diện ứng dụng: Framework Flutter, Dart Sever Cloud: Linux
Công cụ code: VSCode
Trang 15Chương 2 CÁC NGHIÊN CỨU LIÊN QUAN
2.1 Spatio-attention embedded recurrent neural network for air quality
prediction [2]
Nghiên cứu này tập trung vào việc dự đoán chất lượng không khí bang cách tận
dụng toàn điện các mối tương quan của không gian-thời gian giữa các trạm giám sát
Dé làm điều này, tác giả đề xuất một kiến trúc mạng nơ-ron tái phát (RNN) mới gọi
là "spatio-attention embedded recurrent neural network" (SpAttRNN) SpAttRNN kếthợp hai thành phan quan trọng dé cải thiện dự đoán chất lượng không khí Thứ nhất,
nó sử dụng một mô-đun nhúng thông tin không gian dé xử lý các mối quan hệ khônggian giữa các địa điểm đo và dự đoán Thứ hai, nó sử dung chú ý dé tập trung vào cácyếu tố quan trọng trong dữ liệu đầu vào, nhằm cải thiện hiệu suất của mô hình Bàibáo đề xuất một kiến trúc mạng SARNN day đủ, bao gồm các bước xử lý như chuẩnhóa đữ liệu đầu vào, sử dụng mô-đun nhúng không gian và mô-đun chú ý, cùng vớiviệc đào tạo và đánh giá mô hình Qua thí nghiệm trên tập dữ liệu thực tế về chấtlượng không khí, tác giả đã chứng minh rang SpAttRNN có hiệu suất tốt hơn so với
các phương pháp dự đoán khác SpAttRNN không chi cải thiện độ chính xác của dự
đoán mà còn giúp hiểu rõ hơn về tương quan không gian trong dữ liệu chất lượng
không khí.
2.2 Prediction of air quality index based on LSTM [3]
Nghiên cứu nay tập trung vào việc dự đoán chi số chất lượng không khí thông quanhiệt độ, hướng gió, PMs, PM¡g, SO;, NO;, 03 Dé làm điều này, tác giả sử dung
mạng nơ-ron LSTM (Long Short-Term Memory) LSTM là một dạng mạng nơ-ron
tái phát đặc biệt được thiết kế dé xử lý dữ liệu chuỗi, trong đó thông tin được truyền
qua các "công" dé duy trì và lưu trữ thông tin quan trọng trong quá trình dự đoán Sử
dụng LSTM, các mẫu chuỗi thời gian về chất lượng không khí có thể được mô hìnhhóa và dự đoán Bài báo đề xuất một kiến trúc mạng LSTM đơn giản, bao gồm các
bước chuẩn bị dữ liệu, xây dựng mô hình LSTM và quá trình huấn luyện Các chỉ số
chất lượng không khí được sử dụng làm đầu vào, và mô hình LSTM được đào tạo dé
dự đoán chỉ số chất lượng không khí trong tương lai Thí nghiệm trên dữ liệu thực tế
Trang 16đã được tiến hành dé đánh giá hiệu suất của mô hình LSTM trong dự đoán chỉ số chấtlượng không khí Kết quả cho thấy rằng LSTM có khả năng dự đoán tương đối chínhxác và có tiềm năng trong việc ứng dụng dự đoán chất lượng không khí.
2.3 A fuzzy multiple linear regression model based on meteorological factors
for air quality index forecast [4]
Nghiên cứu này tập trung vào việc dự đoán chi số chất lượng không khí, một yếu
tố quan trọng trong lĩnh vực môi trường và sức khỏe công cộng Đề làm điều này, tácgiả đề xuất một mô hình hồi quy tuyến tính đa biến mờ Mô hình hồi quy tuyến tính
đa bién mờ kết hợp các yếu tố khí tượng, chăng hạn như nhiệt độ, độ âm, tốc độ gió
và áp suất không khí, dé dự đoán chỉ số chất lượng không khí Tuyến tinh đa biến mờ
cho phép mô hình xem xét mối quan hệ không chỉ riêng lẻ giữa mỗi yêu tổ và chỉ số
chất lượng không khí, mà còn tương tác giữa các yếu tố khí tượng Bài báo đề xuấtmột mô hình hồi quy tuyến tính đa biến mờ day đủ, bao gồm việc xây dựng các quytắc mờ dựa trên đữ liệu huấn luyện và sử dụng phép toán mờ dé đưa ra dự đoán Qua
đó, mô hình có khả năng đưa ra dự đoán về chỉ số chất lượng không khí dựa trên các
yếu tố khí tượng đã cho Thí nghiệm va so sánh với các mô hình khác đã được tiếnhành đề đánh giá hiệu suất của mô hình hồi quy tuyến tính đa biến mờ trong dự đoánchỉ số chất lượng không khí Kết quả cho thấy răng mô hình có khả năng dự đoántương đối chính xác và đáng tin cậy
2.4 A novel ensemble reinforcement learning gated unit model for daily
PM2.5 forecasting [5]
Nghiên cứu nay tập trung vào việc dự đoán PM2.5, một chỉ số quan trong dé đánhgiá chất lượng không khí và tác động đến sức khỏe con người Đề làm điều này, tácgiả đề xuất một mô hình ensemble sử dụng kỹ thuật học tăng cường và mô-đun công
để cải thiện dự đoán PM2.5 hàng ngày Mô hình được gọi là "ensemble reinforcementlearning gated unit model" (ERLGU), kết hợp sự kết hợp của các mô hình dự đoándựa trên học tăng cường và mô-đun cổng Các mô hình dự đoán cá nhân trongensemble được tô chức theo cấu trúc mạng công dé tổng hợp thông tin từ các mô hìnhcon khác nhau Mô hình ERLGU sử dụng kỹ thuật học tăng cường để tối ưu hóa việc
Trang 17chọn mô hình con trong ensemble và đồng thời học cách tương tác giữa các mô hình
con Mô-đun công được sử dụng đề tăng cường khả năng học và sự linh hoạt của mô
hình Bài báo đề xuất một kiến trúc chi tiết của mô hình ERLGU, bao gồm các bước
xử lý dữ liệu, xây dựng va dao tạo mô hình ensemble Thí nghiệm va so sánh với các
phương pháp khác đã được tiến hành để đánh giá hiệu suất của mô hình ERLGUtrong dự đoán PM2.5 hàng ngày Kết quả cho thấy rằng mô hình ERLGU đạt đượchiệu suất tốt trong dự đoán PM2.5 hàng ngày và vượt qua các phương pháp truyềnthống khác Mô hình ERLGU cung cấp một phương pháp tiếp cận mới để dự đoán
chất lượng không khí và có tiềm năng ứng dụng rộng rãi trong lĩnh vực này.
2.5 Deep object detection of crop weeds: Performance of YOLOv7 on a real
case dataset from UAV images [6]
Nghiên cứu nay tập trung vào việc phat hiện và nhận dạng cỏ dai trong nông
nghiệp, một van đề quan trong dé quản lý và kiểm soát cỏ dai gây hại cho cây trồng
Đề làm điều này, tác giả sử dụng mô hình YOLOv7, một mô hình phát hiện đối tượngsâu (deep object detection), dé phan loai va dinh vi co dai trong hinh anh UAV M6hình YOLOv7 được sử dụng đề nhận diện và định vị các vật thể trong hình ảnh, baogồm cỏ đại trong trường nông nghiệp Mô hình này có khả năng xử lý hình ảnh nhanhchóng và hiệu quả, cho phép phát hiện đối tượng trong thời gian thực Bài báo trìnhbày kết quả thực nghiệm sử dụng tập dữ liệu thực tế từ hình ảnh UAV để đánh giáhiệu suất của mô hình YOLOv7 trong việc phát hiện cỏ dai trong nông nghiệp Cácchỉ số đánh giá, như độ chính xác, độ phủ, va F1-score, được sử dụng dé do lườnghiệu suất của mô hình Kết quả cho thấy rằng mô hình YOLOv7 đạt được hiệu suấttốt trong việc phát hiện cỏ dại trong nông nghiệp từ hình ảnh UAV Mô hình này cókhả năng nhận diện và định vị chính xác các vật thể cỏ đại, đáp ứng nhu cầu quản lý
và kiểm soát cỏ đại trong nông nghiệp hiệu quả hơn
2.6 YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for
real-time object detectors [7]
Nghiên cứu này tap trung vào việc phát hiện đối tượng thời gian thực, một nhiệm
vụ quan trọng trong lĩnh vực thị giác máy tính và nhận dạng đối tượng Mô hình
Trang 18YOLOv7 là một bước tiến mới trong hệ thong YOLO (You Only Look Once) và đạt
được hiệu suất cao hơn các phiên bản trước đó Bài báo trình bày chỉ tiết về kiến trúc
của mô hình YOLOv7 và các phương pháp được sử dụng dé cải thiện hiệu suất của
nó Mô hình YOLOv7 sử dụng các kỹ thuật "bag-of-freebies", tức là sử dụng những
cải tiễn và kỹ thuật tiên tiến từ các phiên bản trước đó, nhằm nâng cao khả năng đàotạo và hiệu suất phát hiện Bài báo cũng trình bày kết quả đánh giá hiệu suất của môhình YOLOv7 trên các tập dữ liệu thực tế và so sánh với các mô hình khác trong lĩnhvực phát hiện đối tượng Kết quả cho thấy rằng YOLOv7 đạt được hiệu suất tốt và
đánh bại các mô hình khác, thiết lập một tiêu chuẩn mới cho việc phát hiện đối tượng
thời gian thực.
2.7 Các ứng dụng, hệ thống liên quan
TripAdvisor: TripAdvisor là một trong những trang web đánh giá du lịch hàng
dau thé giới Họ cung cấp thông tin về chat lượng không khí, điều kiện thời tiết vàđánh giá của người dùng cho các địa điểm du lịch khác nhau trên toàn thé giới
Weather Underground: Weather Underground là một dịch vụ dự báo thời tiết trực
tuyến Họ cung cấp thông tin chỉ tiết về điều kiện thời tiết cho các địa điểm du lịch
và cho phép người dung tìm kiếm dự báo thời tiết theo địa điểm cụ thé
AirVisual: AirVisual là một ứng dụng đi động cung cấp thông tin về chất lượngkhông khí trên toàn cầu Người dùng có thê tìm kiếm thông tin về chất lượng khôngkhí tại các địa điểm du lịch và nhận được đánh giá, chỉ số ô nhiễm không khí, và
thông tin liên quan khác.
Dark Sky: Dark Sky là một ứng dụng dự báo thời tiết với khả năng dự báo chínhxác và chỉ tiết Ngoài việc cung cấp thông tin về thời tiết, Dark Sky cũng cung cấpcác tính năng như gợi ý hoạt động ngoài trời dựa trên điều kiện thời tiết hiện tại vàtích hợp mạng xã hội dé chia sẻ thông tin với ban bẻ
VN Trip: VN Trip là một ứng dụng di động giúp người dùng khám phá các địa
điểm du lịch tại Việt Nam Nó cung cấp thông tin về điều kiện thời tiết, chất lượng
không khí, đánh giá của người dùng và gợi ý các hoạt động du lịch tại các địa điểm
khác nhau trong nước.
Trang 19AirVisual Vietnam: AirVisual Vietnam là một ứng dung di động tập trung vào
việc cung cap thông tin về chất lượng không khí tại các thành phố và địa điểm du lịch
ở Việt Nam Người dùng có thê tra cứu chỉ số ô nhiễm không khí, dự báo và thôngtin chỉ tiết về chất lượng không khí tại các địa điểm khác nhau trong nước
Instagram va Facebook: Instagram và Facebook là hai mang xã hội phổ biến,người dùng có thể chia sẻ hình ảnh và trạng thái về các địa điểm du lịch Băng cách
sử dụng đữ liệu từ các bài đăng của người dùng, có thé tao ra các gợi ý địa điểm dulịch dựa trên chất lượng không khí, điều kiện thời tiết và hoạt động mà người dùng
chia sẻ.
Trang 20Chương 3 CƠ SỞ LÍ THUYET
3.1 Chuỗi thời gian (Time Series)
3.1.1 Định nghĩa
Chuỗi thời gian (Time Series) [8]: là một loạt các quan sát được thu thập theo thời
gian tuần tự Mỗi quan sát trong chuỗi thời gian được ghi lại tại một điểm thời gian
cụ thê và thường có tần suất đều Nó có thể là dữ liệu đơn biến (một biến phụ thuộc)hoặc dữ liệu đa biến (nhiều biến phụ thuộc)
AQI 350
e_ Động lực tăng dan (Increasing trend): Chuỗi thời gian có xu hướng tăng
theo thời gian.
e Động lực giảm dần (Decreasing trend): Chuỗi thời gian có xu hướng giảm
theo thời gian.
e Động lực không đổi (Stationary trend): Chuỗi thời gian không có xu hướng
tăng hoặc giảm mạnh theo thời gian.
3.1.3 Mùa vụ (Seasonality)
Mùa vụ là sự lặp lại chu kỳ theo thời gian trong chuỗi thời gian Nó xuất hiện khi
có sự biến động định kỳ trong đữ liệu và có thể xảy ra hàng ngày, hàng tuần, hàng
tháng, hàng quý hoặc hàng năm.
10
Trang 213.1.4 Chu kỳ (Cycle)
Chu kỳ biéu thị sự biến động dài hạn của chuỗi thời gian Nó có thé kéo dài trong
một khoảng thời gian dài hơn mùa vụ và không có tính chất định kỳ
3.1.5 Dao động ngẫu nhiên (Noise)
Dao động ngẫu nhiên là các biến động không có hệ thống hoặc không thể dự đoán
được trong chuỗi thời gian Nó có thé được gây ra bởi các yếu tô ngẫu nhiên, nhiễuhoặc sự không chắc chắn trong đữ liệu
3.1.6 Hàm tương quan (Autocorrelation Function)
Hàm tự tương quan đo lường mức độ tương quan giữa các giá trị trong chuỗi thời
gian với các giá trị trước đó Nó cho phép xác định mức độ phụ thuộc thời gian và
các chu kỳ trong dữ liệu.
3.1.7 Hàm tự tương quan mẫu phan (Partial Autocorrelation Function)
Hàm tự tương quan mẫu phần là một công cụ để xác định mức độ tương quan giữa
các giá trị trong chuỗi thời gian sau khi loại bỏ tác động của các giá trị trung gian Nó hữu ích trong việc xác định mô hình AR (auto regressive) thích hợp cho chuỗi thời
gian.
3.1.8 Định tính hóa (Differencing)
Định tính hóa là quá trình loại bỏ động lực trong chuỗi thời gian bang cách layhiệu số giữa các giá tri liên tiếp Nó được sử dụng dé biến đổi chuỗi thời gian phituyến thành chuỗi thời gian tuyến tính
3.2 Đánh giá chất lượng không khí - AQI
Chỉ số chất lượng không khí - AQI [9] được tính theo thang điểm (khoảng giá trịAQI) tương ứng với biểu tượng và các màu sắc dé cảnh báo chất lượng không khí va
mức độ ảnh hưởng tới sức khỏe con người, cụ thé như sau:
Bang 1 Khoảng giá trị AQI và đánh giá chất lượng không khí
R oar Chat lượng ` og TA
Khoảng giá trị AQI không khí Màu sắc Mã màu RBG
0-50 Tot Xanh 0;228;0
11
Trang 2251 - 100 Trung binh Vang 255;255;0
101 - 150 Kém Da cam 255;126;0
151 - 200 Xâu Đỏ 255;0;0
201 - 300 Rat xâu Tim 143;63;151
301-500 Nguy hại Nâu 126;0;35
3.2.1 Hướng dẫn tính toán chỉ số chất lượng không khí
Yêu cầu đối với việc tính toán VN_AQI
Thiết bị quan trắc phải được kiểm soát chất lượng hệ thống và đo lường theo các
quy định của pháp luật.
Dữ liệu quan trắc được đưa vào tính toán đã qua xử lý, đảm bảo đã loại bỏ các giátrị sai lệch, đạt yêu cầu đối với quy trình quy phạm về đảm bảo và kiểm soát chấtlượng số liệu
Cách thức sử dụng số liệu dé tính toán VN_AQI
VN_AQI được tính toán bao gồm AQI giờ và AQI ngày Số liệu sử dụng dé tínhtoán VN_ AQI là giá trị quan trắc trung bình 1 giờ, trung bình 8 giờ và trung bình 24
giờ.
VN_AQI được tính toán cho dit liệu của từng trạm quan trắc không khí tự độngliên tục đối với môi trường không khí xung quanh Đối với mỗi trạm quan trắc, AQI,
được tính toán cho từng thông số quan trắc, giá trị AQI cuối cùng là giá trị lớn nhất
trong các giá trị AQI, của mỗi thông số
Các thông số được sử dụng dé tính VN_AQI bao gồm: SO;, CO, NO2, O03, PMio,
và PMas Phương pháp tính toán VN_AQI yêu cau bắt buộc phải có tối thiểu 01trong 02 thông số PM¡o, PM: trong công thức tính
12
Trang 233.2.2 Tính toán giá trị VN_AQI
Tính toán giá trị AQI giờ (AQI")
Số liệu dé tính toán AQI giờ là giá trị quan trắc trung bình 1 giờ
Tính giá trị Nowcast đối với thông số PM; và PMụo
Gọi ci, ca, c12 là 12 giá trị quan trắc trung bình 1 giờ (với c¡ là giá trị quan trắctrung bình 1 giờ hiện tại, ci2 là giá trị quan trắc trung bình 1 giờ cách 12 giờ so với
© — Gnin là giá trị nhỏ nhất trong số 12 giá trị trung bình 1 giờ
© — Cnax là giá trị lớn nhất trong số 12 giá trị trung bình 1 giờ
Trong trường hợp w = ¬ thì Nowcast = “4 + C?c; feet Quốc
Nếu có ít nhất 2 trong 3 giá tri c¡, c2, c3 có dữ liệu thì mới tính được giá trị Nowcast,ngược lại coi như “không có dữ liệu” (không tính được giá tri Nowcast).
Nếu ci không có giá trị thì lay w'! = 0
Tính giá trị AQIh của từng thông số (AQI,)
Giá trị AQI" của các thông số SOa, CO, NO», O3 được tính toán theo công thức 1,giá trị AQI" của các thông số PM¡o, PMas được tính toán theo công thức 2:
Trang 24BP;: Nong độ giới hạn dưới của giá tri thông số quan trắc được quy định
trong Bang 2 tương ứng với mức I.
BP,.,: Nong độ giới hạn trên của giá trị thông số quan trắc được quy định
trong Bảng 2 tương ứng với mức í + 1.
T;: Giá tri AQI ở mức i đã cho trong bảng tương ứng với giá tri BP,.
1,44: Giá trị AQI ở mức i + 1 cho trong bảng tương ứng với giá tri BP;„.
C„: Giá trị quan trắc trung bình 1 giờ của thông số x
Nowcast,: Giá trị Nowcast được tính toán ở phan a Bảng 2: Các giá tri
BP, đôi với các thông sô
Bang 2 Tính toán AQI giờ (AOIh) của O3 sử dụng giá trị BPi cho O3 (1h)
i I | Giá tri BP; quy định đối với từng thông số (Don vị: ug/mẺ)
O3(1h) | Os(8h) | CO SO; | NO; | PMi |PM2,s
Giá tri AQI giờ tổng hop
Sau khi đã có giá tri AQL, của mỗi thông số, chon giá tri AQI lớn nhất của cácthông số dé lay làm giá trị AQI giờ tổng hợp Giá trị AQI giờ được làm tròn thành số
nguyên.
AQIn = max (A01,)
14
Trang 253.2.3 Tính toán giá trị AQI ngày (AQ1I„)
Giá tri AQI ngày được tính toán dựa trên các giá trị như sau:
e Thông số PM2.5 và PMI0: giá trị trung bình 24 giờ
e Thông số O3: giá trị trung bình 1 giờ lớn nhất trong ngày và giá trị trung
bình 8 giờ lớn nhất trong ngày
e Thông số SO2, NO2 và CO: giá trị trung bình 1 giờ lớn nhất trong ngày
Xác định giá trị trung bình 1 giờ lớn nhất trong ngày, giá trị trung bình 8 giờ lớn
nhất trong ngày và giá trị trung bình 24 giờ
e Giá trị trung bình 1 giờ lớn nhất trong ngày là giá trị lớn nhất trong số các
giá trị quan trắc trung bình 1 giờ
e Giá trị quan trắc trung bình 8 giờ lớn nhất trong ngày là giá trị lớn nhất
trong số các giá trị trung bình 8 giờ Giá trị trung bình 8 giờ là trung bìnhcộng các giá trị trung bình 1 giờ trong 8 giờ liên tiếp
Vi dụ tính giá trị trung bình 8 giờ lớn nhất trong ngày: bảng số liệu trung bình 1
giờ của thông số O như sau:
Bảng 3 Bang số liệu trung bình | giờ của O3
Trang 26(O3(TB8h) 18,0 | 19,4 ) 21,2 | 23,0} 23,8} 25,8 | 28,2 | 30,9 | 33,8 | 36,6 | 39,9 | 44,7
Giờ 13:00] 14:00} 15:00 |16:00|17:00} 18:00) 19:00) 20:00} 21:00} 22:00) 23:00) 0:00
Ox(TB8h) 51,3 | 58,4 | 66,2 | 71,11 74,4) 73,7 | 71,0 | 65,0 | 57,8 | 48,7 | 39,1 | 31,6
Giá trị trung bình 8 giờ lớn nhất trong ngày là: 74,4
Giá trị trung bình 24 giờ: trung bình cộng các giá trị quan trắc trung bình 1 giờtrong 1 ngày (từ 01:00 giờ đến 00:00 hôm sau)
Tính giá trị 4Q1„ của từng thông số (AQI,)
Giá trị AQI ngày của các thông số SOx, CO, NO, 03, PMio, PMas được tính toán
theo công thức 1 như sau:
hài — J;
AQL =———————
Ole = BP — BP, (C,, — BP,) + I; (Công thức 1)
Trong đó:
Bang giá trị BP; va I; lay trong bảng 2
AQI„: Giá trị AQIg thông số của thông số x
BP,: Nong độ giới han đưới của giá trị thông số quan trắc được quy định
trong Bang 2 tương ứng với múc i.
BP,„¡: Nong độ giới hạn trên của giá trị thông số quan trắc được quy định
trong Bang 2 tương ứng với mức i + 1.
l;: Giá tri AQI ở mức i đã cho trong bảng tương ứng với giá tri BP;
TL: Giá trị AQI ở mức i + 1 cho trong bảng tương ứng với giá trị PP.
Œ„: được quy định cụ thé như sau:
o_ Đối với thông số PMa„s và PM¡o: Cx là giá trị trung bình 24 giờ
o_ Đối với thông số Os: Cx là giá trị lớn nhất trong giá trị trung bình | giờ
lớn nhất trong ngày và giá trị trung bình 8 giờ lớn nhất trong ngày
Đối với thông số SO›, NO» và CO: C giá trị trung bình 1 giờ lớn nhất trong
ngày.
16
Trang 27Giá trị AQI ngày tổng hợp
Sau khi đã có giá tri AQI, ngày của mỗi thông số, chọn giá trị AQI lớn nhất củacác thông số đề lấy làm giá trị AQI ngày tổng hợp
AQI° = max(AQIx)
3.3 Mô hình RNN
3.3.1 Dinh nghĩa
Mô hình mạng neural hồi quy (Recurrent Neural Network — RNN [10]) là một
kiéu mang neural được thiết kế dé xử lý dữ liệu có tính tuần hoàn hoặc dữ liệu chuỗi,
như ngôn ngữ tự nhiên, âm thanh, video và chuỗi thời gian RNN có khả năng lưu trữ
thông tin trạng thái trước đó và sử dụng nó như một đầu vào cho các lần xử lý tiếp
e x, là đầu vào tại bước t
es; là trạng thái an tại bước t Sclà bộ nhớ của mạng, được tính toán dựa trên
các trạng thái an phía trước va đầu vào tại bước đó
eo, là đầu ra tại bước t
e W là tập hợp các trọng số
17
Trang 28Một phần quan trọng của RNN là sự chia sẻ trọng số (weight sharing) giữa các
bước thời gian Điều này có nghĩa là cùng một tập trọng số được sử dụng cho mỗi
bước thời gian trong chuỗi dữ liệu đầu vào Việc chia sẻ trọng số giúp RNN có khảnăng xử lý chuỗi dữ liệu có độ dài khác nhau, bởi vì số lượng tham số không phụ
thuộc vào độ dài chuỗi mà chỉ phụ thuộc vào kích thước của mạng.
Cấu trúc của một RNN bao gồm các đơn vi lặp lại gọi là cell Mỗi cell có nhiệm
vụ duyệt qua một phan tử trong chuỗi dữ liệu đầu vào và cập nhật bộ nhớ an Cónhiều loại cell RNN khác nhau như LSTM (Long Short-Term Memory) [11] và GRU(Gated Recurrent Unit) [12], được thiết kế dé giải quyết các van dé như hiện tượng
biến mat gradient và quá dài hoặc quá ngắn của chuỗi
Một RNN thường có thêm một lớp đầu ra (output layer) để tạo ra dự đoán chomỗi bước thời gian trong chuỗi dữ liệu đầu ra Cách tính toán đầu ra có thể khác nhautùy thuộc vào loại bài toán, ví dụ: dùng hàm softmax để tính xác suất của từng từtrong bộ từ vựng, hoặc sử dụng một lớp kết nói đầy đủ (fully connected layer) dé dựđoán một giá tri SỐ
3.4 Mô hình LSTM
3.4.1 Định nghĩa
Mạng nơ-ron hồi quy (Recurrent Neural Network - RNN) có khả năng lưu trữthông tin từ quá khứ và sử dụng nó để dự đoán các giá trị trong tương lai Tuy nhiên,RNN gặp van đề về "mat mát thông tin lâu dài" (long-term dependency) khi xử lý các
chuỗi dài Dé giải quyết van đề này thì LSTM đã ra đời
LSTM (Long Short-Term Memory) [I1]: là một loại RNN được thiết kế dé giảiquyết vấn đề mat mát thông tin lâu dài Nó giữ được thông tin từ quá khứ trong mộtkhoảng thời gian dài và sử dụng nó để làm dự đoán Mô hình LSTM sử dụng các cơchế cổng (gate) dé điều chỉnh luồng thông tin qua mạng, bao gồm:
e Cổng quên (Forget gate): công này quyết định thông tin nào sẽ được lưu
trữ và thông tin nào sẽ bi loại bỏ khỏi bộ nhớ của LSTM Nó sử dụng một
ham sigmoid dé quyết định giá trị của công (0-1) cho từng đơn vị bộ nhớ
18
Trang 29e Cổng đầu vào (Input gate): công này quyết định thông tin mới nào sẽ được
lưu trữ trong bộ nhớ của LSTM Nó sử dụng một hàm sigmoid để quyết
định giá trị của công (0-1) cho từng đơn vi bộ nhớ, và một ham tanh dé tao
ra các giá tri ứng viên mới cho bộ nhớ.
e_ Công đầu ra (Output gate): công đầu ra quyết định giá trị đầu ra của mỗi
đơn vị bộ nhớ trong LSTM Nó sử dụng một hàm sigmoid để quyết địnhgiá tri của công (0-1) cho từng đơn vị bộ nhớ, và sau đó áp dụng hàm tanhcho giá trị bộ nhớ để tạo ra đầu ra cuối cùng
Ngoài các công thì LSTM còn có các thành phần khác như:
e Các đơn vị bộ nhớ (Memory Cells): Mỗi đơn vị bộ nhớ trong LSTM lưu trữ
thông tin từ quá khứ và quyết định thông tin mới nào sẽ được lưu trữ và truyền
đi Các đơn vị bộ nhớ tương tác với các công dé điều chỉnh luồng thông tin và
quyết định đầu ra
e_ Stacked LSTM: là một kiến trúc LSTM mở rộng với nhiều lớp LSTM xếp
chồng lên nhau Kiến trúc này cho phép mô hình học được các mức độ biểu
diễn phức tạp hơn và có khả năng mô hình hóa các mẫu phức tạp trong dữ liệu chuỗi thời gian.
3.4.2 Công thức tính toán LSTM
Đầu tiên LSTM sẽ quyết định xem thông tin nào sẽ được đi qua ô trạng thái (cellstate) Thông tin này được kiểm soát bởi hàm sigmoid trong công quên (forget gate).Đầu tiên, đầu vào nhận được là 2 giá tri và trả về một giá tri năm trong khoảng 0 va
1 cho mỗi giá trị của ô trạng thái Nếu giá tri bằng 1 thé hiện ‘ giữ toàn bộ thông tin’
hoặc băng 0 thé hiện “bỏ qua toàn bộ chúng” Tầng quên cho phép cập nhật thông tinmới và lưu giữ giá trị của nó khi có thay đối theo thời gian
Công thức ở cổng quên:
ƒ =ø(W/.|h;_+,x¿] + br)
Trong đó:
e f, : Là giá trị của công quên tại thời điểm t, quyết định thông tin nào sẽ được
lưu giữ và thông tin nào sẽ bị loại bỏ khỏi bộ nhớ của LSTM.
19
Trang 30e W,; : La Ma trận trọng số cho công quên.
e© h,_; : Trạng thái ân (hidden state) của LSTM tại thời điểm trước đó
e©_ x, : Đầu vào tại thời điểm t
se by : Sai số (bias) cho công quên
Hình 3 LSTM - Công quênTiếp theo loại thông tin sẽ lưu trữ trong ô trạng thái được quyết định Đầu tiên là
một tang ân của hàm sigmoid được gọi là công vào (input gate) quyết định giá tri nào
sẽ được cập nhật.
Công thức ở công vào:
ip = ø(W;.[h,_+,x¿| + bị)
Trong đó:
e i,: Giá trị của công đầu vào tại thời điểm t, quyết định thông tin mới nào sẽ
được lưu trữ trong bộ nhớ của LSTM.
e W,: Ma trận trọng số cho công đầu vào
e h,_;: Trang thái ân (hidden state) của LSTM tại thời điểm trước đó.
e x¿: Đâu vào tại thời diém t.
20
Trang 31e bạ: Sai số (bias) cho công đầu vào.
Tiếp theo, tầng ấn ham tanh sẽ tạo ra một véc tơ của một giá trỊ trạng thái mới Ẽ,
mà có thé được thêm vào trang thái Sau đó kết hợp kết quả của 2 tang này dé tạo
thành một cập nhật cho trạng thái theo công thức:
ễ, = tanh (Wc.[h¿_+,x¿| + be)
Trong do:
e C;,: Giá tri ứng viên mới cho bộ nhớ tại thời điểm t, được tính bằng hàm tanh
của tổ hợp tuyến tính của trạng thái ấn trước đó và đầu vào hiện tại
e We: Ma trận trọng số cho giá trị ứng viên mới
e h, ¡: Trang thai ấn (hidden state) của LSTM tai thời điểm trước đó
e x¿: Đầu vào tại thời điểm t
e be: Sai sô (bias) cho giá tri ứng viên mới.
Hình 4 LSTM Công vào
Đây là thời điểm dé cập nhật một 6 trạng thái cũ, C,_, sang một trang thái mới là
C, Sau đó nhân trang thái cũ với ƒ, ứng với việc quên những thứ quyết định được
phép quên sớm Phan tử đề cử i, * C; là một giá trị mới được tính toán tương ứng với
sô lân được cập nhật vào mỗi giá trị trạng thái Theo công thức sau:
Ch = fr Cra + ip Cy
21
Trang 32Trong đó:
e (C,: Trang thái bộ nhớ (cell state) tai thời diém t, duoc cap nhat dua trén công
quên và cổng đầu vào
e ƒ,: Giá trị của công quên tại thời điểm t
e C,_,: Trang thái bộ nhớ (cell state) tại thời điểm trước đó
e i,: Giá tri của công đầu vào tại thời điểm t
° C: Giá tri ứng viên mới cho bộ nhớ tại thời điểm t
Hình 5 LSTM cập nhật trạng thái
Sau đó sẽ quyết định đầu ra sẽ trả về bao nhiêu Kết quả ở đầu ra sẽ dựa trên ôtrạng thái, nhưng sẽ là một phiên bản được lọc Đầu tiên, chúng ta chạy qua một tầngsigmoid nơi quyết định phan nào của 6 trạng thái sẽ ở đầu ra
Công thức ở công ra:
Trang 33e h, ¡: Trạng thai an (hidden state) cha LSTM tai thoi điểm trước đó Trạng thái
ấn (hidden state) của LSTM tai thời điểm trước đó
© x¿: Đầu vào tai thời điểm t
© bạ: Sai số (bias) cho công dau ra
Cuối cùng, 6 trạng thái được đưa qua ham tanh (dé chuyền giá trị về khoảng -1 và1) và nhân nó với đầu ra của một cong sigmoid, do đó chỉ trả ra phần ma chúng taquyết định theo công thức sau:
Trong đó:
e h,: Trạng thái an (hidden state) tai thoi diém t, duoc tinh bang tich cua céng
đầu ra và ham tanh của trạng thái bộ nhớ
e O;: Giá trị của công đầu ra tại thời điểm t
e (;: Trạng thái bộ nhớ (cell state) tại thời điểm t
Trang 34xử lý chuỗi dữ liệu GRU được giới thiệu bởi Cho et al vào năm 2014 và đã trở thành
một phương pháp phô biến trong lĩnh vực xử lý ngôn ngữ tự nhiên GRU có cau trúc
tương tự như LSTM (Long Short-Term Memory) và cũng có khả năng duy trì thông
tin trong bộ nhớ dài hạn, nhưng với cấu trúc đơn giản hơn Chỉ sử dụng hai công(gate): công cập nhật (update gate) va công đặt lại (reset gate) Trong một sé truonghop, kết quả có thé tốt tương tự nhau
3.5.2 Công thức tính toán GRU
Công thức tính toán trong mô hình GRU như sau:
Cổng cập nhập (update gate): Z¿ = ø(W⁄.[h¿_,x¿])
Trong đó:
e W là ma trận trọng số cho công cập nhật
e© h,_; là bộ nhớ trạng thái ân trước đó
e x, là đầu vào tại thời điểm hiện tại
an h, Nếu z, đến gần 1, nghĩa là mô hình quyết định lưu trữ nhiều thông tin
mới Ngược lại nếu tiến gần đến 0 thì, mô hình quyết định giữ nguyên thông
tin cũ trong hy_4.
24
Trang 35Công đặt lai (reset gate): r; = o(W, [he_1, X¢])
Trong đó:
e M⁄„ là ma trận trọng số cho công đặt lại
© h,_¡ là bộ nhớ trạng thái ân trước đó
e x, là đầu vào tại thời điểm hiện tại
h,_¡ để tính toán h¿ Ngược lại nếu đến gần 0, mô hình quyết định không sử
dụng thông tin từ quá khứ.
Bộ nhớ an cập nhật (update hidden state):
Trang 36Bộ nhớ ẩn cập nhật h’, tính toán thông tin tam thời dé cập nhật bộ nhớ an hạ.
Nó sử dụng công đặt lại r; để quyết định bao nhiều thông tin từ quá khứ va
đầu vào hiện tại được sử dụng Hàm kích hoạt tanh giúp giới hạn giá tri của
h', trong khoảng [-1,1].
Bộ nhớ an mới: h¿ = (1 — 2) © h,_¡ +2, ON’:
Bộ nhớ an mới h¿ là kết quả cuối cũng của GRU tại thời điểm t Nó tính toán
dựa trên sự kết hợp của thông tin cũ h¿_; và thông tin mới h'¿, dựa trên công
cập nhật Z;.
3.6 Mô hình ARIMA
Mô hình ARIMA (Autoregressive Integrated Moving Average) [13] là một mô
hình phân tích chuỗi thời gian được sử dung dé dự đoán va mô hình hóa dữ liệu chuỗi
thời gian Mô hình này kết hợp ba thành phan chính: tự hồi quy tự động (AR), tích
phân (J), và trung bình động (MA).
Mô hình ARIMA được biểu diễn bằng ARIMA (p, d, q), trong đó p, d và q là cácsiêu tham số Thông qua việc xác định các giá trị phù hợp cho p, d và q, mô hìnhARIMA có thê được sử dụng dé ước lượng và dự đoán chuỗi thời gian
Việc xác định các siêu tham số p d và q thường được thực hiện thông qua phân
tích chuỗi thời gian, kiểm tra mô hình và sử dụng các kỹ thuật như hàm tương quan
tự động (ACF Autocorrelation Function) và hàm tương quan riêng biệt (PACF
-Partial Autocorrelation Function) dé xác định mức độ tương quan trong chuỗi thời
gian.
Khi mô hình ARIMA đã được xác định và ước lượng, nó có thể được sử dụng dé
dự đoán giá trị tương lai của chuỗi thời gian va phân tích xu hướng, mô phỏng và các
tính chất khác của dữ liệu chuỗi thời gian
3.6.1 Tự hồi quy tự động (Auto Regression)
Tự hồi quy tự động (AR): Thành phan tự hồi quy tự động trong mô hình ARIMA
cho phép dự đoán giá trị hiện tại của chuỗi thời gian dựa trên các giá trị trước đó của
chính nó Mô hình AR(p) sử dụng p giá tri trước đó dé xác định mối quan hệ tuyến
tính và dự đoán giá trị hiện tại Quá trình AR(p) của chuỗi x; diễn ra như sau:
26
Trang 37AR@ = Bo + 0‡x¿_¡ + 02%¿_; +7 0yXc_p
Trong đó:
e - AR@ là giá trị quan sát tại thời điểm hiện tạị
© Qo, 01, Oy là các hệ số hồi quỵ
© Xp-1)Xp_2) Xt-p là các giá trị quan sát tại quá khứ từ thời điểm t-p đến t-1,
3.6.2 Sai phân (Intergrated)
Thanh phan sai phân trong mô hình ARIMA được sử dung để chuyên đổi chuỗithời gian phi tuyến tính thành một dạng tuyến tính Bằng cách lấy hiệu số giữa giá trịhiện tại và giá trị trước đó, mô hình I(d) thực hiện các phép tích phân d lần dé 6n định
chuỗi thời gian Quá trình sai phân bậc d của chuỗi được thực hiện như sau:
e Sai phân bậc 1: I(l)= Ax, = x, — X:_1
e Sai phân bậc d: I(d) = A#(x¿) = ĂẶ Ăx;))) d
Chuỗi dừng thường sẽ dừng sau quá trình I(0) hoặc I(1) Hiếm khi phải xài đến sai
phân bậc 2.
3.6.3 Trung bình động (Moving average)
Thanh phan trung bình động trong mô hình ARIMA cho phép dự đoán giá trị hiệntai của chuỗi thời gian dựa trên các sai số trước đó Mô hình MĂq) sử dụng q giá trị
sai số trước đó dé ước lượng giá trị hiện tạị Mô hình này tim mối liên hệ về mặt tuyến
tính giữa các phan tử ngẫu nhiên Quá trình này có thé được biéu diễn theo công thức
Trang 383.7 Mô hình Hồi quy tuyến tinh (Linear Regression)
3.7.1 Hồi quy tuyến tính đơn biến
Mô hình Linear Regression (Hài quy tuyến tính) [14] là một mô hình học máy
đơn giản nhưng mạnh mẽ được sử dụng dé dự đoán gia tri của một biến phụ thuộc(đầu ra) dựa trên các biến độc lập (đầu vào) Nó giả định rằng có một mối quan hệtuyến tính giữa các biến độc lập và biến phụ thuộc
Biến độc lập (Independent Variables): Đây là các biến đầu vào mà chúng ta sửdụng dé dự đoán giá trị của biến phụ thuộc Các biến độc lập có thé là các biến sốhoặc danh mục Chúng được biểu diễn băng các giá trỊ số và được ký hiệu bởi x1,
x2, , XD.
Biến phụ thuộc (Dependent Variable): Day là biến mà chúng ta muốn dự đoán giá
trị dựa trên các biến độc lập Biến phụ thuộc được biểu diễn bằng giá tri số và được
ký hiệu là y.
Sai số (Error): Sai số trong mô hình Linear Regression là hiệu số giữa giá trị thực
tế của biến phụ thuộc và giá trị dự đoán bởi mô hình Mục tiêu là tìm các hệ số saocho sai số là nhỏ nhất, thông qua quá trình tối thiểu hoá hàm mắt mát
Khi sử dụng hồi quy tuyến tính, mục tiêu là dé một đường thăng có thé tạo được
sự phân bố gần nhất với hầu hết các điềm, từ đó làm giảm khoảng cách (sai số) của
các điểm dữ liệu cho đến đường thắng đó
Hình 9 Mô hình Hồi quy tuyến tính
28
Trang 39Mối quan hệ giữa trục x và y được biéu diễn bằng phương trình:
Các tính chất của mô hình hồi quy tuyến tính:
e Đường hồi quy luôn đi qua trung bình của biến độc lập (x) và trung bình của
biến phụ thuộc (y)
e Đường hồi qui tối thiểu hóa tông của "Diện tích các sai số"
eb, giải thích sự thay đối trong y với sự thay đổi x bang một đơn vi
3.7.2 Hồi quy tuyến tính đa biến
Về cơ bản không có sự khác biệt giữa hồi quy tuyến tính 'giản don’ và 'da biến'
Cả hai đều tìm cách để có được đường hồi quy tối ưu nhất Trong trường đa biến,
phương trình hồi quy sẽ có dạng như sau:
Trong đó:
e ;: là các hệ sé khác nhau
e x;: là các biến độc lập với nhau
Hàm giả định (Assumption Function): Hàm giả định trong Linear Regression có
dạng tuyến tính, b; là các hệ số (weights) tương ứng với các biến độc lập Mục tiêu
là tìm các hệ số sao cho hàm giả định phù hợp nhất với dữ liệu
Hệ số (Coefficients): Các hệ số (weights) b; trong mô hình Linear Regression đạidiện cho độ ảnh hưởng của từng biến độc lập đến biến phụ thuộc Chúng được tìm
kiêm đê tôi thiêu hoá sai sô giữa giá trị dự đoán và giá trị thực tê.
29
Trang 40Hàm mất mát (Loss Function): Hàm mat mát trong Linear Regression đo lường
sai số giữa giá trị dự đoán và giá trị thực tế Phổ biến nhất là hàm bình phương sai số
(Mean Squared Error - MSE), được tính băng tổng bình phương của sai số trung bình
Phương pháp tối ưu hóa (Optimization Method): Quá trình tối thiêu hoá hàm matmát trong Linear Regression thường được thực hiện băng cách sử dụng phương phápGradient Descent Phương pháp này tìm kiếm các hệ số một cách dần dần thông quaviệc điều chỉnh dựa trên độ dốc của hàm mắt mát
3.8 Mô hình Deep Q-Learning
3.8.1 Định nghĩa
Mô hình Deep Q-Learning [15] là một thuật toán hoc tăng cường sử dụng mang
deep neural dé xap xi hàm giá trị hành động (Q-value function) Nó là một phiên bảncủa thuật toán Q-Learning được mở rộng dé áp dụng cho các môi trường có không
gian trạng thái lớn và liên tục.
Q-Value Action 1
State ¢ C) > Q-Value Action 2
Q-Value Action n
Hinh 10 M6 hinh Deep Q-Learning
Deep Q-Learning thực hiện các bước sau:
e Enviroment đưa vao mạng một state s, đầu ra là các Q-value của các
actions tương ứng.
e Agent chọn action bang một Policy và thực hiện action đó
e Environment trả lai state s’ va reward r là kết qua của action a và lưu
experience tuple [s,a,r,s'] vào memory.
30