1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Hệ thống thông tin: Xây dựng hệ thống gợi ý địa điểm du lịch dựa trên điều kiện thời tiết, chất lượng không khí bằng phương pháp học máy và tích hợp mạng xã hội

90 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây dựng hệ thống gợi ý địa điểm du lịch dựa trên điều kiện thời tiết, chất lượng không khí bằng phương pháp học máy và tích hợp mạng xã hội
Tác giả Nguyen Van Luc, Le Van Anh Duc
Người hướng dẫn PGS.TS Nguyen Denh Thuan, ThS. Do Duy Thanh
Trường học Dai Hoc Quoc Gia TP. Ho Chi Minh
Chuyên ngành He Thong Thong Tin
Thể loại Graduation Project
Năm xuất bản 2023
Thành phố TP. Ho Chi Minh
Định dạng
Số trang 90
Dung lượng 56,55 MB

Nội dung

Tiếp theo, khóa luận sử dụng dữ liệu về chất lượng không khí được thu thập từ các trạm quan trắc ô nhiễm không khí dé đánh giá chỉ sé AQI tai cac dia diém, va sử dụng các thuật toán, mô

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA HỆ THÓNG THÔNG TIN

NGUYEN VĂN LỰC - 19521811

LÊ VĂN ANH ĐỨC — 19521374

KHÓA LUẬN TÓT NGHIỆP

XÂY DUNG HE THONG GOI Ý DIA DIEM DU LICH DUA TREN DIEU KIEN THỜI TIẾT, CHAT LƯỢNG

KHONG KHi BANG PHUONG PHAP HOC MAY VA

TICH HOP MANG XA HOI

BUILDING A TOURISM LOCATION RECOMMENDATION SYSTEM

BASED ON WEATHER CONDITIONS, AIR QUALITY USING MACHINE LEARNING METHODS AND INTEGRATING SOCIAL

NETWORKS

KY SU NGANH HE THONG THONG TIN

GIANG VIEN HUONG DAN PGS.TS NGUYEN ĐÌNH THUAN

ThS DO DUY THANH

TP HO CHi MINH, 2023

Trang 2

Tiếp theo, tôi cũng muốn bày tỏ lòng biết ơn đến các thầy/cô trong khoa HệThống Thông Tin đã truyền đạt cho tôi những kiến thức bồ ích, rèn luyện các kỹ năng

và tạo môi trường, điều kiện tốt nhất dé tôi hoàn thành khóa luận này Bên cạnh đótôi cũng xin gửi lời cảm ơn đến những người bạn luôn bên tôi động viên, khuyến

khích giúp tôi có được ý chí không bỏ cuộc và hoàn thành khóa luận này một cách

tốt nhất

Do thời gian nghiên cứu và kiến thức có hạn, nên trong khóa luận không thêtránh khỏi có một số sai sót Tôi rất mong nhận được sự góp ý của các Thay/Cé dégiúp tôi có thêm nhiều kiến thức và kinh nghiệm hơn, cũng như giúp khóa luận của

tôi được hoàn thiện hơn.

Lời cảm ơn không thé đủ dé bày tỏ lòng biết ơn sâu sắc của tôi đến tat cả mọingười vì vậy tôi xin chúc tất cả mọi người luôn tràn đầy sức khỏe và thành công trong

cuộc sông.

TP Hồ Chí Minh, ngày tháng năm 2023

Sinh viên thực hiện

Nguyễn Văn Lực

Lê Văn Anh Đức

Trang 3

TÓM TAT KHÓA LUẬN -.- mm h 1

Chương 1 MO DAU i.ceccccccsscssssssessesssessessessussuessessvssvsssessessecsuessessessecsuessessessesaneeseeses 2

1.1 Lí do chọn dé tài ¿555522222 EEEEEEE231211221271 2121121111111 tre 2

1.2 Mục tiêu đề tài -¿- 5c 2k 2x2 221221 21211211211271111211 211111 eree 2

1.3 Đối tượng và phạm vi nghiên cứu -2- 2s x2+E++E£+Exerxezxzrerrserxees 3

1.3.1 _ Đối tượng nghiên cứu 2¿©52+c++EE+EE£EEE2EEEEEEEErEkrrkrrkerxee 3

1.3.2 Phạm vi nghiên CỨU - - 5 5s k3 nghiệt 3

1.4 Môi trường phat triỂn 2 ©52++<+EE£EES2E2E1271712112117217121 211 EU 4

Chương 2 CÁC NGHIÊN CỨU LIEN QUAN - 2-2 2+ +Ee£k+£kzEzrzrezes 5

2.1 Spatio-attention embedded recurrent neural network for air quality

šs9010710:10P20 277 5

2.2 Prediction of air quality index based on LSTM [Ä3] - -<-s-«<+ 5

2.3 A fuzzy multiple linear regression model based on meteorological factors

for air quality index forecast [Z(] -. - 5 1E 93 1191 11H ng ng re 6

2.4 A novel ensemble reinforcement learning gated unit model for daily PM2.5 forecasting [5] oo eecccesecsssecesecesseceseeceseeceseceeeceeeceaeeeaeceseeceaeeceaeceseeceseeceaeessaeeses 6

2.5 Deep object detection of crop weeds: Performance of YOLOv7 on a real

case dataset from UAV images [6] - - 5 + S1 1S HH ng ng 7

2.6 YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time Object detectOrs Ti 7

2.7 Các ứng dụng, hệ thống liên quan -2- 2 2 2 +E2E£+EE+EE+EEzEezrerrxerxee 8

Chương 3 CƠ SỞ LÍ THUYÊTT - 2-2 2+ £+E£EE£EE£EEEEEEEEEEEEEerEerkerkerkrree 10

3.1 Chuỗi thời gian (Time Series) 2: ¿5522222 2E£EE2EEEEEerkrkrkererrrrs 10

3.1.1 Định ngÏĩa -Q SG SE SH HH ng rệt 10

Trang 4

3.1.2 Xu hướng (Tirend) - - + 5s + kg ng ng grư 10

3.1.3 Mùa vụ (SeasonnaÌTEV) - sgk rưy 10

3.1.4 Chu ky (Cycle) na 11

3.1.5 Dao động ngẫu nhiên (NOiSe) ccccccscseesssesessssesesssseseescsesesesseseeeeseees 11

3.1.6 Hàm tương quan (Autocorrelation Function) -« s«++ 11

3.1.7 Hàm tự tương quan mau phan (Partial Autocorrelation Function) 11

3.1.8 Định tính hóa (Differencing) «2.0 ce eeeeeesceeeeeeeeeeeeeeeeeeeeeeseeeeeeaeens 11

3.2 Đánh giá chất lượng không khí — AQI -2- 2 2 +£s2+£z+£s+rserxeez 11

3.2.1 Hướng dẫn tính toán chỉ số chat lượng không khí . 12

3.2.2 Tính toán giá trị VN_ AQ[ - L1 H*H*H HH HH HH hệt 13 3.2.3 Tính toán giá tri AQI ngày (A(QÏởÏ) - - -Ă Series 15 3.3 bên 0.30 qu — 17

3.3.1 Định nghĩa .SĂ SH HH TH HH như 17

KS,.C s Vvể ‹.““ 17

3.4 Mô hình LLSTM - G2 tk ST TH TT HH HH Hư 18

B.A Định nghĩa Ăn HT HH ng HH như 18 3.4.2 _ Công thúc tinh toán LLSTÌM .- SH ng rg 19 3.5 bên 060 — 23

3.5.1 Định nghĩa - Gv HH HH HH nh như 23 3.5.2 Công thức tính toán GIRU G5 1v ng re 24

3.6 M6 hinh ARIMA ae 26

3.6.1 Tu hdi quy tự động (Auto Regression) c.csccsssessesssessesseeseesesseeses 26

3.6.2 k8 ¡N0 2y2r 0177 27 3.6.3 Trung bình động (Moving aVerag€) nen 27

Trang 5

3.7 Mô hình Hồi quy tuyến tính (Linear Regression) . : : 28

3.7.1 Hồi quy tuyến tính đơn biến -¿ 2¿©2+©2++cx+2£x2zxrrxeerxesrxee 28

3.7.2 Hỏi quy tuyến tính đa biến 2-52 252+E+ExeExcrEvrxerxerkerree 29

3.8 Mô hình Deep Q-Learning - - - - 5 3+ 1321113151111 1111k rrre 30

3.8.1 ia - L.A 30 3.8.2 Quá trình hoạt động - - c1 11 32 111 1111111111111 kg 31

3.9 M6 hinh noan ÔÒỎ 32

3.9.1 Dir nghia 32

3.9.2 Quy trình thuật foán - - 5 +5 + HH ngư 32 3.10 Các phương pháp đánh giá mô hình [ 7] - « +55 «++s<<<++s-++++ 34

3.10.1 Mean Absolute Error (MAE) - 2< Ăc 1S eeree 34

3.10.2 Mean Absolute Percentage Error (MAPPE) .- << <<<<+<e+ 34

3.10.3 Root Mean Squared Error (RMSE) - c5 + +sssseseseeeses 35

3.11 You Only Look Once (YOLO) - ¿2 +++2E++EE£+EE+zEerxesrxerreeee 35

Chương 4 PHAN TÍCH THIET KE VÀ THUC NGHIỆM - 40

AL Kién tric d6 tai šắ 5 40

4.2 Phase 1 — Hoc mô hình dự báo, phat hiện đối TƯỢNG cà Sseece 40

4.2.1 MG hình dự báo -2-©5¿+2+2Ekt2EEEEEEEEEEEEEEEEkCErkrrrrrree 40

4.2.2 Mô hình phát hiện đối tượng - 2-52 2+S£+E+Eezxerterxerxereee 46

4.3 Phase 2— Xây dựng hệ thống API - 2-2 ©2E£+EE+EE+EEtEEEzExerxerxerex 49

4.3.1 Thiết kế thành phần chức năng -2 2 2+x+£E++Ez+Eerxerseee 49

4.3.2 Thiết kế thành phan dữ liệu 2-2: 5¿+5£+2++x+£xzxzrserxerseee 57

4.4 Phase 3 — Triển khai hệ thống API lên Sever Cloud Linux 61

4.5 Phase 4— Xây dựng giao diện và giao tiếp với API -secs5c+¿ 62

Trang 6

Chương 5 KET QUA ĐẠT DUGC VÀ HƯỚNG PHÁT TRIÊN

5.1 Kết quả đạt được

5.2 Hướng phát triển

TÀI LIỆU THAM KHẢO

Trang 7

Hình 10 Mô hình Deep Q-Learning -¿- + + 5+ + 1x HH ng ng ng rưệt 30 Hình 11 Các bước hoạt động mô hình KNN cà seeeseesssee 33 Himh 004900915 36

Hinh 13 YOLO 7 38

Hình 14 Kiến trúc đề ti scescesecsssseseccssnsvecensnnsecesssnecesstieccessnseecesnnseceesnnseseesnnseeeesnes 40

Hình 15 Kết quả trả về của weafherapi - ¿+ s+ck+Ex+EE+EE+EzErkerkerkerkersrree 41200) 08138.400.000 nh 444 42Hình 17 Kết quả crawl data - Thêm cột AQI - 2 ¿©+¿2++x++zx++z++zx+zr+z 43

Hình 18 Trực quan dữ lIỆU - 5 G1 9n ng ng Hư 43 Hình 19 Dự đoán AQT - RÌNN - SH HH HH Hàng Hưng Hư 44

Hình 20 Dự đoán AQT - LLSÏTÏM - Ăn ng HH Hư 44

Hinh 21 Du ối0):i0.49)016)100 755 aa Ố 44 Hình 22 Dự đoán AQI - LinearRe€gTr€SSIOII 55 5 SE *+E+sEEseeeeeerereere 45 Hình 23 Dự đoán AQT - ARIIMA - Ăn HH HH Hàng HH gi ưệt 45 Hình 24 Dự đoán AQT - KÌN SH HH HH HT HH ng HH tư 45

Hình 25 Dự đoán AQI - Deep Q-Learning 5 Sc* + ssvvseersereersrerrs 46

Hình 26 Dữ liệu đã gắn nhãn - 2-2 2 2E SE£EEEEEEEEEEEEEEEEE2E2E E2 erkrree 47

Hình 27 Dữ liệu sau khi nhận diện - - - <5 2E * SE S2 EEEE+eezeeeeeezzzz 48

Hình 28 Kết quả về các chỉ số đánh giá mô hình 2-2 2 2 s2 +x+£++£sz£+z +2 48

Trang 8

Activity Diagram Tính toán AQÏ 5 - 5 HH ng Hư, 51

Activity Diagram Dự đoán AQI trong 7 ngày tiếp theo - 52

Activity Diagram Phát hiện các địa điểm du lịch -: 53

Activity Diagram Xem dự báo AQI, thời tiẾt ¿5-5 sccsrzes 54Activity Diagram Xem các địa điểm gợi ý sceccescesssesstessesssessseestesstesseessees 55Activity Diagram Đăng bài viết lên mạng xã hội - - 56

Sequence thu thập và tính toán giá tri AQÌ -+++-+++s+<cxssxsss 57Sequence đăng bài và gắn caption -:-©5c+22+z+£xerxczxrrxerxerkres 57

Đặt lịch dé hệ thống tự động thu thập dữ liệu mỗi giờ - 61

Đặt lịch cho các thuật toán chạy - -. 5 + Sss* + +sveseeeeeereesers 62 Touriest App - Màn hình đăng nhập - - 5 5 5< +<£+sc<+eesserses 62 Touriest App - Màn hình đăng ky - - - 5 ScS*sk+EEsskksekesreekrree 63

Touriest App - Màn hình trang ChủỦ - - 2555 < + +svEsseeeseeeeeers 64

Touriest App - Màn hình trang ChỦ - c5 555 + + ++seseeeeeseeeeeers 65

Touriest App - Màn hình chỉ tiết địa điểm du lịch -: 66

Touriest App - Màn hình xem vị trí địa điểm trên map - 67

Touriest App - Man hình xem bài dang - - 5 5< 5<<5<<+sx+s+sx+ 68

Touriest App - Màn hình đăng bải - Ăn seeeeerrerseesee 69

Touriest App - Màn hình xem thời tiẾt - 2-2 2 52 ©522£2+£s+£xcseez 70Touriest App - Màn hình danh sách tỉnh/ thành phố - 71Touriest App - Màn hình xem chat lượng không khí ngày hiện tại 72Touriest App - Màn hình dự đoán chất lượng không khí 7 ngày tiếp theo73

Touriest App - Màn hình xem các vùng du lịch gợi ý - 74

Touriest App - Màn hình xem các địa điểm du lịch gợi ý ở trong vùng đã

Trang 9

DANH MỤC BANG

Bang 1 Khoảng giá trị AQI và đánh giá chất lượng không khí - 11

Bang 2 Tinh toán AQI giờ (AQIh) của O3 sử dung giá tri BPi cho O3 (1h) 14

Bang 3 Bảng số liệu trung bình 1 giờ của O3 ¿- 2-52 2+cz+Ee£kerxerxerxersrree 15Bảng 4 Bảng số liệu trung bình 8 giờ của O3 ¿ 2¿©2+c22+ccxccrxrerxerrecree 15Bảng 5 Kết quả các chỉ số đánh giá mô hình sau khi train -:55+ 46

Bang 6 Bảng thuộc tính người dùng - 5 5 + 1n HH HH gi rưệt 57

Bảng 7 Bảng ham người đùÙng - - - + 31223119112 1 9111111 1 1H ng ng rưy 58

Bảng 8 Bảng thuộc tinh Weatherr s11 vn TH HH ng kg 58 Bang 9 Bang ham Weather 0 cccceccccssccsscesseceseeceseeceaeeeeaeeseeceaceeeaeeeeaeceeaeeeeeesaes 58 Bang 10 Bang thuộc tinh DestinatiOn - 5-5 5 + 1 ng rưệt 59

Bảng 11 Bảng ham DesfInafIOH s1 E1 9 931 vn nh ngư 59

Bang 12 Bảng thuộc tính AQQIL - 5c 5c + S129 1191 HH HH HH giết 59

Bảng 13 Bảng hàm AQIL ngàng HH gà 60

Bảng 14 Bảng thuộc tính dự đoán AQI - - 2 5-32 32 SEsirserrrsrrrerrrrrre 60 Bang 15 Bảng hàm dự đoán AQI - c2 1323139111191 1 111811811 11 rkre 60 Bang 16 Bảng thuộc tính POSK 5G 2 + E3 ST HH HH HH tưệt 60

Bang 17 Bảng hàm POS( - G111 TT HH HH 61

Trang 11

TÓM TẮT KHÓA LUẬN

Du lịch là một ngành ngày càng phát triển ở Việt Nam, tuy nhiên đi kèm với

sự phát triển đó thì cũng có những hệ lụy khác như: làm tăng số lượng rác thải ở cáckhu du lịch, tăng độ ô nhiễm không khí do có nhiều xe cộ đi lại Việc có một ungdụng hữu ich giúp khách du lịch lựa chọn địa điểm phủ hợp nhất là một điều cần thiết.Khóa luận này tập trung vào việc phát triển một hệ thống gợi ý địa điểm du lịch dựatrên điều kiện thời tiết, chất lượng không khí và tích hợp mạng xã hội

Đầu tiên, khóa luận tập trung vào việc thu thập dữ liệu về điều kiện thời tiết từcác nguồn đáng tin cậy như dự báo thời tiết, trạm quan trắc thời tiết Dữ liệu này sẽ

được sử dụng dé xác định các yếu tố như nhiệt độ, độ âm, mưa, nang tại các địa điểm

khác nhau.

Tiếp theo, khóa luận sử dụng dữ liệu về chất lượng không khí được thu thập

từ các trạm quan trắc ô nhiễm không khí dé đánh giá chỉ sé AQI tai cac dia diém, va

sử dụng các thuật toán, mô hình dự báo đề dự báo giá trị AQI trong các giờ tiếp theotại các địa điểm du lịch Từ đó cung cấp cho người dùng các dự báo chính xác trong

tương lai.

Cuối cùng, khóa luận tích hợp thêm mạng xã hội dé du khách có thé check in,

đăng các thông tin về chuyến đi của mình cũng như kết bạn, giao tiếp với mọi người

Hệ thống gợi ý địa điểm này là một ứng dụng di động (Android/IOS) giúp cho khách

du lịch có thé truy cập mọi lúc mọi nơi để tìm kiếm và lay thông tin một cách nhanh

chóng, giúp tiết kiệm rất nhiều thời gian và cải thiện chất lượng của những chuyến

đi, giúp họ tận hưởng và khám phá những địa điểm phù hợp với sở thích cá nhân

Nội dung khóa luận gồm 4 chương chính:

e Chương 1: MỞ DAU

e_ Chương 2: CAC NGHIÊN CUU LIEN QUAN

e Chương 3: CƠ SO LÍ THUYET

e Chương 4: PHAN TÍCH THIET KE VÀ THUC NGHIỆM

e Chương 5: KET QUA ĐẠT ĐƯỢC VA HƯỚNG PHAT TRIEN

Trang 12

do có nhiều xe cộ đi lại Việc có một ứng dụng hữu ích giúp khách du lịch lựa chọnđịa điểm phù hợp nhất dựa trên điều kiện thời tiết và chất lượng không khí là một

điêu cân thiệt Dé tai nay là một đê tài mang tinh ứng dụng cao va có nhiêu lợi ích cho khách du lịch nói riêng và ngành du lịch nói chung như:

1.2.

e Với sự phát triển ngày càng nhanh của ngành du lich ở Việt Nam thì việc cần

một ứng dụng đề cung cấp thông tin và gợi ý địa điểm du lịch phù hợp có thêgiúp thu hút rất nhiều khách du lịch

Điều kiện thời tiết và chất lượng không khí là những yếu tố chiếm phần quantrọng trong trải nghiệm và sức khỏe của khách du lịch, gây ra rất nhiều thiệthại về chi phí kinh tế [1] Việc tích hợp thông tin này vào ứng dụng giúp chongười dùng có được thông tin hữu ích về địa điểm du lịch, tiết kiệm thời gian,công sức tìm kiếm, đồng thời có cái nhìn tong quan về môi trường du lịch, từ

đó quyết định chọn địa điểm phù hợp

Mang xã hội và công nghệ di động đã trở thành một phần không thé thiếu trongcuộc sống hiện đại Việc tích hợp mạng xã hội vào ứng dụng giúp cho ngườidùng có thể tương tác, chia sẻ và nhận được các gợi ý, thông tin từ cộng đồng.Điều này cũng giúp cải thiện trải nghiệm của khách du lịch và mang lại tương

tác xã hội cho người dùng.

Mục tiêu đê tài

Xây dựng được một ứng dụng di động gợi ý địa điểm du lịch cho các du kháchdựa trên điều kiện thời tiết, chất lượng không khí và tích hợp thêm mạng xã hội vào

ứng dụng:

e_ Phát triển một hệ thống gợi ý địa điểm du lịch: Xây dựng một hệ thống hoạt

động tự động dé gợi ý địa điểm du lịch dựa trên thông tin về điều kiện thời tiết

Trang 13

và chất lượng không khí Hệ thống sẽ sử dụng các thuật toán và công nghệ phù

hợp để xác định và đánh giá các địa điểm du lịch phù hợp với các tiêu chí này

e Tích hợp mạng xã hội và thông tin từ người dùng: Tạo sự kết nối với các nền

tảng mạng xã hội và tích hợp thông tin từ người dùng, bao gồm việc thu thập

dữ liệu về trải nghiệm du lịch, đánh giá và phản hồi Thông tin này sẽ được sửdụng để cải thiện hệ thống gợi y và đưa ra các dia điểm du lịch phù hợp với sởthích và mong muốn của người dùng

e Cung cấp thông tin chỉ tiết và hữu ich: Đưa ra thông tin chỉ tiết và hữu ích về

các địa điểm du lịch được gợi ý, bao gồm thông tin về thời tiết, chất lượngkhông khí, hoạt động du lịch, điểm tham quan, dịch vụ và tiện nghi Mục tiêu

là cung cấp cho người dùng một cái nhìn tổng quan và chỉ tiết về các địa điểm

du lịch dé họ có thé đưa ra quyết định thông minh và có trải nghiệm du lịch

tốt hơn

e Tăng cường trải nghiệm du lịch và sự tương tác xã hội: Tao điều kiện cho

người dùng tương tác, chia sẻ trải nghiệm du lịch và giao lưu với cộng đồng

du lịch thông qua tích hợp mạng xã hội Mục tiêu là tạo ra một môi trường trực

tuyến thú vị và hap dẫn dé người ding có thé tận hưởng và chia sẻ trải nghiệm

du lịch của mình.

1.3 Đối tượng và phạm vi nghiên cứu

1.3.1 Đối tượng nghiên cứu

Đề tài nhắm đến những người muốn tìm kiếm thông tin và gợi ý địa điểm dulịch dựa trên điều kiện thời tiết, chất lượng không khí và sử dụng mạng xã hội dé

tương tac va chia sẻ trải nghiệm du lich.

Các đặc trưng của chất lượng không khí và chỉ số đánh giá chất lượng khôngkhí AQI trên các tỉnh thành ở Việt Nam từ 04-2023 đến 06-2023

Các địa điểm nỗi tiếng ở thành phó Hồ Chí Minh

1.3.2 Phạm vỉ nghiên cứu

- Dé tai tập trung nghiên cứu về các vân dé sau:

Trang 14

e Gợi ý địa điểm du lịch: Nghiên cứu sẽ tập trung vào việc phát triển hệ

thống gợi ý địa điểm du lịch dựa trên thông tin về điều kiện thời tiết vàchất lượng không khí Hệ thống sẽ đưa ra các địa điểm du lịch phù hợp

và cung cấp thông tin chỉ tiết về chúng

e_ Thông tin về điều kiện thời tiết và chất lượng không khí: Nghiên cứu

sẽ tìm hiểu và sử dụng thông tin về điều kiện thời tiết và chất lượngkhông khí từ các nguồn đáng tin cậy, sử dụng mô hình đánh giá chất

lượng không khí dé đánh giá chất lượng không khí Mục tiêu là cungcấp cho người dùng thông tin chính xác và đáng tin cậy về các yếu tố

này.

e Tích hợp mạng xã hội và thông tin từ người dùng: Nghiên cứu sẽ xây

dựng cơ chế dé tích hợp mạng xã hội và thu thập thông tin từ người

dùng, bao gồm dữ liệu về trải nghiệm du lịch, đánh giá và phản hồi

Thông tin này sẽ được sử dụng đề cải thiện hệ thống gợi ý và tăng cường

tương tác xã hội.

e Trải nghiệm du lịch và tương tác xã hội: Nghiên cứu sẽ xem xét cách

tăng cường trải nghiệm du lịch và tương tác xã hội

Môi trường phát triển

Xây dựng các mô hình dự báo, phát hiện: Python

Xây dựng hệ thống API: NodeJS

Xây dựng giao diện ứng dụng: Framework Flutter, Dart Sever Cloud: Linux

Công cụ code: VSCode

Trang 15

Chương 2 CÁC NGHIÊN CỨU LIÊN QUAN

2.1 Spatio-attention embedded recurrent neural network for air quality

prediction [2]

Nghiên cứu này tập trung vào việc dự đoán chất lượng không khí bang cách tận

dụng toàn điện các mối tương quan của không gian-thời gian giữa các trạm giám sát

Dé làm điều này, tác giả đề xuất một kiến trúc mạng nơ-ron tái phát (RNN) mới gọi

là "spatio-attention embedded recurrent neural network" (SpAttRNN) SpAttRNN kếthợp hai thành phan quan trọng dé cải thiện dự đoán chất lượng không khí Thứ nhất,

nó sử dụng một mô-đun nhúng thông tin không gian dé xử lý các mối quan hệ khônggian giữa các địa điểm đo và dự đoán Thứ hai, nó sử dung chú ý dé tập trung vào cácyếu tố quan trọng trong dữ liệu đầu vào, nhằm cải thiện hiệu suất của mô hình Bàibáo đề xuất một kiến trúc mạng SARNN day đủ, bao gồm các bước xử lý như chuẩnhóa đữ liệu đầu vào, sử dụng mô-đun nhúng không gian và mô-đun chú ý, cùng vớiviệc đào tạo và đánh giá mô hình Qua thí nghiệm trên tập dữ liệu thực tế về chấtlượng không khí, tác giả đã chứng minh rang SpAttRNN có hiệu suất tốt hơn so với

các phương pháp dự đoán khác SpAttRNN không chi cải thiện độ chính xác của dự

đoán mà còn giúp hiểu rõ hơn về tương quan không gian trong dữ liệu chất lượng

không khí.

2.2 Prediction of air quality index based on LSTM [3]

Nghiên cứu nay tập trung vào việc dự đoán chi số chất lượng không khí thông quanhiệt độ, hướng gió, PMs, PM¡g, SO;, NO;, 03 Dé làm điều này, tác giả sử dung

mạng nơ-ron LSTM (Long Short-Term Memory) LSTM là một dạng mạng nơ-ron

tái phát đặc biệt được thiết kế dé xử lý dữ liệu chuỗi, trong đó thông tin được truyền

qua các "công" dé duy trì và lưu trữ thông tin quan trọng trong quá trình dự đoán Sử

dụng LSTM, các mẫu chuỗi thời gian về chất lượng không khí có thể được mô hìnhhóa và dự đoán Bài báo đề xuất một kiến trúc mạng LSTM đơn giản, bao gồm các

bước chuẩn bị dữ liệu, xây dựng mô hình LSTM và quá trình huấn luyện Các chỉ số

chất lượng không khí được sử dụng làm đầu vào, và mô hình LSTM được đào tạo dé

dự đoán chỉ số chất lượng không khí trong tương lai Thí nghiệm trên dữ liệu thực tế

Trang 16

đã được tiến hành dé đánh giá hiệu suất của mô hình LSTM trong dự đoán chỉ số chấtlượng không khí Kết quả cho thấy rằng LSTM có khả năng dự đoán tương đối chínhxác và có tiềm năng trong việc ứng dụng dự đoán chất lượng không khí.

2.3 A fuzzy multiple linear regression model based on meteorological factors

for air quality index forecast [4]

Nghiên cứu này tập trung vào việc dự đoán chi số chất lượng không khí, một yếu

tố quan trọng trong lĩnh vực môi trường và sức khỏe công cộng Đề làm điều này, tácgiả đề xuất một mô hình hồi quy tuyến tính đa biến mờ Mô hình hồi quy tuyến tính

đa bién mờ kết hợp các yếu tố khí tượng, chăng hạn như nhiệt độ, độ âm, tốc độ gió

và áp suất không khí, dé dự đoán chỉ số chất lượng không khí Tuyến tinh đa biến mờ

cho phép mô hình xem xét mối quan hệ không chỉ riêng lẻ giữa mỗi yêu tổ và chỉ số

chất lượng không khí, mà còn tương tác giữa các yếu tố khí tượng Bài báo đề xuấtmột mô hình hồi quy tuyến tính đa biến mờ day đủ, bao gồm việc xây dựng các quytắc mờ dựa trên đữ liệu huấn luyện và sử dụng phép toán mờ dé đưa ra dự đoán Qua

đó, mô hình có khả năng đưa ra dự đoán về chỉ số chất lượng không khí dựa trên các

yếu tố khí tượng đã cho Thí nghiệm va so sánh với các mô hình khác đã được tiếnhành đề đánh giá hiệu suất của mô hình hồi quy tuyến tính đa biến mờ trong dự đoánchỉ số chất lượng không khí Kết quả cho thấy răng mô hình có khả năng dự đoántương đối chính xác và đáng tin cậy

2.4 A novel ensemble reinforcement learning gated unit model for daily

PM2.5 forecasting [5]

Nghiên cứu nay tập trung vào việc dự đoán PM2.5, một chỉ số quan trong dé đánhgiá chất lượng không khí và tác động đến sức khỏe con người Đề làm điều này, tácgiả đề xuất một mô hình ensemble sử dụng kỹ thuật học tăng cường và mô-đun công

để cải thiện dự đoán PM2.5 hàng ngày Mô hình được gọi là "ensemble reinforcementlearning gated unit model" (ERLGU), kết hợp sự kết hợp của các mô hình dự đoándựa trên học tăng cường và mô-đun cổng Các mô hình dự đoán cá nhân trongensemble được tô chức theo cấu trúc mạng công dé tổng hợp thông tin từ các mô hìnhcon khác nhau Mô hình ERLGU sử dụng kỹ thuật học tăng cường để tối ưu hóa việc

Trang 17

chọn mô hình con trong ensemble và đồng thời học cách tương tác giữa các mô hình

con Mô-đun công được sử dụng đề tăng cường khả năng học và sự linh hoạt của mô

hình Bài báo đề xuất một kiến trúc chi tiết của mô hình ERLGU, bao gồm các bước

xử lý dữ liệu, xây dựng va dao tạo mô hình ensemble Thí nghiệm va so sánh với các

phương pháp khác đã được tiến hành để đánh giá hiệu suất của mô hình ERLGUtrong dự đoán PM2.5 hàng ngày Kết quả cho thấy rằng mô hình ERLGU đạt đượchiệu suất tốt trong dự đoán PM2.5 hàng ngày và vượt qua các phương pháp truyềnthống khác Mô hình ERLGU cung cấp một phương pháp tiếp cận mới để dự đoán

chất lượng không khí và có tiềm năng ứng dụng rộng rãi trong lĩnh vực này.

2.5 Deep object detection of crop weeds: Performance of YOLOv7 on a real

case dataset from UAV images [6]

Nghiên cứu nay tập trung vào việc phat hiện và nhận dạng cỏ dai trong nông

nghiệp, một van đề quan trong dé quản lý và kiểm soát cỏ dai gây hại cho cây trồng

Đề làm điều này, tác giả sử dụng mô hình YOLOv7, một mô hình phát hiện đối tượngsâu (deep object detection), dé phan loai va dinh vi co dai trong hinh anh UAV M6hình YOLOv7 được sử dụng đề nhận diện và định vị các vật thể trong hình ảnh, baogồm cỏ đại trong trường nông nghiệp Mô hình này có khả năng xử lý hình ảnh nhanhchóng và hiệu quả, cho phép phát hiện đối tượng trong thời gian thực Bài báo trìnhbày kết quả thực nghiệm sử dụng tập dữ liệu thực tế từ hình ảnh UAV để đánh giáhiệu suất của mô hình YOLOv7 trong việc phát hiện cỏ dai trong nông nghiệp Cácchỉ số đánh giá, như độ chính xác, độ phủ, va F1-score, được sử dụng dé do lườnghiệu suất của mô hình Kết quả cho thấy rằng mô hình YOLOv7 đạt được hiệu suấttốt trong việc phát hiện cỏ dại trong nông nghiệp từ hình ảnh UAV Mô hình này cókhả năng nhận diện và định vị chính xác các vật thể cỏ đại, đáp ứng nhu cầu quản lý

và kiểm soát cỏ đại trong nông nghiệp hiệu quả hơn

2.6 YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for

real-time object detectors [7]

Nghiên cứu này tap trung vào việc phát hiện đối tượng thời gian thực, một nhiệm

vụ quan trọng trong lĩnh vực thị giác máy tính và nhận dạng đối tượng Mô hình

Trang 18

YOLOv7 là một bước tiến mới trong hệ thong YOLO (You Only Look Once) và đạt

được hiệu suất cao hơn các phiên bản trước đó Bài báo trình bày chỉ tiết về kiến trúc

của mô hình YOLOv7 và các phương pháp được sử dụng dé cải thiện hiệu suất của

nó Mô hình YOLOv7 sử dụng các kỹ thuật "bag-of-freebies", tức là sử dụng những

cải tiễn và kỹ thuật tiên tiến từ các phiên bản trước đó, nhằm nâng cao khả năng đàotạo và hiệu suất phát hiện Bài báo cũng trình bày kết quả đánh giá hiệu suất của môhình YOLOv7 trên các tập dữ liệu thực tế và so sánh với các mô hình khác trong lĩnhvực phát hiện đối tượng Kết quả cho thấy rằng YOLOv7 đạt được hiệu suất tốt và

đánh bại các mô hình khác, thiết lập một tiêu chuẩn mới cho việc phát hiện đối tượng

thời gian thực.

2.7 Các ứng dụng, hệ thống liên quan

TripAdvisor: TripAdvisor là một trong những trang web đánh giá du lịch hàng

dau thé giới Họ cung cấp thông tin về chat lượng không khí, điều kiện thời tiết vàđánh giá của người dùng cho các địa điểm du lịch khác nhau trên toàn thé giới

Weather Underground: Weather Underground là một dịch vụ dự báo thời tiết trực

tuyến Họ cung cấp thông tin chỉ tiết về điều kiện thời tiết cho các địa điểm du lịch

và cho phép người dung tìm kiếm dự báo thời tiết theo địa điểm cụ thé

AirVisual: AirVisual là một ứng dụng đi động cung cấp thông tin về chất lượngkhông khí trên toàn cầu Người dùng có thê tìm kiếm thông tin về chất lượng khôngkhí tại các địa điểm du lịch và nhận được đánh giá, chỉ số ô nhiễm không khí, và

thông tin liên quan khác.

Dark Sky: Dark Sky là một ứng dụng dự báo thời tiết với khả năng dự báo chínhxác và chỉ tiết Ngoài việc cung cấp thông tin về thời tiết, Dark Sky cũng cung cấpcác tính năng như gợi ý hoạt động ngoài trời dựa trên điều kiện thời tiết hiện tại vàtích hợp mạng xã hội dé chia sẻ thông tin với ban bẻ

VN Trip: VN Trip là một ứng dụng di động giúp người dùng khám phá các địa

điểm du lịch tại Việt Nam Nó cung cấp thông tin về điều kiện thời tiết, chất lượng

không khí, đánh giá của người dùng và gợi ý các hoạt động du lịch tại các địa điểm

khác nhau trong nước.

Trang 19

AirVisual Vietnam: AirVisual Vietnam là một ứng dung di động tập trung vào

việc cung cap thông tin về chất lượng không khí tại các thành phố và địa điểm du lịch

ở Việt Nam Người dùng có thê tra cứu chỉ số ô nhiễm không khí, dự báo và thôngtin chỉ tiết về chất lượng không khí tại các địa điểm khác nhau trong nước

Instagram va Facebook: Instagram và Facebook là hai mang xã hội phổ biến,người dùng có thể chia sẻ hình ảnh và trạng thái về các địa điểm du lịch Băng cách

sử dụng đữ liệu từ các bài đăng của người dùng, có thé tao ra các gợi ý địa điểm dulịch dựa trên chất lượng không khí, điều kiện thời tiết và hoạt động mà người dùng

chia sẻ.

Trang 20

Chương 3 CƠ SỞ LÍ THUYET

3.1 Chuỗi thời gian (Time Series)

3.1.1 Định nghĩa

Chuỗi thời gian (Time Series) [8]: là một loạt các quan sát được thu thập theo thời

gian tuần tự Mỗi quan sát trong chuỗi thời gian được ghi lại tại một điểm thời gian

cụ thê và thường có tần suất đều Nó có thể là dữ liệu đơn biến (một biến phụ thuộc)hoặc dữ liệu đa biến (nhiều biến phụ thuộc)

AQI 350

e_ Động lực tăng dan (Increasing trend): Chuỗi thời gian có xu hướng tăng

theo thời gian.

e Động lực giảm dần (Decreasing trend): Chuỗi thời gian có xu hướng giảm

theo thời gian.

e Động lực không đổi (Stationary trend): Chuỗi thời gian không có xu hướng

tăng hoặc giảm mạnh theo thời gian.

3.1.3 Mùa vụ (Seasonality)

Mùa vụ là sự lặp lại chu kỳ theo thời gian trong chuỗi thời gian Nó xuất hiện khi

có sự biến động định kỳ trong đữ liệu và có thể xảy ra hàng ngày, hàng tuần, hàng

tháng, hàng quý hoặc hàng năm.

10

Trang 21

3.1.4 Chu kỳ (Cycle)

Chu kỳ biéu thị sự biến động dài hạn của chuỗi thời gian Nó có thé kéo dài trong

một khoảng thời gian dài hơn mùa vụ và không có tính chất định kỳ

3.1.5 Dao động ngẫu nhiên (Noise)

Dao động ngẫu nhiên là các biến động không có hệ thống hoặc không thể dự đoán

được trong chuỗi thời gian Nó có thé được gây ra bởi các yếu tô ngẫu nhiên, nhiễuhoặc sự không chắc chắn trong đữ liệu

3.1.6 Hàm tương quan (Autocorrelation Function)

Hàm tự tương quan đo lường mức độ tương quan giữa các giá trị trong chuỗi thời

gian với các giá trị trước đó Nó cho phép xác định mức độ phụ thuộc thời gian và

các chu kỳ trong dữ liệu.

3.1.7 Hàm tự tương quan mẫu phan (Partial Autocorrelation Function)

Hàm tự tương quan mẫu phần là một công cụ để xác định mức độ tương quan giữa

các giá trị trong chuỗi thời gian sau khi loại bỏ tác động của các giá trị trung gian Nó hữu ích trong việc xác định mô hình AR (auto regressive) thích hợp cho chuỗi thời

gian.

3.1.8 Định tính hóa (Differencing)

Định tính hóa là quá trình loại bỏ động lực trong chuỗi thời gian bang cách layhiệu số giữa các giá tri liên tiếp Nó được sử dụng dé biến đổi chuỗi thời gian phituyến thành chuỗi thời gian tuyến tính

3.2 Đánh giá chất lượng không khí - AQI

Chỉ số chất lượng không khí - AQI [9] được tính theo thang điểm (khoảng giá trịAQI) tương ứng với biểu tượng và các màu sắc dé cảnh báo chất lượng không khí va

mức độ ảnh hưởng tới sức khỏe con người, cụ thé như sau:

Bang 1 Khoảng giá trị AQI và đánh giá chất lượng không khí

R oar Chat lượng ` og TA

Khoảng giá trị AQI không khí Màu sắc Mã màu RBG

0-50 Tot Xanh 0;228;0

11

Trang 22

51 - 100 Trung binh Vang 255;255;0

101 - 150 Kém Da cam 255;126;0

151 - 200 Xâu Đỏ 255;0;0

201 - 300 Rat xâu Tim 143;63;151

301-500 Nguy hại Nâu 126;0;35

3.2.1 Hướng dẫn tính toán chỉ số chất lượng không khí

Yêu cầu đối với việc tính toán VN_AQI

Thiết bị quan trắc phải được kiểm soát chất lượng hệ thống và đo lường theo các

quy định của pháp luật.

Dữ liệu quan trắc được đưa vào tính toán đã qua xử lý, đảm bảo đã loại bỏ các giátrị sai lệch, đạt yêu cầu đối với quy trình quy phạm về đảm bảo và kiểm soát chấtlượng số liệu

Cách thức sử dụng số liệu dé tính toán VN_AQI

VN_AQI được tính toán bao gồm AQI giờ và AQI ngày Số liệu sử dụng dé tínhtoán VN_ AQI là giá trị quan trắc trung bình 1 giờ, trung bình 8 giờ và trung bình 24

giờ.

VN_AQI được tính toán cho dit liệu của từng trạm quan trắc không khí tự độngliên tục đối với môi trường không khí xung quanh Đối với mỗi trạm quan trắc, AQI,

được tính toán cho từng thông số quan trắc, giá trị AQI cuối cùng là giá trị lớn nhất

trong các giá trị AQI, của mỗi thông số

Các thông số được sử dụng dé tính VN_AQI bao gồm: SO;, CO, NO2, O03, PMio,

và PMas Phương pháp tính toán VN_AQI yêu cau bắt buộc phải có tối thiểu 01trong 02 thông số PM¡o, PM: trong công thức tính

12

Trang 23

3.2.2 Tính toán giá trị VN_AQI

Tính toán giá trị AQI giờ (AQI")

Số liệu dé tính toán AQI giờ là giá trị quan trắc trung bình 1 giờ

Tính giá trị Nowcast đối với thông số PM; và PMụo

Gọi ci, ca, c12 là 12 giá trị quan trắc trung bình 1 giờ (với c¡ là giá trị quan trắctrung bình 1 giờ hiện tại, ci2 là giá trị quan trắc trung bình 1 giờ cách 12 giờ so với

© — Gnin là giá trị nhỏ nhất trong số 12 giá trị trung bình 1 giờ

© — Cnax là giá trị lớn nhất trong số 12 giá trị trung bình 1 giờ

Trong trường hợp w = ¬ thì Nowcast = “4 + C?c; feet Quốc

Nếu có ít nhất 2 trong 3 giá tri c¡, c2, c3 có dữ liệu thì mới tính được giá trị Nowcast,ngược lại coi như “không có dữ liệu” (không tính được giá tri Nowcast).

Nếu ci không có giá trị thì lay w'! = 0

Tính giá trị AQIh của từng thông số (AQI,)

Giá trị AQI" của các thông số SOa, CO, NO», O3 được tính toán theo công thức 1,giá trị AQI" của các thông số PM¡o, PMas được tính toán theo công thức 2:

Trang 24

BP;: Nong độ giới hạn dưới của giá tri thông số quan trắc được quy định

trong Bang 2 tương ứng với mức I.

BP,.,: Nong độ giới hạn trên của giá trị thông số quan trắc được quy định

trong Bảng 2 tương ứng với mức í + 1.

T;: Giá tri AQI ở mức i đã cho trong bảng tương ứng với giá tri BP,.

1,44: Giá trị AQI ở mức i + 1 cho trong bảng tương ứng với giá tri BP;„.

C„: Giá trị quan trắc trung bình 1 giờ của thông số x

Nowcast,: Giá trị Nowcast được tính toán ở phan a Bảng 2: Các giá tri

BP, đôi với các thông sô

Bang 2 Tính toán AQI giờ (AOIh) của O3 sử dụng giá trị BPi cho O3 (1h)

i I | Giá tri BP; quy định đối với từng thông số (Don vị: ug/mẺ)

O3(1h) | Os(8h) | CO SO; | NO; | PMi |PM2,s

Giá tri AQI giờ tổng hop

Sau khi đã có giá tri AQL, của mỗi thông số, chon giá tri AQI lớn nhất của cácthông số dé lay làm giá trị AQI giờ tổng hợp Giá trị AQI giờ được làm tròn thành số

nguyên.

AQIn = max (A01,)

14

Trang 25

3.2.3 Tính toán giá trị AQI ngày (AQ1I„)

Giá tri AQI ngày được tính toán dựa trên các giá trị như sau:

e Thông số PM2.5 và PMI0: giá trị trung bình 24 giờ

e Thông số O3: giá trị trung bình 1 giờ lớn nhất trong ngày và giá trị trung

bình 8 giờ lớn nhất trong ngày

e Thông số SO2, NO2 và CO: giá trị trung bình 1 giờ lớn nhất trong ngày

Xác định giá trị trung bình 1 giờ lớn nhất trong ngày, giá trị trung bình 8 giờ lớn

nhất trong ngày và giá trị trung bình 24 giờ

e Giá trị trung bình 1 giờ lớn nhất trong ngày là giá trị lớn nhất trong số các

giá trị quan trắc trung bình 1 giờ

e Giá trị quan trắc trung bình 8 giờ lớn nhất trong ngày là giá trị lớn nhất

trong số các giá trị trung bình 8 giờ Giá trị trung bình 8 giờ là trung bìnhcộng các giá trị trung bình 1 giờ trong 8 giờ liên tiếp

Vi dụ tính giá trị trung bình 8 giờ lớn nhất trong ngày: bảng số liệu trung bình 1

giờ của thông số O như sau:

Bảng 3 Bang số liệu trung bình | giờ của O3

Trang 26

(O3(TB8h) 18,0 | 19,4 ) 21,2 | 23,0} 23,8} 25,8 | 28,2 | 30,9 | 33,8 | 36,6 | 39,9 | 44,7

Giờ 13:00] 14:00} 15:00 |16:00|17:00} 18:00) 19:00) 20:00} 21:00} 22:00) 23:00) 0:00

Ox(TB8h) 51,3 | 58,4 | 66,2 | 71,11 74,4) 73,7 | 71,0 | 65,0 | 57,8 | 48,7 | 39,1 | 31,6

Giá trị trung bình 8 giờ lớn nhất trong ngày là: 74,4

Giá trị trung bình 24 giờ: trung bình cộng các giá trị quan trắc trung bình 1 giờtrong 1 ngày (từ 01:00 giờ đến 00:00 hôm sau)

Tính giá trị 4Q1„ của từng thông số (AQI,)

Giá trị AQI ngày của các thông số SOx, CO, NO, 03, PMio, PMas được tính toán

theo công thức 1 như sau:

hài — J;

AQL =———————

Ole = BP — BP, (C,, — BP,) + I; (Công thức 1)

Trong đó:

Bang giá trị BP; va I; lay trong bảng 2

AQI„: Giá trị AQIg thông số của thông số x

BP,: Nong độ giới han đưới của giá trị thông số quan trắc được quy định

trong Bang 2 tương ứng với múc i.

BP,„¡: Nong độ giới hạn trên của giá trị thông số quan trắc được quy định

trong Bang 2 tương ứng với mức i + 1.

l;: Giá tri AQI ở mức i đã cho trong bảng tương ứng với giá tri BP;

TL: Giá trị AQI ở mức i + 1 cho trong bảng tương ứng với giá trị PP.

Œ„: được quy định cụ thé như sau:

o_ Đối với thông số PMa„s và PM¡o: Cx là giá trị trung bình 24 giờ

o_ Đối với thông số Os: Cx là giá trị lớn nhất trong giá trị trung bình | giờ

lớn nhất trong ngày và giá trị trung bình 8 giờ lớn nhất trong ngày

Đối với thông số SO›, NO» và CO: C giá trị trung bình 1 giờ lớn nhất trong

ngày.

16

Trang 27

Giá trị AQI ngày tổng hợp

Sau khi đã có giá tri AQI, ngày của mỗi thông số, chọn giá trị AQI lớn nhất củacác thông số đề lấy làm giá trị AQI ngày tổng hợp

AQI° = max(AQIx)

3.3 Mô hình RNN

3.3.1 Dinh nghĩa

Mô hình mạng neural hồi quy (Recurrent Neural Network — RNN [10]) là một

kiéu mang neural được thiết kế dé xử lý dữ liệu có tính tuần hoàn hoặc dữ liệu chuỗi,

như ngôn ngữ tự nhiên, âm thanh, video và chuỗi thời gian RNN có khả năng lưu trữ

thông tin trạng thái trước đó và sử dụng nó như một đầu vào cho các lần xử lý tiếp

e x, là đầu vào tại bước t

es; là trạng thái an tại bước t Sclà bộ nhớ của mạng, được tính toán dựa trên

các trạng thái an phía trước va đầu vào tại bước đó

eo, là đầu ra tại bước t

e W là tập hợp các trọng số

17

Trang 28

Một phần quan trọng của RNN là sự chia sẻ trọng số (weight sharing) giữa các

bước thời gian Điều này có nghĩa là cùng một tập trọng số được sử dụng cho mỗi

bước thời gian trong chuỗi dữ liệu đầu vào Việc chia sẻ trọng số giúp RNN có khảnăng xử lý chuỗi dữ liệu có độ dài khác nhau, bởi vì số lượng tham số không phụ

thuộc vào độ dài chuỗi mà chỉ phụ thuộc vào kích thước của mạng.

Cấu trúc của một RNN bao gồm các đơn vi lặp lại gọi là cell Mỗi cell có nhiệm

vụ duyệt qua một phan tử trong chuỗi dữ liệu đầu vào và cập nhật bộ nhớ an Cónhiều loại cell RNN khác nhau như LSTM (Long Short-Term Memory) [11] và GRU(Gated Recurrent Unit) [12], được thiết kế dé giải quyết các van dé như hiện tượng

biến mat gradient và quá dài hoặc quá ngắn của chuỗi

Một RNN thường có thêm một lớp đầu ra (output layer) để tạo ra dự đoán chomỗi bước thời gian trong chuỗi dữ liệu đầu ra Cách tính toán đầu ra có thể khác nhautùy thuộc vào loại bài toán, ví dụ: dùng hàm softmax để tính xác suất của từng từtrong bộ từ vựng, hoặc sử dụng một lớp kết nói đầy đủ (fully connected layer) dé dựđoán một giá tri SỐ

3.4 Mô hình LSTM

3.4.1 Định nghĩa

Mạng nơ-ron hồi quy (Recurrent Neural Network - RNN) có khả năng lưu trữthông tin từ quá khứ và sử dụng nó để dự đoán các giá trị trong tương lai Tuy nhiên,RNN gặp van đề về "mat mát thông tin lâu dài" (long-term dependency) khi xử lý các

chuỗi dài Dé giải quyết van đề này thì LSTM đã ra đời

LSTM (Long Short-Term Memory) [I1]: là một loại RNN được thiết kế dé giảiquyết vấn đề mat mát thông tin lâu dài Nó giữ được thông tin từ quá khứ trong mộtkhoảng thời gian dài và sử dụng nó để làm dự đoán Mô hình LSTM sử dụng các cơchế cổng (gate) dé điều chỉnh luồng thông tin qua mạng, bao gồm:

e Cổng quên (Forget gate): công này quyết định thông tin nào sẽ được lưu

trữ và thông tin nào sẽ bi loại bỏ khỏi bộ nhớ của LSTM Nó sử dụng một

ham sigmoid dé quyết định giá trị của công (0-1) cho từng đơn vị bộ nhớ

18

Trang 29

e Cổng đầu vào (Input gate): công này quyết định thông tin mới nào sẽ được

lưu trữ trong bộ nhớ của LSTM Nó sử dụng một hàm sigmoid để quyết

định giá trị của công (0-1) cho từng đơn vi bộ nhớ, và một ham tanh dé tao

ra các giá tri ứng viên mới cho bộ nhớ.

e_ Công đầu ra (Output gate): công đầu ra quyết định giá trị đầu ra của mỗi

đơn vị bộ nhớ trong LSTM Nó sử dụng một hàm sigmoid để quyết địnhgiá tri của công (0-1) cho từng đơn vị bộ nhớ, và sau đó áp dụng hàm tanhcho giá trị bộ nhớ để tạo ra đầu ra cuối cùng

Ngoài các công thì LSTM còn có các thành phần khác như:

e Các đơn vị bộ nhớ (Memory Cells): Mỗi đơn vị bộ nhớ trong LSTM lưu trữ

thông tin từ quá khứ và quyết định thông tin mới nào sẽ được lưu trữ và truyền

đi Các đơn vị bộ nhớ tương tác với các công dé điều chỉnh luồng thông tin và

quyết định đầu ra

e_ Stacked LSTM: là một kiến trúc LSTM mở rộng với nhiều lớp LSTM xếp

chồng lên nhau Kiến trúc này cho phép mô hình học được các mức độ biểu

diễn phức tạp hơn và có khả năng mô hình hóa các mẫu phức tạp trong dữ liệu chuỗi thời gian.

3.4.2 Công thức tính toán LSTM

Đầu tiên LSTM sẽ quyết định xem thông tin nào sẽ được đi qua ô trạng thái (cellstate) Thông tin này được kiểm soát bởi hàm sigmoid trong công quên (forget gate).Đầu tiên, đầu vào nhận được là 2 giá tri và trả về một giá tri năm trong khoảng 0 va

1 cho mỗi giá trị của ô trạng thái Nếu giá tri bằng 1 thé hiện ‘ giữ toàn bộ thông tin’

hoặc băng 0 thé hiện “bỏ qua toàn bộ chúng” Tầng quên cho phép cập nhật thông tinmới và lưu giữ giá trị của nó khi có thay đối theo thời gian

Công thức ở cổng quên:

ƒ =ø(W/.|h;_+,x¿] + br)

Trong đó:

e f, : Là giá trị của công quên tại thời điểm t, quyết định thông tin nào sẽ được

lưu giữ và thông tin nào sẽ bị loại bỏ khỏi bộ nhớ của LSTM.

19

Trang 30

e W,; : La Ma trận trọng số cho công quên.

e© h,_; : Trạng thái ân (hidden state) của LSTM tại thời điểm trước đó

e©_ x, : Đầu vào tại thời điểm t

se by : Sai số (bias) cho công quên

Hình 3 LSTM - Công quênTiếp theo loại thông tin sẽ lưu trữ trong ô trạng thái được quyết định Đầu tiên là

một tang ân của hàm sigmoid được gọi là công vào (input gate) quyết định giá tri nào

sẽ được cập nhật.

Công thức ở công vào:

ip = ø(W;.[h,_+,x¿| + bị)

Trong đó:

e i,: Giá trị của công đầu vào tại thời điểm t, quyết định thông tin mới nào sẽ

được lưu trữ trong bộ nhớ của LSTM.

e W,: Ma trận trọng số cho công đầu vào

e h,_;: Trang thái ân (hidden state) của LSTM tại thời điểm trước đó.

e x¿: Đâu vào tại thời diém t.

20

Trang 31

e bạ: Sai số (bias) cho công đầu vào.

Tiếp theo, tầng ấn ham tanh sẽ tạo ra một véc tơ của một giá trỊ trạng thái mới Ẽ,

mà có thé được thêm vào trang thái Sau đó kết hợp kết quả của 2 tang này dé tạo

thành một cập nhật cho trạng thái theo công thức:

ễ, = tanh (Wc.[h¿_+,x¿| + be)

Trong do:

e C;,: Giá tri ứng viên mới cho bộ nhớ tại thời điểm t, được tính bằng hàm tanh

của tổ hợp tuyến tính của trạng thái ấn trước đó và đầu vào hiện tại

e We: Ma trận trọng số cho giá trị ứng viên mới

e h, ¡: Trang thai ấn (hidden state) của LSTM tai thời điểm trước đó

e x¿: Đầu vào tại thời điểm t

e be: Sai sô (bias) cho giá tri ứng viên mới.

Hình 4 LSTM Công vào

Đây là thời điểm dé cập nhật một 6 trạng thái cũ, C,_, sang một trang thái mới là

C, Sau đó nhân trang thái cũ với ƒ, ứng với việc quên những thứ quyết định được

phép quên sớm Phan tử đề cử i, * C; là một giá trị mới được tính toán tương ứng với

sô lân được cập nhật vào mỗi giá trị trạng thái Theo công thức sau:

Ch = fr Cra + ip Cy

21

Trang 32

Trong đó:

e (C,: Trang thái bộ nhớ (cell state) tai thời diém t, duoc cap nhat dua trén công

quên và cổng đầu vào

e ƒ,: Giá trị của công quên tại thời điểm t

e C,_,: Trang thái bộ nhớ (cell state) tại thời điểm trước đó

e i,: Giá tri của công đầu vào tại thời điểm t

° C: Giá tri ứng viên mới cho bộ nhớ tại thời điểm t

Hình 5 LSTM cập nhật trạng thái

Sau đó sẽ quyết định đầu ra sẽ trả về bao nhiêu Kết quả ở đầu ra sẽ dựa trên ôtrạng thái, nhưng sẽ là một phiên bản được lọc Đầu tiên, chúng ta chạy qua một tầngsigmoid nơi quyết định phan nào của 6 trạng thái sẽ ở đầu ra

Công thức ở công ra:

Trang 33

e h, ¡: Trạng thai an (hidden state) cha LSTM tai thoi điểm trước đó Trạng thái

ấn (hidden state) của LSTM tai thời điểm trước đó

© x¿: Đầu vào tai thời điểm t

© bạ: Sai số (bias) cho công dau ra

Cuối cùng, 6 trạng thái được đưa qua ham tanh (dé chuyền giá trị về khoảng -1 và1) và nhân nó với đầu ra của một cong sigmoid, do đó chỉ trả ra phần ma chúng taquyết định theo công thức sau:

Trong đó:

e h,: Trạng thái an (hidden state) tai thoi diém t, duoc tinh bang tich cua céng

đầu ra và ham tanh của trạng thái bộ nhớ

e O;: Giá trị của công đầu ra tại thời điểm t

e (;: Trạng thái bộ nhớ (cell state) tại thời điểm t

Trang 34

xử lý chuỗi dữ liệu GRU được giới thiệu bởi Cho et al vào năm 2014 và đã trở thành

một phương pháp phô biến trong lĩnh vực xử lý ngôn ngữ tự nhiên GRU có cau trúc

tương tự như LSTM (Long Short-Term Memory) và cũng có khả năng duy trì thông

tin trong bộ nhớ dài hạn, nhưng với cấu trúc đơn giản hơn Chỉ sử dụng hai công(gate): công cập nhật (update gate) va công đặt lại (reset gate) Trong một sé truonghop, kết quả có thé tốt tương tự nhau

3.5.2 Công thức tính toán GRU

Công thức tính toán trong mô hình GRU như sau:

Cổng cập nhập (update gate): Z¿ = ø(W⁄.[h¿_,x¿])

Trong đó:

e W là ma trận trọng số cho công cập nhật

e© h,_; là bộ nhớ trạng thái ân trước đó

e x, là đầu vào tại thời điểm hiện tại

an h, Nếu z, đến gần 1, nghĩa là mô hình quyết định lưu trữ nhiều thông tin

mới Ngược lại nếu tiến gần đến 0 thì, mô hình quyết định giữ nguyên thông

tin cũ trong hy_4.

24

Trang 35

Công đặt lai (reset gate): r; = o(W, [he_1, X¢])

Trong đó:

e M⁄„ là ma trận trọng số cho công đặt lại

© h,_¡ là bộ nhớ trạng thái ân trước đó

e x, là đầu vào tại thời điểm hiện tại

h,_¡ để tính toán h¿ Ngược lại nếu đến gần 0, mô hình quyết định không sử

dụng thông tin từ quá khứ.

Bộ nhớ an cập nhật (update hidden state):

Trang 36

Bộ nhớ ẩn cập nhật h’, tính toán thông tin tam thời dé cập nhật bộ nhớ an hạ.

Nó sử dụng công đặt lại r; để quyết định bao nhiều thông tin từ quá khứ va

đầu vào hiện tại được sử dụng Hàm kích hoạt tanh giúp giới hạn giá tri của

h', trong khoảng [-1,1].

Bộ nhớ an mới: h¿ = (1 — 2) © h,_¡ +2, ON’:

Bộ nhớ an mới h¿ là kết quả cuối cũng của GRU tại thời điểm t Nó tính toán

dựa trên sự kết hợp của thông tin cũ h¿_; và thông tin mới h'¿, dựa trên công

cập nhật Z;.

3.6 Mô hình ARIMA

Mô hình ARIMA (Autoregressive Integrated Moving Average) [13] là một mô

hình phân tích chuỗi thời gian được sử dung dé dự đoán va mô hình hóa dữ liệu chuỗi

thời gian Mô hình này kết hợp ba thành phan chính: tự hồi quy tự động (AR), tích

phân (J), và trung bình động (MA).

Mô hình ARIMA được biểu diễn bằng ARIMA (p, d, q), trong đó p, d và q là cácsiêu tham số Thông qua việc xác định các giá trị phù hợp cho p, d và q, mô hìnhARIMA có thê được sử dụng dé ước lượng và dự đoán chuỗi thời gian

Việc xác định các siêu tham số p d và q thường được thực hiện thông qua phân

tích chuỗi thời gian, kiểm tra mô hình và sử dụng các kỹ thuật như hàm tương quan

tự động (ACF Autocorrelation Function) và hàm tương quan riêng biệt (PACF

-Partial Autocorrelation Function) dé xác định mức độ tương quan trong chuỗi thời

gian.

Khi mô hình ARIMA đã được xác định và ước lượng, nó có thể được sử dụng dé

dự đoán giá trị tương lai của chuỗi thời gian va phân tích xu hướng, mô phỏng và các

tính chất khác của dữ liệu chuỗi thời gian

3.6.1 Tự hồi quy tự động (Auto Regression)

Tự hồi quy tự động (AR): Thành phan tự hồi quy tự động trong mô hình ARIMA

cho phép dự đoán giá trị hiện tại của chuỗi thời gian dựa trên các giá trị trước đó của

chính nó Mô hình AR(p) sử dụng p giá tri trước đó dé xác định mối quan hệ tuyến

tính và dự đoán giá trị hiện tại Quá trình AR(p) của chuỗi x; diễn ra như sau:

26

Trang 37

AR@ = Bo + 0‡x¿_¡ + 02%¿_; +7 0yXc_p

Trong đó:

e - AR@ là giá trị quan sát tại thời điểm hiện tạị

© Qo, 01, Oy là các hệ số hồi quỵ

© Xp-1)Xp_2) Xt-p là các giá trị quan sát tại quá khứ từ thời điểm t-p đến t-1,

3.6.2 Sai phân (Intergrated)

Thanh phan sai phân trong mô hình ARIMA được sử dung để chuyên đổi chuỗithời gian phi tuyến tính thành một dạng tuyến tính Bằng cách lấy hiệu số giữa giá trịhiện tại và giá trị trước đó, mô hình I(d) thực hiện các phép tích phân d lần dé 6n định

chuỗi thời gian Quá trình sai phân bậc d của chuỗi được thực hiện như sau:

e Sai phân bậc 1: I(l)= Ax, = x, — X:_1

e Sai phân bậc d: I(d) = A#(x¿) = ĂẶ Ăx;))) d

Chuỗi dừng thường sẽ dừng sau quá trình I(0) hoặc I(1) Hiếm khi phải xài đến sai

phân bậc 2.

3.6.3 Trung bình động (Moving average)

Thanh phan trung bình động trong mô hình ARIMA cho phép dự đoán giá trị hiệntai của chuỗi thời gian dựa trên các sai số trước đó Mô hình MĂq) sử dụng q giá trị

sai số trước đó dé ước lượng giá trị hiện tạị Mô hình này tim mối liên hệ về mặt tuyến

tính giữa các phan tử ngẫu nhiên Quá trình này có thé được biéu diễn theo công thức

Trang 38

3.7 Mô hình Hồi quy tuyến tinh (Linear Regression)

3.7.1 Hồi quy tuyến tính đơn biến

Mô hình Linear Regression (Hài quy tuyến tính) [14] là một mô hình học máy

đơn giản nhưng mạnh mẽ được sử dụng dé dự đoán gia tri của một biến phụ thuộc(đầu ra) dựa trên các biến độc lập (đầu vào) Nó giả định rằng có một mối quan hệtuyến tính giữa các biến độc lập và biến phụ thuộc

Biến độc lập (Independent Variables): Đây là các biến đầu vào mà chúng ta sửdụng dé dự đoán giá trị của biến phụ thuộc Các biến độc lập có thé là các biến sốhoặc danh mục Chúng được biểu diễn băng các giá trỊ số và được ký hiệu bởi x1,

x2, , XD.

Biến phụ thuộc (Dependent Variable): Day là biến mà chúng ta muốn dự đoán giá

trị dựa trên các biến độc lập Biến phụ thuộc được biểu diễn bằng giá tri số và được

ký hiệu là y.

Sai số (Error): Sai số trong mô hình Linear Regression là hiệu số giữa giá trị thực

tế của biến phụ thuộc và giá trị dự đoán bởi mô hình Mục tiêu là tìm các hệ số saocho sai số là nhỏ nhất, thông qua quá trình tối thiểu hoá hàm mắt mát

Khi sử dụng hồi quy tuyến tính, mục tiêu là dé một đường thăng có thé tạo được

sự phân bố gần nhất với hầu hết các điềm, từ đó làm giảm khoảng cách (sai số) của

các điểm dữ liệu cho đến đường thắng đó

Hình 9 Mô hình Hồi quy tuyến tính

28

Trang 39

Mối quan hệ giữa trục x và y được biéu diễn bằng phương trình:

Các tính chất của mô hình hồi quy tuyến tính:

e Đường hồi quy luôn đi qua trung bình của biến độc lập (x) và trung bình của

biến phụ thuộc (y)

e Đường hồi qui tối thiểu hóa tông của "Diện tích các sai số"

eb, giải thích sự thay đối trong y với sự thay đổi x bang một đơn vi

3.7.2 Hồi quy tuyến tính đa biến

Về cơ bản không có sự khác biệt giữa hồi quy tuyến tính 'giản don’ và 'da biến'

Cả hai đều tìm cách để có được đường hồi quy tối ưu nhất Trong trường đa biến,

phương trình hồi quy sẽ có dạng như sau:

Trong đó:

e ;: là các hệ sé khác nhau

e x;: là các biến độc lập với nhau

Hàm giả định (Assumption Function): Hàm giả định trong Linear Regression có

dạng tuyến tính, b; là các hệ số (weights) tương ứng với các biến độc lập Mục tiêu

là tìm các hệ số sao cho hàm giả định phù hợp nhất với dữ liệu

Hệ số (Coefficients): Các hệ số (weights) b; trong mô hình Linear Regression đạidiện cho độ ảnh hưởng của từng biến độc lập đến biến phụ thuộc Chúng được tìm

kiêm đê tôi thiêu hoá sai sô giữa giá trị dự đoán và giá trị thực tê.

29

Trang 40

Hàm mất mát (Loss Function): Hàm mat mát trong Linear Regression đo lường

sai số giữa giá trị dự đoán và giá trị thực tế Phổ biến nhất là hàm bình phương sai số

(Mean Squared Error - MSE), được tính băng tổng bình phương của sai số trung bình

Phương pháp tối ưu hóa (Optimization Method): Quá trình tối thiêu hoá hàm matmát trong Linear Regression thường được thực hiện băng cách sử dụng phương phápGradient Descent Phương pháp này tìm kiếm các hệ số một cách dần dần thông quaviệc điều chỉnh dựa trên độ dốc của hàm mắt mát

3.8 Mô hình Deep Q-Learning

3.8.1 Định nghĩa

Mô hình Deep Q-Learning [15] là một thuật toán hoc tăng cường sử dụng mang

deep neural dé xap xi hàm giá trị hành động (Q-value function) Nó là một phiên bảncủa thuật toán Q-Learning được mở rộng dé áp dụng cho các môi trường có không

gian trạng thái lớn và liên tục.

Q-Value Action 1

State ¢ C) > Q-Value Action 2

Q-Value Action n

Hinh 10 M6 hinh Deep Q-Learning

Deep Q-Learning thực hiện các bước sau:

e Enviroment đưa vao mạng một state s, đầu ra là các Q-value của các

actions tương ứng.

e Agent chọn action bang một Policy và thực hiện action đó

e Environment trả lai state s’ va reward r là kết qua của action a và lưu

experience tuple [s,a,r,s'] vào memory.

30

Ngày đăng: 02/10/2024, 05:00

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w