Đồng thời, nghiên cứu này đặt ra nhiều thách thức,từ việc thiết kế mô hình học tăng cường sâu phù hợp cho Event camera đến việc tối ưu hóa hiệu suât và độ chính xác của các ứng dụng thực
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA MẠNG MAY TÍNH VA TRUYEN THONG
LÝ PHÚC THÀNH - 20521916
CAO ANH KHOA - 20521462
NGHIÊN CỨU VÀ ỨNG DỤNG KỸ THUẬT HỌC
SAU TANG CƯỜNG TRONG DIEU KHIEN QUY
DAO BAY TU DONG CUA UAV
Research and implement deep reinforcement learning for UAV
automatic navigation in constraint conditions
CU NHAN NGANH MANG MAY TINH VA TRUYEN THONG DU LIEU
GIANG VIEN HUONG DAN:
Th.S BANG LE BAO CHUONG
Th.S BUI THANH BINH
TP HO CHI MINH, 2024
Trang 2THONG TIN HỘI DONG CHAM
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
"¬ NAY của Hiệu trưởng Truong Đại học Công nghệ Thông tin
Trang 3LỜI CÁM ƠN
Kính gửi thầy Đặng Lê Bảo Chương,
Chúng tôi xin gửi lời cảm ơn chân thành đến Thầy Đặng Lê Bảo Chương ở khoaMạng máy tính và Truyền thông vì những kiến thức quý báu và sự hướng dẫn tậntâm, nhiệt tình của Thay trong quá trình thực hiện khóa luận tốt nghiệp Thay đã luônsẵn sàng hỗ trợ và giải đáp các thắc mắc của chúng tôi trong suốt thời gian qua, giúp
chúng tôi hiểu rõ hơn về khóa luận và hoàn thành khóa luận một cách tốt nhất
Chúng tôi cảm thấy may mắn khi được học tập và làm việc dưới sự chỉ dan của Thay,những kinh nghiệm và kiến thức mà Thay truyền đạt sẽ luôn là tài sản quý giá củachúng tôi trong sự nghiệp phát triển sau này
Một lần nữa, chúng tôi xin chân thành cảm ơn Thầy Đặng Lê Bảo Chương
Trang 4MỤC LỤC
Chương 1: 9/89:020005 2
1.1 Tổng quan -5++E2E2EESEEEEEEEEEEEEEEEEEErrkrrkerveee 21.2 Lý do chọn đề tài 2-5 St TH E1 1211 11 11x eo 2
1.3 Mục đích nghiên CứỨu - - G5 + SE *SEteirseirerrreerrerree 3
1.4 Đối tượng nghiên cứu -:-+ <+s+EEeEE2EEEEEEErrkrrrkrrkervees 3
1.5 Phạm vỉ nghiên CỨU - - - -Ă 55+ SE ESEEEEssrerrsreeerrrrrree 3
1.6 Cau trúc của Khoá luận tốt nghiệp -22- 255cc: 3
1.7 Cac nghiên cứu liên quan trong nước và ngoài nước 4
1.7.1 Trong nước - - G 1E sgk 4 1.7.2 Ngoài nước - - Ăn TT HH HH ghi nưệt 5
Chương 2: CÁC CƠ SỞ LÝ THUYÉTT 2c 2© e+£E£+E£ez£: 8
2.1 Co sở lý thuyết, lý luận, giả thuyết khoa học và phương pháp
nghiên cứu đã được sử dụng - - 5c St St SH He, 8
2.1.1 Cơ sở lý thuyẾt - 222-512 E2 2 2122112112121 1x etkcrei 8
2.1.1.1 Môi trường mô phỏng Drone phé biến hiện nay và so sánh giữa chúng 8
2.2 Cac công cụ và thuật ngữ liên quan 5-55 s++<x>+ 12
2.2.1 Khí động lực học — Quadcopter của máy bay 12
2.2.1.1 Khí động lực học Ăn n1 HS nen vn 12 2.2.1.2 Quadcopter 6 66 AẢ 12 2.2.2 AMACONGA anh ea 13 2.2.3 Stable-baselines - LH ngu 13 2.2.4, Sim Real nh 14
2.2.5 Gym-pybullet-drones - - 5c 351 S3 seereeerrsrrrrrrrrrre 14
2.2.5.1 Cac tính năng nỗi bật của Gym-pybullet-drones << «<< 14
2.2.6 CUDA và cuDNN - - - G QQn TH ng key 15
Trang 55N n 5 16 2.2.7.2 ЀWAT Q HH TH HH HH 16
; nan 16
2.2.7.4 Qua trình quyết định Markov (Markov Decision Process - MDP) - 17
2.2.7.5 Entrophy Regularization sư 17
2.2.15.Phân loại các thuật tốn học tăng cường 20
2.2.16.So sánh giữa các thuật tốn học tăng cường 21
2.2.17.PID ControÏÌÏer - - 0 c1 ng ng trên 24 2.2.18 Khơng gian tọa độ Euclidean -. - 55c sScssscssesserees 26
LUÃt( (II 8Nh đđm 26 2.2.18.2 Pifch LH TH HH TT HH HH tư 26
2.4 Lý luận và giả thiết khoa học 2- 2 sccsccxezEczrxerxerreee 27
2.5 Phuong pháp nghiên €ứu - +25 + s + skrsserreeerrrerrree 28
Trang 62.6.1 GymnaSỈUI - - (G1 HH ngư, 28
P VNY, na 29
P S1 wh Ki) ae | da 29
Chương 3: Thiết lập môi trường va các kịch ban mô phỏng 30
3.1 Khai niệm về các thuật toán hoc tăng cường - 30
3.1.1 Tổng quan về mô hình 2 2 + £+Ez+E£+xe£E+zEe+rxerxerree 30
3.1.1.1 Thuật toán PPO -ĂĂcSSS SH 53 1v ve reg 30 3.1.1.2 Thuật toán Á2C - 1S vn ven vn 30
3.2 Mô hình của Drone - 5 Sc SE S vvirererrrrrrrrrrrrrex 31
3.2.1 Mô hình CF2X - - G Q 120112121121 1101 11 1182118211 ng re, 31 3.2.2 Mô hình CIF2P -¿- St tt St re 32
3.3 Xây dựng vật thé trong Gym-pybullet-drones 32
3.4 Cac tệp có trong øym-pybullet-drones -. - 5+ +<+ 33
K5 HN 02) 33
3.4.1.1 BaseAViary -c c5 1k kkkEk 33 3.4.1.2 FlyThruGafeAViary SH khen ven 33 3.4.1.3 BaseRLAViary - LG c0 111 vkkkkkkkkek 33
BALA Be€fAAVÏATY TH TH TH TH HT H111 11 111 tr 33
3.4.1.5 CTrlAViaFV -ĂĂ ST ng g0 ve reg 33 kh ` 34 3.4.1.7 MultiHoyerAvViary cccc c0 0 1v vvvvvkeree 34 3.4.1.8 VelocityAviary cv 34 3.4.2 Thư mục examples G131 k* HH re, 34
3.4.2.1 befa.pDy nọ HT gen 34 3.4.2.2 debug.py cọ HT ng ren 34 3.4.2.3 ( na e 34 BA.2.4 na e 35 k1 35
Trang 73.4.2.6 pÏd_ veloCÏ(y.DY -. ng nh nh nh nh nh nh By 35
3.5 Mô hình Reinforcement Learning 5 +55 *++ss+sssss 35
3.5.1 Tổng quan mô hình ¿- ¿ ¿ s+Sx+EE£E++E£EzEerkerxerxrrszex 35
3.6 Xây dựng mô phỏng trên Gym-pybullet-drones 36
3.6.1 Xây dựng môi trường mô phỏng - - 5 +55 <+s+++s+ 36 3.6.2 Thực hiện mô hình Reinforcement Learning - 37
3.6.2.1 Không gian quan sát và không gian hành động trong mô hình 38
3.6.2.2 Ham phần thưởng - - ĂĂ SE SE 2131111 ven vn 38 3.6.2.3 Các hàm thành phần - - + 1313211112 E51 Esssre 39 3.6.2.4, Hàm reset cescsscssscssecssecssesseeeeesseesaecsecsseesseceesseesseesseesaeeaees 39 3.6.2.5 Hàm sfep HT HH ng kg 40
3.7.2.1 Thêm vật thé vào môi trường mô phỏng -««=««===<==<<+ 43
Chương 4: CÀI ĐẠT, CAU HÌNH VÀ HIỆN THUC VA HUAN
004507577 — 45
4.1 Cấu hình phan cứng - + x£Ek£EE£EE£EE+EEEEeEEerkerkerkeree 45
4.1.1 Thông số phần cứng của máy tính để sử dụng
Gym-pybullet-00V) 1757 a gOẦẲẢ 45
4.1.1.1 Thông số phần cứng của máy tính được đặt tại phòng E3.1 45 4.1.1.2 Thông số phần cứng của máy tính cá nhân - - «55c cc5<<<<<+ 45
4.2 Quá trình cài đặt, cấu hình các công cụ cần thiết trong khoá
4.2.1 Cài đặt Cuda và euDNN Scccc se seeieeeeree 46
4.2.2 Cài dat Stable Baseline 3 - series 46
Trang 84.2.3 Cai đặt Anaconda - -ccnknn HH HH ng key 46
4.3 Hanh động của Drone tại vị trí được xác định 47
4.3.1 Drone bay đến một vị trí xác định và giữ thăng bằng 47
4.3.1.1 Thiết lập môi trường - - - -< c5 SE 2201111 11225311 vvsesssee 47 4.3.1.2 Thiét ap tham ch 47 4.3.1.3 Các bước thực hiện - Ăn 1S vn ng vn 48 4.3.1.4 Kết quá Ăn SH ng ve, 51
4.3.1.5 Kết luận Q HQ SH kg ven 57
4.3.2 Drone bay qua vật thé cánh CONG - 2 s55cc5e¿ 57
4.3.2.1 - Thiết lập môi trường - << S21 11112111 vs ve 57 4.3.2.2 Thiét ap tham ch 58 4.3.2.3 Các bước thực hiGin ccccecccccceesssececeecesssseeeceeeesseeecceesssnseeeeeeeenses 58 4.3.2.4 Kết quá S Ă Q ng ng vn 60
4.3.2.5 Kết luận Ă HQ TQ HH ng ven 64
4.3.3 Đường bay ngẫu nhiên với hướng bay ngẫu nhiên của
Drone A7 .GGI Á ca E / c sec 64
4.3.3.1 - Thiết lập môi trường Ă S31 E* S213 vs eg 64 4.3.3.2 Thiết lập tham số - 7c SE BS SSSSS9995555333131 11111 seeeee 64 4.3.3.3 Các bước thực hiện -ĂĂnn SH vn vn 65 4.3.3.4 Kết quá ng ng ven 66 4.3.3.5 K6t Ham na .h 67
4.4 Thiết kế vật cản tuỳ chỉnh oo ccesceseseseseeseesesseeseeee 67
4.4.1 Thiết lập môi trường - 2-2 2EE+ExeEEeEErrkerkerkerree 67
4.4.2 Cau hình và thiết lập - ecsecsecssessessessessessesseeseeaee 67
4.4.3 Biễu diễn môi trường và vật thể -+ccccccrccrcee 69
4.4.3.1 Vat thể tùy chính: Lửa - Ăc S111 ve 69 4.4.3.2 Vat thể tùy chỉnh: Nước -cĂcS ven ve 69
4.5 Kha năng của Drone từ các kịch bản có sẵn . 70
Trang 94.6 Thiết lập môi trường mới - 2-2-2 2+EE+£E£EzEerxerxerreee 82
4.6.1 Cau trúc của một môi trường - 2 c5 s x+cx+zs+ez 824.6.2 Các hàm cần thiết và bắt buộc - 2-5 5c 5scxccerszes 85
4.6.3 Các tham số cần thiét 00 ccccccccccccccesesscsececsesesesessesesesesteeeeeees 85
4.6.4 Cac kha năng của môi trường 5 5c eee eeeeeeeeeeeeees 86
Chương 5: ĐÁNH GIA KET QUÁ THUC NGHIEM 87
51 Đánhgiá AA ont, ee, SR 87
`)" 87
5.1.2 So sánh 2 thuật toán hoc tăng cường - - ‹+-<<<+2 90
5.1.3 Kết quả thực nghiệm 2: ¿52+ E+EE+£Ee£EzEEerxerxerree 92
5.2 Bàn luận - TS SH HH HH key 93
5.2.1 Ưu điểm - 2252 SsEE 2 2E EEEEE211211 1111.2111 crErkee 93
5.2.2 Khuyết điểm (St TT 1211211111211 11 111111, 94
5.3 Hướng phát triễn - cSs kề E1 EEExeEkerkerkrree 94
TÀI LIEU THAM KHAO - 2-22 ©2S2EE+2E2EE££EECEEEEEEEEkrrrkrrrrrree 95
Trang 10DANH MỤC HÌNH
Hình 2.1: Ba góc nhìn của Came€fa - «6 + 311gr 10
Hình 2.2: So sánh đầu ra của Camera thông thường và Event Camera 11
Hình 2.3: (QuadCOpT - . - G11 SH TH HH Hư 13 Hình 2.4: Tương tác giữa tác nhân và môi trƯờng - - « s«+sc+«x++ 16
Hình 2.5: Mô hình học sâu tăng CUON - - St ng ngư, 20
Hình 2.6: Cau trúc của PID Controller - + + ++x+zx+x+zz+zzxezxezss 25Hình 2.7: Định dang obj của vật thé Vit -¿-©s¿©cs2x+vcxeerxrsrxerresree 27
Hình 2.8: Logo của Gymnasium - - 5 c5 1 E111 10 1 11 11 111 rên 29
Hình 2.9: Logo của PyTOrch ác c2 1111111183011 11 1H 29
Hình 3.1: Drone Crazyfile 2.0 s11 11 SH HH ngư 31
Hình 3.2: So sánh cấu trúc của 2 loại Drone CF2P và CF2X ‹- 32Hình 3.3: Sơ đồ trình tự của chuỗi hành động của Drone -«‹ 35
Hình 3.4: Đầu vào và đầu ra của mô hình ¿- s¿+s++zx+zx+zxszrx+ 36
Hình 3.5: Các Drone trong môi trường mô phỏng - - 5s s<5s«++s+ 37
Hình 3.6: Sơ đồ hoạt động của tệp chạy mô hình học tăng cường sâu 37Hình 3.7: Sơ đồ hoạt động của mã nguÖnn -. 2-2 5c ©5+25+2c++zxerxezss 38
Hình 4.1: Thông số TARGET_POS ¿+ ©5£++£+£++Exerxrreerxerxerxeres 48Hình 4.2: Thông số Target_POsition -2-©2-©5+©s£2e+cx+erxevrxerreeree 48Hình 4.3: Khai báo môi trường cần huấn luyện sử dụng module HoverAviary
¬ Ề.Ề “th ` éếổ (CS ố.ốốố.ố 49
Hình 4.4: Khai báo mô hình học tăng cường được sử dụng là PPO 49
Hình 4.5: Thiết lập các trạng thái của môi trường . -s+s+5s 50Hình 4.6: Thông số hiên thị khi chạy mô hình 2 2 2 5 s+zs+zszss 50Hình 4.7: Checkpoint của quá trình huấn luyện -. -s¿szs+-++ 50Hình 4.8: Thay thế mô hình vào tệp test_ppo.py nhằm kiểm tra kết quả huấn
0: 3 51
Hình 4.9: Khai báo môi trường cho tỆp test_DpO.DY -.c 7c cecseeeereey 51
Hình 4.10: Khai báo thuật toán học tăng cường PPO .-cc-<cc~⁄ 51
Hình 4.11: Lúc khởi Chay - - «<1 S1 TH TH HH Hy 52
Hình 4.12: Dang chạy - c1 11 3 TH TT TH ng ng Hy 52
Hình 4.13: Gần tới vị tri đích ¿ ¿- s5 £+k+k£EkeEEEEEEEEEEEEEEEEerkerkerkerkrex 53
Hình 4.14: Sau khi chạy XONE - Ăn SH ng Hư 53 Hình 4.15: Lúc khởi Chạy - - <1 11H TH TH HH Hư 54 Hinh 4.16: Dang n 54
Hình 4.17: Sau khi chạy XOng Ăn 1n SH HH ngư 55
Hình 4.18: Thông số Target_position -¿-s¿©255+2cx2x+vzxeerxezrxerseeree 58Hình 4.19: Khai báo môi trường cần huấn luyện . -¿-z5+5-5+ 59
Trang 11Hình 4.20: Cho học mô hình với model.Ïe€arn ‹‹ -««ss+s«sx+s*ssxss+ 60
Hình 4.21: Thông số hiển thị khi chạy mô hình 2-5 sz5ess 60
Hình 4.27: Thiết lập lớp FlyThruGateAviary từ tệp FlyThruGateA viary 66
Hình 4.28: Điền đường dẫn mô hình đã huấn luyện vào tệp test_ppo.py nhằmkiểm thử kết quả - ¿2-5-5 £+SE+EE£EEEEEEEEEEEEEEXEEE2112117171211117171112 11111 66
Hình 4.29: Vật thé vịt trong môi trường + + s+s++xezxerxerxersrrszrs 68
Hình 4.30: Tệp duck_CÌM.png - 5 5 + SH HH HH Hy 68 Hình 4.31: Tép fire.Ob] c1 SH ng Hư 69
Hình 4.32: Tp Waf€T.ObJ - cece HH HH HH HH HH 70 Hình 4.33: Công thức INIT_XYZS 1 trong mang Numpy - 70
Hình 4.34: Công thức INIT_XYZS 2 trong mang Numpy - 71
Hình 4.35: Công thức INIT_XYZS 3 trong mảng Numpy 71 Hình 4.36: Mang Numpy của INIT_ RPYS cư 71
Hình 4.37: Khai bao môi trường CrÏAVIATY s5 SE +skEssesseesserese 72
Hình 4.38: Các trạng thái của môi trƯỜng - -c++«sxskssksseseeesserre 72
Hình 4.39: Render lại môi trường, đồng bộ hoá quá trình mô phỏng 72
Hình 4.40: Drone đang chạy theo vòng tron 5s s<cscsssseseeerrs 73
Hình 4.41: Thay đổi số lượng Drone trong pid.py ¿- 25255 cs+csvcssss 73
Hình 4.42: Thiết lập tọa độ ban đầu của 4 Drone -2 ¿s©ss5-s+ 74
Hình 4.43: Mang Numpy của INIT_ RPYS - SG Ă St ssiseesserrek 74 Hình 4.44: Khai báo môi trường VelocityAViary ĂSĂSSSssssserey 75
Hình 4.45: Các trạng thai của môi trƯỜng - «+ «+ +xceeeeereseeserseeers 75
Hình 4.46: Render lại môi trường và đồng bộ hóa quá trình mô phỏng môi
Hình 4.47: 4 drone dang bay với quỹ đạo khác nhau «++-«++<+ 76 Hình 4.48: Khai báo vi trí đích «+ 133311231 1 93 119 1 1x crưy 77
Hình 4.49: Khai báo môi trường CTTÌA V1IATY sàn sereseersrerre 77
Hình 4.50: Các trạng thái của môi trườỜng - - - - cv iereerree 77
Hình 4.51: Render lại môi trường và đồng bộ hóa quá trình mô phỏng môi
0U: 50 aốÁộ- 78
Hình 4.52: 2 drone đang bay ngược chiều nhau -2-s¿©s©s+e=s+ 78
Hình 4.53: Khai báo môi trường HoverAviary và MultiHoverAviaty 79
Hình 4.54: Khai báo thuật toán sử dụng dé huấn luyện mô hình 79Hình 4.55: Cho mô hình huấn luyện với timestep là Ie7 (10 triệu), và sau khi
học xong sẽ lưu mô hình lại ở tệp final_ modeÏ.Z1p -. << << ++xexsseesseexs 80
Hình 4.56: Tải mô hình PPO, 4 G1111 ng ng ng tr 80
Trang 12Hình 4.57: Khai báo thuật toán PPO sử dung dé huấn luyện mô hình 80
Hình 4.58: Các trạng thái của môi tTƯỜng - -s++«sks vs sssseesskrre 80 Hình 4.59: Render lại môi trường và đồng bộ hóa quá trình mô phỏng môi 010501110 81
Hình 4.60: Drone sau khi được huấn luyện sẽ biết giữ độ cao tại một vi trí 81
Hình 4.61: Phần khai báo và kế thừa c:¿ccvctsccvvrrrktrrrrrtrrrrrrrrree 83 Hình 4.62: Phần khai báo tham sỐ -c¿ :ccvvtsvcvveetrktrrrrrrrrrrrkrrrre 83 Hình 4.63: Các hàm cần thiết trong việc tạo tệp môi trường mô phong 85
Hình 5.1: Các tham số trong quá trình huấn luyện lần thứ nhat 87
Hình 5.2: Các tham số trong quá trình huấn luyện lần thứ hai 87
Hình 5.3: Các tham số trong quá trình huấn luyện lần thứ ba 88
Hình 5.4: Biểu đồ thé hiện tính chat mat mát, biéu đồ càng giảm là giá trị được toàn vẹn cảng tăng — ›- 88
Hình 5.5: Biểu đồ thể hiện độ lệch chuẩn, ta có thể thay biểu đồ giảm 89
Hình 5.6: Biéu đồ thé hiện thông số mất mát, thông số giảm dan nghĩa là ta dang đi đúng hƯỚng - x1 x5 911 1H TH TT ch TT HH HH Hư Hưng tiện 89 Hình 5.7: Biéu đồ thé hiện thông số experience_varience, ta thay từ lần thứ hai trở di, thuật toán sẽ hoạt động đúng - - - c1 HH HH tiệt 90 Hình 5.8: Biéu đồ thể hiện thông số mat mát của hàm mục tiêu (reward) 90 Hình 5 9: Biéu đồ thê hiện độ tăng giảm thông số phần thưởng trung bình của thuật toán A2C sau các episode đầu tiên - ¿- ¿5+ ++©s+Ek+E+EzErkerkerxerxrrsrree 91
Hình 5 10: Biéu đồ thé hiện độ tăng giảm thông số phần thưởng trung bình của
thuật toán PPO sau các episode đâu tIÊN - s5 S111 E9 SH it 92
Trang 13DANH MỤC BANG
Bảng 2.1: So sánh các môi trường mô phỏng - - ‹- 555 <++<+++s+sersee 9
Bang 2.2: So sánh Event Camera và Camera thông thường - 11
Bảng 2.3: Các tinh năng nỗi bật của gym-pybullet-drones - 15
Bảng 2.4: Các thuộc tính của Observation Type trong gym-pybullet-drones 18
Bảng 2.5: Các thuộc tính cua Action Type trong gym-pybullet-drones 18
Bảng 2.6: Các thuộc tính của Physics trong gym-pybullet-drones 19
Bảng 2.7: Các thuộc tinh của Image Type trong gym-pybullet-drones 19
Bảng 2.8: Các thuộc tinh của Image Type trong gym-pybullet-drones 21
Bang 2.9: So sánh các thuật toán học tang cường .- << ccccc<cse« 24 Bảng 4.1: Thông số phần cứng thiết bị tại E2 l ¿ s¿©cs5seecs+ 45 Bang 4.2: Thông số phần cứng thiết bị cá nhân 2-2 ¿5 s+cs+xs++s 46 Bang 4.3: Các tham số cơ bản - +: +5++S£+E‡xExeEEEEEEEEErkerkerkerkerkrrrres 48 Bảng 4.4: Tỉ lệ phần trăm đạt được trong những lần kiểm thử 56
Bang 4.5: So sánh không gian hành động s5 55555 *+<cs+c+sexexs 57 Bảng 4.6: Bảng thiết lập tham $6 ¿52255 ©5+22S+2£xv2++ecxesrxsrxerxesree 58 Bảng 4.7: Tỉ lệ phan trăm đạt được trong những lần kiểm thử 64 Bảng 4.8: Bảng thiết lập tham 86 -¿ 2¿ 25c ©5£2S+2£x2x+vrxeerxezrxerreeree 65 Bảng 4.9: Bảng so sánh các đặc tính của Drone thể hiện trong các môi trường,
và so sánh những gi Drone đã học sau khi huấn luyện . ¿s52 82
Bảng 4.10: Bảng tham $6 cccccccscccsssssessseesssssesssecssecssesscssecssecscssecssecsueeseeaseesseess 84
Bảng 5.1: Bang đánh giá dựa trên việc thê hiện của Drone đối với mô hình học
TANG CƯỜng SÂU - SH ni 93
Trang 14DANH MỤC TỪ VIET TAT
Từ viết tắt | Ý nghĩa
PPO Proximal Policy Optimization
PyMARL Python Multi-Agent Reinforcement Learning
DRL Deep Reinforcement Learning
UAV Unmanned Aerial Vehicle
URDF Unified Robot Description Format
ROS Robot Operating System
RGB Red, Green, Blue (color model)
CUDA Compute Unified Device Architecture
GPU Graphics Processing Unit
Trang 15PYB PyBullet (Physics Engine)
DYN Dynamics
BW Black and White
SEG Segmentation
MPC Model Predictive Control
DDPG Deep Deterministic Policy Gradient
DQN Deep Q-Network
SARSA State-Action-Reward-State-Action A2C Advantage Actor-Critic
TRPO Trust Region Policy Optimization
MDP Markov Decision Process
Trang 16DE CUONG CHI TIÉT
TEN DE TAI:
- Tén tiếng Việt: Nghiên cứu va ứng dung kỹ thuật hoc sâu tăng cường trong điều
khiển quỹ đạo bay tự động của UAV
- Tén tiếng Anh: Research and implement deep reinforcement learning for UAV
automatic navigation in constraint conditions
Cán bộ hướng dẫn: Đặng Lê Bảo Chương
Thời gian thực hiện: Từ ngày 11/9/2023 đến ngày 15/1/2023
Sinh viên thực hiện:
Lý Phúc Thành- 20521916 Cao Anh Khoa — 20521462
Nội dung đề tài:
1 Tổng quan tình hình nghiên cứu
Trong thời đại công nghệ tiên tiến, việc kết hợp thị giác máy tính và mô hình họctăng cường sâu đang mở ra những triển vọng đáng ké trong lĩnh vực điều khiến thiết bịbay không người lái Đặc biệt, việc sử dụng Event camera là một xu hướng nổi bật trong
lĩnh vực này Event camera, khác với camera thông thường, tập trung vào việc theo dõi
các sự kiện xảy ra trên hình ảnh, giúp giảm bớt lượng dữ liệu và đáng chú ý là độ trễ thấp
Thị giác máy tính, trong ngữ cảnh này, tập trung vào khả năng máy tính nhận diện,
hiểu và xử lý hình ảnh một cách thông minh Sự kết hợp giữa thị giác máy tính và mô hìnhhọc tăng cường sâu mang lại nhiều lợi ích Mô hình học tăng cường sâu giúp thiết bị bay
tự động hóa quyết định và thích ứng dựa trên dir liệu thị giác Điều này làm nồi bật vai trò
quan trọng của Event camera trong việc cung cấp dữ liệu đầu vào chính xác và thời gian
thực cho các mô hình học tăng cường sâu.
Việc áp dụng mô hình học tăng cường sâu kết hợp Event camera trong điều khiểnthiết bị bay không người lái mang lại nhiều tiềm năng trong nhiều lĩnh vực ứng dụng Ví
dụ, trong nhiều tình huống đặc thù như môi trường độc hại hoặc yêu cầu thời gian đáp ứng
Trang 17nhanh, việc này có thê cực kỳ hữu ích Đồng thời, nghiên cứu này đặt ra nhiều thách thức,
từ việc thiết kế mô hình học tăng cường sâu phù hợp cho Event camera đến việc tối ưu
hóa hiệu suât và độ chính xác của các ứng dụng thực tê.
Tổng cộng, nghiên cứu về thị giác máy tính và mô hình học tăng cường sâu, đặc biệtvới sự tích hợp của Event camera, hứa hẹn mang lại nhiều đóng góp quan trọng cho lĩnhvực điều khiến thiết bị bay không người lái và các ứng dụng liên quan
2 Tình hình nghiên cứu, phát triển trong và ngoài nước:
2.1 Trong nước:
Các tô chức nghiên cứu và trường đại học hàng đâu trong nước đang đâu tư nhiêu
vào lĩnh vực nay Các nhóm nghiên cứu tại các trường đại học và viện nghiên cứu đã thiệt
lập các dự án và nhóm làm việc tập trung vào phát triên thuật toán, mô hình học sâu, và ứng dụng Event camera cho UAV.
Cộng đồng nghiên cứu trong nước đang tìm hiểu và áp dụng các công nghệ mới, như
mô hình mạng nơ-ron sâu, học sâu tăng cường và Event camera, dé gia tăng khả năng quansát và điều khiển của UAV Các ứng dụng thực tế, đặc biệt trong lĩnh vực nông nghiệpthông minh và giám sát môi trường, đang được đây mạnh nghiên cứu và thử nghiệm
Sự hợp tác giữa các tô chức, viện nghiên cứu và doanh nghiệp trong nước cũng đóngvai trò quan trọng trong việc đây mạnh phát triển của lĩnh vực này Các chương trình hợp
tác nghiên cứu giữa ngành công nghiệp và trường đại học, cũng như sự hỗ trợ từ các cơ
quan chính phủ, đã thúc đây tăng tốc quá trình nghiên cứu và ứng dụng trong lĩnh vực điềukhiến thiết bị bay không người lái
Ngoài ra, tình hình nghiên cứu cũng tập trung vào việc ứng dụng thực tiễn trong các
lĩnh vực như giám sát môi trường, giao thông, quản lý đô thị và nông nghiệp Sự tiến bộtrong đề tài này hứa hẹn mang lại những giải pháp hiệu quả và tiên tiến trong việc tối ưuhóa quá trình điều khiển và quan sát bằng UAV, góp phan vào sự phát trién bền vững của
ngành công nghiệp không người lái.
Trang 18Khả năng ứng dụng UAV phân khúc chi phí thấp dé thành lập một số loại bản đồtrong quản lý đất đai Nghiên cứu thử nghiệm trên một số công trình đo đạc thành lập bản
đồ địa chính, bản đồ địa hình và bản đồ hiện trạng sử dụng đất trên địa bàn tỉnh Bình Địnhvới nhiều phương pháp, kỹ thuật khác nhau dé đánh giá độ chính xác, mức độ phù hợp vàđưa ra những khuyến nghị trong thực tế triển khai Kết quả cho thấy được răng là với việc
sử dụng các phương pháp bay chụp UAV khác nhau, kết hợp với nhiều thiết bị truyền
thong trong kiểm tra đối chứng và đo điểm khống chế mặt đất đã hỗ trợ và khang định khảnăng ứng dụng của công nghệ này trong đo đạc thành lập bản đồ
2.2 Ngoài nước:
- _ Nghiên cứu tiên tiến: Các nước phát triển như Hoa Ky, Canada, và châu Au đang
tiến hành nghiên cứu tiên tiến về việc kết hợp thị giác máy tính và học tăng cườngtrong việc điều khiển Drone Các trường đại học và tổ chức nghiên cứu hàng đầu
đã công bố nhiều nghiên cứu quan trọng về đề tài này
- Ung dụng da dạng: Trong các nước phát triển, Drone được ứng dụng rộng rãi trong
lĩnh vực giám sát môi trường, giao hàng, quảng cáo, và nhiều ứng dụng khác Việckết hợp thị giác máy tính và học tăng cường đã tạo ra những cải tiễn đáng kể trongkhả năng tự động hóa và quyết định của Drone
- _ Các hội nghị và sự kiện: Các hội nghị và sự kiện quốc tế về Drone và trí tuệ nhân
tạo (AI) thường đề cập đến việc kết hợp thị giác máy tính và học tăng cường trongđiều khiển Drone Đây là nơi các nhà nghiên cứu và chuyên gia có cơ hội chia sẻkiến thức và kinh nghiệm, các sự kiện và hội nghị quốc tế lớn liên quan về Drone
có thê ké đến như InterDrone Conference, Commercial UAV Expo, International
Conference on Robotics and Automation (ICRA), Drone World Expo, Precision
Agriculture Conference,
- Kha năng sử dung va kết hợp cả 2 lĩnh vực LGMD va học tăng cường sâu, được
trình bay qua phương pháp sử dung thị giác một mat (monocular vision) lay ý tưởng
từ sinh học hữu cơ, kết hợp với phương pháp học máy learning-based reaction nhăm
để cho UAV học tập tránh các chướng ngại vật cua UAV siêu nhỏ (micro UAV)
Trang 19Hệ thông này có hiệu suất tính toán cao hơn so với các phương pháp quan sát vàđiều hướng dựa trên thị giác khác như SLAM (Simultaneous Localization and Map-ping) và dòng quang (optical flow) bởi vì nó không cần tính toán khoảng cách chínhxác Kết quả cho thay hệ thong nhận thức và điều hướng bằng một mắt trọng lượngnhẹ này hoạt động tốt trong các môi trường phức tạp khác nhau mà không có thông
tin độ sâu chính xác.!l
- Drone còn có khả năng sử dụng trong nền nông nghiệp Ngành nông nghiệp là
ngành có triển vọng nhất, đang đối mặt với nhiều vấn đề hiện nay, trong đó một
trong những vấn đề chính là sự thiếu hụt lao động cho việc canh tác Các vấn đềhoặc khó khăn khác bao gồm thời tiết cực đoan, lượng phân bón không đủ và việc
sử dụng không hiệu quả, nhiễm trùng, bệnh tật, dị ứng và các vấn đề sức khỏe khác
do việc áp dụng hóa chất (thuốc trừ nắm, thuốc trừ sâu, thuốc trừ côn trùng vv.)
hoặc bị côn trùng/động vật căn Việc sử dụng các công nghệ tiên tiến như Dronetrong nông nghiệp mang lại tiềm năng dé đối mặt với nhiều thách thức lớn hoặcnhỏ Các ứng dụng chính của Drone trong nông nghiệp bao gồm tưới tiêu, giám sát
cây trồng, phân tích đất và cánh đồng và kiêm soát các loài chim Drone rất có lợi
với ngành nông nghiệp bởi nhửng lợi ích của nó có thể mang lại như có khả năngphân tích đất và đồng ruộng, có thê trồng trọt, phun thuốc cho cây trồng, kiểm tra
và đánh giá sức khỏe cây trồng I3!
- _ Ngoài ra Drone còn được ứng dụng trong giao thông vận tải, trong việc vận chuyển
hàng hóa, lập kế hoạch, thiết kế và giám sát cơ sở hạ tầng giao thông, cũng như
tong quan về khả năng ứng dụng máy bay không người lái trong các van đề kỹ thuật
vận tai và giao thông chuyên nghiệp và khoa học, lợi ích của việc sử dung máy bay
không người lái thay vì thiết bị cô điển là tiết kiệm thời gian và tiền bạc, cải thiện
độ tin cậy của việc đo lường dữ liệu và tăng cường bảo mật ghi dữ liéu."4!
- C6 thé áp dụng học tăng cường sâu đề điều khiến robot di động thực hiện nhiệm vụ
giả lập trong môi trường không cấu trúc chi bằng cảm biến trên bo mạch điều khiến
Đề xuất một hệ thống mobile manipulation mới két hop các thuật toán hoc tăng
cường sâu hàng đâu với thị giác máy tính Hệ thông này có khả năng tự mô tả các
Trang 20loại đối tượng khác nhau một cách tự động trong nhiều tình huéng mô phỏng vàthực tế, xác nhận tính hiệu quả của nd."
Giới thiệu về một phương pháp tự động hóa xây dựng không gian trạng thái trongviệc học kỹ năng chuyển động của robot thông qua học tăng cường và dự đoán
trạng thái từ hình ảnh camera Phương pháp này sử dụng một mô hình autoencoder
không gian sâu để tạo ra các điểm đặc trưng mô tả môi trường và vị trí các đối
tượng quan trọng trong tác vụ hiện tại Sau đó, phương pháp học một kỹ năng
chuyền động dựa trên các điểm đặc trưng này Kết quả là một bộ điều khiển phản
ứng liên tục với các điểm đặc trưng đã học, giúp robot tương tác động đới với cácđối tượng trong môi trường Phương pháp đã được thử nghiệm trên robot PR2 vớinhiều nhiệm vụ và tự động hóa việc theo dõi và tương tác với các đối tượng quantrọng của nhiệm vụ.!l
Có cách tận dụng video ghi lại từ camera trên ô tô kết hợp với dữ liệu cảm biến xenhư tốc độ và cảm biến quán tính Dữ liệu không gian lớn này được sử dụng đề họcbiểu diễn hình ảnh cho tình huống lái xe Một biêu diễn học được đề xuất dựa trên
việc dự đoán dòng chảy quang hoc mật độ từ một khung ảnh đơn với dtr liệu cảm
biến đi kèm Nghiên cứu cho thấy răng biéu diễn học này có thé hữu ích cho cácnhiệm vụ yêu cầu hiéu biết chi tiết về cảnh và vượt trội hơn các phương pháp biéu
diễn chưa được giám sát khác trong phân đoạn ngữ nghĩa.
Kha năng phát triên một khung học theo mô phỏng và áp dung nó dé huấn luyện
chính sách điều hướng cho UAV (Unmanned Aerial Vehicles) bay trong môi
trường sông ngòi phức tạp và thiếu tín hiệu GPS một cách tự động UAV sử dụngmột máy anh hướng về phía trước dé thực hiện các động tác phản ứng và tự địnhhướng chính mình trong không gian 2D bằng cách thay đổi hướng Nghiên cứu sosánh hiệu suất giữa bộ điều khiển dựa trên hồi quy tuyến tính, bộ điều khiển mạng
nơ-ron end-to-end và bộ điều khiển dựa trên biến đổi tự động biên (VAE) được
huấn luyện băng phương pháp tổng hợp dữ liệu trong môi trường mô phỏng Kếtquả cho thấy răng bộ điều khiển dựa trên VAE vượt trội hơn so với hai bộ điều
Trang 21khiên còn lại cả trong quá trình huân luyện và kiêm tra, và có khả năng định hướng
UAV với khoảng cách di chuyển dai hơn và tỉ lệ can thiệp thấp hơn từ phi céng.!!
Vì thế, lĩnh vực kết hợp thị giác máy tính và học tăng cường trong việc điều khiểnDrone đang trở thành một lĩnh vực nghiên cứu và ứng dụng quan trọng với tiềm năng ứngdụng rộng rãi trong nhiều lĩnh vực khác nhau
3 Tính khoa học và tính mới của đề tài
3.1 Tính khoa học
Tính khoa học của đề tài thé hiện trong việc đào sâu vào nghiên cứu các nguyên lý,
lý thuyết, và kỹ thuật trong lĩnh vực thị giác máy tính, học máy, và ứng dụng chúng trongđiều khiển UAV Sử dụng phương pháp khoa học để phân tích dữ liệu từ Event camera,đưa ra đánh giá, rút ra kết luận dựa trên cơ sở khoa học
3.2 Tinh moi
Đề tai nay dé xuat str dung hoc tang cường dé tạo ra một hệ thống điều khiến thiết bịkhông người lái không cần đến bản đồ Điều này rất mới mẻ và có tiềm năng dé áp dụngtrong các tình huống thay đổi nhanh chóng và không có sẵn thông tin chỉ tiết về môi trường
4 Mục tiêu, đối tượng và phạm vi
4.1 Mục tiêu:
Tạo ra hệ thống Drone có khả năng tự động định hướng, tránh vật cản, phản xạ nhanh,thực hiện các nhiệm vụ cụ thể mà không cần can thiệp từ con người Nâng cao hiệu suất
và sự an toàn của thiết bị Drone trong các tình huống phức tạp, như di chuyên trong môi
trường có nhiều vật cản hoặc thay đổi địa hình
4.2 Pham vi:
Sử dung Drone có sẵn khung, các phan mém có chức nang điều khién có sẵn, và triển
khai các giải pháp Sử dụng Event camera lên Drone Xây dựng môi trường xung quanh
Trang 22Drone sử dụng cảm biên và hình ảnh Từ các nghiên cứu có săn áp dụng mô hình học sâu
để định hướng cho Drone và dao tạo mô hình học tang cường dé Drone có thé học cách
tôi ưu hóa hành vi dựa trên môi trường và mục tiêu nhiệm vụ
4.3 Đối tượng nghiên cứu
Drone: Không chế tạo vật lý, phần mềm điều khiển bay sử dụng phần mềm có sẵn,
sử dụng và tùy chỉnh phần mềm điều khiển có sẵn dé đáp ứng yêu cầu cụ thé
Thị giác máy tính: Khảo sát và áp dụng các mô hình thị giác máy tính tự xây dựng,
xây dựng và tối ưu hóa tập dữ liệu liên quan đến thị giác máy tính
Học tăng cường: Tìm hiểu sâu về học tăng cường và ứng dụng nó vào việc tạo racác hệ thống tự động hóa, tìm cách tối ưu hóa học tăng cường cho ứng dụng điềukhiển Drone
Event camera: Tìm hiểu và nghiên cứu về cách sử dụng Event camera, một loạicamera đặc biệt có khả năng ghi lại sự thay đổi đột ngột trong hình ảnh, dé cải thiện
khả năng quan sát và xử lý hình ảnh cho Drone.
Nội dung, phương pháp dự định nghiên cứu
Khảo sát các nghiên cứu liên quan đến thị giác máy tính, học tăng cường và ứng
dụng Event camera trong điều khiển UAV, đồng thời xác định những lợi ích, hạnchế và xu hướng phát triển của các phương pháp hiện tai
Tìm và chọn lọc mô hình phù hợp, thu thập, xây dựng tập dữ liệu mong muốn
Huấn luyện các mô hình học sâu phù hợp từ tập dữ liệu đã thu thậpTriển khai mô hình đã được huấn luyện lên Drone
Sau khi triển khai chạy thực nghiệm dé khảo sát kết quả Kết quả mong đợi
Giúp hiểu sâu hơn trong việc nghiên cứu lĩnh vực thị giác máy tính, học tăng cường
và điều khién thiết bi không người lái (Drone)
Tạo ra các phương pháp và giải pháp sáng tạo kết hợp thị giác máy tính và học tăng
cường dé cải thiện hiệu suất và tự động hóa việc điều khién thiết bi không người
ae lát.
Trang 23- Đóng góp kiến thức mới về sự kết hợp giữa thị giác máy tính, học tăng cường và
Event camera trong lĩnh vực điều khiển Drone, mang lại động lực cho nghiên cứu
tương lai.
Kế hoạch thực hiện:(Mô ta ké hoạch làm việc và phân công công việc cho từng sinh
viên tham gia)
Thời gian Nội dung Ket qua} - Sinh viên thực
mong đợi hiện
11/09/2023—| Vit - đề|, BP Cuong) BY Phúc thành
24/09/2023 cương chi tiêt - tt Cao Anh Khoa
chi tiét về đê tài
Lên kế “ấn mA
hoạch, tìm hiểu |„ Có CÁC 0Q Lý Phúc Thành
25/09/2023 - | các mô hình học | MM» LẬP CD liêu y Phuc chân
9/10/2023 tăng cường, hoc}; , +.A A Cao Anh Khoa
sâu cho Event huân Wyen ni
; hinh cho Drone
camera
a : Tìm được
18 “3€ Drone theo mon
10/10/2023 -|Drone và phân mướn AA phần Lý Phúc Thành24/10/2023 mêm dieu khién Tà Phù hợp với Cao Anh Khoa
Drone có săn  HÀ và
nhu câu dé tài
Thu thập dữ Dữ liệu đã
25/10/2023 - liệu huan luyện được huan luyện Lý Phúc Thành
8/11/2023 thành công, bắt |thành công, tiên
dau triên khai trên | hanh triên khai Cao Anh Khoa
Drone trên Drone
_ Nghiên cứu Các ngữ Lý Phúc Thành
9/11/2023 - | VỆ Ngã cảnh xu ý | can của Drone | Cao Anh Khoa
23/11/2023 của Drone trong |được xử lý mộ
từng trường hợp
cụ thê
cách hợp lý và phù
hợp
Trang 24Các thông sô Lý Phúc Thành
Đánh giá mô lvề mô hình va
24/11/2023 - | hình học sâu, học đánh giá mức độ Cao Anh Khoa
8/12/2023 tăng cường đã sử :oP | phi hợp cua mô
dụng trong dé tài | hình
Viêt báo cáo
23/12/2023 chỉnh về đề tài Cao Anh Khoa
[3].
Tài liệu tham khảo:
Nguyễn Trọng Đợi, Ngô Anh Tú, Đỗ Tan Nghị and Nguyễn Hữu Xuân, “Nghiêncứu khả năng ứng dụng của thiết bị UAV chi phí thấp trong đo đạc thành lập bản
đồ: thử nghiệm một số công trình trên địa bàn tinh Bình Định”, Tạp chí Khí tượng
Thủy văn 2022, EME4, 202-214, 2022
Lei He, Nabil Aouf, James F Whidborne, Bifeng Song, “Integrated moment-based
LGMD and deep reinforcement learning for UAV obstacle avoidance”, IEEE ternational Conference on Robotics and Automation (ICRA), pp 7491-7497, 2020
In-s Ahirwar, Swarnkar RAGHUNANDAN Swarnkar, Bhukya Srinivas, G
Nam-wade, “Application of Drone in Agriculture’, International Journal of Current
Mi-crobiology and Applied Sciences 8(01):2500-2505, 2019
Drazen Cvitanic, “Drone applications in transportation”, International
Multidisci-plinary Conference on Computer and Energy Science (SpliTech), pp 1-4, 2020
Z Q Wang C, L S Tian Q, L D Wang X and W S Petillot Y, "Learning Mobile
Manipulation through Deep Reinforcement Learning," Sensors, 2020.
C Finn, X Y Tan, D Yan, D Trevor, L Sergey and A Pieter, "Deep spatial toencoders for visuomotor learning.," in IEEE International Conference on Robot- ics and Automation (ICRA), 2016.
au-S Lee, J Kim, T.-H Oh, Y Jeong, D Yoo, au-S Lin and I au-S Kweon, "Visuomotor Understanding for Representation Learning of Driving Scenes," in The British Ma-
chine Vision Conference (BMVC), 2019.
Trang 25[5] P Wei, R Liang, A Michelmore and Z Kong, "Vision-based 2D navigation of
unmanned aerial vehicles in riverine environments with imitation learning," Journal
of Intelligent and Robotic Systems, vol 104, no 3, p 47, 2022.
Trang 26TÓM TẮT KHOÁ LUẬN
Trong nghiên cứu này chúng tôi sẽ sử dụng loại UAV là Drone và có mục đích làm
cho Drone học và thực hiện hành động trong quãng đường bay bằng cách sử dụngphương pháp học tăng cường Từ đó Drone có thé giúp ích trong các lĩnh vực lớnnhư quân sự, y tế, hàng hoá
Đầu tiên, chúng tôi sẽ sử dụng phần mềm gym-pybullet-drones Công cụ này rấthữu ích vì nó có thể tạo ra một môi trường mô phỏng bay thực tế, đảm báo tính chân
thực và hiệu suất, độ mượt mà cho máy bay không người lái Mục tiêu ở đây là tạo
ra một môi trường mô phỏng chính xác, cho phép chúng tôi nghiên cứu hiệu quả, nhanh chóng và thực hiện các thử nghiệm một cách đáng tin cậy
Sau khi đã xây dựng xong môi trường mô phỏng, chúng tôi sẽ đặt các vật cản,
chướng ngại vật vào môi trường nhằm mô phỏng tình huống thực tế mà Drone cóthể gặp phải Việc này sẽ cho Drone có vật cản đề thực hiện các hành động sau khi
huân luyện xong
Tiếp theo là chúng tôi sẽ áp dụng các thuật toán học tăng cường như PPO, A2C,
so sánh giữa chúng về độ hiệu quả và từ đó huấn luyện Drone Các thuật toán này
sẽ được điều chỉnh dé tối ưu hóa khả năng né tránh vật cản, bằng cách tự động điều
chỉnh các tham sô và chiên lược bay của Drone
Nghiên cứu này dự kiến sẽ cung cấp thông tin về cách Drone tự học và tránh chướngngại vật trong môi trường mô phỏng cũng như thực tế Điều này sẽ dẫn đến nhiều
ứng dụng khả thi trong các lĩnh vực như kinh doanh, khoa học và cải thiện cách
quản lý tài nguyên.
Trang 27Chương 1: GIỚI THIỆU
Chương này giới thiệu vê vân đê và các nghiên cứu liên quan Đông thời, trong
chương này chúng tôi cũng trình bày phạm vi và cau trúc của Khóa luận
1.1 Tổng quan
Việc sử dụng công nghệ tiên tiến đã tạo ra một phương pháp điều khiển máy bay
không người lái mới, với sự trợ giúp của thị giác máy tính và các mô hình học tăng
cường sâu, đang mở ra những triển vọng đáng ké trong lĩnh vực điều khiến thiết bibay không người lái, cho phép điều khiển chúng theo cách hiệu quả hon
Thị giác máy tính, trong ngữ cảnh này, tập trung vào khả năng cho máy tính nhận
diện, hiểu và xử lý hình ảnh một cách thông minh Nó dạy các hệ thống máy tínhdiễn giải và hiểu hình ảnh theo cách tương tự như cách con người nhìn và xử lýchúng Máy bay không người lái sử dụng các mô hình học sâu đề tự động hóa quátrình ra quyết định và do đó tăng mức độ chính xác và hiệu quả tông thể Mô hìnhhọc tăng cường sâu giúp thiết bị bay tự động hóa quyết định và thích ứng dựa trên
dữ liệu thị giác.
Sự kết hợp giữa học tăng cường sâu và thị giác máy tính để điều khiển máy baykhông người lái có thê mang lại lợi ích to lớn cho nhiều ứng dụng khác nhau Đồngthời, nghiên cứu này đặt ra nhiều thách thức, từ việc thiết kế mô hình học tăng cườngsâu phù hợp đến việc tối ưu hóa hiệu suất và độ chính xác của các ứng dụng thực
tế
Tóm lại, nghiên cứu về thị giác máy tính và mô hình học tăng cường sâu dé điềukhiến máy bay không người lái, cho nó kha năng né tránh vật cản sẽ có hứa hẹnmang lại nhiều đóng góp quan trọng cho lĩnh vực điều khiến thiết bị bay không
người lái và các ứng dụng liên quan.
1.2 Lý do chọn đề tài
- Một hướng di mới, xứng dang dé tìm hiệu và nghiên cứu.
Trang 28- Có một nhu cầu lớn cho các giải pháp thông minh và tự động hóa trong lĩnh vực
UAV Các phương pháp mới sẽ có tiềm năng ứng dụng rộng rãi trong thị trường
này
- UAV đã trở thành một công cụ quan trong trong nhiều lĩnh vực như giám sát môi
trường, nghiên cứu khoa học, và quân sự Việc cải thiện khả năng nhận biết và
điều khiển của UAV có thé mang lại nhiều lợi ích
1.3 Mục đích nghiên cứu
- Nghiên cứu và ứng dụng kỹ thuật học sâu tăng cường trong điều khiển quỹ đạo
bay tự động của UAV, cụ thé là sử dung Drone, từ đó tạo ra giải pháp tiên tiến
dé cải thiện khả năng nhận biết và điều khiển của Drone và học tăng cường sâu.1.4 Đối tượng nghiên cứu
- Drone: Không chê tao vat lý, phan mêm điêu khién bay sử dung phân mêm có
săn, sử dụng và tùy chỉnh phân mêm điêu khiên có săn đê đáp ứng yêu câu cụ
2 A
thé.
- Thi giác máy tính: Khao sát và áp dung các mô hình thi giác máy tinh tự xây
dựng, xây dựng và tối ưu hóa tập dit liệu liên quan đến thị giác máy tính
- Học tăng cường: Tìm hiéu sâu về học tăng cường va ứng dụng nó vào việc tao ra
các hệ thông tự động hóa, tìm cách tôi ưu hóa học tăng cường cho ứng dụng điêu
khiên Drone.
1.5 Phạm vi nghiên cứu
Sử dung Drone có sẵn khung, các phần mềm có chức năng điều khiến có sẵn, và
triên khai các giải pháp Xây dựng môi trường xung quanh Drone sử dụng cảm biên
và hình ảnh Từ các nghiên cứu có sẵn áp dụng mô hình học sâu đề định hướng cho
Drone và dao tạo mô hình hoc tăng cường đê Drone có thê học cách tôi ưu hóa hành
vi dựa trên môi trường và mục tiêu nhiệm vụ
1.6 Cấu trúc của Khoá luận tốt nghiệp
Trang 29Chúng tôi xin trình bày nội dung của Khóa luận tốt nghiệp theo cấu trúc như sau:
- Chương 1: Giới thiệu tổng quan về dé tài của Khóa luận và những nghiên cứu
liên quan
- Chương 2: Trình bày cơ sở lý thuyết và kiến thức nên tảng liên quan đến đề tài
- Chương 3: Thiết lập môi trường và các kịch bản mô phỏng
- Chương 4: Thiết kế, hiện thực và thực nghiệm dé tài
- Chương 5: Đánh giá và bàn luận kết qua của đề tài
1.7 Các nghiên cứu liên quan trong nước và ngoài nước
Phân này chúng tôi sẽ giới thiệu vê các nghiên cứu liên quan đên đê tài của chúng tôi ở trong và ngoai nước
1.7.1 Trong nước
Các tô chức nghiên cứu và trường đại học hàng đâu trong nước đang đâu tư nhiêu
vào lĩnh vực này Các nhóm nghiên cứu tại các trường đại học và viện nghiên cứu
đã thiệt lập các dự án và nhóm làm việc tập trung vào phát triên thuật toán, mô hình học sâu, và ứng dụng Event camera cho Drone.
Một nghiên cứu thực hiện trên địa bàn tỉnh Bình Định đã thử nghiệm sự ứng dụng
của drone trong việc đo đạc va tạo ban đồ địa chính, địa hình, cũng như bản đồ hiệntrạng sử dụng đất Nghiên cứu này đã áp dụng một loạt các phương pháp và kỹ thuậtkhác nhau dé đánh giá độ chính xác và tính ứng dụng của công nghệ này
Kết quả của nghiên cứu cho thấy rằng việc sử dụng drone kết hợp với các phươngpháp bay chụp khác nhau, cùng với việc tích hợp các thiết bị truyền thống trong quá
trình đo đạc và kiểm tra, đã hỗ trợ và làm nổi bật tiềm năng của công nghệ này tronglĩnh vực đo đạc và tạo bản đồ Đặc biệt, việc sử dung drone đã giúp cải thiện dang
Trang 30kế độ chính xác của quá trình đo đạc, đồng thời giảm thiêu thời gian và chi phí so
với các phương pháp truyền théng !
1.7.2 Ngoài nước
- Nghiên cứu tiên tiễn: Các nước phát triển như Hoa Ky, Canada, và châu Âu đang
tiễn hành nghiên cứu tiên tiến về việc kết hợp thị giác máy tinh và học tăng cườngtrong việc điều khiến Drone Các trường đại học và tổ chức nghiên cứu hàng đầu
đã công bô nhiêu nghiên cứu quan trọng về đê tài này
- Ung dụng đa dạng: Trong các nước phát triển, Drone được ứng dụng rộng rãi
trong lĩnh vực giám sát môi trường, giao hàng, quảng cáo, và nhiều ứng dụng
khác Việc kết hợp thị giác máy tính và học tăng cường đã tạo ra những cải tiễn
đáng kể trong khả năng tự động hóa và quyết định của Drone
- Các hội nghị va sự kiện: Các hội nghị và sự kiện quốc tế về Drone và AI thường
đề cập đến việc kết hợp thị giác máy tính và học tăng cường trong điều khiếnDrone Đây là nơi các nhà nghiên cứu và chuyên gia có cơ hội chia sẻ kiến thức
và kinh nghiệm, các sự kiện và hội nghị quốc tế lớn liên quan về Drone có thé kểđến như InterDrone Conference, Commercial UAV Expo, International
Conference on Robotics and Automation (ICRA), Drone World Expo, Precision
Agriculture Conference,
- Ngành nông nghiệp là ngành có triển vọng nhất, đang đối mặt với nhiều van dé
hiện nay, trong đó một trong những vấn đề chính là sự thiếu hụt lao động choviệc canh tác Việc sử dụng các công nghệ tiên tiễn như Drone trong nông nghiệpmang lại tiềm năng dé đối mặt với nhiều thách thức lớn hoặc nhỏ Các ứng dụngchính của Drone trong nông nghiệp bao gồm tưới tiêu, giám sát cây trồng, phân
tích dat và cánh đông và kiêm soát các loài chim Drone rat có lợi với ngành nông
! Nguyễn Trọng Đợi, Ngô Anh Tú, Đỗ Tan Nghị and Nguyễn Hữu Xuân, “Nghiên cứu kha năng ứng dụng
của thiết bi UAV chi phí thấp trong đo đạc thành lập ban đồ: thử nghiệm một số công trình trên địa bàn tinh
Bình Định”, Tạp chí Khí tượng Thủy văn 2022, EME4, 202-214, 2022
Trang 31nghiệp bởi nhửng lợi ích của nó có thể mang lại như có khả năng phân tích đất
và đồng ruộng, có thê trồng trọt, phun thuốc cho cây trồng, kiểm tra và đánh giá
sức khỏe cây trông 7
- Ngoài ra Drone còn được ứng dụng trong giao thông vận tải, trong việc vận
chuyên hàng hóa, lập kế hoạch, thiết kế và giám sát cơ sở hạ tầng giao thông,
cũng như tông quan về khả năng ứng dụng máy bay không người lái trong các
van đề kỹ thuật vận tải và giao thông chuyên nghiệp và khoa học, lợi ích của việc
sử dụng máy bay không người lái thay vì thiết bị cổ điển là tiết kiệm thời gian vàtiền bạc, cải thiện độ tin cậy của việc đo lường dữ liệu và tăng cường bảo mật
ghi dir liệu °
- - Giới thiệu về một phương pháp tự động hóa xây dựng không gian trang thái trong
việc học kỹ năng chuyền động của robot thông qua học tăng cường và dự đoántrạng thái từ hình ảnh Camera Sau đó, phương pháp học một kỹ năng chuyền
động dựa trên các điểm đặc trưng này Kết quả là một bộ điều khiển phản ứng
liên tục với các điểm đặc trưng đã học, giúp robot tương tác động đới với các đối
tượng trong môi trường.?
- Có cách tận dụng video ghi lại từ camera trên ô tô kết hợp với dữ liệu cảm biến
xe như tốc độ và cảm biến quán tính Dữ liệu không gian lớn này được sử dụng
đề học biểu diễn hình ảnh cho tình huống lái xe Một biéu diễn học được đề xuất
dựa trên việc dự đoán dòng chảy quang học mật độ từ một khung ảnh đơn với dữ
liệu cảm biến đi kèm Nghiên cứu cho thấy rằng biểu diễn học này có thê hữu ích
7 § Ahirwar, Swarnkar RAGHUNANDAN Swarnkar, Bhukya Srinivas, G Namwade, “Application of
Drone in Agriculture”, International Journal of Current Microbiology and Applied Sciences
8(01):2500-2505, 2019
3 Drazen Cvitanic, “Drone applications in transportation”, International Multidisciplinary Conference on
Computer and Energy Science (SpliTech), pp 1-4, 2020
4C Finn, X Y Tan, D Yan, D Trevor, L Sergey and A Pieter, "Deep spatial autoencoders for visuomotor
learning.," in IEEE International Conference on Robotics and Automation (ICRA), 2016.
Trang 32cho các nhiệm vụ yêu câu hiéu biệt chi tiệt vê cảnh và vượt trội hơn các phương
pháp biểu diễn chưa được giám sát khác trong phân đoạn ngữ nghĩa
- Kha năng phát triển một khung học theo mô phỏng và áp dụng nó dé huấn luyện
chính sách điều hướng cho Drone bay trong môi trường sông ngòi phức tạp vàthiếu tín hiệu GPS một cách tự động Drone sử dụng một máy ảnh hướng về phíatrước để thực hiện các động tác phản ứng và tự định hướng chính mình trongkhông gian 2D bằng cách thay đổi hướng Nghiên cứu so sánh hiệu suất giữa bộđiều khiển dựa trên hồi quy tuyến tính, bộ điều khiển mạng nơ-ron end-to-end và
bộ điều khién dựa trên biến đôi tự động biên được huấn luyện bang phương pháptong hợp dit liệu trong môi trường mô phỏng
5 § Lee, J Kim, T.-H Oh, Y Jeong, D Yoo, S Lin and I S Kweon, "Visuomotor Understanding for Representation Learning of Driving Scenes," in The British Machine Vision Conference (BMVC), 2019.
6P, Wei, R Liang, A Michelmore and Z Kong, "Vision-based 2D navigation of unmanned aerial vehicles
in riverine environments with imitation learning," Journal of Intelligent and Robotic Systems, vol 104, no.
3, p 47, 2022.
Trang 33Chương 2: CÁC CƠ SỞ LÝ THUYET
2.1 Cơ sở lý thuyết, lý luận, giả thuyết khoa học và phương pháp nghiên cứu
đã được sử dụng
2.1.1 Cơ sé lý thuyết
2.1.1.1 Môi trường mô phỏng Drone phổ biến hiện nay và so sánh giữa chúng
Bảng dưới đây chúng tôi sẽ so sánh các môi trường mô phỏng Drone phô biên hiện
nay, gồm gym-pybullet-drones, AirSim và Flightmare
gym-pybullet- AirSim Flightmare
drones
Loại mô phỏng Mô phỏng vật lý | Mô phỏng bay giữa | Mô phỏng bay
với PyBullet thư viện 3D giữa thư viện
3D
Mục tiêu sử dụng | Điều khiến học | Thị giác máy tính, | Thị giác máy
tăng cường điêu khiên tính, học tăng
cường
Độ phức tạp Đơn giản Phức tap Phức tạp
Hỗ trợ các loại Thường sử dụng Hỗ trợ nhiều loại Hồ trợ nhiêu
Drone một mô hình cụ thê loại
Tích Hợp Camera Có Có Có
và Cảm Biên Thụ
Động
Hình Ảnh Chất Cao Cao Tùy thuộc vào
Lượng tài nguyên máy
Trang 34Rendering PyBullet Unreal Engine 4 Unity
Ngôn ngữ Python C++/C# C++/Python
Giao diện ROS ROS2/Python ROS/C++ ROS/C++
Hardware-In- Không (Software Có Không
The-Loop in the loop)
- Độ trung thực trực quan (Visual Fidelity): đo lường khả năng của một hình ảnh
hay đối tượng trong thế giới ảo giống như trong thế giới thực Độ trung thực càng
cao thì trải nghiệm càng chân thật
- Rendering: là quá trình tạo một hình ảnh hai chiều hoặc ba chiều từ một mô hình
hoặc nhiều mô hình băng các chương trình ứng dụng thành một hình ảnh 3D,
một nhân vật hoạt hình hay 1 cảnh phim nào đó
- Góc nhìn RGB/Depth/Segm.:
Trang 35“* RGB (Red/Green/Blue): La dữ liệu màu sắc co bản được sử dụng trong hình
ảnh và video Mỗi pixel trong một hình ảnh RGB được biểu diễn bằng ba
kênh màu: đỏ (Red), xanh lá cây (Green), và xanh dương (Blue)
* >* Depth (Độ sâu): Là dữ liệu đo lường khoảng cách từ camera đến mỗi điểm
trong hình anh Thông thường được biéu diễn bằng các giá tri pixel, trong đó
giá trị cao hơn thường ứng với khoảng cách xa hơn
> > * Segm (Segmentation): La quá trình phân loại mỗi pixel trong hình ảnh vào
hoặc phan của hình anh
RGB GZ Depth View a Segmentation Vie
Hình 2.1: Ba góc nhìn cua Camera
- Event Camera: Là loại Camera chi ghi lai những phan của hình anh mà có sự
thay đổi, thay vì ghi lại toàn bộ khung hình như máy ảnh truyền thống, có thé
nhận biệt được cả sự thay đôi tinh chat mau sac.
- So sánh Event Camera và Camera thông thường
Event Camera Camera thông thường
Nguyên tắc hoạt động Ghi lại những phan của hình Ghi lại toàn bộ khung hình tại
ảnh mà có sự thay đồi đột ngột mỗi thời điểm, không phụ
thuộc vào sự thay đôi
Thấp hơn Cao hơnOr
Độ tr
10
Trang 36Dung lượng và băng
thông
Yêu cầu dung lượng lưu trữ vàbăng thông truyền tải thấp hơn
Yêu cầu dung lượng và băng
thông lớn hơn do phải xử lý và
truyền tải toàn bộ khung hình
Thời gian thực Thích hợp cho các ứng dụng
doi hỏi xử lý thời gian thực,
như trong Drone hoặc xe tự lái.
Thường được sử dụng trong
các ứng dụng không đòi hỏi độ
trễ như chụp ảnh và quay video
Bảng 2.2: So sánh Event Camera và Camera thông thường
standard | |, \ /\,
camera „| |) * 4) Hi 6, output:
event
camera <
output:
Time
Hình 2.2: So sánh dau ra cua Camera thông thường va Event Camera
- Điều khiến đa tác nhân (multi-agent control): trong ngữ cảnh của Drone là quá
trình quản lý và điêu khiên nhiêu drone cùng một lúc đê đạt được một mục tiêu
hay hoạt động nhất định
- Hardware-In- The-Loop/Software-In- The-Loop:
>,
«* Hardware-In-The-Loop (HIL): là một phương pháp thử nghiệm trong đó một
hệ thống thực tế (thường là phần cứng nhúng hoặc bảng mạch điều khiến)
được kết nối và tương tác với môi trường mô phỏng trong máy tính Thường
được sử dụng đê kiêm tra và đánh giá hiệu suât của hệ thông điêu khiên trong điêu kiện thực tê mà không cân triên khai toàn bộ hệ thông.
s* Software-In-The-Loop (SIL): là một phương pháp thử nghiệm trong đó phan
cứng thực tế của hệ thống được thay thé bằng mô phỏng trong máy tính
Thường được sử dụng trong giai đoạn phát triển phần mềm và thuật toán để
11
Trang 37kiểm tra chúng mà không cần sử dụng phần cứng thực tế Nó giúp tiết kiệm
thời gian và chi phí so với việc triên khai toàn bộ hệ thông.
+
“+ Lý do Drones là Software-In-The-Loop: Do
Gym-Pybullet-Drones chạy mô phỏng và mô hình hóa hành vi của Drone va không liên
quan đến thiết bị vật lý thật
- Vận học có thé điều khiển hoàn toàn (Fully steppable physics): khả năng kiếm
soát và mô phỏng toàn bộ quá trình vận học của một hệ thống trong một môi
trường mô phỏng Điều này đặc biệt quan trọng trong lĩnh vực mô phỏng và môhình hóa khi cần đánh giá tác động của các yếu tố vận học, như lực, chuyên động,
và tương tác giữa các đối tượng
- PyMARL: Học củng cố đa tác nhân sử dung Python, PyMARL thường là một
thư viện được thiết kế dé hỗ trợ nghiên cứu và triển khai các thuật toán học củng
cô trong môi trường có nhiều tác nhân tương tác với nhau.Các tác nhân có thélàm việc cùng nhau dé đạt được mục tiêu chung hoặc có thé tương đối đối địch
2.2 Các công cụ và thuật ngữ liên quan
2.2.1 Khí động lực học — Quadcopter của may bay
2.2.1.1 Khí động lực học
Là một lĩnh vực được nhắc đến nhiều trong vật lý và kỹ thuật hàng không vũ trụ,nghiên cứu về sự chuyên động của không khí và cách mà sự chuyển động đó tươngtác với các vật thé khác đang di chuyền trong không khí
Trang 38Python và R một cách dé dàng dé quản lý một số thư viện và gói phân phối trong
một môi trường duy nhất Một số tính năng chính của nó bao gồm trình quản lý gói
conda giúp đơn giản hóa quá trình cài đặt và quản lý gói.
Anaconda có bao gồm nhiều thư viện khoa học dữ liệu và máy học phổ biến như
scikit-learn, TensorFlow và Py Torch Nhìn chung, Anaconda là một công cụ mạnh
mẽ dành cho các nhà khoa học và nhà nghiên cứu dữ liệu, cung cấp cho họ tất cảcác công cụ cần thiết dé tiến hành phân tích dữ liệu và xây dựng các mô hình học
máy đã tồn tại dưới dạng một ứng dụng
2.2.3 Stable-baselines
Stable Baselines là một thư viện trong ngôn ngữ lập trình Python, được thiết kế dé
cung cấp một bộ các thuật toán học tăng cường én định va dé sử dung Thu vién
này được phát triển trên nền tảng OpenAI Baselines và được tối ưu hóa dé cung cấp
hiệu suất và tính ôn định cao khi triển khai các thuật toán học tăng cường trong các
ứng dụng thực tế
13
Trang 39Vì thế, khi thực hiện các dự án liên quan đến học tăng cường, việc sử dụng thư viện
Stable Baselines là cần thiết, nó giúp thực hiện huấn luyện và đánh giá các mô hình
học tăng cường một cách dễ dàng và hiệu quả.
2.2.4 Sim2Real
Sim2Real, là một khái niệm về robot, trí tuệ nhân tạo (AI) và học máy tập trung vàoviệc chuyển giao các kỹ năng, kiến thức hoặc mô hình học được trong môi trường
mô phỏng sang các ứng dụng trong thế giới thực
Có rất nhiều lợi ích khi học robot Sim2Real Một trong những điều quan trọng nhất
là nó cho phép thử nghiệm và thử nghiệm nhanh hơn Trong thế giới thực, robot có
thé mat nhiều thời gian dé học các nhiệm vụ mới Điều này là do thực tế là chúng
phải hiện diện về mặt vật lý để tương tác với môi trường của chúng
Ngoài ra, trình mô phỏng có thể được sử dụng đề dạy robot cách xử lý các loại tìnhhuống khác nhau Mô phỏng cũng có lợi ích là an toàn Điều này rất quan trọng đối
với cả ứng dụng robot công nghiệp và cá nhân Trong môi trường công nghiệp,
robot thường được yêu cau làm việc gần gũi với con người Nếu có sự cố xảy ra, nó
có thé dẫn đến nguy hiểm về an toàn Tuy nhiên, nếu robot được huấn luyện môphỏng trước thì rủi ro này sẽ giảm đi rất nhiều
2.2.5 Gym-pybullet-drones
Gym-pybullet-drones là một môi trường mở rộng cho thư viện Gym của OpenAl,
được thiết kế dé mô phỏng các nhiệm vụ liên quan đến robot và học tăng cường
trong môi trường bullet physics Môi trường gym bullet train cung cấp một phạm
vi rộng rãi các tác vụ liên quan đến Drone và học tăng cường, giúp thực hiện thử
nghiệm và đào tạo mô hình trong môi trường thực tế Đây cũng là công cụ chínhgiúp chúng tôi thực hiện đề tài
2.2.5.1 Các tính năng nỗi bật của Gym-pybullet-drones
>
Tinh nang Mô ta
14
Trang 40Tích hợp với PyBullet Mô phỏng động cơ vật lý của Drone và môi trường xung
Tùy chỉnh Cho phép người dùng tuỳ chỉnh các thông số và thiết lập
môi trường đề phù hợp với nghiên cứu cụ thể
Đa dạng về loại Drone Hỗ trợ nhiều loại Drone khác nhau
Bảng 2 3: Các tính năng nồi bật của gym-pybullet-drones
2.2.6 CUDA và cuDNN
- CUDA (Compute Unified Device Architecture): CUDA là một nền tang tích hợp
của NVIDIA giúp tan dụng sức mạnh của các GPU NVIDIA dé tăng tốc tính
toán và xử lý song song.
- cuDNN (CUDA Deep Neural Network): cuDNN là một thư viện phat triển bởi
NVIDIA giúp tôi ưu hóa việc thực hiện mạng nơ-ron sâu trên GPU, tăng tốc quá
trình huân luyện và triên khai mạng nơ-ron sâu Dé thực hiện dao tao mô hình
học tăng cường sâu trên GPU của NVIDIA, việc cài đặt CUDA và cuDNN là cầnthiết để tận dụng tối đa hiệu suất tính toán của GPU
2.2.7 Học tăng cường
- Học tăng cường là một lớp của máy học trong đó một tác nhân (agent) học từ
việc trải nghiệm và tương tác với một môi trường được thiệt lập hoặc có sẵn dé
đưa ra các hành động sao cho nhận được phân thưởng tích cực và tiêu cực, từ
phần thưởng nhận được đó mà sẽ cải thiện tiếp tục vào những lần tương tác tới
dé đưa ra hành động tối ưu hơn
15