Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
1,78 MB
Nội dung
LUẬN VĂN TỐT NGHIỆP Đề tài: Điều khiển hệ máy bay khơng người lái sử dụng học tăng cường • Giáo viên hướng dẫn: • PGS TS Nguyễn Hồi Nam • Học viên thực • Đoàn Anh Đức 20202304M Nội dung I Giới thiệu 1.1 Tổng quan hệ máy bay không người lái 1.2 Một số phương pháp điều khiển máy bay không người lái II Cơ sở lý thuyết 2.1 Mơ hình quadrotor 2.2 Học tăng cường 2.3 Thuật toán học tăng cường Data-Driven - Thuật tốn điều khiển vị trí - Thuật tốn điều khiển trạng thái - Phân tích tính ổn định III Mơ điều khiển Quadrotor - Kết mô sử dụng thuật toán Data-Driven - So sánh kết với điều khiển PID IV Kết luận I Giới thiệu 1.1 Tổng quan hệ máy bay không người lái Hệ máy bay không người lái bao gồm máy bay khơng người lái (UAV), kiểm sốt viên mặt đất, hệ thống liên lạc UAV kiểm soát viên Phân loại UAV: dạng ➢ UAV có nhiều cánh quạt: quadrotor, hexacopter, bicopter … Hình 1.1 Quadrotor ➢ UAV cánh cố định Hình 1.2 UAV cánh cố định I Giới thiệu 1.1 Tổng quan hệ máy bay không người lái ➢ UAV có cấu trúc lai Hình 1.3 UAV có cấu trúc lai * UAV thiết kế lấy cảm hứng từ sinh học Hình 1.4 UAV đập cánh I Giới thiệu 1.2 Một số phương pháp điều khiển máy bay không người lái ➢ Điều khiển PID ➢ LQR (Điều khiển tối ưu) ➢ H∞ (Điều khiển bền vững) ➢ μ-synthesis (Điều khiển bền vững) ➢ Điều khiển thích nghi ➢ Backstepping ➢ Điều khiển CNF ➢ Gain scheduling ➢ MPC ➢ Fuzzy logic ➢ Apprenticeship learning ➢ Feedback linearization ➢ Học tăng cường II Cơ sở lý thuyết 2.1 Mơ hình quadrotor Hình 2.1 Các hệ tọa độ Định luật II Newton: 𝐹Ԧ = 𝑚 𝑑𝑉 𝑑𝑡 Phương trình động học quadrotor sau: 𝑀= 𝑑𝐻 𝑑𝑡 II Cơ sở lý thuyết 2.1 Mơ hình quadrotor 𝑐𝑜𝑠𝜙𝑠𝑖𝑛𝜃𝑐𝑜𝑠𝜓 + 𝑠𝑖𝑛𝜙𝑠𝑖𝑛𝜓 𝑢1 𝑚 𝑦ሷ = 𝑐𝑜𝑠𝜙𝑠𝑖𝑛𝜃𝑠𝑖𝑛𝜓 − 𝑠𝑖𝑛𝜙𝑐𝑜𝑠𝜓 𝑢1 𝑚 𝑧ሷ = 𝑐𝑜𝑠𝜙𝑐𝑜𝑠𝜃 𝑢1 − 𝑔 𝑚 𝐼𝑦𝑦 − 𝐼𝑧𝑧 𝑙 ሷ 𝜙= 𝜃ሶ 𝜓ሶ + 𝑢 𝐼𝑥𝑥 𝐼𝑥𝑥 𝐼𝑧𝑧 − 𝐼𝑥𝑥 𝑙 𝜃ሷ = 𝜙ሶ 𝜓ሶ + 𝑢 𝐼𝑦𝑦 𝐼𝑦𝑦 𝐼𝑥𝑥 − 𝐼𝑦𝑦 ሷ ሶ ሶ 𝜓= 𝜃𝜙 + 𝑢 𝐼𝑧𝑧 𝐼𝑧𝑧 𝑥ሷ = Trong đó: x, y, z vị trí 𝜙, 𝜃, 𝜓 góc trạng thái M khối lượng g gia tốc trọng trường 𝐼𝑥𝑥 , 𝐼𝑦𝑦 , 𝐼𝑧𝑧 mơ men qn tính 𝑢1 , 𝑢2 , 𝑢3 , 𝑢4 biến điều khiển II Cơ sở lý thuyết 2.1 Mơ hình quadrotor ➢ Tuyến tính hóa mơ hình: Với bốn kênh điều khiển độc lập coi mơ hình bao gồm hai hệ thống độc lập hệ chuyển động tịnh tiến hệ chuyển động quay Từ mơ hình ta thấy, chuyển động tịnh tiến không ảnh hưởng đến chuyển động quay chuyển động quay ảnh hưởng đến chuyển động tịnh tiến Bỏ qua nhiễu nhỏ, phương trình chuyển động quadrotor: 𝑚𝑥ሶ = 𝐴𝑥 + 𝐵𝑢 Trong đó, biến trạng thái 𝑥 = 𝑥,ሶ 𝑦,ሶ 𝑧,ሶ 𝑝, 𝑞, 𝑟, 𝜃, 𝜙, 𝜓 𝑇 biến điều khiển 𝑢 = 𝑢1 , 𝑢2 , 𝑢3 , 𝑢4 𝑇 Để đơn giản hóa, ta coi 𝜙ሶ = 𝑝, 𝜃ሶ = 𝑞, 𝜓ሶ = 𝑟 * Chuyển động quay, phương trình chuyển động kênh ngang quadrotor 𝑥ሶ ℎ = 𝐴ℎ 𝑥ℎ + 𝐵ℎ 𝑢ℎ , đó, biến trạng thái 𝑥ℎ = 𝑣, 𝑝, 𝑟, 𝜙, 𝜓 𝑇 biến điều khiển 𝑢ℎ = 𝑢2 Các ma trận hệ số: 𝑦𝑣 𝑦𝑝 𝑦𝑟 𝑦𝜙 𝑦𝛿 𝑙𝛿 𝑙𝑣 𝑙𝑝 𝑙𝑟 𝑙𝜙 𝐴ℎ = 𝑛𝑣 𝑛𝑝 𝑛𝑟 𝑛𝜙 , 𝐵ℎ = 𝑛𝛿 0 0 0 0 0 Hàm truyền kênh tính theo cơng thức 𝐺 𝑠 = 𝑠𝐼 − 𝐴 −1 𝐵 * Chuyển động tịnh tiến, phương trình chuyển động kênh dọc quadrotor 𝑥ሶ𝑔 = 𝐴𝑔 𝑥𝑔 + 𝐵𝑔 𝑢𝑔 , đó, biến trạng thái 𝑥𝑔 = 𝑥,ሶ 𝑧,ሶ 𝑞, 𝜃 𝑇 biến điều khiển 𝑢𝑔 = 𝑢1 , 𝑢4 𝑇 Các ma trận hệ số 𝑥𝑥ሶ 𝑥𝑧ሶ 𝑥𝑞ሶ 𝑥𝜃 𝑥𝑡 𝑥𝛿 𝑧𝑥ሶ 𝑧𝑧ሶ 𝑧𝑞ሶ 𝑧𝜃 𝑧𝛿 𝐴𝑔 = 𝑚 𝑚 𝑚 , 𝐵 = 𝑔 𝑚𝜃 𝑚𝛿 𝑥ሶ 𝑧ሶ 𝑞ሶ 0 0 II Cơ sở lý thuyết 2.2 Học tăng cường (RL) ➢ RL nhánh phương pháp học học máy, làm việc với liệu từ mơi trường động ➢ Mục tiêu học tăng cường tìm trình tự tốt cho hành động để đạt kết đầu tốt ➢ Môi trường bên ngồi thay đổi phản ứng khác Để có sách tối ưu sách phải thay đổi dựa vào hành động thực hiện, phản hồi môi trường phần thưởng nhận Hình 2.2 Học tăng cường II Cơ sở lý thuyết Các bước thuật toán Data-Driven điều khiển vị trí Bước 1: Khởi tạo 𝑢𝑝0 = 𝐾 𝑋𝑝 + 𝑢𝑝𝑒 , với 𝐾 hệ số ổn định 𝑢𝑝𝑒 nhiễu đầu vào thăm dò Thu thập liệu hệ thống xác định giới hạn giá trị dương nhỏ 𝜀𝑙𝑖𝑚1 Bước 2: Đánh giá sách Với 𝐾 𝑛 , ta có Π𝑝𝑛 𝐾𝑝𝑛+1 cách giải phương trình Beltman: 𝑋p𝑇 𝑡 + Δ𝑡 Π𝑝𝑛 𝑋𝑝 𝑡 + Δ𝑡 − 𝑋p𝑇 𝑡 Π𝑝𝑛 𝑋𝑝 𝑡 𝑡+Δ𝑡 = −න 𝑋𝑝𝑇 𝑄തΘ 𝑋𝑝 𝑑𝜏 𝑡 𝑡+Δ𝑡 + 2න 𝑡+Δ𝑡 −න 𝐾 𝑛 𝑇 𝑅𝑝 𝐾 𝑛 𝑑𝜏 𝑡 𝐾 𝑛+1 𝑋𝑝 𝑇 𝑅p 𝑢𝑝0 − 𝐾 𝑛 𝑋𝑝 𝑑𝜏 𝑡 Bước 3: Cải thiện sách (tín hiệu điều khiển) Cho 𝐾 𝑛 = 𝐾 𝑛+1 quay lại Bước 𝐾 𝑛 − 𝐾 𝑛+1 < 𝜀𝑙𝑖𝑚1 II Cơ sở lý thuyết 2.3.2 Điều khiển trạng thái quadrotor ➢ Sau 𝑢𝑝 xác định, ta tính tín hiệu điều khiển 𝑢𝑧 giá trị đặt cho vòng trạng thái bao gồm góc roll 𝜙𝑟 , góc pitch 𝜃𝑟 , góc yaw đặt 𝜓𝑟 - Mơ hình 𝑋ሶ Θ = 𝐹തΘ 𝑋Θ + 𝐵തΘ 𝑢Θ 𝑒Θ = 𝐶Θҧ 𝑥 Θ ∞ 𝑇 - Hàm mục tiêu: 𝑉Θ 𝑋Θ , 𝑢Θ = 𝑋( 𝑡Θ𝑇 𝑄തΘ 𝑋Θ + 𝑢Θ 𝑅Θ 𝑢Θ )𝑑𝜏 - Kết hợp mơ hình hàm mục tiêu ta phương trình Bellman: 𝑇 𝐻Θ 𝑉Θ , 𝑢Θ = 𝑋Θ𝑇 𝑄തΘ 𝑋Θ + 𝑢Θ 𝑅Θ 𝑢Θ + Δ𝑉Θ𝑇 𝐹തΘ + 𝐵തΘ 𝑢Θ = Gọi 𝑉Θ∗ nghiệm - Phương trình HJB thỏa mãn: 𝐻Θ (𝑉Θ∗ , 𝑢Θ ) = Đạo hàm theo biến điều khiển 𝑢Θ ∗ 𝑢Θ , ta có tín hiệu điều khiển tối ưu 𝑢Θ = − 𝑅Θ−1 𝐵തΘ𝑇 Δ𝑉Θ∗ Thay vào trên, phương trình HJB trở thành 𝑋Θ𝑇 𝑄തΘ 𝑋Θ + Δ𝑉Θ∗ 𝑇 𝐹തΘ − Δ𝑉Θ∗ 𝑇 𝐵തΘ 𝑅Θ−1 𝐵തΘ𝑇 Δ𝑉Θ∗ = ➢ Phương trình HJB phương trình phi tuyến khơng giải Do đó, ta sử ∗ dụng thuật tốn Data-Driven để khảo sát tín hiệu điều khiển tối ưu 𝑢Θ trực tuyến II Cơ sở lý thuyết 𝑛 𝑛 - Từ mơ hình, viết lại: 𝑋ሶ Θ = 𝐹തΘ 𝑋Θ + 𝐵തΘ 𝑢Θ + 𝐵തΘ 𝑢Θ + 𝑢Θei − 𝑢Θ Trong 𝑢Θ tín hiệu điều khiển ổn định 𝑢Θei nhiễu đầu vào điều khiển Đạo hàm hàm mục tiêu 𝑉Θ : 𝑛 𝑛 𝑉ሶΘ𝑛 = Δ𝑉Θ𝑛 𝑇 𝐹തΘ 𝑋Θ + 𝐵തΘ 𝑢Θ + Δ𝑉Θ𝑛 𝑇 𝐵തΘ 𝑢Θ + 𝑢Θei − 𝑢Θ 𝑛 𝑇 𝑛 𝑛+1 𝑇 𝑛 = −𝑋Θ𝑇 𝑄തΘ 𝑋Θ − 𝑢Θ 𝑅Θ 𝑢Θ − 𝑢Θ 𝑅Θ 𝑢Θ + 𝑢Θei − 𝑢Θ - Tích phân phương trình trên: 𝑉Θ𝑛 𝑋Θ 𝑡 + Δ𝑡 − 𝑉Θ𝑛 𝑋Θ 𝑡 𝑡+Δ𝑡 =න 𝑡 𝑡+Δ𝑡 𝑛 𝑇 𝑛 −𝑋Θ𝑇 𝑄തΘ 𝑋Θ − 𝑢Θ 𝑅Θ 𝑢Θ 𝑑𝜏 − න 𝑡 𝑛+1 𝑢Θ 𝑇 𝑛 𝑅Θ 𝑢Θ + 𝑢Θei − 𝑢Θ 𝑑𝜏 𝑛+1 ➢ Thấy 𝑉Θ𝑛 𝑢Θ cập nhật liên tục từ liệu hệ thống theo thuật toán Data-Driven sau II Cơ sở lý thuyết Các bước thuật toán Data-Driven điều khiển trạng thái Bước 1: Bắt đầu với tín hiệu điều khiển ổn định 𝑢Θ tín hiệu điều khiển thăm dò 𝑢Θei Thu thập liệu hệ thống xác định giới hạn giá trị dương nhỏ 𝜀𝑙𝑖𝑚2 𝑛 𝑛+1 Bước 2: Với 𝑢Θ , ta có 𝑉Θ𝑛 𝑢Θ cách giải phương trình Beltman: 𝑉Θ𝑛 𝑋Θ 𝑡 + Δ𝑡 𝑡+Δ𝑡 =න 𝑡 − 𝑉Θ𝑛 𝑋Θ 𝑡 −𝑋Θ𝑇 𝑄തΘ 𝑋Θ − 𝑛 𝑇 𝑛 𝑢Θ 𝑅Θ 𝑢Θ 𝑑𝜏 𝑡+Δ𝑡 −න 𝑡 𝑛+1 𝑢Θ 𝑇 𝑛 𝑅Θ 𝑢Θ + 𝑢Θe − 𝑢Θ 𝑑𝜏 Bước 3: Cải thiện sách (tín hiệu điều khiển) 𝑛+1 𝑛 𝑛+1 𝑛 Cho 𝑢Θ = 𝑢Θ quay lại Bước 𝑢Θ − 𝑢Θ < 𝜀𝑙𝑖𝑚2 II Cơ sở lý thuyết 2.3.3 Phân tích tính ổn định - Tính ổn định quadrotor phân tích thơng qua tính ổn định đội hình quadrotor - Bộ điều khiển vị trí cho đội hình quadrotor: ሶƸ = 𝐴𝑝 𝑟𝑝𝑖 ҧ + 𝜍𝑖 (𝑥𝑝0 + 𝛿𝑖ҧ − 𝑟𝑝𝑖 𝑟𝑝𝑖 Ƹ + 𝜒 (𝑤𝑖𝑗 𝑟𝑝𝑗 Ƹ − 𝑟𝑝𝑖 Ƹ + 𝛿𝑖𝑗 Ƹ )) 𝑗∈𝑁𝑖 𝑢𝑝𝑖 = 𝐾1𝑖 𝑥𝑝𝑖 + 𝐾2𝑖 𝑟𝑝𝑖 Ƹ - Mơ hình vị trí đội hình quadrotor: 𝑋ሶ 𝑝𝑖 = 𝐴ҧ𝑝𝑖 𝑋𝑝𝑖 + 𝐵ത𝑝𝑖 𝑢𝑝𝑖 + 𝑍𝑝𝑖 𝜀𝑝𝑖 ҧ 𝑋𝑝𝑖 𝑒𝑝𝑖 = 𝐶𝑝𝑖 ∞ 𝑇 𝑇 - Hàm mục tiêu 𝑉𝑝𝑖 𝑋pi = 𝑖𝑝𝑋 𝑡 (𝑄തpi +𝐾𝑖𝑇 𝑅pi 𝐾𝑖 )𝑋𝑝𝑖 𝑑𝜏 = 𝑋𝑝𝑖 Π𝑝𝑖 𝑋𝑝𝑖 ∗ - Tối ưu hóa hàm mục tiêu, ta tín hiệu điều khiển tối ưu: 𝑢𝑝𝑖 = 𝐾𝑖 𝑋𝑝𝑖 - Định nghĩa 𝑟𝑝𝑖 ǁ = 𝑟𝑝𝑖,𝑥 ǁ 𝑟𝑣𝑖,𝑥 ǁ 𝑟𝑝𝑖,𝑦 ǁ 𝑟𝑣𝑖,𝑦 ǁ 𝑟𝑝𝑖,𝑧 ǁ 𝑟𝑣𝑖,𝑧 ǁ quadrotor với 𝑟𝑝𝑖 ǁ = 𝑟𝑝𝑖 − 𝑟𝑝𝑖 Ƹ 𝑇 ∈ ℝ6 ước lượng sai số II Cơ sở lý thuyết Định lý: Sử dụng điều khiển bao gồm sách điều khiển vị trí sách điều khiển trạng thái, ước lượng sai số 𝑟𝑝𝑖 ǁ hội tụ χ đủ lớn đội hình quadrotor ổn định tiệm cận Chứng minh: - Biến đổi hàm mục tiêu toán điều khiển vị trí, sử dụng phương trình trên, 𝑇 𝑇 ത −𝑇 ത 𝑇 𝑇 𝑇 𝑇 ta được: 𝑉𝑝𝑖ሶ 𝑋pi = 𝑋𝑝𝑖 −𝑄ത𝑝𝑖 − Π𝑝𝑖 𝐵𝑝𝑖 𝑅𝑝𝑖 𝐵 𝑝𝑖 Π𝑝𝑖 𝑋𝑝𝑖 + 𝑋𝑝𝑖 Π𝑝𝑖 𝑍𝑝𝑖 𝜀𝑝𝑖 + 𝜀𝑝𝑖 𝑍𝑝𝑖 Π𝑝𝑖 𝑋𝑝𝑖 Bằng việc chọn 𝜒 giá trị dương đủ lớn, ta có 𝜀𝑝𝑖 hội tụ 𝑉𝑝𝑖ሶ 𝑋pi < Do đó, ta kết luận, sai số bám vị trí 𝑒𝑝𝑖 hội tụ 0, hệ động học vị trí quadrotor ổn định tiệm cận - Tương tự, biến đổi hàm mục tiêu toán điều khiển trạng thái, ta được: ∗ ∗ 𝑇ത −1 ത 𝑇 ∗ 𝑇 ത 𝑉ሶΘi = − Δ𝑉Θi 𝐵Θi 𝑅Θi 𝐵Θi Δ𝑉Θi − 𝑋Θi 𝑄Θi 𝑋Θi < Ta thấy, sai số bám trạng thái 𝑒Θi hội tụ nên hệ động học trạng thái quadrotor ổn định tiệm cận III Mô điều khiển Quadrotor 3.1 Đầu vào mô Tham số Ký hiệu m Đơn vị kg Giá trị 1,2 g 𝑚/𝑠 9,81 l 𝑚 0,2 Gia tốc trọng trường Khoảng cách từ trọng tâm đến quadrotor Mơ-men qn tính theo trục x Ixx kg m2 2,353.10-3 Mơ-men qn tính theo trục y Iyy kg m2 2,353.10-3 Mơ-men qn tính theo trục z Izz kg m2 5,262.10-2 TT Khối lượng Mơ hình tuyến tính [1] Góc theta (kênh pitch): G1 ( s) = ( s) U1 ( s) = 56,95s + 4391 s + 105s + 870s + 4430 ( s) U (s) = 65s + 4560 s + 109s + 1023s + 2935 Góc psi (kênh yaw): G3 ( s) = ( s) U ( s) = G4 ( s) = X ( s) X −190s + 567 = = ( s) s s(57,95s + 4400) Vị trí y (theo góc phi): Góc phi (kênh roll): G2 ( s) = Vị trí x (theo góc theta): G5 ( s) = Y ( s) Y −276, 4s + 743,5 = = ( s) s s(61s + 4463) Vị trí z: 105 s + 413s G6 ( s) = Z ( s) Z 1, 63 = = U ( s) sU s ( s + 5) III Mô điều khiển Quadrotor 3.2 Kết mơ với thuật tốn Data-Driven Mơ điều khiển vị trí: Mơ điều khiển trạng thái: Nhận xét: Các vị trí trạng thái bám tốt giá trị đặt - Điều khiển vị trí: Các giá trị thực tế tiến giá trị đặt sau khoảng giây - Điều khiển trạng thái: Giá trị thực tế tiến giá trị đặt sau khoảng 0,5 giây III Mô điều khiển Quadrotor 3.3 Kết mô với thuật toán PID Sử dụng điều khiển 𝑃𝐼𝐷 = 𝐾𝑝 + 𝐾𝑖 𝑠 + 𝐾𝑑 𝑠 +1 𝑁 để điều khiển đối tượng tiến hành xác định hệ số điều khiển công cụ PID Tuning Matlab Kết tham số điều khiển PID sau: Hình 3.1 Điều khiển với điều khiển PID Hàm truyền 𝐺1 Kp Ki Kd N 0,834 4,491 0,009 654 𝐺2 0,729 3,165 0,005 513 𝐺3 330 5078 0,106 84 𝐺4 13,100 0,234 0,054 234 𝐺5 10,37 0,205 0,099 258 𝐺6 32 37,2 4,806 32,5 III Mô điều khiển Quadrotor Kết mơ với thuật tốn PID Mơ điều khiển vị trí: Mơ điều khiển trạng thái: Nhận xét: Các vị trí trạng thái bám tốt giá trị đặt - Điều khiển vị trí: Giá trị thực tế vị trí x, y, z tiến đến giá trị đặt sau khoảng giây; vị trí x, y có tượng dao động, vị trí z bị overshoot nhiên không đáng kể - Điều khiển trạng thái: Giá trị thực tế góc trạng thái phi, theta tiến giá trị đặt sau khoảng giây; giá trị thực tế góc trạng thái psi tiến giá trị đặt sau khoảng 0,2 giây III Mô điều khiển Quadrotor 3.3 So sánh kết Mô điều khiển vị trí: Nhận xét: Thời gian đạt giá trị xác lập hai điều khiển tương đương nhau, khoảng s Tuy nhiên, điều khiển học tăng cường Data-Driven cho chất lượng tốt khơng có tượng dao động (x, y) bị overshoot (z) điều khiển PID Mô điều khiển trạng thái: Nhận xét: - Đối với điều khiển trạng thái phi theta, điều khiển học tăng cường Data-Driven cho chất lượng điều khiển tốt với thời gian đạt giá trị xác lập ngắn hơn(0,5s so với 1s) - Đối với điều khiển trạng thái psi, điều khiển PID cho thời gian đạt giá trị xác lập ngắn so với điều khiển học tăng cường Data-Driven Tuy nhiên, thời gian đạt giá trị xác lập điều khiển học tăng cường Data-Driven nhỏ, khoảng 0,5 s IV Kết luận ➢ Kết luận Dựa kết thiết kế mô điều khiển quadrotor vị trí trạng thái, ta thấy điều khiển sử thuật toán học tăng cường Data-Driven cho kết tốt, tham số bám tốt giá trị đặt khoảng thời gian ngắn ➢ Hướng nghiên cứu, phát triển Kết mô lý tưởng chưa xét đến ảnh hưởng nhiễu Trong tương lai, tác giả tiếp tục bổ xung thêm nhiễu vào mơ hình, nghiên cứu, thiết kế, mơ để hồn thiện toán điều khiển quadrotor áp dụng cho dạng UAV khác IV Kết luận ➢ Cơng việc thực luận văn ✓ Tìm hiểu hệ máy bay không người lái phương pháp điều khiển ✓ Thiết kế, mô điều khiển quadrotor phương pháp học tăng cường So sánh kết với điều khiển PID Tài liệu tham khảo [1] [2] [3] [4] [5] Jun Li and Yuntang Li, “Dynamic Analysis and PID Control for a Quadrotor”, International Conference on Mechatronics and Automation, August - 10, Beijing, China Vũ Thị Thúy Nga, Ong Xuân Lộc Trịnh Hải Nam, Học tăng cường Điều khiển tự động với Matlab Simulink, NXB Bách Khoa Hà Nội, 2020 Wanbing Zhao, Hao Liu, “Data-Driven Optinal Formation Control for Quadrotor Team With Unknown Dynamics”, IEEE transactions on cybernetics Jiang and Z.-P Jiang, “Computational adaptive optimal control for continuous-time linear systems with completely unknown dynamics,” Automatica, vol 48, no 10, pp 2699–2704, 2012 MathWorks, “Reinforcement learning with Matlab” Xin cảm ơn ý lắng nghe thầy cô! ... 1.1 Tổng quan hệ máy bay không người lái 1.2 Một số phương pháp điều khiển máy bay không người lái II Cơ sở lý thuyết 2.1 Mơ hình quadrotor 2.2 Học tăng cường 2.3 Thuật tốn học tăng cường Data-Driven... IV Kết luận I Giới thiệu 1.1 Tổng quan hệ máy bay không người lái Hệ máy bay không người lái bao gồm máy bay không người lái (UAV), kiểm soát viên mặt đất, hệ thống liên lạc UAV kiểm soát viên.. .Đề tài: Điều khiển hệ máy bay không người lái sử dụng học tăng cường • Giáo viên hướng dẫn: • PGS TS Nguyễn Hoài Nam • Học viên thực • Đồn Anh Đức 20202304M