NGHIÊN CỨU GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG CHO HỆ PHI TUYẾN TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƢỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN TẤN LŨY NGHIÊN CỨU GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG CHO HỆ PHI TUYẾN Chuyên ngành: Tự động hóa Mã số chuyên ngành: 62.52.60.01 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT TP HỒ CHÍ MINH NĂM 2015 Cơng trình hoàn thành Trƣờng Đại học Bách Khoa – ĐHQG-HCM Người hướng dẫn khoa học 1: TS Nguyễn Thiện Thành Người hướng dẫn khoa học 2: TS Hoàng Minh Trí Phản biện độc lập 1: GS.TS Phan Xuân Minh Phản biện độc lập 2: PGS.TS Nguyễn Chí Ngơn Phản biện 1: GS.TSKH Hồ Đắc Lộc Phản biện 2: PGS.TS Nguyễn Ngọc Lâm Phản biện 3: PGS.TS Lê Minh Phương Luận án bảo vệ trước Hội đồng chấm luận án họp vào lúc ngày tháng năm Có thể tìm hiểu luận án thư viện: - Thư viện Khoa học Tổng hợp Tp HCM - Thư viện Trường Đại học Bách Khoa – ĐHQG-HCM CHƢƠNG 1.1 GIỚI THIỆU Tổng quan đề tài 1.1.1 Khái niệm học củng cố Học củng cố (Reinforcement Learning (RL)) thuộc lớp phương pháp học máy (Machine Learning) dùng để giải toán tối ưu cách liên tục điều chỉnh hành động tác tử (Agent) Lý thuyết RL hình thành dựa quan sát nghiên cứu thuộc tính hành vi động vật tương tác với mơi trường để thích nghi tồn Các giải thuật điều khiển dựa vào RL mơ động vật Đó biết học hỏi từ sai lầm, biết tự dạy mình, biết sử dụng thơng tin trực tiếp từ môi trường thông tin đánh giá khứ để củng cố, điều chỉnh hành vi nhằm liên tục cải thiện chất lượng tương tác, tối ưu hóa mục tiêu theo thời gian 1.1.2 Lịch sử phát triển RL điều khiển Tham khảo tài liệu [9] 1.2 Động cơ, mục tiêu nhiệm vụ nghiên cứu 1.2.1 Sự cần thiết phải nghiên cứu RL điều khiển Lý thuyết RL công cụ mạnh sử dụng để nghiên cứu phát triển thành giải thuật điều khiển thích nghi, bền vững, tối ưu 1.2.2 Tính cấp thiết đề tài Trong điều khiển thích nghi bền vững cho hệ phi tuyến qui hoạch động, RL sử dụng giải thuật lặp PI (Policy Iteration) dựa vào cấu trúc qui hoạch động thích nghi (Adaptive Dynamic Programming (ADP)) chứa ba xấp xỉ hàm [12]-[13] Tuy nhiên, với ba xấp xỉ hàm, ADP tồn số trở ngại: Tính tốn phức tạp, lãng phí tài ngun, chậm hội tụ [20] Từ đó, nghiên cứu phát triển giải thuật học củng cố khắc phục hạn chế nêu cần thiết 1.2.3 Mục tiêu nghiên cứu Mục tiêu nghiên cứu luận án phân tích thiết kế giải thuật học củng cố điều khiển thích nghi bền vững cho hệ phi tuyến Giải thuật đáp ứng yêu cầu chính: (𝑖) Điều khiển online, tránh thủ tục nhận dạng hệ thống (gián tiếp trực tiếp) (𝑖𝑖) Bảo đảm hệ kín ổn định bền vững (𝑖𝑖𝑖) Tối thiểu hàm tiêu chất lượng (𝑖𝑣) Giảm chi phí tính toán giảm tài nguyên hệ thống nhằm tăng tốc độ hội tụ (𝑣) Loại bỏ yêu cầu luật điều khiển ổn định để khởi động giải thuật (𝑣𝑖) Giải thuật đơn giản tốt 1.2.4 Nhiệm vụ nghiên cứu Nhiệm vụ nghiên cứu trọng tâm luận án đặt sau: a) Nghiên cứu giải thuật học củng cố điều khiển tối ưu cho hệ phi tuyến dựa cấu trúc qui hoạch động thích nghi sử dụng hai xấp xỉ hàm [9][10] [12][13] Giải thuật luận án sử dụng xấp xỉ hàm, khắc phục dư thừa xấp xỉ hàm so với qui động thích nghi kinh điển Thiết kế luật cập nhật tham số online, xây dựng giải thuật điều khiển không cần khởi động luật điều khiển ổn định, chứng minh hội tụ ổn định tồn hệ kín b) Nghiên cứu giải thuật học củng cố điều khiển thích nghi bền vững hệ phi tuyến tảng cấu trúc qui hoạch động thích nghi bền vững sử dụng ba xấp xỉ hàm [9][13]-[15] Giải thuật luận án sử dụng xấp xỉ hàm, khắc phục dư thừa hai xấp xỉ hàm lại Thiết kế luật cập nhật tham số online cho xấp xỉ hàm, xây dựng giải thuật điều khiển không cần khởi động luật điều khiển ổn định, cập nhật tham số bước lặp, chứng minh hội tụ ổn định tồn hệ kín c) Kiểm tra tính hiệu giải thuật nghiên cứu: (𝑖) Mô phỏng, so sánh đánh giá với giải thuật học củng cố gần hệ phi tuyến (𝑖𝑖) Mô thực nghiệm đối tượng robot di động dạng xe d) Mở rộng giải thuật học củng cố điều khiển thích nghi bền vững cho tốn điều khiển hợp tác nhiều hệ phi tuyến MIMO, áp dụng để mơ hệ thống đồng hóa đội hình robot bầy đàn 1.3 Đối tƣợng phạm vi nghiên cứu Các ký hiệu: ℝ, ℝ𝑛 ℝ𝑛×𝑚 tập số thực, không gian Euclide 𝑛 chiều tập ma trận số thực có kích thước 𝑛 × 𝑚 𝐿2 0,∞ không gian Banach, ∀𝑑 ∈ 𝐿2 0,∞ ∞ 𝑑 𝑑𝑡 𝑛×𝑚 𝑋 ∈ ℝ𝑛 chuẩn ma trận 𝑋 ∈ ℝ < ∞ 𝑋 chuẩn véc tơ Đối tượng thứ cần nghiên cứu lớp hệ thống phi tuyến [12][13]: (1.1) 𝑥 =𝑓 𝑥 +𝑔 𝑥 𝑢 đối tượng thứ hai lớp hệ thống phi tuyến [17]: 𝑥 =𝑓 𝑥 +𝑔 𝑥 𝑢+𝑘 𝑥 𝑑 (1.2) 𝑦 = 𝑕(𝑥) 𝑥 ∈ ℝ𝑛 véc tơ trạng thái, 𝑢 ∈ ℝ𝑚 véc tơ tín hiệu điều khiển với 𝑢 ∈ 𝐿2 0, ∞ , 𝑑 ∈ ℝ𝑞 nhiễu thỏa điều kiện 𝑑 ∈ 𝐿2 0, ∞ , 𝑓 𝑥 ∈ ℝ𝑛 véc tơ hàm phi tuyến liên tục thỏa điều kiện 𝑓 = 0, biết trước hệ (1.1) động học nội (Internal dynamics) hệ (1.2) 𝑦 ∈ ℝ𝑝 ngõ mục tiêu, 𝑕(𝑥) ∈ ℝ𝑝 , 𝑔 𝑥 ∈ ℝ𝑛×𝑚 𝑘 𝑥 ∈ ℝ𝑛×𝑞 véc tơ ma trận phi tuyến liên tục giả sử xác định trước Đối tượng thực nghiệm luận án để kiểm chứng tính hiệu phương pháp học củng cố thích nghi bền vững robot di động dạng xe, đối tượng phi tuyến chứa thành phần động học khơng thể cấu trúc hóa mơ hình hóa, chịu tác động nhiễu mơ men ngõ vào có lượng hữu hạn Đối tượng cuối cần nghiên cứu 𝑁 hệ phi tuyến MIMO toán điều khiển hợp tác Hệ thứ 𝑖 (1 ≤ 𝑖 ≤ 𝑁) có 𝑚(𝑚 ≥ 2) phương trình: 𝑥𝑖𝑕 = 𝑓𝑖𝑕 𝑥𝑖𝑕 + 𝑔𝑖𝑕 𝑥𝑖𝑕 𝑥𝑖 𝑕+1 + 𝑘𝑖𝑕 𝑥𝑖𝑕 𝑑𝑖𝑕 , ≤ 𝑕 ≤ 𝑚 − ⋮ (1.3) 𝑥𝑖𝑚 = 𝑓𝑖𝑚 𝑥𝑖𝑚 + 𝑔𝑖𝑚 𝑥𝑖𝑚 𝑢𝑖𝑚 + 𝑘𝑖𝑚 𝑥𝑖𝑚 𝑑𝑖𝑚 𝑇 𝑇 𝑇 𝑇 ∀𝑕 = 1, … , 𝑚, 𝑥𝑖𝑕 = [𝑥𝑖1 , 𝑥𝑖2 , … , 𝑥𝑖𝑕 ] ∈ ℝ𝑛 +⋯+𝑛 𝑕 với 𝑥𝑖𝑕 ∈ ℝ𝑛 𝑕 véc tơ trạng thái, 𝑢𝑖𝑚 ∈ ℝ𝑛 𝑚 +1 véc tơ ngõ vào điều khiển, 𝑑𝑖𝑕 ∈ ℝ𝑛 𝑕 véc tơ nhiễu cho 𝑑𝑖𝑕 ∈ 𝐿2 [0, ∞), 𝑓𝑖𝑕 (𝑥𝑖𝑕 ) ∈ ℝ𝑛 𝑕 , 𝑘𝑖𝑕 (𝑥𝑖𝑕 ) ∈ ℝ𝑛 𝑕 ×𝑛 𝑕 𝑔𝑖𝑕 (𝑥𝑖𝑕 ) ∈ ℝ𝑛 𝑕 ×𝑛 𝑕 +1 véc tơ ma trận phi tuyến liên tục Giả sử toàn trạng thái có sẵn để hồi tiếp 𝑓𝑖𝑕 (𝑥𝑖𝑕 ) thành phần động học nội hệ thống 1.4 Những đóng góp luận án mặt khoa học 1.4.1 Về mặt lý thuyết a) Luận án nghiên cứu giải thuật học củng cố OADP (Online Adaptive Dynamic Programming) điều khiển tối ưu hệ phi tuyến (1.1): Cấu trúc điều khiển sử dụng xấp xỉ hàm với luật cập nhật thiết kế loại bỏ tượng dư thừa xấp xỉ hàm lại [12][13] Luật cập nhật tham số online bước lặp, khơng địi hỏi luật điều khiển khởi tạo ổn định Sự hội tụ ổn định hệ kín phân tích chứng minh Định lý 3.2 b) Luận án phân tích thiết kế giải thuật học củng cố ORADP (Online Robust Adaptive Dynamic Programming) điều khiển thích nghi bền vững hệ phi tuyến (1.2) với mơ hình chứa thành phần động học nội Trong giải thuật, cấu trúc điều khiển sử dụng xấp xỉ hàm với luật cập nhật thiết kế mới, phù hợp loại bỏ tượng dư thừa hai xấp xỉ hàm so với [13]-[15][17] Trong giải thuật, tham số cập nhật online bước lặp, không sử dụng kỹ thuật nhận dạng hệ thống, không đòi hỏi luật điều khiển khởi tạo ổn định, hàm tiêu chất lượng tối thiểu Khả hội tụ ổn định hệ kín phân tích chứng minh Định lý 4.3 1.4.2 Về mặt thực tiễn a) Áp dụng giải thuật ORADP để điều khiển robot di động: (𝑖) Không chia tách luật điều khiển động học động lực học phương pháp chiếu, tránh phụ thuộc vào kinh nghiệm người thiết kế việc chọn tham số điều khiển động học, (𝑖𝑖) Không cần nhận dạng (trực tiếp gián tiếp) thành phần động học chưa xác định mơ hình robot, (𝑖𝑖𝑖) Tối thiểu hàm tiêu chất lượng b) Mở rộng giải thuật ORADP cho toán điều khiển hợp tác thích nghi bền vững nhiều hệ phi tuyến MIMO (1.3): (𝑖) Thành lập đồ thị truyền thông phân tán với nút đặc trưng cho động học phi tuyến, (𝑖𝑖) Mở rộng giải thuật ORADP điều khiển hợp tác thích nghi bền vững nhiều hệ phi tuyến, (𝑖𝑖𝑖) Ứng dụng giải thuật điều khiển để đồng hóa đội hình robot bầy đàn Bớ cục luận án Chương phần Giới thiệu, Chương trình bày sở lý thuyết học củng cố xấp xỉ hàm Chương phân tích thiết kế giải thuật học củng cố điều khiển tối ưu hệ phi tuyến Chương phân tích thiết kế giải thuật học củng cố điều khiển thích nghi bền vững hệ phi tuyến Chương mô thực nghiệm robot di động dạng xe áp dụng giải thuật học củng cố điều khiển thích nghi bền vững Chương mở rộng giải thuật thích nghi bền vững để điều khiển hợp tác nhiều hệ phi tuyến MIMO, mô đồng hóa đội hình robot bầy đàn Cuối phần kết luận hướng phát triển 1.5 CHƢƠNG CƠ SỞ LÝ THUYẾT 2.1 Các định nghĩa Định nghĩa 2.1 (Uniform Ultimate Bounded-UUB): Xét hệ thống: (2.1) 𝑥 (𝑡) = 𝑓(𝑥(𝑡), 𝑡) 𝑛 với trạng thái 𝑥(𝑡) ∈ ℝ Điểm cân 𝑥𝑐 gọi UUB tồn tập đóng 𝛺𝑥 ⊂ ℝ𝑛 , cho với 𝑥 ⊂ 𝛺𝑥 , tồn chặn 𝐵 thời gian 𝑇𝐵 (𝐵, 𝑥𝑐 ) để điều kiện 𝑥 𝑡 − 𝑥𝑐 ≤ 𝐵 thỏa với 𝑡 ≥ 𝑡0 + 𝑇𝐵 2.2 Lý thuyết học củng cố Hàm thưởng/phạt, cịn gọi tín hiệu củng cố, 𝑟 𝑥𝑘 , 𝑢(𝑥𝑘 ) ∈ ℝ, đặc trưng cho chi phí điều khiển áp dụng tín hiệu điều khiển 𝑢(𝑥𝑘 ) trạng thái 𝑥𝑘 , 𝑢 𝑥𝑘 luật điều khiển cho áp dụng 𝑢 𝑥𝑘 từ trạng thái 𝑥0 phát sinh quỹ đạo trạng thái 𝑥0 , 𝑥1 , 𝑥2 , … , 𝑥𝑁 thỏa điều kiện: ∀𝑘 = 1, … , 𝑁 − 1, 𝑥𝑘+1 = 𝑓(𝑥𝑘 , 𝑢(𝑥𝑘 )) Hàm biểu diễn tổng chi phí cộng dồn xuất phát từ 𝑥0 luật điều khiển 𝑢 𝑥𝑘 áp dụng dọc theo quỹ đạo trạng thái ∀𝑥𝑘 ∈ Ω𝑥 gọi hàm tiêu chất lượng hàm chi phí 𝑢(𝑥): 𝐽 𝑥0 = 𝑁 𝑘 𝑘=0 𝛾 𝑟(𝑥𝑘 , 𝑢(𝑥𝑘 )) (2.2) 𝛾 ∈ 0, Gọi 𝑉 𝑥𝑘 hàm đánh giá 𝑥𝑘 , viết dạng hồi qui: 𝑉 𝑥𝑘 = 𝑟(𝑥𝑘 , 𝑢(𝑥𝑘 )) + 𝛾𝑉 𝑓 𝑥𝑘 , 𝑢(𝑥𝑘 ) (2.3) ∗ Mục tiêu phương pháp học củng cố tìm luật điều khiển tối ưu 𝑢 để tối thiểu hàm chi phí 𝐽 𝑥0 , ∀𝑥0 ∈ Ω𝑥 : (2.4) 𝑉 ∗ 𝑥0 = 𝑚𝑖𝑛𝑢 𝐽 𝑥0 ∗ 𝑉 𝑥0 hàm chi phí tối ưu Theo nguyên lý qui hoạch động (DP) Bellman hàm đánh giá tối ưu trạng thái 𝑥𝑘 định nghĩa: 𝑉 ∗ 𝑥𝑘 = 𝑚𝑖𝑛𝑢∈𝑈(𝑥 𝑘 ) 𝑟(𝑥𝑘 , 𝑢𝑘 ) + 𝛾𝑉 ∗ 𝑓 𝑥𝑘 , 𝑢(𝑥𝑘 Vậy, tín hiệu điều khiển tối ưu xác định: 𝑢∗ 𝑥𝑘 = 𝑎𝑟𝑔𝑚𝑖𝑛𝑢∈ 𝑢 ,𝑢 ,…,𝑢 𝑚 𝑟(𝑥𝑘 , 𝑢𝑘 ) + 𝛾𝑉 ∗ 𝑓 𝑥𝑘 , 𝑢(𝑥𝑘 2.3 (2.5) (2.6) Các giải thuật học củng cố thông dụng Với hệ thống thực tế, mơ hình (2.5) khơng có sẵn để áp dụng cho (2.6) Vì vậy, giải thuật học củng cố nghiên cứu phát triển để xấp xỉ trực tiếp nghiệm phương trình (2.5) để từ tìm luật điều khiển tối ưu [12]-[15][17], có giải thuật VI (Value Iteration), PI (Policy Iteration), Q-Learning Đây giải thuật lặp qua nhiều bước nhiều chu kỳ Trong trình lặp, tín hiệu điều khiển cho chi phí tốt chọn cho lần lặp Các tín hiệu điều khiển ngẫu nhiên thử sai theo qui luật cho trước để tìm luật điều khiển tốt hơn, tránh bẫy cục Xấp xỉ hàm học củng cố NN (Neural Network) bao gồm mạng truyền thẳng MLP, họ mạng hàm sở xun tâm: RBF, NRBF, RARBF mạng mơ hình tiểu não CMAC so sánh đánh giá để làm sở lựa chọn xấp xỉ hàm cho giải thuật học củng cố [8] MLP với lớp ẩn, ngõ thường sử dụng giải thuật AC [6], [13]-[15][17] tài ngun lưu trữ hợp lý, tính tốn đơn giản chọn làm xấp xỉ hàm cho giải thuật học củng cố Luận án 2.4 CHƢƠNG 3.1 GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN TỐI ƢU Học củng cố điều khiển tối ƣu 3.1.1 Mơ tả tốn Xét lớp hệ thống phi tuyến mơ tả phương trình (1.1) Giả thiết 3.1: Cho trước tập 𝛺𝑥 ⊆ ℝ𝑛 chứa gốc, 𝑓 𝑥 + 𝑔 𝑥 𝑢 liên tục Lipschitz 𝛺𝑥 tồn luật điều khiển liên tục 𝑢 𝑡 để hệ kín (1.1) ổn định tiệm cận 𝛺𝑥 Giả thiết 3.2 ([19]-[20]): 𝑔𝑚𝑖𝑛 ≤ 𝑔 𝑥 ≤ 𝑔𝑚𝑎𝑥 , với 𝑔𝑚𝑖𝑛 𝑔𝑚𝑎 𝑥 số dương Mục tiêu toán học củng cố điều khiển tối ưu [12][13]: Với tập luật điều khiển hồi tiếp trạng thái 𝑈 𝑥 ∈ Ω𝑢 ⊆ ℝ𝑚 , liên tục Ω𝑥 𝑈 =0, tìm luật điều khiển tối ưu 𝑢∗ 𝑥(𝑡) ∈ 𝑈 𝑥 ổn định hệ kín (1.1) Ω𝑥 đồng thời cực tiểu phiếm hàm tiêu chất lượng ràng buộc (1.1) 3.1.2 Phương trình HJB (Hamilton-Jacobi-Bellman) Định nghĩa trước phiếm hàm tiêu chất lượng cần tối thiểu: 𝐽(𝑥(0)) = ∞ 𝑟 𝑥(𝑡), 𝑢(𝑡) 𝑑𝑡 (3.1) (3.2) 𝑟 𝑥, 𝑢 = 𝑄 𝑥 + 𝑢𝑇 𝑅𝑢 viết gọn 𝑥 = 𝑥 𝑡 , 𝑢 = 𝑢 𝑡 , 𝑄 𝑥 hàm xác định dương, cho ∀𝑥 ≠ 0, 𝑄 𝑥 > 0, 𝑄 𝑥 = ⟺ 𝑥 = 0, 𝑅 ∈ ℝ𝑚×𝑚 , 𝑅 = 𝑅 𝑇 > 0, 𝑢 ∈ 𝑈 𝑥 luật điều khiển thiết kế để ổn định hệ thống (1.1) bảo đảm 𝐽 𝑥(0) (3.1) cực tiểu Hàm đánh giá định nghĩa [12][13]: 𝑉(𝑥(𝑡)) = ∞ 𝑟 𝑡 𝑥, 𝑢 𝑑𝜏 (3.3) Giả thiết 3.3: Hàm 𝑉 𝑥 (3.3) có đạo hàm bậc khả vi liên tục, 𝑉(𝑥) ∈ C1 , với 𝑥 ∈ Ω𝑥 Chuyển (3.3) thành phương trình Lyapunov phi tuyến [12]: 𝑉𝑥𝑇 𝑓 𝑥 + 𝑔 𝑥 𝑢 + 𝑄 𝑥 + 𝑢𝑇 𝑅𝑢 = 0, 𝑉 = (3.4) 𝑉𝑥 = 𝜕𝑉 𝜕𝑥 Định nghĩa hàm Hamilton: 𝐻 𝑥, 𝑢, 𝑉𝑥 = 𝑉𝑥𝑇 𝑓 𝑥 + 𝑔 𝑥 𝑢 + 𝑄 𝑥 + 𝑢𝑇 𝑅𝑢 (3.5) Từ (3.3), hàm chi phí tối ưu 𝑉 ∗ 𝑥(0) hàm đánh giá tối ưu 𝑉 ∗ 𝑥 ∞ 𝑉 ∗ 𝑥(0) = 𝑚𝑖𝑛𝑢∈𝑈(𝑥) 𝐽 𝑥(0), 𝑢 = 𝑚𝑖𝑛𝑢∈𝑈(𝑥) 𝑟 𝑥, 𝑢 𝑑𝑡 𝑉 ∗ 𝑥(𝑡) = 𝑚𝑖𝑛𝑢∈𝑈(𝑥) ∞ 𝑟 𝑡 𝑥, 𝑢 𝑑𝜏 (3.6) Phương trình (3.6) thỏa phương trình HJB [12]: 𝑚𝑖𝑛𝑢∈𝑈(𝑥) 𝐻 𝑥, 𝑢, 𝑉𝑥∗ = (3.7) ∗ ∗ 𝑉𝑥 = 𝜕𝑉 𝜕𝑥 Giả sử (3.7) tồn cực trị luật điều khiển tối ưu xác định: (3.8) 𝑢∗ (𝑥) = − 𝑅 −1 𝑔𝑇 (𝑥)𝑉𝑥∗ Áp dụng 𝑉 ∗ (𝑥) (3.8) cho phương trình (3.4), phương trình HJB trở thành: 𝑄 𝑥 + 𝑉𝑥∗𝑇 (𝑥)𝑓 𝑥 − 𝑉𝑥∗𝑇 (𝑥)𝑔 𝑥 𝑅 −1 𝑔𝑇 𝑥 𝑉𝑥∗ (𝑥) = 0, 𝑉 ∗ = (3.9) Nghiệm (3.9) cần thiết cho (3.8) Tuy nhiên, (3.9) phương trình vi phân phi tuyến khơng có nghiệm giải tích Vì vậy, vấn đề xấp xỉ nghiệm đặt Giải thuật OADP, phân tích thiết kế sau đáp ứng yêu cầu 3.2 Phân tích thiết kế giải thuật học củng cố OADP 3.2.1 Cấu trúc điều khiển luật cập nhật tham số Xấp xỉ hàm (NN) sử dụng để biểu diễn hàm đánh giá: (3.10) 𝑉 𝑥 = 𝑊 𝑇 𝜙 𝑥 + 𝜀(𝑥) 𝑛𝑕 𝑛 𝑛𝑕 với 𝑊 ∈ ℝ trọng số NN, 𝜙 𝑥 : ℝ → ℝ hàm tác động, 𝑛𝑕 số nút ẩn 𝜀(𝑥) sai số xấp xỉ NN Sử dụng (3.10) cho (3.4), Hamilton (3.5) trở thành: (3.11) 𝐻 𝑥, 𝑢, 𝑊 = 𝑊 𝑇 𝜙𝑥 𝑓 𝑥 + 𝑔 𝑥 𝑢 + 𝑄 𝑥 + 𝑢𝑇 𝑅𝑢 = 𝜀𝐻 𝑛 𝑕 ×𝑛 𝜙𝑥 = 𝜕𝜙(𝑥) 𝜕𝑥 ∈ ℝ 𝜀𝐻 ∈ ℝ sai số xấp xỉ hàm: (3.12) 𝜀𝐻 = −𝜀𝑥 𝑓 𝑥 + 𝑔 𝑥 𝑢 Sử dụng NN (3.10) cho phương trình HJB (3.9), ta có: (3.13) 𝑄 𝑥 + 𝑊 𝑇 𝜙𝑥 𝑓 𝑥 − 𝑊 𝑇 𝜙𝑥 𝐺𝜙𝑥𝑇 𝑊 + 𝜀𝐻𝐽𝐵 = 𝜀𝐻𝐽𝐵 sai số thặng dư (residual error) gây sai số xấp xỉ hàm: 1 𝜀𝐻𝐽𝐵 = 𝜀𝑥𝑇 𝑓 𝑥 − 𝑊 𝑇 𝜙𝑥 𝐺𝜀𝑥 − 𝜀𝑥𝑇 𝐺𝜀𝑥 = 𝜀𝑥𝑇 𝑓 𝑥 − 𝑔 + 𝑅 −1 𝑔𝑇 𝜀𝑥 1 𝑅 −1 𝑔𝑇 𝜙𝑥𝑇 𝑊 − 𝜀𝑥𝑇 𝐺𝜀𝑥 + 𝜀𝑥𝑇 𝑔𝑅−1 𝑔𝑇 𝜀𝑥 = 𝜀𝑥𝑇 𝑓 𝑥 + 𝑔𝑢∗ + 𝜀𝑥𝑇 𝐺𝜀𝑥 (3.14) 𝐺(𝑥) = 𝑔(𝑥)𝑅 −1 𝑔𝑇 (𝑥), bị chặn số dương 𝐺𝑚𝑖𝑛 , 𝐺𝑚𝑎𝑥 Trọng số lý tưởng (3.10) chưa xác định, hàm đánh giá xấp xỉ 𝑉 𝑥 định nghĩa NN xấp xỉ: (3.15) 𝑉 𝑥 = 𝑊𝑇𝜙 𝑥 𝑛𝑕 𝑊 ∈ ℝ trọng số NN xấp xỉ Sử dụng 𝑉 𝑥 cho phương trình mục tiêu (3.4), gọi 𝑒1 sai số Hamilton (3.5) gây NN xấp xỉ, ta có [12]: (3.16) 𝐻 𝑥, 𝑢, 𝑊 = 𝑊 𝑇 𝜙𝑥 𝑓 𝑥 + 𝑔 𝑥 𝑢 + 𝑄 𝑥 + 𝑢𝑇 𝑅𝑢 = 𝑒1 Định nghĩa sai số xấp xỉ trọng số NN: 𝑊 = 𝑊 − 𝑊 Từ (3.11) (3.16): (3.17) 𝑒1 = −𝑊 𝑇 𝜙𝑥 𝑓 𝑥 + 𝑔 𝑥 𝑢 + 𝜀𝐻 Với luật điều khiển 𝑢 ∈ 𝑈(𝑥) cho trước, để 𝑊 → 𝑊, 𝑒1 → 𝜀𝐻 , ta cần chỉnh định 𝑊 nhằm tối thiểu 𝐸1 = 𝑒1𝑇 𝑒1 [12] Sử dụng giải thuật suy giảm độ dốc chuẩn (normalized gradient descent), luật cập nhật 𝑊 định nghĩa: 𝜕𝐸 𝜎 𝑇 𝑇 𝑊 = −𝛼1 = −𝛼1 𝑇 (3.18) 𝜎 𝑊 + 𝑄 𝑥 + 𝑢 𝑅𝑢 𝜕𝑊 𝜎 𝜎+1 𝜎 = 𝜙𝑥 𝑓(𝑥) + 𝑔 𝑥 𝑢 Đây giải thuật Levenberg–Marquardt cải tiến cách sử dụng 𝜎 𝑇 𝜎 + thay 𝜎 𝑇 𝜎 + [11][12] Định lý 3.1 (Persistence of Excitation (PE)) [11]:Với luật điều khiển 𝑢 ổn định hệ kín (1.1), giả sử luật cập nhật thích nghi trọng số NN theo (3.18), 𝜎 thỏa điều kiện PE (3.19) khoảng thời gian 𝑡, 𝑡 + 𝑇𝑃 , 𝑇𝑃 > 0, với 𝑡: 𝑡+𝑇 (3.19) 𝛽1 𝐼 ≤ 𝑡 𝑃 𝜎(𝜏)𝜎 𝑇 (𝜏)𝑑𝜏 ≤ 𝛽2 𝐼 𝑇 𝜎 = 𝜎/(𝜎 𝜎 + 1), 𝛽1 𝛽2 số dương 𝐼 ma trận đơn vị có kích thước phù hợp - Nếu 𝜀𝐻 = sai số xấp xỉ trọng số NN hội tụ đến giá trị zero theo qui luật hàm mũ - Nếu 𝜀𝐻 (𝑡) bị chặn cho 𝜀𝐻 < 𝜀𝐻𝑚𝑎𝑥 sai số xấp xỉ trọng số NN hội tụ đến tập sai số thặng dư (residual error set) Chứng minh: Phụ lục B Luận án Trong giải thuật AC (Actor Critic) [12][13], CNN (Critic Neural Network) sử dụng luật cập nhật (3.18), 𝑢 thay xấp xỉ hàm 0.6 nguyên cho hai NN khác, bao gồm hai cặp véc tơ 𝜙 𝑥 𝑊 , cặp dành cho luật nhiễu cặp lại dành cho luật điều khiển [14] Hàm chi chí hai giải thuật chọn theo (4.4), 𝑄(𝑥) = 𝑥 𝑇 𝑄1 𝑥 , 𝑄1 = 𝐼 ∈ ℝ2×2 , 𝑅 = , 𝛾 = Chọn 𝛼1 = 100 , 𝛼2 = 0.1 cho (4.33) Điều kiện PE đảm bảo cách thêm nhiễu nhỏ vào tín hiệu điều khiển nhiễu [14] 0.5 0.4 0.3 0.2 0.1 -0.1 -0.2 10 20 30 40 50 60 70 80 Hình 4.2: Sự hội tụ trọng số NN hàm đánh giá tối ưu ORADP so với AC3NN Bảng 4.1: So sánh tiêu chất lượng ORADP AC3NN STT Tiêu chí so sánh Thời gian hội tụ 𝑊1 (s) Thời gian hội tụ 𝑊2 (s) Thời gian hội tụ 𝑊3 (s) Thời gian hội tụ 𝑊4 (s) Số lượng tham số xấp xỉ hàm cần lưu trữ tính tốn Cần thơng tin động học nội 𝑓(x) 𝑉 − 𝑉∗ 𝑢 − 𝑢∗ 𝑑 − 𝑑∗ ORADP 20 18 30 15 Không 0.2247 0.4479 0.0614 AC3NN 50 19 60 16 24 Có 1.4427 2.1869 0.2998 0.1 0.02 0.05 0.1 0.01 0 -0.05 -0.01 -0.1 2 0 -2 (a) -2 -0.02 2 0 -2 -2 (b) -0.1 2 0 -2 -2 (c) Hình 4.3: ORADP so với AC3NN: Sai số xấp xỉ hội tụ tối ưu a) Hàm đánh giá; b) Luật nhiễu; c) Luật điều khiển Đánh giá tốc độ hội tụ: Quá trình hội tụ trọng số NN hai giải thuật biểu diễn H 4.2 Chi tiết thời gian hội tụ trọng số theo Bảng 4.1 Kết cho thấy, tốc độ hội tụ ORADP nhanh so với AC3NN Giá trị hội tụ hai xấp xỉ xấp xỉ đến giá trị cận tối ưu: 𝑊 (1) = −0.0004 0.5008 0.2498 𝑇 , 𝑊 (3) = [−0.005 0.5016 0.24 0.0014]𝑇 Với trọng số NN này, hàm chi phí tối ưu xấp xỉ 𝑉 𝑥 ≈ 𝑥14 /4 + 𝑥22 /2 Sai số xấp xỉ hai giải thuật biểu diễn H 4.3 cho thấy tất sai số xấp xỉ hội tụ ORADP nhỏ AC3NN 20 Đánh giá tài nguyên hệ thống: Theo tiêu chuẩn thứ Bảng 4.1, số lượng tham số NN cần lưu trữ tính tốn ORADP giảm ba lần so với AC3NN Đánh giá khả linh hoạt thiết kế: Thông tin động học nội 𝑓(x) cho ORADP không cần thiết Khi trọng số NN khởi tạo khơng, Hình 4.3: Khả hội tụ trọng số NN ORADP hội tụ, AC3NN không hội tụ khởi tạo không (ORADP AC3NN) (H.4.3) Vậy, luật điều khiển khởi tạo ổn định cho ORADP khơng địi hỏi cần thiết AC3NN [14] 0.5 -0.5 50 100 150 200 -1 0.2 0.4 0.6 0.8 1.2 1.4 CHƢƠNG ÁP DỤNG GIẢI THUẬT ORADP CHO ROBOT DI ĐỘNG 5.1 Mơ hình phi tuyến robot Robot di động dạng xe (Wheeled Trục dẫn động bánh sau 𝑦 𝑌 Mobile Robots (WMR)) (H 5.1) 𝑋 lắp hai bánh xe trái phải trục dẫn Bánh xe trước 2𝑟1 động chuyển động thẳng quay 𝜔 𝜐 mặt phẳng dựa vào mô men xoắn 𝑦 𝜃 từ hai cấu chấp hành độc lập bố trí Tâm khối lượng 𝑏 𝑐 robot bánh xe Khối lượng 𝑀 tập trung Bánh xe sau 𝑏 trọng tâm bao gồm khối lượng khung 𝑥 𝑥 𝑂 không kể bánh xe khối lượng Hình 5.1: Mơ hình robot di động dạng xe Hình 5.1: Mơ hình robot di động dạng xe bánh xe qui đổi 𝐼 mơ men q tính Khoảng cách dẫn động hai bánh xe chủ động 𝑏1 Đường kính bánh xe 𝑟1 Khoảng cách tâm trục dẫn động l Khơng tính tổng quát giả sử trọng tâm robot nằm trục dẫn động, hay l=0 Tọa độ trọng tâm so với hệ qui chiếu 𝑂𝑥𝑦 cố định mặt phẳng, hướng di chuyển, vận tốc quay vận tốc dài 𝑥, 𝑦, 𝜃, 𝜔, 𝜐 WMR tổng quát xem hệ thống khí khơng gian cấu hình 𝑛 chiều với tọa độ suy rộng 𝑞 = 𝑞1 , 𝑞2 , … , 𝑞𝑛 ∈ ℝ𝑛 , chịu 𝑚 ràng buộc với 𝑚 < 𝑛 biểu diễn dạng 𝐴 𝑞 𝑞 = với 𝐴 𝑞 ∈ ℝ𝑚 ×𝑛 ma trận đủ hạng Giả sử 𝑆 𝑞 ∈ ℝ𝑛× 𝑛−𝑚 ma trận đủ hạng tạo thành từ trường véc tơ trơn độc lập tuyến tính không gian rỗng 𝐴 𝑞 cho 𝐴 𝑞 𝑆(𝑞) = Gọi 𝜗 𝑡 = 𝜐 𝑇 𝜔𝑇 𝑇 ∈ ℝ𝑛−𝑚 véc tơ vận tốc, ta có phương trình động học WMR [1][3]: (5.1) 𝑞 = 𝑆 𝑞 𝜗(𝑡) phương trình động lực học [1][3]: 𝑀 𝑞 𝜗 (𝑡) + 𝐶 𝑞, 𝑞 𝜗(𝑡) + 𝐹 𝑞 + 𝜏𝑚 = 𝐵 𝑞 𝜏 21 (5.2) 𝑀 𝑞 = 𝑆 𝑇 𝑀𝑆 , 𝐶 𝑞, 𝑞 = 𝑆 𝑇 𝑀𝑆 + 𝑆 𝑇 𝐶𝑆 , 𝐵(𝑞) = 𝑆 𝑇 𝐵(𝑞) , 𝐹 𝑞 = 𝑆 𝑇 𝑀𝑆𝜗 +𝐵(𝑞)𝐹, 𝜏𝑚 = 𝐵 𝑞 𝜏𝑚 , 𝑀 𝑞 ∈ ℝ𝑛×𝑛 ma trận khối lượng đối xứng xác định dương, 𝐶 𝑞, 𝑞 ∈ ℝ𝑛×𝑛 ma trận lực Coriolis ly tâm, 𝐹 𝑞 ∈ ℝ𝑛−𝑚 véc tơ lực ma sát, 𝜏𝑚 ∈ ℝ𝑛−𝑚 nhiễu mô men, 𝐵 𝑞 ∈ ℝ𝑛×(𝑛−𝑚 ) ma trận chuyển đổi Sử dụng phương trình (5.1), (5.2), ta có phương trình khơng gian trạng thái WMR dạng hệ phi tuyến sau [1][3]: 𝑞 = 𝑓𝑞 𝑞 + 𝑔𝑞 𝑞 𝜗 + 𝑘𝑞 (𝑞) (5.3a) (5.3b) 𝜗 = 𝑓𝜗 𝑞, 𝜗 + 𝑔𝜗 𝑞, 𝜗 𝜏 + 𝑘𝜗 𝑞, 𝜗 𝜏𝑚 với 𝑓𝑞 𝑞 = 0𝑛×1 , 𝑔𝑞 𝑞 = 𝑆 𝑞 , 𝑓𝜗 𝑞, 𝜗 = −𝑀−1 𝑞 𝐶 𝑞, 𝑞 𝜗 + 𝐹 (𝑞 ) ∈ ℝ𝑛−𝑚 , 𝑔𝜗 𝑞, 𝜗 = 𝑀−1 𝑞 𝐵 ∈ ℝ 𝑛−𝑚 × 𝑛−𝑚 , 𝑘𝜗 𝑞, 𝜗 = 𝑀−1 𝑞 ∈ ℝ 𝑛−𝑚 × 𝑛−𝑚 , 𝑘𝑞 = Định nghĩa 5.1: Nếu cho trước robot tham chiếu có mơ sau: 𝑞𝑑 = 𝑔𝑞 𝑞𝑑 𝜗𝑟𝑑 (5.4) 𝑞𝑑 = 𝑥𝑑 , 𝑦𝑑 , 𝜃𝑑 𝑇 quỹ đạo trơn, bị chặn, 𝑔𝑞 𝑞𝑑 = 𝑆 𝑞𝑑 với 𝜗𝑟𝑑 véc tơ vận tốc giả sử khả vi liên tục biết trước Mục tiêu toán thiết kế luật điều khiển để quỹ đạo hệ thống (5.3) bám quỹ đạo (5.4) đồng thời thỏa hai yêu cầu: (𝑖) Tích hợp chung luật điều khiển động học động lực học (𝑖𝑖) Tối thiểu hàm chi phí liên quan đến sai số bám bị ràng buộc hệ thống Chú ý 5.1: Hầu hết giải thuật điều khiển thích nghi cho WMR ([10][11] [18]) dựa vào kỹ thuật chiếu, khơng tích hợp Trước tiên, luật điều khiển động học (vận tốc) cho (5.3a) thiết kế để WMR bám vị trí tham chiếu Sau đó, luật điều khiển động lực học (mô men) cho (5.3b) thiết kế để giảm sai số bám vận tốc robot vận tốc tham chiếu luật điều khiển động học sinh Bổ đề 5.1 [1][3]: Xét động học bám robot sau: (5.5) 𝑒 = 𝑓𝑒 𝑡 + 𝑔(𝑥)𝑢∗ + 𝑘(𝑥)𝑑 𝑇 𝑥 = 𝑞 𝑇 , 𝜗 𝑇 𝑇 ∈ ℝ2𝑛−𝑚 𝑒 = 𝑒𝑞𝑇 , 𝑒𝜗𝑇 ∈ ℝ2𝑛−𝑚 , 𝑒𝑞 = 𝑞 − 𝑞𝑑 , 𝑒𝜗 = 𝜗 − 𝜗𝑑 , 𝑇 𝑇 𝜗𝑑 = 𝜗𝑑∗ + 𝜗𝑑𝑎 , 𝜗𝑑𝑎 thỏa 𝑔𝑞 𝑞 𝜗𝑑𝑎 − 𝑔𝑞 𝑞𝑑 𝜗𝑟𝑑 = 0, 𝑓𝑒 𝑡 = 0𝑛×1 , 𝑓𝑒𝜗 ∈ ℝ2𝑛−𝑚 , với 𝑓𝑒𝜗 = 𝑓𝜗 𝑞, 𝜗 − 𝑓𝜗 𝑞𝑑 , 𝜗𝑑 𝑢∗ = 𝑢 − 𝑢𝑎 ∈ ℝ2(𝑛−𝑚 ) với 𝑢∗ = 𝜗𝑑∗𝑇 , 𝜏 ∗𝑇 𝑇 𝑢 = [ 𝑇 𝜗𝑑𝑇 , 𝜏 𝑇 𝑇 , 𝑢𝑎 = 𝜗𝑑𝑎 , 𝜏𝑑𝑇 𝑇 , 𝜏𝑑 thỏa 𝑔𝜗 𝑞, 𝜗 − 𝑔𝜗 𝑞𝑑 , 𝜗𝑑 𝜏𝑑 + 𝑔𝑞𝑇 𝑞 𝑒𝑞 = 0, 𝑔 𝑥 = diag[𝑔𝑞 𝑞 , 𝑔𝜗 𝑞, 𝜗 ∈ ℝ 2𝑛−𝑚 [ 𝑘𝑞 (𝑞), 𝑘𝜗 (𝑞, 𝜗) ∈ ℝ 2𝑛−𝑚 ×2(𝑛−𝑚 ) ×2(𝑛−𝑚 ) 𝑇 , 𝑑 = [0 𝑛−𝑚 , 𝜏𝑚 𝑇 ∈ ℝ2(𝑛−𝑚 ) , 𝑘 𝑥 = diag Nếu luật điều khiển 𝑢∗ thiết kế để ổn định hệ kín (5.5) luật điều khiển 𝑢 có quan hệ với 𝑢∗ theo định nghĩa 4.2 ổn định hệ kín (5.3) Chứng minh: Phụ lục H Luận án 22 C R p(x, y, z) Gương cầu lồi 𝛾1 𝛾2 Ống thủy tinh H Máy tính Bộ điều nhúng khiển Bánh xe trước vật mốc p’(x’, y’) USB Camera f O Encoder Máy tính nhúng Bánh xe sau Mạch cơng suất Mạch vi xử lý P(x, y, z) Động DC (a) (c) (b) Hình 5.2: WMR thực nghiệm: a) Sơ đồ nguyên lý; b) Mặt sau robot; c) Mặt trước robot y o Y x x '2 x y x x Y1 X y y '2 y X2 Y2 o' y  x X1 O Các vật mốc: thứ nhất, thứ hai, thứ ba, thứ ba Hình 5.3: Ảnh qua hệ thống thị giác đa chiều Hình 5.4: Sơ đồ xác định tọa độ trọng tâm Mơ hình WMR thực nghiệm Mơ hình thực nghiệm WMR (H.5.2) gồm ba thành phần chính: khung robot, mạch điều khiển, hệ thống thị giác đa chiều (Omni-Directional Vision) gồm gương cầu lồi, camera phần mềm xử lý ảnh Hình ảnh thực tế qua hệ thống thị giác đa chiều biểu diễn H 5.3, đường thẳng trở thành đường cong Trên H.5.2(a), 𝑝′ (𝑥 ′ , 𝑦 ′ ) điểm ảnh mà camera thu từ điểm 𝑃(𝑥, 𝑦, 𝑧) (𝑧 ≡ 0) không gian thực qua phép chiếu điểm 𝑝(𝑥, 𝑦, 𝑧) gương cầu lồi với 𝛾1 , 𝛾2 góc tới phản xạ Trên H 5.4, qua xử lý ảnh phép ánh xạ, Q 𝜙 𝑊 𝜙 𝑊 𝑊 𝑉=𝑊 𝜙 tâm vật mốc chuẩn hệ 𝑞 , Luật cập nhật thích 𝜙 𝛾 𝑘(𝑥) 𝑔(𝑥) 𝑘(𝑥) nghi Luật nhiễu trục 𝑂𝑋𝑌 xác định Từ đó, (4.33) (4.31) 𝑑 𝑊 NN (4.24) công thức đổi hệ trục 𝑂𝑋𝑌 hệ Phương trình 𝑒 (5.5) Luật điều 𝑅 𝑘(𝑥) 1,  G, K WMR 𝑔(𝑥) khiển (4.30) 𝑔(𝑥) trục 𝑂𝑥𝑦 không gian thực 𝑢 (5.3) 𝑥 sử dụng để xác định tọa độ trọng tâm robot Hình 5.5:Sơ đồ cấu trúc điều khiển robot sử dụng ORADP 5.2 ĐIỀU KHIỂN ĐỘNG HỌC VÀ ĐỘNG LỰC HỌC 𝑑 𝑇 𝑒 𝑇 𝜗𝑟𝑑 𝑒 23 Giải thuật ORADP áp dụng cho WMR Các giả thiết động học phi tuyến WMR phù hợp với giả thiết hệ phi tuyến (1.2) [1], ORADP áp dụng Sơ đồ điều khiển với luật điều khiển động học động lực học tích hợp trình bày H 5.5 5.3 Mô 5.4 5.4.1 Quỹ đạo tham chiếu Quỹ đạo tham chiếu phát sinh vận tốc 𝜗𝑟𝑑 robot ảo chọn theo giả thiết khả vi liên tục định nghĩa 5.1: 𝐴1 cos 𝜔1 𝑡 𝜐𝑟𝑑 𝜗𝑟𝑑 = 𝜔 = 𝑟𝑑 + 𝐴2 cos 𝜔2 𝑡 𝐴1 𝜔 sin 𝜔 𝑡 𝐴2 cos 𝜔 𝑡 −𝐴2 𝜔 sin 𝜔 𝑡 𝐴1 cos 𝜔 𝑡 𝐴1 cos 𝜔 𝑡 + 𝐴2 cos 𝜔 𝑡 𝑟𝑎𝑑 𝑟𝑎𝑑 𝑚 𝑚 với 𝜔1 = 0.04( 𝑠 ), 𝜔2 = 0.02( 𝑠 ), 𝐴1 = 0.022( 𝑠 ), 𝐴2 = 0.02( 𝑠 ) Có 𝜗𝑟𝑑 dễ dàng phát sinh quỹ đạo online 𝑞𝑑 = 𝑥𝑑 , 𝑦𝑑 , 𝜃𝑑 𝑇 từ quan hệ 𝑞𝑑 = 𝑆(𝑞𝑑 )𝜗𝑟𝑑 với điều kiện đầu 𝑞𝑑 = 𝑥𝑑 (0), 𝑦𝑑 (0), 𝜃𝑑 (0) 𝑇 = 0.1, −0.6, 0.6 𝑇 5.4.2 Thiết lập tham số học Véc tơ trọng số NN định nghĩa 𝑊 = 𝑊1 , 𝑊2 , … , 𝑊15 𝑇 với giá trị khởi tạo không Hằng số học chọn 𝛼1 = 25 𝛼2 = 0.01 Véc tơ hàm tác động NN, 𝜙(𝑒) ∈ ℝ15 chọn sau: 𝜙(𝑒) = 𝑒𝑥2 , 𝑒𝑥 𝑒𝑦 , 𝑒𝑥 𝑒𝜃 , 𝑒𝑥 𝑒𝜐 , 𝑒𝑥 𝑒𝜔 , 𝑒𝑦2 , 𝑒𝑦 𝑒𝜃 , 𝑒𝑦 𝑒𝜐 , 𝑒𝑦 𝑒𝜔 , 𝑒𝜃2 , 𝑒𝜃 𝑒𝜐 , 𝑒𝜃 𝑒𝜔 , 𝑒𝜐2 , 𝑒𝜐 𝑒𝜔 , 𝑒𝜔2 𝑇 Chọn 𝑅 = 𝐼 ∈ ℝ4×4 , 𝑄 = 𝐼 ∈ ℝ5×5 𝛾 = Điều kiện PE (4.29) áp dụng cách thêm vào nhiễu 𝑒 −0.005𝑡 𝑟𝑎𝑛𝑑(𝑡) vào ngõ vào điều khiển rand(𝑡) hàm phát sinh tín hiệu ngẫu nhiên khoảng [-1,1] Xét robot với ký hiệu định nghĩa (5.3), thông số robot mô chọn trùng với thông số robot thực 𝑟1 = 0.05(𝑚), 𝑏1 = 0.35(𝑚) Lịch trình thay đổi W1 0.5 W2 W3 0.4 W5 W6 0.3 y (m) W W7 W8 0.2 WMR Tham chieáu 0.5 W4 -0.5 W9 -1 W10 0.1 W11 W12 -1.5 W13 -0.1 W14 500 1000 Time (s) W15 -2 1500 -0.5 0.5 x (m) Hình 5.7: Quá trình học điều khiển robot bám theo quỹ đạo tham chiếu x-y Hình 5.6: Sự hội tụ trọng số NN trình học điều khiển 24 WMR Tham chiếu WMR Tham chieáu 0.5 0.8 0.6 y (m) x (m) 0.4 0.2 -0.5 -1 -0.2 -1.5 -0.4 500 1000 -2 1500 500 Time (s) 1000 1500 Time (s) Hình 5.9: Quỹ đạo y trình học điều khiển Hình 5.8: Quỹ đạo x trình học điều khiển 0.03 WMR Tham chiếu WMR Tham chieáu 0.028 0.026 v (m/s)  (rad) 0.024 0.022 0.02 0.018 0.016 0.014 -1 500 1000 0.012 800 1500 900 1000 Time (s) Hình 5.10: Quỹ đạo góc quay  q trình học điều khiển 1100 1200 Time (s) 1300 1400 Hình 5.11: Vận tốc dài robot sau tham số hệ thống hội tụ 0.08 x 10 -3 1 WMR Tham chieáu 0.06 1500 2 0.02 1,2(N.m)  (rad/s) 0.04 * -0.02 -5 -0.04 -0.06 -0.08 800 900 1000 1100 1200 Time (s) 1300 1400 -10 800 1500 Hình 5.12: Vận tốc quay robot sau tham số hệ thống hội tụ 900 1000 1100 1200 Time (s) 1300 1400 1500 Hình 5.13: Mơ men điều khiển tối ưu sau tham số hệ thống hội tụ thông số kiểm tra 𝑀 = 10 → 20 → 40 → 10(𝑘𝑔), 𝐼 = → 10 → 15 → 5(𝑘𝑔 𝑚2 ) tương ứng với thời gian 𝑡 = (3 → → → 12) × 100 𝑠 Nhiễu 𝜏𝑚 giả lập khoảng ±3(𝑁 𝑚) Vị trí vận tốc khởi tạo WMR 𝑞 = [−0.65, −0.8,0]𝑇 , 𝜗 = [0, 0]𝑇 Tham số 𝑇 chọn 0.01(𝑠) 5.4.3 Kết mô Áp dụng giải thuật ORADP với tham số học chọn, trình dẫn đến hội tụ trọng số NN trình bày H 5.6, trọng số hội tụ sau 300(𝑠) Nhiễu theo điều kiện PE tắt sau đó, ví dụ sau 25 800(𝑠) Hình 5.7 biểu diễn cải thiện liên tục chất lượng bám theo quỹ đạo vị trí 𝑥 − 𝑦 WMR so với tham chiếu suốt trình học điều khiển Để đánh giá chất lượng bám trình học điều khiển, quỹ đạo bám 𝑥, 𝑦, 𝜃 trình bày H 5.8, 5.9 5.10 Chất lượng bám ban đầu kém, sau bị ảnh hưởng nhiễu, thay đổi khối lượng 𝑀 mô men quán tính 𝐼, sai số bám giảm dần giá trị nhỏ H 5.11 5.12 biểu diễn vận tốc robot thực nghiệm so với tham chiếu H 5.13 biểu diễn mô men điều khiển tối ưu 𝜏 ∗ sau tham số hệ thống hội tụ Ở thời điểm 0.5 0.5 WMR Tham chieáu -0.5 -0.5 WMR Tham chieáu y (m) y (m) -1 -1 -1.5 -1.5 -2 -0.5 x (m) 0.5 -2 -0.6 0.2 0.4 0.5 0.6 0.8 WMR Tham chieáu 0.4 0.2 -0.5 y (m) x (m) Hình 5.15: Quỹ đạo x-y robot thực nghiệm sau hội tụ WMR Tham chiếu 0.6 -0.2 x (m) Hình 5.14: Quỹ đạo x-y robot thực nghiệm 0.8 -0.4 -1 -0.2 -0.4 -1.5 -0.6 -0.8 500 1000 Time (s) 1500 -2 2000 Hình 5.16: Quỹ đạo theo phương x robot thực nghiệm 500 1000 Time (s) 1500 2000 Hình 5.17: Quỹ đạo theo phương y robot thực nghiệm 0.09 WMR Tham chieáu WMR Tham chieáu 0.08 0.07 0.06 v (m/s)  (rad) 0.05 0.04 0.03 0.02 0.01 0 500 1000 Time (s) 1500 2000 0 500 1000 Time (s) 1500 Hình 5.19: Vận tốc dài robot thực nghiệm Hình 5.18: Quỹ đạo theo phương  robot thực nghiệm 26 2000 tham số động lực học khối lượng mơ men qn tính robot thay đổi (giây thứ 1200), giá trị mô men bị dao động sau quay giá trị xác lập Mô men thực tế 𝜏 áp dụng cho WMR tính theo cơng thức định nghĩa 4.2 5.5 Thực nghiệm Sau mô thu trọng số NN xấp xỉ Do thiết lập thông số robot mô robot thực nên ta sử dụng giá trị làm trọng số khởi tạo NN cho giải thuật ORADP thực nghiệm Quá trình học điều khiển dẫn đến hội tụ vị trí bám robot thực nghiệm so với tham chiếu biểu diễn mặt phẳng 𝑥 − 𝑦 (H 5.14) chất lượng bám sau hội tụ (H 5.15) Vị trí theo phương x, y,  vận tốc dài robot thực nghiệm so với tham chiếu biểu diễn H 5.16, 5.17, 5.18 5.19 Trên hình vẽ ta thấy sử dụng trọng số NN khởi tạo, chất lượng bám ban đầu kém, sau liên tục cải thiện Mô men 𝜏 bánh trái phải robot thực nghiệm biểu diễn H 5.20 5.21 phù hợp với qui luật chuyển động robot bám online theo quĩ đạo tham chiếu chọn 7 6 2(N.m)  (N.m) 3 2 1 0 500 1000 Time (s) 1500 2000 Hình 5.20: Mơ men bánh trái thực nghiệm 500 1000 Time (s) 1500 2000 Hình 5.21: Mô men bánh phải thực nghiệm CHƢƠNG GIẢI THUẬT HỌC CỦNG CỐ ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG HỢP TÁC NHIỀU HỆ PHI TUYẾN MIMO 6.1 Lý thuyết đồ thị mơ hình hợp tác nhiều hệ phi tuyến MIMO 6.1.1 Đồ thị truyền thông phân tán Xét 𝑁 đối tượng hệ thống hợp tác Cấu hình hợp tác đặc trưng đồ thị có hướng 𝒢(𝒱, ℰ, 𝒜), tập nút 𝒱 = 𝑠0 , … , 𝑠𝑁 , với 𝑠0 nút dẫn đầu, tập cạnh 𝛤 ⊆ 𝒱 × 𝒱, ma trận trọng số kết nối 𝒜 = [𝑎𝑖𝑗 ] 𝑎𝑖𝑖 = 0, 27 𝑎𝑖𝑗 > 𝑎𝑖𝑗 ∈ 𝛤 𝑎𝑖𝑗 = 0, ngược lại Tập lân cận đối tượng 𝑆𝑖 ℕ𝑖 = 𝑆𝑗 ∈ 𝒱: (𝑠𝑖 , 𝑠𝑗 ) ∈ 𝛤 , ma trận Laplace ℒ = ℋ − 𝒜 ∈ ℝ 𝑁+1 ×(𝑁+1) ℋ = diag(𝑕𝑖 ) với 𝑕𝑖 = 𝑗 ∈ℕ𝑖 𝑎𝑖𝑗 6.1.2 Động học nút Xét hệ thống nhiều hệ phi tuyến MIMO hợp tác mô tả (1.3) 6.1.3 Mơ hình hợp tác nhiều hệ phi tuyến Qua biến đổi hệ (1.3), thu mơ hình hợp tác đồ thị truyền thông: 𝐸 = (ℒ + 𝑍) ⊗ 𝐼𝑛 +⋯𝑛 𝑚 𝐹𝑒 𝑡 + 𝐺 𝑋 𝑈∗ + 𝐾 𝑋 𝐷 𝐸 = 𝑒1𝑇 , … , 𝑒𝑁𝑇 𝑇 , 𝑋= 𝑥1𝑇 , … , 𝑥𝑁𝑇 𝑇 với 𝑒𝑖 , 𝑥𝑖 ∗ (6.1) sai số bám trạng ∗𝑇 thái hệ 𝑖 so với hệ dẫn đầu hệ lân cận 𝑗, 𝑈 = 𝑢1∗𝑇 , … , 𝑢𝑁 𝑇 với 𝑢𝑖∗ 𝑇 𝑇 𝑇 tín hiệu điều khiển hợp tác hệ 𝑖 𝐹𝑒 = [𝐹𝑒1 , …, 𝐹𝑒𝑁 ] 𝐹𝑒𝑖 véc tơ động học hợp tác khơng biết trước, 𝐺 = diag 𝐺1 , … , 𝐺𝑁 𝑇 𝐾𝑁 ] với 𝐺𝑖 𝐾𝑖 ma trận hợp tác, 𝐷 = 𝑇 𝑇 𝑑𝑖1 , … , 𝑑𝑖𝑚 6.2 𝑇 𝑇 , 𝐾 = diag[𝐾1 , … , 𝑇 𝑇 𝑑1𝑇 , … , 𝑑𝑁 với 𝑑𝑖 = ⊗ ký hiệu tích Kronecker Phân tích, thiết kế mở rộng giải thuật học củng cố ORADP 6.2.1 Học củng cố điều khiển hợp tác Mục tiêu tốn tìm luật điều khiển hợp tác 𝑢𝑖 , ∀𝑖 = 1, … , 𝑁, để hệ kín (6.1) ổn định tiệm cận thỏa mãn độ lợi 𝐿2 : ∞ ∞ 𝑄𝑖 𝑒𝑖 + 𝑢𝑖𝑇 𝑅𝑢𝑖 𝑑𝜏 ≤ 𝜌𝑖2 𝑑 𝑖 𝑑𝜏 (6.2) 𝑄𝑖 𝑒𝑖 hàm phi tuyến xác định dương cho 𝑄𝑖 = , 𝑅𝑖 ma trận đối xứng xác định dương có chiều phù hợp, 𝜌𝑖 ≥ 𝜌𝑖∗ > mức giảm ảnh hưởng nhiễu cho trước với 𝜌𝑖∗ giá trị nhỏ 𝜌𝑖 để (6.1) ổn định 6.2.2 Cấu trúc điều khiển luật cập nhật ORADP mở rộng Hàm đánh giá cho hệ thống thứ 𝑖: ∞ 𝑉𝑖 (𝑒𝑖 𝑡 ) = 𝑡 𝑄𝑖 𝑒𝑖 + 𝑢𝑖𝑇 𝑅𝑖 𝑢𝑖 − 𝜌𝑖2 𝑑 𝑖 𝑑𝜏 (6.3) Được xấp xỉ NN: 𝑉𝑖 (𝑒𝑖 ) = 𝑊𝑖𝑇 𝜙𝑖 (𝑒𝑖 ) Luật điều khiển luật nhiễu: 𝑇 𝑢𝑖 = − 𝑕𝑖 + 𝑧𝑖 𝑅𝑖−1 𝐺𝑖 𝑥𝑖 𝑇 𝜙𝑒𝑖 𝑊𝑖 𝑇 𝑑𝑖 = 2𝜌 𝑕𝑖 + 𝑧𝑖 𝐾𝑖𝑇 𝑥𝑖 𝜙𝑒𝑖 𝑊𝑖 𝑖 28 (6.4) (6.5) (6.6) Luật cập nhật trọng số NN: 𝑇 𝑊1𝑖 𝑛ế𝑢 𝑒𝑖(𝑡+𝑇) 𝑒𝑖(𝑡+𝑇) ≤ 𝑒𝑖𝑡𝑇 𝑒𝑖𝑡 , 𝑊𝑖 = 𝑡+𝑇 𝑡 𝛼 𝑡+𝑇 − 2𝑖 𝑡 𝑊1𝑖 − 𝛼 2𝑖 𝑕𝑖 + 𝑧𝑖 𝜙𝑒𝑖 𝐺𝑖 − 𝐾𝑖 𝑒𝑖 𝑑𝜏 𝑗 ∈ℕ𝑖 (6.7) 𝑎𝑖𝑗 𝑕𝑖 + 𝑧𝑖 𝜙𝑒𝑖 𝐺𝑖 − 𝐾𝑖 𝑒𝑗 𝑑𝜏 , 𝑛𝑔ượ𝑐 𝑙ạ𝑖 𝑇 𝑇 𝑒𝑖(𝑡+𝑇) = 𝑒𝑖 (𝑡 + 𝑇), 𝑒𝑖𝑡 = 𝑒𝑖 (𝑡), 𝐺𝑖 = 𝐺𝑖 𝑅−1 𝑖 𝐺𝑖 , 𝐾𝑖 = 𝐾𝑖 𝐾𝑖 /𝜌𝑖 , 𝑊1𝑖 = −𝛼1𝑖 × 𝜎𝑖𝑇 𝑊1𝑖 + 𝜎𝑖 = 𝜎𝑖 𝜎𝑖𝑇 𝜎 𝑖 +1 𝑡+𝑇 𝑄𝑖 𝑡 𝑡+𝑇 𝜙𝑒𝑖 𝑡 𝑒𝑖 + (6.8) 𝑇 𝑕𝑖 + 𝑧𝑖 𝑊1𝑖𝑇 𝜙𝑒𝑖 𝐺𝑖 − 𝐾𝑖 𝜙𝑒𝑖 𝑊1𝑖 𝑑𝜏 𝑒𝑖 𝑑𝜏 = 𝜙𝑖 𝑒𝑖 (𝑡 + 𝑇) − 𝜙𝑖 𝑒𝑖 (𝑡) = ∆𝜙𝑖 𝑒𝑖 (𝑡) (6.9) Sử dụng phương trình xây dựng sơ đồ cấu trúc điều khiển (H 6.1) cho hệ thống thứ 𝑖 Chú ý đại lượng mang số 𝑗, ∀𝑗 ∈ ℕ𝑖 , biểu thị luồng thông tin từ hệ thống 𝑗 đến hệ thống lân cận 𝑖 Wˆ j ej G j , K j x0 Ki e j ki ( xi ) Luật nhiễu Gi Phương trình (6.1) ei gi ( xi ) (6.6) dî Luật điều khiển (6.5) Ri uî i eiT Wî i Luật cập nhật NN online (6.7) Qi G , K i xi , j (t ) Wî Wî ei Vî  WîT i Wˆ i NN (6.4) 1 ,2 i dˆ j ˆ uj Hệ phi tuyến i,j ki , j ( x ) (1.3) đồ thị truyền thông gi , j ( x ) Hình 6.1: Cấu trúc ORADP mở rộng điều khiển hợp tác nhiều hệ phi tuyến 6.2.3 Giải thuật ORADP mở rộng Các bước lặp giải thuật ORADP mở rộng áp dụng cho đối tượng thứ 𝑖: Giải thuật 6.1: ORADP mở rộng Bước 1: Với đối tượng 𝑖: chọn ma trận trọng số cho hàm tiêu chất lượng 𝑄𝑖 , 𝑅𝑖 ; chọn véc tơ hàm tác động 𝜙𝑖 (𝑒), nhiễu 𝜉𝑖 theo điều kiện PE tương tự (4.29), khởi tạo trọng số 𝑊𝑖 (0) = 0, cho NN hàm đánh giá, gán 𝑉𝑖 (0) (0) = 𝑢𝑖 (0) = 𝑑𝑖 = 0, chọn hệ số thích nghi 𝛼1𝑖 , 𝛼2𝑖 , bước lặp dừng giải thuật 𝑙𝑠𝑡𝑜𝑝 Chọn 𝛿 số dương đủ nhỏ để tắt nhiễu PE Gán 𝑙 = Bước 2: (𝑙) (𝑙) (𝑙) (𝑙)  Cộng nhiễu 𝜉𝑖 với tín hiệu ngõ vào: 𝑢𝑖 ⟵ 𝑢𝑖 + 𝜉𝑖 , 𝑑𝑖 ⟵ 𝑑𝑖 + 𝜉𝑖 để kích thích hệ thống  Đối tượng dẫn đầu phát sinh quỹ đạo tham chiếu 𝑥0 29  Tính sai số bám hợp tác sử dụng phương trình từ (6.1)  Cập nhật đồng thời trọng số NN 𝑊𝑖 (𝑙+1) theo (6.7), tham số luật điều khiển theo (6.5), luật nhiễu theo (6.6) hàm đánh giá theo (6.4): (𝑙+1) 𝑢𝑖 𝑇 = − 𝑅𝑖−1 𝑔𝑖 𝑥 𝑇 𝜙𝑒𝑖 (𝑒)𝑊𝑖 (𝑙+1) 𝑑𝑖 Bước 3: Nếu 𝑉𝑖 (𝑙) − 𝑉𝑖 (𝑙+1) 𝑉𝑖 = 2𝜌 (𝑙+1) 𝑖 𝑇 𝑘𝑖 𝑥 𝑇 𝜙𝑒𝑖 (𝑒)𝑊𝑖 𝑙+1 𝑇 = 𝑊𝑖 (𝑙+1) (𝑙+1) 𝜙𝑖 (𝑒) < 𝛿 gán 𝜉𝑖 = Nếu 𝑙 ≤ 𝑙𝑠𝑡𝑜𝑝 gán 𝑙 ⟵ 𝑙 + 1, quay lại Bước 2, ngược lại gán 𝑉𝑖 = 𝑉𝑖 (𝑙+1) (𝑙+1) , 𝑢𝑖 = 𝑢𝑖 (𝑙+1) 𝑑𝑖 = 𝑑𝑖 dừng 6.3 Đồng hóa đội hình robot bầy đàn ORADP mở rộng 6.3.1 Mơ hình robot bầy đàn Mơ hình robot bầy đàn có dạng (6.1) thành lập cách tích hợp phương trình robot đơn (5.3b) vào động học nút đồ thị truyền thông 𝒢(𝒱, ℰ, 𝒜) 6.3.2 Áp dụng giải thuật ORADP đồng hóa đội hình robot bầy đàn Các giả thiết động học robot phù hợp với giả thiết hệ phi tuyến MIMO (1.3), giải thuật 6.1 Hình 6.2: Đồ thị truyền thơng robot áp dụng cho robot bầy đàn [2] 6.3.3 Mơ Hình 6.2 trình bày cấu hình điều khiển đồng ba robot Cách trao đổi thông tin robot biểu diễn đường mũi tên Robot bám theo robot tham chiếu, robot lại giữ khoảng cách với nhau: ∆𝑖𝑗 = [∆𝑥𝑖𝑗 , ∆𝑦𝑖𝑗 , ∆𝜃𝑖𝑗 ]𝑇 ∆𝑥12 = 𝑥1 − 𝑥2 = 0.5𝑚, ∆𝑦12 = 𝑦1 − 𝑦2 = 0, ∆𝜃12 = 𝜃1 − 𝜃2 = 0, ∆𝑥23 = 𝑥2 − 𝑥3 = 1.0𝑚, ∆𝑦23 = 𝑦2 − 𝑦3 = 0, ∆𝜃23 = 𝜃2 − 𝜃3 = Các thông số khác chọn tương tự WMR đơn phần trước Sự hội tụ trọng số NN robot 1, 2, trình bày H 6.3 Hình 6.4(a) biểu diễn sai số bám vị trí q trình điều khiển đồng hóa đội hình H 6.4(b) biểu diễn quỹ đạo vị trí 𝑥 − 𝑦 đội hình đồng sau hội tụ Sai số bám vận tốc dài vận tốc quay biểu diễn H 6.5(a) H 6.5(b) Ta thấy sai số bám vị trí vận tốc có giá trị nhỏ hội tụ Mơ men điều khiển có nhiễu theo PE biểu diễn H 6.6 hội tụ cho giá trị xấp xỉ tối ưu 30 0.6 0.5 0.3 0.5 0 -0.3 -0.5 200 400 600 800 -0.6 200 400 600 -0.5 800 200 400 600 800 Hình 6.3: Quá trình hội tụ trọng số NN: a) WMR1; b) WMR2; c) WMR3 1.5 1 0.5 0 -1 -0.5 0.1 -0.1 300 -2 -3 200 -1 400 500 400 600 700 600 -1.5 -2 800 -1 Hình 6.4: Chất lượng bám vị trí đội hình: a) Sai số bám; b) Quĩ đạo bám x-y 4 2 0 0.5 0.5 -2 -0.5 300 -4 200 -2 400 400 500 600 600 -0.5 300 700 800 -4 200 400 500 400 600 600 700 800 Hình 6.5: Sai số bám vận tốc robot: a) Vận tốc dài; b) Vận tốc quay 30 400 20 -400 100 50 100 150 10 0 -100 150 25 200 250 300 -10 -20 -25 550 600 650 700 -30 790 795 Hình 6.6: Mơ men điều khiển đội hình robot sau hội tụ 31 800 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN A Kết luận Giải thuật học củng cố OADP (qui hoạch động thích nghi online) ORADP (qui hoạch động thích nghi bền vững online) phân tích thiết kế Các giải thuật với NN khắc phục hạn chế tốc độ hội tụ, chi phí tính tốn tài ngun lưu trữ so với giải thuật học củng cố ADP chuẩn sử dụng hai ba xấp xỉ hàm Luật cập nhật trọng số NN thiết kế cho khơng bảo đảm tối thiểu hàm chi phí, tham số hội tụ giá trị cận tối ưu mà cịn bảo đảm tồn trạng thái hệ kín sai số xấp xỉ bị chặn theo tiêu chuẩn UUB Trong giải thuật ORADP, trọng số NN, tham số luật điều khiển tối ưu luật nhiễu xấu cập nhật đồng thời liên tục bước lặp nhằm tăng tốc độ hội tụ Ngồi ra, giải thuật khơng địi hỏi luật điều khiển ổn định chọn trước để khởi động trình Giải thuật ORADP ứng dụng để điều khiển robot di động dạng xe, đối tượng phi tuyến có chứa tham số khơng thể cấu trúc mơ hình hóa Với ORADP, việc chia tách điều khiển động học động lực học cho robot không cần thiết Ngoài ra, hàm tiêu chất lượng cho robot tối thiểu Cuối cùng, ORADP mở rộng để điều khiển thích nghi bền vững hợp tác cho nhiều hệ phi tuyến MIMO với ứng dụng đồng hóa robot bầy đàn B Hƣớng phát triển Giải thuật học củng cố điều khiển thích nghi bền vững nghiên cứu phát triển luận án giảm bớt khoảng cách lĩnh vực học máy điều khiển Tuy nhiên, so với hệ thống điều khiển thông minh ngày phát triển kết trình bày cịn khiêm tốn nhiều hướng cần phát triển:  Mở rộng ORADP cho hệ phi tuyến tổng quát hơn: hệ phi tuyến khơng biết trước tồn thành phần động học, trước cấu trúc  Mở rộng ORADP để phát triển lý thuyết điều khiển hệ phi tuyến hồi tiếp ngõ  Mở rộng ORADP học củng cố phân cấp, để tăng tốc độ hội tụ Thực nghiệm ORADP hệ thống nhiều robot hợp tác, đối tượng bầy đàn khác  Tích hợp cơng nghệ sinh học vào ORADP để tăng khả ứng dụng 32 DANH MỤC CƠNG TRÌNH ĐÃ CƠNG BỐ [1] Luy N.T., Thanh N.T., and Tri H.M (2014), Reinforcement learning-based intelligent tracking control for wheeled mobile robot, Transactions of the Institute of Measurement and Control, (SCIE), 36(7), pp 868-877 [2] Luy N.T., Thanh N.T., and Tri, H.M (2013), Reinforcement learning-based robust adaptive tracking control for multi-wheeled mobile robots synchronization with optimality, IEEE Workshop on Robotic Intelligence In Informationally Structured Space, pp 74-81 [3] Luy N.T (2012), “Reinforcement learning-based tracking control for wheeled mobile robot,” IEEE International Conference on Systems, Man, and Cybernetics (SMC), pp 462467 [4] Luy N.T (2012), Reinforcement learning-based optimal tracking control for wheeled mobile robot, IEEE International Conference on Cyber Technology in Automation, Control, and Intelligent Systems, pp 371-376 [5] Luy N.T., Thanh N.D., Thanh, N.T., and Ha, N.T.P (2010), Robust Reinforcement Learning-Based Tracking Control for Wheeled Mobile Robot, IEEE International Conference on Computer and Automation Engineering, 1, pp 171-176 [6] Nguyễn Tấn Lũy, Nguyễn Thiện Thành, Nguyễn Thị Phương Hà (2010), “Điều khiển thích nghi bền vững sử dụng học củng cố cho hệ phi tuyến có ngõ vào bị ràng buộc bão hịa,” Tạp chí khoa học cơng nghệ trường đại học kỹ thuật, số 75, trang 36-43 [7] Luy N.T., Thanh N.T., and Ha N.T.T P (2009), Robust adaptive control using reinforcement learning for nonlinear system with input constraints, Journal of Science and Technology Development – Vietnam National University- Ho Chi Minh City, 12, pp 5-18 [8] Nguyễn Thị Phương Hà, Nguyễn Thiện Thành, Nguyễn Tấn Lũy (2008), “Nghiên cứu xấp xỉ hàm học giám sát học củng cố,” Tạp chí khoa học công nghệ trường đại học kỹ thuật, số 68, trang 16-21 TÀI LIỆU THAM KHẢO [9] Jiang Y (2014), Robust adaptive dynamic programming for continuous-time linear and nonlinear system, PhD Thesis, New York Polytechnic University, New York [10] Marvin K.B., Simon G.F., and Liberato C (2009), “Dual adaptive dynamic control of mobile robots using neural networks,” IEEE Trans Syst., Man, Cybern., B Cybern., 39(1), pp 129-141 [11] Mohareri O., Dhaouadi R., and Rad, A.B (2012), “Indirect adaptive tracking control of a nonholonomic mobile robot via neural networks,” Neurocomputing, 88, pp 54–66 [12] Vamvoudakis K.G., and Lewis F.L (2011), “Online actor-critic algorithm to solve the continuous-time infinite horizon optimal control problem,” Automatica, vol 46, pp 878888 [13] Vamvoudakis K.G (2011), Online learning algorithms for differential dynamic games and optimal control, Ph.D Thesis, Univ of Texas at Arlington [14] Vamvoudakis K.G., and Lewis F.L (2012), “Online solution of nonlinear two-player zerosum games using synchronous policy iteration,” Int J Robust and Nonlinear Control, vol 22, no 13, pp 1460–1483 [15] Vamvoudakis K.G., Vrabie D., and Lewis F.L (2011), “Online learning algorithm for zero- [16] [17] [18] [19] [20] sum games with integral reinforcement learning,” Journal of Artificial Intelligence and Soft Computing Research, 1(4), pp 315-332 Van der Schaft A.J (1992) “𝐿2 -gain analysis of nonlinear systems and nonlinear state feedback 𝐻∞ control,” IEEE Trans on Autom Contr., vol 37, no 6, pp 770-784 Wu W.H., and Biao L (2012), “Neural network based online simultaneous policy update algorithm for solving the HJI equation in nonlinear H∞ control,” IEEE Trans Neur Netw Learn Syst., 23(12), pp 1884 –1895 Wenjie D., and Kuhnert K.D (2005), “Robust adaptive control of nonholonomic mobile robot with parameter and nonparameter uncertainties,” IEEE Trans Robotics, 21(2), pp 261-266 Yang X., Liu D., and Wei Q (2014), “Online approximate optimal control for affine nonlinear systems with unknown internal dynamics using adaptive dynamic programming,” IET Control Theory and Applications, 8(16), pp 1676-1688 Zargarzadeh H., Dierks T., and Jagannathan S (2014), “Adaptive neural network-based optimal control of nonlinear continuous-time systems in strict feedback form,” Int J Adaptive Control and Signal Processing, 28, pp 305-324 ... học củng cố xấp xỉ hàm Chương phân tích thiết kế giải thuật học củng cố điều khiển tối ưu hệ phi tuyến Chương phân tích thiết kế giải thuật học củng cố điều khiển thích nghi bền vững hệ phi tuyến. .. nghi? ?n cứu phát triển giải thuật học củng cố khắc phục hạn chế nêu cần thiết 1.2.3 Mục tiêu nghi? ?n cứu Mục tiêu nghi? ?n cứu luận án phân tích thiết kế giải thuật học củng cố điều khiển thích nghi bền. .. Chương mô thực nghi? ??m robot di động dạng xe áp dụng giải thuật học củng cố điều khiển thích nghi bền vững Chương mở rộng giải thuật thích nghi bền vững để điều khiển hợp tác nhiều hệ phi tuyến MIMO,