1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn Khoa học ĐỘC QUYỀN: Nghiên cứu, thiết kế chế tạo hệ thống điều khiển thông minh cho robot di động dạng xe bám quỹ đạo tham chiếu

63 17 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 63
Dung lượng 762,94 KB
File đính kèm NGHIÊN CỨU, THIẾT KẾ ROBOT WMR.rar (544 KB)

Nội dung

Dịch vụ thành lập Thay đổi Giấy phép kinh doanh cty Việt Nam cty vốn FDI Tuyển Cộng tác viên (CK 15% gói Dịch vụ) 0899315716 MỤC LỤC DANH MỤC CÁC HÌNH ẢNH viii DANH MỤC CÁC BẢNG BIỂU x DANH MỤC CÁC TỪ VIẾT TẮT xi DANH MỤC CÁC KÝ HIỆU xiii CHƯƠNG 1 GIỚI THIỆU 1 1.1 Tổng quan về đề tài 1 1.1.1 Phương pháp điều khiển robot di động dạng xe (WMR) 1 1.1.2 Khái niệm về học củng cố 2 1.2 Động cơ, mục tiêu và nhiệm vụ nghiên cứu 4 1.2.1 Sự cần thiết phải nghiên cứu RL trong điều khiển WMR 4 1.2.2 Tính cấp thiết của đề tài 5 1.2.3 Mục tiêu nghiên cứu 7 1.2.4 Nhiệm vụ nghiên cứu 8 1.3 Đối tượng, phạm vi và phương pháp nghiên cứu 8 1.3.1 Đối tượng và phạm vi nghiên cứu 8 1.3.2 Phương pháp nghiên cứu 8 1.4 Những đóng góp mới của báo cáo về mặt khoa học 9 1.5 Bố cục báo cáo 9 CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 11 2.1 Các định nghĩa 11 2.2 Lý thuyết RL 11 2.3 Các thuật toán RL thông dụng 13 2.3.1 Thuật toán VI 13 2.3.2 Thuật toán PI 14 2.3.3 Thuật toán QLearning (Q) 15 2.4 Tóm tắt 17 CHƯƠNG 3 PHƯƠNG PHÁP ORADP ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG .. ...............................................................................................................18 3.1 Điều khiển tối ưu H∞ và phương trình HJI ...........................................................19 3.1.1 Mô tả bài toán điều khiển 19 3.1.2 Phương trình HJI 20 3.1.3 Phương trình và nghiệm HJI xấp xỉ 22 3.2 Phương pháp ORADP 25 3.2.1 Cấu trúc điều khiển ORADP và luật cập nhật tham số 26 3.2.2 Thuật toán điều khiển ORADP 31 3.3 Phân tích ổn định và hội tụ của ORADP 32 3.4 Tóm tắt 38 CHƯƠNG 4 ÁP DỤNG ORADP ĐIỀU KHIỂN ROBOT DI ĐỘNG 39 4.1 Mô hình phi tuyến WMR 39 4.2 Mô hình WMR thực nghiệm 45 4.3 Phương pháp ORADP áp dụng cho WMR 49 4.4 Mô phỏng WMR sử dụng ORADP 52 4.4.1 Quỹ đạo tham chiếu 52 4.4.2 Thiết lập tham số học 53 4.4.3 Kết quả mô phỏng 54 4.5 Kết quả thực nghiệm 55 4.6 Tóm tắt 67 CHƯƠNG 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 68 5.1 Kết luận 68 5.2 Hướng phát triển 68 TÀI LIỆU THAM KHẢO 70 PHỤ LỤC A MẠNG RBF DÙNG ĐỂ XÁC ĐỊNH KHOẢNG CÁCH THỰC 74 DANH MỤC CÁC HÌNH ẢNH Hình 1.1: Minh họa về học củng cố 3 Hình 2.1: Nguyên lý qui hoạch động Bellman và hàm đánh giá tối ưu 13 Hình 3.1: Cấu trúc điều khiển ORADP 25 Hình 3.2: Cấu trúc điều khiển ORADP sử dụng một NN 30 Hình 4.1: Mô hình robot di động dạng xe (WMR) 39 Hình 4.6: Sơ đồ điều khiển sử dụng ORADP cho WMR 50 Hình 4.7: Lịch trình thay đổi khối lượng robot trong quá trình điều khiển 52 Hình 4.8: Lịch trình thay đổi mô men quán tính robot trong quá trình điều khiển 52 Hình 4.9: Sự hội tụ của trọng số NN trong quá trình học điều khiển 57 Hình 4.10: Quá trình học và sự hội tụ quỹ đạo x  y 57 Hình 4.11: Sai số bám vị trí trong quá trình học điều khiển 58 Hình 4.12: Quỹ đạo x  y với luật điều khiển hội tụ 58 Hình 4.13: Chất lượng bám tối ưu với luật điều khiển hội tụ sau 800 s 58 Hình 4.14: Quỹ đạo x trong quá trình học điều khiển 59 Hình 4.15: Quỹ đạo y trong quá trình học điều khiển 59 Hình 4.16: Quỹ đạo góc quay  trong quá trình học điều khiển 59 Hình 4.17: Quỹ đạo vận tốc quay trong quá trình học điều khiển 60 Hình 4.18: Quỹ đạo vận tốc quay sau khi hội tụ 60 Hình 4.19: Sai số bám vận tốc quay trong quá trình học điều khiển 60 Hình 4.20: Quỹ đạo vận tốc dài trong quá trình học điều khiển 61 Hình 4.21: Quỹ đạo vận tốc dài sau khi hội tụ 61 Hình 4.22: Sai số bám vận tốc dài trong quá trình học điều khiển 61 Hình 4.23: Mô men xấp xỉ  trong quá trình học 62 Hình 4.24: Mô men  tối ưu hội tụ 62 Hình 4.25: Robot thực nghiệmquá trình học trên và sự hội tụ quỹ đạo x  y 63 Hình 4.26: Quỹ đạo thực nghiệm x  y với luật điều khiển hội tụ 63 Hình 4.27: Sai số bám vị trí của robot thực nghiệm trong quá trình học 63 Hình 4.28: Quỹ đạo x của robot thực nghiệm trong quá trình học 64 Hình 4.29: Quỹ đạo y của robot thực nghiệm trong quá trình học 64 Hình 4.30: Quỹ đạo góc quay  robot thực nghiệm trong quá trình học 64 Hình 4.31: Quỹ đạo vận tốc quay trong quá trình học của robot thực nghiệm 65 Hình 4.32: Sai số bám vận tốc quay trong quá trình học 65 Hình 4.33: Quỹ đạo vận tốc dài trong quá trình học 65 Hình 4.34: Sai số bám vận tốc dài trong quá trình học 66 Hình 4.35: Mô men điều khiển bánh phải (1) 66 Hình 4.36: Mô men điều khiển bánh trái (2) 66 Hình A.1. Tập mẫu ngõ vào đo trong không gian ảnh 74 Hình A.2. Tập mẫu ngõ ra mong muốn đo trong không gian thực 74 Hình A.3. Kết quả huấn luyện RBF so với mẫu mong muốn 75 Hình A.4. Ngõ ra của RBF so với mong muốn biểu diễn theo X (cm)Y (pixel) 75 DANH MỤC CÁC BẢNG BIỂU Thuật toán 2.1: VI 13 Thuật toán 2.2: PI 14 Thuật toán 2.3: QLearning 16 Thuật toán 3.1: ORADP 31 Thuật toán 4.1: ORADP áp dụng cho WMR 51 DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Thuật ngữ tiếng anh Giải thích AC ActorCritic Cấu trúc điều khiển ActorCritic trong học củng cố gồm hai NN: Mạng critic xấp xỉ hàm đánh giá tối ưu, mạng actor xấp xỉ luật điều khiển tối ưu ADP Adaptive Dynamic Programming Qui hoạch động thích nghi, một phương pháp học củng cố để xấp xỉ luật điều khiển tối ưu online ADP3NN ADP with three NNs Cấu trúc điều khiển ADP với ba NN ANN Actor Neural Network NN actor đóng vai trò bộ điều khiển trong cấu trúc AC ARE Algebraic Riccati Equation Phương trình đại số Riccati CNN Critic Neural Network NN critic đóng vai trò xấp xỉ hàm đánh giá trong cấu trúc AC COD Curse of Dimensionality Sự bùng nổ tổ hợp không gian trạng thái DP Dynamic Programming Qui hoạch động HJB HamiltonJacobiBellman HJI HamiltonJacobiIsaacs MLP MultiLayer Perceptron NN truyền thẳng nhiều lớp NRBF Normalized Radial Basis Function NN có hàm cơ sở xuyên tâm được chuẩn hóa ORADP Online Robust Adaptive Dynamic Programming Qui hoạch động thích nghi bền vững online: một phương pháp học củng cố được đề xuất trong báo cáo để tìm luật điều khiển tối ưu thích nghi bền vững online PE Persistence of Excitation Kích thích hệ thống bằng cách thêm nhiễu vào véc tơ tín hiệu vàora. PE là điều kiện để tham số hội tụ trong nhận dạng và điều khiển thích nghi. PI Policy Iteration Thuật toán của học củng cố sử dụng một số bước lặp để xấp xỉ luật điều khiển tối ưu RL Reinforcement Learning Học củng cố SISO Single InputSingle Output Hệ thống một ngõ vào một ngõ ra TD Temporal Difference Sai phân tạm thời: phương pháp cập nhật tham số của bộ dự báo liên quan đến sai phân tín hiệu theo thời gian sử dụng trong học củng cố UUB Uniform Ultimate Bounded Bị chặn tới hạn đều VI Value Iteration Thuật toán của học củng cố sử dụng một số bước lặp để xấp xỉ hàm đánh giá tối ưu WMR Wheeled Mobile Robot Robot di động dạng xe ZDGT Zerosum Differential Game Theory Lý thuyết trò chơi sai phân tổng bằng không ứng dụng trong lý thuyết điều khiển tối ưu

BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP TRƯỜNG NGHIÊN CỨU, THIẾT KẾ CHẾ TẠO HỆ THỐNG ĐIỀU KHIỂN THÔNG MINH CHO ROBOT DI ĐỘNG DẠNG XE BÁM QUĨ ĐẠO THAM CHIẾU Mã số: Chủ nhiệm đề tài: TP HỒ CHÍ MINH, Năm 20 THÔNG TIN KẾT QUẢ NGHIÊN CỨU ĐỀ TÀI KHOA HỌC VÀ CƠNG NGHỆ CẤP TRƯỜNG Thơng tin chung: - Tên đề tài: Nghiên cứu, thiết kế chế tạo hệ thống điều khiển thông minh cho robot di động dạng xe bám quĩ đạo tham chiếu - Mã số: - Chủ nhiệm đề tài: Điện thoại: Email: - Đơn vị quản lý chuyên môn (Khoa, Tổ môn): Khoa Công nghệ Điện tử - Thời gian thực hiện: Từ …/20… đến …/20… Mục tiêu: - Nghiên cứu, thiết kế chế tạo hệ thống điều khiển thông minh cho robot di động dạng xe - Sản phẩm nghiên cứu mơ hình đào tạo tiên tiến cho sinh viên chuyên ngành Tự động hóa với giá thành thấp - Công cụ tảng để nghiên cứu phát triển dự án sản xuất robot công nghiệp Nội dung chính: - Đề xuất luật điều khiển thơng minh cho robot Thiết kế chế tạo mơ hình robot di động dạng xe với hệ thống thị giác máy tính đa chiều - Áp dụng luật điều khiển thông minh để mô thực nghiệm cho robot Kết đạt Đóng góp mặt khoa học đề tài thể hiện: Bài báo khoa học Tạp chí quốc tế (ISI): N T Luy, N T Thanh, and H M Tri, “Reinforcement learning-based intelligent tracking control for wheeled mobile robot,” Transactions of the Institute of ii Measurement and Control, (ISI), vol 36, no 7, pp 868-877, 2014 Mơ hình robot di động dùng để giảng dạy thí nghiệm cho sinh viên chuyên ngành tự động hóa trường Đại học Cơng Nghiệp Tp Hồ Chí Minh với giá thành thấp TĨM TẮT BÁO CÁO Báo cáo trình bày nội dung nghiên cứu, thiết kế chế tạo hệ thống điều khiển thông minh cho robot di động (WMR) Bộ điều khiển thơng minh phân tích thiết kế dựa vào qui hoạch động thích nghi (Adaptive Dynamic Programming-ADP) mạng thần kinh nhân tạo (Neural Network-NN) để trở thành điều khiển qui hoạch động thích nghi bền vững online (Online Robust Adaptive Dynamic ProgrammingORADP) So với phương pháp điều khiển thích nghi bền vững khác cho WMR, ORADP báo cáo có ưu điểm Thứ nhất, việc chia tách điều khiển động học (Kinematic) động lực học (Dynamic) sử dụng phổ biến điều khiển thích nghi cho WMR trở nên khơng cần thiết, từ đó, tránh phụ thuộc vào kinh nghiệm người thiết kế lựa chọn tham số cho điều khiển động học Thứ hai, sử dụng ORADP, thông tin thành phần động khơng chắn, khơng cấu trúc khơng mơ hình hóa WMR khơng cần nhận dạng thiết kế luật điều khiển Cuối cùng, với ORADP hàm chi tiêu chất lượng có liên quan đến sai số bám động học lẫn động lực học tối thiểu Kết nghiên cứu thu từ mô số cho thấy ORADP có khả đạt mục tiêu đề Mơ hình thực nghiệm cho WMR thiết kế thi cơng, thị giác máy tính đa chiều sử dụng để xác định vị trí vận tốc dài Chất lượng điều khiển ổn định hệ kín WMR thực nghiệm áp dụng phương pháp ORADP cho thấy tính hiệu phương pháp đề xuất MỤC LỤC DANH MỤC CÁC HÌNH ẢNH viii DANH MỤC CÁC BẢNG BIỂU x DANH MỤC CÁC TỪ VIẾT TẮT xi DANH MỤC CÁC KÝ HIỆU xiii CHƯƠNG GIỚI THIỆU 1.1 Tổng quan đề tài 1.1.1 Phương pháp điều khiển robot di động dạng xe (WMR) 1.1.2 Khái niệm học củng cố 1.2 Động cơ, mục tiêu nhiệm vụ nghiên cứu 1.2.1 Sự cần thiết phải nghiên cứu RL điều khiển WMR 1.2.2 Tính cấp thiết đề tài 1.2.3 Mục tiêu nghiên cứu 1.2.4 Nhiệm vụ nghiên cứu 1.3 Đối tượng, phạm vi phương pháp nghiên cứu 1.3.1 Đối tượng phạm vi nghiên cứu 1.3.2 Phương pháp nghiên cứu 1.4 Những đóng góp báo cáo mặt khoa học 1.5 Bố cục báo cáo CHƯƠNG CƠ SỞ LÝ THUYẾT 11 2.1 Các định nghĩa 11 2.2 Lý thuyết RL 11 2.3 Các thuật tốn RL thơng dụng 13 2.3.1 Thuật toán VI 13 2.3.2 Thuật toán PI 14 2.3.3 Thuật toán Q-Learning (Q) 15 2.4 Tóm tắt 17 CHƯƠNG PHƯƠNG PHÁP ORADP ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG 18 3.1 Điều khiển tối ưu H∞ phương trình HJI 19 3.1.1 Mô tả toán điều khiển 19 3.1.2 Phương trình HJI 20 3.1.3 Phương trình nghiệm HJI xấp xỉ 22 3.2 Phương pháp ORADP 25 3.2.1 Cấu trúc điều khiển ORADP luật cập nhật tham số 26 3.2.2 Thuật toán điều khiển ORADP 31 3.3 Phân tích ổn định hội tụ ORADP 32 3.4 Tóm tắt 38 CHƯƠNG ÁP DỤNG ORADP ĐIỀU KHIỂN ROBOT DI ĐỘNG 39 4.1 Mơ hình phi tuyến WMR 39 4.2 Mơ hình WMR thực nghiệm .45 4.3 Phương pháp ORADP áp dụng cho WMR 49 4.4 Mô WMR sử dụng ORADP 52 4.4.1 Quỹ đạo tham chiếu .52 4.4.2 Thiết lập tham số học .53 4.4.3 Kết mô 54 4.5 Kết thực nghiệm 55 4.6 Tóm tắt 67 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 68 5.1 Kết luận 68 5.2 Hướng phát triển .68 TÀI LIỆU THAM KHẢO 70 PHỤ LỤC A MẠNG RBF DÙNG ĐỂ XÁC ĐỊNH KHOẢNG CÁCH THỰC 74 DANH MỤC CÁC HÌNH ẢNH Hình 1.1: Minh họa học củng cố Hình 2.1: Nguyên lý qui hoạch động Bellman hàm đánh giá tối ưu 13 Hình 3.1: Cấu trúc điều khiển ORADP 25 Hình 3.2: Cấu trúc điều khiển ORADP sử dụng NN 30 Hình 4.1: Mơ hình robot di động dạng xe (WMR) .39 Hình 4.6: Sơ đồ điều khiển sử dụng ORADP cho WMR 50 Hình 4.7: Lịch trình thay đổi khối lượng robot trình điều khiển 52 Hình 4.8: Lịch trình thay đổi mơ men qn tính robot q trình điều khiển .52 Hình 4.9: Sự hội tụ trọng số NN trình học điều khiển 57 Hình 4.10: Quá trình học hội tụ quỹ đạo x − y 57 Hình 4.11: Sai số bám vị trí q trình học điều khiển .58 Hình 4.12: Quỹ đạo x − y với luật điều khiển hội tụ 58 Hình 4.13: Chất lượng bám tối ưu với luật điều khiển hội tụ sau 800 s .58 Hình 4.14: Quỹ đạo x trình học điều khiển .59 Hình 4.15: Quỹ đạo y trình học điều khiển .59 Hình 4.16: Quỹ đạo góc quay θ trình học điều khiển .59 Hình 4.17: Quỹ đạo vận tốc quay trình học điều khiển 60 Hình 4.18: Quỹ đạo vận tốc quay sau hội tụ 60 Hình 4.19: Sai số bám vận tốc quay trình học điều khiển 60 Hình 4.20: Quỹ đạo vận tốc dài trình học điều khiển 61 Hình 4.21: Quỹ đạo vận tốc dài sau hội tụ 61 Hình 4.22: Sai số bám vận tốc dài trình học điều khiển .61 Hình 4.23: Mơ men xấp xỉ τ* q trình học 62 Hình 4.24: Mơ men τ* tối ưu hội tụ 62 Hình 4.25: Robot thực nghiệm-quá trình học hội tụ quỹ đạo x − y 63 Hình 4.26: Quỹ đạo thực nghiệm x − y với luật điều khiển hội tụ .63 Hình 4.27: Sai số bám vị trí robot thực nghiệm trình học 63 Hình 4.28: Quỹ đạo x robot thực nghiệm trình học 64 Hình 4.29: Quỹ đạo y robot thực nghiệm trình học 64 Hình 4.30: Quỹ đạo góc quay θ robot thực nghiệm trình học 64 Hình 4.31: Quỹ đạo vận tốc quay trình học robot thực nghiệm 65 Hình 4.32: Sai số bám vận tốc quay trình học 65 Hình 4.33: Quỹ đạo vận tốc dài trình học 65 Hình 4.34: Sai số bám vận tốc dài trình học 66 Hình 4.35: Mơ men điều khiển bánh phải (τ1) 66 Hình 4.36: Mơ men điều khiển bánh trái (τ2) .66 Hình A.1 Tập mẫu ngõ vào đo không gian ảnh .74 Hình A.2 Tập mẫu ngõ mong muốn đo không gian thực .74 Hình A.3 Kết huấn luyện RBF so với mẫu mong muốn 75 Hình A.4 Ngõ RBF so với mong muốn biểu diễn theo X (cm)-Y (pixel) .75 DANH MỤC CÁC BẢNG BIỂU Thuật toán 2.1: VI 13 Thuật toán 2.2: PI 14 Thuật toán 2.3: Q-Learning 16 Thuật toán 3.1: ORADP 31 Thuật toán 4.1: ORADP áp dụng cho WMR 51 DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Thuật ngữ tiếng anh Giải thích Cấu trúc điều khiển Actor-Critic AC học củng cố gồm hai NN: Mạng critic xấp Actor-Critic xỉ hàm đánh giá tối ưu, mạng actor xấp xỉ luật điều khiển tối ưu ADP Qui hoạch động thích nghi, phương Adaptive Dynamic pháp học củng cố để xấp xỉ luật điều Programming khiển tối ưu online ADP3NN ADP with three NNs ANN Actor Neural Network ARE Algebraic Riccati Equation CNN Critic Neural Network COD Curse of Dimensionality Sự bùng nổ tổ hợp không gian trạng thái DP Dynamic Programming Qui hoạch động HJB Hamilton-Jacobi-Bellman HJI Hamilton-Jacobi-Isaacs MLP Multi-Layer Perceptron NRBF Normalized Radial Cấu trúc điều khiển ADP với ba NN NN actor đóng vai trị điều khiển cấu trúc AC Phương trình đại số Riccati NN critic đóng vai trò xấp xỉ hàm đánh giá cấu trúc AC NN truyền thẳng nhiều lớp Basis NN có hàm sở xuyên tâm chuẩn Function hóa Qui hoạch động thích nghi bền vững ORADP Online Robust Adaptive Dynamic Programming online: phương pháp học củng cố đề xuất báo cáo để tìm luật điều khiển tối ưu thích nghi bền vững online PE Persistence of Excitation Kích thích hệ thống cách thêm nhiễu vào véc tơ tín hiệu vào/ra PE điều kiện Từ (3.51) (3.50) ta có: � =� � � � �� + � (3.52) Mặt khác, sử dụng (3.36) cho phương trình (3.45), với � = �� , ta có: �+� � � �(�, �, �)�� = −� � (3.53) ∆� � + �� Từ (3.46) (3.53), với � = �� , ta có: �� = −� � (3.54) ∆� � + �� Thay (3.54) vào (3.52), ý (3.44), ta nhận được: � = −� � � � (�) � � � � � � +� 1 � (3.55) � � � � = � � � + Phương trình sai số xấp xỉ trọng số NN (3.55) có dạng phương trình sai số NN [29] Vì vậy, phần chứng minh lại định lý 3.2 tương tự chứng minh Định lý [29] Sau thiết kế luật cập nhật trọng số NN, cấu trúc điều khiển ORADP trình bày hình 3.2, khối luật điều khiển, luật nhiễu luật cập nhật trọng số NN cho phương trình (3.37), (3.38) (3.41) �() ACTORs �() CRITIC Luật nhiễu xấu (xấp xỉ) (4.50) � � xTWˆ � (x) dˆ cập nhật trọng số NN (4.53) Wˆ Luật �x NN (4.49) y � 12,� uˆ �(�) Wˆ Wˆ Luật điều khiển tối ƣu (xấp xỉ) (4.51) R Vˆ � Wˆ T� Hệ thống �()�() Hình 3.2: Cấu trúc điều khiển ORADP sử dụng NN x Chú ý 3.7: Thông tin thành phần động học �(�) không sử dụng luật cập nhật sơ đồ điều khiển Vì vậy, nhận dạng )( khơng cần thiết 3.2.2 Thuật tốn điều khiển ORADP Trong thuật tốn sử dụng ba NN [29], phương trình HJI giải cách giải hai phương trình HJB nối tiếp hai bước lặp Bước lặp thứ nhất, nghiệm HJB cho luật nhiễu xấp xỉ hội tụ Bước thứ hai tiếp tục xấp xỉ nghiệm HJB dành cho luật điều khiển hội tụ Hai trình liên tục lặp lại hàm đánh giá tối ưu hội tụ Các thuật toán cho dư thừa bước lặp, tham số luật nhiễu luật điều khiển cập nhật khơng đồng thời, dẫn đến chi phí tính tốn, tài ngun lưu trữ tăng, hiệu hội tụ thấp [36] Để khắc phục nhược điểm thuật toán sử dụng hai ba NN, thuật toán sử dụng NN đề xuất [36], tham số luật nhiễu luật điều khiển cập nhật đồng thời Tuy nhiênđòi hỏi phải xác định trước động học hệ thống, [36], chu kỳ, tham số hệ thống phải ngưng cập nhật khoảng thời gian để lấy mẫu liệu cho lần cập nhật tiếp Vì vậy, tốc độ hội tụ khơng hiệu [29] Các bước Thuật toán 3.1 sau với cấu trúc điều khiển ORADP luật cập nhật trọng số NN (3.41) khắc phục nhược điểm kể Thuật toán 3.1: ORADP Bước 1: Chọn hàm tiêu chất lượng, � � � � � = ���� , với � ma trận trọng số xác định dương, chọn véc tơ hàm tác động � (�) cho điều kiện PE [29], [31] Khởi tạo trọng số � (0) = � (0) =� (�) , nhiễu ống (Probing noise) � (0) = 0, cho NN critic, gán � = 0, chọn hệ số thích nghi �1, �2, bước lặp dừng thuật tốn �� ��� Chọn tiêu chí hội tụ � (số dương nhỏ), gán � = Bước 2: Cộng nhiễu � vào tín hiệu điều khiển: � () +� (�) ⟵� () + �, � (�) ⟵� để kích thích hệ thống theo điều kiện PE (3.48) Cập nhật đồng thời trọng số NN � (+1) theo (3.41), tham số luật điều khiển theo (3.37) luật nhiễu theo (3.38): � (� +1) = − � −1 � �� � � � (�)� (� +1) � (� +1) =− � � �� � � (�)� (� +1) Đồng thời cập nhật hàm đánh giá theo (3.36): � Bước 3: Nếu � + 1, � () −� (+1) (+1) quay lại bước 2, ngược lại gán � = � (+1) () � � < � gán � = Nếu � ≤ ����� gán � ⟵ ∗ = � (+1) , � ∗ = � (+1) � ∗ = � (+1) dừng thuật toán Chú ý 3.8: Một ý quan trọng luật cập nhật thích nghi cho trọng số NN (3.41) khơng liên quan đến thành phần động )( , từ ta có (3.37) luật điều khiển thích nghi bền vững tối thiểu hàm tiêu chất lượng (3.11) Chú ý 3.9: Luật cập nhật tham số NN luật điều khiển luật nhiễu thực thời điểm (Bước Thuật tốn 3.1), ORADP thuật toán cập nhật tham số đồng khác với [29] Chú ý 3.10: Ở bước 1, giá trị khởi tạo phần tử véc tơ trọng số � (0) chọn khơng Khi đó, giá trị luật điều khiển khởi tạo hàm đánh giá khởi tạo không Tuy nhiên, hệ thống bị kích thích nhiễu PE Bước 2, ORADP tiếp tục lặp hội tụ Chú ý 3.11: Ở Bước Thuật toán 3.1, hàm đánh giá hội tụ, thuật toán ORADP dừng tiếp tục dừng đạt đến bước kết thúc ����� 3.3 Phân tích ổn định hội tụ ORADP Giả thiết 3.5: Động học hệ thống )( giả sử thỏa điều kiện Lipschitz với )( ≤� � Giả thiết 3.6: Nhiễu � � bị chặn cho � � ≤ ��� , với ���� số dương Giả thiết 3.7: Hệ kín bị chặn, cho � � + � � �∗ + () ∗ ≤ �, với � số dương Định lý 3.3: Xét hệ thống động (3.1) thỏa giả thiết từ 3.5 đến 3.7, hàm chi phí (3.11) bị ràng buộc (3.1) có giá trị tối thiểu nghiệm phương trình HJI (3.28), �� xấp xỉ hàm chi phí theo (3.36), luật cập nhật trọng số NN theo (3.41) luật cập nhật tham số luật điều khiển tối ưu luật nhiễu xấu theo (3.37) (3.38), � thỏa điều kiện PE (Định lý 3.2) tồn trạng thái hệ kín sai số xấp xỉ NN bị chặn UUB Ngoài ra, � → ∞, sai số hàm chi phí xấp xỉ tối � − �∗ ưu đạt < , với �� số dương nhỏ, sai số luật điều � khiển xấp xỉ tối ưu đạt � − ∗ < � , với �� số dương nhỏ, sai số luật nhiễu xấp xỉ tối ưu đạt � − � ∗ < �� , với �� số dương nhỏ Chứng minh: Xét luật cập nhật (3.41) khơng có ��� Chọn hàm Lyapunov sau: + � � = � �2 ����� +1 � � (3.56) � � () Đạo hàm (3.56) ta có: + � � = � �2 ��� �� + � � (3.57) � � () Điều kiện âm (3.41) biến đổi thành: �� � − �� � = �� + �� �� ≤ + + � � + + � � � � �� = �� � � + (3.58) � Chú ý đến điều kiện (3.32) ta có: � � =− � � � � + � đó, � � = � � � (�, � ) = −� ( − �)� � � � � � � �� � � − (3.59) � � � �� �� − � � � � � � �� 4 � () Thay � � từ (3.59) vào (3.39) sử dụng (3.12), ta có: � � � � + � � � � ( � − � )� � � − � � � � � (3.60) − ���� Biến đổi � (3.44) thành: + � = �� � � + �� + �� � + = � �� � − � � � � �� � � − + = �� �� � (3.61) �� � � − �� � − � � � �− � � �� � + = �� � � + �� ∗ + ��1∗ + � �−� � � �� � Từ (3.60) (3.61) với ý � ( − �)�� = −� ,� + �� � = −� 1, động học sai số sinh luật cập nhật (3.41) viết thành: � = + − �1 � � � �� + �� ∗ + ��1∗ + � � − � � � �� �2 � � × + � + 1∗+ � � � �� � � + �� ∗ + �� � � �� � − � � � 1( − � )�� � − � �� + � (3.62) + � � ���� � = � � � + Thay (3.62), động học (3.1) vào (3.57) áp dụng luật (3.37) (3.38), ta có: + � = � � � � � + �� + �� �� � − + � � � �2 � + � � �2 � � −� � � + � �� � + − − � �� ���4 ��2� × ∗ � � � − �� � � + �� + �� + ∗ �− (3.63) �� � � � 1∗ ∗ � � + �� + �� 2+ � �� � − � � � � � �� � − �1 + � ∗ � �� + � �� � � + ��∗ + + � − � �� � �� ���� �� � Từ biểu thức (3.58), dễ thấy tồn số không âm � 0, cho: + � = �� �2 � � � � + �� + �� � Thay ���� từ (3.32) (3.64) vào (3.63) tính tổng bình phương theo số hạng: � + + � � � � 1� − � � � � ���, + ��∗∗ + �� � + � � � � − �� � � � � � � � ta có: + � = −2 0� �1 � � �� − �2 � �1 + 42 � − 642 2 +� �1 −2 � � + �2 � + ≤ −2�0 � �� + � 91 42 �2 − �1 442 + �= �� � = � + � � = + � � � � � �� � − � � � � � � � � � + ��∗ + � �� � � + ��∗ + � Sử dụng chuẩn cho (3.66) thuộc tính xấp xỉ hàm (3.29) với tính chất 3.1, 3.2 giả thiết 3.7, ta có:2 2� ≤� � 2 = � − � � ,� � � ≤� + + � ,trong � 2 �� � � � �� ����� + � , �2 = �1�2 � ��� − ���� , �3 = ����� � + ���� − �� �� ��� �� /4 Sử dụng bất đẳng thức tích phân cho � 2, ta có − � ≤ ��� � �2 − + � �� Thay � , � � vào (3.65), ta có: + � �2 + � ≤ 1−� + � �� + − 1� � � � �2 − 4222 �� (3.67) �0 = �2 �0, �1 = �1 3�1/22� 2, �2 = �1 �2/8�� �3 = 21 ��3� / � (3.67) mang giá trị âm nếu: + � + � �2 = � 42 � �� ≥ � +3 �0 �� ≥ � (3.68) � �12 + �1= � � 42 22 � +3 22 (3.69) Tiếp tục cho trường hợp lại luật cập nhật (3.41) có xét đến � �� Chọn hàm Chọn hàm Lyapunov sau: � � =� � � () � �+2 ��� � + �3 �� (�) � (3.70) nghiệm khơng âm phương trình HJI Đạo hàm (3.70), áp dụng luật (3.37) (3.38) cho � , thêm số hạng � �� từ luật cập nhật (3.41), sử dụng (3.62) với ý kết (3.65) ta có: � � =� � �� − � 2 � � + �1 − ���� − 42 ���� = � � � () �−� � � −� � + � 2 � � � �� � − + (3.71) + �2 � � , với � ma trận bán xác định dương Theo giả thiết 3.5, số hạng (3.71) bị chặn � � � � � ≤ �2� � Số hạng thứ hai (3.71) thỏa điều kiện − � � � − � ����/2 ≤ �5 � � �� �� ���� � /2 Từ bất đẳng thức (3.71) viết thành: với �5 = �2 ���� + � +5� � = −2 �3 �� ��� − α � 2− � + � 12 + � +� + 42 � 2 �� −� 22 (3.72) �6 = � ���� (Giả thiết 3.6) Sử dụng bất đẳng thức tích phân cho (3.72): � = −� � + � � −� + 2 � −� �� � 2 + � �+ +� (3.73) �4 = �2 �3��� � � − α > 0, với �3 chọn cho: �3 > � � � (3.74) ��� Với �5 = �5 Phương trình (3.73) biến đổi thành: �2 � � ≤ −� + � 4− + 24 + 2 44 − �� � �� � − �2 2+ (3.75) Từ (3.75) ta thấy � âm, nếu: � ≥ �25 �4 44 + � � �21 +� + 42 (3.76) =� � (3.77) 2 �� ≥ � 3+ � +� +�1 = �� 2 44 22 Theo (3.68), (3.76) (3.69), (3.77), dễ thấy � sai số xấp xỉ NN � làm cho � vượt biên tập đóng, �� = max �, � �� � � ,� � , � � = max � � , luật cập nhật (3.41) làm � ≤ Như vậy, theo định lý Lyapunov mở rộng [16] tồn trạng thái hệ kín sai số xấp xỉ NN bị chặn UUB Để chứng minh khả hội tụ hàm đánh giá xấp xỉ, ta lấy hiệu hai biểu thức (3.29) (3.36), sử dụng chặn ý (3.69) (3.77) ta có: �∗ − � ���� = �� ≤ � � + � ��� ≤ �� � + (3.78) Để chứng minh hội tụ luật điều khiển luật nhiễu ta lấy hiệu biểu thức (3.26) với (3.27), biểu thức (3.37) với (3.38), sử dụng chặn ý (3.69) (3.76) ta có: �∗ − � ≤ � =� � �� � −� ≤ � � ∗ 2�2 � ���� � ���� � ��� � � +� � � ��� +� � =� ��� ��� (3.79) (3.80) � � ��� � giá trị riêng nhỏ ma trận � Vậy ta có điều phải chứng minh ■ Chú ý 3.12: Có thể giảm giá trị chặn ��, �� �� cách chọn số học � � , � = 1,2 phù hợp Tuy nhiên chọn �� nhỏ, tham số hệ thống hội tụ với tốc độ chậm 3.4 Tóm tắt Chương đề xuất phương pháp qui hoạch động thích nghi bền vững online (ORADP) để điều khiển hệ phi tuyến có nhiễu chứa thành phần động khơng biết Cấu trúc điều khiển ORADP sử dụng NN thay ba NN phương pháp nhằm mục đích giảm độ phức tạp tính tốn, tài ngun lưu trữ tăng tốc độ hội tụ Luật cập nhật trọng số NN thuật toán điều khiển thiết kế phù hợp không sử dụng thông tin thành phần động hệ phi tuyến với bảo đảm hệ kín ổn định UUB tham số hệ thống hội tụ giá trị cận tối ưu Ngoài ra, thuật tốn ORADP, tham số hệ thống cịn cập nhật đồng bước lặp nhằm tăng tốc độ hội tụ Kết mơ có so sánh ORADP phương pháp AC sử dụng ba NN nghiên cứu khác cho thấy ORADP cho tiêu chất lượng tốt tiêu chí thời gian hội tụ trọng số NN, sai số xấp xỉ hàm đánh giá, luật điều khiển, luật nhiễu ORADP cần kiểm tra tính hiệu thời gian thực Vì vậy, chương tiếp theo, ORADP sử dụng để điều khiển robot di động dạng xe, đối tượng phi tuyến bị tác động nhiễu có chứa thành phần động khơng có thơng tin để xác định CHƯƠNG ÁP DỤNG ORADP ĐIỀU KHIỂN ROBOT DI ĐỘNG Chương áp dụng ORADP thiết kế chương nhằm khắc phục hạn chế điều khiển WMR Nội dung cụ thể gồm phần sau: - Mơ hình động học truyền thống robot biến đổi thành mơ hình hệ thống phi tuyến dạng hồi tiếp chặt (Strict feedback form) nhằm mục đích thiết kế luật điều khiển động học động lực học “tích hợp” khắc phục nhược điểm phương pháp chiếu chia tách luật điều khiển Do chọn trước tham số cho điều khiển động học nên kinh nghiệm người thiết kế giai đoạn không cần thiết - Áp dụng cấu trúc ORADP để điều khiển bám thích nghi bền vững nhằm tối thiểu hóa hàm tiêu chất lượng bám động học lẫn động lực học cho WMR - Áp dụng ORADP để cập nhật trọng số NN, tham số luật điều khiển nhiễu cho nghiệm phương trình HJI xấp xỉ, tham số hệ thống hội tụ giá trị cận tối ưu, đồng thời hệ kín ln ổn định bền vững theo tiêu chuẩn UUB - Mô thực nghiệm robot để kiểm tra tính hiệu ORADP áp dụng cho WMR � � � Bánh xe trƣớc 2� �� � � � � 1� 1 �1 � Tâm robot Trục dẫn động bánh sau Bánh xe sau � �� Hình 4.1: Mơ hình robot di động dạng xe (WMR) 4.1 Mơ hình phi tuyến WMR WMR lắp hai bánh xe trái phải trục dẫn động chuyển động ...THÔNG TIN KẾT QUẢ NGHIÊN CỨU ĐỀ TÀI KHOA HỌC VÀ CƠNG NGHỆ CẤP TRƯỜNG Thơng tin chung: - Tên đề tài: Nghiên cứu, thiết kế chế tạo hệ thống điều khiển thông minh cho robot di động dạng xe bám quĩ. .. Mục tiêu: - Nghiên cứu, thiết kế chế tạo hệ thống điều khiển thông minh cho robot di động dạng xe - Sản phẩm nghiên cứu mơ hình đào tạo tiên tiến cho sinh viên chuyên ngành Tự động hóa với giá... Chí Minh với giá thành thấp TĨM TẮT BÁO CÁO Báo cáo trình bày nội dung nghiên cứu, thiết kế chế tạo hệ thống điều khiển thông minh cho robot di động (WMR) Bộ điều khiển thơng minh phân tích thiết

Ngày đăng: 08/09/2021, 11:02

HÌNH ẢNH LIÊN QUAN

Hình 1.1: Minh họa về học củng cố - Luận văn Khoa học ĐỘC QUYỀN: Nghiên cứu, thiết kế chế tạo hệ thống điều khiển thông minh cho robot di động dạng xe bám quỹ đạo tham chiếu
Hình 1.1 Minh họa về học củng cố (Trang 17)
Hình 2.1: Nguyên lý qui hoạch động Bellman và hàm đánh giá tối ưu - Luận văn Khoa học ĐỘC QUYỀN: Nghiên cứu, thiết kế chế tạo hệ thống điều khiển thông minh cho robot di động dạng xe bám quỹ đạo tham chiếu
Hình 2.1 Nguyên lý qui hoạch động Bellman và hàm đánh giá tối ưu (Trang 28)
3.2 Phương pháp ORADP - Luận văn Khoa học ĐỘC QUYỀN: Nghiên cứu, thiết kế chế tạo hệ thống điều khiển thông minh cho robot di động dạng xe bám quỹ đạo tham chiếu
3.2 Phương pháp ORADP (Trang 43)
Hình 3.1: Cấu trúc điều khiển ORADP - Luận văn Khoa học ĐỘC QUYỀN: Nghiên cứu, thiết kế chế tạo hệ thống điều khiển thông minh cho robot di động dạng xe bám quỹ đạo tham chiếu
Hình 3.1 Cấu trúc điều khiển ORADP (Trang 43)
Hình 3.2: Cấu trúc điều khiển ORADP sử dụng một NN - Luận văn Khoa học ĐỘC QUYỀN: Nghiên cứu, thiết kế chế tạo hệ thống điều khiển thông minh cho robot di động dạng xe bám quỹ đạo tham chiếu
Hình 3.2 Cấu trúc điều khiển ORADP sử dụng một NN (Trang 49)
Hình 4.1: Mô hình robot di động dạng xe (WMR) - Luận văn Khoa học ĐỘC QUYỀN: Nghiên cứu, thiết kế chế tạo hệ thống điều khiển thông minh cho robot di động dạng xe bám quỹ đạo tham chiếu
Hình 4.1 Mô hình robot di động dạng xe (WMR) (Trang 63)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w