1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu giải thuật học củng cố trong điều khiển thích nghi bền vững cho hệ phi tuyến

167 8 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 167
Dung lượng 6,54 MB

Nội dung

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƢỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN TẤN LŨY NGUYỄN TẤN LŨY NGHIÊN CỨU GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG CHO HỆ PHI TUYẾN LUẬN ÁN TIẾN SĨ KỸ THUẬT TP HỒ CHÍ MINH NĂM 2015 ĐẠI HỌC QUỐC GIA TP HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN NGUYỄN TẤN LŨY TẤN LŨY NGHIÊN CỨU GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG CHO HỆ PHI TUYẾN Chuyên ngành: Tự động hóa Mã số chuyên ngành: 62.52.60.01 Phản biện độc lập 1: GS.TS Phan Xuân Minh Phản biện độc lập 2: PGS.TS Nguyễn Chí Ngơn Phản biện 1: GS.TSKH Hồ Đắc Lộc Phản biện 2: PGS.TS Nguyễn Ngọc Lâm Phản biện 3: PGS.TS Lê Minh Phương HƯỚNG DẪN KHOA HỌC TS NGUYỄN THIỆN THÀNH NGƯỜI HƯỚNG DẪN KHOA HỌC TS NGUYỄN THIỆN THÀNH TS HỒNG MINH TRÍ TS HỒNG MINH TRÍ LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu thân tơi Các kết nghiên cứu kết luận luận án trung thực, không chép từ nguồn hình thức Việc tham khảo nguồn tài liệu thực trích dẫn ghi nguồn tài liệu tham khảo quy định Tác giả luận án Nguyễn Tấn Lũy yễn Tấn Lũy i TÓM TẮT LUẬN ÁN Bài toán điều khiển tối ưu cho hệ phi tuyến bị ràng buộc trực tiếp nghiệm phương trình Hamilton-Jacobi-Bellman (HJB) toán điều khiển tối ưu bền vững bị ràng buộc trực tiếp nghiệm phương trình Hamilton-Jacobi-Isaacs (HJI) Đây phương trình vi phân phi tuyến khơng có nghiệm giải tích Từ đó, toán xấp xỉ nghiệm HJB HJI off-line online đặt Học củng cố (Reinforcement Learning (RL)) bắt nguồn từ qui hoạch động (Dynamic Programming (DP)), phát triển thành qui hoạch động thích nghi (Adaptive Dynamic Programming (ADP)) trở thành phương pháp hữu hiệu dùng để xấp xỉ nghiệm HJB HJI Dựa vào cấu trúc điều khiển chuẩn ADP bao gồm hai ba xấp xỉ hàm, giải thuật RL không ngừng nghiên cứu phát triển Ngày nay, giải thuật điều khiển RL online, không off-line nghiên cứu công bố năm đầu kỷ 21 Ví dụ, giải thuật RL thiết kế để xấp xỉ nghiệm ARE (Algebraic Riccati Equation) cho hệ tuyến tính với ma trận trạng thái sau này, xấp xỉ nghiệm HJB HJI cho hệ phi tuyến với thành phần động học mơ hình hệ thống biết khơng biết, có nhiễu bỏ qua nhiễu Luận án nghiên cứu giải thuật học củng cố điều khiển thích nghi bền vững hệ phi tuyến, qui hoạch động thích nghi online (Online Adaptive Dynamic Programming (OADP)) qui hoạch động thích nghi bền vững online (Online Robust Adaptive Dynamic Programming (ORADP)) hai giải thuật phân tích thiết kế Giải thuật OADP dùng để xấp xỉ nghiệm HJB cho hệ thống phi tuyến với mơ hình xác định, sau phát triển thành giải thuật ORADP để xấp xỉ nghiệm HJI cho hệ phi tuyến hồn tồn khơng có thơng tin động học nội (internal dynamics) Ban đầu, cấu trúc ADP chuẩn với hai ba xấp xỉ hàm sử dụng để chuyển đổi thành cấu trúc điều khiển với xấp xỉ hàm để tránh độ phức tạp tính tốn lãng phí tài ngun nhằm đẩy nhanh tốc độ hội tụ Sau đó, luật cập nhật cho tham số cho xấp xỉ hàm giải thuật điều khiển thiết kế Trong giải thuật, luật cập nhật tham số đồng hóa bước lặp nhằm tăng tốc độ hội tụ Bên cạnh đó, luật điều khiển ổn định ban đầu để khởi động giải thuật không cần thiết Từ đó, thủ tục thiết kế trở nên linh hoạt Giải thuật đảm bảo hàm chi phí tối thiểu, tham số xấp xỉ hàm luật điều khiển hội tụ giá trị cận ii tối ưu tồn trạng thái hệ kín sai số xấp xỉ bị chặn theo tiêu chuẩn UUB (Uniform Ultimate Bounded) Kết mơ có so sánh với phương pháp khác sử dụng hai ba xấp xỉ hàm cho thấy tính hiệu giải thuật OADP ORADP Để kiểm tra khả ứng dụng giải thuật ORADP, mô số thực nghiệm cho robot di động dạng xe (Wheeled Mobile Robot (WMR)) tiến hành So sánh với giải thuật điều khiển thích nghi khác, giải thuật ORADP điều khiển WMR có số ưu điểm Thứ nhất, việc chia tách điều khiển động học (kinematic) động lực học (dynamic) sử dụng phổ biến điều khiển thích nghi cho WMR khơng cần thiết Từ đó, tránh phụ thuộc vào kinh nghiệm người thiết kế việc lựa chọn tham số cho điều khiển động học Thứ hai, khơng địi hỏi nhận dạng trực tiếp gián tiếp thành phần động học không chắn, khơng cấu trúc mơ hình robot Cuối cùng, với giải thuật ORADP, hàm tiêu chất lượng có liên quan đến sai số bám động học, động lực học lẫn lượng điều khiển tối thiểu Giải thuật ORADP tiếp tục sử dụng để thiết kế mở rộng cho toán điều khiển hợp tác nhiều hệ phi tuyến MIMO không sử dụng thông tin động học nội hệ thống Ban đầu, lý thuyết đồ thị sử dụng để thiết lập cấu hình truyền thơng phân tán cho nhiều hệ phi tuyến hợp tác Sau đó, giải thuật ORADP thiết kế mở rộng thành giải thuật điều khiển hợp tác thích nghi bền vững Kết điều khiển đồng hóa hệ thống robot bầy đàn từ mơ cho thấy tính hiệu giải thuật ORADP mở rộng iii ABSTRACT The optimal control problem for nonlinear systems is constrained directly by the solution of Hamilton-Jacobi-Bellman (HJB) equation and the robust optimal control problem is constrained directly by the solution of Hamilton-Jacobi-Isaacs (HJI) equation These are nonlinear partial differential equations that have been proven to be impossible to solve analytically Since then, the problems for approximating off-line or online HJB and HJI solutions are devoted The reinforcement learning (RL) method, at first, derived from the dynamic programming (DP) theory, and then, developed into adaptive dynamic programming (ADP) method, becomes one of the most effective online methods to approximate HJB and HJI solutions Based on the standard control structure of ADP, including two or three approximators, RL algorithms are studied and developed continuously Nowadays, these algorithms are online and no longer off-line as the researches that are published in the early years of the 21st century For example, RL algorithms have been developing to approximate the ARE (Algebraic Riccati Equation) solutions for linear systems with unknown state matrices, and after that, HJB and HJI solutions for nonlinear systems contained known and unknown system dynamics with or without impacted by disturbance This thesis proposes reinforcement learning-based robust adaptive control algorithms for nonlinear systems, in which Online Adaptive Dynamic Programming (OADP) and Online Robust Adaptive Dynamic Programming (ORADP) are two main analyzed and designed algorithms OADP algorithm is used to approximate a HJB solution for the nonlinear system with known dynamics, and then extended to ORADP algorithm to approximate HJI solution for the nonlinear system without absolutely knowing knowledge of internal dynamics Firstly, the standard ADP structures with two or three approximators are used to transform into control structures with only single approximator to avoid the complex computation and waste of resources in order to accelerate the speed of update processes Then, novel update laws for the approximator’s parameters and the novel algorithms are designed In the algorithm, parameter update laws are synchronized in one iterative step to increase the speed of convergence Besides, any stability control laws to initialize algorithm is not needed; Therefore, the design procudures become more flexible The algorithms guarantee that iv the cost functions are minimized, the parameters of approximators and cthe ontrol laws converge to the suboptimal values while all closed-system states and the approximate errors are bounded by the UUB (Uniform Ultimate Bounded) standard The results of numerical simulations compared with other methods using two or three approximators demonstrate the effectiveness of the OADP and ORADP algorithms To verify the application ability of ORADP algorithm, simulation and experiment for WMR (Wheeled Mobile Robot) are conducted It is shown that when the ORADP algorithm is applied to control WMR, some novel advantages compared with other adaptive control algorithms have been gained Firstly, the separation of kinematic and dynamic controllers that commonly used in the adaptive control for WMR is unnecessary By doing that, we can avoid depending on the designer's experience in choosing the parameters for the kinematic controller Secondly, identifying directly or indirectly unstructured and unmodeled uncertainty dynamics in the robot models is not required Lastly, using the ORADP algorithm, the performance index function related to both the kinematic, the dynamic tracking errors and the control energy is minimized The ORADP algorithm is continuously designed extendedly for the cooperative control problem of multiple MIMO nonlinear systems without using the knowledge of system internal dynamics Initially, graph theory is used to establish distributed communication configures for multiple cooperative nonlinear systems Then, the ORADP algorithm is expanded to become the robust adaptive cooperative control algorithm Simulation results of synchronous control for the swarm robot system show the effectiveness of the extended ORADP algorithm v LỜI CÁM ƠN Luận án hoàn thành hướng dẫn TS Nguyễn Thiện Thành TS Hồng Minh Trí Tôi xin gửi tới Thầy lời biết ơn vô hạn quan tâm giúp đỡ, tạo điều kiện tối đa để tơi hồn thành luận án Đặc biệt, tơi xin trân trọng bày tỏ lịng biết ơn chân thành đến Thầy Nguyễn Thiện Thành người giới thiệu truyền cho nguồn cảm hứng lĩnh vực học củng cố Luận án hồn thành khơng có hướng dẫn khoa học PGS.TS Nguyễn Thị Phương Hà Cô cho định hướng truyền đạt cho nhiều kiến thức quan trọng lĩnh vực điều khiển thích nghi bền vững Vì vậy, cho tơi bày tỏ đến Cơ lịng biết ơn sâu sắc Tơi xin chân thành cảm ơn tập thể nhà khoa học Bộ môn Điều khiển tự động, Đại học Bách Khoa Thành phố Hồ Chí Minh có đóng góp quí báu mặt học thuật để luận án hồn thành Tơi xin dành riêng lời cảm ơn đến đồng nghiệp Khoa Công nghệ Điện tử Đại học Cơng nghiệp Thành phố Hồ Chí Minh, tạo điều kiện thời gian để tơi hồn thành luận án, cảm ơn bạn Phịng Thí nghiệm Trọng điểm Quốc Gia Điều khiển số Kỹ thuật hệ thống Đại học Quốc Gia, Đại học Bách Khoa tạo môi trường vui vẻ chia sẻ khó khăn thời gian tơi cơng tác Cuối không phần quan trọng, xin cảm ơn gia đình tơi, vợ hai con, hết lịng ủng hộ tơi thời gian, tinh thần, tình cảm, giúp tơi vượt qua khó khăn thử thách đường nghiên cứu đầy chông gai nhiều lúc tưởng chừng bế tắt để hoàn thành luận án vi MỤC LỤC DANH MỤC CÁC HÌNH VẼ x DANH MỤC CÁC GIẢI THUẬT VÀ BẢNG BIỂU xii DANH MỤC CÁC TỪ VIẾT TẮT xiii DANH MỤC CÁC KÝ HIỆU xv CHƢƠNG GIỚI THIỆU 1.1 Tổng quan đề tài 1.1.1 Khái niệm học củng cố .1 1.1.2 Lịch sử phát triển RL điều khiển .2 1.2 Động cơ, mục tiêu nhiệm vụ nghiên cứu .5 1.2.1 Sự cần thiết phải nghiên cứu học củng cố điều khiển 1.2.2 Tính cấp thiết đề tài 1.2.3 Mục tiêu nghiên cứu 1.2.4 Nhiệm vụ nghiên cứu 1.3 Đối tượng, phạm vi phương pháp nghiên cứu .9 1.3.1 Đối tượng phạm vi nghiên cứu 1.3.2 Phương pháp nghiên cứu .11 1.4 Những đóng góp luận án mặt khoa học 11 1.4.1 Về mặt lý thuyết 11 1.4.2 Về mặt thực tiễn 12 1.5 Bố cục luận án 13 CHƢƠNG CƠ SỞ LÝ THUYẾT 14 2.1 Các định nghĩa 14 2.2 Lý thuyết học củng cố 14 2.3 Các giải thuật học củng cố kinh điển .16 2.3.1 Giải thuật VI (Value Iteration) 16 2.3.2 Giải thuật PI (Policy Iteration) 17 2.3.3 Giải thuật Q-Learning 18 2.4 Xấp xỉ hàm RL 19 2.4.1 Sự cần thiết phải sử dụng xấp xỉ hàm RL 19 2.4.2 Yêu cầu xấp xỉ hàm RL 20 2.5 Các loại xấp xỉ hàm RL, so sánh đánh giá 21 vii 2.6 Thuộc tính NN truyền thẳng lớp 21 2.7 Giải thuật qui hoạch động thích nghi sử dụng xấp xỉ hàm .22 2.8 Tóm tắt 25 CHƢƠNG GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN TỐI ƢU 27 3.1 Học củng cố điều khiển tối ưu 28 3.1.1 Mơ tả tốn 28 3.1.2 Phương trình HJB (Hamilton-Jacobi-Bellman) 28 3.2 Phân tích thiết kế giải thuật học củng cố OADP 31 3.2.1 Cấu trúc điều khiển luật cập nhật tham số online .31 3.2.2 Giải thuật OADP 34 3.2.3 Phân tích ổn định hội tụ giải thuật OADP 35 3.3 Mô phỏng, so sánh đánh giá 35 3.4 Tóm tắt 40 CHƢƠNG GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG 42 4.1 Học củng cố điều khiển thích nghi bền vững 43 4.1.1 Mơ tả tốn 43 4.1.2 Phương trình HJI (Hamilton-Jacobi-Isaacs) 44 4.1.3 Luật điều khiển học củng cố dựa vào nghiệm HJI 45 4.2 Giải thuật ORADP 48 4.2.1 Cấu trúc điều khiển luật cập nhật tham số 48 4.2.2 Giải thuật ORADP 52 4.3 Phân tích ổn định hội tụ giải thuật ORADP 53 4.4 Mô phỏng, so sánh đánh giá 54 4.5 Tóm tắt 59 CHƢƠNG ÁP DỤNG GIẢI THUẬT ORADP CHO ROBOT DI ĐỘNG 60 5.1 Mơ hình phi tuyến WMR 62 5.2 Mơ hình WMR thực nghiệm 66 5.3 Giải thuật ORADP áp dụng cho WMR 71 5.4 Mô 73 5.4.1 Quỹ đạo tham chiếu .74 5.4.2 Thiết lập tham số học 75 viii Kết hợp (B.12) (B.14), ta có: 𝐿 ≤ −𝜆1 𝑊 𝜆2 − 2𝜆1 2 𝜆2 2𝜆1 + 𝜆1 + 𝜆3 −𝛼2 𝜆0 + 𝛼3 𝜆𝑚𝑖𝑛 𝑄1 𝑥 (B.15) + 𝛼2 𝜆20 𝐿 < nếu: 𝑥 > 𝜆22 𝜆3 + + 𝛼2 𝜆20 − 𝜆0 𝛼2 4𝜆1 𝛼3 𝜆𝑚𝑖𝑛 𝑄1 = 𝑏𝑥 (B.16) 𝜆22 𝜆2 + 𝜆3 + 𝛼2 𝜆20 + = 𝑏𝑊 𝜆1 4𝜆1 2𝜆1 𝑊 > Tiếp theo, 𝑥 𝑇 𝑓(𝑥) + 𝑔 𝑥 𝑢 > 0, ta xét có mặt luật bền vững (3.33) luật cập nhật (3.31) Sử dụng giả thiết 3.4 (3.29), biểu thức (B.14) viết lại sau: 𝐿2 = 𝛼2 𝑥 𝑇 𝑓(𝑥) − 𝛼2 𝑥 𝑇 𝐺 𝑥 𝜙𝑥𝑇 𝑊 − 𝛼2 𝛼3 𝑥 𝑇 𝑄1 𝑥 − 𝛼2 𝛼3 𝑢𝑇 𝑅𝑢 ≤ −𝛼2 𝛼3 𝜆𝑚𝑖𝑛 𝑄1 − α 𝑥 − 𝛼2 𝑥 𝑇 𝐺 𝑥 𝜙𝑥𝑇 𝑊 (B.17) Mặt khác, thay (3.33) vào (3.31) sau thay vào (B.8), để ý (B.12), ta có: 𝐿1 ≤ −𝜆1 𝑊 𝜆2 − 2𝜆1 𝜆2 2𝜆1 + 𝜆1 + 𝜆3 − 𝛼2 𝑊 𝑇 𝜙𝑥 𝐺 𝑥 𝑥 (B.18) Kết hợp (B.18) (B.17), nhắc lại 𝑊 = 𝑊 − 𝑊 , ta có: 𝐿 ≤ −𝜆1 𝑊 𝜆2 − 2𝜆1 + 𝜆1 𝜆2 2𝜆1 + 𝜆3 − 𝛼2 𝛼3 𝜆𝑚𝑖𝑛 𝑄1 − α 𝑥 − 𝛼2 𝑥 𝑇 𝐺 𝑥 𝜙𝑥𝑇 𝑊 ≤ −𝜆1 𝑊 +𝜆4 𝑥 ≤ −𝜆1 × 𝑥 − 𝜆2 − 2𝜆1 𝑊 2 + 𝜆1 𝜆2 − 2𝜆1 𝜆4 2𝛼2 𝛼3 𝜆𝑚𝑖𝑛 𝑄1 − α 𝜆2 2𝜆1 + 𝜆3 − 𝛼2 𝛼3 𝜆𝑚𝑖𝑛 𝑄1 − α 𝑥 + 𝜆1 𝜆2 2𝜆1 + (B.19) + 𝜆3 − 𝛼2 𝛼3 𝜆𝑚𝑖𝑛 𝑄1 − α 𝜆24 4𝛼2 𝛼3 𝜆𝑚𝑖𝑛 𝑄1 − α 135 𝜆4 = 𝛼2 𝐺𝑚𝑎𝑥 𝜙𝑥𝑚𝑎𝑥 𝑊𝑚𝑎𝑥 𝛼3 chọn cho: 𝛼3 > 𝛼 (B.20) 𝜆𝑚𝑖𝑛 𝑄1 𝐿 < nếu: 𝜆22 𝜆24 𝜆4 𝜆3 + + + 4𝜆1 4𝜆5 𝑥 > 𝜆5 = 𝑏𝑥 (B.21) 𝜆22 𝜆24 𝜆2 + 𝜆3 + + 4𝜆1 4𝜆5 𝜆1 𝑊 > = 𝑏𝑊 𝜆5 = 𝛼2 𝛼3 𝜆𝑚𝑖𝑛 𝑄1 − α Từ (B.16) (B.21), ta thấy 𝐿 vượt biên giới ổn định (bên ngồi tập đóng) hay nói cách khác 𝑥 hoặc/và 𝑊 lớn luật cập nhật (3.31) làm cho 𝐿 < 𝑥 hoặc/và 𝑊 giảm Vì theo Định lý Lyapunov mở rộng, sai số bám hệ thống sai số trọng số NN bị chặn UUB Để ý biên giới ổn định 𝑊 𝑥 xác định 𝑏𝑥 = max(𝑏𝑥 , 𝑏𝑥 ) 𝑏𝑊 = max(𝑏𝑊 , 𝑏𝑊 ) Để chứng minh hội tụ hàm đánh giá xấp xỉ 𝑡 → ∞ ta lấy (3.18) trừ cho (3.25), sử dụng chặn để ý (B.16) (B.21): 𝑉 − 𝑉∗ ≤ 𝑊 𝜙(𝑥) + 𝜀 ≤ 𝑏𝑊 𝜙𝑚𝑎𝑥 + 𝜀𝑚𝑎𝑥 = 𝜀𝑉 (B.22) Ta thấy 𝑡 → ∞ sai số xấp xỉ hàm đánh giá bị chặn số dương 𝜀𝑉 Để chứng minh hội tụ luật điều khiển tối ưu xấp xỉ 𝑡 → ∞ ta lấy (3.16) trừ cho (3.29), sử dụng chặn để ý (B.16) (B.21): 𝑢 − 𝑢∗ ≤ 𝑏 𝜙 + 𝜀𝑚𝑎𝑥 𝜆𝑚𝑖𝑛 𝑅 𝐺𝑚𝑎𝑥 = 𝜀𝑢 𝑊 𝑥𝑚𝑎𝑥 (B.23) Ta thấy 𝑡 → ∞ sai số luật điều khiển tối ưu xấp xỉ bị chặn số dương 𝜀𝑢 Chất lượng hội tụ tốt đạt cách giảm phù hợp hệ số thích nghi 𝛼1 𝛼2 Tuy nhiên, chọn hệ số nhỏ tốc độ hội tụ chậm Điều phải chứng minh 136 PHỤ LỤC C CHỨNG MINH BỔ ĐỀ 4.4 Chứng minh Bổ đề 4.4: Từ (4.31), với 𝑇 = 𝑇𝑃 , ta có: 𝑡+𝑇𝑃 𝑄(𝑥) + 𝑢𝑇 𝑅𝑢 − 𝛾 𝑑 𝑇 𝑑 𝑑𝜏 = 𝑒𝐻 − ∆𝜙 𝑇 𝑥 𝑊 (C.1) 𝑡 Thay (C.1) vào (4.36) ý 𝑊 = −𝑊 , 𝜎 = ∆𝜙 𝑥 , ta có: 𝜎 𝜎 𝑊 = −𝛼1 𝑇 𝜎 𝑇 𝑊 + 𝛼1 𝑇 𝑒 𝜎 𝜎+1 𝜎 𝜎+1 𝐻 (C.2) 𝜎 = −𝛼1 𝜎𝜎 𝑇 𝑊 + 𝛼1 𝑒𝐻 𝑚 𝑚 = 𝜎 𝑇 𝜎 + Chọn hàm Lyapunov sau: 𝐿(𝑡) = −1 𝛼 𝑡𝑟(𝑊 𝑇 𝑊 ) (C.3) 𝑡𝑟 tốn tử 𝑡𝑟𝑎𝑐𝑒 Sử dụng (C.2), đạo hàm 𝐿 xác định bởi: 𝜀𝐻 𝐿 = −𝑡𝑟 𝑊 𝑇 𝜎(𝜎 𝑇 𝑊 − ) 𝑚 (C.4) Triển khai (C.4), ta có: 𝐿 = −𝑡𝑟 𝑊 𝑇 𝜎𝜎 𝑇 𝑊 + 𝑡𝑟 𝑊 𝑇 𝜎 𝐿 ≤ − 𝜎𝑇𝑊 𝜀𝐻 ≤ − 𝜎𝑇𝑊 𝑚 𝜀𝐻 𝜎𝑇𝑊 − 𝑚 + 𝜎𝑇𝑊 𝜀𝐻 𝑚 (C.5) Từ (C.5) ta có 𝐿 < nếu: 𝜎 𝑇 𝑊 > 𝜀𝐻𝑚𝑎𝑥 > 𝜀𝐻 𝑚 (C.6) Chú ý 𝑚 > Vậy 𝐿(𝑡) giảm điều kiện (C.6) thỏa mãn Điều chứng tỏ 𝜎 𝑇 𝑊 𝑇 bị chặn hay 𝜎 𝑇 𝑊 𝑇 < 𝜀𝐻𝑚𝑎𝑥 Đặt 𝑦 = 𝜎 𝑇 𝑊 , sử dụng Bổ đề kỹ thuật [100], xét phương trình động học sai số xấp xỉ (C.2) có dạng phương trình Bổ đề kỹ thuật [100] với ngõ bị chặn 𝑦 < 𝜀𝐻𝑚𝑎𝑥 (theo chứng minh trên) Sử dụng Bổ đề kỹ thuật [100] ta có sai số xấp xỉ trọng số NN hội tụ hàm mũ đến tập sai số thặng dư: 𝑊 (𝑡) ≤ 𝛽2 𝑇 + 2𝛿𝛽2 𝛼1 𝜀𝐻𝑚𝑎𝑥 𝛽1 Điều phải chứng minh 137 (C.7) PHỤ LỤC D CHỨNG MINH ĐỊNH LÝ 4.1 Chứng minh Định lý 4.1: Xét luật cập nhật (4.42) khơng có 𝑊𝑅𝐵 Chọn hàm Lyapunov sau: 𝑡+𝑇 𝐿 𝑡 = 𝑡 𝛼2 𝑥 𝑇 𝑥𝑑𝜏 + 𝑊 𝑇 𝑡 𝑊 (𝑡) (D.1) Đạo hàm (D.1) ta có: 𝑡+𝑇 𝛼2 𝑥 𝑇 𝑥𝑑𝜏 + 𝑊 𝑇 𝑊 𝐿= (D.2) 𝑡 Điều kiện âm (4.42) biến đổi thành: 𝑇 𝑥 𝑥 − 𝑥𝑡𝑇 𝑥𝑡 = 𝑡+𝑇 𝑡+𝑇 𝑡+𝑇 𝑡+𝑇 𝑇 𝑥 𝑇 𝑓 𝑥 + 𝑔𝑢 + 𝑘𝑑 𝑑𝜏 ≤ 𝑥 𝑥 𝑑𝜏 = 𝑡 (D.3) 𝑡 Sử dụng (4.25), ta có: 1 𝑄 𝑥 = −𝑊 𝑇 𝜙𝑥 𝑓 𝑥 + 𝑊 𝑇 𝜙𝑥 𝐺𝜙𝑥𝑇 𝑊 − 𝑊 𝑇 𝜙𝑥 𝐾𝜙𝑥𝑇 𝑊 − 𝜀𝐻𝐽𝐼 4 (D.4) Với luật điều khiển xấp xỉ (4.39) và luật nhiễu xấp xỉ (4.33), ta biến đổi 𝜎 (4.44): 𝑡+𝑇 𝜎= 𝜙𝑥 𝑓 𝑥 + 𝑔𝑢 + 𝑘𝑑 𝑑𝜏 𝑡 𝑡+𝑇 𝜙𝑥 𝑓 𝑥 − 𝜙𝑥 𝐺 − 𝐾 𝜙𝑥𝑇 𝑊 𝑑𝜏 𝑡+𝑇 𝜙𝑥 𝑓 𝑥 − 𝜙𝑥 𝐺 − 𝐾 𝜙𝑥𝑇 𝑊 − 𝑊 = 𝑡 = 𝑡 𝑡+𝑇 = 𝑡 (D.5) 𝑑𝜏 1 𝜙𝑥 𝑓 𝑥 + 𝑔𝑢∗ + 𝑘𝑑 ∗ + (𝐺 − 𝐾)𝜀𝑥 + 𝜙𝑥 𝐺 − 𝐾 𝜙𝑥𝑇 𝑊 𝑑𝜏 2 Thay (D.4) (D.5) vào (4.42) với ý 𝑊 = −𝑊 , 𝑊1 = −𝑊1 , để ý luật tối ưu (4.21) (4.22), động học sai số sinh luật cập nhật (4.42) viết thành: 𝑊1 = 𝛼1 − 𝑚 𝑡+𝑇 𝑡 1 𝜙𝑥 𝑓 𝑥 + 𝑔𝑢∗ + 𝑘𝑑 ∗ + (𝐺 − 𝐾)𝜀𝑥 + 𝜙𝑥 𝐺 − 𝐾 𝜙𝑥𝑇 𝑊 𝑑𝜏 2 𝑡+𝑇 𝑊 𝑇 𝜙𝑥 × 𝑡 1 𝑓 𝑥 + 𝑔𝑢∗ + 𝑘𝑑 ∗ + 𝐺 − 𝐾 𝜀𝑥 + 𝑊 𝑇 𝜙𝑥 𝐺 − 𝐾 𝜙𝑥𝑇 𝑊 (D.6) +𝜀𝐻𝐽𝐼 𝑑𝜏 𝑚 = 𝜎 𝑇 𝜎 + Thay (D.6), động học (4.1) vào (D.2) áp dụng luật (4.39) 138 (4.40), để ý luật tối ưu (4.21) (4.22), ta có: 𝑡+𝑇 𝛼2 𝑥 𝑇 𝑓 𝑥 + 𝑔𝑢 + 𝑘𝑑 𝑑𝜏 𝐿= 𝑡 𝑡+𝑇 𝛼1 − 𝑚 ∗ 𝑊 𝜙𝑥 𝑡 ∗ 𝑡+𝑇 𝛼1 − 8𝑚2 𝑓 𝑥 + 𝑔𝑢 + 𝑘𝑑 + 𝐺 − 𝐾 𝜀𝑥 𝑑𝜏 𝑇 𝑇 𝜙𝑥𝑇 𝑊 𝑑𝜏 𝑊 𝜙𝑥 𝐺 − 𝐾 𝑡 (D.7) 𝑡+𝑇 3𝛼1 − 4𝑚2 𝑓 𝑥 + 𝑔𝑢∗ + 𝑘𝑑 ∗ + 𝐺 − 𝐾 𝜀𝑥 𝑑𝜏 𝑊 𝑇 𝜙𝑥 𝑡 𝑡+𝑇 𝑊 𝑇 𝜙𝑥 𝐺 − 𝐾 𝜙𝑥𝑇 𝑊 𝑑𝜏 × 𝑡 𝛼1 − 𝑚 𝑡+𝑇 𝑇 𝑊 𝜙𝑥 𝑡 𝑓 𝑥 + 𝑔𝑢 + 𝑘𝑑 + 𝐺 − 𝐾 𝜀𝑥 𝑑𝜏 ∗ 𝑡+𝑇 ∗ 𝜀𝐻𝐽𝐼 𝑑𝜏 𝑡 Từ biểu thức (D.3), dễ thấy tồn số không âm 𝜆0 , cho: 𝑡+𝑇 𝐿= 𝑡+𝑇 𝛼2 𝑥 𝑇 𝑓 𝑥 + 𝑔𝑢 + 𝑘𝑑 𝑑𝜏 ≤ 𝑡 −𝛼2 𝜆0 𝑥 𝑑𝜏 (D.8) 𝑡 Thay 𝜀𝐻𝐽𝐼 từ (4.26) (D.8) vào (D.7), tính tổng bình phương theo số hạng 𝑡+𝑇 𝑡+𝑇 𝑇 𝑊 𝜙𝑥 𝐺 − 𝐾 𝜙𝑥𝑇 𝑊 𝑑𝜏 𝑊 𝑇 𝜙𝑥 𝑓 𝑥 + 𝑔𝑢∗ + 𝑘𝑑 ∗ + 𝑡 𝑡 𝐺 − 𝐾 𝜀𝑥 𝑑𝜏 ta có: 𝑡+𝑇 𝐿 = −𝛼2 𝜆0 𝑡 + 𝛼1 𝐴 𝑥 𝑑𝜏 − +𝐶 𝑚 2 𝛼1 𝐵2 − +𝐶 𝑚 3𝛼1 𝐵2 − +𝐴 𝑚 9𝛼1 𝛼1 2𝛼1 𝐴 − 𝐵 + 𝐶 4𝑚2 64𝑚2 𝑚2 𝑡+𝑇 ≤ −𝛼2 𝜆0 𝑥 𝑑𝜏 + 𝑡 (D.9) 9𝛼1 𝛼1 2𝛼1 𝐴 − 𝐵 + 𝐶 4𝑚2 64𝑚2 𝑚2 𝑡+𝑇 𝑊 𝑇 𝜙𝑥 𝑓 𝑥 + 𝑔𝑢∗ + 𝑘𝑑 ∗ + 𝐴= 𝑡 𝐺 − 𝐾 𝜀𝑥 𝑑𝜏 𝑡+𝑇 𝑊 𝑇 𝜙𝑥 𝐺 − 𝐾 𝜙𝑥𝑇 𝑊 𝑑𝜏 𝐵= (D.10) 𝑡 𝑡+𝑇 𝜀𝑥 𝑇 𝑓 𝑥 + 𝑔𝑢∗ + 𝑘𝑑 ∗ + 𝐶= 𝑡 139 𝐺 − 𝐾 𝜀𝑥 𝑑𝜏 Sử dụng chuẩn cho (D.10), thuộc tính xấp xỉ hàm (4.24) với tính chất 4.1, 4.2 giả thiết 4.7, ta có: 𝐶 ≤ 𝜆23 𝐴 𝑡+𝑇 𝑑𝜏 , 𝑡 ≤ 𝜆12 𝑡+𝑇 𝑡 𝑊 𝑑𝜏 𝜆1 = 𝜙𝑥𝑚𝑎𝑥 2 , − 𝐵 𝑡+𝑇 𝑡 ≤ −𝜆22 𝑊 𝑑𝜏 , 𝐺𝑚𝑎𝑥 − 𝐾𝑚𝑖𝑛 𝜀𝑥𝑚𝑎𝑥 + 𝜇 , 𝜆2 = 𝛼1 × 𝜙𝑥𝑚𝑖𝑛 𝐺𝑚𝑖𝑛 − 𝐾𝑚𝑎𝑥 , 𝜆3 = 𝜀𝑥𝑚𝑎𝑥 𝜇 + 𝐺𝑚𝑎𝑥 − 𝐾𝑚𝑖𝑛 𝜀𝑥𝑚𝑎𝑥 Sử dụng bất đẳng thức tích phân cho 𝐵 , ta có − 𝐵 ≤− 𝜆 22 𝑇2 𝑡+𝑇 𝑡 𝑊 𝑑𝜏 Thay 𝐴 , 𝐵 𝐶 vào (D.9), ta có: 𝑡+𝑇 𝐿 ≤ −𝜇0 𝑡+𝑇 𝑥 𝑑𝜏 − 𝜇2 𝑡 𝑊 𝑡 2 𝑑𝜏 𝜇1 − 2𝜇2 𝜇0 = 𝛼2 𝜆0 , 𝜇1 = 𝛼1 3𝜆1 /2𝑚 , 𝜇2 = 𝛼1 𝜆2 /8𝑇𝑚 𝜇12 + 𝜇3 + 4𝜇2 (D.11) 𝜇3 = 2𝛼1 𝑇𝜆3 /𝑚 𝐿 < 0, nếu: 𝑡+𝑇 𝑡 𝜇12 𝑥 𝑑𝜏 ≥ 𝜇 + = 𝑏𝑥 𝜇0 4𝜇2 𝑡+𝑇 (D.12) 𝜇12 𝜇1 𝜇3 + + = 𝑏𝑊 𝜇2 4𝜇2 2𝜇2 𝑊 𝑑𝜏 ≥ 𝑡 (D.13) Tiếp tục cho trường hợp cịn lại luật cập nhật (4.42) có xét đến 𝑊𝑅𝐵 Chọn hàm Chọn hàm Lyapunov sau: 𝐿 𝑡 = 1 𝛼2 𝑥 𝑇 𝑥 + 𝑊 𝑇 𝑊 + 𝛼2 𝛼3 𝑉𝑎 (𝑥) 2 (D.14) 𝑉𝑎 (𝑥) nghiệm khơng âm phương trình HJI (4.6) thỏa bất đẳng thức 𝑉𝑎 (𝑥) ≤ −𝑕𝑇 𝑥 𝑕 𝑥 − 𝑢 𝑅 + 𝛾2 𝑑 Đạo hàm (D.14), áp dụng luật (4.39) (4.40) cho 𝑥 , thêm số hạng 𝑊𝑅𝐵 từ luật cập nhật (4.42), sử dụng (D.6) với ý kết (D.9), để ý (4.13), ta có: 2 𝑡+𝑇 𝛼2 𝑇 𝜇1 𝑇 𝑇 𝐿 = 𝛼2 𝑥 𝑓 𝑥 − 𝑥 𝐺 − 𝐾 𝜙𝑥 𝑊 − 𝜇2 𝑊 𝑑𝜏 − + 𝜇3 2𝜇2 𝑡 (D.15) 𝜇12 + − 𝑄(𝑥) − 𝑢 2𝑅 + 𝛾 𝑑 4𝜇2 𝑄(𝑥) = 𝑥 𝑇 𝑄1 𝑥, với 𝑄1 ma trận bán xác định dương Theo giả thiết 4.5, số hạng (D.15) bị chặn 𝛼2 𝑥 𝑇 𝑓 𝑥 ≤ 𝛼2 𝛼 𝑥 (D.15) thỏa điều kiện − 𝛼2 𝑥 𝑇 𝐺 − 𝐾 𝜙𝑥𝑇 𝑊 ≤ 𝜆5 𝑥 140 Số hạng thứ hai với 𝜆5 = 𝛼2 𝐺𝑚𝑎𝑥 + 𝐾𝑚𝑖𝑛 × 𝜙𝑚𝑎𝑥 𝑊 Từ bất đẳng thức (D.15) viết thành: 𝑡+𝑇 𝐿 ≤ −𝛼2 𝛼3 𝜆𝑚𝑖𝑛 𝑄1 − α 𝑥 + 𝜆5 𝑥 − 𝜇2 𝑊 2 𝑑𝜏 𝑡 𝜇1 − 2𝜇2 (D.16) 𝜇12 + 𝜇3 + + 𝜇6 4𝜇2 𝜇6 = 𝛾 𝑑𝑚𝑎𝑥 (Giả thiết 4.6) Sử dụng bất đẳng thức tích phân cho (D.16): 𝑡+𝑇 𝐿 ≤ −𝜇4 𝑥 + 𝜇5 𝑥 − 𝜇2 𝑊 2 𝑑𝜏 𝑡 𝜇1 − 2𝜇2 𝜇12 + 𝜇3 + + 𝜇6 4𝜇2 (D.17) 𝜇4 = 𝛼2 𝛼3 𝜆𝑚𝑖𝑛 𝑄1 − α > 0, 𝜇5 = 𝜆5 , 𝛼3 chọn cho: 𝛼3 > 𝛼 (D.18) 𝜆𝑚𝑖𝑛 𝑄1 Phương trình (D.17) biến đổi thành: 𝜇5 𝑥 − 2𝜇4 𝐿 ≤ −𝜇4 𝜇52 + − 𝜇2 4𝜇4 𝑡+𝑇 𝑊 𝑡 2 𝑑𝜏 𝜇1 − 2𝜇2 𝜇12 + 𝜇3 + 4𝜇2 (D.19) + 𝜇6 Từ (D.19), ta có 𝐿 < nếu: 𝑥 ≥ 𝑡+𝑇 𝑊 𝑑𝜏 ≥ 𝑡 𝜇52 𝜇12 + 𝜇3 + + 𝜇6 = 𝑏𝑥 𝜇4 4𝜇4 4𝜇2 𝜇12 𝜇52 𝜇1 𝜇3 + + + 𝜇6 + = 𝑏𝑊 𝜇2 4𝜇2 4𝜇4 2𝜇2 (D.20) (D.21) Theo (D.12), (D.20) (D.13), (D.21), dễ thấy 𝑥 sai số xấp xỉ NN 𝑊 làm cho 𝐿 vượt biên tập đóng, 𝑏𝑥 = max 𝑏𝑥 , 𝑏𝑥 , 𝑏𝑊 = max 𝑏𝑊 , 𝑏𝑊 , luật cập nhật (4.42) làm 𝐿 ≤ Như vậy, theo Định lý Lyapunov mở rộng [73] tồn trạng thái hệ kín sai số xấp xỉ NN bị chặn UUB Để chứng minh khả hội tụ hàm đánh giá xấp xỉ, ta lấy hiệu hai biểu thức (4.24) (4.33), sử dụng chặn ý (D.13) (D.21) ta có: 𝑉∗ − 𝑉 ≤ 𝑊 𝜙 + 𝜀 ≤ 𝑏𝑊 𝜙𝑚𝑎𝑥 + 𝜀𝑚𝑎𝑥 = 𝜀𝑉 (D.22) Để chứng minh hội tụ luật điều khiển luật nhiễu ta lấy hiệu biểu thức (4.21) với (4.22), biểu thức (4.39) với (4.40), sử dụng chặn ý 141 (D.13) (D.20) ta có: 𝜎 𝑅 𝑏𝑊 𝜙𝑥𝑚𝑎𝑥 + 𝜀𝑚𝑎𝑥 𝑔𝑚𝑎𝑥 = 𝜀𝑢 𝑚𝑖𝑛 𝑑∗ − 𝑑 ≤ 𝑏𝑊 𝜙𝑥𝑚𝑎𝑥 + 𝜀𝑚𝑎𝑥 𝑘𝑚𝑎𝑥 = 𝜀𝑑 2𝛾 𝑢∗ − 𝑢 ≤ 𝜆𝑚𝑖𝑛 𝑅 giá trị riêng nhỏ ma trận 𝑅 Điều phải chứng minh 142 (D.23) (D.24) PHỤ LỤC E MẠNG RBF DÙNG ĐỂ XÁC ĐỊNH VỊ TRÍ ROBOT Để ánh xạ nội suy tọa độ tâm vật mốc từ không gian thị giác đa chiều (pixel) sang không gian thực (cm), mạng RBF học off-line sau sử dụng Tập mẫu vào mong muốn (625×625 điểm) dùng để huấn luyện RBF trình bày Hình E.1 E.2, tập ngõ vào điểm đo không gian ảnh (pixel) biểu diễn điểm tọa độ tâm vật mốc hệ trục OXY gắn liền với robot, tương ứng với tập ngõ mong muốn biểu diễn điểm tọa độ tâm vật mốc hệ trục OXY đo không gian thực (cm) dụng cụ đo thực tế Y(pixel) 150 100 y (pixel) 50 01 X(pixel) -50 -100 -150 -150 -100 -50 50 100 150 x (pixel) Hình E.1 Tập mẫu ngõ vào đo không gian ảnh Y(cm) 200 150 100 y (cm) 50 01 -50 X(cm) -100 -150 -200 -200 -150 -100 -50 50 100 150 200 x (cm) Hình E.2 Tập mẫu ngõ mong muốn đo khơng gian thực 143 Y(cm) 200 x-y (Mẫu) x-y (RBF) 150 100 50 01 -50 X(cm) -100 -150 -200 -200 -100 100 200 Hình E.3 Kết huấn luyện RBF so với mẫu mong muốn Y(pixel) 150 Maãu RBF 100 y (pixel) 50 01 X(cm) -50 -100 -150 -200 -100 100 200 x (cm) Hình E.4 Ngõ RBF so với mong muốn biểu diễn theo X (cm)-Y (pixel) Y(cm) 200 Maãu RBF 150 100 y (cm) 50 01 X(pixel) -50 -100 -150 -200 -150 -100 -50 50 100 150 x (pixel) Hình E.5 Ngõ RBF huấn luyện biểu diễn theo Y(cm)-X(pixel) 144 không gian thực (cm) Tâm hàm tác động RBF chọn tập mẫu ngõ vào Ngõ mạng xác định 𝑧 = 𝛷𝑇 𝑊, 𝑊 ∈ ℝ625×2 ma trận trọng số 𝛷 ∈ ℝ625×2 véc tơ hàm tác động biểu diễn tổng khoảng cách (pixel) từ mẫu ngõ vào đến phần tử tập tâm hàm tác động Hình E.3, E.4 E.5 trình bày kết ngõ từ RBF huấn luyện so với ngõ mong muốn, H E.3 biểu diễn ánh xạ ngõ RBF so với ngõ mong muốn tập mẫu theo hệ trục X-Y (cm), Hình E.4 biểu diễn ngõ (cm) theo trục X so với ngõ vào (pixel) theo trục Y RBF so với tập mẫu, Hình E.5 biểu diễn ngõ vào (pixel) theo trục Y so với ngõ (cm) RBF so với tập mẫu Với ma trận trọng số cuối cùng, RBF huấn luyện có khả nội suy phi tuyến tất vị trí cịn lại tâm vật mốc so với tâm robot thị trường quan sát hệ thống thị giác đa chiều 145 PHỤ LỤC F CHỨNG MINH BỔ ĐỀ 6.1 Chứng minh: Xét hàm Lyapunov sau: 𝐿𝑖 𝑡 = 𝛼2 Đạo hàm 𝐿𝑖 𝑡 , ta có: 𝑡+𝑇 𝑡 𝑒𝑖𝑇 𝑒𝑖 𝑑𝜏 + trace 𝑊𝑖𝑇 𝑊𝑖  (F.1) 𝑡+𝑇 𝑒𝑖𝑇 𝑒𝑖 𝑑𝜏 + 𝑊𝑖𝑇 𝑊𝑖 𝐿 𝑖 𝑡 = 𝛼2 (F.2) 𝑡 𝑇 𝑇 Trước tiên xét luật cập nhật (6.35) thỏa điều kiện 𝑒𝑖(𝑡+𝑇) 𝑒𝑖(𝑡+𝑇) ≤ 𝑒𝑖𝑡𝑇 𝑒𝑖𝑡𝑇 , nghĩa bỏ qua 𝑊𝑅𝐵𝑖 , ta có: 𝑡+𝑇 𝑇 𝑇 𝑒𝑖(𝑡+𝑇) 𝑒𝑖(𝑡+𝑇) − 𝑒𝑖𝑡𝑇 𝑒𝑖𝑡𝑇 𝑡+𝑇 𝑒𝑖𝑇 𝑒𝑖 𝑑𝜏 =2 𝑡 𝑡 × 𝐺𝑖 𝑢𝑖 + 𝐾𝑖 𝑑𝑖 − Thay 𝑄𝑖 (𝑒𝑖 ) từ (6.25) vào (6.33), ta có: 𝑄𝑖 𝑒𝑖 = −𝑊𝑖𝑇 𝜙𝑒𝑖 𝐹𝑒𝑖 + 𝑒𝑖𝑇 𝐹𝑒𝑖 + (𝑕𝑖 + 𝑧𝑖 =2 𝑗 ∈ℕ𝑖 𝑎𝑖𝑗 𝐺𝑗 𝑢𝑗 + 𝐾𝑗 𝑑𝑗 (F.3) 𝑑𝜏 ≤ 𝑇 𝑕𝑖 + 𝑧𝑖 𝑊𝑖𝑇 𝜙𝑒𝑖 𝐺𝑖 − 𝐾𝑖 𝜙𝑒𝑖 𝑊𝑖 − 𝑊𝑖𝑇 𝜙𝑒𝑖 𝑗 ∈ℕ𝑖 𝑎𝑖𝑗 𝑕𝑗 + 𝑧𝑗 𝐺𝑗 − 𝑇 𝐾𝑗 𝜙𝑒𝑗 𝑊𝑗 (F.4) − ℰ𝐻𝐽𝐼𝑖 Biến đổi 𝜎𝑖 từ (6.38) thành: 𝑡+𝑇 𝜎𝑖 = 𝑡 𝑊𝑖𝑇 𝜙𝑒𝑖 𝐹𝑒𝑖 + 𝑕𝑖 + 𝑧𝑖 + 𝐺𝑖 𝑢𝑖∗ + 𝐾𝑖 𝑑𝑖∗ + 𝑇 𝑕 + 𝑧𝑖 𝐺𝑖 − 𝐾𝑖 𝜙𝑒𝑖 𝑊𝑖 − 𝑖 𝑕 + 𝑧𝑖 𝐺𝑖 − 𝐾𝑖 𝜀𝑒𝑖 𝑖 𝑎𝑖𝑗 𝐺𝑗 𝑢𝑗∗ + 𝐾𝑗 𝑑𝑗∗ (F.5) 𝑗 ∈ℕ𝑖 1 𝑇 𝑕𝑗 + 𝑧𝑗 𝐺𝑗 − 𝐾𝑗 𝜀𝑒𝑗 + 𝑕𝑗 + 𝑧𝑗 𝐺𝑗 − 𝐾𝑗 𝜙𝑒𝑗 𝑊𝑗 𝑑𝜏 2 ∀𝑘 = {𝑖, 𝑗: 𝑖 ∈ 𝑁, 𝑗 ∈ ℕ𝑖 }, 𝑊𝑘 = 𝑊𝑘 − 𝑊𝑘 sai số xấp xỉ NN Thay (F.4) + (F.5) vào (6.35), để ý 𝑊𝑖 = −𝑊𝑖 , ta có: 𝛼1𝑖 𝑡+𝑇 𝑊𝑖 = − 𝜙𝑒𝑖 𝐹𝑒𝑖 + 𝑕𝑖 + 𝑧𝑖 𝐺𝑖 𝑢𝑖∗ + 𝐾𝑖 𝑑𝑖∗ + 𝑕𝑖 + 𝑧𝑖 𝐺𝑖 − 𝐾𝑖 𝜀𝑒𝑖 𝑚𝑖 𝑡 1 𝑇 + 𝑕𝑖 + 𝑧𝑖 𝐺𝑖 − 𝐾𝑖 𝜙𝑒𝑖 𝑊𝑖 − 𝑎𝑖𝑗 𝐺𝑗 𝑢𝑗∗ + 𝐾𝑗 𝑑𝑗∗ + 𝑕𝑗 + 𝑧𝑗 𝐺𝑗 − 𝐾𝑗 𝜀𝑒𝑗 2 𝑗 ∈ℕ𝑖 𝑡+𝑇 𝑇 + 𝑕𝑗 + 𝑧𝑗 𝐺𝑗 − 𝐾𝑗 𝜙𝑒𝑗 𝑊𝑗 𝑑𝜏 𝑊𝑖𝑇 𝜙𝑒𝑖 𝐹𝑒𝑖 + 𝑕𝑖 + 𝑧𝑖 𝐺𝑖 𝑢𝑖∗ + 𝐾𝑖 𝑑𝑖∗ 𝑡 1 𝑇 + 𝑕𝑖 + 𝑧𝑖 𝐺𝑖 − 𝐾𝑖 𝜀𝑒𝑖 + 𝑕𝑖 + 𝑧𝑖 𝐺𝑖 − 𝐾𝑖 𝜙𝑒𝑖 𝑊𝑖 − 𝑊𝑖𝑇 𝜙𝑒𝑖 𝑎𝑖𝑗 𝐺𝑗 𝑢𝑗∗ 𝑗 ∈ℕ𝑖 146 (F.6) 1 𝑇 𝑕𝑗 + 𝑧𝑗 𝐺𝑗 − 𝐾𝑗 𝜀𝑒𝑗 + 𝑕𝑗 + 𝑧𝑗 𝐺𝑗 − 𝐾𝑗 𝜙𝑒𝑗 𝑊𝑗 + ℰ𝐻𝐼𝐽𝑖 𝑑𝜏 𝑚𝑖 = 𝜎𝑖𝑇 𝜎𝑖 + Thay động học nút 𝑖 dẫn từ (6.13) áp dụng +𝐾𝑗 𝑑𝑗∗ + luật (6.31) (6.32) vào luật cập nhật (6.35), để ý biểu thức (F.6): 𝑡+𝑇 𝛼2𝑖 𝑒𝑖𝑇 𝐹𝑒𝑖 + 𝑕𝑖 + 𝑧𝑖 𝐺𝑖 𝑢𝑖 + 𝐾𝑖 𝑑𝑖 − 𝐿𝑖 = 𝑡 𝑡+𝑇 𝛼1𝑖 − 𝑚𝑖 𝑊𝑖𝑇 𝜙𝑒𝑖 𝐹𝑒𝑖 + 𝑕𝑖 + 𝑧𝑖 𝐺𝑖 𝑢𝑖∗ + 𝐾𝑖 𝑑𝑖∗ + 𝑡 𝑎𝑖𝑗 𝐺𝑗 𝑢𝑗∗ + 𝐾𝑗 𝑑𝑗∗ + − 𝑗 ∈ℕ𝑖 𝑕 + 𝑧𝑗 𝑗 𝑎𝑖𝑗 𝐺𝑗 𝑢𝑗 + 𝐾𝑗 𝑑𝑗 𝑗 ∈ℕ𝑖 𝐺𝑗 − 𝐾𝑗 𝜀𝑒𝑗 𝑑𝜏 𝑕 + 𝑧𝑖 𝐺𝑖 − 𝐾𝑖 𝜀𝑒𝑖 𝑖 𝑡+𝑇 𝛼1𝑖 𝑑𝜏 − 𝑊𝑖𝑇 8𝑚𝑖2 𝑡 × 𝜙𝑒𝑖 − 𝑕𝑖 + 𝑧𝑖 𝑇 𝐺𝑖 − 𝐾𝑖 𝜙𝑒𝑖 𝑊𝑖 − 𝑗 ∈ℕ𝑖 𝑊𝑖𝑇 𝜙𝑒𝑖 𝐹𝑒𝑖 + 𝑕𝑖 + 𝑧𝑖 𝑡 𝐺𝑗 𝑢𝑗∗ 𝑎𝑖𝑗 + 𝐾𝑗 𝑑𝑗∗ 𝑗 ∈ℕ𝑖 × 𝐺𝑖 − 𝑇 𝐾𝑖 𝜙𝑒𝑖 𝑊𝑖 𝐺𝑖 𝑢𝑖∗ + 𝐾𝑖 𝑑𝑖∗ + 𝐺𝑗 − 𝐾𝑗 𝜀𝑒𝑗 𝑡 𝑎𝑖𝑗 𝑕𝑗 + 𝑧𝑗 𝐺𝑖 𝑢𝑖∗ + 𝐾𝑖 𝑑𝑖∗ + 𝑊𝑖𝑇 𝜙𝑒𝑖 𝑕𝑖 + 𝑧𝑖 𝑑𝜏 𝐺𝑗 − 𝑇 𝐾𝑗 𝜙𝑒𝑗 𝑊𝑗 𝑗 ∈ℕ𝑖 × 𝐹𝑒𝑖 + 𝑕𝑖 + 𝑧𝑖 𝑕 + 𝑧𝑖 𝐺𝑖 − 𝐾𝑖 𝜀𝑒𝑖 𝑖 𝑡+𝑇 + 𝑕𝑗 + 𝑧𝑗 − 𝑇 𝐺𝑗 − 𝐾𝑗 𝜙𝑒𝑗 𝑊𝑗 𝑑𝜏 𝑎𝑖𝑗 𝑕𝑗 + 𝑧𝑗 𝑡+𝑇 3𝛼1𝑖 4𝑚𝑖2 − 𝛼1𝑖 𝑑𝜏 − 𝑚𝑖 𝑕 + 𝑧𝑖 𝐺𝑖 − 𝐾𝑖 𝜀𝑒𝑖 𝑖 𝑡+𝑇 𝛼1𝑖 − 2𝑚𝑖2 𝑊𝑖𝑇 𝜙𝑒𝑖 𝑡 𝑕𝑖 + 𝑧𝑖 (F.7) 𝑡+𝑇 𝑊𝑖𝑇 𝜙𝑒𝑖 𝑡 𝑡+𝑇 𝑑𝜏 ℰ𝐻𝐽𝐼𝑖 𝑑𝜏 𝑡 𝑇 𝐺𝑖 − 𝐾𝑖 𝜙𝑒𝑖 𝑊𝑖 𝑡+𝑇 − 𝑗 ∈ℕ𝑖 𝑎𝑖𝑗 𝑕𝑗 + 𝑧𝑗 𝐺𝑗 − 𝐾𝑗 𝜙𝑇𝑒𝑗 𝑊𝑗 𝑑𝜏 Từ (F.3) dễ thấy ln có số dương 0 cho: ℰ𝐻𝐽𝐼𝑖 𝑑𝜏 𝑡 𝑡+𝑇 𝑒𝑖𝑇 𝐹𝑒𝑖 + (𝑕𝑖 + z𝑖 𝛼2𝑖 𝐺𝑖 𝑢𝑖 + 𝐾𝑖 𝑑𝑖 − 𝑡 𝑎𝑖𝑗 𝐺𝑗 𝑢𝑗 + 𝐾𝑗 𝑑𝑗 𝑑𝜏 (F.8) 𝑗 ∈ℕ𝑖 𝑡+𝑇 ≤ −𝛼2𝑖 𝜆0 𝑒𝑖 𝑑𝜏 𝑡 Biến đổi (F.7) dạng tổng bình phương: 𝑡+𝑇 𝐿𝑖 = 𝑡 𝛼1𝑖 − 𝑚𝑖 𝛼2𝑖 𝑒𝑖𝑇 𝐹𝑒𝑖 + 𝑕𝑖 + 𝑧𝑖 𝐺𝑖 𝑢𝑖 + 𝐾𝑖 𝑑𝑖 − 𝐴 +𝐶 2 𝐵 + +𝐶 𝐵 +3 +𝐴 147 𝑗 ∈ℕ𝑖 𝑎𝑖𝑗 𝐺𝑗 𝑢𝑗 + 𝐾𝑗 𝑑𝑗 − 𝐴2 + 𝐵 − 2𝐶 49 64 𝑑𝜏 (F.9) Trong (F.9) số hạng định nghĩa: 𝑡+𝑇 𝑇 𝑡 × 𝐺𝑗 𝑢𝑗∗ + 𝐾𝑗 𝑑𝑗∗ + 𝑡+𝑇 𝑇 𝑊𝑖 𝜙𝑒𝑖 𝐵= 𝑡 𝐺𝑖 𝑢∗𝑖 + 𝐾𝑖 𝑑∗𝑖 + 𝑊𝑖 𝜙𝑒𝑖 𝐹𝑒𝑖 + 𝑕𝑖 + 𝑧𝑖 𝐴= 𝑕 + 𝑧𝑗 𝑗 𝑕𝑖 + 𝑧𝑖 𝑕 + 𝑧𝑖 𝐺𝑖 − 𝐾𝑖 𝜀𝑒𝑖 − 𝑖 𝐺𝑗 − 𝐾𝑗 𝜀𝑒𝑗 𝑎𝑖𝑗 𝑗∈ℕ𝑖 𝑑𝜏 𝑇 𝐺𝑖 − 𝐾𝑖 𝜙𝑒𝑖 𝑊𝑖 − 𝑗 ∈ℕ𝑖 𝑎𝑖𝑗 𝑕𝑗 + 𝑧𝑗 𝑇 𝐺𝑗 − 𝐾𝑗 𝜙𝑒𝑗 𝑊𝑗 𝑑𝜏 𝑡+𝑇 ℰ𝐻𝐽𝐼𝑖 𝑑𝜏 𝐶= 𝑡 Sử dụng chuẩn bất đẳng thức tích phân Cauchy-Schwarz ta có: 𝑡+𝑇 𝐴 ≤ 𝜆12 𝑊𝑖 𝑑𝜏 , 𝑡 𝑡+𝑇 − 𝐵 𝜆2 𝑊𝑖 𝑑𝜏 + ≤− 𝜆3 𝑊 𝑖 𝑡 𝑡 𝑡+𝑇 ≤− 2 𝜆2 𝑊𝑖 𝑑𝜏 𝑡 𝑡+𝑇 ≤− 𝑡+𝑇 𝐶 𝜆3 𝑊 𝑖 ≤− 𝜆22 𝑊𝑖 𝑑𝜏 , 𝑇2 𝑡 ≤ ℰ2𝐻𝐽𝐼𝑖 𝑇2 𝑡 𝑎𝑖𝑗 𝛾𝑖𝑚𝑎𝑥 + 𝐾𝑖𝑚𝑎𝑥 , 𝜆3 = 𝑗 ∈ℕ𝑖 𝑡+𝑇 𝜆1 = 𝜙𝑒𝑖𝑚𝑎𝑥 𝐹𝑚𝑎𝑥 + 𝑕𝑖 + 𝑧𝑖 𝛾𝑖𝑚𝑎𝑥 + 𝑗 ∈ℕ𝑖 𝑊𝑗 𝑑𝜏 𝑡 ℰ𝐻𝐽𝐼𝑖 𝑑𝜏 ≤ 𝑡+𝑇 2 𝑊𝑗 𝑑𝜏 − 𝜆2 𝑊𝑖 𝑑𝜏 𝑡 𝑡+𝑇 2 𝑕𝑗 + 𝑧𝑗 𝑕𝑖 + 𝑧𝑖 𝐺𝑗𝑚𝑎𝑥 − 𝐾𝑗𝑚𝑖𝑛 𝜀𝑒𝑗𝑚𝑎𝑥 , 𝑎𝑖𝑗 𝜙𝑒𝑗𝑚𝑎𝑥 𝑕𝑗 + 𝑧𝑗 𝐺𝑖𝑚𝑎𝑥 − 𝐾𝑖𝑚𝑖𝑛 𝜀𝑒𝑖𝑚𝑎𝑥 + 𝜆2 = 𝜙𝑒𝑖𝑚𝑖𝑛 𝑕𝑖 + 𝑧𝑖 𝐺𝑖𝑚𝑖𝑛 − 𝐺𝑗𝑚𝑎𝑥 − 𝐾𝑗𝑚𝑖𝑛 Thay (F.8) 𝐴 , 𝐵 , 𝐶 định nghĩa vào (F.9), ta có: 𝑡+𝑇 𝑒𝑖 𝑑𝜏 − 𝜇2 𝐿𝑖 ≤ −𝜇0 𝑡+𝑇 𝑡 𝑊𝑖 𝑑𝜏 𝑡 𝜇1 − 𝜇2 𝜇12 + 𝜇3 + 4𝜇2 (F.10) với 𝜇0 = 𝛼2 𝜆0 , 𝜇1 = 𝛼1 𝜆1 2𝑚𝑖 , 𝜇2 = 𝛼1 𝜆2 8𝑇𝑚𝑖 , 𝜇3 = 2𝛼1 𝑇ℰ𝐻𝐽𝐼𝑖𝑚𝑎𝑥 𝑚𝑖 𝐿𝑖 (F.10) âm nếu: 𝑡+𝑇 𝑡 𝜇21 𝑒𝑖 𝑑𝜏 ≥ 𝜇 + = 𝑏𝑒𝑖 𝜇0 4𝜇2 (F.11) 𝑡+𝑇 𝑊𝑖 𝑑𝜏 ≥ 𝑡 𝜇2 𝜇1 𝜇3 + + = 𝑏𝑊 𝑖 2𝜇2 2𝜇2 148 (F.12) Vậy theo (F.11) (6.49) ta thấy, trạng thái hệ kín 𝑒𝑖 𝑊𝑖 làm cho 𝐿𝑖 vượt qua biên giới ổn định luật cập nhật (6.35) làm cho đạo hàm 𝐿𝑖 Từ đó, theo Định lý Lyapunov mở rộng [73], ổn định UUB hệ thống Bổ đề 6.1 chứng minh Để chứng minh hàm đánh giá hội tụ, trừ (6.26) (6.30), để ý đến (6.49), ta có: 𝑏 𝜙 + 𝜀𝑒𝑖𝑚𝑎𝑥 = 𝑏𝑣𝑖 𝑇 𝑊 𝑖 𝑒𝑖𝑚𝑎𝑥 Tương tự, để chứng minh ngõ vào điều khiển ngõ vào ước lượng nhiễu xấu nhất, ta 𝑉𝑖∗ − 𝑉𝑖 ≤ 𝑊𝑖 𝜙𝑒𝑖 + 𝜀𝑒𝑖 ≤ trừ cặp biểu thức (6.23) với (6.31) (6.24) với (6.32) ta có: 𝑢𝑖∗ − 𝑢𝑖 ≤ 𝑏 𝜙 + 𝜀𝑒𝑖𝑚𝑎𝑥 𝑇 𝑊 𝑖 𝑒𝑖𝑚𝑎𝑥 𝑕𝑖 + 𝑧𝑖 𝜎𝑚𝑖𝑛 𝑅𝑖 𝐺𝑖𝑚𝑎𝑥 = 𝑏𝑢𝑖 Và 𝑑𝑖∗ − 𝑑𝑖 ≤ 𝑏 𝜙 + 𝜀𝑒𝑖𝑚𝑎𝑥 𝑇 𝑊 𝑖 𝑒𝑖𝑚𝑎𝑥 𝑕𝑖 + 𝑧𝑖 𝐾𝑖𝑚𝑎𝑥 2𝜌𝑖2 = 𝑏𝑑𝑖 𝑏𝑣𝑖 , 𝑏𝑢𝑖 𝑏𝑑𝑖 số dương Một cách tương tự, ta chứng minh ổn định hội tụ trường hợp có mặt 𝑊𝑅𝐵𝑖 luật cập nhật (6.35) Ta có điều phải chứng minh 149 ... động học nội trước Giải thuật điều khiển cho nhiều hệ phi tuyến (1.3) mà luận án nghi? ?n cứu giải thuật học củng cố điều khiển hợp tác thích nghi bền vững phát triển mở rộng tảng giải thuật điều khiển. .. MỤC CÁC GIẢI THUẬT VÀ BẢNG BIỂU Giải thuật 2.1 Giải thuật 2.2 Giải thuật 2.3 Giải thuật 2.4 Giải thuật 2.5 Giải thuật 2.6 Giải thuật 2.7 Giải thuật 3.1 Giải thuật 4.1 Giải thuật 5.1 Giải thuật. .. ổn định hệ thống, khơng sử dụng luật điều khiển luật cập nhật tham số Giải thuật điều khiển cho đối tượng (1.2) mà luận án nghi? ?n cứu giải thuật học củng cố điều khiển thích nghi bền vững phát

Ngày đăng: 27/04/2021, 14:21

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w