Bài viết này trình bày vấn đề của luật điều khiển tối ưu thích nghi cho các hệ phi tuyến với nhiễu đầu vào và các tham số chưa biết. Mục tiêu chính là tìm ra luật điều khiển tối ưu thích nghi dựa trên phương pháp quy hoạch động thích nghi (Adaptive Dynamic Programming (ADP)), trong đó qui hoạch động thích nghi online (Online Adaptive Dynamic Programming (OADP)) là giải thuật được phân tích và thiết kế và nó có thể ổn định hệ thống vòng kín.
ĐIỀU KHIỂN TỐI ƯU TRỰC TUYẾN CHO CÁC HỆ PHI TUYẾN LIÊN TỤC Vũ Văn Tú Khoa Điện - Cơ Email: tuvv@dhhp.edu.vn Nguyễn Thị Thu Hiền Khoa Điện-Cơ Email: hienntt85@dhhp.edu.vn Ngày nhận bài: 18/3/2019 Ngày PB đánh giá: 27/4/2019 Ngày duyệt đăng: 29/4/2019 TĨM TẮT Bài báo trình bày vấn đề luật điều khiển tối ưu thích nghi cho hệ phi tuyến với nhiễu đầu vào tham số chưa biết Mục tiêu tìm luật điều khiển tối ưu thích nghi dựa phương pháp quy hoạch động thích nghi (Adaptive Dynamic Programming (ADP)), qui hoạch động thích nghi online (Online Adaptive Dynamic Programming (OADP)) giải thuật phân tích thiết kế ổn định hệ thống vòng kín Bên cạnh đó, đặc tính hội tụ thuật toán đề xuất Các phân tích lý thuyết kết mơ chứng minh hiệu thuật toán đề xuất Từ khóa: Xấp xỉ quy hoạch động, điều khiển tối ưu thích nghi, qui hoạch động thích nghi online ONLINE OPTIMAL CONTROL OF CONTINUOUS-TIME AFFINE NONLINEAR SYSTEMS ABTRACT This paper presents the problem of adaptive optimal control law for nonlinear systems with input disturbance and unknown parameters The main objective is to find an adaptive optimal control law based on the adaptive dynamic programming (ADP) method, in which Online Adaptive Dynamic Programming (OADP) is an analyzed and designed algorithm and it is able to stabilize the closed-loop system Besides, the convergence properties of proposed algorithm is pointed out The theoretical analysis and simulation results demonstrate the performance of the proposed algorithm Keywords: Adaptive dynamic programming (ADP), adaptive optimal control law, Online Adaptive Dynamic Programming (OADP) TẠP CHÍ KHOA HỌC, Số 34, tháng 05 năm 2019 77 ĐẶT VẤN ĐỀ Vấn đề điều khiển tối ưu cho hệ phi tuyến động liên tục nghiên cứu sâu vài thập kỷ Một thách thức cốt lõi vấn đề điều khiển tối ưu phi tuyến thường rơi vào giải phương trình tốn HJB Người ta biết phương trình HJB thực phương trình vi phân phần, khó khăn khơng thể giải phương pháp phân tích Để giải vấn đề này, pháp triển chương trình xấp xỉ điều khiển tối ưu cho hệ phi tuyến liên tục affine sử dụng phương pháp thích nghi quy hoạch động NỘI DUNG NGHIÊN CỨU 2.1 Hệ chuyển mạch phi tuyến có nhiễu đầu vào Xét hệ chuyển mạch có nhiễu đầu vào xác định phương trình sau: = x f i ( x ) + gi ( x ) ( u + ∆ ( x, t ) ) (1) Trong x ( t ) ∈ Ω x ∈ R vector trạng thái đo được, u ( t ) ∈ Ωu ∈ R tín hiệu điều khiển Hàm σ Ù : 0, +∞ ) → = {1, 2, , M } hàm chọn chế độ hệ, biết theo thời gian, liên tục khoảng, M số lượng hệ f i ( x ) vector hàm chưa biết thỏa mãn f i ( ) = g i ( x ) vector hàm biết thỏa mãn: G ≤ gi ( x ) ≤ Gmax ∆ ( x, t ) nhiễu, bất định hệ thống không xác định n m Giả sử 1: Tồn hàm biết thỏa mãn: Với hệ (1), ta xét hàm mục tiêu sau: ∞ J ( x ( t ) , u ( t ) ) = ∫ r ( x (τ ) , u (τ ) ) dτ (2) t R RT > Trong r ( x (τ ) , u = Q QT > 0; = (τ ) ) xT Qx + uT Ru ma trận= Mục tiêu tìm điều khiển u xác định hàm chặn K ( u ) thỏa mãn K ( u ) ≤ M , để hệ (1) ổn định bền hàm mục tiêu (2) phải tVector trọng lượng cập nhật: wˆ = −α ∂E (29) ∂wˆ T với E = eHJB eHJB Định lý [4]: Bằng cách sử dụng luật điều khiển (26) vector trọng lượng học theo = w − wˆ trạng thái mạng NN cập nhật theo luật (29), sai lệch vector trọng lượng w x ( t ) hệ kín ổn định UUB Chứng minh: = w − wˆ ⇒ w = − wˆ Đặt: w Xét hàm Lyapunov sau: T V ( t ) =+ V1 ( t ) V2 ( t ) ;V1 ( t ) = w ( t ) w ( t ) ;V2 ( t ) = V* 2α Tác giả chọn theo báo ghi danh mục tài liệu tham khảo Đạo hàm hàm V1 ( t ) , ta thu được: 1 T T T ∂E V1 ( t ) = w ( t ) w ( t ) = − w ( t ) wˆ ( t ) = w ( t ) ∂wˆ α α V1 = w T eHJB ∇σ ( x ) ( fi ( x ) + gi ( x ) uˆ ) Kết hợp (14) (26) ta có: T uˆ − u * = − R −1 ( gi ( x ) ) ∇Vˆ − ∇V * T T T = − R −1 ( gi ( x ) ) ∇σ ( x ) wˆ − ( ∇σ ( x ) ) w − ∇ε ( x ) ( ) ( T −1 R ( gi ( x ) ) ( ( ∇σ ( x ) ) T ) ) w + ∇ε ( x ) Mặt khác ta có: ∇σ ( x ) ( fi ( x ) + gi ( x ) uˆ ) = ∇σ ( x ) ( fi ( x ) + gi ( x ) u * ) + ∇σ ( x ) gi ( x ) ( uˆ − u * ) ( ) T T = ∇σ ( x ) fi ( x ) + gi ( x ) u * + gi ( x ) R −1 gi ( x ) ∇σ ( x ) w + ∇ε ( x ) 82 TRƯỜNG ĐẠI HỌC HẢI PHÒNG Từ (24) (28) suy ra: ( eHJB − eNN =− ∇σ ( x ) w T ) T fi ( x ) (29) T T T T −1 ( w − wˆ ) ∇σ ( x ) gi ( x ) R gi ( x ) ∇σ ( x ) w + + wˆ T ∇σ ( x ) g ( x ) R −1 g ( x )T ∇σ ( x )T ( w − wˆ ) i i T T T T eHJB − eNN = ∇σ ( x ) wˆ fi ( x ) − ∇σ ( x ) w fi ( x ) (30) ( ) ( ) T T T −1 w ∇σ ( x ) g i ( x ) R g i ( x ) ∇σ ( x ) w + − wˆ T ∇σ ( x ) g ( x ) R −1 g ( x )T ∇σ ( x )T wˆ i i T T T T + ∇σ ( x ) wˆ gi ( x ) R −1 ( gi ( x ) ) ( ∇σ ( x ) ) w + ∇ε ( x ) ( ( ) eHJB − eNN = − w T ∇σ ( x ) fi ( x ) ) (31) (32) T −1 w ∇σ ( x ) gi ( x ) R gi ( x ) ∇σ ( x ) w + + wˆ T ∇σ ( x ) g ( x ) R −1 g ( x )T ∇σ ( x )T w i i T eHJB − eNN = − w T ∇σ ( x ) fi ( x ) T T T + w T ∇σ ( x ) gi ( x ) R −1 gi ( x ) ∇σ ( x ) w T T − w T ∇σ ( x ) gi ( x ) R −1 gi ( x ) ∇σ ( x ) w T T Vì u * = − R −1 ( g i ( x ) ) ( ∇σ ( x ) ) w + ∇ε ( x ) nên ta có: ) ( T eHJB − eNN = − w T ∇σ ( x ) fi ( x ) + w T ∇σ ( x ) gi ( x ) −u * − R −1 gi ( x ) ∇ε ( x ) T T − w T ∇σ ( x ) gi ( x ) R −1 gi ( x ) ∇σ ( x ) w (33) T eHJB = eNN − w T ∇σ ( x ) ( fi ( x ) + gi u * ) − w T ∇σ ( x ) gi ( x ) R −1 gi ( x ) ∇ε ( x ) (34) T T − w T ∇σ ( x ) gi ( x ) R −1 gi ( x ) ∇σ ( x ) w Giả sử 3: fi ( x ) + gi ( x ) u * ≤ µmax Kí hiệu: µi =fi ( x ) + gi ( x ) u * ; Gi =gi ( x ) R −1 gi ( x ) ; ∇σ =∇σ ( x ) ; ∇ε =∇ε ( x ) T Từ phương trình (34) ta có: TẠP CHÍ KHOA HỌC, Số 34, tháng 05 năm 2019 83 −eNN + w T ∇σµi µi + T T V1 ( t ) = − w + w ∇σ Gi ∇ε ∇σ ( x ) Gi ( ∇σ T w + ∇ε ) 2 + w T ∇σ Gi ∇σ T w (35) V1 ( t ) = − ( w T ∇σ Gi ∇σ T w ) 1 1 − ( w T ∇σµi ) + ( w T ∇σ Gi ∇ε ) + ( w T ∇σµi ) + eNN ( w T ∇σ Gi ∇σ T w ) 4 (36) − ( w T ∇σµi ) + eNN − ( w T ∇σ Gi ∇ε ) ( w T ∇σµi ) 3 T w ∇σµi ) ( T T V1 ( t ) = − ( w T ∇σ Gi ∇σ T w ) − ( w ∇σ Gi ∇σ w ) + ( w T ∇σ G ∇ε ) + e i NN (37) − ( w T ∇σµi ) + eNN − ( w T ∇σ Gi ∇ε ) ( w T ∇σµi ) Đặt: T 1 w ∇σµi ) + ( w T ∇σ Gi ∇ε ) + eNN ; ( 4 T − ( w ∇σ Gi ∇ε ) A =w T ∇σ Gi ∇σ T w ; B = C =w T ∇σµi ; D =eNN Dễ dàng nhận thấy: 2 A + B ≥ w ( G ) λmin R −1 ( ∇σ ) ( ) ( ) − w 3∇σ max µmax + ∇σ max ( G max ) λmax ( R −1 ) ∇ε max − 2emax (38) (39) D D2 1 − A2 − BA − C − DC = − ( A + 4B ) + 2B2 − C + + V1 ( t ) = 8 2 V1 ( t ) ≤ − ( A + B ) − (16 B + D ) ( ( ) 16 B + D ≤ w 3∇σ max µ max + ∇σ max ( G max ) λmax ( R −1 ) ∇ε max + 2emax 2 +2 emax + w ∇σ max ∇σ max ( G max ) λmax ( R −1 ) ∇ε max ) (40) 2 Từ (39), (40), ta có bất đẳng thức ( A + B ) − (16 B + D ) ≥ π Với π > suy 84 TRƯỜNG ĐẠI HỌC HẢI PHÒNG w đủ lớn, hệ số bậc cao ((G 2 ) λmin ( R −1 ) ( ∇σ ) ) > Do đó, ta hồn tồn tìm số thực ϑ1 cho ∀ w > ϑ1 ta có: ( A + B )2 − (16 B + D ) ≥ π , từ (40) ta có: V1 ( t ) ≤ −π Tương tự với V2 ( t ) , từ (21) ta tính đạo hàm nó: T V2 = ( ∇V * ) ( fi + gi ( uˆ + ∆ ) ) T T ∇V * ) gi ( x ) R −1 gi ( x ) ( ∇V * ) ( T T gi − R −1 ( gi ( x ) ) ∇σ ( x ) wˆ + ∆ T = − ( xT Qx + λρ ( x ) ) − ( ∇V * ) gi R −1 giT ( ∇V * ) T T T + ( ∇V * ) gi R −1 giT ∇σ ( x ) w + ∇ε ( x ) + ( ∇V * ) gi ∆ = − ( xT Qx + λρ ( x ) ) + + ( ∇V * ) T ( (41) (42) ) Để thuận tiện ta giả sử ρ ( x ) = ϖ x Từ (46) ta có: V2 ≤ − ( λmin ( Q ) + λϖ ) x + θ (43) 2.2 Mô hệ chuyển mạch phi tuyến có nhiễu đầu vào Tác giả lấy hệ theo ví dụ báo xây dựng đối tượng thực nên trình vật lý hệ thống chưa thể hết Phần lớn báo tạp chí lớn nhiều Nhà nghiên cứu thuật toán ADP (Adaptive Dynamis Programming) để chứng minh thuật tốn cần chọn lựa ví dụ hệ tuân theo mơ hình chung hệ phi tuyến với nhiễu đầu vào tác giả chọn, tài liệu tham khảo [1] Ở tác giả giả định nhiễu đầu vào bị chặn Sau mô đáp ứng tín hiệu xác tham chiếu với thuật tốn Do kết luận báo tác giả kết luận hồn tồn xác Với kết thuật toán tác giả áp dụng cho mơ hình lắc ngược đăng hội thảo chuyên ngành Xét hệ chuyển mạch sau: x = x = − x1 + x2 1 − x − 0.2 sin x1 cos x3 + −1 u + ∆1 ( x, t ) x1 x2 − sin x3 −2 − x1 + x2 x3 1 − x2 − sin ( x1 cos x3 ) + −1 u + ∆ ( x, t ) sin x − x −2 TẠP CHÍ KHOA HỌC, Số 34, tháng 05 năm 2019 85 Trong đó, d1 x1 x0 = [5; −3;2] ; ∆ i ( x, t ) = d x2 ; ∆ i ≤ x 10 10 d3 x3 T Với, d1 ; d ; d3 chọn rand() matlab Ta chọn tham số điều khiển: 1 0 1 0 = ;λ = R = ; α 0.01; = Q 0 0 3 Khi ta có kết mơ sau: Hình Sơ đồ cấu trúc điều khiển hệ thống Hình Tín hiệu điều khiển hệ thống Hình Trạng thái hệ thống 86 TRƯỜNG ĐẠI HỌC HẢI PHỊNG Hình Nhiễu hệ thống Hình Sự hội tụ ma trận trọng lượng KẾT LUẬN Bài báo trình bày lý thuyết ứng dụng thuật toán ADP điều khiển hệ phi tuyến Tác giả thiết kế thuật toán mơ ví dụ đơn giản phần mềm Matlab Để áp dụng vào đối tượng có mơ hình phức tạp nhiễu bất định cần thêm nghiên cứu từ tác giả Đối tượng điều khiển phát triển với hệ phức tạp, quy mơ lớn, đặc biệt có nghiên cứu bước đầu hệ multi agency TÀI LIỆU THAM KHẢO Vamvoudakis, K.G and Lewis, F.L (2010), “Online actor-critic algorithm to solve the continuous-time infinite horizon optimal control problem,” Automatica, 46, pp.878-888 Vamvoudakis, K.G (2011), Online learning algorithms for differential dynamic games and optimal control, Ph.D Thesis, Univ Texas at Arlington Frank Lewis, Derong Liu (2012) Reinforcement learning and approximate dynamic programming for feedback control, IEEE Press, Wiley, Derong Liu, Qinglai Wei, Ding Wang, Xiong Yang (2016), programming with applications in optimal control, Springer, Adaptive dynamic Nguyễn Dỗn Phước (2001) Lý thuyết điều khiển tuyến tính, NXB KH& KT Nguyễn Phùng Quang (2006), MATLAB Simulink dành cho kỹ sư điều khiển tự động, Nhà xuất Khoa học Kỹ thuật TẠP CHÍ KHOA HỌC, Số 34, tháng 05 năm 2019 87 ...1 ĐẶT VẤN ĐỀ Vấn đề điều khiển tối ưu cho hệ phi tuyến động liên tục nghiên cứu sâu vài thập kỷ Một thách thức cốt lõi vấn đề điều khiển tối ưu phi tuyến thường rơi vào giải phương... trình xấp xỉ điều khiển tối ưu cho hệ phi tuyến liên tục affine sử dụng phương pháp thích nghi quy hoạch động NỘI DUNG NGHIÊN CỨU 2.1 Hệ chuyển mạch phi tuyến có nhiễu đầu vào Xét hệ chuyển mạch... số điều khiển: 1 0 1 0 = ;λ = R = ; α 0.01; = Q 0 0 3 Khi ta có kết mơ sau: Hình Sơ đồ cấu trúc điều khiển hệ thống Hình Tín hiệu điều khiển hệ thống Hình Trạng thái hệ