Bài viết đề cập tới cách tiếp cận một bộ điều khiển bám quỹ đạo áp dụng cho cho tàu bề mặt có mô hình bất định và chịu ảnh hưởng nhiễu sử dụng cấu trúc mới dựa trên thuật toán học tăng cường thích nghi (ARL) và tích phân bền vững theo hàm dấu của sai lệch bám RISE.
Kỹ thuật điều khiển & Điện tử ĐIỀU KHIỂN BÁM TÀU MẶT NƯỚC BẤT ĐỊNH MƠ HÌNH VÀ NHIỄU NGỒI THƠNG QUA BỘ ĐIỀU KHIỂN HỌC TĂNG CƯỜNG THÍCH NGHI TRỰC TUYẾN VÀ RISE Vũ Văn Tú 1, 2*, Đào Phương Nam1, Phan Xuân Minh1 Tóm tắt: Bài viết đề cập tới cách tiếp cận điều khiển bám quỹ đạo áp dụng cho cho tàu bề mặt có mơ hình bất định chịu ảnh hưởng nhiễu sử dụng cấu trúc dựa thuật toán học tăng cường thích nghi (ARL) tích phân bền vững theo hàm dấu sai lệch bám RISE Để đảm bảo hiệu suất bám tiệm cận, RISE sử dụng thiết kế điều khiển phản hồi để bù thành phần bất định mơ hình nhiễu loạn bên ngồi Kỹ thuật học tăng cường thích nghi động áp dụng để hiệu chỉnh đồng mạng nơron Actor-Critic dùng để xấp xỉ điều khiển tối ưu hàm chi phí tương ứng Sự hội tụ trọng số vấn đề điều khiển bám phân tích dựa lý thuyết tối ưu hàm Lyapunov Cuối cùng, mô kỹ thuật số thực để chứng minh hiệu thuật toán đề xuất Từ khóa: Điều khiển tối ưu; Quy hoạch động thích nghi; Tích phân bền vững hàm dấu sai lệch bám RISE; Hệ thống tàu bề mặt; Điều khiển bám quỹ đạo ĐẶT VẤN ĐỀ Trong thập kỷ qua, điều khiển bám quỹ đạo phương tiện hàng hải nhận ý đáng kể công nghệ hàng hải kỹ thuật điều khiển ứng dụng rộng rãi giao thơng vận tải, khảo sát môi trường, giám sát nhiều ứng dụng quân thương mại [1, 2] Vì tàu làm việc điều kiện khắc nghiệt môi trường, hệ thống điều khiển bám quỹ đạo phải đối mặt với thách thức không nhỏ xuất bất định mơ hình nhiễu loạn bên [3, 4] Tất nghiên cứu sở để thiết kế thuật toán điều khiển bám quỹ đạo để giải vấn đề cấu chấp hành bão hòa, dự báo hiệu suất, nhiễu loạn mơi trường bất định mơ hình sử dụng mạng nơ-ron quan sát Tuy nhiên, việc tối ưu hóa hiệu suất chưa nghiên cứu đầy đủ Bộ điều khiển tối ưu không giải vấn đề điều khiển bám quỹ đạo hệ thống phi tuyến mà đảm bảo hiệu suất bám hệ thống tối ưu hóa Trong năm gần đây, giải thuật học tăng cường (Reinforcement Learning) phát triển để thiết kế điều khiển tối ưu cho mơ hình tàu phi tuyến dựa việc giải phương trình Hamilton – Jacobi – Bellman (HJB) với nhiều cách tiếp cận cấu trúc Actor/Citic, kỹ thuật học tăng cường tích phân trực tuyến (On Policy Intergral Reinforcement Learning), [5-11] Các cơng trình [5, 6] đề xuất thuật toán điều khiển tối ưu cách sử dụng giải thuật học tăng cường (RL) cho hệ thống tàu mặt nước có động học biết Thuật tốn điều khiển tối ưu dựa giải thuật lặp PI (Policy Iteration) thu giá trị xấp xỉ thích hợp của hàm chi phí luật điều khiển tối ưu hóa Giải thuật RL dựa cấu trúc mạng nơron actor/critic (AC-NNs), đó, mạng nơ-ron critic (critic NN) nhắm ước tính hàm chi phí mạng nơ-ron actor (actor NN) sử dụng để thiết kế đầu vào phù hợp giảm thiểu sai lệch bám AC-NN mở rộng sang lĩnh vực lĩnh vực điều khiển bám quỹ đạo cho phương tiện hàng hải bao gồm tàu thủy thiếu cấu chấp hành (USVs) phương tiện tự hành nước [10, 11] Trong cơng trình [7], kỹ thuật điều khiển có tên tối ưu hóa Backstepping dựa kỹ thuật Backstepping kết hợp với cấu trúc AC-NNs để thực giải pháp tối ưu hóa cho hệ thống tương ứng Bởi thực giải pháp tối ưu hóa cho hệ con, cơng trình nghiên cứu tác giả sử dụng nhiều mạng nơ-ron dẫn đến tốn tài nguyên, tốc độ hội tụ giảm, điều khiển thiết kế phức tạp, tốc độ xử lý máy tính số khơng xử lý kịp 10 V V Tú, Đ P Nam, P X Minh, “Điều khiển bám tàu mặt nước … trực tuyến RISE.” Nghiên cứu khoa học cơng nghệ tính tốn điều khiển Tuy nhiên, cơng trình vấn đề ảnh hưởng yếu tố bất định mô hình nhiễu loạn bên ngồi tới điều khiển thiết kế khơng xem xét Cơng trình [9] đề xuất phương pháp điều khiển bám thích nghi dựa cấu trúc AC-NNs cho USVs có thành phần bất định mơ hình, nhiễu loạn mơi trường ràng buộc tín hiệu đầu cách sử dụng kỹ thuật chuyển đổi sai lệch để xử lý vấn đề buộc sai lệch đảm bảo USV bám xác quỹ đạo bám Đối tượng áp dụng cơng trình nghiên cứu tàu thủy thiếu cấu chấp hành tàu thủy đủ cấu chấp hành Trong báo này, nghiên cứu tập trung vào việc giải toán điều khiển tối ưu bám quỹ đạo cho tàu mặt nước đủ cấu chấp hành có mơ hình phi tuyến bất định hoạt động mơi trường có nhiễu loạn Bộ điều khiển bám phản hồi đề xuất sở kết hợp học tăng cường thích nghi động kết hợp với RISE đảm bảo hệ thống kín ổn định, bám quỹ đạo bù ảnh hưởng nhiễu thành phần bất định tàu Những đóng góp báo tập trung vào nội dung sau: Xây dựng cấu trúc AC-NNs để ước lượng hàm chi phí luật điều khiển tối ưu, luật cập trọng số hai mạng nơ-ron đồng thời gian thực Bộ điều khiển tối ưu xây dựng dựa giải thuật RL, bổ xung ước lượng bất định mơ hình nhiễu RISE Bằng cách này, điều khiển đề xuất đảm bảo điều khiển tối ưu thuật tốn học tăng cường thích nghi động cho phương trình HJB cho hệ có mơ hình bất định chịu ảnh hưởng nhiễu Bộ điều khiển đề xuất cải thiện tốc độ hội tụ sai số bám độ điều chỉnh nhỏ Sự kết hợp RISE học tăng cường thích nghi động (Adaptive Reinforcement Learning) thiết kế điều khiển tối ưu bám giúp giải vấn đề bất định mô hình nhiễu, vấn đề mà sử dụng tăng cường thích nghi động chưa giải [5-7] MƠ HÌNH TÀU ĐỘNG HỌC TÀU MẶT NƯỚC Phương trình động lực học ba bậc tự mơ tả chuyển động tàu mặt nước mặt phẳng ngang sau: J( )v M v C (v)v D(v)v g( ) d(t ) Trong đó: (1) = x,y, biểu thị véc-tơ vị trí hướng hệ trục tọa độ Trái đất (n-frame), T v u, , r biểu thị véc-tơ vận tốc dài vận tốc góc hệ tọa độ gắn thân tàu (b-frame) T J ( ) ma trận chuyển đổi ma trận trực giao J 1 ( ) J T ( ) , M M T ma trận quán tính hệ thống, C (v ) C T (v ) ma trận Coriolis lực hướng tâm hệ thống, D(v ) ma trận suy giảm thủy động lực học, g ( ) véc-tơ lực đẩy lực trọng trường, d (t ) d1 (t ), d (t ), d3 (t ) véc-tơ nhiễu ngồi biến đổi theo thời gian (gió, sóng, dịng chảy T đại dương,…) u , , r véc-tơ đầu vào điều khiển Các ma trận M ,C (v ), D(v ) T ma trận J ( ) sau: cos J ( ) sin sin cos 0 0 ; C (v ) c13 Tạp chí Nghiên cứu KH&CN quân sự, Số 74, - 2021 0 c23 c13 c23 ; 11 Kỹ thuật điều khiển & Điện tử d11 D (v ) 0 m11 d 23 ; M d33 d 22 d32 m22 m23 m23 m33 Để thuận tiện việc thiết kế điều khiển, chuyển đổi động học hệ (1) thành phương trình sau: M ( ) C ( , , v) D( , v) g ( ) Trong đó: M d J T J T (C MJ 1J )J 1 , D J T DJ 1 , g J T MJ 1 , C n J T g , n J T d , v đo hàm chưa biết Giả thiết 1: Véc-tơ vị trí hướng (2) d Sự phát triển mơ hình (2) dựa giả thiết M, C, D, g 1 ,2 n (t ) 1 , cho đạo hàm bị chặn số dương 2 Giả thiết 2: Nếu , bị chặn tất hàm C ( , , v ), D( , v ), g ( ) bị chặn Hơn thế, , bị chặn đạo hàm riêng phần bậc bậc hai thành phần C ( , , v), D( , v), g ( ) theo tồn bị chặn Giả thiết 3: Quỹ đạo mong muốn d thiết kế cho đạo hàm theo thời gian thứ i d i 0, 1, , tồn bị chặn Giả thiết 4: Thành phần nhiễu phi tuyến đạo hàm bậc nhất, bậc hai n , n , n bị chặn số biết Giả thiết 5: Với d quỹ đạo đặt bị chặn giả thiết tồn hàm Lipschitz d toàn cục hd (.) thỏa mãn d hd ( d ) , d hd ( d ) dt Sai lệch bám quỹ đạo tàu mặt nước tính sau: e1 d (3) Để tạo điều kiện cho việc phân tích tiếp theo, sai số bám lọc, ký hiệu e2 định nghĩa là: e2 e1 1e1 (4) Thiết lập sai số bám quỹ đạo lọc định nghĩa: r e2 2e2 Trong đó, 1 33 0, 2 (5) số dương Để phát triển mơ hình khơng gian trạng thái cho sai lệch bám (3) (4), đạo hàm theo thời gian (4) sau nhân hai vế với M thay (2), (3) vào ta được: Me2 (C D)e2 f Trong đó, hàm phi tuyến fd ( , ,e1 , f M( d d, d, d ) 1e1 ) (C D)( n d d (6) định nghĩa sau: 1e1 ) g (7) Để thuận tiện triệt tiêu đại lượng công thức đầu vào điều khiển hệ thiết kế sau: 12 V V Tú, Đ P Nam, P X Minh, “Điều khiển bám tàu mặt nước … trực tuyến RISE.” Nghiên cứu khoa học công nghệ f d n u (8) Kết hợp (4), (6), (8) dựa giả thiết chuyển đổi từ mơ hình phụ thuộc theo thời gian thành mơ hình khơng phụ thuộc thời gian, với biến trạng thái X e1T ,e2T , T d, T d T hệ sau: e1 1e1 e2 033 d e2 M 1 (C D )e M 1 u 0 dt d hd ( d ) 33 hd ( d ) 033 d Có thể viết lại hệ sau: (9) d (10) X F (X ) G (X )u dt Trong đó, tín hiệu u thiết kế cách sử dụng thuật toán điều khiển tối ưu cấu trúc ARL để tối thiểu hóa hàm chi phí THIẾT KẾ BỘ ĐIỀU KHIỂN CHO TÀU MẶT NƯỚC 3.1 Học tăng cường thích ứng thiết kế dựa điều khiển tối ưu Bộ điều khiển u thiết kế để tối thiểu hàm chi phí: V (X , u ) (Q (X ) u T Ru )ds (11) t Trong đó: Q(X ) 0; Q(X ) X TQT X ; QT 1212 ; R 33 Theo lý thuyết phương trình Hamilton – Jacobi – Bellman (HJB) kinh điển điều khiển tối ưu u * (X ) hàm chi phí tối ưu tương ứng V * (X ) suy sau: V * (X ) u * (X ) R 1G (X ) X (12) V * (X , u ) u (X ) ( ) (X Q X u T T T Ru )ds (13) t Do đó, việc học trực tuyến dựa giải pháp trực tuyến xem xét cách sử dụng mạng nơ-ron để xấp xỉ hàm chi phí tối ưu điều khiển tối ưu tương đương [12]: V * (X ) W T (X ) T T 1 T v * ( X ); u ( X ) R G ( X ) W v X X (14) Giả thiết 6: Ma trận G (X ) biểu thức biết bị chặn, tồn số dương biết G , thỏa mãn G (X ) G Giả thiết 7: Các trọng số lý tưởng W bị chặn số dương chưa biết W W W Giả thiết 8: Véc-tơ hàm tác động , (X ) đạo hàm riêng theo X bị chặn Xét số nơ-ron cố định N , mạng nơ-ron Critic V (X ) mạng nơ-ron Actor u (X ) sử dụng để xấp xỉ hàm chi phí điều khiển tối ưu như: Tạp chí Nghiên cứu KH&CN quân sự, Số 74, - 2021 13 Kỹ thuật điều khiển & Điện tử T V (X ) WcT (X );u (X ) R 1G T (X ) Wa X (15) Luật thích nghi trọng số mạng nơ-ron Critic Wc mạng nơ-ron Actor Wa thực đồng thời để giảm tích phân sai số bình phương Bellman hjb tương ứng: hjb H X , u , * V * * V T H X , u , Wc X X T 1 T WaT GR G X X (16) T 1 v GR 1G T v v (F Gu * ) X X X (F Gu ); F (X ) F; G (X ) G Trong đó: (X , u ) X Trong tài liệu [12], luật cập nhật cho trọng số Wc mạng nơ-ron Critic đưa sau: d (17) Wc nom per dt T Wc Trong đó, nom (Wc , t ) kc per kc 1 T 1 T 1 T Wa G (X )R G (X ) Wa X X T T 1 v G (X )R 1G T (X ) v v (F (X ) G (X )u * ) X X X Với kc , số dương, N N ma trận hệ số ước lượng đối xứng tính bị chặn sau [12]: d kc ; (tr ) (0) 0I (18) T dt 1 Luật cập nhật thích nghi cho mạng nơ-ron Actor mô tả sau: d Wa ka1 dt 1 T 1 T GR G (Wa Wc ) hjb ka (Wa Wc ) X X T Trong đó: Wc W Wc ;Wa W Wa (t ) 1 T (19) véc-tơ ước tính hồi quy mạng Critic tiêu chuẩn hóa bị chặn bởi: 1 (20) Sự hội tụ trọng số ước lượng mạng nơ-ron Actor/Critic Wa Wc phụ thuộc vào điều kiện PE 1 2I T t0 ( s) T N [13] ( s)ds 1I, t0 0,1 0, (21) t0 3.2 Thiết kế điều khiển phản hồi RISE Nhân hai vế (5) với M kết hợp với công thức (7), ta được: 14 V V Tú, Đ P Nam, P X Minh, “Điều khiển bám tàu mặt nước … trực tuyến RISE.” Nghiên cứu khoa học công nghệ Mr (C D)e2 f n d 2Me2 (22) thiết kế dựa Thiết kế điều khiển (8) hoàn thiện cách ước lượng f n khung RISE [14] c vô nhỏ f n với sai lệch (23) Để tạo điều kiện cho phân tích ổn định hệ phần tiếp theo, ta định nghĩa hàm phụ fd ( d , d , d ) sau: fd M ( Hàm f ( , , d, d) d d ) d, C ( d , vd ) d d, D( d , vd ) d g( d) (24) cho bởi: f f fd (25) Thay (8), (24) (25) vào vế phải (22) đạo hàm hai vế thời gian viết lại sau: Mr Mr N N D e2 (26) Trong công thức (26) có N (Wa , d , d , d ,e1 ,e1 ,e2 ,e2 , r , t ), N D (Wa , d , d ,e1,e1, t ) thành phần phụ định nghĩa sau: H (Wa , X ) (27) N (C D)e2 (C D)e2 Mr f 2Me2 2Me2 e2 X X H (Wa , X ) N D fd n Wa (28) Wa T Trong công thức (27): u u (X ) R 1G T (X ) Wa H (Wa , X ) X Theo định lý giá trị trung bình (Mean Value Theorem) giả thiết 1-8 sử dụng cho giới hạn cho nhóm thành phần phụ: N y y ; N D 1 , N D 2 (29) Trong đó, y e1T T r e1T Hàm giới hạn ( y ) hàm không giảm, khả nghịch tồn cục dương Dựa cơng thức (26), thành phần điều khiển RISE [14] sau: n f (ks 1)e2 (ks 1)e2 (0) (t ) Với ks , 1 , (t ) thiết kế dựa (30) tính bới phương trình tốn học sau: (t ) (ks 1)2e2 1sgn(e2 ) 𝒆2 (31) RISE feedback 𝒅(𝑡) Surface Vessel 𝜼𝑑 𝑥𝑑 𝜼𝑑 = 𝑦𝑑 ψ𝑑 𝜼𝑑 d/dt 𝒆1 𝜼 𝜆1 d/dt 𝜆1 𝒆1 𝝁 𝒆2 𝒖 ARL 𝝉 Dynamic Subsystem 𝑱 𝜼 𝜼 𝒆1 𝒆1 Hình Cấu trúc điều khiển ARL-RISE cho mơ hình tàu thủy Tạp chí Nghiên cứu KH&CN quân sự, Số 74, - 2021 15 Kỹ thuật điều khiển & Điện tử 3.3 Phát biểu định lý chứng minh tính ổn định hệ kín Định lý 1.1 Hệ thống điều khiển kín bao gồm mơ hình tàu thủy (1) (2) thỏa mãn giả thiết 1-8 điều khiển ARL-RISE (8) với luật điều khiển RISE (30), luật điều khiển tối ưu (15), luật cập nhật trọng số (17), (19), tín hiệu véc-tơ (t ) thỏa mãn điều kiện PE (21), tham số thiết kế chọn sau: 1 min ( ) ; 2 1; 1 1 2 (32) 2 Đảm bảo: Sai số trọng số mạng nơ-ron Actor-Critic Wc Wa UUB Sai số bám y hệ thống tàu mặt nước UUB Chứng minh Định lý 1.1: Chọn hàm ứng viên Lyapunov cho toàn hệ thống (2): 1 1 VL r T Mr P e1T e1 e1Te2 V * Vc (Wc , t ) WaTWa 2 2 * Với V hàm chi phí tối ưu (14), hàm phụ P định nghĩa [14]: P 1 n e 2i (0) (33) e2T (0) N D (0) L (34) i 1 Trong công thức (34), L r T ( N D 1 sgn(e2 )) Đạo hàm VL theo thời gian, thay (4), (26) (34) vào thu được: VL V1 V2 e1T 1e1 e2Te1 2e2Te2 r T N ks 1r T r V Vc V * V * F Gu c X X t Wc nom Vc per WaTWa Wc (35) Lại có: V * V * F Gu * Q (X ) u *T Ru * X X 1 V * 2 e2T e1 e1 e2 ; Trong đó: G 2u *T R; 2 X 2 T T T 2e2 e2 2 e2 ; (ks 1)r r (ks 1) r ; r N ( y ) r y (36) e1T 1e1 Sử dụng biểu thức (19), (26), (29), (30), (31), (36) thay u * , u , hjb ( ) e1 ; , per cách 1 ,1 2 Từ giả thiết 6-8 có phát triển giới hạn, chọn c3 ka1k1k2 , sử dụng biến đổi ab a b 4 sử dụng cơng thức (14), (15), (16), (17) tương ứng, có lựa chọn 1; (y ) 4k s 0 y 1 (2 ks ( ) 1 , ) vào biểu thức (35), VL bị chặn sau: VL y Q (X ) (1 )(c3 ka1k1k2 ) Wc ka Wa 2 kc k3 ka1k1k2 k3 ka1k12 k2 ka1k1 ka1k12 k2 k3 k4 c4 (c3 ka1k1k2 ) 1 16 (37) V V Tú, Đ P Nam, P X Minh, “Điều khiển bám tàu mặt nước … trực tuyến RISE.” Nghiên cứu khoa học cơng nghệ Trong đó: Vc (Wc , t ) thỏa mãn bất đẳng thức xây dựng [12], biến đổi (y ) 4k s 0 ( y ) 0 4ks ( y ) Ta định nghĩa véc – tơ 4ks T z y T WcT WaT để phân tích vấn đề sai lệch bám hệ kín Có thể thấy rằng, tồn hàm lớp K thỏa mãn: 5 ( z ) y Q (X ) (1 )(c3 ka1k1k2 ) Wc ka Wa 6 ( z ) (38) Dựa biểu thức (38), bất đẳng thức (37) viết lại thành: kc VL ( z ) k3 ka1k1k2 k3 ka1k12 k2 ka1k1 ka1k12 k2 k3 k4 c4 (39) (c3 ka1k1k2 ) 1 Có thể thấy rõ rằng, VL (.) âm z (t ) nằm miền hấp dẫn: z kc 1 k3 ka1k1k2 k3 ka1k1 k2 ka1k1 c4 z : z (c3 ka1k1k2 ) 1 ka1k12 k2 k3 k4 (40) Từ (40), ta có z tiến từ z (t ) tiến đến z miền hấp dẫn Gọi T thời gian z (t ) tiến vào z Ta phải chứng minh T hữa hạn, t0 t T có VL cơng thức (33) đơn điệu giảm dần từ VL (t0 ) đến VL (T ) Khi đó, ta ký hiệu VL (t0 ) c,VL (T ) ,0 c định nghĩa tập compact sau: c {VL (z ) c}, {VL (z ) }, { VL (z ) c} Sử dụng bất phương trình sau: VL (z , t ) W3 (z ) (41) W3 (z ) liên tục xác định dương, ta có: k minW3 (z ) z (42) Từ (41) (42) thu bất đẳng thức sau: V (z , t ) k , z , t t0 Tích phân hai vế (43) ta được: V (z (t )) V (z (t0 )) k (t t0 ) c k (t t0 ) (43) (44) Như vậy, z (t ) khoảng thời gian [t0 , t0 T ] với T xác định từ: V (z (T )) c k (T t0 ) T (c ) / k t0 (45) hiển nhiên hữu hạn MƠ PHỎNG, TÍNH TỐN, THẢO LUẬN Bài báo thực mô số phần mềm Matlab với mơ hình tàu thu nhỏ với tỷ lệ so với tàu thật 1:75 Khối lượng tàu m 21 (kg) chiều dài chiều rộng tương ứng 1.2 Tạp chí Nghiên cứu KH&CN quân sự, Số 74, - 2021 17 Kỹ thuật điều khiển & Điện tử m 0.3 m, với tham số tham khảo tài liệu [7]: c13 (v) 19v 0.72r; c23 (v) 20u; c31 (v) 19v 0.72r; c32 (v) 20u d11 (v) 0.72 1.3 u 5.8u ; d22 (v) 0.86 36 v r d23 (v) 0.1 v r ; d32 (v) 0.1 v r ; d33 (v) v r M 20 0; 19.2 0.72; 0.72 2.7, , g1 ( ) g2 ( ) g3 ( ) Các tham số điều khiển chọn: ka1 0.01, kc 2, ka 50, 0.01, 60, 1 5, ks 100 Mạng nơ-ron Critic Actor có số nơ-ron N 12 , nhiễu thỏa mãn giả thiết lấy sau: d (t ) 1.5sin(0.8t ) 1.5cos 0.8t ;4 sin t 1.2cos(0.6t ); sin 0.8t 4 6 Hình Quỹ đạo bám với mơ hình tàu thủy có bất định nhiễu ngồi sử dụng điều khiển ARL-RISE Hình Sự hội tụ ma trận trọng số mạng nơ-ron Critic Hình Sự hội tụ ma trận trọng số mạng nơ-ron Actor Hình Sai lệch bám quỹ đạo theo trục x,y theo góc 18 V V Tú, Đ P Nam, P X Minh, “Điều khiển bám tàu mặt nước … trực tuyến RISE.” Nghiên cứu khoa học công nghệ Hình Ước lượng nhiễu ngồi thành phần bất định f1 sai lệch ước lượng n1 RISE Hình Ước lượng nhiễu ngồi thành phần bất định f sai lệch ước lượng n2 RISE Hình Ước lượng nhiễu thành phần bất định f3 sai lệch ước lượng n3 RISE Trong kết mơ thuật tốn, đáp ứng đầu bám quỹ đạo tàu mặt Hình có chất lượng tốt, tàu bám quỹ đạo đặt Đáp ứng quỹ đạo ban đầu tàu cịn có sai lệch bám theo x, y, 0[m][rad] 0.5[m][rad] thời gian 7s thể hình Sau thu thập đủ động học hệ thống để tính tốn ma trận trọng số mạng nơ-ron, sau tính toán luật điều khiển tối ưu cho tàu mặt nước, sai lệch bám theo x, y, xấp xỉ thể hình 5, ma trận trọng số mạng nơ-ron hội tụ hình 3, hình Các hình 6, hình 7, hình ước lượng nhiễu ngồi phần bất định mơ hình RISE có sai số nhỏ Như vậy, điều khiển bám tối ưu dựa thuật toán ARL – RISE hoàn toàn đáp ứng yêu cầu điều khiển bám quỹ đạo hệ thống tàu mặt nước Tạp chí Nghiên cứu KH&CN quân sự, Số 74, - 2021 19 Kỹ thuật điều khiển & Điện tử KẾT LUẬN Bài báo đề xuất điều khiển bám thích nghi cho tàu bề mặt có mơ hình bất định chịu ảnh hưởng nhiễu dựa kỹ thuật học tăng cường thích nghi động RISE Kỹ thuật học tăng cường thích nghi động nhằm xác định điều khiển tối ưu phương pháp xấp xỉ nghiệm phương trình HJB, RISE để bù thành phần bất định nhiễu Với cách thiết kế vậy, điều khiển tối ưu đề xuất báo áp dụng cho lớp mơ hình phi tuyến bất định, có nhiễu tác động Các kết đạt báo chứng minh lý tuyết mô số Các kết cho thấy hiệu điều khiển đề xuất khả ứng dụng thực tế điều khiển TÀI LIỆU THAM KHẢO [1] B Xiao, X Yang, and X Huo, “A Novel Disturbance Estimation Scheme for Formation Control of Ocean Surface Vessels,” IEEE Transactions on Industrial Electronics, vol 64, no (2017) pp 4994–5003, [2] S L Dai, M Wang, and C Wang, “Neural Learning Control of Marine Surface Vessels with Guaranteed Transient Tracking Performance,” IEEE Transactions on Industrial Electronics, vol 63, no (2016) pp 1717–1727 [3] Z Zhao, W He, and S S Ge, “Adaptive neural network control of a fully actuated marine surface vessel with multiple output constraints,” IEEE Transactions on Control Systems Technology, vol 22, no (2014) pp 1536–1543 [4] C S W He, Z Yin, “Adaptive neural network control of a marine vessel with constraints using the asymmetric barrier Lyapunov function,” IEEE Trans Cybern., vol 47(7), (2017) pp 1641–1651 [5] Z Yin, W He, C Yang, and C Sun, “Control Design of a Marine Vessel System Using Reinforcement Learning,” Neurocomputing, vol 311 (2018) pp 353–362 [6] Z Yin, W He, C Sun, G Li, and C Yang, “Adaptive control of a marine vessel based on reinforcement learning,” Chinese Control Conference, CCC, vol 2018-July (2018) pp 2735–2740 [7] G Wen, S S Ge, C L P Chen, F Tu, and S Wang, “Adaptive tracking control of surface vessel using optimized backstepping technique,” IEEE Trans Cybern., vol 49, no 9, (2019) pp 3420–3431 [8] R C Xinxin Guo, Weisheng Yan, “Integral Reinforcement Learning-Based Adaptive Systems With Unknown Control Directions,” IEEE Trans Syst Man, Cybern Syst., vol PP, (2019) pp 1–10 [9] Z Zheng, L Ruan, M Zhu, and X Guo, “Reinforcement learning control for underactuated surface vessel with output error constraints and uncertainties,” Neurocomputing, vol 399 (2020) pp 479–490 [10] P Walters, R Kamalapurkar, F Voight, E M Schwartz, and W E Dixon, “Online Approximate Optimal Station Keeping of a Marine Craft in the Presence of an Irrotational Current,” IEEE Trans Robot., vol 34, no 2, (2018) pp 486–496 [11] A B Martinsen, A M Lekkas, S Gros, J A Glomsrud, and T A Pedersen, “Reinforcement Learning-Based Tracking Control of USVs in Varying Operational Conditions,” Frontiers in Robotics and AI, vol (2020) [12] S Bhasin, R Kamalapurkar, M Johnson, K G Vamvoudakis, F L Lewis, and W E Dixon, “A novel actor-critic-identifier architecture for approximate optimal control of uncertain nonlinear systems,” Automatica, vol 49, no (2013) pp 82–92 [13] K G Vamvoudakis and F L Lewis, “Online actor critic algorithm to solve the continuous-time infinite horizon optimal control problem,” Proceedings of the International Joint Conference on Neural Networks (2009) pp 3180–3187 [14] B Xian, D M Dawson, M S De Queiroz, and J Chen, “A Continuous Asymptotic Tracking Control Strategy for Uncertain Nonlinear Systems,” IEEE Trans Automat Contr., vol 49, no 7, (2004) pp 1206–1211 20 V V Tú, Đ P Nam, P X Minh, “Điều khiển bám tàu mặt nước … trực tuyến RISE.” Nghiên cứu khoa học công nghệ ABSTRACT TRACKING CONTROL FOR UNCERTAIN SURFACE VESSEL WITH EXTERNAL DISTURBANCE VIA ON-POLICY ADAPTIVE REINFORCEMENT LEARNING – RISE CONTROLLER This article addresses a trajectory tracking control approach for uncertain/disturbed surface vessels using the new structure of adaptive reinforcement learning (ARL) algorithm and Robust Integral of the Sign of the Error (RISE) To obtain an asymptotic tracking performance, a robust integral of the sign of the error (RISE) feedback term is introduced in feedback control design to compensate for the uncertain components in the model and external disturbances The adaptive reinforcement learning technique is proposed by tuning simultaneously the actor-critic network to approximate the control policy and the cost function, respectively The convergence of weight as well as tracking control problem was determined by theoretical analysis Finally, the numerical example is investigated to validate the effectiveness of the proposed control scheme Keywords: Optimal Control; Adaptive Dynamic Programming (ADP); Surface Vessel (SV) systems; Robust Integral of the Sign of the Error (RISE); Trajectory Tracking Control Nhận ngày 23 tháng 01 năm 2021 Hoàn thiện ngày 14 tháng năm 2021 Chấp nhận đăng ngày 29 tháng năm 2021 Địa chỉ: 1Bộ môn Điều khiển tự động, Trường Đại học Bách Khoa Hà Nội; Khoa Điện Cơ, Trường Đại học Hải Phịng; *Email : tuvv@dhhp.edu.vn Tạp chí Nghiên cứu KH&CN quân sự, Số 74, - 2021 21 ... điều khiển & Điện tử KẾT LUẬN Bài báo đề xuất điều khiển bám thích nghi cho tàu bề mặt có mơ hình bất định chịu ảnh hưởng nhiễu dựa kỹ thuật học tăng cường thích nghi động RISE Kỹ thuật học tăng. .. cho tàu mặt nước đủ cấu chấp hành có mơ hình phi tuyến bất định hoạt động mơi trường có nhiễu loạn Bộ điều khiển bám phản hồi đề xuất sở kết hợp học tăng cường thích nghi động kết hợp với RISE. .. thuật toán điều khiển tối ưu cấu trúc ARL để tối thiểu hóa hàm chi phí THIẾT KẾ BỘ ĐIỀU KHIỂN CHO TÀU MẶT NƯỚC 3.1 Học tăng cường thích ứng thiết kế dựa điều khiển tối ưu Bộ điều khiển u thiết