Điều khiển xe hai bánh tự cân bằng mô hình bất định dựa trên phương pháp quy hoạch động thích nghi

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	7
Dung lượng	398,57 KB

Nội dung

Bài viết ứng dụng phương pháp quy hoạch động thích nghi sử dụng cấu trúc Actor-Critic cho xe hai bánh tự cân bằng (XHBTCB). Việc sử dụng phương pháp quy hoạch động thích nghi đã giảm thiểu đáng kể công sức và thời gian giải bài toán điều khiển tối ưu, khi không phải giải trực tiếp bằng các phương pháp giải tích và cũng không cần thiết xây dựng mô hình toán học đầy đủ của xe.

Tuyển tập Hội nghị khoa học toàn quốc lần thứ Động lực học Điều khiển Đà Nẵng, ngày 19-20/7/2019, tr 140-146, DOI 10.15625/vap.2019000270 Điều khiển xe hai bánh tự cân mơ hình bất định dựa phương pháp quy hoạch động thích nghi Trần Gia Khánh, Lê Việt Anh, Phan Anh Tuấn, Phan Xuân Minh Nguyễn Hồi Nam Bộ mơn Điều khiển tự động, Viện Điện, Đại học Bách khoa Hà Nội Số Đại Cồ Việt, Quận Hai Bà Trưng, Hà Nội, Việt Nam E-mail: nam.nguyenhoai@hust.edu.vn Tóm tắt Bài báo ứng dụng phương pháp quy hoạch động thích nghi sử dụng cấu trúc Actor-Critic cho xe hai bánh tự cân (XHBTCB) Việc sử dụng phương pháp quy hoạch động thích nghi giảm thiểu đáng kể công sức thời gian giải tốn điều khiển tối ưu, khơng phải giải trực tiếp phương pháp giải tích khơng cần thiết xây dựng mơ hình tốn học đầy đủ xe Ngoài ra, điều khiển tối ưu tự cập nhật để đáp ứng với thay đổi hệ thống, thuật toán điều khiển sử dụng biến trạng thái phản hồi đo Mô số phần mềm MATLAB tiến hành để đánh giá chất lượng thuật toán điều khiển Từ khóa: Điều khiển tối ưu thích nghi, Quy hoạch động thích nghi, Xe hai bánh tự cân Giới thiệu Điều khiển tối ưu lĩnh vực nhận nhiều quan tâm nhà nghiên cứu lý thuyết điều khiển đại Luật điều khiển tối ưu thiết kế không ổn định hệ thống mà cịn tối thiểu hàm chi phí mơ tả tiêu chất lượng mong muốn Lời giải cho tốn điều khiển tối ưu thu việc sử dụng nguyên lý cực đại Pontryagin tìm nghiệm phương trình HJB Cả hai cách tiếp cận có nhược điểm chung yêu cầu thông tin đầy đủ hệ thống, bao gồm biến trạng thái mơ hình động học Trong trường hợp mơ hình hệ thống gần có yếu tố bất định điều khiển tối ưu thu phương pháp giải tích phương pháp số khơng mang lại hiệu điều khiển tối ưu áp dụng lên hệ thống thực Trong đó, điều khiển thích nghi phát triển để giải toán điều khiển với mơ hình bất định khó xác định đủ xác Phương pháp thích nghi thường tập trung vào thiết kế luật điều khiển không sử dụng yếu tố bất định, xấp xỉ yếu tố bất định cho đảm bảo hiệu hệ thống kín, khơng thiết phải đảm bảo tối ưu theo nghĩa Kết hợp ưu điểm điều khiển tối ưu điều khiển thích nghi, điều khiển tối ưu thích nghi phát triển cách bổ sung yếu tố tối ưu thiết kế điều khiển thích nghi, ví dụ thơng số điều khiển biến tốn tối ưu hóa, bổ sung yếu tố thích nghi thiết kế điều khiển tối ưu, ví dụ xấp xỉ thông số hệ thống sử dụng luật điều khiển tối ưu Xem xét ví dụ tốn điều khiển tối ưu thích nghi sau Thơng thường, toán điều khiển tối ưu giải phương trình HJB giải Đối với hệ tuyến tính, phương trình HJB trở thành phương trình đại số Riccati (Algebraic Riccati Equation - ARE) Nếu ma trận trạng thái (A, B) hệ tuyến tính có sẵn, nghiệm ARE hồn tồn tìm giải tích Ngược lại, thiếu ma trận phương pháp giải tích khơng thể áp dụng Đối với hệ phi tuyến, phương trình HJB trở thành phương trình vi phân phi tuyến Nghiệm giải tích phương trình HJB phi tuyến chí nói chung khơng thể giải với hệ thống có mơ hình xác định Để khắc phục hạn chế nêu trên, nhiều giải thuật xấp xỉ nghiệm phương trình ARE HJB dựa lý thuyết sở học tăng cường (Reinforcement Learning) đề xuất Một toán học tăng cường thường xem xét cá thể (agent) có tương tác với mơi trường bên ngồi chuỗi hành động (actions) nhận thành (reward), tiêu chất lượng đại diện hàm chi phí (cost), từ môi trường Phương pháp học tăng cường nhánh học máy (Machine Learning), nhằm thu sách (policy), sách hiểu trình hoạt động hay luật điều khiển, tối ưu cho cá thể dựa đáp ứng quan sát từ tương tác cá thể môi trường [1] Một thuật tốn học tăng cường nói chung có hai bước, cá thể đánh giá thành sách thơng qua tương tác với môi trường, bước gọi Đánh giá sách (Policy Evaluation) Tiếp theo dựa thành đánh giá, cá thể tiến hành cập nhật sách nhằm tăng chất lượng, tương đương với tối thiểu hóa hàm chi phí Bước đặt tên Cải tiến sách (Policy Improvement) Thời gian gần đây, nhà nghiên cứu tập trung vào hướng áp dụng kỹ thuật học tăng cường điều khiển phản hồi hệ thống động học Một phương pháp phổ biến học tăng cường ứng dụng điều khiển kỹ thuật lặp PI (Policy Iteration) [2] Thay sử dụng phương pháp tốn học để giải trực tiếp phương trình HJB, thuật toán PI bắt đầu việc đánh giá hàm chi phí luật điều khiển khởi tạo chấp nhận (admissible control policy) Công việc thường thu việc giải phương trình Lyapunov phi tuyến [3] Hàm chi phí sử dụng để cải tiến luật điều khiển, tương đương với tối thiểu hóa hàm Hamilton ứng với hàm chị phí Q trình lặp hai bước tiến hành Trần Gia Khánh, Lê Việt Anh, Phan Anh Tuấn, Phan Xuân Minh Nguyễn Hoài Nam luật điều khiển hội tụ tới luật điều khiển tối ưu Với phát triển học tăng cường, nhiều phương pháp thời gian thực áp dụng để tìm luật điều khiển tối ưu trực tuyến mà khơng cần hiểu biết hồn tồn xác động lực học hệ thống, cách tiếp cận thường gọi quy hoạch động thích nghi (Adaptive Dynamic Programming - ADP) [4], nhiều tài liệu gọi quy hoạch động xấp xỉ (Approximate Dynamic Programming) [1] Dựa khả xấp xỉ hàm phi tuyến trơn, mạng nơron thường sử dụng cho việc thực thi thuật toán học lặp Các thuật toán thực thi trực tuyến cấu trúc Actor-Critic, bao gồm hai mạng nơron xấp xỉ hàm, mạng thứ gọi Actor, dùng để xấp xỉ luật điều khiển, mạng thứ hai gọi Critic đại diện cho hàm chi phí Đối với hệ tuyến tính liên tục, nghiên cứu [5] giới thiệu hai thuật toán lặp PI ngoại tuyến, tương đương mặt toán học với phương pháp Newton Các phương pháp loại bỏ yêu cầu mơ hình nội động học hệ thống (mơ hình khơng xét tới kích thích bên ngồi) việc đánh giá hàm chi phí ứng với luật điều khiển quỹ đạo trạng thái ổn định, sử dụng biến trạng thái đo để xây dựng phương trình Lyapunov Phát triển hướng nghiên cứu Murray, [6], Vrabie cộng trình bày thiết kế điều khiển sử dụng học tăng cường để giải trực tuyến bải tốn điều khiển tối ưu tuyến tính toàn phương (Linear Quadratic Regulator - LQR) Cụ thể, phương pháp sử dụng thuật toán lặp PI dựa liệu động học đo để giải lặp phương trình Riccati Trong thiết kế, ma trận nội động học hệ thống loại bỏ trình thiết kế, ma trận ngoại đông học (mô tả quan hệ tác động bên trạng thái hệ thống) cần sử dụng, cịn gọi thuật toán cho hệ bất định phần (partially model-free) Phương pháp cho hệ bất định hoàn toàn (fully model-free) phát triển [7], với việc sử dụng tín hiệu nhiễu thăm dị thêm vào tín hiệu đầu vào trình học Đối với hệ phi tuyến, [8] [9], thuật toán trực tuyến cho hệ phi tuyến dạng affine bất định phần trình bày, mang tới lời giải cục cho phương trình HJB phi tuyến Phương pháp cho hệ bất định hoàn tồn trình bày cơng trình [4], coi mở rộng cho phương pháp hệ tuyến tính [7] Tuy phương pháp tối ưu ổn định bán toàn cục (semi-global), chưa đảm bảo ổn định hoàn toàn mà trường hợp thỏa mãn giả thiết định, bước đột phá tìm luật điều khiển tối ưu mà loại bỏ hồn tồn u cầu mơ hình hệ thống Mở rộng kết quả, tác giả trình bày phương pháp ổn định toàn cục cho lớp hệ đa thức (các hàm động học có dạng đa thức) [10] Như vậy, thấy việc áp dụng học tăng cường quy hoạch động thích nghi, khơng tốn tối ưu giải trực tuyến nhờ liệu đo đạc, mà cịn khơng cần sử dụng mơ hình động học đầy đủ xác hệ thống Điều có ý nghĩa lớn thực tế việc thu mơ hình đủ xác hệ thống khó khăn, chưa kể thơng số hệ thống thay đổi trình hoạt động Một số nghiên cứu khác mở rộng cho hệ bị tác động nhiễu ngoài, phương pháp quy hoạch động thích nghi bền vững [4] phương pháp cho hệ có dạng multi-player zero-sum game [3], [11], hay phương pháp khác xét đến ràng buộc đầu vào trình bày [12], [13] Một số nghiên cứu khác kết hợp điều khiển tối ưu thích nghi với phương pháp phi tuyến bền vững điều khiển trượt để tận dụng ưu điểm phương pháp [14] Xe hai bánh tự cân hệ thống có chất khơng ổn định, thiếu cấu chấp hành phi tuyến Khi xe chuyển động môi trường phụ thuộc nhiều vào yếu tố bên lực ma sát bánh xe mặt đường, tác động gió, độ nghiêng mặt đường tải xe thay đổi Do mơ hình tốn xe hai bánh chứa nhiều yếu tố bất định khó điều khiển Đã có nhiều phương pháp điều khiển kinh điển PID đại backstepping, điều khiển thích nghi, điều khiển phi tuyến, điều khiển tối ưu áp dụng cho xe hai bánh tự cân bằng, nhiên phương pháp phần lớn dựa vào mơ hình tốn xe Hơn nữa, phương pháp ADP chưa nghiên cứu áp dụng cho lớp đối tượng Đây phương pháp điều khiển áp dụng cho đối tượng bất định mà khơng cần dùng mơ hình toán Tuy nhiên, để áp dụng cho xe hai bánh tự cân khơng phải lựa chọn hàm chi phí cấu trúc mạng nơron phù hợp mà cịn phải tìm luật điều khiển ban đầu chấp nhận Đây động lực để tiến hành nghiên cứu Trong báo này, chúng tơi áp dụng thuật tốn quy hoạch động thích nghi cho hệ phi tuyến bất định hoàn toàn, trình bày sách “Robust Adaptive Dynamic Programming” [4] Yu Jiang Zhong-Ping Jiang cho đối tượng XHBTCB Chất lượng điều khiển kiểm chứng thông qua mô số phần mềm MATLAB Bài báo cấu trúc thành phần sau Trong phần 2, mơ hình động lực học XHBTCB, đối tượng điều khiển báo, trình bày Trong phần 3, sở lý thuyết thuật toán tối ưu dựa quy hoạch động thích nghi trình bày Sau đó, tính hội tụ ổn định đề cập phần Trong phần 5, kết mô cho thuật toán áp dụng đối tượng XHBTCB trình bày để kiểm chứng tính đắn phương pháp Cuối cùng, kết luận định hướng phát triển nghiên cứu đưa phần Mô hình động lực học XHBTCB Trong bào này, mơ hình tốn học xe hai bánh tự cân (XHBTCB) dựa tài liệu tham khảo [15] sử dụng để kiểm nghiệm thuật toán điều khiển Cấu trúc vật lý XHBTCB mơ tả Hình 2, định nghĩa ký hiệu liệt kê Bảng Điều khiển xe hai bánh tự cân mơ hình bất định dựa phương pháp quy hoạch động thích nghi  d2 d2  J 2  I  K  mW 2r     I  I  m l  sin   B      mB lx   I  I1  mB l   cos   sin  (3) d d   iR  iL  K m 2r 2r Trong phương trình động lực học hệ thống (1), (2), (3), dòng diện phần ứng động chiều coi đầu vào hệ thống, thay mơmen [15] Ta định nghĩa véctơ biến trạng thái đầu vào sau: c x   x1 Hình 1: Cấu trúc vật lý XHBTCB d l r mB Khối lượng bánh xe trái (phải) mW J Mơmen qn tính bánh xe ứng với trục bánh xe Mơmen qn tính bánh xe ứng với trục thẳng đứng Hằng số mơmen xoắn K Km Dịng điện qua động bánh xe trái động bánh xe phải Mômen xoắn động bánh xe trái động bánh xe phải Góc xoay bánh xe trái bánh xe phải Hệ số ma sát nhớt trục bánh xe iL , iR TL , TR  L , R c Mơmen qn tính thân xe ứng với hệ quy chiếu {B} I1 , I , I Các phương trình chuyển động hệ XHBTCB cho sau: 2J   x  mB l    sin  mB  2mW    r   (1)  x   K m  iL  iR     mB l cos     c      r r r    I  m l    m l cos  x  B  B   I  I1  mB l  sin  cos   x  mB gl sin   2c       K m  iL  iR  r  x4 (2) x5 x6  T T x    u  u1 u2   iL T Định nghĩa Vị trí xe hai bánh tự cân Góc nghiêng thân xe Góc hướng xe Khoảng cách bánh xe trái bánh xe phải Khoảng cách từ khối tâm thân xe đến trục nối hai bánh xe Bán kính bánh xe Khối lượng thân xe   x3   x   Bảng 1: Các ký hiệu, định nghĩa XHBTCB Ký hiệu x x2 iR  T Khi đó, phương trình động lực học mơ tả XHBTCB (1), (2), (3) viết lại dạng ma trận sau: x  f  x   g  x  u  F  x, u  (4) đó: 1   ,    4  x5  F5  x, u   , x6  F6  x, u    6 x1  x4 , x2  x5 , x3  x6 , x4  F4  x, u   1  r  mB l  I  {K m u1  u2 2c  r r  mB l sin  x2   x52  x62 } x4    x5  r      mB lr cos  x2  { cos  x2  sin  x2   mB l  I1  I  x62 x    K m  u1  u2   2c  x5    mB gl sin  x2 } r   3   J   mB  2mW  r  {cos  x2  sin  x2   mB l  I1  I  x62 x    K m  u1  u2   2c  x5    mB gl sin  x2 } r   u  u 2c  x     mB lr cos  x2  {K m    x5   r r  r   mB l sin  x2   x52  x62 } 5  2r {K m d u1  u2 c d x6   2r 2r x6 sin  x2   mB lx4  x5 cos  x2   mB l  I1  I  }   {2 I  K  mW d 2  I1  I  mB l  sin  x2 }r  Jd Trần Gia Khánh, Lê Việt Anh, Phan Anh Tuấn, Phan Xuân Minh Nguyễn Hoài Nam H  x, u, V *      mB lr  1  cos  x    I J u (  ) 2 JmB l   I mB  I mW  2mB mW l  r Thuật toán điều khiển tối ưu dựa quy hoạch động thích nghi Trong phần này, thuật tốn quy hoạch động bán tồn cục cho hệ phi tuyến phát triển trình bày, dựa tài liệu tham khảo [4], [16] 3.1 Cơ sở lý thuyết Xét hệ phi tuyến affine sau: x  F (x)  G (x)u (5) với x  R véctơ trạng thái hệ thống, u  R véctơ tín hiệu điều khiển, F(x) : R n  R n n m G (x) : R n  R n m ánh xạ liên tục Lipschitz tập   R n gồm gốc tọa độ, với F(0)  Ở đây, ta lưu ý tính ổn định tồn cục tiệm cận đảm bảo cho hệ tuyến tính, nói chung hệ phi tuyến, tính chất khó đảm bảo [8] Do đó, sở lý thuyết phương pháp giới hạn trường hợp tính ổn định tiệm cận thỏa mãn miền   R n Hàm chi phí ứng với luật điều khiển u là:  V (x)   r (x, u) dt (6) với r (x, u)  q (x)  uT Ru lựa chọn hàm có dạng tồn phương để đảm bảo luật điều khiển tối ưu xác định rõ ràng Trước giải toán điều khiển tối ưu, ta đặt giả thiết sau: Giả thiết 1: Giả thiết tồn luật điều khiển phản hồi ổn định tiệm cận toàn cục u gốc tọa độ, miền  cho hệ (5) với hàm chi phí (6) tương ứng hữu hạn Một luật điều khiển thỏa mãn giả thiết gọi luật điều khiển ổn định chấp nhận [17] Bài toán điều khiển tối ưu phát biểu sau: Xét hệ phi tuyến liên tục (5) tập hợp luật điều khiển chấp nhận  () , tìm luật điều khiển để tối thiểu hóa hàm chi phí (6) Ta định nghĩa C1 tập hợp hàm liên tục khả vi P1 tập tất hàm C1 xác định dương thỏa mãn x   f ( x)   Khi ta nhận thấy hàm V (x) cơng thức (6) phải thuộc tập C1 , nói cách khác:  V (x)   F(x)  G (x)u   r (x, u)  0, V (0)  T (7) Giả thiết tồn V *  P1 nghiệm phương trình HJB (9), luật điều khiển tối ưu xác định công thức: u* (x)   R 1G T (x)V * (x) (10) ổn định tiệm cận toàn cục hệ (5) x  Nếu xác định hàm thuộc lớp P1 nghiệm phương trình HJB (9) ta tìm công thức tường minh luật điều khiển tối ưu Tuy nhiên, phương trình HJB phi tuyến nói chung khó để giải Do đó, giống với hệ tuyến tính, phương pháp lặp phát triển cho hệ phi tuyến, cụ thể sau Định lý 1: Cho u luật điều khiển ổn định tiệm cận toàn cục gốc tọa độ hệ (5) (Giả thiết 1) Khi đó, với k  0,1, , hàm chi phí Vk (x)  C1 thu việc giải phương trình: VkT (x)  F (x)  G (x)u k   r (x, u k )  (11) luật điều khiển u k tính tốn đệ quy theo cơng thức: uk 1 (x)   R 1G T (x)Vk (x) (12) Khi đó, ta có tính chất sau:  V * (x)  Vk 1 (x)  Vk (x), x  R n  u k luật điều khiển ổn định toàn cục  Đặt lim Vk (x )  V (x0 ) k  T  F(x)  G (x)u  lim u k (x )  u(x ) với x  R n Khi đó, V *  V u*  u V  C1 Chứng minh: Xem tài liệu tham khảo [4] 3.2 Thuật toán Trong phần này, phương pháp lặp PI để xấp xỉ nghiệm phương trình HJB luật điều khiển tối ưu sở mạng nơron, đề xuất [4], trình bày Phương pháp phiên mở rộng phương pháp cho hệ tuyến tính trình bày [7] Thuật tốn lặp PI, giống thuật tốn học tăng cường khác, thực thi trực tuyến cấu trúc Actor-Critic [9] Cấu trúc minh họa Hình Trong cấu trúc Actor-Critic, dựa khả xấp xỉ hàm phi tuyến trơn tập compact mạng nơron, hàm chi phí Vk (x) luật điều khiển u k 1 (x) xấp xỉ hai mạng nơron, gọi tương ứng mạng nơron Critic mạng nơron Actor (8) * hàm chi phí tối ưu V (x) thỏa mãn phương trình HJB: k  Phương trình (7) cịn gọi phương trình Lyapunov cho hệ phi tuyến Định nghĩa hàm Hamilton sau: H  x, u, V   r (x, u)   V (x)  (9) Hình 2: Cấu trúc Actor-Critic Điều khiển xe hai bánh tự cân mơ hình bất định dựa phương pháp quy hoạch động thích nghi Với k  0,1, , hàm Vk luật điều khiển u k xấp xỉ miền  sau: Vˆk (x)  cTk  (x) (13) uˆ k (x)  wTk (x)  (x) : R n  R N1  (x) : R n  R N2 , với N1 N số nguyên dương đủ lớn, véctơ hàm trơn độc lập tuyến tính miền  x  , c k  R N1 w k  R N2  m véctơ ma trận trọng số cập nhật Nói cách khác, với mạng Critic, ta sử dụng mạng nơron với N1 nơron lớp ẩn hàm kích hoạt  (x) , trọng số lớp ẩn coi khơng thay đổi suốt q trình huấn luyện Đầu mạng có hàm kích hoạt hàm tuyến tính, với véctơ trọng số c k Tương tự với mạng nơron Actor m đầu dùng để xấp xỉ u k Ta viết lại phương trình (5) dạng sau: x  F (x)  G (x)uk  G (x)(u  uk ) (14) Xét đạo hàm Vk (x) , kết hợp với (6) (12) ta có: Vk  Vk (x)  F (x)  G (x)u k  G (x)(u  u k )   q(x)  uTk Ru k  Vk (x)G (x)(u  u k )  q(x)  u Ru k  2u T k T k 1 (15) Vk  x(t  T )   Vk  x(t )  t T t q(x)  uTk Ru k  2(u  u k )T Ru k 1 d (16) u  u k  e tín hiệu đầu vào tác động lên hệ thống khoảng thời gian [t , t  T ] , với e tín hiệu nhiễu thăm dò biên độ nhỏ Thay Vk , u k u k 1 (16) xấp xỉ mạng nơron (13) ta có: cTk   x(t )     x(t  T )   2  t T t  t T t (u  uˆ k )T Rw Tk 1 (x) d (17) q (x)  uˆ Tk Ruˆ k d  ek với ek tổng sai lệch gây xấp xỉ mạng nơron Áp dụng thuật toán lặp PI, ta giải ˆ k 1 phương pháp trọng số mạng nơron cˆ k w tối thiểu hóa hàm sai lệch l e i 1 Tính ổn định hội tụ Trong phần này, tính hội tụ thuật tốn tính ổn định hệ kín xem xét Đầu tiên, ta đặt giả thiết sau Giả thiết 2: Giả thiết tồn số tự nhiên l0   cho với l  l0 ta có: l T k ,i k ,i  I N1  N2 l i 0 R (u  u k ) Lấy tích phân cơng thức (15) khoảng thời gian t , t  T  , ta có:   Hình 3: Lưu đồ thuật tốn lặp PI cho hệ phi tuyến k ,l (17) sau thu thập đủ liệu của khoảng thời gian lấy mẫu [t0 , t1 ],[t1 , t2 ] ,[tl 1 , tl ] Lưu đồ thuật tốn lặp PI cho hệ phi tuyến mơ tả Hình với  1  x(t  T )   1  x(t )         N  x(t  T )   N  x(t )   1   N1  N  kT,i   t T T T R ( u u ) Rw  ( x ) d   k k  1   t      t T  T T    ( u u ) Rw  ( x ) d  k k N   t  Giả thiết 3: Giả thiết hệ kín (5) ổn định ISS nhiễu thăm dò áp dụng vào luật điều khiển Định lý 2: Với giả thiết 3, với k  giá trị   cho trước, tồn số nguyên dương k * , N1* N 2* thỏa mãn: cTk  (x)  V * (x)   wTk (x)  u* (x)   (18) với x   , N1  N1* N  N 2* Chứng minh: Xem tài liệu tham khảo [4] Một cách nói chung, mạng nơron khơng có khả xấp xỉ hàm phi tuyến tồn khơng gian trạng thái R n mà tập compact Do đó, thuật tốn nghiên cứu đảm bảo tính hội tụ luật điều khiển thu khơng áp dụng trạng thái hệ thống vượt tập compact  , từ gây ổn định Do đó, [4] tác giả đưa định lý sau để phân tích tính ổn định hệ kín Định lý 3: Với giả thiết 1, 3, hệ kín ổn định Trần Gia Khánh, Lê Việt Anh, Phan Anh Tuấn, Phan Xuân Minh Nguyễn Hoài Nam tiệm cận gốc tọa độ nếu: T q(x)   u k 1  uˆ k 1  R  u k 1  uˆ k 1  , x   \ 0 (19) Chứng minh: Với luật điều khiển u  uˆ k 1 , ta có đạo hàm hàm Lyapunov Vk trở thành: V  V T (x)  F (x)  G (x)uˆ  k k 1 k  V (x)  F (x)  G (x)u k 1  T k VkT (x)G (x)  uˆ k 1  u k 1   q (x)  uTk 1Ru k 1 (20)   u k 1  u k  R  u k 1  u k  T 2uTk 1R  uˆ k 1  u k 1   q(x)  uTk 1Ru k 1  2uTk 1R  uˆ k 1  u k 1   q(x)   uˆ k 1  u k 1  R  uˆ k 1  u k 1  T T  xi cos( x2 )  thông số khởi tạo mạng  1  sin ( x2 )  i 1,  (x)   T  0.2 0.6 0.3 0.2 0.1 0.2  w0     0.2 0.6 0.3 0.2 0.1 0.2  Trong mô này, ta xét chuyển động đường thẳng xe, nhiệm vụ điều khiển đảm bảo cho xe bám vị trí đặt, góc nghiêng thân xe góc hướng giữ nhỏ tốt tiến trạng thái xác lập Cụ thể, ta giả sử xe chuyển động từ vị trí ban đầu 0.5 (m) gốc tọa độ 10 giây đầu tiên, di chuyển tới vị trí đặt (m) 10 giây Bộ điều khiển tối ưu tìm đảm bảo cho hệ bám với giá trị đặt Các véctơ trọng số tối ưu mạng nơron Critic Actor thu từ thuật toán sau vòng lặp sau: c3   0.075 0.069 0.030 0.002 T với x   \ 0 Nên điều kiện (19) thỏa mãn hệ kín ổn định tiệm cận gốc tọa độ Do đó, thuật tốn trình bày cho hệ phi tuyến tác giả gọi quy hoạch động thích nghi bán tồn cục [4] Lưu ý: Lựa chọn cấu trúc mạng cho mạng nơron dùng để xấp xỉ hàm Vk luật điều khiển u k vấn đề mở chưa đề cập cơng trình nghiên cứu trước Trong báo này, hàm kích hoạt  j (x) chọn có dạng tồn phương,  j (x) lựa chọn từ phần tử độc lập tuyến tính điều khiển ban đầu ổn định hệ thống u T  0.19 0.62 0.39 0.18 0.08 0.23  w4     0.26 0.67 0.55 0.22 0.08 0.23 Kết mô với thuật toán tối ưu phi tuyến dựa quy hoạch động thích nghi thể Hình 4, 6, cho dịch chuyển xe, góc nghiêng  thân xe góc hướng  xe Như thấy, thuật tốn tìm điều khiển tối ưu sau trình học giây, điều khiển tối ưu thu đảm bảo cho hệ ổn định 1.2 0.8 Mô kiểm chứng 0.6 Trong phần này, thuật toán tối ưu dựa quy hoạch động cho hệ phi tuyến trình bày áp dụng cho hệ XHBTCB kiểm chứng thông qua mô số phần mềm MATLAB Các thơng số đối tượng thu từ mơ hình phịng thí nghiệm sau: mB  0.5(kg ), mW  0.04(kg ), l  0.08(m), d  0.16(m) , r  0.033(m), g  9.81(m / s ), c  5.104 ( Ns / m), K m  0.412 ( Nm / A) Hàm chi phí toán điều khiển tối ưu định nghĩa sau:  J (x, u)   xT Qx  uT Ru d 0.4 0.2 -0.2 0.1 nhiên khoảng  500,500 Mạng nơron sử dụng có cấu trúc N1  21, T  (x)   xi x j  i , j 1, , N  6, 10 12 Time (s) 14 16 18 20 16 18 20 0.3 với Q  diag 1, 0.5, 2, 0.05, 0.05,1 R  I Thời gian i với i  1, , 100 tần số chọn ngẫu 0.4 0.2 lấy mẫu 0.01 s, thuật toán thực thi sau 200 mẫu liệu, tương đương với sau s Tín hiệu nhiễu thăm dò lựa chọn dạng tổng tín hiệu sin sau [4]: e  0.1 sin(i t ) Hình 4: Dịch chuyển xe (21) sau: x -0.1 -0.2 10 12 Time (s) 14 Hình 5: Góc lắc thân xe Điều khiển xe hai bánh tự cân mơ hình bất định dựa phương pháp quy hoạch động thích nghi [7] 0.2 Y Jiang and Z.-P Jiang, “Computational adaptive optimal control 0.15 for continuous-time linear systems with completely unknown dynamics,” Automatica, vol 48, no 10, pp 2699–2704, 2012 0.1 [8] D Vrabie and F Lewis, “Neural network approach to continuous-time direct adaptive optimal control for 0.05 partially unknown nonlinear systems,” Neural Networks, -0.05 vol 22, no 3, pp 237–246, 2009 [9] 10 12 Time (s) 14 16 18 20 algorithm to solve the continuous-time infinite horizon optimal control problem,” Automatica, vol 46, no 5, pp Hình 6: Góc hướng xe 878–888, 2010 Kết luận [10] Z.-P Jiang, Yu and Jiang, “Global adaptive dynamic Bài báo tìm hiểu thuật toán điều khiển tối ưu dựa quy hoạch động thích nghi [4] Thuật tốn điều khiển ứng dụng quy hoạch động thích nghi cho hệ phi tuyến mơ hình bất định hồn tồn khơng phụ thuộc thời gian trình bày chi tiết Sau đó, thuật tốn áp dụng cho mơ hình XHBTCB kiểm chứng chất lượng điều khiển thông qua mô số phần mềm MATLAB Thuật tốn quy hoạch đơng thích nghi áp dụng giải tốt yêu cầu đặt tìm lời giải trực tuyến cho toán điều khiển tối ưu hệ thống động học mơ hình tốn học hệ thống coi bất định Tuy nhiên, vấn đề tồn thuật tốn ổn định bán tồn cục, theo nghĩa hệ kín ổn định số điều kiện định thỏa mãn Hơn nữa, việc lựa chọn cấu trúc mạng nơron trọng số mạng khởi tạo để đảm bảo hệ khơng ổn định q trình học chưa phân tích chặt chẽ Đó dự định phát triển mặt lý thuyết tương lai Cuối cùng, định hướng phát triển thực nghiệm áp dụng phương pháp mơ hình xe thực phịng thí nghiệm Lời cảm ơn [2] [3] [4] [5] Vrabie, “Online adaptive IEEE Trans Automat Contr., vol 60, no 11, pp 2917–2929, 2015 [11] D Liu, Q Wei, D Wang, X Yang, and H Li, Adaptive dynamic programming with applications in optimal control 2017 [12] T Cheng, F L Lewis, and M Abu-Khalaf, “Fixed-final-time-constrained optimal control of nonlinear systems using neural network HJB approach,” IEEE Trans Neural Networks, vol 18, no 6, pp 1725–1737, 2007 [13] D Liu, D Wang, and X Yang, “An iterative adaptive dynamic programming algorithm for optimal control of unknown discrete-time nonlinear systems with constrained inputs,” Inf Sci (Ny)., vol 220, pp 331–342, 2013 [14] Q.-Y Fan and G.-H Yang, “Adaptive actor critic design-based integral sliding-mode control for partially unknown nonlinear systems with input disturbances,” IEEE Trans neural networks Learn Syst., vol 27, no 1, [15] S Kim and S Kwon, “Dynamic modeling of a two-wheeled inverted pendulum balancing mobile robot,” Int J Control Autom Syst., vol 13, no 4, pp 926–933, 2015 Tài liệu tham khảo D programming for continuous-time nonlinear systems,” pp 165–177, 2015 Nghiên cứu tài trợ Trường Đại học Bách khoa Hà Nội đề tài mã số T2018-PC-052 [1] K G Vamvoudakis and F L Lewis, “Online actor critic [16] Y Jiang and Z.-P Jiang, “Robust approximate dynamic optimal control for programming and global stabilization with nonlinear continuous-time systems,” 2010 dynamic uncertainties,” in 50th IEEE Conference on R S Sutton and A G Barto, Introduction to Decision and Control and European Control Conference, reinforcement learning 1998 2011, pp 115–120 K G Vamvoudakis, “Online learning algorithms for [17] R W Beard, G N Saridis, and J T Wen, “Galerkin differential dynamic games and optimal control,” 2011 approximations Y Jiang and Z.-P Jiang, Robust adaptive dynamic Hamilton-Jacobi-Bellman equation,” Automatica, vol 33, programming 2017 no 12, pp 2159–2177, 1997 J J Murray, C J Cox, G G Lendaris, and R Saeks, Adaptive dynamic programming 2002 [6] D Vrabie, O Pastravanu, M Abu-Khalaf, and F L Lewis, “Adaptive optimal control for continuous-time linear systems based on policy iteration,” Automatica, vol 45, no 2, pp 477–484, 2009 of the generalized ... nghi? ??m thuật toán điều khiển Cấu trúc vật lý XHBTCB mô tả Hình 2, định nghĩa ký hiệu liệt kê Bảng Điều khiển xe hai bánh tự cân mơ hình bất định dựa phương pháp quy hoạch động thích nghi  d2 d2... sin(i t ) Hình 4: Dịch chuyển xe (21) sau: x -0.1 -0.2 10 12 Time (s) 14 Hình 5: Góc lắc thân xe Điều khiển xe hai bánh tự cân mơ hình bất định dựa phương pháp quy hoạch động thích nghi [7] 0.2... khó điều khiển Đã có nhiều phương pháp điều khiển kinh điển PID đại backstepping, điều khiển thích nghi, điều khiển phi tuyến, điều khiển tối ưu áp dụng cho xe hai bánh tự cân bằng, nhiên phương

Ngày đăng: 06/10/2021, 16:52