Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 77 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
77
Dung lượng
1,69 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI BÙI THỊ HỒNG THẮM QUY HOẠCH ĐỘNG THÍCH NGHI BỀN VỮNG CHO HỆ PHI TUYẾN LUẬN VĂN THẠC SĨ KHOA HỌC KỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA Hà Nội – Năm 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI BÙI THỊ HỒNG THẮM QUY HOẠCH ĐỘNG THÍCH NGHI BỀN VỮNG CHO HỆ PHI TUYẾN Chuyên ngành : KỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA LUẬN VĂN THẠC SĨ KHOA HỌC NGƢỜI HƢỚNG DẪN : TS ĐÀO PHƢƠNG NAM Hà Nội – Năm 2017 Lời cam đoan LỜI CAM ĐOAN Tôi xin cam đoan, đồ án tốt nghiệp : “ Quy hoạch động thích nghi – bền vững cho hệ phi tuyến” thiết kế, dƣới hƣớng dẫn thầy giáo TS.Đào Phƣơng Nam Để hồn thành đồ án này, tơi sử dụng tài liệu đƣợc ghi danh mục tài liệu tham khảo không chép hay sử dụng tài liệu khác Nếu phát có sai phạm nào, tơi xin chịu hồn tồn trách nhiệm Hà nội, Ngày 10 tháng năm 2017 Học viên thực Bùi Thị Hồng Thắm i Danh mục ký hiệu chữ viết tắt MỤC LỤC LỜI CAM ĐOAN i MỤC LỤC ii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT iv DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ vi LỜI MỞ ĐẦU CHƢƠNG I: TỔNG QUAN CÁC NGHIÊN CỨU VỀ “QUY HOẠCH ĐỘNG THÍCH NGHI BỀN VỮNG” 1.1 Tổng quan 1.2 Định nghĩa RADP 1.3 ADP cho hệ thống tuyến tính, thời gian liên tục, chƣa xác định 1.4 RADP cho hệ thống phức hợp tuyến tính phần 1.5 RADP cho hệ thống kích thƣớc lớn với đặc tính khơng ổn định động 1.6 RADP cho hệ thống khuếch đại động 10 1.7 RADP cho hệ phi tuyến hoàn toàn 11 CHƢƠNG II: CƠ SỞ LÝ THUYẾT TỐI ƢU 15 2.1 Điều khiển phản hồi trạng thái tối ƣu (LQR) 15 2.1.1 Trƣờng hợp thời gian tối ƣu hữu hạn 16 2.1.2 Trƣờng hợp thời gian tối ƣu vô hạn 17 2.1.3 Tính ổn định hệ kín 17 2.2 Thuật tốn Kleinman tính chất liên quan 18 2.2.1 Phát biểu thuật toán 18 2.2.2 Ý nghĩa 20 2.3 Phƣơng pháp quy hoạch động 20 2.3.1 Trƣờng hợp hệ liên tục 20 2.3.2 Trƣờng hợp hệ không liên tục 21 ii Danh mục ký hiệu chữ viết tắt 2.4.Điều khiển dự báo MPC 24 2.4.1 Điều khiển dự báo mơ hình tuyến tính 25 2.4.2 Điều khiển dự báo mơ hình phi tuyến (NMPC) 27 CHƢƠNG 3: ĐIỀU KHIỂN TỐI ƢU CHO HỆ TUYẾN TÍNH BẤT BIẾN THEO THỜI GIAN KHÔNG BIẾT TRƢỚC THAM SỐ 28 3.1 Bài toán đặt 28 3.2 Thuật toán xử lý 29 CHƢƠNG IV: ĐIỀU KHIỂN DỰ BÁO MƠ HÌNH PHI TUYẾN 39 4.1 Điều khiển dự báo mô hình phi tuyến 39 4.1.1 Mơ hình dự báo phi tuyến 39 4.1.2 Ƣớc lƣợng biến trạng thái 39 4.1.3 Áp dụng MHE vào NMPC 41 4.2 Điều khiển dự báo mơ hình bền vững 42 4.2.1 Điều kiện ổn đinh MPC bền vững cho hệ bất định tham số 44 4.2.2 Ổn định vào-trạng thái 45 4.3 Điều khiển dự báo mơ hình phân tán 49 4.3.1 Giới thiệu điều khiển dự báo mơ hình phân tán 49 4.3.2 Cở sở toán học cho điều khiển dự báo phân tán 50 CHƢƠNG V:CÁC ỨNG DỤNG 54 5.1 Áp dụng cho điều khiển chuyển động hệ tay máy 54 5.2 Áp dụng cho hệ lắc ngƣợc 56 5.2.1 Thiết kế điều khiển tối ƣu bền vững 56 Kết mô 65 KẾT LUẬN 67 TÀI LIỆU THAM KHẢO 68 iii Danh mục ký hiệu chữ viết tắt DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT CÁC KÝ HIỆU g: Gia tốc trọng trƣờng : Chuẩn bậc | |: Biểu thị định mức Euclide cho véc tơ định mức ma trận A > B: (A-B) ma trận xác định dƣơng J: Hàm Mục tiêu x: Biến trạng thái Q, R: Ma trận hàm mục tiêu A, B: Ma trận trạng thái đầu vào hệ tuyến tính u * : Tín hiệu điều khiển tối ƣu x0 xT : Trạng thái đầu, cuối hệ thống x(t )* : Quỹ đạo trang thái tối ƣu : Tích Kronecker Vec(A): vector hóa ma trận A CÁC CỤM TỪ VIẾT TẮT DAP: Adaptive dynamic programming- Quy hoạch động thích nghi RDAP:RobustAdaptiveDynamicProgramming–Quy hoạch động thích nghi bền vững HJB: Hamilton – Jacobi – Bellman ARE: Algebraic Riccati Equation - Phƣơng trình đại số Riccati GAS: Global Asymtotic Stability - Ổn định toàn cục LQR: Linear Quadratic Regulator - Điều khiển phản hồi trạng thái tối ƣu cho hệ tuyến tính với hàm mục tiêu dạng tồn phƣơng MPC: Model Predictive Control - Điều khiển dự báo mơ hình NMPC: Nonlinear Predictive Control - Điều khiển dự báo mơ hình phi tuyến DMPC: Decentralized Model Predictive Control - Điều khiển dự báo mơ hình phân tán iv Danh mục ký hiệu chữ viết tắt DP: Dynamic Programming - Quy hoạch động EKF: Extended Kalma Filter - Bộ lọc Kalman mở rộng MHE: Moving Horizon Estimation v Danh mục bảng DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ Hình 1.1 Cấu hình hệ thống điều khiển dựa ADP Hình 1.2 RDAP với hệ không ổn định động Hình 2.1 Cấu trúc điều khiển phản hồi trạng thái tối ƣu LQR 15 Hình 2.2: Mơ tả tầm dự báo Ny tầm điều khiển Nu 26 Hình 3.1:Cấu trúc triển khai thuật tốn 29 Hình 3.2 Sơ đồ thuật toán 37 Hình 4.1: Sơ đồphƣơng pháp dịch khoảng ƣớc lƣợng (cửa sổ ƣớc lƣợng) 40 Bảng 4.1: Vai trò MHE NMPC 41 Hình 4.2: Sơ đồ điều khiển phi tập trung 49 Hình 5.1 Hệ chuyển động tay máy 54 Hình 5.2 So sánh giá trị hàm xấp xỉ 55 Hình 5.3 So sánh biên dạng tốc độ 56 Bảng 5.1 Các thông số hệ lắc ngƣợc 65 Hình 5.4.Sự hội tụ ma trận P,K lỗi tự hiệu chỉnh 66 DANH MỤC BẢNG BIỂU Bảng 4.1: Vai trò MHE NMPC 41 Bảng 5.1 Các thông số hệ lắc ngƣợc 65 vi Lời nói đầu LỜI MỞ ĐẦU Lĩnh vực quy hoạch động thích nghi với nhiều ứng dụng kỹ thuật điều khiển phát triển nhanh so với năm trƣớc.Một khái niệm gọi “quy hoạch động thích nghi bền vững” (viết tắt RADP) đƣợc phát triển cho việc thiết kế điều khiển tối ƣu bền vững cho đối tƣợng hệ tuyến tính phi tuyến phụ thuộc vào tham số động học không Nội dung luận văn “ Quy hoạch động thích nghi – bền vững cho hệ phi tuyến” cung cấp nhìn tổng quan báo cáo thời góp phần phát triển lý thuyết RADP ứng dụng tiềm kỹ thuật điện sinh học Nội dung luận văn gồm ba phần Phần 1(chƣơng I): Tổng quanchung nghiên RADP Phần 2(chƣơng II,III,VI): Cơ sở lý thuyết Phần 3(chƣơng V): Các ứng dụng Để hồn thành luận văn này, em nhận đƣợc hƣớng dẫn, bảo tận tình thầy TS.Đào Phƣơng Nam với giúp đỡ thầy cô giáo môn Điều Khiển Tự Động, khoa Điện, trƣờng đại học Bách khoa hà nội suốt thời gian học tập thực luận văn Lời cuối em xin chân thành cám ơn TS.Đào Phƣơng Nam thầy cô mơn Do thời gian có hạn, trình độ cịn nhiều hạn chế, khó khăn tài liệu tham khảo, luận văn khơng tránh khỏi nhiều thiếu sót Rất mong nhận đƣợc thơng cảm góp ý thầy cô bạn đọc Xin chân thành cảm ơn! Sinh viên thực Bùi Thị Hồng Thắm Chương I: Tổng quan nghiên cứu “quy hoạch động thích nghi bền vững” CHƢƠNG I: TỔNG QUAN CÁC NGHIÊN CỨU VỀ “QUY HOẠCH ĐỘNG THÍCH NGHI BỀN VỮNG” Trong chƣơng này, tác giả trình tóm tắt phát triển DAP tình hình nay, phát triển RADP hệ tuyến tính phi tuyến 1.1 Tổng quan Quy hoạch động thích nghi(viết tắt ADP) khía cạnh sinh học, khơng dựa mơ hình; phƣơng pháp tính tốn đƣợc sử dụng để tính luật điều khiển tối ƣu nhiều tài liệu tham khảo Nó đƣợc biết đến quy hoạch động đòi hỏi kiến thức chuyên sâu động học hệ thống tổn thất từ thứ nguyên Ban đầu Wersbos thích nghi gần với phƣơng trình HamiltonJacobi-Bellman(HJB) Có thể đạt đƣợc cách thiết kế hệ thống mở rộng tăng cƣờng thích nghi Trong nghiên cứu tƣơng tự werbos đề xuất hai phƣơng pháp tiếp cận để thực ADP: Quy hoạch động oristic –(HDP) quy hoạch động kép Chúng đƣợc sử dụng tƣơng tự giá trị hàm tối ƣu giá trị gradian Tại hƣớng giải tƣơng tự điều khiển tối ƣu đƣợc cân nhắc, vấn đề tƣơng tự đƣợc nghiên cứu Berbsekas Tsitsikis dƣới tên quy hoạch động nơron đƣợc hạn chế dành riêng cho hệ thống thời giangián đoạn Sự trình bày chi tiết yếu tố toán học điều kiện quy hoạch động nơron, với nhiều phƣơng pháp ứng dụng Sự trình bày lý thuyết quy hoạch động thích nghi gồm ba phần.Trong phần thứ nhất, ADP đƣợc nghiên cứu rộng rãi cộng đồng khoa học tính tốn nghiên cứu vận hành.Hai thuật tốn bản: lặp lại phƣơng pháp lặp lại giá trị thƣờng đƣợc sử dụng.Năm 1989, Watking đề xuất phƣơng pháp Qlearing tiếng luận án tiến sỹ Q- learing chia sẻ tính tƣơng tự với chƣơng trình HDP đƣợc đề xuất Werbos Trong phần thứ 2, tính ổn định đƣợc đƣa vào ADP bối cảnh vấn đề kiểm soát thời gian thực đƣợc nghiên cứu cho hệ thống động năng.Lewis ngƣời đóng góp cho tích hợp lý thuyết ổn định lý thuyết ADP Ƣu điểm chủ yếu lý thuyết ADP thu đƣợc chƣơng Chương V: Các ứng dụng ̇ =- (w+lx2) (5.3) -2mgl sin( sin( (5.4) ̇ =x2 (5.13) ̇ = sin( sin( + (u+lx2+w) (5.5) Để áp dụng phƣơng pháp RADP đề xuất, hàm sở đƣợc sử dụng đa thức với góc nhỏ Các tập bất biến đƣợc chọn chứa khoảng {(w,x1,x2):| |≤1, | |≤0.8, | |≤ 3.5} Chỉ dùng cho mục đích mơ phỏng, đặt = /4, m=1.65, l=0.179,g=9.81, I=0.0779 Chƣơng trình điều khiển ban đầu đƣợc đặt u0=-0.5x1-0.5x2 Điều kiện ban đầu đƣợc đặt w(0)=1, x1(0)=- /4, x2(0)=0 Kết thu đƣợc là: J=∫ + + )dt Trong mô này, hội tụ đạt đƣợc sau 10 lần lặp Có thể thấy từ hình 5.2 rằng, giá trị hàm xấp xỉ ̂ (x) đƣợc giảm đáng kể so với ban đầu ̂ (x) Ngoài ra, hình 5.3, ta so sánh đƣờng cong tốc độ theođặc tính điều khiển ban đầu, đặc tính sau 10 lần lặp lại Rõ ràng, sau đủ bƣớc lặp, đƣờng cong tốc độ có dạng hình vịm phù hợp với quan sát thực nghiệm Hình 5.2 So sánh giá trị hàm xấp xỉ 55 Chương V: Các ứng dụng Hình 5.3 So sánh biên dạng tốc độ 5.2 Áp dụng cho hệ lắc ngƣợc Nội dung trình bày vấn đề luật điều khiển thích nghi bền vững cho hệ thời gian liên tục Với thay đổi thông tin đầu vào với thông số khơng xác định Mục tiêu tìm luật điều khiển thích nghi bền vững dựa phƣơng pháp quy hoạch động (ADP) Và ổn định hệ thống vịng lặp khép kín Bên cạnh đó, tính hội tụ thuật tốn đƣợc ra, phân tích lý thuyết kết mơ chứng minh hiệu thuật toán áp dụng cho lắc ngƣợc Để phác họa luật điều khiển tối ƣu cho hệ thống không ổn định, hƣớng tiếp cận gần /quy hoạch động thích nghi (ADP).Các nghiên cứu tƣơng tự đƣợc phát triển Werbos quy hoạch động nơron Bersekas.… Sự phát triển gần lý thuyết ADP bao gồm phƣơng pháp: Nghiên cứu chuyển động, vấn đề điều khiển thời gian thực cho hệ thống động học, áp dụng ADP cho hệ thống phi tuyến không ổn định.Phƣơng pháp tiếp cận không dựa mơ hình đƣợc sử dụng rộng rãi để nghiên cứu cho ổn định tối ƣu thích nghi vấn đề giám sát 5.2.1 Thiết kế điều khiển tối ƣu bền vững Trong phần này, nghiên cứu hệ miền thời gian liên tục đƣợc thể : 56 Chương V: Các ứng dụng z g z; y ; v x Ax B u z; y ; v Dv v Ev e Cx Fv Với x n g: e p r r q đƣợc đáp ứng, C rn r hàm đầu ra, yd Fv z điều chỉnh lỗi ; D (5.6) phần đo đƣợc phản hồi trạng thái có sẵn, u đầu vào, y Cx tra, nq p : p r p ;v q q r qq ; F rq trạng thái hệ.Cáchàm ; g m p là tín hiệu tham chiếu để kiểm hai hàm địa phƣơng Lipschitz g 0; 0; 0; 0; Giả sử A ; E m ; m nn ; B nm ; không xác định z; v; y; yd không đo đƣợc Đối tƣợng điều khiển để tìm luật điều khiển thích nghi bền vững dựa thuật tốn lặp để đảm bảo tự hiệu chỉnh lỗi hội tụ khơng tính chất hội tụ thuật tốn lặp có mặt nhiễu biến thiên bên ngồi hệ thống.Từ tài liệu điều khiển thích nghi bền vững đƣa để giải vấn đề điều khiển thích nghi bền vững cổ điển Giả thiết 1:Cặp A; B điều khiển đƣợc Giả thiết 2:Điều kiện chuyển đổi không không đổi, tức A I B rank n r ; E 0 C Giả thiết 3:Xác định đƣợc giá trị E, là: M E s s i i 1 aj s N j 1 j s j2 j2 bj Với góc qE q ; bj số nguyên dƣơng, i ; j ; j với i 1; M; j 1; N Giả thiết 4:Tồn hàm z ; thuộc KL hàm z ; thuộc K ,cả hai không phụ thuộc vào v thỏa mãn: 57 Chương V: Các ứng dụng t 0 ,t e z t z z 0 ,t z e z z Giả thiết 5:Tồn hàm liên tục khác, xác định dƣơng bán khính khơng giới hạn hàm : p hai số c1 0; c2 ,sao cho: 2 g z , y , v c1 z , y , v c2 e ; z z Giả thiết 6:Tồn số p ;y r cho ma trận C thỏa mãn C Ghi chú: Khác với [2], báo lớp thực hệ thống thỏa z; v; y; yd không đo đƣợc x, u, e đo đƣợc Chúng giới thiệu lý thuyết cổ điển (Phƣơng pháp Kleinman 1968) [4]:Cho K0 ma trận trạng thái bất, lặp lại bƣớc sau lần lƣợt với k 0;1; Bước 1:Tìm nghiệm đối xứng xác định dƣơng Pk phƣơng trình Lyapunov: AkT Pk Pk Ak Q KkT Kk (5.7) Bước 2:Thay ma trận phản hồi vào: Kk 1 BT Pk (5.8) Các thuộc tính sau không đổi: 1 A BK k is Hurwitz P* Pk1 Pk Kk K * ;lim Pk P * lim k k Ta đề xuất luật điều khiển tối ƣu dựa định lý đƣợc mô tả tiếp theo: Định lý 1: Ta biểu thị x Xv , Nếu điều khiển có dạng u K * Uv với X; U thỏa mãn phƣơng trình điều khiển sau: XE AX BU D 0 CX F Và K * BT P* với ma trận đối xứng P* nghiệm phƣơng trình đại số Ricati: 58 Chương V: Các ứng dụng P* A AT P* Q P* BBT P* (5.9) Và ma trận trọng số Q thỏa mãn min Q c2 sau hệ vịng c1 kín đƣợc loại bỏ nhiễu đƣờng tiệm cận Chứng minh: Sử dụng giả thiết bao hàm phƣơng trình điều khiển giải đƣợc với ma trận D; F 5.10 x Xv Ax B u z; y ; v Dv XEv A Xv B u z; y ; v Dv XEv A B u Uv z; y ; v x Xv e y yd Cx Fv C Xv Fv 5.11 e C Với V1 T P* , ta có: P P A BK A BK P P B B P Q P BB P 2 P B Q B P T V1 T P * A B K * A B K * T T * * * T T * * T * T * * T T T * * T * 2 Sử dụng giả thiết ta có: Q min Q I C CTC 5.12 Sau đó: 2 V1 TCTC e Đặt V V1 z ,Sử dụng giả thiết (5.10) ta có: c1 2 V e 2 c c1 c2 e V e c1 c1 Ta thấy áp dụng trực thiếp nguyên lý bất biến LaSalle thu đƣợc đặc tính GAS hệ vịng kín 59 Chương V: Các ứng dụng Định lý 2: Tồn số đủ nhỏ, cho với ma trận đối xứng P thỏa mãn P P * , hệ thống tổng thể GAS với điều khiển u BT P Uv Chứng minh: từ 5.9 , với ma trận đối xứng P ta có: AT P PA Q PBBT P Với: Q Q P* P A AT P* P PBBT P P * BBT P * Từ 4.12 ,ta có Q CTC tồn số cho: Q CTC I Sau đó, tính liên tục, tồn , cho ma trận đối xứng P thỏa mãn P P * ta có Q Q I , hay Q CTC Do đó, theo định lý 1, hàm điều khiển u BT P Uv hệ ổn định tiệm cận hoàn tồn Do đó, theo định lý 1, kiểm sốt tồn giúp bình ổn hệ thống Ghi chú: Luật điều khiển tối ƣu đƣợc đề xuất đảm bảo tính chất GAS hệ vịng kín với cá thơng số khơng ổn định nhiễu bên ngồi Sử dụng giả thiết 3, ta ln tìm đƣợc vectơ v t qE ma trận E qE qE cho: v t E.v t v t G.v t Với G qqE 5.13 ma trận số không xác định Từ 5.10 ; 5.13 định lý 1, LOORP đƣợc giả thiết, ta thiết kế điều khiển u K * x XGv t UGv t PI dựa thiết kế đầu ADP: Giả sử có trình nghiên cứu A B u UGv z; y; v A BK k B u K k UGv Ak B w Kk UGv Đặt Pk CT PkC 5.14 ,Từ 5.11 ta có: 60 Chương V: Các ứng dụng e t t P k e t t e t P k e t T T t t Pk t t t Pk t T t t t t t T T AT P P A w K UGv T BT P d k k k k k k t t Q K K d w K T T k T k k t Kk 1 d t t t v T UG K k 1 d T t 5.16 Đặt XG X; UG U ; Q KkT Kk Qk Từ 5.10 ; 5.14 ; 5.15 ta có: T Q KkT Kk xT v T XT Qk x Xv xT Qk x v T XT Qk x xTQk Xv v T XTQk Xv w K K w K K K w K x Xv x v X K K x Xv T T T k 1 k T k 1 T T T k T k 1 T k k 1 k 1 wT K k 1x wT K k 1Xv xT K kT K k 1x v T X T K kT K k 1x xT K kT K k 1Xv v T X T K kT K k 1Xv v T UG Kk 1 v TUT Kk 1 x Xv v TUT Kk 1x v TUT Kk 1Xv T Tiếp theo e t t P k e t t e t P k e t T T 61 5.15 Chương V: Các ứng dụng t t xT Qk x v T X T Qk x xTQk Xv v T X TQk Xv d t 2 t t t 2 t t t 2 wT K k 1x wT K k 1Xv T T T T T x K k K k 1 x v X K k K k 1 x d xT K T K Xv v T X T K T K Xv k k 1 k k 1 v TU T K k 1x v TU T K k 1Xv d t t w K T k 1 x d t t w K T t t t t t t t v T X T Qk 2K kT K k 1 xd t t t wT K k 1x d t t t t t v T X T K kT K k 1 Qk 2U T K k 1 Xvd t t t T k wT K k 1Xv d t t t t t t t v U T v T X T K kT K k 1 Qk 2U T K k 1 Xvd xT Qk 2K kT K k 1 Xvd t t t t v U T T K k 1x d t Phƣơng trình Kronecker đƣợc viết dƣới dạng: x x w vec K ; Xv v w vec K X ; eT P k e eT eT vec P k ; wT K k 1 wT K k 1 T T k 1 T T k 1 xT K kT K k 1x xT K k x vec K k 1 ; T xT Qk 2KkT K k 1 Xv v T xT vec Qk 2K kT K k 1 X ; x x v vec U K ; v T XT 2K kT K k 1 Qk 2U T K k 1 Xv v T v T vec XT 2K kT K k 1 Qk 2U T K k 1 X v TUT Kk 1 T T T k 1 62 K k 1x d xT K kT K k 1xd T t t xT Qk xd 2 t t t xT 2K kT K k 1 Qk xd x Qk K K k 1 Xvd =2 Xv d T t k 1 t t Chương V: Các ứng dụng Đặt: Qk 2KkT Kk 1 X G1; k ; XT 2KkT Kk 1 Qk 2U T Kk 1 X G2; k ; U T Kk 1 G3; k k t t t t t t t t t t t t ; k k k k k k k k k k k 1 1 k k tl 1 k t t t t t k l 1 k l 1 k l 1 k l 1 k l 1 t e t e t e t t e t t ; t T T T T x t t T t t k k k tl 1 T t t 2 t t t 2 v T wT d ; t xT v T d ; t t t t t t t t t t v T xT d ; t w K k x d t t v T v T d t xT Qk xd t Do ta có: vec Pk vec K k 1 vec K k 1X k k vec G1; k vec G 2; k vec G 3; k 5.17 Giả thiết 7:Với k 1; 2; tồn số nguyên N cho, k N điều kiện hạng sau không thay đổi: rank k n n 1 m q n Theo giả thiết ta có: vec Pk , vec Kk 1 , vec Kk 1X , vec G1; k , vec G2; k , vec G3; k Có thể đƣợc xác định bởi: 63 T Chương V: Các ứng dụng vec Pk , vec K k 1 , vec K k 1X , vec G1; k , vec G2; k , vec G3; k Tk k 1 Tk k T 5.18 T Giả thiết 2ám B hạng cột, Kk 1 B Pk hạng dòng, UT G3; k KkT1 Kk 1 KkT1 5.19 1 Ghi chú: Khác với [2], ta có luật điều khiển thích nghi bền vững cho hệ thời gian liên tục bị tác động nhiễu bên Giờ, ta đƣa thuật tốn điều khiển thích nghi bền vững để giải vấn đề Thuật toán 1: Chon K0 ổn điện giới hạn: j Sử dụng luật điều khiển k giới hạn 0; k0;0 Lặp lại Thay uk K j k ek khoảng k j ;0 ; k j ; s với e k nhiễu thăm dò Giải Pj ; K j 1 từ 4.26 Đến Pj Pj 1 j * j Có đƣợc luật điều khiển tối ƣu gần đúng: uk K j* G3; j* KTj* 1 K j* 1 KTj* 1 1 T v Định lý 3: K0 ma trận phản hồi trạng thái thu đƣợc, Pk ; Kk 1 ; U đƣợc lấy từ thuật tốn 1, tsau theo giả thiết 7, thuộc tính sau đƣợc giữ nguyên: 1 A BK k Hurwitz P* Pk1 Pk lim K k k K * ;lim Pk P * k Chứng minh: 64 Chương V: Các ứng dụng Từ 5.14 ; 5.15 Ta thấy Pk ; Kk 1 thu đƣợc từ 5.7 ; 5.8 phải thỏa mãn điều khiện 5.17 Ngoài ra, theo giả thiết 7, nhất.Do đó, giải pháp định lý Kleiman 1968 tƣơng tự giải pháp (5.18) với k N Kết mô M Trọng lƣợng xe 8.378 kg m Trọng lƣợng lề 0.051 kg B Hệ số ma sát 12.98 Ns/m L ½ chiều dài lề 0.325 m I Mơ men qn tính lề 1.796×10-03 kg.m2 G Trọng lực hấp dẫn 9.81 m/s2 Bảng 5.1 Các thông số hệ lắc ngƣợc 0 x 0 x 0 0 I ml b I M m Mml m2 gl I M m Mml 0 mlb I M m Mml mgl M m I M m Mml 0 I ml x 0 I M m Mml x u ml 0 I M m Mml x 1 0 x 0 y u 0 0 Trong phần này, ta áp dụng luật điều khiển thích nghi bền vững cho lắc ngƣợc hệ xe đẩy đƣợc mô tả (5.20) bảng 5.1 Kết mơ hình 5.4 Với (a) kết đáp ứng góc hƣớng ( Direction Angle) Teel Anghle) nhƣ đạo hàm chúng; (b) (c) cho thấy hội tụ ma trận P K thuật toán lặp lỗi tự hiệu chỉnh hội tụ không 65 (5.20) Chương V: Các ứng dụng (a) (c) (b) Hình 5.4.Sự hội tụ ma trận P,K lỗi tự hiệu chỉnh Bài báo trình bày thuật tốn điều khiển thích nghi bền vững để giải vấn đề hệ thời gian liên tục với chuyển động chƣa xác định tác động từ bên ngồi.Thuật tốn đề xuất tính ổn định tiệm cận hồn tồn thuộc tính hội tụ.Các kết tính tốn lý thuyết mơ minh họa cho thuật toán đƣợc đề xuất 66 Tài Liệu Tham Khảo KẾT LUẬN Luận văn tóm tắt phát triển DAP tình hình nay, đặc biệt kiến thức RADP ứng dụng rộng rãi thực tế Một số kết nghiên cứu sơ lý thuyết RADP ứng dụng cho hệ tuyến tính phi tuyến với động thay đổi đƣợc trình bày dựa sở ADP.Theo khuôn khổ RADP, thiết kế tính tốn điều khiển tối ƣu thực dựa liệu hành chƣơng trình điều khiển biến đầu vào.Sự mở rộng cho hệ thống phức tạp quy mô lớn đƣợc đƣa Thông tin mang lại là, cách tận dụng lợi kỹ thuật từ việc điều khiển hệ phi tuyến nay, đạt đƣợc nhiều Nhƣng cịn phải dựa hồn toàn vào phát triển lý thuyết ADP cho hệ thống phi tuyến khơng ổn định.Những trình bày cho thấy bƣớc trung gian hƣớng tới vấn đề thách thức đầu ADP Nhƣ cơng cụ tính tốn cho hệ thống phức tạp khơng ổn định, ta tin ký thuyết RADP có nhiều ứng dụng tiềm năng, ví dụ nhƣ: Vấn đề kiểm sốt quy trình hệ thống cơng nghiệp, kiểm soát hệ thống kết nối mạng, nghiên cứu sinh học điều khiển… 67 Tài Liệu Tham Khảo TÀI LIỆU THAM KHẢO [1] Nguyễn Dỗn Phƣớc, Tối ƣu hóa điều khiển điều khiển tối ƣu, Nhà xuất bách khoa [2] Y Jiang, Z.P Jiang, Robust adaptive dynamic programming for linear andnonlinear systems: An overview, European Journal of control (2013) [3] Dao Phuong Nam, Nguyen Van Huong, Ha Duc Minh, Nguyen Thanh Long; “Dynamic Programming based Adaptive Optimal Control for Inverted Pendulum”; AETA -2017 [4] Y Jiang, Z.P Jiang, Computational adaptive optimal control for continuoustime linear systems with completely unknown dynamics, Automatica 48 (2012) 2699–2704 [5]Y Jiang, Z.P Jiang, Robust adaptive dynamic programming with an application to power systems, IEEE Transactions on Neural Networks and Learning Systems 24 (2013) 1150-1156 [6] Y Jiang, Z.P Jiang, Robust adaptive dynamic programming for large-scale systems with an application to multimachine power systems, IEEE Transactions on Circuits and System II 59 (2012) 693–697 [7] Y Jiang, Z.P Jiang, Robust adaptive dynamic programming for optimal nonlinear control design, arXiv:1303.2247, March 2013 [8] I Karafyllis, Z.P Jiang, Stability and Stabilization of Nonlinear Systems, Springer, London, 2011 [9] P Kundur, N.J Balu, M.G Lauby, Power System Stability and Control, McGrawHill, NY, 1994 [10] G.N Saridis, C.S.G Lee, An approximation theory of optimal control for trainable manipulators, IEEE Transactions on System, Man, and Cybernetics (1979) 152–159 [11] James B Rawlings, David Q Mayne, Model Predictive Control: Theory and Design, Madison Wisconsin [12]David L Kleinman, On an Iterative Technique for Riccati Equation Computations, IEEE Transactions On Automatic Control, February 1968 68 Tài Liệu Tham Khảo [13]Yury Sokolov, Robert Kozma, Ludmilla D Werbos , Paul J Werbos , “Complete stability analysis of a heuristic approximate dynamic programming control design“ Automatica 59 (2015) 9–1 [14] D Vrabie, O Pastravanu, M Abu-Khalaf, F.L Lewis, Adaptive optimal control for continuous-time linear systems based on policy iteration, Automatica 45 (2009) 477–484 [15] D Kleinman, On an iterative technique for Riccati equation computations, IEEE Transactions on Automatic Control 13 (1968) 114–115 [16] Frank L LewisDraguna L Vrabie Vassilis L Syrmos, Optimal Control, John Wiley & Son, inc [17] Nguyen Thanh Binh ; “Ứng dụng lý thuyết tối ƣu điều khiển thích nghi bền vững cho hệ chuyển động”, luận văn bảo vệ thạc sỹ; GVHD TS Dao Phuong Nam [18] Y Jiang, Z.P Jiang, Robust adaptive dynamic programming with an application to power systems, IEEE Transactions on Neural Networks and Learning Systems 24 (2013) [19] Y Jiang, Z.P Jiang, Adaptive dynamic programming as a theory of sensorimotor control, in: Proceedings of the 2012 IEEE Signal Processing in Medicine and Biology Symposium, New York, NY, December 2012 69 ... Bùi Thị Hồng Thắm Chương I: Tổng quan nghi? ?n cứu ? ?quy hoạch động thích nghi bền vững? ?? CHƢƠNG I: TỔNG QUAN CÁC NGHI? ?N CỨU VỀ ? ?QUY HOẠCH ĐỘNG THÍCH NGHI BỀN VỮNG” Trong chƣơng này, tác giả trình... ? ?quy hoạch động thích nghi bền vững? ?? (viết tắt RADP) đƣợc phát triển cho việc thiết kế điều khiển tối ƣu bền vững cho đối tƣợng hệ tuyến tính phi tuyến phụ thuộc vào tham số động học không Nội... quy mô lớn Chương I: Tổng quan nghi? ?n cứu ? ?quy hoạch động thích nghi bền vững? ?? 1.3 ADP cho hệ thống tuyến tính, thời gian liên tục, chƣa xác định Ta bắt đầu với hệ tuyến tính thời gian khơng đổi(LTI),