Điều khiển tối ưu toàn phương tuyến tớnh

Một phần của tài liệu Nguyên lý cực đại pontriagin trong lý thuyết điều khiển tối ưu (LV01165) (Trang 74 - 81)

2 Nguyờn lý cực đại Pontriagin trong lý thuyết điều khiển tối ưu

2.5. Điều khiển tối ưu toàn phương tuyến tớnh

Mục này đề cấp tới một ứng dụng của nguyờn lý cực đại đối với bài toỏn điều khiển tối ưu cú hệ động lực tuyến tớnh và hàm Lagrange toàn phương. Xột hệ điều khiển tuyến tớnh Σ = (A, B,Rm) với hệ động lực cho bởi

.

ξ(t) =A(ξ(t)) +B(à(t)).

Giả thiết: (Tớnh chất củaB) Ma trậnB cú hạng đầy đủ và m∈Z>0.

Ta xột cỏc ma trận đối xứng Q ∈ L (Rn;Rn) và R ∈ L (Rm;Rm) với R xỏc định dương (kớ hiệuR >0). Xột hàm Lagrange

L(x, u) = 1 2x

TQx+ 1 2u

TRu.

Chi phớ cho một quỹ đạo được điều khiển (ξ, à) xỏc định trờn [t0, t1] là

JΣ,L(ξ, à) = t1 R t0 1 2ξ(t) T Qξ(t) + 1 2à(t) T Rà(t) dt,

là tổng của cỏc L2- chuẩn với trọng của trạng thỏi và của điều khiển.

Với hệ tuyến tớnh Σ = (A, B,Rm) đó cho và cỏc ma trận đối xứng Q và R > 0, ta xột bài toỏn điều khiển tối ưu trờn khoảng cố định bắt đầu từ điểm đầu x0 ∈ Rn tại thời điểm t0 đến một trạng thỏi cuối khụng xỏc định tại thời điểm t1 (do đú tập ràng buộc cuối làS1 =Rn). Gọi tập hợp tất cả cỏc quỹ đạo được điều khiển tối ưu của bài toỏn này làP(A, B, Q, R, x0, t0, t1).

Mệnh đề 2.5.20 (Nguyờn lý cực đại cho bài toỏn điều khiển tối ưu toàn phương tuyến tớnh). Cho Σ = (A, B,Rm) là một hệ điều khiển tuyến tớnh, Q ∈ L (Rn;Rn) và

R ∈ L (Rm;Rm) là đối xứng với R > 0. Cho x0 ∈ Rn và t0, t1 ∈ R thỏa món t0 < t1. Nếu(ξ∗, à∗)∈P(A, B, Q, R, x0, t0, t1)thỡ tồn tại một ỏnh xạ λ∗ : [t0, t1]→Rn sao cho

ξ∗ và λ∗ thỏa món bài toỏn giỏ trị đầu, và giỏ trị cuối sau:

" . ξ∗(t) . λ∗(t) # = " A −S Q −AT # " ξ∗(t) λ∗(t) # , ξ∗(t0) = x0, λ∗(t1) = 0,

trong đú S=BR−1BT.

Chứng minh. Trước tiờn ta cú λ∗(t1) = 0 do cỏc điều kiện hoành của nguyờn lý cực đại. Trong trường hợp này, phản hồi liờn hợp toàn phần phải khỏc0nờn λ0∗ =−1. Do đú Hamilton mở rộng là HΣ,−L(x, p, u) = hp, Ax+Bui − 1 2x TQx+1 2u TRu ,

là một hàm toàn phương của u với đạo hàm cấp hai xỏc định õm. Do đú hàm này cú cực đại duy nhất tại điểm mà đạo hàm theo u của nú bằng 0. Tức là, với hầu hết

t∈[t0, t1]ta cú:

à∗(t) = −R−1BTλ∗(t). Vỡ cỏc phương trỡnh liờn hợp của hệ mở rộng là

. ξ0(t) = 1 2ξ T ∗ (t)Qξ∗(t) + 1 2à T ∗ (t)Rà∗(t), . ξ(t) =A(ξ(t)) +B(à(t)), . λ0(t) = 0, . λ(t) = Q(ξ(t))−AT (λ(t)),

nờn ta cú thể thay thế dạng của điều khiển tối ưu vào phương trỡnh thứ hai trờn đõy để cú cỏc phương trỡnh vi phõn trong mệnh đề. Đồng thời, ta cú ξ∗(t0) = x0. Cũn

λ∗(t1) = 0 là vỡ điều kiện cuối khụng xỏc định (S1 =Rn).

Tiếp theo ta sẽ đưa ra một nội dung quan trọng trong lý thuyết điều khiển tối ưu toàn phương tuyến tớnh, đú là phương trỡnh Riccati. Cho cỏc ma trận đối xứng Q và

S. Phương trỡnh Riccati là phương trỡnh vi phõn dưới đõy đối với hàm ma trận cấp

nìn F :I →L (Rn;Rn) :

.

F (t) +F (t)A+ATF (t)−F (t)SF (t) +Q= 0.

Đõy là một phương trỡnh vi phõn phi tuyến vỡ thế khụng dễ để đặc trưng nghiệm của phương trỡnh đú. Núi chung ta phải tỡm nghiệm bằng phương phỏp số. Cõu hỏi

được đặt ra là “Khi nào phương trỡnh Riccati cú nghiệm?” Như ta biết, vấn đề này liờn hệ mật thiết với bài toỏn điều khiển tối ưu toàn phương tuyến tớnh. Ta cú Định lý dưới đõy:

Định lý 2.5.1 (Đặc trưng nghiệm của bài toỏn điều khiển tối ưu toàn phương tuyến tớnh). Cho Σ = (A, B,Rm) là một hệ điều khiển tuyến tớnh, Q ∈ L (Rn;Rn) và R ∈

L (Rm;Rm) là đối xứng với R >0 và cho t0, t1 ∈Rthỏa món t0 < t1. Khi đú cỏc mệnh đề dưới đõy tương đương:

(i) với mỗi t00 ∈[t0, t1] và x0 ∈Rn,P A, B, Q, R, x0, t00, t16=∅;

(ii) với mỗi t00 ∈[t0, t1] và x0 ∈Rn,P A, B, Q, R, x0, t00, t1 là tập 1 điểm;

(iii) nghiệm của phương trỡnh Riccati tồn tại và bị chặn trờn [t0, t1] khi điều kiện cuối F (t1) = 0nìn;

(iv) nghiệm của bài toỏn giỏ trị cuối

" . Ξ (t) . Λ (t) # = " A −S −Q −AT # " Ξ (t) Λ (t) # , Ξ (t) =In,Λ (t1) = 0nìn (2.2)

với cỏc ma trận Ξ,Λ∈L (Rn;Rn) cú tớnh chất det Ξ (t)6= 0 với mỗi t ∈[t0, t1].

Chỳ ý 6 (Nghiệm của phương trỡnh vi phõn Riccati). Ta đó chỉ ra nghiệm của phương trỡnh Riccati với điều kiện cuối F (t1) = 0nìn được cho bởi F (t) = Λ (t) Ξ (t)−1 với Ξ

vàΛ là nghiệm của bài toỏn giỏ trị đầu / cuối trong phần (iv) của Định lý. Do đú mặc dự phương trỡnh Riccati phi tuyến, ta vẫn cú nghiệm của nú bằng cỏch giải phương trỡnh vi phõn tuyến tớnh.

Chỳ ý 7 (Vai trũ của tớnh điều khiển được). Ta cần cú một điều kiện đủ cú thể kiểm tra được, đảm bảo rằng cỏc điều kiện tương đương của Định lý 2.5.1 thỏa món. Điều kiện đầy đủ hay nhắc tới nhất làQ nửa xỏc định dương và hệ(A, B,Rm)là điều khiển được, cú nghĩa là ma trận điều khiển Kalman

[B|AB|A2B|...|An−1B], cú hạng đầy đủ.

Hệ quả 2.5 (Nghiệm của bài toỏn điều khiển tối ưu toàn phương tuyến tớnh là phản hồi trạng thỏi). Cho Σ = (A, B,Rm) là một hệ điều khiển tuyến tớnh, Q∈ L (Rn;Rn)

và R ∈ L (Rm;Rm) là đối xứng với R > 0, và t0, t1 ∈ R thỏa món t0 < t1. Giả sử phương trỡnh Riccati cú một nghiệm bị chặn F : [t0, t1]→L (Rn;Rn) đối với điều kiện cuối F (t1) = 0nìn. Khi đú với x0 ∈Rn, cú duy nhất (ξ∗, à∗)∈P(A, B, Q, R, x0, t0, t1) thỏa món bài toỏn giỏ trị đầu

ã

ξ∗(t) = A−B.R−1BTF (t)ξ∗(t), ξ∗(t0) =x0.

Chỳ ý cỏc quỹ đạo tối ưu là cỏc nghiệm của phương trỡnh vi phõn tuyến tớnh theo trạng thỏi vỡ điều khiển tối ưu à∗ là một hàm tuyến tớnh của trạng thỏi à∗(t) =

−R−1BTF (t)ξ∗(t). Do đú bài toỏn điều khiển tối ưu toàn phương tuyến tớnh cú một nghiệm là “phản hồi trạng thỏi tuyến tớnh”. Cuối cựng, ta sẽ mở rộng thời gian cuối cho bài toỏn điều khiển tối ưu toàn phương tuyến tớnh đến vụ hạn. Để làm được điều này ta phải thờm giả thiết cho hệ để đảm bảo quỏ trỡnh giới hạn được xỏc định.

Bài toỏn 6. (Bài toỏn điều khiển tối ưu toàn phương tuyến tớnh với thời gian vụ hạn)

Cho Σ = (A, B,Rm) là một hệ điều khiển tuyến tớnh, Q ∈ L (Rn;Rn) và R ∈

L (Rm;Rm)là đối xứng vớiR >0. GọiU∞là tập hợp cỏc điều khiểnà∈L2([0,∞) ;Rm) sao cho tất cả cỏc quỹ đạo được điều khiển (ξ, à) thỏa món ξ ∈ L2([0,∞) ;Rn). Cho

x0 ∈ Rn, một nghiệm của bài toỏn điều khiển tối ưu toàn phương tuyến tớnh với thời gian vụ hạn từ điểm x0 là một cặp (ξ∗, à∗)∈Ctraj ([0,∞)) với à∗ ∈U∞ và ξ∗(0) =x0

sao cho với cặp bất kỳ (ξ, à)∈Ctraj ([0,∞)) với à∈U∞ và ξ(0) =x0, ta đều cú ∞ Z 0 1 2ξ∗(t) T Qξ∗(t) + 1 2à∗(t) T Rà∗(t) dt≤ ∞ Z 0 1 2ξ(t) T Qξ(t) + 1 2à(t) T Rà(t) dt.

Ta kớ hiệu P∞(A, B, Q, R, x0) là tập hợp cỏc nghiệm của bài toỏn điều khiển tối ưu toàn phương tuyến tớnh với thời gian vụ hạn từ điểm x0.

Ta muốn cú một định lý tương tự Định lý 2.5.1 cho bài toỏn với thời gian vụ hạn. Để làm được điều này ta sẽ dẫn đến phương trỡnh đại số Riccati:

ATF +F A−F SF +Q= 0, với S =BR−1BT.

Định lý 2.5.2 (Đặc trưng nghiệm của bài toỏn điều khiển tối ưu toàn phương tuyến tớnh với thời gian vụ hạn). Cho Σ = (A, B,Rm) là một hệ điều khiển tuyến tớnh và cho

Q∈ L (Rn;Rn) và R ∈ L (Rm;Rm) là đối xứng với R > 0. Khi đú cỏc khẳng định sau tương đương:

(i) với mỗi x0 ∈Rn, P∞(A, B, Q,R,x0)6=∅,

(ii) với mỗi x0 ∈Rn, P∞(A, B, Q,R,x0) là tập một điểm

(iii) tồn tại một nghiệm F của phương trỡnh đại số Riccati sao cho ma trận

A−B.R−1BTF là Hurwitz; (iv) ma trận " A −S Q −AT #

khụng cú giỏ trị riờng trờn trục ảo.

Chỳ ý 8. (Vai trũ của tớnh điều khiển và tớnh ổn định)

Rừ ràng hệ tuyến tớnh (A, B,Rm) phải ổn định để bất kỳ điều kiện tương đương nào của định lý đều thỏa món. Tuy nhiờn điều kiện này là khụng đủ. Một điều kiện đủ thường gặp trong thực hành làQ nửa xỏc định dương và (A, B,Rm)là điều khiển được, nghĩa là ma trận điều khiển Kalman

[B|AB|A2B|...|An−1B]

cú hạng cực đại.

Hệ quả 2.6. (Nghiệm của bài toỏn điều khiển tối ưu toàn phương tuyến tớnh với thời gian vụ hạn là phản hồi trạng thỏi)

Cho Σ = (A, B,Rm) là một hệ điều khiển tuyến tớnh và Q ∈ L (Rn;Rn), R ∈

F sao cho A−B.R−1BTF là Hurwitz. Khi đú với x0 ∈ Rn cú duy nhất (ξ∗, à∗) ∈

P∞(A, B, Q, R, x0) thỏa món bài toỏn giỏ trị đầu.

.

ξ∗(t) = A−BR−1BTFξ∗(t), ξ∗(0) = x0.

Giống như trường hợp thời gian hữu hạn cỏc quỹ đạo tối ưu là cỏc nghiệm của phương trỡnh vi phõn tuyến tớnh. Ở đõy, phương trỡnh vi phõn tuyến tớnh khụng phụ thuộc thời gian (là phương trỡnh đại số). Chỳ ý rằng phản hồi tuyến tớnh à∗(t) =

−R−1BTF ξ(t)tạo cho hệ một sự ổn định tuyến tớnh, ngay cả khi Akhụng là Hurwitz. Do đú bài toỏn điều khiển tối ưu dẫn đến một phản hồi trạng thỏi tuyến tớnh ổn định.

KẾT LUẬN

Trong Luận văn này chỳng tụi đó tỡm hiểu về nguyờn lý cực đại Pontriagin một cỏch hệ thống, bao gồm sự dẫn dắt từ cỏc điều kiện cần trong phộp tớnh biến phõn; cỏc khỏi niệm trừu tượng xuất hiện trong phỏt biểu cũng như trong chứng minh của nguyờn lý cực đại; ứng dụng của nguyờn lý cực đại trong bài toỏn điều khiển tối ưu toàn phương tuyến tớnh.

Tài liệu tham khảo

[1] A. A. Agrachev and Y. Sachkov (2004),Control Theory from the Geometric View- point, Vol. 87 of Encyclopedia of Mathematical Sciences, Springer-Verlag, New York.

[2] L. D. Berkovitz (1974), Optimal Control Theory, Springer-Verlag, New York.

[3] Andrew D. Lewis (2006), The Maximum Principle of Pontryagin in control and in optimal control, Queen’s University, Kingston, ON K7L 3N6, Canada.

[4] Klaus Schmitt, Russell C. Thompson (2004), Nonlinear Analysis and Differen- tial Equations An Introduction, Department of Mathematics and Statistics Utah State University.

Một phần của tài liệu Nguyên lý cực đại pontriagin trong lý thuyết điều khiển tối ưu (LV01165) (Trang 74 - 81)

Tải bản đầy đủ (PDF)

(81 trang)