Kết luận chương 1

Một phần của tài liệu Ứng dụng của nghiệm Nhớt trong lý thuyết điều khiển tối ưu và trò chơi vi phân (Trang 37)

Chương 1 đã trình bày hệ thống các kiến thức cơ bản về lý thuyết điều khiển tối ưu, lý thuyết trò chơi vi phân và nghiệm nhớt của phương trình Hamilton- Jacobị Trong lý thuyết điều khiển tối ưu đặc biệt đã chỉ rõ cách tiếp cận quy hoạch động đối với bài toán điều khiển tối ưu tất định. Với lý thuyết trò chơi vi phân, trong mỗi trò chơi, hàm giá trị của trò chơi được đưa ra thông qua một số luật chơi cụ thể. Các hàm giá trị được giới thiệu trong lý thuyết điều khiển và lý thuyết trò chơi vi phân đều thỏa mãn một phương trình đạo hàm riêng xác định gọi là phương trình Hamilton- Jacobi- Bellman. Các bất đẳng thức của định nghĩa nghiệm nhớt của các phương trình này chính là hệ quả của các điều kiện tối ưu trong lý thuyết điều khiển. Vì vậy, các kiến thức cơ bản nhất của nghiệm nhớt của phương trình Hamilton- Jacobi được đưa ra để nghiên cứu ứng dụng của nghiệm nhớt trong chương 2.

Chương 2

Ứng dụng của nghiệm nhớt

2.1 Ứng dụng đối với lý thuyết điều khiển tối ưu 2.1.1 Nghiệm nhớt của phương trình quy hoạch động

Chúng ta đã biết rằng phương trình quy hoạch động được dẫn ra (chỉ có nghĩa) khi hàm giá trị khả vị Trong mục này chúng ta nghiên cứu ứng dụng của nghiệm nhớt trong việc khắc phục những khó khăn của phương pháp quy hoạch động cổ điển. Trước hết là việc dẫn ra phương trình Hamilton-Jacobi-Bellman khi hàm giá trị chỉ là hàm liên tục. Định lý 2.1.1. Giả sử hàm giá trị là liên tục. Khi đó nó là một nghiệm

nhớt của phương trình trong (1.5) đối với bài toán với thời gian vô hạn,

trong (1.7) đối với bài toán với thời gian hữu hạn, trong (1.8) khi Ω =R

đối với bài toán tìm thời gian tối thiểu và trong (1.9) đối với bài toán

chiết khấu thời gian tối thiểụ

Chứng minh. (cho bài toán tìm thời gian tối thiểu). Trong Mệnh đề 1.1.8 chúng ta đã chỉ ra rằng

T ∈ C1, T(x)−T(yx(s)) ≤ s

với s nhỏ, với mọi quỹ đạo yx(.) của hệ, nên ta có H(x, DT(x)) ≤1. Nếu chúng ta chỉ biết T ∈ C(RN \ T ) và φ ∈ C1 sao cho T −φ có giá trị cực đại địa phương tại x thì

φ(x)−φ(yx(s)) ≤ T(x)−T(yx(s)) ≤s

với s nhỏ. Do đó ta có thể thay thế T bởi φ trong chứng minh trên và nhận được

Chứng tỏ T là một nghiệm nhớt dưới của phương trình trong (1.8). Tương tự như trong chứng minh Mệnh đề 1.1.8 chúng ta có, với mọi

s, ε nhỏ, tồn tại một quỹ đạo yx(.) của hệ sao cho:

T ∈ C1, T(x)−T(yx(x)) ≥s(1−ε).

Do đó

H(x, DT(x)) ≥1.

Nếu φ ∈ C1 là hàm sao cho T −φ có cực tiểu địa phương tại x thì

φ(x)−φ(yx(s)) ≥ T(x)−T(yx(s)) ≥ s(1−ε)

với s, ε nhỏ. Giống như trên ta lại có H(x, Dφ(x)) ≥ 1. Vậy T cũng là một nghiệm nhớt trên của phương trình trong (1.8).

Tiếp theo chúng ta đặc trưng hóa hàm giá trị như là nghiệm nhớt duy nhất của bài toán biên thích hợp.

Định lý 2.1.2. Giả sử hàm giá trị là liên tục, bị chặn (và Ω là một miền trơn trong bài toán với thời gian vô hạn có ràng buộc trạng thái). Khi đó các hàm giá trị tương ứng là nghiệm trên nhỏ nhất và là nghiệm dưới

lớn nhất của (1.5), (1.7), (1.9) trong lớp các hàm bị chặn và của (1.6)

trong lớp các hàm liên tục và bị chặn. Nói riêng nó là nghiệm nhớt liên tục và bị chặn duy nhất.

Để tiện theo dõi, ta nhắc lại khái niệm nghiệm trên và nghiệm dưới của các phương trình cụ thể.

Nghiệm trên của (1.6) là một nghiệm nhớt của

u(x) + max

a∈A {−f(x, a).Du(x)−l(x, a)} ≥ 0 trong Ω

và nghiệm dưới của (1.6) là một nghiệm nhớt của

u(x) + max

Nghiệm trên của (1.7) (tương ứng: (1.9)) là một nghiệm nhớt trên của phương trình đạo hàm riêng trong các bài toán đó và thỏa mãn

u(x,0) ≥g(x), x∈ RN,

(tương ứng

u(x) ≥ 0, x ∈ ∂T),

và nghiệm dưới của (1.7) (tương ứng: (1.9)) cũng được định nghĩa tương tự.

Chứng minh định lý này cho (1.5),(1.7),(1.9) là hệ quả trực tiếp của định lý về sự so sánh nghiệm đối với bài toán Cauchy và Dirichlet cho phương trình HJ B. Các giả thiết về độ trơn của hàm Hamilton trong định lý về sự so sánh nghiệm được thỏa mãn vì

|H(x, p)−H(y, q)| ≤ K(1 +|x|)|p−q|+|q|L|x−y|, ∀x, y, p, q, (2.1) với một hằng số K phù hợp, và hàm Hamilton trong (1.5) thỏa mãn đánh giá tương tự (2.1) nhưng vế phải được cộng thêm với ωl(|x−y|).

Định lý về so sánh nghiệm của (1.5) cần vài điều chỉnh trong chứng minh và giả thiết ∂Ω là Lipschitz địa phương với hằng số Lipschitz đềụ Giả thiết tính bị chặn của hàm giá trị trong Định lý 2.1.2 không phải là một sự hạn chế đối với bài toán với thời gian vô hạn và bài toán chiết khấu thời gian tối thiểu bởi vì ta dễ dàng kiểm tra được

sup|V∞| ≤ sup|l|,

0 ≤V ≤ 1.

Trong bài toán với thời gian hữu hạn, v bị chặn khi và chỉ khi g bị chặn, và đây là một giả thiết khá hạn chế. Giả thiết này có thể bỏ qua mà các điều kiện về sự so sánh và tính duy nhất nghiệm của Định lý 2.1.2 vẫn còn đúng trong C(RN ×[0,+∞)), nhưng cách chứng minh thì khác và phải dựa trên tính chất của nón phụ thuộc của nghiệm của (1.7).

Định lý 2.1.2 không đúng cho bài toán biên tự do (1.8) của bài toán tìm thời gian tối thiểu vì nghiệm của nó không bị chặn và tập Ω là chưa biết. Định lý sau đây cho ta kết quả về tính duy nhất nghiệm của bài toán đó.

Định lý 2.1.3. Giả sử hàm giá trị T là liên tục. Khi đó cặp (T,R) là

nghiệm duy nhất của (1.8) trong số các cặp (u,Ω) với u là hàm liên tục

và bị chặn dưới và Ω ⊇ T là tập mở.

Chứng minh định lý này về cơ bản dựa vào các phương pháp của lý thuyết điều khiển và cho đến nay chúng ta chưa có cách chứng minh nào khác theo nghĩa thuần túy của phương trình đạo hàm riêng.

Chú ý rằng giả thiết về tính liên tục của hàm giá trị trong bài toán với thời gian hữu hạn và bài toán với thời gian vô hạn cũng không phải là một sự hạn chế. Thật vậy, không khó để ta có thể chứng minh mệnh đề sau:

Mệnh đề 2.1.4. V∞ ∈ C(RN) và v ∈ C(RN ×[0,∞)).

Tình huống sẽ khác đi trong bài toán điều khiển có ràng buộc trạng thái hoặc bài toán có liên quan đến thời gian thoát khỏi một miền. Trong hai bài toán đó, hàm giá trị nói chung không liên tục. Kết quả sau đây cho chúng ta một vài điều kiện đủ đơn giản về tính liên tục của nghiệm trong bài toán với thời gian vô hạn có ràng buộc trạng thái và trong bài toán tìm thời gian tối thiểụ Tính liên tục của hàm V trong bài toán chiết khấu thời gian tối thiểu hiển nhiên tương đương với tính liên tục của T.

Định lý 2.1.5. Giả sử Ω là một miền trơn và T là tập đóng của một

miền trơn nào đó. Cho n(.) là véc tơ pháp tuyến ngoài đơn vị của Ω hoặc

của T. Nếu

min

a∈Af(x, a).n(x) < 0. (2.2)

Ứng dụng đầu tiên của Định lý 2.1.2 đối với bài toán điều khiển tối ưu là nó cho phép ta mở rộng khẳng định (i) của Định lý kiểm chứng 1.1.10 thành điều kiện cần và đủ để có điều khiển tối ưụ Điều này là có thể vì lý thuyết nghiệm nhớt cho phép ta quan tâm đến hàm kiểm chứng không trơn. Để đơn giản chúng ta chỉ giới hạn cho bài toán chiết khấu thời gian tối thiểụ

Định nghĩa 2.1.6. Hàm kiểm chứng của bài toán chiết khấu thời gian tối thiểu là một nghiệm nhớt bị chặn u ∈ U SC(RN) của

ưH(x, Du) ≤ 0 trong RN \ T sao cho

u ≤0 trên ∂T.

Hệ quả 2.1.7. Giả sử hàm giá trị V của bài toán chiết khấu thời gian tối thiểu là liên tục. Khi đó điều khiển a∗(.) là tối ưu ứng với x ∈ RN\ T

khi và chỉ khi tồn tại một hàm kiểm chứng u sao cho u(x) ≥ J(x, a∗).

Chứng minh. Nếu a∗(.) là điều khiển tối ưu thì u = V là một hàm kiểm chứng thỏa mãn u(x) =J(x, a∗).

Ngược lại, nếu tồn tại hàm kiểm chứng u(x) ≥ J(x, a) thì theo Định lý 2.1.2 ta có u ≤V nên J(x, a∗) ≤ V(x) và như vậy a∗(.) là điều khiển tối ưu ứng với x.

2.1.2 Điều kiện cần và đủ của điều khiển tối ưu

Trong mục này chúng ta nghiên cứu điều kiện cần và đủ để tồn tại điều khiển tối ưu của bài toán chiết khấu thời gian tối thiểụ Chúng ta nhớ lại rằng trong lý thuyết cổ điển nếu hàm giá trị V ∈ C1(Ω),Ω = RN \ T , x ∈ Ω là điểm cố định, ặ) ∈ A, y(.) = yx(., a) thì các phát biểu sau là tương đương:

(i) ặ) là điều khiển tối ưu ứng với x;

(ii) V(y(s)) −y0(s).DV(y(s)) = 1, với hầu hết s > 0; (iii) ăs) ∈ arg max

a∈A

{−f(y(s), a).DV(y(s))}, với hầu hết s > 0.

Định lý tiếp theo là một dạng của kết quả này cho trường hợp hàm

V không trơn và nó đạt được nhờ sử dụng các khái niệm trên và dưới vi phân D+, D− và đặc trưng của nghiệm nhớt qua các khái niệm đó (xem Mệnh đề 1.3.4). Cụ thể ta có thể viết

D+V(z) := {p ∈ RN : V(y)−V(z) ≤p.(y −z) +o(|y−z|) khi y →z}, D−V(z) := {p ∈ RN : V(y)−V(z) ≥p.(y −z) +o(|y−z|) khi y →z}.

Ta kí hiệu:

D±V(z) := D+V(z)∪D−V(z)

D∗V(z) := {p = lim

n DV(zn) : zn →z}.

Định lý 2.1.8. 1. Giả sửV là hàm Lipschitz địa phương vàD±V(y(s)) 6=

∅ với hầu hết s > 0. Khi đó các phát biểu sau là tương đương:

(i) ặ) là điều khiển tối ưu đối với x;

(ii)V Với hầu hết s > 0 và với mọi p∈ D±V(y(s)),

(ii)0V Với hầu hết s > 0 đều tồn tại p ∈ D±V(y(s)) thỏa mãn (2.3).

2. Giả sử V là hàm Lipschitz địa phương và D+V(y(s)) ⊇D∗V(y(s))

với hầu hết s > 0. Khi đó các phát biểu sau là tương đương:

(i) ặ) là điều khiển tối ưu ứng với x; (iii)V ăs) ∈ arg max

a∈A

{−f(y(s), a).p}, với hầu hết s > 0 và với mọi

p ∈ D±V(y(s)).

Nhận xét 2.1.9. Nếu V là nửa lõm trong Ω, (tức là với mỗi tập lồi,

compact K ⊆ Ω, đều tồn tại một hằng số CK sao cho

V(x+h)−2V(x) +V(x−h) ≤ CK|h|2

với mọi h nhỏ) thì D+V = coD∗V 6= ∅ tại mọi x và V là hàm Lipschitz

địa phương. Cannarsa và Sinestrari gần đây đã chứng minh được rằng

hàm thời gian tối thiểu T và do đó V là nửa lõm, dưới các giả thiết của

Định lý 2.1.5 và ∂f∂x là Lipschitz theo x và đều đối với a ∈ Ạ

Chú ý rằng (iii)V là một dạng của nguyên lý cực đại, tức là: −f(y(s), ăs)).p = H(y(s), p).

Một ứng dụng trực tiếp của kết quả này là nó cho phép ta xây dựng một phản hồi đa trị tối ưụ Trước hết ta đưa ra một ví dụ về sự không tồn tại phản hồi chấp nhận được tối ưu đơn trị.

Ví dụ 2.1.10. Xét bài toán chiết khấu thời gian tối thiểu, trong đó

f = a,, A= [−1,1], T = R\(−1,1). Khi đó ta có tx(a) = (1−|x| a nếu x > 0 1−|x| −a nếu x < 0

Do đó T(x) = 1− |x|, và V(x) = 1−e|x|−1. Cực tiểu đạt được tại a = 1

Vì vậy nếu Φ muốn là một phản hồi tối ưu thì ta phải có Φ(x) = 1

nếu y > 0 và Φ(x) = −1 nếu y < 0. Tuy nhiên dù Φ(0) có bằng bao nhiêu đi chăng nữa thì hệ

(

y0 = Φ(y), t > 0 y(0) = 0

vẫn luôn có hai nghiệm, đó là y(t) = t, và y(t) = −t, t > 0. Cả hai nghiệm này đều là các quỹ đạo tối ưu ứng với x. Chứng tỏ ta có một phản hồi chấp nhận được tối ưu đa trị.

Ví dụ trên cho thấy, nếu ta chỉ xét phản hồi chấp nhận được theo Định nghĩa 1.1.13 thì bài toán chiết khấu thời gian tối thiểu đơn giản như trong ví dụ nêu trên sẽ không có phản hồi tối ưụ Vấn đề nằm ở chỗ ta đòi hỏi tính duy nhất nghiệm của hệ. Để khắc phục điều đó, ta đưa ra định nghĩa phản hồi tối ưu đa trị như sau: đó là ánh xạ

SV :RN → P(A) SV(z) = \ p∈D±V(z) arg max a∈A {−f(z, a)·p}.

Theo Định lý 2.1.8, nếu V là nửa lõm, thì điều khiển ặ) ∈ A sẽ là tối ưu ứng với x khi và chỉ khi

ăs) ∈ SV(yx(s, a)) với hầu hết s > 0.

Do đó ta có hệ quả sau

Hệ quả 2.1.11. Giả sử V là nửa lõm và với mọi điểm ban đầu x đều

tồn tại một điều khiển tối ưu trong A (chẳng hạn khi f(z,A) là tập lồi

với mọi z). Khi đó phép nhúng vi phân

(

y0 ∈ f(y, SV(y)), với hầu hết s > 0 y(0) = x

có ít nhất một nghiệm với mọi x ∈ RN, và tất cả các nghiệm như thế

Vì thế ta nói: SV là một phản hồi tối ưu đầy đủ.

Với khái niệm phản hồi tối ưu đa trị này ta có thể chứng minh Định lý 2.1.8 từng bước như sau:

Mệnh đề 2.1.12. Nếu V là Lipschitz địa phương và với hầu hết s đều tồn tại hoặc p∈ D±V(y(s)) thỏa mãn(2.3) hoặc tồn tạip ∈ D+V(y(s))∩

D∗(y(s)) thỏa mãn (iii)V, thì ặ) là điều khiển tối ưu ứng với x.

Chứng minh. Theo nguyên lý quy hoạch động, Mệnh đề 1.1.7 ta chỉ cần chứng minh rằng h(s) := Z s 0 e−tdt+V(y(s))e−s (2.4) là hàm không tăng, tức là h0(s) ≤ 0.

Thật vậy, do V là Lipschitz địa phương nên h khả vi hầu khắp nơi và

h0(s) =e−s 1−V(y(s)) +lim ε→0 V(y(s+ε)−V(y(s)). ε (2.5) Với mọi p ∈ D+V(y(s)) ta có

V(y(s+ε))−V(y(s)) ≤ p.(y(s+ε)−y(s)) +o(ε) khi ε →0, (2.6) nên chia bất đẳng thức này cho ε > 0, cho ε → 0 ta có

lim

ε→0

V(y(s+ ε)) −V(y(s))

ε ≤p·y0(s) với hầu khắp s.

Theo (2.3) p·y0(s) =V(y(s)) −1 nên từ (2.5) suy ra

h0(s) ≤e−s(1−V(y(s)) +V(y(s))−1) = 0.

Nếu p ∈ D−V(y(s)) thì V(y(s+ε))−V(y(s)) ≥p.(y(s+ε)−y(s)) + o(ε). Chia cho ε < 0 rồi cho ε → 0 được

lim

ε→0

V(y(s+ε))−V(y(s))

ε ≤ p·y0(s) = V(y(s))−1

từ đó cũng suy ra được h0(s) ≤ 0.

Bây giờ nếu p ∈ D+V(y(s))∩ D∗V(y(s)) thì lấy xn → y(s) sao cho

DV(xn) → p. Do tại xn hàm V khả vi nên

V(xn) +H(xn, DV(xn)) = 1.

Cho n→ ∞ ta nhận được

V(y(s)) +H(y(s), p) = 1.

Chúng ta viết lại (iii)V bằng cách thay

−f(y(s), ăs)).p = H(y(s), p) tại hầu hết s,

ta thu được (2.3) với hầu hết s. Tương tự chứng minh trên ta cũng có

h0(s) ≤0.

Nhận xét 2.1.13. Trong giả thiết tồn tại p ∈ D±V(y(s)) thỏa mãn

(2.3) của Mệnh đề 2.1.12, ta có thể thay thế V bởi một hàm kiểm chứng

Lipschitz địa phương u nào đó, tức là: nếu với hầu hết s, tồn tại p ∈

D±u(y(s)) sao cho u(y(s))−y0(s).p = 1, thì ặ) là điều khiển tối ưu ứng

với x. Đây là một mở rộng trong trường hợp u không trơn của Định lý

kiểm chứng cổ điển 1.1.10(ii). Chứng minh dễ dàng nhận được dựa vào chứng minh của Định lý 1.1.10(ii); Mệnh đề 2.1.12 và Hệ quả 2.1.7.

Tiếp theo chúng ta chứng minh một điều kiện cần để tồn tại điều khiển tối ưụ Chú ý rằng trong kết quả này chúng ta không cần tính liên tục Lipschitz của V.

Mệnh đề 2.1.14. Nếu ặ) là điều khiển tối ưu ứng với x thì (2.3) và

(iii)V thỏa mãn với mọi p∈ D+V(y(s)) với hầu hết s.

Chứng minh. Nếu p ∈ D+V(y(s)) và s là thời điểm mà tại đó tồn tại giới hạn I := lim

ε→0

V(y(s+ε))−V(y(s))

ε thì ta chia hai vế của (2.6) cho ε < 0

và cho ε →0 thu được I ≥ p.y0(s). Do h xác định bởi (2.4) là không đổi (theo Mệnh đề 2.1.12), nên từ (2.5) ta có

. Suy ra

V(y(s))−p.f(y(s), ăs)) ≥ 1 với hầu hết s

V(y)−p.f(y, a) ≤ 1 ∀y /∈ T ,∀a ∈ A

(Do V là nghiệm nhớt dưới của phương trình V + H(x, DV) = 1), nên ta có điều cần chứng minh.

Để hoàn thành chứng minh của Định lý 2.1.8 chúng ta cần kết quả sau:

Mệnh đề 2.1.15. V(x) +H(x, p) = 1 ∀x ∈ Ω, p ∈ D−V(x).

Điều này chứng tỏ V là một nghiệm nhớt trên của

V +H(x, DV) = 1 trong Ω, (2.7) và

−V −H(x, DV) =−1 trong Ω.

Nói cách khác V là một nghiệm nhớt trên hai phía của phương trình Hamilton-Jacobi-Bellman (2.7). Việc chứng minh tương tự như chứng minh Định lý 2.1.1 nếu ta sử dụng Nguyên lý quy hoạch động ngược sau đây: Bổ đề 2.1.16. Với mọi x ∈ RN và s > 0 V(x) ≥ sup a∈A {V(z(s))es− Z s 0 etdt},

trong đó z(.) là nghiệm của hệ

(

z0 = −f(z, a), s > 0, z(0) = x

Bổ đề này chứng minh không khó nhờ nguyên lý quy hoạch động trong Mệnh đề 1.1.6. Mệnh đề 2.1.15 cũng có thể thu được từ định lý sau:

Định lý 2.1.17. Giả sử λ >0 và F : Ω×RN → R là liên tục, F(x, .) là lồi với mọi x và

F(x, p)−F(y, p) ≤ ω(|x−y|(1 +|p|))

với mọi x, y, p, trong đó ω là một mô đun. Thế thì u ∈ C(Ω) là một

nghiệm nhớt của phương trình

λưF(x, Du) = 0 trong Ω

khi và chỉ khi

λu(x) +F(x, p) = 0 ∀x ∈ Ω, p ∈ D−u(x).

Bây giờ chứng minh tương tự như trong chứng minh của các Mệnh đề 2.1.12 và 2.1.14 ta có chứng minh của Định lý 2.1.8.

Nhận xét 2.1.18. Sử dụng mệnh đề 2.1.15 ta có:

• Nếu ặ) là điều khiển tối ưu ứng với x thì (2.3) và (iii)V thỏa mãn

Một phần của tài liệu Ứng dụng của nghiệm Nhớt trong lý thuyết điều khiển tối ưu và trò chơi vi phân (Trang 37)

Tải bản đầy đủ (PDF)

(68 trang)