Ứng dụng đối với lý thuyết trò chơi vi phân- 123docz.net

Trong mục này, chúng ta sẽ chỉ ra rằng: hàm giá trị dưới

V(x) := inf α∈Γ sup b(.)∈B J(x, α[b], b). và hàm giá trị trên U(x) := sup β∈∆ inf ặ)∈AJ(x, a, β[a]),

(trong trường hợp chỉ cần liên tục) tương ứng là nghiệm nhớt của phương trình Hamilton-Jacobi-Isaacs dưới u(x) +H(x, Du(x)) = 0, với H(x, p) := min b∈Bmax a∈A {−f(x, a, b).p},

và của phương trình Hamilton-Jacobi-Isaacs trên

u(x) + ˜H(x, Du(x)) = 0, với ˜ H(x, p) := max a∈A min b∈B{−f(x, a, b).p}.

Định lý 2.2.1. Nếu hàm giá trị dưới V là liên tục thì nó là nghiệm nhớt liên tục, bị chặn duy nhất của

(

V +H(x, DV) = 1 trong RN \ T

V = 0 trên T. (2.8)

Nếu hàm giá trị trên U là liên tục thì nó là nghiệm nhớt liên tục, bị chặn

duy nhất của

(

U + ˜H(x, DU) = 1 trong RN \ T

Để chứng minh V là nghiệm dưới của phương trình Hamilton-Jacobi- Isaacs dưới vàU là nghiệm trên của phương trình Hamilton-Jacobi-Isaacs trên ta chỉ sử dụng mô hình trò chơi trong đó người chơi sử dụng các chiến lược dựa trên sự hiểu biết về lựa chọn của đối phương tại thời điểm hiện tạị Tính duy nhất nghiệm được suy ra trực tiếp từ định lý so sánh nghiệm cho bài toán Dirichlet. Để sử dụng định lý so sánh nghiệm ta chỉ cần chứng minh rằng H và H˜ cùng thỏa mãn đánh giá Lipschitz địa phương ở (2.1) như trong bài toán với một người chơị Như trong Định lý 2.1.2, nguyên lý so sánh nghiệm suy ra giá trị dưới V (tương ứng giá trị trên U) là nghiệm trên cực tiểu và nghiệm dưới cực đại của bài toán biên (2.8) (tương ứng (2.9)) trong lớp các hàm bị chặn. Từ đó ta lại có thể đưa ra các định lý kiểm chứng giống như Hệ quả 2.1.7. Một hệ quả khác là chứng minh của bất đẳng thức (1.15).

Hệ quả 2.2.2. Nếu V và U là liên tục thì V ≤ Ụ

Chứng minh. Vì H ≥ H˜, nên V là một nghiệm dưới của (2.9). Khi đó theo nguyên lý so sánh nghiệm ta có V ≤ U vì U là một nghiệm của (2.9).

Cuối cùng chúng ta đưa ra một điều kiện đủ để tồn tại giá trị của trò chơị

Hệ quả 2.2.3. Nếu U và V là liên tục và

H(x, p) = ˜H(x, p), ∀x, p ∈ RN. (2.10)

thì V = U và trò chơi có một giá trị với mọi giá trị ban đầụ

Đây là một hệ quả hiển nhiên của Định lý 2.2.1 vì phương trình Hamilton-Jacobi-Isaacs dưới và trên là trùng nhaụ Đẳng thức (2.10) được gọi là điều kiện Isaacshay tính giải được của trò chơi nhỏ. Ý nghĩa của tên sau cùng được giải thích một cách dễ dàng như sau: (2.10) tương đương với sự tồn tại của điểm yên ngựa cho trò chơi tĩnh hai người chơi trên các tập A và B có chi phí là −f(x, a, b).p, với mọi x và p. Trường

hợp đơn giản nhất trong đó điều kiện này được thỏa mãn là các hệ với các hàm f được tách thành hai

f(x, a, b) = f1(x, a) +f2(x, b).

Chú ý rằng các trò chơi chốn tìm có tính chất nàỵ

Trò chơi với chiến lược có liên hệ ngược: Giả sử tại mỗi thời điểm t

người chơi thứ nhất biết toàn bộ quỹ đạo của biến trạng thái y(t) trong đoạn [0, t] và đưa ra quyết định tương ứng. Chú ý rằng đây là mô hình trung gian giữa bài toán điều khiển phản hồi và bài toán chiến lược không định trước. Để mô tả theo ngôn ngữ toán học ta gọi

Y là tập hợp tất cả các quỹ đạo của hệ

Y := {y : [0,+∞) →RN : ∀x ∈ RN,ặ) ∈ A, b(.) ∈ B

sao cho y(.) =yx(., a, b)}.

Định nghĩa 2.2.4. Một chiến lược có liên hệ ngược cho người chơi thứ nhất là một chiến lược ζ : Y → A không định trước, tức là

y|[0,t] = ˆy|[0,t] ⇒ ζ[y](s) = ζ[ˆy](s) ∀s ≤ t

và có thể chơi, tức là ∀x ∈ RN, b(.) ∈ B và T > 0 đều tồn tại nghiệm duy nhất của hệ

(

q0(t) = f(q(t), ζ[q](t), b(t)), 0 < t ≤ T

q(0) = x. (2.11)

Một chiến lược có liên hệ ngược của người chơi thứ hai là một ánh xạ có thể chơi và không định trước ξ : Y → B.

Ký hiệu F và G lần lượt tập tất cả các chiến lược có liên hệ ngược của người chơi thứ nhất và người chơi thứ haị Ta cũng ký hiệu yx(., ζ, b)

là nghiệm của (2.11); yx(., a, ξ) là quỹ đạo của hệ ứng với ặ) ∈ A và

ξ ∈ G;J(x, ζ, b) và J(x, a, ξ) tương ứng là chi phí trong bài toán chiết khấu thời gian tối thiểu, chẳng hạn

Bây giờ chúng ta có thể định nghĩa A-giá trị liên hệ ngược bởi

vA(x) := inf

ζ∈F sup

b(.)∈B

J(x, ζ, b)

B-giá trị liên hệ ngược bởi

vB(x) := sup

ξ∈G

inf

ặ)∈AJ(x, a, ξ),

và khi chúng trùng nhau ta gọi vA(x) = vB(x) là giá trị liên hệ ngược của trò chơị

Nhận xét 2.2.5. Ta cũng có V ≤ vA và vB ≤ Ụ

Nguyên lý quy hoạch động vẫn còn đúng với những trò chơi với chiến lược có liên hệ ngược.

Định lý 2.2.6. (Nguyên lý quy hoạch động). Với mọi x /∈ T và s > 0

nhỏ vA(x) := inf ζ∈F sup b(.)∈B Z s 0 e−tdt+vA(yx(s, ζ, b))e−s , vB(x) := sup ξ∈G inf ặ)∈A Z s 0 e−tdt+vB(yx(s, a, ξ))e−s .

Từ nguyên lý quy hoạch động ta có kết quả sau:

Hệ quả 2.2.7. Giả sử vA và vB là các hàm liên tục. Khi đó chúng tương

ứng là nghiệm trên của (2.8) và nghiệm dưới của (2.9)

Kết quả này là đủ để chứng minh sự tồn tại của giá trị liên hệ ngược với điều kiện Isaacs (2.10) nhờ nguyên lý so sánh nghiệm của bài toán Dirichlet (2.8).

Định lý 2.2.8. Nếu vA và vB là các hàm liên tục thì

V ≤ vA ≤ U, V ≤vB ≤ U,

2.2.2 Ứng dụng của nghiệm nhớt để xây dựng phản hồi tối ưụ

Trong mục này chúng ta quay trở lại vấn đề xây dựng một phản hồi tối ưụ Đó là bước quan trọng nhất của phương pháp quy hoạch động trong ứng dụng. Trong Mục 2.1 chúng ta đã chỉ ra cách để xây dựng một phản hồi tối ưu đa trị từ kiến thức về hàm giá trị, nếu hàm giá trị đủ chính quy, tức là hàm giá trị ít nhất là liên tục Lipschitz. Tuy nhiên trong thực tế hàm giá trị hiếm khi biết dưới dạng hiện và chúng ta không hi vọng tính được một cách chính xác hàm giá trị đối với những hệ phi tuyến nói chung.

Trong mục này chúng ta chỉ ra cách mà lý thuyết nghiệm nhớt có thể dùng để chứng tỏ sự hội tụ của lược đồ xấp xỉ trong trường hợp rất tổng quát. Phương pháp này được minh họa trong Mục 2.2.3 với lược đồ bán rời rạc đơn giản dựa trên quy hoạch động cho những hệ với thời gian rời rạc. Một đặc điểm quan trọng của lược đồ này là tính toán đồng thời hàm giá trị và phản hồi tối ưụ Vì vậy nó có thể được sử dụng để giải bài toán điều khiển tối ưu bằng số mà không cần lý thuyết và giả thiết của Mục 2.1. Có hai khái niệm quan trọng sẽ được đưa ra sau đây là: khái niệm điều kiện biên Dirichlet mới và khái niệm nửa giới hạn theo nghĩa yếu mà chúng ta thường gọi là các giới hạn yếu theo nghĩa nhớt.

Xét bài toán biên Dirichlet với điều kiện biên theo nghĩa nhớt sau đây:

(

F(x, u, Du) = 0 trong Ω,

u = g hoặc F(x, u, Du) = 0 trên ∂Ω (2.12)

trong đó Ω ⊆ RN là mở và F : Ω×R×RN →R là liên tục. Định nghĩa nghiệm của bài toán biên này như sau:

Định nghĩa 2.2.9. Một hàm U ∈ U SC(Ω) là một nghiệm nhớt dưới của (2.12) nếu nó là nghiệm nhớt dưới của phương trình F(x, u, Du) = 0

mọi điểm cực đại địa phương x ∈ ∂Ω của u−φ ta có:

min{u(x)−g(x), F(x, u(x), Dφ(x))} ≤ 0. (2.13) Một hàm U ∈ LSC(Ω) là một nghiệm nhớt trên của (2.12) nếu nó là nghiệm nhớt trên của phương trình F(x, u, Du) = 0 trong Ω, và thỏa mãn điều kiện biên theo nghĩa: với mọi φ ∈ C1(Ω), với mọi điểm cực tiểu địa phương x ∈ ∂Ω của u−φ ta có:

max{u(x)−g(x), F(x, u(x), Dφ(x))} ≥ 0. (2.14) Tính chất quan trọng của bài toán biên (2.12) là tính ổn định đối với các phép toán giới hạn yếu được định nghĩa sau đâỵ

Định nghĩa 2.2.10. Giới hạn yếu trên của dãy un : Ω →R là

u(x) := lim n→∞sup∗un(x) = lim j→∞sup un(y) : n ≥j, y ∈ Ω,|y−x| ≤ 1 j ,

và giới hạn yếu dưới là

u(x) := lim n→∞inf∗un(x) = lim j→∞inf un(y) : n ≥j, y ∈ Ω,|y −x| ≤ 1 j ,

Đây là phát biểu cụ thể của tính chất ổn định của (2.12)

Mệnh đề 2.2.11. Nếu un là các nghiệm dưới (tương ứng: nghiệm trên) của (2.12) thì giới hạn yếu trên u (tương ứng: giới hạn yếu dưới u ) là

nghiệm dưới (tương ứng: nghiệm trên) của (2.12).

Bài toán biên (2.12) trong thực tế còn ổn định đối với cả các nhiễu của phương trình trong (2.12), thậm trí cả nhiễu kì dị như là việc chính quy hóa bằng phương pháp triệt tiêu độ nhớt. Kết quả tiếp theo coi như một ví dụ giải thích cho những tên mà ta đưa ra cho các điều kiện biên.

Mệnh đề 2.2.12. Cho un là một nghiệm cổ điển của bài toán Dirichlet

(

−n1∆un +Fn(x, un, Dun) = 0 trong Ω

un = g trên ∂Ω (2.15)

với g ∈ C(∂Ω) và giả sử Fn hội tụ đều đến F trên các tập compact và

với hằng số C nào đó ta có:

sup

Ω

|un| ≤ C ∀n. (2.16)

Thế thì giới hạn yếu trên u của un là một nghiệm dưới của (2.12) và giới

hạn yếu dưới u là một nghiệm trên của (2.12).

Các chứng minh của Mệnh đề 2.2.11 và 2.2.12 có thể được suy ra một cách dễ dàng từ định nghĩa nghiệm nhớt và nhờ bổ đề cơ bản sau đâỵ Bổ đề 2.2.13. 1. Cho φ ∈ C1(Ω) và u = lim

n→∞sup∗un với un là nửa liên

tục trên. Nếu un−φ đạt cực đại ngặt tại x ∈ Ω thì tồn tại một dãy con

{nk} sao cho unk −φ có cực đại địa phương tại xnk với

lim

k xnk = x, lim

k unk(xnk) = u(x). (2.17)

2. Cho φ ∈ C1(Ω) và u = lim

n→∞inf∗un với un là nửa liên tục dướị Nếu

un−φ đạt cực tiểu ngặt tại x ∈ Ω thì tồn tại một dãy con {nk} sao cho

unk −φ có cực tiểu địa phương tại xnk với

lim

k xnk = x, lim

k unk(xnk) = u(x). (2.18) Chứng minh của Mệnh đề 2.2.12: Theo (2.16) cả hai giới hạn yếu là hữu hạn khắp nơị Gọi φ ∈ C1(Ω) và x ∈ Ω là một điểm cực đại của

u −φ. Chúng ta xét trường hợp x ∈ ∂Ω, trường hợp x /∈ ∂Ω là tương tự và dễ hơn. Bằng cách cộng vào φ một biểu thức toàn phương chúng ta có thể giả thiết x là một giá trị cực đại ngặt của u−φ. Chúng ta xét dãy con cực đại địa phương của un −φ xác định trong Bổ đề 2.2.13 và kí hiệu lại là {xn}.

Trường hợp (a): nếu có một dãy con của {xn} nằm trên ∂Ω, thì từ điều kiện biên của (2.15) chúng ta có

un(xn) =g(xn)

nên theo (2.17) ta có

u(x) = g(x)

và (2.13) được thỏa mãn bởi u = ụ

Trường hợp (b): nếu trường hợp (a) không xảy ra, tức là có một dãy con của {xn} nằm trong Ω, thế thì

D(un−φ)(xn) = 0, ∆(un−φ)(xn) ≤ 0.

Từ phương trình đạo hàm riêng trong (2.15) chúng ta nhận được −1

n∆φ(xn) +Fn(xn, un(xn), Dφ(xn)) ≤ 0

và cho n→ ∞ ta nhận được

F(x, u(x), Dφ(x)) ≤0

Vậy ta có (2.13) với u = ụ

Chứng minh cho u cũng làm tương tự.

Lập luận của chứng minh trên có thể được dùng một cách dễ dàng để chứng minh phát biểu sau bao gồm cả Mệnh đề 2.2.11 và Mệnh đề 2.2.12 như là các trường hợp đặc biệt.

Mệnh đề 2.2.14. [xem [6]] Cho un là nghiệm nhớt dưới của

(

Fn(x, u, Du, D2u) = 0 trong Ω

u = g hoặc Fn(x, u, Du, D2u) = 0 trên ∂Ω (2.19)

trong đó Fn : Ω ×R ×RN × S(N) → R và S(N) là tập các ma trận

thực đối xứng N × N. Định nghĩa nghiệm nhớt của phương trình cấp

tụ đều trên các tập compact, F liên tục và thỏa mãn (2.16). Thế thì

u = lim

n→∞sup∗un là một nghiệm của

(

F(x, u, Du, D2u) = 0 trong Ω

u = g hoặc F(x, u, Du, D2u) = 0 trên ∂Ω. (2.20)

Tính chất ổn định của (2.12) đối với các giới hạn yếu là đặc biệt hữu ích khi nó đi cùng với định lý về sự so sánh nghiệm cho bài toán biên (2.12) sau đây

Định lý 2.2.15. Cho u1 ∈ U SC(Ω) và u2 ∈ LSC(Ω) tương ứng là nghiệm dưới và nghiệm trên của phương trình

ưH(x, Du) = 0 trong Ω

trong đó H thỏa mãn (2.1) và Ω là tập mở, bị chặn với biên Lipschitz.

Nếu u1 liên tục tại mỗi điểm của ∂Ω và u2 thỏa mãn

u2 ≥u1 hoặc u2 +H(x, Du2) ≥ 0 trên ∂Ω

theo nghĩa nhớt, thế thì u1 ≤u2 trong Ω. Kết luận hoàn toàn đúng cho

u2 nếu u2 là liên tục tại các điểm thuộc ∂Ω và

u1 ≤u2 hoặc u1 +H(x, Du1) ≤ 0 trên ∂Ω

Dễ dàng kết hợp Mệnh đề 2.2.12 với Định lý 2.2.15 để nhận được kết quả về sự hội tụ sau đây đối với bài toán triệt tiêu độ nhớt (2.15).

Hệ quả 2.2.16. Dưới giả thiết của Mệnh đề 2.2.12 giả sử thêmF(x, r, p) = r +H(x, p) với H thỏa mãn (2.1), và Ω bị chặn với biên Lipschitz. Nếu

tồn tại một nghiệm v ∈ C(Ω) của

(

v +H(x.Du) = 0 trong Ω

v = g trên ∂Ω (2.21)

Chứng minh. Từ Mệnh đề 2.2.12 , u = lim

n→∞inf∗un là một nghiệm trên của (2.12), do đó (2.21) và khẳng định thứ nhất của Định lý 2.2.15 cho ta v ≤ ụ Tương tự, khẳng định cuối cùng của Định lý 2.2.15 cho ta

u ≤ v. Từ đây và u = u = v, không khó để chỉ ra rằng un hội tụ đều đến v.

Lưu ý rằng trong định lý về sự hội tụ này giả thiết tính compact là rất yếụ Cụ thể chúng ta đã chuyển qua giới hạn trong một bài toán nhiễu kì dị cho phương trình phi tuyến đầy đủ với một điều kiện về sự đánh giá tiên nghiệm trên các xấp xỉ un đều theo chuẩn L∞ (thực tế chỉ cần đánh giá theo chuẩn địa phương là đủ).

Ứng dụng đối với lý thuyết trò chơi vi phân

Khái niệm và tính chất