Cho đến nay lý thuyết về nghiệm nhớt đã được mở rộng cholớp các phương trình elliptic - parabolic suy biến cấp hai xem [6] và đã được ứng dụng trong rất nhiều lĩnh vực khác nhau, đặc biệ
Trang 1LỜI CẢM ƠN
Luận văn được hoàn thành tại Trường Đại học Sư phạm Hà Nội 2dưới sự hướng dẫn của TS Trần Văn Bằng
Tác giả xin được gửi lời cảm ơn chân thành tới TS Trần Văn Bằng
Sự tận tình song rất nghiêm túc của thầy trong suốt quá trình học tập
và làm luận văn đã giúp tác giả trưởng thành hơn rất nhiều về cách tiếpcận một vấn đề mới Cảm ơn các thầy cô giáo giảng dạy chuyên ngànhToán Giải tích đã nhiệt tình cung cấp các tri thức khoa học giúp tác giảnâng cao trình độ tư duy, hoàn thành tốt quá trình học tập và làm luậnvăn Tác giả cũng xin được cảm ơn tới trường THPT Việt Trì đã quantâm giúp đỡ và tạo mọi điều kiện thuận lợi để tác giả yên tâm học tậptrong suốt hai năm vừa qua
Cuối cùng, tác giả xin được cảm ơn tới gia đình, bạn bè đã giúp
đỡ, động viên kịp thời để tác giả hoàn thành bản luận văn này
Hà Nội, tháng 5 năm 2011
Tác giả
Trang 2LỜI CAM ĐOAN
Tôi xin cam đoan Luận văn là công trình nghiên cứu của riêng tôi.Trong khi nghiên cứu luận văn, tôi đã kế thừa thành quả khoa họccủa các nhà khoa học và đồng nghiệp với sự trân trọng và biết ơn
Hà Nội, tháng 5 năm 2011
Tác giả
Trang 3Mục lục
1.1 Về lý thuyết điều khiển tối ưu 7
1.1.1 Hệ điều khiển 7
1.1.2 Bài toán điều khiển tối ưu 11
1.1.3 Nguyên lý quy hoạch động 13
1.1.4 Phương trình Hamilton-Jacobi-Bellman 17
1.1.5 Phương pháp quy hoạch động 20
1.2 Lý thuyết trò chơi vi phân 24
1.3 Nghiệm nhớt của phương trình Hamilton-Jacobi 30
1.3.1 Khái niệm và tính chất 30
1.3.2 Nguyên lý cực trị và nguyên lý so sánh 32
1.3.3 Tính liên tục Lipschitz của nghiệm nhớt 35
1.4 Kết luận chương 1 37
Chương 2 Ứng dụng của nghiệm nhớt 38 2.1 Ứng dụng đối với lý thuyết điều khiển tối ưu 38
2.1.1 Nghiệm nhớt của phương trình quy hoạch động 38 2.1.2 Điều kiện cần và đủ của điều khiển tối ưu 43
2.2 Ứng dụng đối với lý thuyết trò chơi vi phân 51
2.2.1 Nghiệm nhớt của phương trình quy hoạch động 51 2.2.2 Ứng dụng của nghiệm nhớt để xây dựng phản hồi tối ưu 55
2.2.3 Sự hội tụ của lược đồ xấp xỉ bán rời rạc 61
Trang 42.3 Kết luận chương 2 66Tài liệu tham khảo 68
Trang 5MỞ ĐẦU
1 Lí do chọn đề tài
Lý thuyết nghiệm nhớt của phương trình Hamilton- Jacobi cấp một
đã được đề xuất bởi M.Crandall và P.L Lions từ những năm đầu củathập kỷ 80 (xem [7], [3]), mà một trong những động lực chính của nó là
để nghiên cứu phương trình Hamilton - Jacobi - Bellman Nó xuất hiệntrong cách tiếp cận quy hoạch động đối với các bài toán điều khiển tối
ưu tất định Cho đến nay lý thuyết về nghiệm nhớt đã được mở rộng cholớp các phương trình elliptic - parabolic suy biến cấp hai (xem [6]) và
đã được ứng dụng trong rất nhiều lĩnh vực khác nhau, đặc biệt là trong
lý thuyết điều khiển tối ưu và lý thuyết trò chơi vi phân (xem [4],[5])
Để nâng cao sự hiểu biết về loại nghiệm suy rộng này chúng tôi đãchọn đề tài ”Ứng dụng của nghiệm nhớt trong lý thuyết điều khiển tối
ưu và lý thuyết trò chơi vi phân"
2 Mục đích nghiên cứu
Nghiên cứu khái niệm nghiệm nhớt của phương trình đạo hàm riêng,các tính chất và các ứng dụng có thể của chúng trong lý thuyết điềukhiển tối ưu đặc biệt là trong lý thuyết trò chơi vi phân
3 Nhiệm vụ nghiên cứu
• Tìm hiểu về nghiệm nhớt của phương trình đạo hàm riêng cấp một
• Tìm hiểu về lý thuyết điều khiển tối ưu tất định, đặc biệt là cáchtiếp cận quy hoạch động
• Tìm hiểu về lý thuyết trò chơi vi phân
• Tìm ứng dụng của nghiệm nhớt trong lý thuyết điều khiển tối ưu
và lý thuyết trò chơi vi phân
Trang 64 Đối tượng và phạm vi nghiên cứu
• Nghiên cứu nghiệm nhớt của lớp phương trình Hamilton Jacobi Bellman bao gồm các khái niệm, các tính chất; cách tiếp cận quyhoạch động đối với bài toán điều khiển tối ưu tất định
-• Lý thuyết trò chơi vi phân và mối quan hệ giữa các đối tượng đó
5 Phương pháp nghiên cứu
• Nghiên cứu tài liệu tham khảo
• Tổng hợp, phân tích, hệ thống lại các khái niệm, tính chất
• Hỏi ý kiến chuyên gia
6 Những đóng góp của đề tài
Đề tài trình bày một cách tổng quan về ứng dụng của nghiệm nhớtđối với lý thuyết điều khiển tối ưu tất định và lý thuyết trò chơi vi phân
Trang 7Chương 1 Một số kiến thức chuẩn bị
1.1 Về lý thuyết điều khiển tối ưu
1.1.1 Hệ điều khiển
Trước hết ta trình bày một số khái niệm và kết quả cần thiết về hệphương trình vi phân phi tuyến mà chúng ta muốn điều khiển Ta giảthiết rằng: hàm f (x, a) với x ∈ RN, a ∈ A (tương ứng được gọi là biếntrạng thái và biến điều khiển), thỏa mãn các giả thiết sau:
tồn tại một mô đun địa phương ωf sao cho
|f (y, a) − f (x, a)| ≤ ωf(|x − y|, R),với mọi x, y ∈ B(0, R) và R > 0,
(A2)
(tính liên tục đều địa phương của f, đều theo biến điều khiển a), trong
đó mô đun địa phương là một hàm ω : R+× R+ → R+ sao cho với mọi
R > 0, ω(., R) liên tục, không giảm và ω(0, R) = 0
Ta sẽ chủ yếu quan tâm tới trường hợp A ⊂ RM là tập compac Khi
đó (A1) và (A2) là các hệ quả của (A0)
Ta cũng giả thiết
(f (x, a) − f (y, a)).(x − y) ≤ L|x − y|2, ∀x, y ∈ RN, a ∈ A; (A3)tức là, tồn tại một số L ∈ R sao cho f (x, a) − LI, với I là toán tử đồngnhất, là một ánh xạ đơn điệu (không tăng) với mọi a
Trang 8Trong luận văn này ta chỉ xét trường hợp f liên tục Lipschitz toàncục theo biến trạng thái, tức là
|f (x, a) − f (y, a)| ≤ L |x − y| , ∀x, y ∈ RN, a ∈ A
Khi đó, tự nhiên f thỏa mãn (A3) và (A2)
Chúng ta quan tâm tới nghiệm (hay quỹ đạo) của hệ phi tuyến
(về hàm đo được và các tính chất liên quan có thể xem [2])
Kí hiệu yx(., a) = yx(.) là nghiệm của (1.1) ứng với điều khiển a, theonghĩa yx(., a) là nghiệm của phương trình tích phân
Định lý 1.1.1 [Sự tồn tại quỹ đạo địa phương, [4], Định lý 5.4] Giả sử
ta có các giả thiết (A0), (A1), x ∈ RN cố định và đặt
K = Kx := sup{|f (z, a)| : |z − x| ≤ 1, a ∈ A}
Khi đó với mỗi t0 ∈ R, a ∈ A tồn tại một nghiệm liên tục Lipschitz ycủa (1.2) trên [t0, t0 + 1/K] Hơn nữa
|y(t) − x| ≤ K(t − t0), ∀t
Trang 9Định lý 1.1.2 [Sự tồn tại quỹ đạo toàn cục, [4], Định lý 5.5] Giả sử ta
có các giả thiết (A0), (A1) và (A3) Khi đó với mỗi t0 ∈ R, x ∈ RN, a ∈ Atồn tại một nghiệm duy nhất yx : [0, +∞) → RN của (1.2) và thỏa mãn
|yx(t)| ≤ (|x| +p2K(t − t0))eK(t−t0 ), ∀t > t0,trong đó K := L + supα∈A|f (0, α)| Nếu yz là nghiệm thỏa mãn điềukiện ban đầu yz(t0) = z thì
|yx(t) − yz(t)| ≤ eL(t−t0 )|x − z|, ∀t ≥ t0.Hơn nữa, ta có
|yx(t) − x| ≤ 1
Lsupα∈A
|f (x, α)|(eLt− 1)
Để xét tính khả vi của nghiệm của (1.1) theo điều kiện ban đầu x,
ta nhớ lại rằng: ma trận nghiệm cơ bản M (s, t) của hệ phương trình viphân tuyến tính
trong đó t 7→ A(t) là một ánh xạ đo được, bị chặn từ [t0, t1] vào tập các
ma trận vuông cấp N, I là ma trận đơn vị cấp N Hơn nữa, cột thứ i, mi
của M (., t0), tức là mi(s) = M (s, t0)ei là nghiệm của (1.3) với dữ kiệnban đầu là ξ(t0) = ei, tức là nó thỏa mãn
Trang 10• với mỗi x, hàm t 7→ F (x, t) đo được;
• với mỗi t, hàm x 7→ F (x, t) khả vi liên tục, hơn nữa ma trận Jacobicủa nó DxF bị chặn trên K × [t0, t1] với mọi tập compac K ⊂ RN.Nghiệm của (1.4) được hiểu theo nghĩa tích phân thông thường và kýhiệu là S(t, t0, x) = y(t) Khi đó ta có
Định lý 1.1.3 [[4], Định lý 5.8] Với các giả thiết đã nêu trên, gọiˆ
y(.) = S(., t0, x0) là nghiệm của (1.4) với điểm ban đầu x = x0 Khi đóvới mọi t ∈ [t0, t1], ánh xạ x 7→ S(t, t0, x) khả vi liên tục trong một lâncận của x0 Hơn nữa, ma trận Jacobi của nó tại x0 là
DxS(t, t0, x0) = M (t, t0),trong đó M (., ) là ma trận cơ bản của hệ phương trình tuyến tính
ξ0(t) = DxF (ˆy(t), t)ξ(t)
Kết quả này cho ta tính khả vi của quỹ đạo của hệ (1.1), tức là nghiệmcủa (1.3) theo vị trí ban đầu với mỗi điều khiển a ∈ A cố định, tức làtính khả vi của ánh xạ x 7→ yx(t, a) dưới các giả thiết (A0)-(A3) và thêmđiều kiện x 7→ f (x, a) khả vi liên tục với mọi a ∈ A và có ma trận Jacobi
bị chặn trên các tập compac (tức là, ωf(r, R) = LRr trong (A2))
Trang 111.1.2 Bài toán điều khiển tối ưu
Gắn với hệ (1.1), lý thuyết điều khiển tối ưu thường xét một trongbốn phiếm hàm chi phí (cost functional) sau đây:
• TH1: Bài toán với thời gian vô hạn (Infinite Horizon):
• TH2: Bài toán với thời gian hữu hạn hay Bài toán Mayer (FiniteHorizon):
• TH4: Bài toán chiết khấu thời gian tối thiểu (Discounted MinimumTime):
J (x, a) :=
(Rtx(a)
0 e−sds, nếu tx(a) < +∞
Chúng ta muốn cực tiểu hóa các phiếm hàm chi phí nêu trên vớiặ) ∈ A (trong tình huống chỉ có ràng buộc đối với điều khiển a), hoặcvới
ặ) ∈ Ax := {a ∈ A : yx(a, t) ∈ Ω, ∀t > 0},
Trang 12trong đó Ω ⊆ RN là một tập mở đã cho (trong tình huống có ràng buộctrạng thái).
Định nghĩa 1.1.4 Nếu phiếm hàm chi phí đạt cực tiểu tại điều khiển
a∗(.) thì a∗(.) được gọi là một điều khiển tối ưu ứng với vị trí ban đầu x(và ứng với thời điểm t trong bài toán với thời gian hữu hạn)
Việc cực tiểu hóa các phiếm hàm chi phí đề cập ở trên lần lượt dẫntới các hàm giá trị (value function) sau đây:
• TH1: Bài toán với thời gian vô hạn:
Trang 131.1.3 Nguyên lý quy hoạch động
Tiếp theo ta đưa ra phương trình hàm, tương ứng thỏa mãn bởi cáchàm giá trị trên đây, phương trình đó diễn tả một cách trực quan rằng:
để đạt được chi phí cực tiểu ta cần thực hiện các bước sau:
• Cho hệ vận hành đến một thời gian nhỏ s với một điều khiển ặ)tùy ý trên đoạn [0, s];
• Thanh toán chi phí tương ứng đến thời điểm s;
• Thanh toán chi phí còn lại (cho thời gian sau s) với một điều khiểntốt nhất có thể;
• Cực tiểu hóa tổng hai khoản đã thanh toán trên tất cả các điềukhiển có thể trên đoạn [0, s]
Định nghĩa 1.1.5 Phương trình hàm đối với hàm giá trị đó được gọi
là nguyên lý quy hoạch động
Các nguyên lý quy hoạch động tương ứng với các hàm giá trị (trừ
Vc(x)) được chỉ ra trong mệnh đề sau:
ặ)∈Av(yx(s, a), t − s) nếu s ≤ t;
• TH3: Bài toán tìm thời gian tối thiểu:
T (x) = inf
ặ)∈A{s + T (yx(s, a))}, nếu s ≤ T (x) < +∞;
Trang 14• TH4: Bài toán chiết khấu thời gian tối thiểu:
Chứng minh Để chứng minh các nguyên lý quy hoạch động ta dựa vàotính chất nửa nhóm của các nghiệm của (1.1):
yx(s + t, a) = yyx(s,a)(t, ặ + s)),
và hai tính chất sau của các điều khiển chấp nhận được:
1 Nếu ặ) ∈ A và t > 0 thì ặ + t) ∈ A;
Sau đây chúng tôi chỉ trình bày chứng minh nguyên lý quy hoạchđộng cho bài toán tìm thời gian tối thiểụ Thật vậy, với mọi ặ) ∈ A tacó
tx(a) = s + tyx(s,a)(ặ + s)) ≥ s + T (yx(s, a)),
ăt) :=
(
a1(t − s) nếu t > sthì ta có
Trang 15Mệnh đề 1.1.7 Với mọi ặ) ∈ A các hàm sau không giảm:
• TH1: Bài toán với thời gian vô hạn:
s 7→
Z s
0
l(yx(t), ăt))e−tdt + V∞(yx(s, a))e−s, s ∈ [0, +∞);
• TH2: Bài toán với thời gian hữu hạn:
s 7→ v(yx(s, a), t − s), s ∈ [0, t];
• TH3: Bài toán tìm thời gian tối thiểu:
s 7→ s + T (yx(s, a)), s ∈ [0, tx(a)], nếu T (x) < +∞;
• TH4: Bài toán chiết khấu thời gian tối thiểu:
Chứng minh (cho bài toán tìm thời gian tối thiểu)
1 Với mọi ặ) ∈ A, từ nguyên lý quy hoạch động với vị trí ban đầu
yx(s, a), ta có
T (yx(s, a)) ≤ ε + T (yx(s + ε, a))với ε > 0 đủ nhỏ, suy ra:
s + T (yx(s, a)) ≤ s + ε + T (yx(s + ε, a))
Trang 16Vậy ta có khẳng định thứ nhất.
2 Nếu h(s) := s + T (yx(s, a)) là hàm hằng thì h(s) ≡ h(0) = T (x)
Vì thế từ 0 ≤ T (x) < +∞ ta suy ra tx(a) < +∞ và h(tx(a)) = tx(a) bởi
vì T ≡ 0 trên tập đích T Vậy T (x) = tx(a) Hay ặ) là điều khiển tối
ưu ứng với vị trí ban đầu x
Ngược lại, nếu ặ) ∈ A là điều khiển tối ưu ứng với x thì
Trang 17a∈A{−f (x, a).DV∞(x) − l(x, a)} = 0;
• TH2: Bài toán với thời gian hữu hạn:
H(x, p) := max
a∈A{−f (x, a).p}
Chứng minh (cho bài toán tìm thời gian tối thiểu)
1 Ta chứng minh H(x, DT (x)) ≤ 1 Cố định một điều khiển hằnga(t) ≡ a0 và đặt y(t) = yx(t, a) Từ nguyên lý quy hoạch động ta có
Trang 182 Ta chứng minh H(x, DT (x)) ≥ 1 Với mọi ε, s > 0 nhỏ, theo nguyên
lý quy hoạch động ta có một a ∈ A sao cho
T (x) ≥ s + T (y(s)) − εs,trong đó y(s) := yx(s, a) Do vậy
1 − ε ≤ T (x) − T (y(s))
s
= −1s
Z s
0
DT (y(s)).y0(s)ds
= −1s
Z s
0
DT (x).f (x, a(s))ds + o(1), s → 0
≤ max
a∈A{−DT (x).f (x, a)} + o(1)
Bằng cách cho s và ε tiến đến 0 ta nhận được 1 ≤ H(x, DT (x))
Mỗi phương trình đạo hàm riêng trên đều được gắn một cách tự nhiênvới một điều kiện biên Khi đó chúng ta có các bài toán biên hoặc bàitoán ban đầu mà ứng cử viên nghiệm của nó là hàm giá trị:
• TH1: Bài toán với thời gian vô hạn:
u + max
a∈A{−f (x, a).Du(x) − l(x, a)} = 0 trong RN; (1.5)
• TH2: Bài toán với thời gian vô hạn có ràng buộc trạng thái:
Trang 19• TH3: Bài toán với thời gian hữu hạn:
là điều kiện biên ”ở vô cực” của phương trình đó Điều kiện biên của bàitoán có ràng buộc trạng thái (1.6) là mới và lần đầu tiên nó được đặt rabởi Soner Bài toán biên ứng với bài toán tìm thời gian tối thiểu (1.8) làbài toán biên tự do; chúng ta muốn rằng: Ω = R := {x : T (x) < +∞},(dễ thấy R là tập mở và T (x) → +∞ khi x → ∂R nếu hệ điều khiểnđược ở gần T )
Trang 201.1.5 Phương pháp quy hoạch động
Lý thuyết cổ điển của phương pháp quy hoạch động thực hiện vớigiả thiết phương trình Hamilton-Jacobi-Bellman có một nghiệm (đôi khichỉ cần một nghiệm dưới) và dùng nghiệm đó để chỉ ra các điều kiện đủ
để tồn tại điều khiển tối ưụ Kết quả khi đó thường được gọi là định lýkiểm chứng Sau đây là một ví dụ về kết quả như vậy đối với bài toánchiết khấu thời gian tối thiểụ Trước hết ta đưa ra định nghĩa hàm kiểmchứng cổ điển:
Định nghĩa 1.1.9 Hàm kiểm chứng cổ điển là một hàm bị chặn u ∈C(RN) ∩ C1(RN \ T ) sao cho
Chứng minh
(i) Chúng ta sẽ chứng minh u(x) ≤ V (x), với V là hàm giá trị Nếu
có điều đó thì ta sẽ có V (x) = J (x, a∗), chứng tỏ a∗(.) là điều khiển tối
ưu ứng với x Thật vậy, lấy bất kỳ ặ) ∈ A; y(.) = yx(., a), từ (1.10) tacó
d
dt[−e
−tu(y(t))] = e−t[u(y(t)) − Du(y(t)).f (y(t), ăt))] ≤ e−t
Trang 21với hầu hết t ≤ tx(a) Tích phân hai vế ta nhận được
a Nếu tx(a) = +∞ thì do u bị chặn nên u(x) ≤ 1 = J (x, a)
b Nếu tx(a) < +∞ thì ta có
u(x) − e−tx (a)
u(y(tx(a))) ≤ 1 − e−tx (a)
.Khi đó y(tx(a)) ∈ ∂T , mà u là hàm kiểm chứng cổ điển nên u(y(tx(a))) ≤
Trang 22Nhận xét 1.1.11 Nếu hàm kiểm chứng u là một nghiệm của phươngtrình HJ B :
u + H(x, Du) = 1 trong RN \ T ,thì điều kiện đủ để một điều khiển là tối ưu (1.11) tương đương với
−f (y∗(s), a∗(s)).Du(y∗(s)) = max
a∈A{−f (y∗(s), a).Du(y∗(s))}
= H(y∗(s), Du(y∗(s)))với hầu hết 0 < s < tx(a)
Nhận xét 1.1.12 Nếu chúng ta lấy chính hàm giá trị V làm một hàmkiểm chứng (nhưng điều này chỉ được thực hiện nếu V trơn), thì điềukiện đủ để một điều khiển là tối ưu (1.11) cũng là điều kiện cần Thậtvậy, theo nguyên lý quy hoạch động (Mệnh đề 1.1.7), nếu a∗ là điềukhiển tối ưu ứng với x thì hàm h xác định bởi (1.12) với u = V là hàmhằng Khi đó
0 = h0(s) = e−s[1 − V (y∗(s)) + DV (y∗(s)).f (y∗(s), a∗(s))],
hay (1.11) thỏa mãn với u = V
Bước cuối cùng của phương pháp quy hoạch động là chúng ta cố gắngxây dựng một điều khiển tối ưu dưới dạng phản hồi từ những hiểu biết
về hàm giá trị Chúng tôi sẽ minh họa bước này đối với bài toán chiếtkhấu thời gian tối thiểu dưới một vài giả thiết khá chặt Giả sử hàm giátrị V là trơn và xét tập con sau của A
Trang 23có nghiệm duy nhất được gọi là một phản hồi chấp nhận được Phản hồichấp nhận được Φ được gọi là phản hồi tối ưu ứng với x nếu Φ(y(.)) ∈ A
là một điều khiển tối ưu ứng với x
Theo Định lý 1.1.10 và Nhận xét 1.1.11, một điều khiển a∗(t) ∈ A làtối ưu ứng với x khi và chỉ khi
a∗(t) ∈ S(yx(t, a∗)) với hầu hết t > 0
Vì vậy nếu phản hồi chấp nhận được Φ thỏa mãn
Φ(z) ∈ S(z), ∀z ∈ RN,thì Φ là tối ưu ứng với mọi điểm ban đầu x ∈ RN
Phương pháp này thực hiện được đối với các bài toán liên quan đến
hệ tuyến tính và các hàm chi phí bậc hai Trong trường hợp này hàmgiá trị là hàm bậc hai và nó có thể tính được bằng cách giải một phươngtrình đơn giản hơn nhiều so với phương trình Hamilton-Jacobi-Bellman(đó là phương trình Riccati), S(z) là tập một điểm với mọi z và phần
tử Φ(z) của nó là một hàm trơn của z, nên Φ(z) là một phản hồi chấpnhận được tối ưu Tuy nhiên trong hầu hết các bài toán ta thường gặpnhững khó khăn sau:
(a) Hàm giá trị V không trơn;
(b) Thậm chí trong tập con mà ở đó V trơn thì S(z) cũng không làtập một điểm;
(c) Không có phản hồi chấp nhận được Φ nào thỏa mãn:
Φ(z) ∈ S(z), với mọi z
Trang 241.2 Lý thuyết trò chơi vi phân
Cho một hệ động lực được điều khiển bởi hai người chơi:
−J là chi phí mà người chơi thứ hai phải trả, nên bài toán này còn đượcgọi là trò chơi vi phân hai người chơi với tổng chi phí bằng không Để cụthể chúng ta xét bài toán chiết khấu thời gian tối thiểu, trong đó
J (x, a, b) =
Z tx(a,b)
0
e−sdsvới x ∈ RN, ặ) ∈ A, b(.) ∈ B, tx là thời điểm đầu tiên quỹ đạo đạt đếntập đích đóng T ⊆ RN, tức là
tx(a, b) =
(min{t : yx(t, a, b) ∈ T } nếu {t : yx(t, a, b) ∈ T } 6= ∅
Sau đây là hai bài toán được mô hình hóa theo cách nàỵ
Trò chơi chốn- tìm: Trong trò chơi này mỗi người chơi điều khiển mộtđối tượng, người chơi thứ nhất muốn tiếp cận người chơi thứ hai ngay khi
có thể, còn người chơi thứ hai thì muốn lẩn tránh càng lâu càng tốt Ởđây biến trạng thái được chia ra làm hai phần y = (yA, yB) ∈ RM × RM.Phương trình vi phân trong (1.13) được tách đôi
y0A = fA(yA, a), yB0 = fB(yB, b),
Trang 25và chi phí J là thời điểm bắt được, tức là thời điểm đầu tiên các tọa độ
mô tả người chơi thứ nhất đủ gần với các tọa độ mô tả người chơi thứhaị Trong tình huống này, tập đích là:
T := {(yA, yB) : |yA,i− yB,i| ≤ ε, ∀1 ≤ i ≤ k}
với ε ≥ 0 và k ≤ M (ở đây yA,i là thành phần thứ i của yA)
Trò chơi điều khiển trong hoàn cảnh thiếu thông tin: Giả sử chúng tachỉ có một người điều khiển ặ) của hệ điều khiển, nhưng hệ bị ảnhhưởng bởi nhiễu b(.) Tình huống này thường được mô tả bởi lý thuyếtđiều khiển ngẫu nhiên Tuy nhiên trong một vài trường hợp, lý thuyếtđiều khiển ngẫu nhiên cũng không thích hợp Chẳng hạn khi chúng takhông biết bất kỳ thông tin nào của b(.) hoặc khi ta không chắc chắn cựctiểu hóa được giá trị mong đợi của hàm chi phí Trong các tình huống
đó, chúng ta đặt vấn đề cực tiểu hóa phiếm hàm chi phí khi độ nhiễutồi nhất có thể Vì vậy rất thích hợp khi coi b(.) là người chơi thứ hai,người muốn cực đại hóa phiếm hàm chi phí
Để định nghĩa hàm giá trị của trò chơi chúng ta phải đưa ra một vàiluật chơị
Luật chơi tĩnh: Là mô hình trong đó tại thời điểm ban đầu t = 0người chơi thứ nhất chọn phương án toàn cục của mình dựa trên dángđiệu toàn cục trong tương lai của người chơi thứ hai, còn người chơi thứhai đưa ra phương án của mình dựa trên lựa chọn của người chơi thứnhất Trong mô hình này chúng ta có hàm giá trị dưới và hàm giá trịtrên của trò chơi tương ứng là
Trang 26Luật chơi với điều khiển phản hồi: Là mô hình trong đó tại mỗi thờiđiểm t, cả hai người chơi đưa ra quyết định điều khiển của mình chỉ dựatrên vị trí hiện thời của trạng thái y(t) Đây là một mô hình thông tinkhá thực tế và nó là một mô hình điển hình trong lý thuyết điều khiển
tự động Cụ thể, điều khiển của hai người chơi xác định bởi hai hàm(phản hồi) của trạng thái Φ : RN → A, Ψ : RN → B Nói cách khác, taphải giải hệ
(
y0 = f (y, Φ(y), Ψ(y)), t > 0
Trong mô hình này, để có sự tồn tại duy nhất của quỹ đạo chúng ta cần
có giả thiết f, Φ, Ψ liên tục Lipschitz Tuy nhiên yêu cầu Φ, Ψ liên tụcLipschitz là quá ngặt, bởi vì trong các ví dụ thường gặp thì các phảnhồi tối ưu thậm chí còn không liên tục Hơn nữa ta cũng không biết lànguyên lý quy hoạch động có còn đúng đối với các phản hồi Lipschitzhay không?
Luật chơi với chiến lược không định trước: Là mô hình trong đó tạimỗi thời điểm t, người chơi thứ nhất chọn giá trị của điều khiển ặ) trên
cơ sở biết điều khiển đã chọn của đối phương tính đến thời điểm t, tức
là biết giá trị của b(.)|[0,t]
Định nghĩa 1.2.1 Một chiến lược của người chơi thứ nhất là một ánh
xạ α : B → A; nó được gọi là không định trước nếu với bất kỳ t > 0 và
b, ˆb ∈ B, b(s) = ˆb(s) với mọi s ≤ t đều suy ra α[b](s) = α[ˆb](s) với mọi
s ≤ t
Nói cách khác, người chơi thứ nhất chọn một trong số các chiến lượckhông định trước
Γ := {α : B → A : ∀t > 0, b(.)|[0,t] = ˆb(.)|[0,t] ⇒ α[b](s) = α[ˆb](s), ∀s ≤ t}
Ví dụ 1.2.2 Một ví dụ tầm thường của chiến lược không định trước
α ∈ Γ là chiến lược hằng: α[b] = ¯a, ∀b ∈ B, với ¯a ∈ A nào đó Một ví
Trang 27dụ khác là α[b](s) = Φ(b(s)) trong đó Φ : B → A là một ánh xạ sao choΦ(b(.)) là đo được với mọi b ∈ B.
Ví dụ 1.2.3 Giả sử τ > 0 là số cố định, Φ : B → A là một ánh
xạ sao cho Φ(b( + τ )) là đo được với mọi b ∈ B Khi đó chiến lượcα[b](s) := Φ(b(s + τ )) không phải là một chiến lược không định trước.Với luật chơi này, Varayia, Roxin, Elliot và Kalton đã đưa ra kháiniệm hàm giá trị dưới của trò chơi
∆ := {β : A → B : ∀t > 0, ặ)|[0,t] = ˆặ)|[0,t] ⇒ β[a](s) = β[ˆa](s), ∀s ≤ t}
là tập các chiến lược không định trước của người chơi thứ haị
Mệnh đề 1.2.4 Với các kí hiệu trên đây ta có các bất đẳng thức:
vs ≤ V ≤ us và vs ≤ U ≤ us.Chứng minh Với mọi x ∈ RN và ε > 0, tồn tại một ¯α ∈ Γ sao cho
V (x) + ε ≥ J (x, ¯α[b], b) ≥ inf
a∈AJ (x, a, b), ∀b ∈ BChứng tỏ vs ≤ V
Mặt khác theo Ví dụ 1.2.2 thì Γ chứa một bản copy của A, do đó
V ≤ us Hoàn toàn tương tự ta có các bất đẳng thức còn lạị
Các tên gọi hàm giá trị trên và hàm giá trị dưới của trò chơi có nguồngốc từ bất đẳng thức
Trang 28Tuy nhiên chứng minh điều đó là không dễ Điều này được chứng minhmột cách gián tiếp nhờ phương trình Hamilton-Jacobi cho V và U nhậnđược bởi phương pháp quy hoạch động Tuy nhiên, theo trực giác thì(1.15) là đúng, bởi vì người chơi luôn chọn cách chơi có lợi nhất tại mỗithời điểm chơi Hơn nữa ví dụ sau đây cho ta có thêm sự tin tưởng vàođiều đó vì trong đó ta có: V (x) ≤ U (x), ∀x /∈ T
Ví dụ 1.2.5 Cho N = 1, f (x, a, b) = (a − b)2, A = B = [−1, 1], T =[0, +∞) Khi đó ta có V (x) = 1 − ex, U (x) = 1, ∀x < 0
Thật vậy, ta có hàm chi phí J đồng biến theo tx(a, b); nghiệm của hệ(1.13) trong trường hợp này là y = x + (a − b)2t là hàm đơn điệu tăngtheo t nên nếu x < 0 thì tx(a, b) = −x/(a − b)2 Dễ thấy tx(a, b) đơnđiệu giảm theo (a − b)2 Từ đây ta suy ra:
Nếu người chơi thứ nhất là người muốn cực tiểu J thì sẽ điều khiển asao cho (a − b)2 lớn nhất, và phương án tốt nhất trong trường hợp nàyđối với anh ta là
α∗[b](t) =
(
1 nếu b(t) < 0
−1 nếu b(t) ≥ 0
Khi đó điều khiển tối ưu đối với người chơi thứ hai (người muốn cực đại
J ) là b∗(t) ≡ 0 Vì khi đó (a − b)2 sẽ luôn bằng 1 là giá trị nhỏ nhất cóthể Do vậy tx(a, b) = −x và giá trị tối ưu
β∗[a](t) = a(t)
Khi đó với mọi điều khiển của người chơi thứ nhất (người muốn cực tiểu
J ) ta đều có (a − b)2 = 0 Do vậy tx(a, b) = +∞ và giá trị tối ưu
Trang 29Mô hình vừa mô tả ở trên là không thực hiện được trong nhiều tròchơi, chẳng hạn trong các trò chơi trốn- tìm, bởi vì trong trò chơi đó lợithế của người chơi đã được cho trước khi lựa chọn chiến lược Tuy nhiên
nó cho ta một nhận định rằng, bất kỳ trò chơi nào có tính công bằnghơn đều có đầu ra nằm giữa V (x) và U (x) Điều đó dẫn tới định nghĩasau:
Định nghĩa 1.2.6 Nếu V (x) = U (x) thì chúng ta nói rằng trò chơi với
vị trí ban đầu x có một giá trị và ta gọi V (x) là hàm giá trị của trò chơi.Tiếp theo chúng ta nghiên cứu phương pháp quy hoạch động cho cáctrò chơi với chiến lược không định trước
Định lý 1.2.7 (Nguyên lý quy hoạch động) Với mọi x /∈ T và s > 0nhỏ ta có
Dạng vi phân của hai nguyên lý quy hoạch động trên tương ứngđược gọi là phương trình Hamilton-Jacobi- Isaacs dưới và phương trìnhHamilton-Jacobi- Isaacs trên, ứng với các Hamiltonian
H(x, p) := min
b∈Bmax
a∈A {−f (x, a, b).p},
˜H(x, p) := max
a∈A min
b∈B{−f (x, a, b).p}
Trang 301.3 Nghiệm nhớt của phương trình Hamilton-Jacobi
Trong mục này chúng tôi trình bày một số khái niệm và kết quả quantrọng của lý thuyết nghiệm nhớt liên tục của phương trình Hamilton-Jacobi
F (x, u(x), Du(x)) = 0, x ∈ E, (1.16)trong đó E là một tập mở trong RM, hàm Hamilton F = F (x, r, p) làmột hàm giá trị thực liên tục trên E × R × RM Các kết quả này chủyếu được hệ thống từ các công trình [4]-[7]
Ký hiệu U SC(E) và LSC(E) tương ứng là tập tất cả các hàm số
u : E → R nửa liên tục trên (tương ứng: nửa liên tục dưới) trên E
F (x, u(x), Dφ(x)) ≥ 0
Hàm u ∈ C(E) được gọi là nghiệm nhớt của (1.16) nếu nó vừa là mộtnghiệm nhớt dưới vừa là một nghiệm nhớt trên của phương trình đó
Để ý rằng: phương trình Hamilton tiến hóa
ut(y, t) + F (y, t, u(y, t), Dy(y, t)) = 0, (y, t) ∈ D × (0, T )
có thể đưa về dạng (1.16) với
x = (y, t) ∈ E = D×(0, T ) ∈ RM +1, ˜F (x, r, q) = qM +1+F (x, r, q1, · · · , qM)
Trang 31trong đó q = (q1, · · · , qM, qM +1) ∈ RM +1.
Mệnh đề sau đây cho thấy tính chất địa phương của nghiệm nhớt và
sự phù hợp của nghiệm nhớt đối với khái niệm nghiệm cổ điển
Mệnh đề 1.3.2 i) Nếu u ∈ C(E) là một nghiệm nhớt của phương trình(1.16) trong E thì u là nghiệm nhớt của phương trình đó trong E0 vớimọi tập mở E0 ⊂ E;
ii) Nếu u là nghiệm cổ điển của phương trình (1.16) trong E thì u lànghiệm nhớt của phương trình đó trong E;
iii) Nếu u ∈ C1(E) là nghiệm nhớt của phương trình (1.16) trong Ethì u là nghiệm cổ điển của phương trình đó trong E;
Ví dụ 1.3.3 Hàm u(x) = |x| là một nghiệm nhớt của phương trình mộtchiều
−|u0(x)| + 1 = 0, x ∈ (−1, 1)nhưng không phải là một nghiệm cổ điển của phương trình đó trênkhoảng (−1, 1) vì u không khả vi tại x = 0
Sau đây là một định nghĩa tương đương khác của nghiệm nhớt Với
Trang 32Hàm u là nghiệm nhớt của (1.16) khi và chỉ khi nó thỏa mãn đồngthời hai điều kiện (1.17) và (1.18).
Nhờ đặc trưng này của nghiệm nhớt, chúng ta chứng minh được rằngĐịnh lý 1.3.5 a) Nếu u ∈ C(E) là nghiệm nhớt của (1.16) và u khả vitại x ∈ E thì
Mệnh đề 1.3.7 Nếu u ∈ C(E) thỏa mãn nguyên lý so sánh thì u làmột nghiệm nhớt dưới Ngược lại, nếu u là nghiệm nhớt dưới và ánh xạ
Trang 33r 7→ F (x, r, p) không giảm với mọi x, p thì u thỏa mãn nguyên lý cực đại
và
u1 ≤ u2, x ∈ ∂Ethì u1 ≤ u2 trên E
Nhận xét 1.3.9 i) Nếu u1, u2 trong Định lý 1.3.8 là hai nghiệm nhớtcủa phương trình (1.19) và u1 = u2 trên ∂E thì u1 = u2 trong E Nóicách khác bài toán Dirichlet đối với (1.19) có tính duy nhất nghiệm theonghĩa nhớt
ii) Định lý 1.3.8 vẫn đúng đối với phương trình
λu(x) + H(x, Du(x)) = 0, x ∈ E,trong đó λ > 0 đã cho
Trong trường hợp E = RM, chúng ta có kết quả về sự so sánh nghiệmtrong không gian BC(RM)-tất cả các hàm liên tục và bị chặn trên RM.Tuy nhiên chúng ta cần các giả thiết sau về Hamiltonian H :
H(y, λ(x − y) + p) − H(x, λ(x − y) + q)
≤ ω2(|x − y| + λ|x − y|2, R) + ω3(|p − q|), (H2)
Trang 34với mọi λ ≥ 1; p, q ∈ ¯B(0, 1); x, y ∈ ¯B(0, R), ∀R > 0; ω2 là một mô đunđịa phương còn ω3 là một mô đun.
Có thể thấy, nếu H thỏa mãn (H1) và
H(x, p) − H(x, q) ≤ ω(|p − q|), ∀x, p, q ∈ RM (H3)thì H thỏa mãn (H2) với ω3 = ω và ω2(r, R) = ω1(2r) với mọi r, R > 0.Định lý 1.3.10 Giả sử u1, u2 ∈ BC(RM) tương ứng là nghiệm nhớtdưới và nghiệm nhớt trên của phương trình Hamilton-Jacobi
u(x) + H(x, Du(x)) = 0, x ∈ RMvới H thỏa mãn (H2) Khi đó u1 ≤ u2 trong RM