Để có điều kiện đủ về tính khả vi của nghiệm nhớt, chúng ta cần tới giả thiết về tính lồi chặt của hàm Hamilton.
Mệnh đề 1.3.15. Giả sử u ∈ C(Ω) là một nghiệm nhớt của phương trình
λu(x) + H(x, Du(x)) = 0 trong Ω,
với λ ≥ 0. Hơn nữa, giả thiết ánh xạ p 7→ H(x, p) lồi chặt với mỗi x ∈ Ω
Chứng minh. Trước hết ta chứng minh rằng u khả vi tại mọi x ∈ Ω. Theo Mệnh đề 1.3.9 (c), ta chỉ phải chứng minh rằng D+(−u)(x)là tập một điểm với mọi x ∈ Ω. Theo Mệnh đề 1.3.9 (a), điều đó là đúng nếu D∗(−u)(x) là tập một điểm.
Giả sử ngược lại, tồn tại p1, p2 ∈ D∗(−u)(x), p1 6= p2. Khi đó tồn tại các dãy {xn},{ym} trong Ω sao cho, tại đó u khả vi và
x = lim n→+∞xn = lim m→+∞ym, p1 = lim n→+∞D(−u)(xn), p2 = lim m→+∞D(−u)(ym). Theo Mệnh đề 1.1.11 (a), λu(xn) +H(xn, Du(xn)) = λu(ym) +H(ym, Du(ym)) = 0. Do tính liên tục ta nhận được λu(x) +H(x,−p1) =λu(x) +H(x,−p2) = 0. (1.40) Đặt ¯ p = 1 2p 1 + 1 2p 2, sử dụng tính lồi chặt, từ (1.40) ta suy ra λu(x) +H(x,−p¯) < λu(x) + 1 2H(x,−p1) + 1 2H(x,−p2) = 0. (1.41) Mặt khác, theo Mệnh đề 1.3.9 (a), p¯ ∈ coD∗(−u)(x) = D+(−u)(x) =
D−(−u)(x). Vì u là nghiệm nhớt của (HJ) nên
λu(x) +H(x,−p¯) ≥ 0,
mâu thuẫn với (1.41). Vậy u khả vi tại mọi điểm thuộc Ω.
Tính liên tục của Du là hệ quả của tính nửa liên tục trên của hàm đa trị D+u với u nửa lõm, tức là tính chất:
xn →x, pn ∈ D+u(xn), pn →p ⇒p ∈ D+u(x).
Nhận xét 1.3.16. Giả thiết về tính lồi chặt là không thể thiếu vìu(x) = |x| là nghiệm nhớt không khả vi của phương trình
a(x)(|Du(x)|2 −1) = 0, trong R,
trong đó a là một hàm liên tục và a(x) > a(0) > 0 với mọi x. Trong ví dụ này −u nửa lõm, nhưng ánh xạ p7→ H(x, p) =a(x)(|p|2−1) không lồi chặt tại x = 0.
Chương 2
Bài toán điều khiển tối ưu với thời gian vô hạn
2.1 Bài toán điều khiển tối ưu với thời gian vô hạn 2.1.1 Hệ điều khiển
Xét hệ điều khiển xác định bởi phương trình trạng thái
(
y0(t) = f(y(t), α(t)), t > 0,
y(0) = x. (2.1)
Trong đó, điều khiển α là một hàm đo được của t ∈ [0,+∞) với giá trị trong không gian điều khiển A (thường là một tập con đóng, bị chặn của
RM hoặc tổng quát hơn là một không gian topo).
Giả sử hệ động lực f : RN ×A → RN có tính chất sao cho với mọi sự lựa chọn của điều khiển α và vị trí ban đầu x ∈ RN, phương trình trạng thái (2.1) có một nghiệm duy nhất xác định với mọi t ∈ [0,+∞), kí hiệu là yx(t, α).
Gắn với hệ điều khiển (2.1) có một chí phí biến động (running cost) xác định bởi một hàm l : RN ×A →R.
Phiếm hàm chí phí cần cực tiểu hóa là
J(x, α) :=
Z ∞
0
l(yx(t), α(t))e−λtdt, (2.2) trong đó λ >0 là một nhân tử chiết khấu cố định.
Bước thứ nhất của cách tiếp cận quy hoạch động đối với bài toán điều khiển tối ưu nêu trên là xét hàm giá trị v xác định bởi
v(x) := inf
α∈AJ(x, α), (2.3)
Ý tưởng cơ bản của quy hoạch động là hàm v thỏa mãn một phương trình hàm, gọi là nguyên lý quy hoạch động, và khi v đủ trơn thì mô hình vi phân của nó là phương trình Hamilton-Jacobi-Bellman (HJB). Phương trình này chứa tất cả các thông tin cần thiết cho việc thiết kế một ánh xạ phản hồi tối ưu (optimal feedback map) cho bài toán đã nêu.
2.1.2 Nguyên lý quy hoạch động
Tạm thời ta giả sử một điều khiển tối ưu α∗ tồn tại với mỗi x, tức là
v(x) =J(x, α∗x) = +∞ Z 0 l(yx(t), α∗x(t))e−λtdt. Để ý rằng, với mỗi T > 0 cố định, J(x, α∗x) = T Z 0 l(yx(t, α∗x), α∗x(t))e−λtdt+ +∞ Z T l(yx(t, α∗x), α∗x(t))e−λtdt.
Lập luận đơn giản dựa trên tính chất nửa nhóm
yx(t+s, α∗x) =yyx(t,α∗ x)(s, α∗x(.+t)), ∀t, s > 0 (2.4) ta có đẳng thức v(x) = T Z 0 l(yx(t, α∗x), α∗x(t))e−λtdt+v(yx(T, α∗x))e−λT (2.5) thỏa mãn với mọi T > 0 và x ∈ RN.
Trong trường hợp sự tồn tại của điều khiển tối ưu chưa được giả thiết thì (2.5) được thay bởi
v(x) = inf α∈A T Z 0 l(yx(t, α), α(t))e−λtdt+v(yx(T, α))e−λT . (2.6) Phương trình hàm (2.6) bao gồm khẳng định của nguyên lý quy hoạch động cho bài toán đã nêu.
Chú ý rằng, phương trình (2.6) đúng với mọi T > 0 và x ∈ RN dưới những điều kiện rất rộng của các dữ kiện (xem Chương 2). Khi l bị chặn thì v bị chặn, phương trình (2.6) đặc trưng hàm giá trị v theo nghĩa: nếu
u là một hàm bị chặn thỏa mãn (2.6) với mọi T >0 và x ∈ RN thì u ≡ v.
2.1.3 Phương trình Hamilton-Jacobi-Bellman
Để có mô hình vi phân của nguyên lý quy hoạch động, ta giả thiết hàm giá trị v khả vi. Khi đó chia hai vế (2.6) cho T > 0 rồi cho T → 0,· · · ta chỉ ra được v thỏa mãn phương trình Hamilton-Jacobi-Bellman sau đây
λv(x) + sup
a∈A
{−f(x, a).Dv(x)−l(x, a)} = 0. (2.7) Tuy nhiên yêu cầu tính khả vi của v là quá chặt. Dưới đây là một ví dụ cụ thể
Ví dụ 2.1.1. Xét bài toán điều khiển tối ưu với thời gian vô hạn với
N = 1, A = {−1,1}, f(x, a) = a. Giả sử l(x, a) = l(x) là một hàm trơn và có các tính chất
l(x) =l(−x), l ≡ 0 nếu |x| > R,
maxl = l(0)> 0, xl0(x) < 0 nếu |x| < R.
Có thể thấy bài toán này có một điều khiển tối ưu là α∗x(t) = sgnx nếu
x 6= 0. Nếu x = 0 thì cả α∗(t) ≡ 1 và α∗(t) ≡ −1 đều là các điều khiển tối ưu vì l chẵn. Từ đây chúng ta có hàm giá trị
v(x) = +∞ R 0 l(x−t)e−λtdt, nếu x < 0, +∞ R 0 l(−t)e−λtdt+ +∞ R 0 l(t)e−λtdt, nếu x = 0, +∞ R 0 l(x+t)e−λtdt nếu x > 0.
Do vậy v0+(0) = lim x→0+ v(x)−v(0) x = +∞ Z 0 l0(t)e−λtdt, v−0 (0) = lim x→0− v(x)−v(0) x = +∞ Z 0 l0(−t)e−λtdt.
Mà l0(−x) =−l0(x) nên v không khả vi tại x = 0.
Phương trình (HJB) cho ví dụ này là
λv(x) +|v0(x)| − l(x) = 0;
tất nhiên không có nghĩa tại x = 0 theo nghĩa cổ điển vì v không khả vi tại đó.
Trong những tình huống thế này, phương trình (HJB) cần được hiểu theo một "nghĩa yếu" nào đó. Trong luận văn này chúng ta sẽ hiểu phương trình (HJB) theo nghĩa nhớt như đã trình bày trong Chương 1 (xem Mục 2.2).
2.1.4 Định lý kiểm định
Giả sử hàm giá trị v khả vi. Theo cách dẫn ra nguyên lý quy hoạch động, hàm h(t) := v(y∗(t))e−λt + t Z 0 l(y∗(s), α∗(s))e−λsds
không đổi với mọi t > 0 khi và chỉ khi α∗, y∗ là cặp điều khiển-quỹ đạo tối ưu đối với vị trí ban đầu x. Do đó, nếu v trơn thì điều kiện tối ưu là
h0 ≡ 0, tức là
e−λt[λv(y∗(t))−f(y∗(t), α∗(t)).Dv(y∗(t)) −l(y∗(t), α(t))] ≡ 0.
Vì trong trường hợp này v là nghiệm cổ điển của phương trình (HJB)
với
H(x, p) := sup
a∈A
{−f(x, a).p−l(x, a)},
nên điều khiển α∗ là tối ưu đối với trạng thái ban đầu x nếu và chỉ nếu
α∗(t) =S(y∗(t)) tại hầu hết t > 0, (2.8) với bất kỳ sự lựa chọn S(z) sao cho
S(z) ∈ arcmax
a∈A {−f(z, a).Dv(z)−l(z, a)}, (2.9) tức là nếu và chỉ nếu
H(y∗(t), Dv(y∗(t))) = −f(y∗(t), α∗(t)).Dv(y∗(t))−l(y∗(t), α∗(t)),
tại hầu hết t > 0.
Đặc trưng này của điều khiển tối ưu lặp mở cung cấp cho ta một phương pháp xây dựng một cặp điều khiển-quỹ đạo tối ưu đối với mọi trạng thái ban đầu. Bước thứ nhất là tìm ánh xạ S : RN → A có tính chất (2.9). Nếu hàm v đã biết thì đây là một bài toán quy hoạch toán học hữu hạn chiều. Ánh xạ S như vậy được gọi là ánh xạ phản hồi tối ưu. Bước thứ hai là giải bài toán
(
y0 = f(y, S(y)), t > 0
y(0) = x, (2.10)
tìm một nghiệm y∗(t). Khi đó ta sẽ có điều khiển α∗(t) := S(y∗(t)). Đó là một cặp tối ưu đối với trạng thái ban đầu x.
Để thực hiện phương pháp này chúng ta cần có tính khả vi của hàm giá trị v để đặc trưng điều khiển tối ưu và cần tính chính quy nhất định của ánh xạ phản hồi S để giải được (2.10). Cách tiếp cận trong trường hợp v
không khả vi cũng sẽ được đề cập trong Chương 2.
Một cách tiếp cận khác một chút của điều kiện đủ tối ưu trong trường hợp hàm giá trị chỉ liên tục là dựa trên khái niệm hàm kiểm định. Theo nghĩa cổ điển, hàm kiểm định là một C1−hàm, bị chặn và thỏa mãn
λu(x) + sup
a∈A
Giả sử α∗ là một điều khiển chấp nhận được và y∗ là quỹ đạo tương ứng xuất phát từ x. Một kết quả kiểm định đơn giản khẳng định: α∗ là điều khiển tối ưu, nếu tồn tại một hàm kiểm định u sao cho
λu(y∗(t))−f(y∗(t), α∗(t)).Du(y∗(t))−l(y∗(t), α∗(t)) = 0, ∀t ∈ [0,+∞).
(2.12) Thật vậy, với điều khiển α ∈ A bất kì, gọi y(t) là quỹ đạo tương ứng xuất phát từ x, theo định nghĩa hàm kiểm định nêu trên ta có
λu(y(t))−f(y(t), α(t)).Du(y(t)) ≤l(y(t), α(t)), ∀t ∈ [0,+∞).
Để ý rằng, vế phải của bất đẳng thức trên chính là
−eλt d dt(e
−λt
u(y(t))).
Do đó tích phân hai vế bất đẳng thức đó trên khoảng [0,+∞) ta dẫn đến
u(x) ≤
∞
Z
0
l(y(t), α(t))e−λtdt= J(x, α), ∀α ∈ A.
Đặc biệt với điều khiển α∗, ta có
u(x) =J(x, α∗),
hay α∗ là điều khiển tối ưu.
Ngược lại, nếu luật điều khiển x 7→ αx ∈ A là tối ưu với mọi x và
u(x) := J(x, αx) khả vi thì u là một hàm kiểm định vì theo định nghĩa nêu trên thì u = v nên trong trường hợp này nó là nghiệm cổ điển của phương trình (HJB), do đó thỏa mãn (2.11).
Sự mở rộng kỹ thuật này theo nghĩa nghiệm nhớt cũng sẽ được đề cập trong mục tiếp theo. Cụ thể khi đó u được gọi là hàm kiểm định (suy rộng) nếu u là nghiệm nhớt của (2.11). Khi đó chúng ta có kết quả kiểm định thú vị như sau: "điều khiển α∗ là tối ưu đối với điều kiện ban đầu x khi và chỉ khi tồn tại một hàm kiểm định suy rộng u sao cho u(x) ≥ J(x, α∗)."
Thật vậy, nếu u là một hàm kiểm định suy rộng thì theo định lý so sánh nghiệm ta có u(x) ≤ v(x) nên
J(x, α∗) ≤ u(x) ≤ v(x) ≤ J(x, α∗) ⇒ v(x) = J(x, α∗)
hay α∗ là điều khiển tối ưu. Ngược lại, nếu α∗ là một điều khiển tối ưu thì
v(x) = J(x, α∗) chính là một nghiệm nhớt dưới của phương trình (HJB), do đó là một hàm kiểm định suy rộng.
2.2 Ứng dụng của nghiệm nhớt đối với bài toán điềukhiển tối ưu với thời gian vô hạn khiển tối ưu với thời gian vô hạn
Trước hết ta trình bày một số khái niệm và kết quả cần thiết về hệ phương trình vi phân phi tuyến mà chúng ta muốn điều khiển. Ta giả thiết rằng: hàm f(x, a) với x ∈ RN, a ∈ A (tương ứng được gọi là biến trạng thái và biến điều khiển), thỏa mãn các giả thiết sau:
(
A là một không gian tô pô,
f : RN ×A →RN là một hàm liên tục; (A0)
f bị chặn trên B(0, R)×A, với mọi R >0; (A1) (tính bị chặn địa phương của f đều theo biến điều khiển a)
tồn tại một mô đun ωf sao cho
|f(y, a)−f(x, a)| ≤ωf(|x−y|, R),
với mọi x, y ∈ B(0, R) và R >0,
(A2)
(tính liên tục đều địa phương của f, đều theo biến điều khiển a), trong đó mô đun là một hàm ω : R+×R+ →R+ sao cho với mọi R > 0, ω(., R) liên tục, không giảm và ω(0, R) = 0.
Ta sẽ chủ yếu quan tâm tới trường hợp A ⊂ RM là tập compac. Khi đó (A1) và (A2) là các hệ quả của (A0).
Ta cũng giả thiết
tức là, tồn tại một số L ∈ R sao cho f(x, a) −LI, với I là toán tử đồng nhất, là một ánh xạ đơn điệu (không tăng) với mọi a.
Trong luận văn này ta chỉ xét trường hợp f liên tục Lipschitz toàn cục theo biến trạng thái, đều theo biến điều khiển, tức là
|f(x, a)−f(y, a)| ≤L|x−y|,∀x, y ∈ RN, a ∈ A. (2.13) Khi đó, tự nhiên f thỏa mãn (A3) và (A2).
Chúng ta quan tâm tới nghiệm (hay quỹ đạo) của hệ phi tuyến
(
y0(t) = f(y(t), α(t)), t > 0,
y(0) = x (2.14)
với các hàm điều khiển α(.) (gọi là điều khiển lặp mở(open loop), vì không phụ thuộc vào biến trạng thái) thuộc tập tất cả các điều khiển:
A := {α : [0; +∞) → A đo được}
(về hàm đo được và các tính chất liên quan có thể xem [2]).
Kí hiệu yx(., a) =yx(.) là nghiệm của (2.14) ứng với điều khiển α, theo nghĩa yx(., α) là nghiệm của phương trình tích phân
y(t) = x+
t
Z
0
f(y(s), α(s))ds, t > 0. (2.15) Như vậy yx(., a) là một hàm liên tục tuyệt đối trên các tập con compac của [0,+∞) và thỏa mãn (2.14) hầu khắp nơi.
Theo [4], Định lý 5.4, 5.5, trang 219, với các giả thiết (A0), (A1), (A3) tồn tại duy nhất nghiệm yx(t, α) của (2.14), tức là của (2.15) xác định với mọi t ∈ [0,+∞) và thỏa mãn các đánh giá
|yx(t, α)−x| ≤ Mxt, với mọiα ∈ A, t ∈ [0,1/Mx], (2.16) trong đó Mx := sup{|f(z, a)| : |z −x| ≤ 1, a ∈ A};
|yx(t, α)| ≤ (|x|+√
trong đó K := L + supa∈A|f(0, a)|.
Nếu yz là nghiệm thỏa mãn điều kiện ban đầu yz(0) = z thì
|yx(t, α)−yz(t, α)| ≤ eLt|x−z|, ∀α ∈ A, t ≥ 0. (2.18) Chúng ta cũng thường sử dụng các tập con đặc biệt của A là tập các điều khiển hằng từng khúc
P :={α ∈ A: tồn tại một dãy tăng tn sao cho lim
n tn = +∞ và α là hằng số trên (tn, tn+1),∀n
và tập các các điều khiển đơn điệu khi A⊂ R,
Am := {α ∈ A: α không giảm.
2.2.1 Nguyên lý quy hoạch động và phương trình Hamilton-Jacobi-Bellman đối với nghiệm nhớt Jacobi-Bellman đối với nghiệm nhớt
Gắn với hệ (2.14), ta xét phiếm hàm chi phí (cost functional) sau đây:
J(x, α) := Z ∞ 0 l(yx(t), α(t))e−λtdt, trong đó l : RN ×A→ R là hàm đã cho, và hằng số λ >0 có tính chất l liên tục;
tồn tại một mô đun ωl và một hằng số M sao cho
|l(x, a)−l(y, a)| ≤ ωl(|x−y|) và
|l(x, a)| ≤ M,∀x, y ∈ RN, a ∈ A.
(A4)
Chúng ta muốn cực tiểu hóa phiếm hàm chi phí theo α(.) ∈ A.
Định nghĩa 2.2.1. Nếu phiếm hàm chi phí đạt cực tiểu tại điều khiển
α∗(.) thì α∗(.) được gọi là một điều khiển tối ưu ứng với vị trí ban đầu x. Việc cực tiểu hóa các phiếm hàm chi phí đề cập ở trên dẫn tới hàm giá trị (value function) sau đây:
v(x) := inf
α∈AJ(x, α).
Mệnh đề sau chỉ ra một điều kiện đủ để có tính liên tục Lipschitz, H¨older của v.
Mệnh đề 2.2.2. [[4], Mệnh đề 2.1, trang 99] Giả sử ta có các giả thiết(A0),
(A1), (A3) và (A4). Khi đó v ∈ BU C(RN). Nếu thêm giả thiết ωl = Llr
(tức là l Lipschitz theo y, đều theo a) thì v liên tục H¨older với số mũ γ :
γ = 1 nếu λ > L, bất kì γ < 1 nếu λ = L, λ/L nếu λ < L,
trong đó L là hằng số Lipschitz của f đã nêu trong (2.13).
Giả sử K ⊂ RN là tập con sao cho:
∃C, γ > 0 và với mỗi x, z ∈ K, một điều khiển
α1 ∈ A sao cho yx(t−1, α1) = z với một t1 ≤ C|x−z|γ. (2.19)
Nói cách khác quỹ đạo của hệ có thể đạt tới điểm bất kì thuộc K trong khoảng thời gian tỷ lệ với lũy thừa của khoảng cách từ điểm đó tới điểm xuất phát. Chú ý rằng, nếu K lồi thì (2.19) hiển nhiên đúng với γ = 1 nếu
f(x, A) ⊃B(0,1/C).
Mệnh đề 2.2.3. [[4], Mệnh đề 2.3, trang 101] Cho các giả thiết (A0),(A1),
(A3), (A4) và (2.19) trong K. Khi đó với mọi x, z ∈ K ta có |v(x)−v(z)| ≤ M C|x−z|γ.
Tiếp theo ta đưa ra phương trình hàm, tương ứng thỏa mãn bởi các hàm giá trị trên đây, phương trình đó diễn tả một cách trực quan rằng: để đạt được chi phí cực tiểu ta cần thực hiện các bước sau:
• Cho hệ vận hành đến một thời gian nhỏ t với một điều khiển α(.) tùy ý trên đoạn [0, t];
• Thanh toán chi phí tương ứng đến thời điểm t;
• Thanh toán chi phí còn lại (cho thời gian sau t) với một điều khiển tốt nhất có thể;
• Cực tiểu hóa tổng hai khoản đã thanh toán trên tất cả các điều khiển có thể trên đoạn [0, t].
Mệnh đề 2.2.4. [Nguyên lý quy hoạch động] Giả sử ta có các giả thiết
(A0),(A1),(A3) và (A4). Khi đó với mọi x ∈ RN và t >0, v(x) := inf α∈A t Z 0 l(yx(s), α(s))e−λsds+v(yx(t, α))e−λt . (2.20) Chứng minh. Gọi vế phải của (2.20) là ω(x). Trước hết ta chứng minh rằng
v(x) ≥ω(x). Với α ∈ A ta có J(x, α) = t Z 0 l(yx(s), α(s))e−λsds+ ∞ Z t l(yx(s), α(s))e−λsds (2.21) = I1 + ∞ Z 0 l(yx(s+t), α(s+t))e−λse−λtds = I1 + e−λtJ(yx(t),α˜) ≥ I1 + e−λtv(yx(t)) ≥ω(x),
trong đó I1 là tích phân đầu tiên ở vế phải của (2.21) và α˜(s) := α(s+t).
Lấy infimum trên A ta nhận được v(x) ≥ ω(x).
Để chứng minh bất đẳng thức ngược lại, ta cố định α ∈ A, đặt z :=
yx(t, α), và cố định ε > 0, α1 ∈ A sao cho
v(z) ≥ J(z, α1)−ε.
Định nghĩa điều khiển
α(s) =
(
α(s) nếu s ≤t, α1(s−t) nếu s > t.
và gọi y và y1 là các quỹ đạo tương ứng với α và α1. Khi đó
v(x) ≤ J(x, α) = t Z 0 l(yx(s), α(s))e−λsds+ ∞ Z t l(yx(s), α(s))e−λsds (2.22) = I1 +e−λt ∞ Z 0 l(yz1(τ), α1(τ))e−λτdτ = I1 +e−λtJ(z, α1) ≤ I1 + e−λtv(yx(t, α)) +ε,
trong đó I1 là tích phân đầu tiên ở vế phải của (2.22). Do ε và α là tùy ý nên v(x) ≤ ω(x).
Nhận xét 2.2.5. Nếu có một điều khiển tối ưu α∗ đối với x, tức là,