11 1.2 Bài toán điều khiển với tham số ngẫu nhiên và tổng quan về một số phương pháp để giải nó.. Với ý nghĩa trên đây, ta có thể xem bài toán giảm thiểu độ rủi ro lũ lụt cho 1 HTTĐn-bậc
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-
ĐINH THỊ HỒNG GẤM
CHUYỂN VỀ MÔ HÌNH RỜI RẠC MỘT LOẠI BÀI TOÁN ĐIỀU KHIỂN NGẪU NHIÊN TỔNG HỢP VÀ ỨNG DỤNG
LUẬN VĂN THẠC SĨ KHOA HỌC
HÀ NỘI – 2011
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-
ĐINH THỊ HỒNG GẤM
CHUYỂN VỀ MÔ HÌNH RỜI RẠC MỘT LOẠI BÀI TOÁN ĐIỀU KHIỂN NGẪU NHIÊN TỔNG HỢP VÀ ỨNG DỤNG Chuyên ngành : Toán học Tính toán
Mã số : 60 46 30
NGƯỜI HƯỚNG DẪN KHOA HỌC GS.TS NGUYỄN QUÝ HỶ
HÀ NỘI – 2011
Trang 3Mục lục
MỞ ĐẦU 3
1 Một số công cụ ngẫu nhiên và giải tích hàm liên quan 6 1.1 Phép tính vi và tích phân trong B-không gian 6
1.1.1 Khái niệm về đạo hàm và tích phân trong B-không gian 6
1.1.2 Đạo hàm và tích phân của quá trình (hàm) ngẫu nhiên Hilbert 8 1.1.3 Phương trình vi phân với tham số ngẫu nhiên 11
1.2 Bài toán điều khiển với tham số ngẫu nhiên và tổng quan về một số phương pháp để giải nó 13
1.2.1 Khái niệm về bài toán điều khiển tối ưu với tham số ngẫu nhiên 13 1.2.2 Sơ lược về một vài phương pháp số giải bài toán điều khiển tối ưu 16 1.3 Mô hình dò tìm hỗn hợp giải bài toán quy hoạch ngẫu nhiên 23
2 Tham số hóa hàm điều khiển để giải trực tiếp một loại bài toán điều khiển ngẫu nhiên tổng hợp 25 2.1 Đặt vấn đề 25
2.2 Thiết lập bài toán điều khiển tổng quát 28
2.3 Thiết lập điều khiển chấp nhận được 33
2.4 Tham số hóa biến điều khiển theo chương trình 37
2.5 Xác định bộ tham số điều khiển ε− tối ưu bằng mô hình dò tìm ngẫu nhiên hỗn hợp 51
3 Ứng dụng vào việc giảm thiểu thiên tai lũ lụt cho Đồng bằng Bắc Bộ 56 3.1 Bài toán giảm thiểu thiên tai lũ lụt bằng hệ thống thủy điện bậc thang 56 3.2 Thiết lập bài toán quy hoạch ngẫu nhiên 61
Trang 43.3 Mô phỏng độ rủi ro lũ lụt của mỗi quy trình điều tiết hợp lý khả thi 64KẾT LUẬN 69TÀI LIỆU THAM KHẢO 70
Trang 5ở miền Trung (cuối năm 2010) và hạn hán ở đồng bằng Bắc Bộ (đầu năm 2011) lànhững dấu hiệu mở đầu thời kỳ này.
Nhằm hạn chế lũ lụt-hạn hán, bài toán thủy điện đa tiêu chí (TĐĐTC) đã ra đời(trong những năm 1986-1987) từ việc xây dựng quy trình vận hành (QTVH) hợp lýkhả thi (HLKT) ở nhà máy thủy điện (NMTĐ) Hòa Bình [16], trong đó lấy nhiệm vụphát điện làm ưu tiên gắn với sự đáp ứng các tiêu chí tối thiểu về thủy lợi (dung tíchchống hạn, phòng lũ, tưới tiêu cho nông nghiệp, cấp nước sinh hoạt ) và về tham giađiều phối, cắt lũ cho hạ du Có thể nói bài toán TĐĐTC trên đây ngay từ khi ra đời
đã mang tính tổng quát và "Việt Nam" hóa lý thuyết về bài toán Thủy điện, vốn xuấtphát từ những nước có khí hậu ôn đới (như LX cũ), ít có thiên tai lũ lụt-hạn hán như
ở nước ta
Trong những năm 2000-2002, khi lựa chọn quy mô thiết kế cho công trình thuỷ điện(CTTĐ) Sơn La, bài toán TĐĐTC lại được đưa ra xem xét dưới dạng mô hình toánhọc trong việc Giảm thiểu độ rủi ro lũ lụt-động đất cho CTTĐ Sơn La [14], trong đólấy việc an toàn (trước những rủi ro lũ lụt và động đất) của CTTĐ làm mục tiêu ưutiên gắn với sự đáp ứng các tiêu chí tối thiểu về phát điện, thủy lợi và tham gia điềuphối-cắt lũ
Bước đầu triển khai ứng dụng mô hình toán học tổng quát trên đây, trong nhữngnăm 2005-2008 bài toán TĐĐTC đã được nghiên cứu dưới dạng Mô hình phân bổ dungtích phòng lũ và vận hành an toàn hợp lý HTTĐ 3-bậc thang trên sông Đà [15] Trong
mô hình này, sự an toàn của HTTĐ (trước những rủi ro chỉ về lũ lụt), được chọn là
Trang 6mục tiêu ưu tiên gắn với sự đáp ứng các tiêu chí tối thiểu về phát điện, dung tích phòng
lũ, cung cấp nước tưới tiêu cho nông nghiệp - sinh hoạt (chưa có dung tích chống hạn)
và tham gia điều phối-cắt lũ ở hạ du Gắn với mô hình này, 5 bộ phần mềm ứng dụng(VSAM 1- VSAM 5) đã được soạn thảo (trong dạng tham số hóa) với sự đảm bảo toánhọc của các bài báo khoa học [27], [21], [23], [8], [22]
Việc thử nghiệm số của 5 bộ phần mềm tính toán VSAM 1 - VSAM 5 trên bộ sốliệu của Dự án TĐ Sơn La thấp (đang được triển khai) đã lựa chọn được QTVH "ítrủi ro lũ lụt nhất", trong đó (xem [15] tr.103) xác suất xuất hiện thảm họa lũ lụt rấthiếm hoi là p = 10−6 (tương ứng với thể tích TB của nước lũ là 11 triệu m3 sẽ theosóng vỡ đập về tàn phá vùng đồng bằng Bắc Bộ) Để đổi lại thiệt hại trên, QTVH nàyđưa đến một dung tích phòng lũ TB là 14,06 tỷ m3 (tăng hơn 2 lần khả năng phòng
lũ, so với yêu cầu 7 tỷ m3 của thiết kế); sản lượng điện TB là 24,09 tỷ Kwh (tăng 1,12lần phát điện, so với yêu cầu 21,5 tỷ Kwh của thiết kế); dung tích chống hạn TB là2,036 tỷ m3 (trong Dự án thiết kế chưa có cơ sở để xác định tiêu chí này)
Thực tiễn tính toán của VSAM 5 còn chỉ ra rằng QTVH ít rủi ro lũ lụt nhất nóitrên cũng là quy trình cho dung tích phòng lũ tương đối cao nhất (trong số 200 QTVHHLKT khác nhau của HTTĐ 3-bậc thang trên sông Đà được đem ra so sánh một cáchngẫu nhiên) Về mặt định tính, ta có thể lý giải điều trên như sau: dung tích phòng lũtrong mỗi hồ chứa càng lớn, thì khả năng vỡ đập do lũ lụt tương ứng càng ít và kéotheo là khả năng xuất hiện thảm họa lũ lụt (vỡ đập do lũ lụt ở hạ nguồn của HTTĐbậc thang) càng ít Trong trường hợp HTTĐ chỉ có 1 bậc thang, thì hiện tượng vỡ đậpbởi nguyên nhân lũ lụt đồng nghĩa với sự xuất hiện của thảm họa lũ lụt ở hạ nguồn
và do đó QTVH ít rủi ro lũ lụt nhất cũng là quy trình có dung tích phòng lũ TB lớnnhất (giảm nhiều nhất thiên tai lũ lụt)
Với ý nghĩa trên đây, ta có thể xem bài toán giảm thiểu độ rủi ro lũ lụt cho 1 HTTĐn-bậc thang [14] như là bài toán Giảm thiểu thiên tai lũ lụt bằng một HTTĐ bậc thangcho hạ du của hệ thống này, trong đó mục tiêu cần giảm thiểu tuy vẫn là độ rủi ro lũlụt nhưng hàm ý làm cực đai dung tích phòng lũ có thể, theo nghĩa: tạo ra khả năngtồn tại cao nhất của các đập thủy điện trong hệ thống (ứng với xác suất xuất hiệnthảm họa lũ lụt bé nhất), để cho HTTĐ này vững vàng đảm nhận trọng trách chứađược (trong dung tích phòng lũ nói trên) 1 lượng nước lũ cao nhất có thể tràn về trong
Trang 7mùa lũ chính vụ Sẽ là không cần thiết và vô nghĩa, nếu ta chuyển mục tiêu của bàitoán TĐĐTC về dạng cực đại dung tích phòng lũ, vì dung tích này chỉ có nghĩa khicòn tồn tại HTTĐ (không xảy ra các hiện tượng vỡ đập và thảm họa lũ lụt) Gắn vớimục tiêu cần ưu tiên nói trên, trong bài toán TĐĐTC này còn có các tiêu chí tối thiểucần đáp ứng về dung tích chống hạn, cung cấp nước tưới tiêu cho nông nghiệp, nướccho sinh hoạt, tham gia điều phối và cắt lũ ở hạ du Đây là những nhân tố liên quanmật thiết đến phòng chống bão lụt-hạn hán Cùng với các tiêu chí trên đây còn có cáctiêu chí tối thiểu về phát điện và dung tích phòng lũ, mà nhờ có các tiêu chí này bàitoán Giảm thiểu thiên tai lũ lụt mới đạt được sự cân đối, hài hòa giữa nhiệm vụ phátđiện và thủy lợi đã đề ra trong thiết kế HTTĐ.
Với những ý nghĩa đó, trong luận văn này chúng tôi sẽ nghiên cứu bài toán Giảmthiểu thiên tai lũ lụt bằng HTTĐ bậc thang Do bài toán này có dạng tổng quát của
1 loại điều khiển ngẫu nhiên tổng hợp trong mô hình liên tục, nên Chương 1 của luậnvăn sẽ giành cho việc giới thiệu tổng quan về những công cụ ngẫu nhiên và giải tíchhàm có liên quan đến bài toán Trong Chương 2, mô hình toán học của bài toán trên
sẽ được phát biểu trong ngôn ngữ cải biên của bài toán Giảm thiểu độ rủi ro lũ lụt[14], [15], [21] cho HTTĐ bậc thang Thông qua việc rời rạc hóa hàm điều khiển, mộtloại phương pháp Monte Carlo trực tiếp cũng được đề nghị sử dụng trong chương này
để giải bài toán Cuối cùng, một ứng dụng vào việc tham gia giảm thiểu thiên tai lũlụt cho vùng Đồng bằng Bắc Bộ sẽ được bán tới trong Chương 3 của Luận án
Trang 8Chương 1
Một số công cụ ngẫu nhiên và giải tích hàm liên quan
Cho đoạn thẳng [to, T ] ⊂ R1 và B-không gian (không gian Banach) X với chuẩn kýhiệu là k · kX
Định nghĩa 1.1.1 : Ánh xạ f : [to, T ] → X gọi là liên tục tại t ∈ [to, T ] nếu:
lim
∆t→0kf (t + ∆t) − f (t)kX = 0 ( với : t + ∆t ∈ [to, T ]) (1.1.1)Nếu f liên tục tại mọi điểm t ∈ (to, T ) và liên tục trái tại to, liên tục phải tại T thìánh xạ f gọi là liên tục trên [to, T ] Ta ký hiệu B-không gian của những ánh xạ liêntục trên [to, T ] (xem [30] tr.40-41) là : C([to, T ]; X) = C(to, T ; X), trong đó chuẩn củamỗi phần tử xác định theo công thức:
kf kC = kf kC(to,T ;X) = max
t o ≤t≤Tkf (t)kX (∀f ∈ C([to, T ]; X)) (1.1.2)Định nghĩa 1.1.2: (xem [25] tr.451-453) Ánh xạ f : [to, T ] → X được gọi là khả
vi tại t ∈ [to, T ] nếu tồn tại toán tử tuyến tính ˙f (t) = df (t)
Trang 9Khi đó toán tử tuyến tính ˙f (t) được gọi là đạo hàm mạnh (Frechet) của f tại t.Trong trường hợp toán tử đạo hàm ˙f : [to, T ] → X là liên tục tại t ∈ [to, T ] thì ánh xạ
f gọi là khả vi liên tục tại t Nếu ánh xạ này khả vi liên tục tại mọi điểm t ∈ (to, T )
và ˙f liên tục phải tại to, liên tục trái tại T thì f được gọi là khả vi liên tục trên [to, T ].Không gian Banach của những ánh xạ khả vi liên tục trên [to, T ] (xem [30] tr.44-45)được ký hiệu là: C1([to, T ]; X) = C1(to, T ; X), trong đó chuẩn của mỗi phần tử đượcxác định như sau:
i=0 nào đó gắn với một phân hoạch {ti}n
i=0 bất kỳ của đoạn [to, T ], sao cho:
to < t1 < < tn = T , τi ∈ [ti, ti+1] := ∆i , |∆i| := ti+1− ti (∀i = 0 ÷ n − 1).Ứng với dãy điểm và phân hoạch nói trên, ta lập tổng Rieman σ {(ti, τi)}n
Z t 2
t 1
˙
f (t)dt = f (t2) − f (t1) ∈ X (1.1.6)Chú ý 1.1.1 : Với X = Lp(U, ΣU, µ) (1 ≤ p ≤ ∞) là B-không gian (xem [7] tr.162,167) những hàm ΣU-đo được gắn với không gian độ đo (U, ΣU, µ), ta có thể dựa vàocác định nghĩa nói trên để xây dựng khái niệm đạo hàm và tích phân tương ứng củaánh xạ:
Trang 10(g, h) :=
Z
U
g(u).h(u)µ(du) (∀g, h ∈ L2(U )) (1.1.10)Ngoài ra, khi không gian độ đo (U, ΣU, µ) là không gian xác suất (kgxs) (Ω, Σ, P ) (P (Ω) =1), ta có thể diễn đạt ánh xạ (1.1.7) cùng với các khái niệm liên tục, đạo hàm và tíchphân của nó trong những ngôn ngữ ngẫu nhiên sau đây
Hilbert
Định nghĩa 1.1.4: (xem [13] tr.142) Gắn với kgxs (Ω, Σ, P ) đã cho, mỗi ánh xạ
ω → ξ(ω) : Ω → R1 được gọi là biến (đại lượng) ngẫu nhiên, nếu nó là Σ-đo được trên
Ω Đại lượng ngẫu nhiên (đlnn) này gọi là có mô men bậc p (1 ≤ p < ∞) hữu hạn nếu
ξ ∈ Lp(Ω), gọi là giới nội hầu chắc chắn (a.s.) nếu ξ ∈ L∞(Ω) Khi ξ ∈ L1(Ω), đlnn ξgọi là có kỳ vọng hữu hạn với kỳ vọng được ký hiệu là:
E{ξ} = Ew{ξ(ω)} :=
Z
Ω
ξ(ω)P (dω) ⇒ |E{ξ}| ≤ E{|ξ|} := kξkL1 (Ω) (1.1.11)Định nghĩa 1.1.5: (xem [13] tr.236-237) Ta gọi:
có thể mở rộng định nghĩa trên dưới dạng:
Định nghĩa 1.1.5*: Với n và m là các số tự nhiên, ta gọi:
L2n×m:= L2n×m(Ω) =
n
ξ = (ξij)n×m : Ω → Rn×m| ξij ∈ L2(Ω) (∀i = 1 ÷ n, j = 1 ÷ m)
o(1.1.13)
Trang 11là không gian Hilbert của các biến (ma trận) ngẫu nhiên (n × m)-chiều có moment bậc
2 hữu hạn, trong đó tích vô hướng và chuẩn được xác định dưới dạng:
(ξ, η)L2 n×m :=
1
∀ξ = (ξij)n×m , η = (ηij)n×m ∈ L2
n×m(Ω) (1.1.13*)Trường hợp m = 1, ta gọi L2n×1 = L2n(Ω) là không gian Hilbert các biến (vec tơ) ngẫunhiên n-chiều
Định nghĩa 1.1.6: (xem [13] tr.237) Ánh xạ (1.1.7) với U = Ω, X = L2(Ω) được gọi
là quá trình (hàm) ngẫu nhiên Hilbert (qtnn H) xác định trên không gian xác suất(Ω, Σ, P ) và được ký hiệu là ξ(t) = f (t; ), to ≤ t ≤ T , trong đó đlnn ξ(t) = f (t; ) ∈
L2(Ω) gọi là trạng thái của qtnn H tại thời điểm t, L2(Ω) (và [to, T ]) lần lượt gọi làkhông gian trạng thái (và tham số), tập hợp {f (t; ω) : to≤ t ≤ T } ⊂ R1 gọi là quỹ đạogắn với biến cố sơ cấp ω ∈ Ω của qtnn H
Tương tự như Định nghĩa 1.1.5*, ta có thể mở rộng Định nghĩa 1.1.6 thành:
Định nghĩa 1.1.6*: Ánh xạ (1.1.7) với U = Ω, X = L2
n×m(Ω), f (t; ω) = fij(t; ω)n×mđược gọi là qtnn H (n × m)-chiều xác định trên không gian xác suất (Ω, Σ, P ) và được
ký hiệu là ξ(t) = fij(t; ·)n×m, to ≤ t ≤ T , trong đó trạng thái của quá trình tạithời điểm t là biến (ma trận) ngẫu nhiên ξ(t) = fij(t; ·)n×m∈ L2
n×m(Ω), không giantrạng thái là L2
n×m(Ω), không gian các tham số là [to, T ]
Chú ý 1.1.2 : Khi m=1, qtnn nói trong định nghĩa trên trở thành qtnn H n-chiều
ξ(t) = f1(t; ·), , fn(t; ·)0, to ≤ t ≤ T 1 với không gian trạng thái là L2
n(Ω) Khônghạn chế tính tổng quát, dưới đây ta chỉ cần xét các qtnn H loại này, trong đó ánh xạ(1.1.7) có dạng:
(t, ω) → f1(t; ω), , fn(t; ω)0
(∀(t, ω) ∈ [to, T ] × Ω),
fi(t; ·) ∈ L2(Ω) (∀t ∈ [to, T ], i = 1 ÷ n) (1.1.14)Khi đó ta thu được các mệnh đề dưới đây, như là những trường hợp đặc biệt của cácmệnh đề trong Tiểu mục 1.1.1
Định nghĩa 1.1.7: (xem [13] tr.237-238) qtnn H n-chiều {ξ(t) = f1(t; ·), , fn(t; ·)0, to ≤
1 Chuyển vị của vec tơ hàng (f1, , fn) được ký hiệu là (f1, , fn)0
Trang 12t ≤ T } được gọi là liên tục trung bình phương (TBP) tại t ∈ [to, T ], nếu ánh xạ (1.1.14)liên tục tại t (theo Định nghĩa 1.1.1):
Định nghĩa 1.1.9: (xem [13] tr.243) qtnn H n-chiều {ξ(t) = f1(t; ·), , fn(t; ·)0, to ≤
t ≤ T } được gọi là khả tích trên [to, T ], nếu ánh xạ (1.1.14) khả tích trên đó (theo Địnhnghĩa 1.1.3) với giá trị của tích phân là:
, to ≤
t ≤ T } khả vi liên tục TBP trên [t1, t2] ⊂ [to, T ], thì nó cũng khả tích trên [t1, t2] và ta
có công thức Neuton - Leibnitz sau:
Z t 2
t 1
˙
fi(t; ω)dt = fi(t2; ω) − f (t1; ω) ∀i = 1 ÷ n, ω ∈ Ω(a.s.) (1.1.18)Chú ý 1.1.3 : Nếu các hàm trong (1.1.14) có dạng đặc biệt:
fi(t; ω) ≡ fi(t) ∈ R1 (∀t ∈ [to, T ], ω ∈ Ω, i = 1 ÷ n)(không phụ thuộc vào biến cố sơ cấp ω ∈ Ω), thì qtnn H n-chiều trong Chú ý 1.1.2được tất định hóa và trở thành "quá trình (hàm) tất định" thông thường ξ(t) =
f1(t), , fn(t)0, to ≤ t ≤ T với "không gian trạng thái" (miền giá trị) là Rn Khi
đó, các khái niệm "liên tục TBP" (Định nghĩa 1.1.7) và "đạo hàm TBP" (Định nghĩa
Trang 131.1.8) trở thành các khái niệm liên tục và đạo hàm thông thường của hàm vec tơ
ξ := (f1, , fn)0 : [to, T ] → Rn Khái niệm tích phân (Định nghĩa 1.1.9) và công thứcNeuton-Leibnitz (Định lý 1.1.2) trở thành khái niệm và công thức quen thuộc tươngứng đối với vec tơ hàm nói trên, trong đó các tích phân được hiểu theo nghĩa Lebesgue-Rieman
Xét bài toán Cauchy trong B-không gian X:
˙z(t) = g t, z(t) (to < t ≤ T ) , z(to) = zo(đã cho) ∈ X (1.1.19)trong đó ánh xạ z : [to, T ] → X là nghiệm (cần tìm) với đạo hàm Frechet của nó tại
t là ˙z(t) ∈ X; ánh xạ (đã cho) g : [to, T ] × X → X là liên tục và thỏa mãn điều kiệnLiptschitz, với sự tồn tại hằng số C>0 để cho:
kg(t, x0) − g(t, x”)kX ≤ Ckx0− x”kX (∀x0, x” ∈ X, t ∈ [to, T ]) (1.1.20)Định lý 1.1.3 : (xem [30] tr.179-180) Với sự thỏa mãn điều kiện (1.1.20) của ánh xạliên tục g, phương trình vi phân (1.1.19) luôn tồn tại duy nhất nghiệm z ∈ C1 [to, T ]; X.Chú ý 1.1.4 : Ta có thể tích phân phương trình vi phân (1.1.19), nghĩa là sử dụngcông thức Neuton-Leibnitz (1.1.6) để biến phương trình này thành phương trình tíchphân tương đương:
z(t) = zo+
Z t
t o
g s, z(s)ds (to ≤ t ≤ T ) (1.1.21)Khi dựa vào Chú ý 1.1.2 và Định nghĩa 1.1.8 ta có thể thiết lập bài toán Cauchy(1.1.19) với X = L2
n(Ω) trong dạng "phương trình vi phân ngẫu nhiên", theo nghĩadưới đây:
Định nghĩa 1.1.10 : Phương trình vi phân (1.1.19) trong không gian Hilbert X =
L2n(Ω) được gọi là phương trình vi phân với tham số ngẫu nhiên - differential equationwith random parameters- (gọi tắt là phương trình vi phân ngẫu nhiên - PTVPNN), nếunghiệmz(t) = z1(t; ·), , zn(t; ·)0, to ≤ t ≤ T của nó là một qtnn H n-chiều, ˙z(t) làđạo hàm TBP của quá trình này tại t, ảnh của ánh xạ (đã cho) g : [to, T ] × L2
n(Ω) →
Trang 14L2n(Ω) và mỗi thành phần của vec tơ ngẫu nhiên (đã cho) zo := (z01, , zon)0 ∈ L2
n(Ω)đều có mô men bậc 2 hữu hạn
Giả thiết về điều kiện Liptschitz (1.1.20) khi đó có dạng:
kg(t, z0) − g(t, z”)kL2
n (Ω) ≤ Ckz0− z”kL2
n (Ω) (∀z0, z” ∈ L2n(Ω), t ∈ [to, T ]) (1.1.22)Như là một hệ quả trực tiếp của Định lý 1.1.3, ta có mệnh đề dưới đây:
Định lý 1.1.4 : Nếu g liên tục TBP và thỏa mãn điều kiện (1.1.22), thì PTVPNN(1.1.19) trong không gian Hilbert X = L2n(Ω) luôn tồn tại duy nhất nghiệm z ∈
kxk X 61
kA(t)xkX (∀t ∈ [to, T ]), (1.1.24)
với A(t) (∀t ∈ [to, T ]) là ánh xạ tuyến tính liên tục trong X Khi đó ta có:
Định lý 1.1.5 : (xem [30] tr.191) Với sự thỏa mãn các điều kiện (1.1.24), phươngtrình vi phân tuyến tính (1.1.23) luôn tồn tại duy nhất nghiệm z ∈ C1 [to, T ]; X.Khi xét phương trình vi phân tuyến tính (1.1.23) trong không gian Hilbert X =
kxkL2n(Ω) 61
kA(t)xkL2
n (Ω) (∀t ∈ [to, T ]) (1.1.25)Khi đó, từ Định nghĩa 1.1.10 ta trực tiếp thu được hệ quả dưới đây của Định lý 1.1.5:
Hệ quả 1.1.1 : Với sự thỏa mãn các điều kiện (1.1.25), phương trình vi phân ngẫu
Trang 15nhiên tuyến tính (1.1.23) (với X = L2n(Ω)) luôn tồn tại duy nhất nghiệm z ∈ C1 [to, T ];
L2
n(Ω)
Cuối cùng, từ Chú ý 1.1.3 ta nhận thấy rằng: phương trình vi phân ngẫu nhiêntuyến tính nói trên là sự mở rộng trực tiếp của hệ n phương trình vi phân tuyến tính(1.1.23) vói X = Rn (theo nghĩa tất định thông thường) Khi đó với sự thay thế tínhliên tục TBP trong giả thiết (1.2.25) bởi tính liên tục từng khúc trên [to, T ], ta thuđược mệnh đề quen thuộc dưới đây (như là hệ quả của Hệ quả 1.1.1):
Hệ quả 1.1.2 : (xem [12] tr.56) Nếu các hàm A : [to, T ] → Rn×n , g : [to, T ] → Rn liêntục từng khúc trên [to, T ], thì phương trình vi phân (tất định) (1.1.23) (với X = Rn)luôn tồn tại duy nhất nghiệm z ∈ C [to, T ]; Rn khả vi từng khúc trên [to, T ]
tổng quan về một số phương pháp để giải nó
ngẫu nhiên
Gắn với kgxs (Ω, Σ, P ) đã cho, ta xét bài toán điều khiển tối ưu với tham số ngẫunhiên - optimal control problem with random parameters - (gọi tắt là bài toán điềukhiển (tối ưu) ngẫu nhiên - ĐKNN2) trong dạng tổng quát (general form) dưới đây:
JG(x) := Efo(z, x) → inf, (1.2.1)
˙z(t) = g t, z(t), x(t) (to< t ≤ T ) , z(to) = zo (đã cho) ∈ L2n(Ω), (1.2.2)
x(t) ∈ X(t) ⊂ L2m(Ω) (to ≤ t ≤ T ), (1.2.3)z(t) ∈ Z(t) ⊂ L2n(Ω) (to ≤ t ≤ T ), (1.2.4)x(t), z(t)∈ Y (t) ⊂ L2
m(Ω) × L2n(Ω) (to ≤ t ≤ T ), (1.2.5)trong đó biến điều khiển là qtnn H m-chiềux(t) = x1(t; ·), , xm(t; ·)0∈ L2
Trang 16t ≤ T ; hệ động lực (với tham số) ngẫu nhiên là PTVPNN (1.2.2) trong không gian
L2
n(Ω) với ˙z(t) ∈ L2
n(Ω) là đạo hàm TBP của biến trạng thái tại t Điều kiện (1.2.3) gọi
là ràng buộc về biến điều khiển, điều kiện (1.2.4) gọi là ràng buộc về biến trạng thái,điều kiện (1.2.5) gọi là ràng buộc hỗn hợp giữa biến điều khiển và trạng thái Các ánh
xạ (đã cho) g, fo trong hệ động lực (1.2.2) và hàm mục tiêu (1.2.1)) được giả thiết là
Lpk :=RtT
o ky(t)kpL2
k (Ω)dt < +∞o,
(1.2.6)trong đó Lpk(to, T ; Ω) = Lp [to, T ]; L2
k(Ω) (1 ≤ p < ∞) là một B-không gian (xem [7]tr.162) và L2
m to, T ; Ω là không gian Hilbert (xem [13] tr.241-243) của những qtnn Hm-chiều bình phương khả tích trên [to, T ] (theo Định nghĩa 1.1.9)) với tích vô hướng vàchuẩn có dạng:
∀x = (x1, , xm)0, y = (y1, , ym)0 ∈ L2
m to, T ; Ω:= L2 [to, T ]; L2m(Ω)
(1.2.6*)Chú ý 1.2.1 : Ta cũng có thể phát biểu bài toán ĐKNN (1.2.1)-(1.2.5) với to, zo, Tchưa biết tương tự như trong trường hợp tất định (xem [12] tr.39-40)
Định nghĩa 1.2.1 : Đối với một lớp hàm điều khiển nào đó:
- Nếu hệ động lực (1.2.2) là điều khiển được bởi lớp hàm Xo, thì tập hợp các hàm trong
Xo thỏa mãn các điều kiện ràng buộc (1.2.4)-(1.2.5):
X = X(to, T ; L2m(Ω)) :=x ∈ Xo(to, T ; L2m(Ω)) : thỏa mãn (1.2.4) ÷ (1.2.5) (1.2.7∗)gọi là tập hợp các điều khiển chấp nhận được Mỗi điều khiển x ∈ X gọi là chấp nhậnđược - CNĐ (admissible)
Trang 17- Điều khiển CNĐ x ∈ X không phụ thuộc vào biến trạng thái z trong hệ động lực(1.2.2) gọi là điều khiển theo chương trình (programme [11], open-loop control [2]) vàbài toán ĐKNN (1.2.1)-(1.2.5) gọi là bài toán điều khiển theo chương trình.
- Nếu điều khiển x(t) = x t, z(t) (phụ thuộc vào trạng thái z(t)) với hệ động lực(1.2.2) và lớp hàm điều khiển (1.2.7) lần lượt có dạng:
Chú ý 1.2.2 : Nếu chỉ xét bài toán ĐKNN (1.2.1)-(1.2.3) (không có ràng buộc biếntrạng thái (1.2.4) và ràng buộc hỗn hợp (1.2.5)), trong đó hệ động lực được giả thiết
là điều khiển được bởi lớp hàm Xo = Xo(to, T ; L2m(Ω)) thì lớp hàm này cũng gọi là tậphợp các điều khiển CNĐ của bài toán (1.2.1)-(1.2.3): X = X(to, T ; L2
m(Ω)) ≡ Xo (xem[2] tr.230)
Định nghĩa 1.2.2 : Điều khiển CNĐ x∗ ∈ X(to, T ; L2
m(Ω)) gọi là tối ưu, nếu:
JG(x∗) ≤ JG(x) (∀x ∈ X(to, T ; L2m(Ω)) (1.2.9)
Ta có thể xét những trường hợp riêng dưới đây của hàm mục tiêu tổng quát JG(x):Định nghĩa 1.2.3 : Bài toán (1.2.1)-(1.2.5) lần lượt gọi là Bài toán Mayer, Lagrange,Bolza, nếu:
Trang 18Chú ý 1.2.4 : Từ Chú ý 1.1.3 ta dễ dàng nhận thấy rằng: Nếu xét trường hợp đặcbiệt của bài toán ĐKNN (1.2.1)-(1.2.5) với các không gian L2
m(Ω), L2
n(Ω) được lần lượtthay bởi Rm, Rn thì biến điều khiển x(t) = x1(t), , xm(t)0∈ Rm, to ≤ t ≤ T vàbiến trạng thái z(t) = z1(t), , zn(t)0
∈ Rn, to ≤ t ≤ T trở thành các quá trình tấtđịnh Khi đó bài toán (1.2.1)-(1.2.5) trở thành bài toán điều khiển tối ưu (tất định):
JG(x) := fo(z, x) → inf, (1.2.11)
˙z(t) = g t, z(t), x(t) (to < t ≤ T ) , z(to) = zo (đã cho) ∈ Rn, (1.2.12)
x(t) ∈ X(t) ⊂ Rm (to ≤ t ≤ T ), (1.2.13)z(t) ∈ Z(t) ⊂ Rn (to ≤ t ≤ T ), (1.2.14)x(t), z(t)∈ Y (t) ⊂ Rm
× Rn (to ≤ t ≤ T ) (1.2.15)Trong trường hợp này, các công thức (1.2.6) và (1.2.6*) lần lượt trở thành:
Xo= Xo([to, T ]; Rm) :=nx ∈ L2 [to, T ]; Rm: thỏa mãn (1.2.13)o⊂ L2([to, T ]; Rm),
X = X [to, T ]; Rm:= x ∈ Xo [to, T ]; Rm) : thỏa mãn (1.2.14) ÷ (1.2.15) (1.2.17)
khiển tối ưu
Các kết quả phong phú nhất trong việc giải bằng số bài toán điều khiển tối ưu (1.2.5) thuộc vào lãnh vực tất định,3 nghĩa là các phương pháp giải bài toán (1.2.11)-(1.2.15) Tuy nhiên, cho đến nay các phương pháp đó mới chỉ giải được từng trường
(1.2.1)-3 Ngoại trừ các kết quả để giải bài toán ĐKNN với hệ động lực là PTVP Ito (xem, chẳng hạn [2] tr.281-318).
Trang 19hợp riêng biệt của bài toán này Ngoài phương pháp sai phân [10], [11] (chuyển về bàitoán điều khiển trong mô hình rời rạc), ta có thể xét các phương pháp chính dưới đây.
1 - Phương pháp gián tiếp : Đối với các bài toán điều khiển theo chương trình,người ta đã xét (xem, chẳng hạn [2] tr.240) bài toán điều khiển lồi (1.2.11)-(1.2.13)(không có các ràng buộc (1.2.14)-(1.2.15)), trong đó hàm mục tiêu (1.2.11) có dạngBolza, hệ động lực (1.2.12) có dạng tuyến tính, tập hợp X(t) trong (1.2.13) không phụthuộc thời gian: X(t) ≡ X ∈ Rm (∀t ∈ [to, T ]) và là một tập hợp lồi, đóng Cụ thể làbài toán:
H t, z∗(t), x∗(t), p(t)= max
u∈XH t, z∗(t), u, p(t)
∀t ∈ [to, T ](a.e), (1.2.19)trong đó z∗
(t), to≤ t ≤ T } là quá trình trạng thái của hệ động lực trong (1.2.18) ứngvới quá trình điều khiển x∗(t), to ≤ t ≤ T }, p : [to, T ] → Rn là nghiệm của "phươngtrình liên hợp":
Trang 20với F0(t) là chuyển vị của ma trận F (t) và "hàm Hamilton" H(t, z, x, p) xác định dướidạng:
H(t, z, x, p) := −f2o(t, z, x) + p, F (t)z + G(t)x + f (t) (∀t ∈ [to, T ], z, p ∈ Rn
, x ∈ Rm).(1.2.21)
Để thiết lập hàm Hamilton trong nguyên lý cực đại (1.2.19), ta cần giải (đồng thời)PTVP (1.2.20) (với biên kiện cho tại t=T) và PTVP trong (1.2.18) (với biên kiệncho tại t = to), nghĩa là việc tìm nghiệm z(t), p(t) (to ≤ t ≤ T ) của hệ 2 phươngtrình nói trên đưa đến 1 bài toán giá trị biên 2 điểm Các kỹ thuật Newton - Raphson(Quasilinearization technique [2] tr.188-189) và bắn (Shooting method [2] tr.187-188)của giải tích số có thể thực hiện điều trên một cách gần đúng Nhằm hữu hạn hóa
số (không đếm được) các bài toán quy hoạch cần giải trong (1.2.19), ta có thể chọnX(to, T ; Rm) là lớp hàm bậc thang (hoặc tuyến tính từng khúc) trên [to, T ] với lưu ýrằng: Do hàm mục tiêu trong các bài toán quy hoạch của nguyên lý cực đại là hàmlõm (theo u) trên miền lồi X, nên ta có thể sử dụng công cụ của quy hoạch lồi (xem,chẳng hạn [28]) để giải bằng số các bài toán đặt ra
Sau trường hợp trọn vẹn và đẹp đẽ kể trên, nguyên lý cực đại cũng đã được phátbiểu đối với việc bổ sung vào bài toán (1.2.18) ràng buộc trạng thái dạng (1.2.14),nhưng lại kèm theo những khó khăn không nhỏ cho toán học tính toán Chẳng hạn,khi Z(t) := z ∈ Rn : Lj(z, t) ≤ 0 (j = 1 ÷ k, t ∈ [to, T ]) - gắn với sự bổ sung vào(1.2.18*) các giả thiết (xem [2] tr.246) về tính lồi của các hàm Lj(·, t) (∀t) và tính giớinội địa phương (theo z) của các ma trận đạo hàm cấp 2 đối với các hàm này cùng với sựtồn tại "điều khiển Sleyter" ex ∈ X(to, T ; Rm) (trạng tháiz ∈ Le 1(to, T ; Rn) tương ứngthỏa mãn các điều kiện Lj(ez(t), t) < 0 (∀j, t)), ta nhận thấy rằng nguyên lý cực đại ( [2]tr.255) đưa đến 2 bài toán quy hoạch gắn với sự tồn tại hàm π(t) có biến phân giới nội
và hệ hàmλj(t) kj=1 không giảm, liên tục phải sao cho λj(0) = 0 (j = 1 ÷ k) Trongtrường hợp đơn giản hơn ( [2] tr.255): điều kiện ràng buộc biến trạng thái (1.2.14) chỉđặt tại thời điểm cuối T với Z(T ) :=z ∈ Rn : Lj(z) ≤ 0 (j = 1 ÷ k) , tuy nguyên
lý cực đại ( [2] tr.256-257) chỉ đưa về 1 bài toán quy hoạch nhưng lại gắn với các điềukiện hoành: Lj z∗(T )≤ 0, λj.Lj z∗(T )= 0, λj ≥ 0 (j = 1 ÷ k) Trường hợp đặc biệt(xem [2] tr.258) của bài toán (1.2.18) là bài toán điều khiển toàn phương (với các hàm
Trang 21f1o(z), f2o(t, z, x), F (t), G(t), f (t) xác định bởi các ma trận đối xứng), tuy nguyên lý cựcđại có đưa ra biểu thức giải tích (hiển) của điều khiển tối ưu ( [2] tr.260) nhưng lạiliên quan đến việc giải phương trình vi phân ma trận Riccarti Đây cũng không phải
là những công việc đơn giản về mặt toán học tính toán
Khi vượt ra ngoài khuôn khổ của những bài toán điều khiển lồi nói trên, nguyên lýcực đại (trong dạng điều kiện cần của điều khiển "tối ưu") cũng đã được phát biểu([2] tr.231-232) cho bài toán (1.2.11)-(1.2.13) (không có các ràng buộc (1.2.4)-(1.2.15)),trong đó hàm mục tiêu có dạng Mayer (JG(x) = JM(x)) và X(to, T ; Rm) là lớp nhữnghàm liên tục từng khúc Tuy nhiên, do bài toán điều khiển (theo chương trình) nàykhông có tính lồi và do nguyên lý nói trên chỉ là điều kiện cần nên khái niệm "tối ưu"nói trên chỉ được hiểu theo nghĩa địa phương (không phải là tối ưu toàn cục) Ngoài
ra, do bài toán quy hoạch trong nguyên lý cực đại nói chung không có dạng của bàitoán quy hoạch lồi nên phải dùng đến phương pháp Monte Carlo ( [20] tr.271-309) đểgiải nó
2 - Phương pháp ẩn : Bây giờ ta xét bài toán điều khiển tổng hợp có dạng (1.2.14) sau:
Cơ sở của phương pháp ẩn dùng để giải bài toán trên là nguyên lý quy hoạch độngBellman (1957), với giả thiết rằng luôn tồn tại duy nhất nghiệm z ∈ L1([θ, T ]; Rn) củaphương trình vi phân:
˙z(t) = g t, z(t), xt, z(t) (θ < t ≤ T ) , z(θ) = y ∀θ ∈ [to, T ], y ∈ Z, x ∈ Y(θ, y),
(1.2.23)trong đó: Y(θ, y) := x ∈ Xo(θ, T ; Rm) : z(t) ∈ Z (θ ≤ t ≤ T ) là tập hợp các điềukhiển CNĐ của hệ động lực (1.2.23) với Xo(θ, T ; Rm) là thu hẹp trên [θ, T ] của lớp hàm
Xo(to, T ; Rm)
Trang 22Gọi V : [to, T ] × Z → R1 là hàm Bellman, xác định dưới dạng:
V (θ, y) := inf
x∈Y(θ,y)f1o z(T ; x) (∀(θ, y) ∈ [to, T ]×Z) ⇒ V (to, zo) = f1o z∗(T ), (1.2.24)trong đó : z(t; x) (θ ≤ t ≤ T ) là trạng thái của hệ động lực (1.2.23) ứng với điềukhiển x ∈ Y(θ, y), z∗(t) = z(t; x∗) (θ ≤ t ≤ T ) là trạng thái ứng với điều khiển tối ưu
x∗ ∈ X(to, T ; Rm) của bài toán (1.2.22) Khi đó ta có (xem [12] tr.117) phương trìnhquy hoạch động sau:
(1.2.25)Định lý 1.2.2 : ( [12] tr.115-122) Giả sử X ⊂ Rm là tập hợp compac và bài toán biênđối với phương trình đạo hàm riêng (1.2.25) có nghiệm phẳng là hàm Bellman (1.2.24).Gọi x∗ ∈ X(to, T ; Rm), trong đó x∗(t) = x∗ t; z∗(t) là lời giải của bài toán cực đại:
(1.2.26)với z∗(t) (to ≤ t ≤ T ) là trạng thái của hệ động lực (1.2.12) ứng với điều khiển
x∗(t) (to ≤ t ≤ T ) Khi đó x∗(t) = x∗ t; z∗(t) (to ≤ t ≤ T ) sẽ là điều khiển tổng hợptối ưu của bài toán (1.2.22) và:
V t, z∗(t)≡ V (to, zo)(∀t ∈ [to, T ]) ⇔ z∗(t) là quỹ đạo ứng với điều khiển tối ưu x∗
(1.2.26∗)Khi đã biết biểu thức giải tích của hàm Bellman V (θ, y) (Chẳng hạn, đối với trườnghợp f1o(·) là hàm toàn phương, g(t, ·, ·) là hàm tuyến tính (xem [12] tr.123-124)), ta
có thể dựa vào z∗(to) := zo để thiết lập bài toán (1.2.26) với t = to và thu được lờigiải u = x∗(to) Tiếp theo, bằng việc sai phân hóa hệ (1.2.12) ta thu được z∗(tk) từ
x∗(tk−1), z∗(tk−1) (đã biết trong bước trước ) Trên cơ sở này thiết lập và giải bài toáncực đại (1.2.26) (với t = tk), để thu được lời giải u = x∗(tk), với chú ý rằng: khi X ⊂ Rm
là miền lồi và g(t, z, x) là hàm lõm theo x, ta có thể sử dụng công cụ của quy hoạch lồi
để làm việc này Khi không có các giả thiết trên, phải dùng đến công cụ của phươngpháp Monte Carlo (Mục 1.3) Tuy nhiên, nói chung ta chưa biết biểu thức giải tích củahàm Bellman Bởi vậy khó khăn đầu tiên để sử dụng Định lý 1.2.2 là việc tìm nghiệm
V (θ, y) của phương trình đạo hàm riêng trong (1.2.25), tiếp theo là việc kiểm tra sự
Trang 23thỏa mãn của điều kiện biên trong đó Larson (1968) và Lamarechal (1972) đã dùngphương pháp lưới (xem [2] tr.184-185) để giải quyết vấn đề này nhưng cũng gập nhiềukhó khăn, khi z∗(tk) trong mô hình tính toán nói trên không rơi vào các điểm đã chiacủa lưới (phủ lên miền [to, T ] × Z); thậm chí có khó khăn không khắc phục được nhưtrường hợp n ≥ 4 Khi dựa vào (1.2.26*), Michailevich và Shor đã tránh được phầnnào khó khăn nói trên bằng cách sử dụng phương pháp chổi Kiev (xem [1] tr.97-104).Nhưng phương pháp đó cũng có nhược điểm bởi tính địa phương của những điều khiển
"tối ưu" mà nó thu được và cũng bị hạn chế về số chiều n của biến trạng thái (do sửdụng nhiều bộ nhớ cùng thời gian tính toán)
3 - Phương pháp trực tiếp : Khác với phương pháp gián tiếp (chuyển bài toán điềukhiển về các bài toán của nguyên lý cực đại để giải các bài toán trung gian này), trongcác phương pháp trực tiếp ta có thể dùng cách tiếp cận giải tích hàm hoặc giải tích(tham số hóa hàm điều khiển - TSHĐK) để giải trực tiếp bài toán điều khiển
Đối với cách tiếp cận giải tích hàm, người ta thường xét bài toán Mayer (JG(x) =
JM(x)) trong dạng tất định (1.2.11)-(1.2.12) (xem [2] tr 193-195) hoặc dạng ngẫunhiên (1.2.1)-(1.2.2) (xem [19], [29], [18]), trong đó JM(x) = fo
1 z[T ; x(·)] và JM(x) =Efo
1 z[T ; x(·)] là những phiếm hàm xác định lần lượt trên Xo(to, T ; Rm) và Xo to, T ;
L2m(Ω)
(thông qua nghiệm z(t) = z t; x(·)
của các PTVP (1.2.12) và (1.2.2) tạit=T) Trên cơ sở này, thiết lập bài toán cực tiểu phiếm hàm: minx∈Xo(to,T ;Rm )JM(x)
và minx∈Xo(to,T ;L2
m (Ω))JM(x) Các công cụ của phép tính biến phân ( [12] tr.10-31) hoặccủa giải tích số như: phương pháp đường dốc nhất ( [24] tr.589-599), gradient ( [2]tr.192-195) đã được sử dụng để giải các bài toán cực tiểu phiếm hàm đã thiết lập.Đương nhiên là cách tiếp cận này không có điều kiện xét tới những ràng buộc trạngthái và ràng buộc hỗn hợp trong bài toán điều khiển và cũng không xét tới bài toánđiều khiển tổng hợp
Để khắc phục những nhược điểm nói trên, trong phương pháp TSHĐK ta có thể xétdạng điều khiển tất định theo chương trình (1.2.11)-(1.2.15) hoặc dạng ngẫu nhiên mởrộng của bài toán (1.2.22)-(1.2.22*) là bài toán ĐKNN tổng hợp sau đây:
Trang 24trong đó:
Xo to, T ; L2m(Ω):= x : [to, T ] × Z → X ⊂ L2m
liên tục từng khúc trên [to, T ] ,
X to, T ; L2m(Ω):= x ∈ Xo to, T ; L2m(Ω): thỏa mãn (1.2.4)-(1.2.5) , (1.2.27*)với giả thiết rằng có thể TSHĐK x(·, z) = x(·, z; θ) ∈ X to, T ; L2m(Ω) bởi các tham số
θ ∈ RN, sao cho số không đếm được những điều kiện ràng buộc (1.2.4)-(1.2.5) trong(1.2.27*) được thay bằng một số hữu hạn các ràng buộc theo các tham số θ và ta cóthể chuyển bài toán trên về bài toán ĐKNN theo tham số :
J (θ) := Efo z(·; θ), x(·; θ) → inf , θ ∈ Θ ⊂ RN, (1.2.28)
˙z(t) = g t, z(t), x(t, z(t); θ) (to < t ≤ T ) , z(to) = zo (đã cho) ∈ L2n(Ω) (1.2.28∗)Khi đó (1.2.28) trở thành một bài toán quy hoạch ngẫu nhiên (QHNN) [10], với z(t; θ) =z(t) (to ≤ t ≤ T ) là nghiệm của PTVP ngẫu nhiên (1.2.28*) Phương pháp Monte Carlo(Mục 1.3) sẽ được sử dụng để giải bài toán QHNN nói trên
Thí dụ về phương pháp TSHĐK trên đây có thể tìm thấy trong Chương 2 của bảnluận văn này, trong đó lớp hàm điều khiển Xo(to, T ; Rn) và tập hợp các điều khiểnCNĐ X(to, T ; Rn) có dạng tất định với các tập hợp X(t), Z(t) ⊂ Rn, Y (t) ⊂ R2n
4 - Phương pháp Monte Carlo : (dùng để giải số cả bài toán tất định lẫn ngẫunhiên)
- Trong các bài toán điều khiển tất định, phương pháp Monte Carlo (PPMC) đượcxem là một loại phương pháp sai phân trực tiếp dùng để giải các bài toán quy hoạch
đo được (không có tính lồi) [17], [4], [3] hoặc ngẫu nhiên hóa các bài toán này [6] để
sử dụng các mô hình dò tìm ngẫu nhiên (Mục 1.3) Cũng có thể xem PPMC là mộtloại phương pháp sai phân gián tiếp, dùng để thiết lập các nguyên lý cực đại rời rạc
mô phỏng [5] và đưa về việc sử dụng các mô hình dò tìm ngẫu nhiên
- Trong lãnh vực ngẫu nhiên, PPMC (còn gọi là phương pháp mô phỏng - symulationmethod) thường làm việc với các bài toán ĐKNN rời rạc (theo chương trình hoặc tổnghợp), trong đó tham biến ω ∈ Ω là 1 vec tơ ngẫu nhiên (vtnn) có phân bố xác suất đãcho Khi không có ràng buộc hỗn hợp, người ta đã dùng các phương pháp sai phân tấtđịnh nói trên (xem [2] tr.195-197) với Fo(ˆx) ≈ No−1PN o
j=1fo(ˆz, ˆx ; ωj) (∀ˆx ∈NN
n=1Xn),trong đó {ωj}N o
j=1(No 1) là dãy những thể hiện độc lập của vtnn ω (tạo bằng PPCM
Trang 25[20]) Khi bài toán QHNN có tính lồi , phương pháp chiếu tựa gradient ngẫu nhiên( [10] tr.148-154) đã được dùng để giải bài toán Ở đây dãy mô phỏng {ωj}N o
j=1 nóitrên của vtnn ω được sử dụng để tạo ra dãy các tựa gradient ngẫu nhiên (xem [10]tr.134-138) Không chỉ đối với các bài toán ĐKNN rời rạc nói trên, PPCM còn được
sử dụng trong các phương pháp trực tiếp để giải bài toán ĐKNN (1.2.1)-(1.2.5) bằngphương pháp gradient [18], phương pháp xấp xỷ ngẫu nhiên [19], [29], phương phápbắn ngẫu nhiên Markov [8], phương pháp dò tìm ngẫu nhiên hỗn hợp [21], [23], [22] ,phương pháp chiếu gradient ngẫu nhiên [9]
ngẫu nhiên
Các phương pháp số giải bài toán điều khiển thường đưa đến các bài toán quy hoạch(tất định hoặc ngẫu nhiên) Khi bài toán điều khiển tất định không có tính lồi, bàitoán quy hoạch tương ứng có dạng rất tổng quát (gọi là bài toán quy hoạch đo đượcgắn với không gian độ đo (Θ, ΣΘ, µ)) Nếu bài toán này có lời giải (tối ưu) là θ∗ ∈ Θ,thì nó có dạng:
F (θ∗) = min
θ∈ΘF (θ) , θ = (θ1, , θm) ∈ Θ ∈ Bm⊂ Rm , µ(Θ) > 0, (1.3.1)trong đó Bm là σ-đại số các tập hợp Borel trong Rm, µ là độ đo Lebesgue trong Rm,hàm mục tiêu F : Θ → R1 là đo được trên Θ (tập hợp các lời giải CNĐ) Các phươngpháp dò tìm ngẫu nhiên (đơn giản, tổng quát, hỗn hợp) có thể được sử dụng để giảibài toán trên (xem [20] tr.281-309)
Khi bài toán điều khiển đưa đến bài toán quy hoạch ngẫu nhiên (QHNN):
F (θ) := Ef (θ; ξ) → inf, θ = (θ1, , θm) ∈ Θ ⊂ Rm , với f (θ; ξ) ∈ L1(Ω) (∀θ ∈ Θ),
(1.3.2)gắn với kgxs (Ω, Σ, P ) sinh bởi vtnn ξ có phân phối xác suất đã cho, PPMC đượcdùng để mô phỏng (tạo những thể hiện) của ξ (xem [20] tr.106-138), trong đó bài toánQHNN (1.3.2) nói chung là không có tính lồi và ta có thể xem nó là bài toán quy hoạch
đo được (1.3.1) gắn với không gian độ đo (Θ, ΣΘ, µ)
Trang 26Khi giải bài toán này, ta có thể sử dụng thuật toán dò tìm ngẫu nhiên hỗn hợp ( [20]tr.303-309) gắn với việc trộn lẫn 2 dãy dò tìm toàn cục {ˆτs}s≥0 và dò tìm địa phương{eτs}s≥0 để tìm cực tiểu hàm hồi quy F (θ) = Ef (θ; ξ)}, trong đó dãy dò tìm toàn cục{ˆτs}s≥0 là những thể hiện độc lập của vtnn ˆτ = ˆτ (ω) ∈ Θ ⊂ Rm và độc lập với vtnn
ξ = ξ(ω), sao cho:
P (ˆτ ∈ B) > 0 (∀B ∈ ΣΘ: µ(B) > 0) ; (1.3.3)Còn dãy dò tìm địa phương {eτs}s≥0 ⊂ Θ ⊂ Rm thu được bằng 1 phương pháp hỗ trợtất định hoặc heuristic nào đó (nhằm làm tăng tốc độ hội tụ của thuât toán) Từ 2dãy dò tìm nói trên, ta lập dãy trộn {τs}s≥0 gắn với dãy {δs}s≥0 những đlnn độc lập
f (θ(s)) := n1
s
Pn s j=1f (θ(s); ξ(j)),
(1.3.5)
θ(1) := τo và {ξ(j)}j≥1 là dãy thể hiện độc lập của vtnn ξ; {εs}s≥1 là dãy số dương,{ms}s≥1, {ns}s≥1 là các dãy số tự nhiên nào đó 4 Sự hội tụ của dãy dò tìm nói trêncho bởi kết quả sau:
Định lý 1.3.1 : ( [31] tr.125-126) Với các điều kiện (1.3.3), (1.3.4) giả sử rằng bàitoán QHNN (1.3.2) có ít nhất 1 lời giải và các điều kiện dưới đây 5 được thỏa mãn:
Trang 27Chương 2
Tham số hóa hàm điều khiển để
giải trực tiếp một loại bài toán điều khiển ngẫu nhiên tổng hợp
Trang 28E{z(t)} ≡ zo (0 ≤ t < T1) ; E{z(t)} ≡ E{z(T2)}} (T2 ≤ t ≤ T3), (2.1.6)
E{z(t)} = E{z(T2)} + (t − T3)G (T3 < t ≤ T ) (2.1.7)Trong đó các tích phân hiểu theo nghĩa Lebesgue; Ký hiệu (a1, , an) (b1, , bn)
có nghĩa là ai ≤ bi (∀i = 1 ÷ n); ˙z(t) là đạo hàm TBP của qtnn Hilbert {z(s) ∈ L2n, 0 ≤
(A) Vectơ trạng thái ban đầu (tất định) zo = (zo1, , zon)0 ∈ Rn đã cho và quá trìnhtrạng thái {z(t), 0 ≤ t ≤ T } của hệ (2.1.12) là liên tục TBP theo tham số t:
z ∈ C([0, T ]; L2n)
Trang 29(D) Ánh xạ ngẫu nhiên fo : C([0, T ]; L2
n) × Co([0, T ]; Rn) → L∞(Ω) và các hàm tấtđịnh: x, ¯x : [0, T ] → Rn, fi : [0, T ] × Rn× Rn
→ R1 (i = 1 ÷ m2) là đã cho,trong đó các ánh xạ fi (i = 0 ÷ m1) là đo được và giới nội địa phương; Các hàm:
t → x(t) ∈ Rn, t → ¯x(t) ∈ Rn, (t, γ, z, x) → fi(t, γ, z, x) ∈ R1(i = m1+1÷m2)
là đã cho và liên tục theo các đối tương ứng, trong đó các thành phần của hàm
x, (và ¯x) là tuyến tính liên tục từng khúc trên [0, T3]
(E) Bài toán (2.1.8)-(2.1.13) có nghiệm
Trong trường hợp đặc biệt, nếu γ = 0 thì bài toán (2.1.8)-(2.1.13) trở thành bài toán(2.1.1)-(2.1.7) Do đó, thay cho việc nghiên cứu bài toán ĐKNN tổng hợp (2.1.1)-(2.1.7)
ta có thể nghiên cứu bài toán (2.1.8)-(2.1.13) tổng quát hơn Liên quan đến điều này
ta chú ý (xem [23]) rằng: các điều khiển của bài toán (2.1.1)–(2.1.7) là điều khiển tổnghợp (synthetic control) trên [0, T ] \ [T1, T2] đối với hệ động lực ngẫu nhiên (2.1.5) vàvới các ràng buộc phi tuyến hỗn hợp giữa biến trạng thái và điều khiển (2.1.2)-(2.1.3).Còn bài toán (2.1.8)-(2.1.13) chỉ có tính tổng hợp trên [T3, T ] ⊂ [0, T ] \ [T1, T2] (xem
Bổ đề 2.3.1) Bởi vậy việc mở rộng phạm vi nghiên cứu nói trên không chỉ làm giảm
đi sự phức tạp của tính tổng hợp mà còn mở rộng được miền chấp nhận (sát thực tiễnvận hành của HTTĐ) của bài toán (2.1.1)-(2.1.7) ban đầu Để có thể sử dụng một loạiphương pháp trực tiếp giải bằng số bài toán điều khiển (2.1.8)-(2.1.13) trong chươngnày, trước hết ở Mục 2.2 chúng tôi sẽ biểu diễn trên [0, T3] các điều khiển CNĐ của bàitoán bằng một loại điều khiển theo chương trình x ∈ C [0, T ]; Rn Điều khiển tổnghợp của nó được thiết lập trong Mục 2.3 Mục 2.4 giành cho việc tham số hóa tuyến
Trang 30tính điều khiển theo chương trình nói trên, dưới dạng hàm x(t) = Φ(X, t) liên tục theo
t, affine theo ma trận X ∈ Rn×m "các tham số điều khiển" Tiếp theo, thiết lập bàitoán ĐKNN theo các tham số D ⊂ D ⊂ Rn×m, với D xác định bởi 1 số không đếmđược các điều kiện ràng buộc Cuối cùng, chúng tôi tiếp cận bài toán này bằng cáchthay thế miền D bởi Dε ⊂ Rn×m (xác định bởi 1 số hữu hạn các điều kiện ràng buộc).Trên cơ sở này một bài toán QHNN khá tổng quát sẽ được thiết lập với lời giải (tốiưu) X∗ ∈ Dε tương ứng với điều khiển tối ưu x∗(t) = Φ(X∗, t) Phương pháp dò tìmngẫu nhiên hỗn hợp (Mục 1.3) sẽ được sử dụng trong Mục 2.5 để giải bài toán quyhoạch đo được nói trên
Với mục đích chuyển bài toán (2.1.8)-(2.1.13)) về dạng điều khiển tổng hợp, trướchết ta chỉ ra tính điều khiển được (theo điều khiển tuyến tính liên tục từng khúc) của
hệ động lực ngẫu nhiên (2.1.12):
.
z(t) = A(t)z(t) + B(t)x(t) + C(t)η(t) + d(t) (0 < t 6= T3 ≤ T ); z(0) = zo (2.2.1)thông qua kết quả sau đây:
Bổ đề 2.2.1 Với các điều kiện (A), (B), (C), nếu điều khiển x có dạng (2.1.14) thì
hệ phương trình vi phân ngẫu nhiên (2.2.1) luôn tồn tại duy nhất nghiệm liên tục TBPtrên [0, T ] và khả vi liên tục TBP trên [0, T ]T3:
z(.) = z(.; x) ∈ C1 [0, T ]T3; L2n∩ C([0, T ]; L2
n) (∀x ∈ Co([0, T ], Rn)), (2.2.2)trong đó : C1(∆; L2
n) := nξ : ∆ → L2 | ξ ∈ C(∆; L. 2
n)o (∆ ⊂ R1) Khi đó hệ độnglực (2.2.1) là điều khiển được bởi lớp hàm:
Xo(0, T ; Rn) := nx ∈ Co([0, T ], Rn) : x(t) x(t) ¯x(t) (∀t ∈ [0, T ])o (2.2.2*)Chứng minh: Từ giả thiết (B) ta có:
A, B, C ∈ C([0, T ], Rn×n); d ∈ C([0, T ]; Rn) ⊂ C([0, T ]; L2n) (1)Khi đó, do η ∈ C([0, T ], L2n) (giả thiết (C)) và do x ∈ C([0, T ]T 3; Rn) ⊂ C([0, T ]T 3, L2n)(xem (2.1.14)), nên:
Trang 31g(.; x(.)) := B(.)x(.) + C(.)η(.) + d(.) ∈ C([0, T ]T3; L2n) (2)Bây giờ ta ký hiệu:
g(j) ∈ C(∆j; L2n) (j = 1 ÷ 2) (7)Mặt khác, từ (1) ta nhận thấy rằng ánh xạ A : [0, T ] → Rn×n là phụ thuộc liên tục vàotham biến t ∈ [0, T ] Do đó thỏa mãn điều kiện (1.1.25) với [to, T ] := ∆j (j = 1 ÷ 2)
Từ giả thiết (A) ta còn suy ra: z0 ∈ Rn ⊂ L2
n Trên những cơ sở này và (7) ta nhậnthấy rằng phương trình thứ nhất trong hệ (6) có dạng:
˙z(1)(t) = A(t)z(1)(t) + g(1)(t; x) (0 < t ≤ T3); z(1)(0) = z0 ∈ Rn ⊂ L2
n (8)của phương trình vi phân tuyến tính (1.1.23) trong B-không gian X = L2n Bởi vậy từ
Hệ quả 1.1.1 ta thu được sự tồn tại duy nhất nghiệm:
z(1) ∈ C1([0, T3]; L2n) (9)
Trang 32Ta biết rằng dạng tương đương của (8) là phương trình thứ nhất trong (6*) Khi xétdạng thu hẹp trên [0, T3) của phương trình (2.2.1), ta có:
.
z(t) = A(t)z(t) + B(t)x(t) + C(t)η(t) + d(t) (0 < t < T3); z(1)(0) = zo (10)Bằng cách so sánh (10) với phương trình thứ nhất trong (6*) và dựa vào sự tồn tạiduy nhất nghiệm (9) của phương trình này ta thu được sự tồn tại duy nhất nghiệm:z(t) = z(1)(t) (0 ≤ t < T3); z ∈ C1([0, T3); L2n) = C1([0, T3); L2n) ∩ C([0, T3); L2n) (11)của (10) Khi đó, từ tính liên tục trái của z(1) tại t = T3 (xem (9)) và tính liên tục tại
t = T3 của nghiệm phương trình (2.2.1) (giả thiết (A)) ta suy ra
z(1)(T3) = lim
x→T 3 −0z(1)(t) = lim
t→T 3 −0z(t) = z(T3) (12)Trên cơ sở này ta thu được sự tồn tại duy nhất nghiệm của (2.2.1) trên [0, T3] và từ(11) ta có
z ∈ C1([0, T3); L2n) ∩ C([0, T3]; L2n) (13)Dựa vào (12) ta lại có thể biểu diễn phương trình thứ j = 2 trong hệ (6*) dưới dạng
Bổ đề 2.2.2 Với các điều kiện (A) − (C) nếu đặt:
E{z(t)} := Z(t) (0 ≤ t ≤ T ) (2.2.3)trong đó z(t) là nghiệm duy nhất của hệ ngẫu nhiên (2.2.1) ứng với điều khiển x ∈C([0, T ]T3; Rn) Khi đó ta có hệ phương trình vi phân (tất định):
.
Z(t) = A(t)Z(t) + B(t)x(t) + C(t)E{η(t)} + d(t)
(0 < t 6= T3 ≤ t); Z(0) = z0,
(2.2.4)
Trang 33trong đó hệ (2.2.4) có nghiệm duy nhất ứng với mỗi điều khiển x ∈ C0([0, T ]; Rn) saocho:
Z(.) = Z(.; x) ∈ C1 [0, T ]T 3; L2∩ C([0, T ]; L2)
(∀x ∈ C0([0, T ]; Rn))
(2.2.5)
Chứng minh Để chỉ ra giá trị trung bình (2.2.3) của nghiệm các hệ ngẫu nhiên (2.2.1)
là nghiệm của hệ tất định (2.2.4) tương ứng, trước hết ta xét hàm vectơ:
t → E{η(t)} := (E{η1(t)}, , E{ηn(t)})0 ∈ Rn (∀t ∈ [0, T ])
và dựa vào bất đẳng thức Holder để suy ra:
Khi đó từ tính liên tục TBP của ánh xạ η : [0, T ] → L2
n(Ω) (giả thiết (C)) ta thu được:
0 ≤ lim
t 0 →tkE{η(t) − η(t0)}k2Rn ≤ lim
t 0 →tkη(t) − η(t0)k2L2
n = 0 (∀t ∈ [0, T ])Nghĩa là hàm t → E{η(t)} ∈ Rn liên tục trên [0, T ]:
E{η(.)} ∈ C([0, T ]; Rn) (1)Kết hợp điều này với tính liên tục trên [0, T ] của các hàm B : [0, T ] → Rn×n, C :[0, T ] → Rn×n, d : [0, T ] → Rn ta suy ra:
g(.) = g(.; x) := B(.)x(.) + C(.)E{η(.)} + d(.) ∈ C0([0, T ]; Rn)
(∀x ∈ C0([0, T ]; Rn))
Tương tự như khi chứng minh Bổ đề 2.2.1 (với sự thay thế L2
n bởi Rn) ta dựa vào Hệquả 1.1.2 để dễ dàng suy ra rằng hệ tất định (2.2.4) sẽ tồn tại duy nhất nghiệm thỏamãn (2.2.5) Nhằm chỉ ra giá trị trung bình (2.2.3) chính là nghiệm duy nhất nói trên.Trước hết từ (2.2.2) ta nhận thấy rằng z(t) ∈ L2n(Ω) (∀t ∈ [0, T ]) Khi đó, do
Trang 34(xem (1.1.8)) nên tồn tại hữu hạn vectơ kỳ vọng E{z(t)} (∀t ∈ [0, T ]) Ngoài ra từ (1)
ta trực tiếp suy ra sự tồn tại hữu hạn của vectơ kỳ vọng E{η(t)}(∀t ∈ [0, T ]) Trênnhững cơ sở này ta có thể lấy kỳ vọng hai vế của (2.2.1) để thu được:
Chú ý 2.2.1 Ta có thể dựa vào các Bổ đề 2.2.1–2.2.2 để phát biểu bài toán (2.1.8)–(2.1.13) dưới dạng bài toán điều khiển tổng quát (1.2.1)–(1.2.5) với:
X(t) :=x(t) ∈ Rn thoả mãn (2.2.11) ,
Z(t) :=z(t) ∈ L2
n : Z(t) := E{z(t)} ∈ ¯Z(t) ,
¯Z(t) :=Z(t) ∈ Rn thoả mãn (2.2.12), (2.2.13) ,
(2.2.8)
Z T 0
fi(t, Z(t), x(t))dt ≤ 0 (i = 1 ÷ m1), (2.2.9)
Trang 35fi(t, γ, Z(t), x(t)) ≤ 0 (∀t ∈ [T1, T2], i = m1+ 1 ÷ m2), (2.2.10)x(t) x(t) x(t) (∀t ∈ [0, T ]), (2.2.11)
− eγ Z(t) − Z(Ti−1) eγ (∀t ∈ [Ti−1, Ti], i = 1, 3), (2.2.12)Z(t) = Z(T3) + t − T3
T − T3(z0− Z(T3)) (T3 ≤ t ≤ T ) (2.2.13)
Bây giờ ta xét dạng thu hẹp trên [0, T3]:
(0 < t 6= T3 ≤ T ); Z(0) = z0
(2.3.2)
trong đó (xem (2.1.14)):
x ∈ C0([0, T ]; Rn) (2.3.3)Khi kí hiệu
b
Y (t) := (t − T3)G + Y (T3) (∀t ∈ (T3, T ]) (2.3.4)b
Bổ đề 2.3.1 Nếu các điều kiện của Bổ đề 2.2.2 được thỏa mãn thì hệ tất định (2.3.1)
là điều khiển được bởi điều khiển theo chương trình x ∈ C([0, T3]; Rn), trong đó:
Y (.) = Y (.; x) ∈ C([0, T3]; Rn) (∀x ∈ C([0, T3]; Rn) (2.3.7)
Trang 36Đồng thời, để cho điều kiện (2.2.13) được thỏa mãn thì cần và đủ là: trên [T3, T ] điềukhiển x ∈ C0([0, T ] : Rn) của hệ (2.3.2) phải là điều khiển tổng hợp có dạng:
x(t) = bX(t), (∀t ∈ [T3, T ]) (2.3.8)trong đó sự phụ thuộc vào trạng thái Z(T3) = Y (T3) của điều khiển x(t) = bX(t) (T3 <
t ≤ T ) được thể hiện bởi các công thức (2.3.5), (2.3.6); còn các biến trạng thái của các
hệ động lực (2.3.2) và (2.3.1) liên hệ với nhau bởi hệ thức
Y (t), (t ∈ (T3, T ])
(2.3.9)
Chứng minh Từ Bổ đề 2.2.2 ta nhận thấy rằng hệ (2.3.2) có nghiệm duy nhất với mọiđiều khiển x ∈ C0([0, T ]; Rn) Vì (2.3.1) là dạng thu hẹp trên [0, T3] của hệ (2.3.2) nên(2.3.1) cũng có nghiệm duy nhất với mọi x ∈ C([0, T3]; Rn) Nghĩa là (2.3.1) điều khiểnđược (Định nghĩa 1.2.1) bởi mọi điểu khiển theo chương trình x ∈ C([0, T3]; Rn) và tacó
Y (t) = Z(t) (∀t ∈ [0, T3], x ∈ C([0, T3]; Rn)) (1)Bởi vậy, từ Hệ quả 1.1.2 ta thu được (2.3.7) Ngoài ra, từ (2.3.6) ta còn có
G = G(Z(T3)) = z0− Z(T3)
T − T3 .Trên cơ sở này ta có
Z(t) = Z(T3) + G(t − T3) (T3 ≤ t ≤ T ) ⇔ (2.2.13) (2)Với điều kiện (2) ta có ˙Z(t) ≡ G, ∀t ∈ [T3, T ] Do đó khi xét t ∈ (T3, T ], phương trình(2.3.2) trở thành
Trang 37Ngược lại, nếu có điều kiện (3) thì phương trình vi phân (2.3.2) trên khoảng (T3, T ] cóthể viết dưới dạng:
˙
Z(t) = A(t)Z(t) + G − A(t)[G(t − T3) + Z(T3)] (T3 < t ≤ T )
Với điều kiện đầu Z(T3) cho tại t = T3, bài toán Cauchy tương ứng sẽ tồn tại duy nhấtnghiệm, đó là Z(t) = G(t − T3) + Z(T3) (T3 ≤ t ≤ T ) Nghĩa là ta thu được điều kiện(2.2.13) (xem (2)) và do đó đã chỉ ra sự tương đương của điều kiện này với (3)
Cuối cùng, từ tính liên tục của các hàm B−1(t), A(t), C(t), d(t) (giả thiết (B)) ta cóthể dựa trên (2.3.8) và (2.3.5) để suy ra rằng x = bX ∈ C([T3.T ]; Rn) Kết hợp điềukiện này với tính liên tục của điều khiển theo chương trình x(t) (∀t ∈ [0, T3]), ta thuđược tính liên tục từng khúc của điều khiển tổng hợp x(t) (0 ≤ t ≤ T )
Chú ý 2.3.1 Nếu gọi x ∈ C([0, T3]; Rn), Y (.) = Y (.; x) ∈ C1([0, T3]; Rn) là điều khiển(theo chương trình) và trạng thái tương ứng của hệ động lực tất định dạng (2.3.1):
... việc sử dụng mơ hình dị tìm ngẫu nhiên- Trong lãnh vực ngẫu nhiên, PPMC (còn gọi phương pháp mô - symulationmethod) thường làm việc với toán ĐKNN rời rạc (theo chương trình tổnghợp), tham... tốn ĐKNN tổng hợp (2.1.1)-(2.1.7)
ta nghiên cứu toán (2.1.8)-(2.1.13) tổng quát Liên quan đến điều
ta ý (xem [23]) rằng: điều khiển toán (2.1.1)–(2.1.7) điều khiển tổnghợp (synthetic... pháp dị tìm ngẫu nhiên hỗn hợp [21], [23], [22] ,phương pháp chiếu gradient ngẫu nhiên [9]
ngẫu nhiên< /h3>
Các phương pháp số giải toán điều khiển thường đưa đến toán quy hoạch(tất