Để xác định quá trình điều khiển được, ta cần xác định phân phối xác suất của một quá trình ngẫu nhiên với giá trị trong
Quá trình ngẫu nhiên điề u khi ển đượ c v ớ i tham s ố r ờ i r ạ c
Ki ế n th ứ c chu ẩ n b ị
Xét không gian xác suất (𝛺, ℱ, ℙ). Định nghĩa 1.1
• Biến ngẫu nhiên (đại lượng ngẫu nhiên) là ánh xạđo được
Xét với tham số 𝑡 ∈ [0, 𝑇], trong đó 𝑇 là hữu hạn hoặc vô hạn, quá trình 𝑋 = 𝑋(𝑡, 𝜔) được gọi là quá trình ngẫu nhiên nếu ∀𝑡 ∈ [0, 𝑇], 𝑋(𝑡) là biến ngẫu nhiên Định nghĩa 1.2
Xét quá trình ngẫu nhiên 𝑋(𝑡), 𝑡 ≥ 0
• Ta nói rằng 𝑋(𝑡) là quá trình Markov nếu
∀ 𝑡 < 𝑡 < ⋯ < 𝑡 < 𝑡 , và 𝑖 , … , 𝑖 , 𝑖, 𝑗 ∈ 𝐸, ta có hệ thức:
= 𝑃{𝑋(𝑡 ) = 𝑗|𝑋(𝑡 ) = 𝑖} Điều này có nghĩa là quy luật xác suất trong tương lai chỉ phụ thuộc vào hiện tại và độc lập với quá khứ Tính chất này được gọi là tính Markov
𝑝(𝑠, 𝑖, 𝑡, 𝑗) = 𝑃{𝑋(𝑡) = 𝑗|𝑋(𝑠) = 𝑖}, (𝑠 < 𝑡) là xác suất có điều kiện để quá trình tại thời điểm 𝑠 ở trạng thái 𝑖 chuyển sang thời điểm 𝑡 ở trạng thái 𝑗, được gọi là xác suất chuyển của hệ
Nếu xác suất chuyển chỉ phụ thuộc vào (𝑡 − 𝑠), tức là
𝑝(𝑠, 𝑖, 𝑡, 𝑗) = 𝑝(𝑠 + ℎ, 𝑖, 𝑡 + ℎ, 𝑗), ∀ℎ ≥ 0 thì ta nói 𝑋(𝑡) là quá trình thuần nhất theo thời gian
Ký hiệu 𝐸 là tập giá trị của 𝑋(𝑡), khi đó 𝐸 được gọi là không gian trạng thái của 𝑋(𝑡).
• Nếu quá trình Markov 𝑋(𝑡) với không gian trạng thái 𝐸 là không quá đếm được thì 𝑋(𝑡) được gọi là xích Markov
• Nếu xích Markov có 𝑡 ∈ 𝑁 ∗ thì 𝑋(𝑡) được gọi là xích Markov với thời gian rời rạc
• Nếu xích Markov có 𝑡 ∈ [0, +∞) thì 𝑋(𝑡) được gọi là xích Markov với thời gian liên tục Định nghĩa 1.3 Ma trận xác suất chuyển
Giả sử (𝑋 ), 𝑛 = 0, 1, 2, … là xích Markov rời rạc và thuần nhất Khi đó, tính Markov và tính thuần nhất của (𝑋 )có nghĩa là:
ℙ = (𝑝 )được gọi là ma trận xác suất chuyển sau 1bước, trong đó 𝑝 là xác suất có điều kiện để hệ tại thời điểm 𝑛 ở trạng thái 𝑖 chuyển sang trạng thái 𝑗 ở thời điểm 𝑛 + 1
Xác suất chuyển sau 𝑛 bước được định nghĩa theo công thức:
𝑝 ( ) = 𝑃(𝑋 = 𝑗|𝑋 = 𝑖) = 𝑃(𝑋 = 𝑗|𝑋 = 𝑖). Đây là xác suất để hệ tại thời điểm xuất phát ở trạng thái 𝑖, sau 𝑛 bước chuyển sang trạng thái 𝑗 Rõ ràng 𝑝 ( ) = 𝑝 Ta quy ước
𝑝 ( ) = 1 𝑛ế𝑢 𝑖 = 𝑗0 𝑛ế𝑢 𝑖 ≠ 𝑗 và đặt ℙ ( ) = (𝑝 ( ) ) Đây là ma trận xác suất chuyển sau 𝑛 bước
.Phương trình này được gọi là phương trình Chapman-Kolmogorov
Phân phối hữu hạn chiều của quá trình Markov được tính theo công thức:
Biểu thức ở vếtrái được gọi là phân phối hữu hạn chiều Định nghĩa 1.4
Phân phối của hệ tại thời điểm 𝑛 được cho bởi công thức sau:
𝑝 ( ) = 𝑃(𝑋 = 𝑗); 𝑛 = 0, 1, 2, … ; 𝑗 ∈ 𝐸 Đặt Π ( ) = (𝑝 ( ) , 𝑗 ∈ 𝐸) và gọi Π = 𝛱 ( ) là phân phối ban đầu của hệ
Dễ thấy Π ( ) = Πℙ ( ) Π ( ) = Π ( ) ℙ Π ( ) = Π ( ) ℙ ( ) Π ( ) = Π ( ) ℙ ( ) Phân phối ban đầu được gọi là dừng nếu Π ( ) không phụ thuộc vào 𝑛, tức là Π = 𝛱 ( ) , hay Π = 𝛱ℙ.
Các định nghĩa
Cho hai tập hợp 𝑋 và 𝑈 và trong chúng có hai 𝜎 − đại số tương ứng của các tập con đo được 𝒰 𝑣à ℬ, tức là cho hai không gian đo được (𝑋, 𝒰) và (𝑈, ℬ) Không gian thứ nhất được gọi là không gian pha của quá trình cơ bản và không gian thứ hai được gọi là không gian pha của điều khiển Cho N là tập các số nguyên không âm Trong chương này mọi quá trình được định nghĩa trên N Để xác định quá trình điều khiển được, ta cần xác định phân phối xác suất của một quá trình ngẫu nhiên với giá trị trong 𝑋 với điều kiện là khi biết một dãy điều khiển tại mỗi thời điểm đã biết và đồng thời xác định quy tắc chọn các điều khiển này Ta sẽ mô tả thành phần của một quá trình điểu khiển được một cách cụ thểhơn.
Dễ thấy phân phối của biến ngẫu nhiên 𝑥 - đại diện cho giá trị của quá trình cơ bản tại thời điểm 𝑛 - hoàn toàn được xác định với điều kiện các giá trị của quá trình cơ bản 𝑥 , … , 𝑥 tại các thời điểm trước đó và giá trị của điều khiển 𝑢 , … , 𝑢 tại những thời điểm đó Giả sử
𝑝 (𝑑𝑥 / 𝑥 , … , 𝑥 ; 𝑢 , … , 𝑢 ) (1.1) xác định phân phối có điều kiện của biến 𝑥 với điều kiện 𝑥 , … , 𝑥 ;
𝑢 , … , 𝑢 Dễ thấy rằng tập hợp các hàm {𝑝 (./ ), 𝑛 = 0, 1, … }xác định đối tượng điều khiển Điều kiện cần và đủđể hàm (1.1) đóng vai trò là phân phối của dãy biến {𝑥 , 𝑛 = 0, 1, … } trong (𝑋, 𝒰) là hai điều kiện sau được thỏa mãn:
1 𝑝 (./ ) là một độđo trên 𝒰 đối với đối sốđầu tiên
2 𝑝 (𝐴 /𝑥 , … , 𝑥 ; ) là đo được theo 𝑥 , … , 𝑥 đối với mọi 𝐴 ∈ 𝒰 và 𝑢 , … , 𝑢 ∈ 𝑈 Những điều kiện này được giả thiết thỏa mãn đối với mọi đối tượng điều khiển đang nghiên cứu
Nếu cho đối tượng điều khiển {𝑝 (./ )}, ta có thể dùng nó để xây dựng một họ các phân phối trong 𝑋 phụ thuộc vào một điểm của không gian 𝑈 như một tham số Ta ký hiệu điểm trong 𝑋 𝑣à 𝑈 theo 𝒙 và 𝒖tương ứng như sau:
Cho 𝒰 𝑣à ℬ là các 𝜎 − đại số trong 𝑋 𝑣à 𝑈 được cảm sinh bởi họ mặt trụ, và 𝒰 , ℬ là các 𝜎 − đại số của mặt trụ trong 𝑋 , 𝑈 với cơ sở {0, 1, … 𝑛} Ta định nghĩa họcác độ đo 𝜇(./𝑢) on 𝒰 bởi hệ thức sau:
(1.2) trong đó 𝐶 là một mặt trụ trong 𝒰 có dạng:
Hệ thức (1.2) xác định duy nhất một độ đo trên 𝒰 Dễ kiểm tra rằng họ các độ đo 𝜇(./𝒖) có tính chất sau: Nếu 𝑉 ∈ 𝒰 thì 𝜇(𝑉/𝒖) chỉ phụ thuộc vào
𝑢 , … , 𝑢 Tính chất này có thể được cô đọng hơn nếu ta giả thiết thay thế điều kiện 2 bằng điều kiện sau:
3 𝑝 (𝐴 /𝑥 , … , 𝑥 ; 𝑢 , … , 𝑢 ) là đo được theo tập các biến đối với 𝜎 − đạ𝑖 𝑠ố 𝒰 × ℬ Dễ dàng để áp dụng điều kiện này lên đối tượng điều khiển được để có thể sử dụng các điều khiển ngẫu nhiên
Nếu điều kiện 3 được thỏa mãn thì 𝜇(𝑉/𝒖) là một ℬ − đo được với
𝑉 ∈ 𝒰 và là một ℬ − đo được với 𝑉 ∈ 𝒰 Giả sử một họ các độ đo 𝜇(𝑉/𝒖)được xác định trên 𝒰 thỏa mãn điều kiện sau:
4 𝜇(𝑉/𝒖) là một hàm đo được với 𝑉 ∈ 𝒰 Xét tập 𝐴 ( ) {𝑥: 𝑥 ∈ 𝐴} Giả sử 𝜇(𝐴 ( ) /𝒰 /𝒖) là xác suất điều kiện của 𝐴 ( ) đối với 𝜎 − đạ𝑖 𝑠ố 𝒰 được tính trong không gian xác suất {𝑋 , 𝒰 , 𝜇(./𝒖)} Từ
𝜇(𝐴 ( ) /𝒰 /𝒖) = 𝑝 (𝐴/𝑥 , … , 𝑥 ; 𝑢 , … , 𝑢 ) (1.3) với hầu hết 𝑥 trong độđo 𝜇(./𝒖)
Hàm xuất hiện trên vế phải đó là một hàm 𝒰 − đo được với 𝐴 và
𝑢 , … , 𝑢 cố định Tuy nhiên, dưới những điều kiện hoàn toàn tổng quát, hàm số trên có thể được xác định khi điều kiện 1 được thỏa mãn Từ một kết quả đã biết (xem [2]), điều kiện này trong trường hợp đặc biệt có thể được giả định thỏa mãn nếu 𝑋 là một không gian metric đầy đủtách được và 𝒰 là một
𝜎 − đại số của các tập Borel Trong trường hợp này ta có thể chọn một biến thể của xác suất điều kiện trong vế phải của (1.3) sao cho điều kiện 3 được thỏa mãn Trước tiên, ta sẽ thiết lập một bổđề phụ sau
Bồđề 1.1 Cho 𝑋 là một không gian metric đầy đủ tách được Tồn tại một ánh xạ Borel là đơn ánh 𝑓: 𝑋 → [0,1] sao cho 𝑓(𝐴) là một tập Borel trên [0,1] với mọi 𝐴 ∈ 𝒰.
Nhận xét 1.1 Ta có thể cho tương ứng mọi đối tượng điều khiển nhận giá trị trong một không gian pha metric đầy đủ tách được 𝑋 với đối tượng điều khiển được trong không gian pha [0,1] bằng cách đặt 𝐴 ∈ 𝒰, 𝑥 , … 𝑥
Nếu có ít nhất một điểm 𝑡 , 𝑡 , … , 𝑡 không nằm trong 𝑓(𝑋), ta đặt
Giả sử 𝜇̂(𝐴/𝒖) là một đối tượng điều khiển được xây dựng bởi phương pháp của 𝑝 trong [0,1] và 𝑓 là ánh xạ từ 𝑋 vào [0,1]; 𝑓 (𝑥) (𝑓(𝑥 ), 𝑓(𝑥 ), … ).Khi đó 𝐴 ∈ 𝒰
Do đó, nếu cho 𝜇̂(./𝒖), tồn tại hàm 𝑝 thỏa mãn điều kiện 1 và 3 sao cho 𝜇̂ và 𝑝 được liên hệ bởi công thức (1.2), khi đó các hàm 𝑝 (./ , ) cũng tồn tại bởi 𝜇(./ ) (được biểu diễn trong định nghĩa của 𝑝 thông qua (1.4))
Bởi vậy, hệ thức (1.2) được thỏa mãn và 𝑝 thỏa mãn điều kiện 1 và 3 Định lý 1.1 Giả sử (𝑋, 𝒰) là một không gian metric đầy đủ tách được với một 𝜎 − đại số Borel Nếu họ các độ đo 𝜇(𝑉/𝒖) thỏa mãn điều kiện 4 thì tồn tại một tập các hàm số{𝑝 (𝑑𝑥 / 𝑥 , … , 𝑥 ; 𝑢 , … , 𝑢 ), 𝑛 = 0, 1, … } thỏa mãn điều kiện 1 và 3 sao cho công thức (1.2) là đúng.
Dựa vào bổ đề 1.1 và nhận xét 1.1 đủ để chứng minh định lý trong trường hợp 𝑋 là [0,1] Giả sử𝒰 ( ) xác định 𝜎 − đại số sinh bởi các đoạn
2 , 1 và 𝒰 ( ) xác định 𝜎 −đại số trong 𝒰 [ , ] sinh bởi các tập {𝑥: 𝑥 ∈
𝒰 ( ) và 𝒰 trùng với 𝜎 −bao đóng của ⋃ 𝒰 ( ) Vì vậy cho 𝐴 ∈ 𝒰 [ , ] ,
𝜇(𝐴/𝒰 , 𝒖) = lim → 𝜇(𝐴/𝒰 ( ) , 𝒖) với hầu hết 𝑥 trong độ đo 𝜇(𝑑𝑥/𝒖), (𝜇(𝐴/𝔏, 𝒖) biểu diễn phân phối có điều kiện giữa 𝜎 − đại số ℒ đối với độ đo 𝜇(./𝒖) Vì thế ta có hàm phân phối có điều kiện
𝐹 (𝑧/ 𝑥 , … , 𝑥 , 𝒖) = 𝜇({𝑥: 𝑥 < 𝑧}/𝒰 , 𝒖) với 𝑥 , … , 𝑥 là hữu hạn các hàm trong độđo 𝜇(./𝒖)
𝜇(𝑉 /𝒖) 𝜒𝑉 (𝑥) trong đó, 𝑉 , … , 𝑉 là các tập hợp trong 𝑋 sinh ra 𝒰 ( ) Đặt
= lim → 𝐹 ( ) (𝑧/ 𝑥 , … , 𝑥 , 𝑢 , … , 𝑢 ) (1.5) khi giới hạn tồn tại Với mọi 𝑧 ∈ [0,1] hàm số𝐹(𝑧/ )được xác định trên một tập đo được 𝑆 (𝑧) ⊂ 𝑋 × 𝑈 và đo được trong 𝒰 [ , ] × 𝔏 đối với
2 , và 𝑃(𝐴) là một độđo bất kỳ trên 𝒰 [ , ] Đặt
Dễ thấy với mọi hàm số liên tục 𝜁(𝑧) trên [0,1]
= 𝜁(𝑧)𝜇(𝑑𝑧/𝒰 , 𝑢) (1.7) với mọi (𝑥 , … , 𝑥 , 𝑢 , … , 𝑢 ) trong độ đo 𝜇(./𝒖) Vì vậy (1.7) đúng cho mọi hàm bị chặn đo được Công thức (1.2) được suy ra từ (1.7) và tính chất của kỳ vọng điều kiện
Do đó, nếu một không gian pha là một không gian metric đầy đủ tách được với 𝜎 −đại số các tập Borel, ta có 2 định nghĩa tương đương về đối tượng điều khiển Đầu tiên, nó là một họ các hàm số (1.1) thỏa mãn các điều kiện 1-3 Thứ hai, nó là một họ các độ đo 𝜇(./𝒖) trong (𝑋 , ℬ ) phụ thuộc vào 𝒖 ∈ ℬ như một tham số và thỏa mãn điều kiện sau: Nếu 𝑉 ∈ 𝒰 thì 𝜇(𝑉/𝒖) là một hàm ℬ − đo được của 𝒖 Điều kiện sau là thuận tiện hơn, ngắn hơn và có thể bao quát cả trường hợp quá trình liên tục Nhận xét này sẽ được sử dụng dưới đây
Giờ ta tiến hành định nghĩa dãy các điều khiển hay một chiến lược Giả sử rằng khi chọn một điều khiển tại thời điểm 𝑛, ta biết giá trị của quá trình cơ bản cho tới thời điểm đó và giá trị của điều khiển tại thời điểm trước đó Giá trị thực của điều khiển 𝑢 tại thời điểm 𝑛 được giảđịnh là ngẫu nhiên
𝑞 (𝑑𝑢 /𝑥 , … , 𝑥 ; 𝑢 , … , 𝑢 ) (1.8) là một phân phối có điều kiện của biến 𝑢 đã cho sao cho các giá trị của quá trình cơ bản là 𝑥 , … , 𝑥 và giá trị của các quá trình đó trong thời điểm trước là 𝑢 , … , 𝑢
Hàm phân phối (1.8) được xác định với 𝑛 = 0, 1, … (trong trường hợp
𝑛 = 0, hàm số là 𝑞 (𝑑𝑢 /𝑥 ) và thỏa mãn các điều kiện dưới đây:
5 𝑞 (./𝑥 , … , 𝑥 ; 𝑢 , … , 𝑢 ) là độ đo xác suất đối với biến thứ nhất, với mọi 𝑥 ∈ 𝑋 và 𝑢 ∈ 𝑈;
6 Với 𝐵 ∈ ℬ, 𝑞 (𝐵/𝑥 , … , 𝑥 ; 𝑢 , … , 𝑢 ) là một hàm 𝒰 × ℬ − đo được đối với 𝑥 và 𝑢
Ta có thể xây dựng một họ các độ đo 𝑣(./ 𝒙) trên (𝑈 , ℬ ) phụ thuộc vào 𝒙 ∈ 𝑋 như một tham số Giả sử 𝐷 là một mặt trụ trong ℬ có dạng
Bài toán t ối ưu
Vấn đề cơ bản trong lý thuyết về quá trình điều khiển được là chọn một điều khiển tối ưu (việc chọn này được thực hiện phụ thuộc vào đối tượng điều khiển đã cho) Cho một đối tượng điều khiển 𝜇(./ ) và một lớp chiến lược chấp nhận được ℛ Hơn nữa, giả thiết xác định một phiến hàm 𝐹(𝒙, 𝒖) trong
𝑋 × 𝑈 là đo được trong 𝒰 × ℬ Phiến hàm này được gọi là giá của điều khiển Nó mô tả sự tiêu hao cần thiết cho sựđiều khiển đối tượng đã biết được cho bởi một dãy các điều khiển 𝒖 = (𝑢 , 𝑢 , … ) được chọn và quá trình cơ bản nhận các giá trị trong dãy giá trị 𝒙 = (𝑥 , 𝑥 , … ) Giả sử chọn một chiến lược 𝑣(./ ) ∈ ℛ Dựa trên đối tượng điều khiển 𝜇(./ ) và chiến lược 𝑣(./ ) ta có thể xây dựng quá trình điều khiển được (𝜉, 𝜂), 𝜉 = (𝜉 , 𝜉 , … ); 𝜂 (𝜂 , 𝜂 , … ) Ký hiệu 𝑬 là kỳ vọng lấy theo độ đo tương ứng với (𝜉, 𝜂) trong
𝑋 × 𝑈 với điều khiển 𝑣(./ ) đã chọn Khi đó, giá trung bình của điều khiển với chiến lược 𝑣(./ )được cho bởi công thức
Một bài toán tối ưu tức là bài toán xác định một chiến lược sao cho 𝑆(𝑣) nhỏ nhất, tức là một điều khiển với sự tiêu hao nhỏ nhất Để giải quyết bài toán này, ta cần xác định giá của điều khiển tối ưu:
Sau đó ta tìm ít nhất một điều khiển 𝑣̅ sao cho 𝑆 = 𝑆(𝑣̅) Trong trường hợp không tồn tại 𝑣̅, ta sẽ quan tâm tới điều khiển 𝑣 sao cho 𝑆(𝑣 ) ≤ 𝑆 + 𝜀 Đó là điều khiển 𝜀 − tối ưu Điều khiển 0 − tối ưu được gọi là tối ưu
Vì vậy bài toán cơ bản của lý thuyết các quá trình điều khiển được được phát biểu như sau: Với một đối tượng điều khiển được 𝜇(./ )đã cho, giá của điều khiển 𝐹( , ) và một lớp chiến lược ℛ, xác định điều khiển tối ưu,
15 và nếu không tồn tại điều khiển tối ưu, ta xác định một điều khiển 𝜀 − tối ưu với mọi 𝜀 > 0
Ta giả sử rằng 𝑋 và 𝑈 là các không gian metric đầy đủ tách được Giờ ta sẽ mô tả lớp ℛ với ràng buộc đối với cảđiều khiển tối ưu và điều khiển 𝜀 − tối ưu được lấy trong sốcác điều khiển không ngẫu nhiên
Một lớp ℛ được gọi là một lớp điều khiển hạn chế nếu nó chứa mọi điều khiển thoải mãn 2 điều kiện sau:
(1) Các hàm 𝑞(./ 𝑥 , … , 𝑥 ; 𝑢 , … , 𝑢 ) được xây dựng theo điều khiển 𝑣(./ ) là đo được đối với 𝒰 × ℬ trong đó 𝒰 ⊂ 𝒰 là một dãy
𝜎 −đại sốđơn điệu xác định
(2) Cho (𝜉 ; 𝜂 ) là một dãy điều khiển được được xây dựng từ đối tượng điều khiển được 𝜇(./ ) và điều khiển 𝑣(./ ), khi đó ℙ{(𝜂 , … , 𝜂 ) ∈
𝛤 } = 1 với mọi 𝑛, trong đó 𝛤 là một dãy các tập Borel trong 𝑈 Định lý 1.2 Nếu ℛ là một lớp điều khiển hạn chế thì với 𝑣 bất kỳ, 𝑣 ∈ ℛ, tồn tại một điều khiển không ngẫu nhiên 𝑣̅ ∈ ℛ sao cho
Việc chứng minh định lý trên dựa vào bổ đề sau đây
Bổ đề 1.2 Cho 𝜇 là một họ các độ đo trên (𝑋, 𝒰), 𝑠 ∈ (𝑆, ℒ) ((𝑆, ℒ) là một không gian đo nào đó) Ta ký hiệu ℬ [ , ] là 𝜎 −đại số các tập Borel trên [0,1] và m là độ đo Lebesgue trên [0,1] Nếu 𝜇 (𝐸) là một ℒ− đo được theo 𝑠 với mọi 𝐸 ∈ 𝒰, khi đó tồn tại một hàm số 𝑓(𝑡, 𝑠) trên [0,1] × 𝑆 đo được trong
ℬ [ , ] ×ℒ với các giá trị trong 𝑋 sao cho
Trong bổ đề 1.1 với không gian metric đầy đủtách được bất kỳ, tồn tại một ánh xạ đo được 𝜆(𝑥) từ (𝑋, 𝒰) vào ([0,1], ℬ [ , ] ) Do đó, không mất tính tổng quát, ta giả sử𝑋 trùng với [0,1] Đặt
Hàm 𝜙(𝑠, 𝑥) là đo được đồng thời đối với các biến, là đơn điệu và liên tục phải tại 𝑥 Với mọi 𝑥 sao cho 𝜙(𝑠, 𝑥) > 𝜙(𝑠, 𝑥 ), 𝑥 > 𝑥 Ta đặt
𝑓(𝜙(𝑠, 𝑥 ), 𝑠) = 𝑥 Như vậy, 𝑓(𝑡, 𝑥) được xác định trên tập xác định của hàm 𝜙(𝑠, 𝑥) Nếu 𝑡 không thuộc tập xác định này, trong trường hợp 𝑡 ∈ [0, 𝜙(𝑠, 0)] thì ta đặt 𝑓(𝑡, 𝑠) = 0; trong trường hợp tồn tại 𝑥 sao cho 𝑡 ∈ [𝜙(𝑥 − 0, 𝑠), 𝜙(𝑥, 𝑠)], ta đặt 𝑓(𝑡, 𝑠) = 𝑥 Hàm 𝑓(𝑡, 𝑠) là đo được đồng thời đối với các biến và đơn điệu đối với 𝑡:
Hệ quả này khẳng định tính chính xác của bổ đề đối với bất kỳ tập Borel 𝐸 ∈ 𝒰 [ , ]
Ký hiệu 𝑓 (𝑡, 𝑥 , … , 𝑥 , 𝑢 , … , 𝑢 ) là một hàm ℬ [ , ] × 𝒰 × ℬ − đo được trên [0,1] × 𝑋 × 𝑈 nhận giá trị trong 𝑋, sao cho với
= 𝑝 (𝐴/𝑥 , … , 𝑥 ; 𝑢 , … , 𝑢 ) (1.12) là đúng (ở đây 𝑝 được xác định bởi đối tượng điều khiển 𝜇(./ )) Tiếp theo, ta ký hiệu 𝑔 (𝑡, 𝑥 , … , 𝑥 ; 𝑢 , … , 𝑢 ) là hàm số có giá trị trong 𝑈 có cùng tính chất đo được sao cho với 𝑥 , … , 𝑥 ; 𝑢 , … , 𝑢 cốđịnh, đẳng thức
= 𝑞 (𝐵/𝑥 , … , 𝑥 ; 𝑢 , … , 𝑢 ) (1.13) là đúng (ở đây 𝑞 (./.) được xây dựng từ điều khiển đã cho 𝑣 ∈ ℛ) Hơn nữa,
𝑔 (𝑡, 𝑥 , … , 𝑥 , 𝑢 , … , 𝑢 ) có thể được giả định là một hàm 𝒰 [ , ] × 𝒰 ×
ℬ − đo được mà (𝑢 , … , 𝑢 , 𝑔 (𝑡, 𝑥 , … , 𝑢 ) ∈ 𝛤 Sự tồn tại của các hàm 𝑓 và 𝑔 với các tính chất trên tuân theo bổđề 1.2
Cho 𝜁 , 𝜁 , … , 𝜃 , 𝜃 , … là một dãy các biến ngẫu nhiên phụ thuộc và cùng phân phối đều trên [0,1] Đặt
Công thức (1.12) và (1.13) suy ra rằng một dãy {(𝜉 , 𝜂 ); 𝑛 = 0, 1, … } tạo thành một quá trình Markov điều khiển được với đối tượng điều khiển 𝜇(./ ) và điều khiển 𝑣(./ ) Ký hiệu 𝑬(./𝜃) là một kỳ vọng có điều kiện đối với một
𝜎 −đại số sinh bởi các biến (𝜃 , 𝜃 , … ) Đặt
Hàm số này là một hàm 𝒰 [ , ] − đo được của 𝜃 trên [0,1] Cho 𝑚 là một tích đếm được các độ đo Lebesgue trên [0,1] Độ đo 𝑚 là xác định trên
Quan sát thấy rằng, 𝜉 = 𝑓(𝜁, 𝜃), 𝜂 = 𝑔(𝜁, 𝜃), ở đó 𝜁 = (𝜁 , 𝜁 , … ) ∈ [0,1] và 𝑓(𝜁, 𝜃), 𝑔(𝜁, 𝜃) là đo được Nếu 𝜁 và 𝜃 độc lập với nhau thì
Quá trình (𝜉 , 𝜂 ) là một quá trình điều khiển được (với cùng đối tượng 𝜇(./ )) cùng một điều khiển không ngẫu nhiên
𝑢 = 𝑔 (𝜃 , 𝑥 , … , 𝑥 , 𝑢 , … , 𝑢 ). Để biểu thị 𝑢 qua 𝑥 , … , 𝑥 , ta phải thay các giá trị của 𝑢 cho 𝑘 ≤ 𝑛 − 1
Ký hiệu 𝑣 là một điều khiển không ngẫu nhiên nằm trong ℛ Hơn nữa
Ta sẽ thiết lập một điều kiện tổng quát mà với nó luôn tồn tại một điều khiển tối ưu Với mục đích này, một vài tính chất của dữ kiện nửa liên tục sẽ được yêu cầu
Nhắc lại, hàm 𝑓(𝑥) được xác định trên một không gian metric 𝑋 được gọi là nửa liên tục dưới nếu với mọi 𝑥 ∈ 𝑋 lim→ 𝑓(𝑦) ≥ 𝑓(𝑥).
Một hàm nửa liên tục dưới đạt được min của nó trên mọi tập compact Hơn nữa, nếu 𝑓(𝑥) là một hàm nửa liên tục dưới, thì tập {𝑥: 𝑓(𝑥) ≤ 𝑐} được gọi là đóng với mọi 𝑐
Cho một dãy hữu hạn các độ đo 𝜇 được xác định trên 𝑋 hội tụ yếu tới độđo 𝜇 Nghĩa là với bất kỳ hàm 𝜑(𝑥) liên tục bị chặn trên 𝑋 (𝜑 ∈ 𝐶 ) lim→ 𝜑(𝑥)𝜇 (𝑑𝑥) = 𝜑(𝑥)𝜇(𝑑𝑥). Điều này chứng minh rằng sự hội tụ yếu của dãy các độ đo 𝜇 tới độ đo
𝜇 với bất kỳ một tập đóng 𝐾 ⊂ 𝑋 dẫn tới bất đẳng thức
Bổ đề 1.3 Nếu hàm 𝑓 bị chặn dưới, nửa liên tục dưới và 𝜇 hội tụ yếu tới 𝜇 thì lim→ 𝑓(𝑥)𝜇 (𝑑𝑥) ≥ 𝑓(𝑥)𝜇(𝑑𝑥).
Giả sử rằng 𝑓 bị chặn Đặt
𝑐 ≤ inf 𝑓(𝑥) < 𝑐 < ⋯ < 𝑐 ≥ sup 𝑓(𝑥), max(𝑐 − 𝑐 ) < 𝜀 Khi đó
Khi sử dụng (1.14) và tập đóng {𝑥: 𝑓(𝑥) ≤ 𝑐}, ta có lim
C ấ u trúc c ủa điề u khi ể n t ối ưu và điề u khi ể n 𝜺 − t ối ưu
Cho 𝑋 là một không gian metric đầy đủ tách được và 𝑈 là một tập compact Giả sử điều kiện (A) được thỏa mãn với đối tượng 𝜇(./ ) Ta muốn tìm hiểu làm thế nào để xây dựng được một điều khiển tối ưu hoặc điều khiển
𝜀 − tối ưu Theo quan điểm trên, các điều khiển này có thể được tìm ra trong các điều khiển không ngẫu nhiên Đầu tiên, ta giả sử rằng 𝐹(𝒙, 𝒖) = 𝜙(𝑥 , … , 𝑥 ; 𝑢 , … , 𝑢 ) với 𝜙 là một hàm trong 𝑋 × 𝑈 bị chặn dưới và nửa liên tục dưới Để xây dựng một điều khiển tối ưu trong trường hợp này, ta cần một vài khẳng định bổ trợ sau
Bổđề 1.4 Cho 𝑓(𝑥, 𝑢) là một hàm bị chặn dưới và nửa liên tục dưới với 𝑥 ∈
𝑋, 𝑢 ∈ 𝑈 Khi đó hàm 𝑓(𝑥) = inf 𝑓(𝑥, 𝑢) cũng là nửa liên tục dưới và tồn tại một hàm Borel 𝜑 từ X vào U sao cho
Vì 𝑈 là tập compact và hàm 𝑓(𝑥, 𝑢) là nửa liên tục dưới với 𝑢, nên đối với mỗi 𝑥, tồn tại min 𝑓(𝑥, 𝑢) = inf 𝑓(𝑥, 𝑢).
Cho 𝑥 → 𝑥 và chọn 𝑢 sao cho inf 𝑓(𝑥 , 𝑢) ≥ 𝑓(𝑥 , 𝑢 ) − 𝜀.
Khi đó lim→ 𝑓(𝑥 ) = lim → inf 𝑓(𝑥 , 𝑢) ≥ lim → 𝑓( 𝑥 , 𝑢 ) −𝜀
→ 𝑓 𝑥 , 𝑢 − 𝜀 ≥ 𝑓(𝑥 , 𝑢 ) − 𝜀 ≥ 𝑓̅(𝑥 ) − 𝜀. ở đây 𝑛 là một dãy, 𝑢 là hữu hạn điểm trong dãy 𝑢 Vì 𝜀 > 0 là tùy ý nên điều khẳng định đầu tiên của định lý là đúng Ta cần chứng minh sự tồn tại của tập Borel thỏa mãn (1.17) Giả sử rằng 𝑓 > 0
Cho 𝐵 ( ) , … , 𝐵 ( ) là các tập đóng trong 𝑈 thỏa mãn các điều kiện:
2 lim → max 𝑑𝑖𝑎𝑚 𝐵 ( ) = 0 với 𝑑𝑖𝑎𝑚(𝐵) là đường kính của tập 𝐵; (3) mỗi tập 𝐵 ( ) được chứa hoàn toàn trong một và chỉ một tập 𝐵 ( ) và hơn nữa, nếu 𝐵 ( ) ⊂ 𝐵 ( ) , thì 𝐵 ( ) được chứa duy nhất trong 𝐵 ( ) ∪ 𝐵 ( ) , khi 𝐵 ( ) ⊂ 𝐵 ( ) Tập
𝑚 Hàm 𝜒 ( ) (𝑢) trở thành một hàm chỉ tiêu của một tập đóng là nửa liên tục trên, vì vậy tập
𝑛 là đóng Hàm 𝑓(𝑥) là nửa liên tục dưới, vì thế {𝑥: −𝑓(𝑥) < 1 + } là tập mở Tập ∆ ( , ) là tập Borel Dễ thấy
Tập ∆ ( , ) = ⋃ ∆ ( , ) , ∆ ( ) = ⋂ ∆ ( , ) Tất cả các tập vừa rồi đều là tập Borel Nếu 𝑥 ∈ ∆ ( ) , với mỗi m, tồn tại 𝑢 ∈ 𝐵 ( ) sao cho
Từ 𝑢 chọn một dãy hội tụ, ta kiểm chứng được tồn tại 𝑢 ∈ 𝐵 ( ) sao cho 𝑓(𝑥) = 𝑓(𝑥, 𝑢) Ngược lại, nếu tồn tại 𝑢 ∈ 𝐵 ( ) sao cho 𝑓(𝑥) = 𝑓(𝑥, 𝑢) thì
𝑥 ∈ ∆ ( , ) với 𝑖 = [𝑚𝑓(𝑥)] với m bất kỳ Vì vậy
Chọn một điểm 𝑢 ( ) trong tập 𝐵 ( ) Tập
𝜑 (𝑥) = 𝑢 ( ) , 𝑥 ∈ ∆ ( ) \ ∆ ( ) Điều kiện (3) suy ra rằng ta có thể chuyển từ 𝑛 thành 𝑛 + 1 một trong các tập
Nếu 𝜑 (𝑥) = 𝑢 ( ) , 𝜑 (𝑥) = 𝑢 ( ) thì 𝐵 ( ) ⊂ 𝐵 ( ) Ta cũng khẳng định được rằng với mỗi n giá trị của 𝜑 (𝑥) và 𝜑 (𝑥) thuộc tập 𝐵 ( ) Khi đó tồn tại
Với mỗi 𝑥 cho trước, 𝜑 (𝑥) ∈ 𝐵 ( ) và 𝐵 ( ) ⊃ 𝐵 ( ) ⊃ ⋯ Nếu 𝑢 ∈
𝐵 ( ) , 𝑓(𝑥) = 𝑓(𝑥, 𝑢 ) và 𝑢 = lim 𝑢 , khi đó 𝑓(𝑥) = 𝑓(𝑥, 𝑢) Vì 𝜑 (𝑥) và 𝑢 nằm trong 𝐵 ( ) và 𝑑𝑖𝑎𝑚 𝐵 ( ) → 0, suy ra 𝑢 = 𝜑(𝑥) Vì vậy 𝑓(𝑥) 𝑓 𝑥, 𝜑(𝑥)
Các hàm 𝜑 (𝑥) là hàm Borel, và 𝜑 cũng là hàm Borel □
Ta sẽ xây dựng đệ quy các hàm sau:
Tất cả các hàm 𝜙 (𝑥 , … 𝑥 , 𝑢 , … , 𝑢 ) và 𝜙 (𝑥 , … , 𝑥 , 𝑢 , … , 𝑢 ) là nửa liên tục dưới Thật vậy, tính nửa liên tục dưới của 𝜙 (𝑥 , … , 𝑥 , 𝑢 , … , 𝑢 ) được suy ra từ bổđề 1 nếu như ta có 𝜙 là nửa liên tục dưới Để chứng minh rằng 𝜙 là nửa liên tục dưới với điều kiện 𝜙 là nửa liên tục dưới, ta cần sử dụng khẳng định sau
Bổđề 1.5 Cho 𝜙(𝑥, 𝑥 ) là một hàm bị chặn dưới và là một nửa liên tục dưới trên 𝑋 × 𝑋 , với 𝑋 và 𝑋 là các không gian metric đầy đủ tách được và 𝜇 là một dãy hữu hạn các độ đo trên 𝑋 hội tụ yếu tới độ đo 𝜇 Nếu 𝑥 ( ) → 𝑥 ( ) thì lim→ ∫ 𝜙 𝑥, 𝑥 ( ) 𝜇 (𝑑𝑥) ≥ ∫ 𝜙 𝑥, 𝑥 ( ) 𝜇 (𝑑𝑥) (1.19)
Xác định độđo 𝜇 trên 𝑋 × 𝑋 bằng cách: cho tập Borel 𝐴 ⊂ 𝑋, 𝐴 ⊂ 𝑋
𝜇 (𝐴 × 𝐴 ) = 𝜇 (𝐴)𝜒 𝑥 ( ) , 𝑛 = 0,1, … với 𝜒 là hàm chỉ tiêu của tập 𝐴 Dễ thấy một dãy các độ đo 𝜇 là hội tụ yếu tới độđo 𝜇 Theo bổđề 1.3 lim → 𝜙(𝑥, 𝑥 )𝜇 (𝑑𝑥 × 𝑑𝑥 ) = 𝜙(𝑥, 𝑥 )𝜇 (𝑑𝑥 × 𝑑𝑥 ).
Nhận xét 1.2 Nếu với các điều kiện của bổđề, hàm 𝜙(𝑥, 𝑥 ) là liên tục và bị chặn thì lim→ 𝜙 𝑥, 𝑥 ( ) 𝜇 (𝑑𝑥) = 𝜙 𝑥, 𝑥 ( ) 𝜇 (𝑑𝑥).
Khi đó chính 𝜙(𝑥, 𝑥 ) cũng là nửa liên tục dưới, nghĩa là cùng với bất đẳng thức (1.19) thì bất đẳng thức ngược cũng đúng.
Bây giờ giả sử dãy 𝑥 ( ) , 𝑢 ( ) , 𝑖 = 0, … , 𝑘tương ứng hội tụ tới 𝑥 ( ) và
𝑢 ( ) Khi đócác độđo 𝑝 (𝑑𝑥 / 𝑥 ( ) , … , 𝑥 ( ) , 𝑢 ( ) , … , 𝑢 ( ) ) hội tụ yếu tới độđo 𝑝 (𝑑𝑥 / 𝑥 ( ) , … , 𝑥 ( ) , 𝑢 ( ) , … , 𝑢 ( ) ) Bởi vậy, nếu
𝜙 (𝑥 , … , 𝑥 , 𝑢 , … , 𝑢 ) là nửa liên tục dưới, từ bổđề 1.5 ta suy ra lim→ 𝜙 (𝑥 ( ) , … , 𝑥 ( ) , 𝑢 ( ) , … , 𝑢 ( ) )
Vì vậy 𝜙 (𝑥 , … , 𝑥 , 𝑢 , … , 𝑢 ) cũng là nửa liên tục dưới Vì trong hệ thống các hàm (1.18), hàm đầu tiên là nửa liên tục dưới và tính nửa liên tục dưới của một hàm phía trước quy suy ra tính nửa liên tục dưới của hàm phía sau, tất cả các hàm trong hệ thống là nửa liên tục dưới Bổ đề 1.4 chỉ ra sự tồn tại của các hàm Borel 𝜑 (𝑥 , , 𝑥 ; 𝑢 , … , 𝑢 ), 𝑘 = 0, … , 𝑛 sao cho
= 𝜙 (𝑥 , … , 𝑥 , 𝑢 , … , 𝑢 ), 𝜑 (𝑥 , … , 𝑥 , 𝑢 , … , 𝑢 ) (1.20) Định lý 1.5 Cho các hàm 𝜙 , 𝜙 và số 𝜙 được định nghĩa bởi (1.18) và các hàm 𝜑 bởi (1.20) Ta định nghĩa các hàm liên tiếp
Một điều khiển không ngẫu nhiên 𝑣 được cho bởi dãy
{𝑢 = 𝜑 (𝑥 , … , 𝑥 ), 𝑘 = 0, 1, … } là một điều khiển tối ưu và đại lượng 𝜙 là giá điều khiển tối ưu.
Cho một điều khiển 𝑣 không ngẫu nhiên được xác định bởi các hàm
𝑢 = 𝛹 (𝑥 , … , 𝑥 ) Ký hiệu {(𝜉 , 𝜂 ), 𝑘 = 0, 1, }là dãy điều khiển được tương ứng Khi đó
= 𝐸 𝜙 (𝜉 , … , 𝜉 , 𝜂 , … , 𝜂 ) Ở đây chúng ta sử dụng bất đẳng thức 𝜙 ≥ 𝜙 và 𝜂 , … , 𝜂 là các hàm của 𝜉 , … , 𝜉 Tương tự, ta có với mọi 𝑘 > 0
Theo (1.18), ta có với mọi 𝑘 > 0
Từ (1.21) và (1.22) suy ra chứng minh của định lý
Nhận xét 1.3 Các hàm 𝜙 được xác định bởi đẳng thức (1.18) có ý nghĩa như sau Giả sử tại các thời điểm 0, … , 𝑘, các điều khiển 𝑢 , … , 𝑢 đã chọn và hữu hạn các quá trình cơ bản nhận giá trị 𝑥 , … , 𝑥 Khi đó 𝜙 trở thành giá tối ưu của điều khiển mở rộng:
𝑖 = 0, , 𝑘 với ℛ là tập tất cả các điều khiển sao cho 𝜂 = 𝑢 , 𝑖 = 0, … , 𝑘 Khẳng định này được chứng minh giống như định lý 1.5
Rõ ràng giá điều khiển tối ưu cho các hàm giá 𝜙 và 𝜙 là như nhau vì một điều khiển tối ưu có thể được xây dựng bằng cách: trước tiên ta sử dụng một điều khiển tối ưu trong 𝑘 bước đầu, sau đó tiếp tục tối ưu điều khiển đó Công thức (1.18) chỉ ra cách tiếp tục tối ưu cho 1 bước (chuyển từ 𝜙 sang
𝜙 ) và cách mà giá điều khiển tối ưu thay đổi ( chuyển từ 𝜙 sang 𝜙 ) trong trường hợp này
Nhận xét 1.4 Bằng cách biến đổi ở một mức độ nhỏ của hàm 𝜙, sử dụng phương pháp đã trình bày ở định lý 1.5, ta có thể xây dựng một điều khiển tối ưu trong một lớp các điều khiển với các ràng buộc
Giả sử rằng tồn tại một dãy các tập đóng 𝛤 ⊂ 𝑋 × 𝑈 sao cho các điều kiện sau được thỏa mãn:
2 Với 𝑘 bất kỳ, điểm (𝑥 , … , 𝑥 , 𝑢 , … , 𝑢 ) ∈ 𝛤 và 𝑥 , … , 𝑥 ∈
𝑋, tồn tại các hàm Borel 𝑔 , (𝑥 , … , 𝑥 , 𝑢 , … , 𝑢 , 𝑥 , … , 𝑥 ) nhận giá trị trong 𝑈 (𝑗 > 𝑘) sao cho
Ký hiệu ℛ là tập các điều khiển thỏa mãn
Tồn tại một điều khiển tối ưu trong lớp ℛ Điều khiển này có thể được xây dựng như sau: Đặt
Một điều khiển tối ưu 𝑣̅ cho phiến hàm này có thể được chọn bằng cách 𝑣̅ ∈
Thật vậy, cho điều khiển này được xác định bởi các hàm 𝑢 𝜑 (𝑥 , … , 𝑥 ) Với (𝑥 , … , 𝑥 ; 𝜑(𝑥 ), … , 𝜑 (𝑥 , … , 𝑥 )) ∉ 𝛤 ký hiệu bởi 𝑘 số nguyên nhỏ nhất sao cho
𝑥 , … , 𝑥 ; 𝜑 (𝑥 ), … , 𝜑 (𝑥 , … , 𝑥 ) ∉ 𝛤 Đặt 𝜑 = 𝜑 với 𝑗 < 𝑘 và với 𝑗 ≥ 𝑘, đặt
Vì vậy, bằng cách chọn điều khiển 𝑢 = 𝜑 ta không làm tăng giá điều khiển Tuy nhiên nếu điều khiển 𝑣 ∈ ℛ thì
Do đó điều khiển này là tối ưu trong lớp ℛ
Xét trường hợp tổng quát của một hàm giá theo các giả thiết của định lý 1.3 Để bắt đầu, ta xét các đối tượng ban đầu cùng với một họ các đối tượng dịch chuyển
{𝜇(./ ) ,…, , ,…, , 𝑛 = 0,1, … ; 𝑥 ∈ 𝑋, 𝑢 ∈ 𝑈, 𝑘 = 0 , … , 𝑛} xác định bởi xác suất điều kiện
𝐹(𝒙, 𝒖) ,…, , ,…, = 𝐹 (𝑥 , … , 𝑥 , 𝑥 , … ), (𝑢 , … , 𝑢 , 𝑢 , … ) Đây là một họ các phiến hàm dịch chuyển Cho 𝐸 ,…, , ,…, là một kỳ vọng của một dãy ngẫu nhiên xác định bởi đối tượng điều khiển
Hàm 𝜙 (𝑥 , … , 𝑥 , 𝑢 , … , 𝑢 ) được gọi là giá tối ưu có điều kiện cung cấp ở
𝑛 bước điều khiển đầu 𝑢 , … , 𝑢 đã chọn và quá trình cơ bản nhận giá trị trong 𝑥 , … , 𝑥
Nhận xét 1.5 Cho 𝐹(𝒙, 𝒖) = 𝜙 (𝑥 , , 𝑥 , 𝑢 , … , 𝑢 ) (𝑁 > 𝑛) Khi đó,
= 𝜙 (𝑥 , … , 𝑥 , 𝑥 , … , 𝑥 , 𝑢 , … , 𝑢 , 𝑢 , … , 𝑢 ). Định lý 1.5 chỉ ra rằng giá tối ưu cho đối tượng 𝜇(./ ) ,…, , ,…, cùng với hàm giá của điều khiển trùng với hàm 𝜙 (𝑥 , … , 𝑥 , 𝑢 , … , 𝑢 ) được xác định bằng các quan hệ lặp lại:
= inf 𝜙 (𝑥 , … , 𝑥 , 𝑥 , … , 𝑥 , 𝑢 , … , 𝑢 , 𝑢 , … , 𝑢 ). với 𝑘 = 𝑛, 𝜙 𝑣à 𝑝 (𝑑𝑥 / ) không phụ thuộc vào 𝑥 𝑣à 𝑢
Do đó, đối với các hàm 𝐹(𝒙, 𝒖) có dạng được chỉ ra ở trên (chỉ phụ thuộc vào hữu hạn tọa độ), quan hệsau được thỏa mãn:
Giờ ta thực hiện với các hàm giá phụ thuộc vào vô hạn tọa độ Sau đây là một vài tính chất của hàm nửa liên tục và hàm liên tục cần sử dụng
Bổđề 1.6 Với bất kỳ một hàm nửa liên tục dưới 𝐹(𝑥) bị chặn dưới trong một không gian metric đầy đủ tách được 𝑋, ta có thể tìm được một dãy tăng các hàm liên tục bị chặn 𝐹 (𝑥) sao cho 𝐹 (𝑥) ↑ 𝐹(𝑥) với mọi 𝑥 ∈ 𝑋
Bổ đề 1.7 Cho 𝐹(𝒙, 𝒖) là một hàm liên tục trên 𝑋 × 𝑈 (𝑋 là một không gian metric đầy đủtách được và 𝑈 là compact) Với bất kỳ dãy compact 𝐾 ⊂
𝐾, luôn tồn tại các hàm liên tục 𝐹 (𝒙, 𝒖) = 𝛹 (𝑥 , , 𝑥 , 𝑢 , … , 𝑢 ) hội tụ đều tới 𝐹(𝒙, 𝒖) trên tập
Xét không gian 𝑋 × 𝑈 là một không gian metric đầy đủ với metric sau
𝑟 (𝒙, 𝒖), (𝒙 , 𝒖 ) = 2 (1 − exp{−𝑟 (𝑥 , 𝑥 ) − 𝑟 (𝑢 , 𝑢 )}), với 𝑟 và 𝑟 tương ứng là khoảng cách trên 𝑋 và 𝑈 Chọn một điểm cốđịnh 𝑥̅ ∈ 𝑋, 𝑢 ∈ 𝑈 và tập
Rõ ràng, dựa vào tính liên tục của 𝐹(𝒙, 𝒖), lim→ 𝛹 (𝑥 , … , 𝑥 , 𝑢 , … , 𝑢 ) = 𝐹(𝒙, 𝒖) Hơn nữa,
𝒙 ( ) = (𝑥 , … , 𝑥 , 𝑥̅, … , 𝑥̅, … ), 𝒖 ( ) = (𝑢 , … , 𝑢 , 𝑢, … , 𝑢, … ) và 𝑟[(𝒙, 𝒖), 𝒙 ( ) , 𝒖 ( ) ] → 0 khi 𝑛 → ∞ Vì vậy, nhờ tính liên tục thống nhất của hàm 𝐹(𝒙, 𝒖) trên tập compact 𝐾, ta có lim→ sup
Hệ quả Nếu 𝐹(𝒙, 𝒖) là một hàm nửa liên tục dưới, bị chặn dưới, ta có thể lấy ra được một dãy tăng các hàm liên tục 𝐹 (𝒙, 𝒖) = 𝛹 (𝑥 , … , 𝑥 , 𝑢 , … , 𝑢 ) sao cho
Bổ đề 1.8 Cho một dãy các hàm liên tục của giá điều khiển 𝐹 ( ) (𝒙, 𝒖) bị chặn đồng thời và đơn điệu tăng tới một hàm giá của điều khiển 𝐹(𝒙, 𝒖) khi m tăng Cho 𝑆 và 𝑆 tương ứng là các giá điều khiển tối ưu cho các hàm trên Khi đó
Cho 𝑣 là một điều khiển Ta có
Tuy nhiên nếu điều khiển 𝑣 được chọn theo cách 𝐸 𝐹 ( ) (𝜉, 𝜂) ≤ 𝑆 + 𝜀, khi đó với mọi 𝑘 lim→ 𝐸 𝐹 ( ) (𝜉, 𝜂) ≤ lim
Xích Markov điề u khi ển đượ c
Giả thiết rằng các xác suất có điều kiện xác định đối tượng điều khiển có dạng
Một đối tượng điều khiển được như vậy gọi là Markov và dãy điều khiển với một đối tượng Markov được gọi là xích Markov điều khiển được Khi xem xét các đối tượng Markov điều khiển được, phân phối 𝑝 (𝑑𝑥 ) không cố định Vì thế một đối tượng Markov điều khiển được thực sự là một họ các đối tượng điều khiển 𝜇 (./ ) chỉ phụ thuộc vào 𝑥 như một tham số Các độ đo
𝜇 (./𝒖) trên 𝒰 được xác định bởi đẳng thức
= 𝑃 (𝑥 , 𝑑𝑥 ; 𝑢 ) 𝑃 (𝑥 , 𝑑𝑥 ; 𝑢 ) … 𝑃 (𝑥 , 𝑑𝑥 ; 𝑢 ), (1.50) trong đó 𝐶 = {𝑥: 𝑥 ∈ 𝐴 , … , 𝑥 ∈ 𝐴 } Công thức (1.50) chỉ ra rằng với 𝒖 bất kỳ, một độ đo 𝜇 (./𝒖) tương ứng với một xích Markov với 1 bước xác suất chuyển 𝑃 (𝑥 , 𝐴 ; 𝑢 ) (trong 𝑘 bước) Ta cũng có thể định nghĩa cho xác suất chuyển xích đối với nhiều bước:
Nếu ℬ , là 𝜎 −đại số của các mặt trụ trong ℬ với cơ sở trên [𝑛, 𝑘] thì theo (1.51), 𝑃(𝑛, 𝑥, 𝑚, 𝐴; 𝒖) là một hàm ℬ , − đo được đối với 𝒖 Ta chú ý rằng điều này sẽ được sử dụng để xác định quá trình Markov điều khiển được với thời gian liên tục trong chương 2 (Trong trường hợp liên tục, xác suất chuyển 1 bước không có sẵn, vì thế cần sử dụng mọi xác suất chuyển) Nếu một họ xích Markov cho sẵn và phụ thuộc vào 𝒖như một tham số và xác suất chuyển 𝑃(𝑛, 𝑥, 𝑚, 𝐴; 𝒖) là ℬ , − đo được đối với 𝒖, thì đặt
𝑃 (𝑥 , 𝐴 ; 𝑢 ) = 𝑃(𝑘 − 1, 𝑥 , 𝑘, 𝐴 ; 𝒖) (bằng cách giả sử vế phải là ℬ , − đo được, do đo nó là một hàm của
𝑢 ), ta thu được một dãy các hàm (1.49) xác định một đối tượng Markov điều khiển được
Nếu hàm giá điều khiển là bất kỳ thì vấn đề tối ưu hóa cho xích Markov điều khiển được là phức tạp tương tự như đối với đối tượng điều khiển tổng quát Tuy nhiên, với hàm giá dạng lũy tiến thì vấn đề tối ưu hóa được đơn giản đáng kể
Ta nói rằng hàm 𝐹(𝒙, 𝒖) là một hàm giá dạng lũy tiến nếu nó có dạng 𝐹(𝒙, 𝒖) = 𝑔 𝑥 , 𝑢 𝑓 (𝑥 , 𝑢 ) , = 1 (1.52) trong đó {𝑔 (𝑥, 𝑢)} và {𝑓 (𝑥, 𝑢)} là hai dãy hàm 𝒰 × ℬ −đo được, 𝑔 ≥ 0 Với một hàm (1.52) ta có thể liên kết một dãy các hàm 𝐹 (𝒙, 𝒖):
𝐹 (𝒙, 𝒖) = 𝑔 𝑥 , 𝑢 𝑓 (𝑥 , 𝑢 ). ởđây 𝐹 = 𝐹 và 𝐹 được cho bởi hệ thức đệ quy
= inf 𝐸 [𝐹 (𝜉, 𝜂)/𝜉 = 𝑥 , 𝜂 = 𝑢 ] (1.53) trong đó inf được lấy trên mọi điều khiển 𝑣 sao cho các điều khiển
𝑢 , … , 𝑢 cốđịnh Vì 𝐹 (𝜉, 𝜂) chỉ phụ thuộc vào 𝜉 , 𝜉 , … , 𝜂 , 𝜂 , … và theo tính chất Markov của đối tượng điều khiển được, phân phối đồng thời của các biến với 𝑥 , … , 𝑥 , 𝑢 , … , 𝑢 chỉ phụ thuộc vào 𝑥 , 𝑢 , vế phải của (1.53) chỉ phụ thuộc vào 𝑥 và 𝑢 Các hàm
𝜙 (𝑥 , … , 𝑥 , 𝑢 , … , 𝑢 )được xác định bởi (1.23) được biểu thị trong số hạng của các hàm 𝛹 theo một cách đơn giản hơn Vì vậy,
Vì ∏ 𝑔 (𝑥 , 𝑢 ) không âm và tổng ∑ và tích ∏ xuất hiện trong vế phải của (1.54) là hằng số đối với 𝑥 , … , 𝑥 , 𝑢 , … , 𝑢 cố định, ta thu được
Sử dụng đẳng thức (1.24) trong mục 3, ta viết hệ thức liên hệ giữa 𝛹 và
Hiển nhiên nếu inf trong (1.56) đạt được tại điểm đã biết 𝑢 thì inf 𝜙 ( , 𝑢 ) cũng đạt được tại điểm đó, do đó
Giả sử tồn tại các hàm đo được 𝜑 sao cho inf [𝑓 (𝑥 , 𝑢 ) + 𝑔 (𝑥 , 𝑢 )𝛹 (𝑥 , 𝑢 )]
= 𝑓 𝑥 , 𝜑 (𝑥 ) + 𝑔 𝑥 , 𝜑 (𝑥 ) 𝛹 𝑥 , 𝜑 (𝑥 ) Khi đó những hàm này (với các điều kiện chính quy tương ứng của trên hàm giá của điều khiển) sẽ xác định điều khiển tối ưu theo định lý 1.6 Ta lưu ý rằng điều khiển tối ưu này được định nghĩa bởi các hàm có dạng {𝑢 𝜑 (𝑥 ), 𝑚 = 0 … } do đó điều khiển tại thời điểm 𝑚 phụ thuộc vào giá trị của quá trình cơ bản tại thời điểm đó và không phụ thuộc vào trạng thái của quá trình tại thời điểm trước Điều khiển đó được gọi là Markov (không ngẫu nhiên) Một điều khiển Markov tổng quát được xác định bởi một dãy các độ đo có điều kiện 𝑞 (𝑑𝑢 /𝑥 ) chỉ phụ thuộc vào trạng thái của quá trình cơ bản tại thời điểm hiện tại
Giả sử rằng các điều kiện được sau được thỏa mãn:
1 𝑋 là không gian metric đầy đủtách được, 𝒰 là 𝜎 −đại số các tập Borel và 𝑈 là một tập compact với một 𝜎 −đại số của các tập Borel ℬ;
2 Xác suất chuyển 𝑃 (𝑥, 𝐴; 𝑢) thỏa mãn với mọi 𝑓 ∈ 𝐶
3 Các hàm 𝑓 , 𝑔 xác định 𝐹(𝒙, 𝒖) bởi công thức (1.51) là không âm và nửa liên tục dưới, 𝑔 > 0 và tích
𝑔 (𝑥 , 𝑢 ) hội tụ trong 𝑋 × 𝑈 Điều kiện 3 đảm bảo tính nửa liên tục dưới của 𝐹
Ta sẽ nghiên cứu các điều kiện để 𝐹(𝒙, 𝒖)là chính quy theo định nghĩa được đưa trong mục 3 Sử dụng công thức (1.55) ta chứng minh rằng với 𝒖 và
𝒙 sao cho giới hạn lim → 𝜙 (𝑥 , … , 𝑥 , 𝑢 , … , 𝑢 ) tồn tại và lim → 𝜙 (𝑥 , … , 𝑥 , 𝑢 , … , 𝑢 )
Do giới hạn ở vế phải tồn tại dẫn tới giới hạn lim → 𝛹 (𝑥 , 𝑢 ) tồn tại Hơn nữa, để 𝐹(𝒙, 𝒖) là chính quy thì điều kiện cần và đủ là với mọi 𝒙 và 𝒖, giới hạn lim
→ 𝛹 (𝑥 , 𝑢 ) = 0 Nhận thấy rằng nếu điều kiện này được thỏa mãn thì lim→ sup Ψ (𝑥, 𝑢)
Thật vậy, chọn 𝑥 và 𝑢 sao cho
(𝛹 (𝑥 , 𝑢 ) > 𝛿 , trong đó 𝛿 là một dãy bất kỳ thỏa mãn bất đẳng thức 𝛿 < sup 𝛹 (𝑥, 𝑢). Đặt
Tuy nhiên, nếu lim → sup
, 𝛹 (𝑥, 𝑢) > 𝛿, ta có thể chọn một dãy con
Ta sẽ chỉ ra rằng dãy các hàm không âm 𝛹 (𝑥, 𝑢) thỏa mãn (1.56) và điều kiện lim
, 𝛹 (𝑥, 𝑢) = 0 là xác định duy nhất
Cho 𝛹 là một dãy các hàm thỏa mãn (1.49) khác 𝛹 sao cho lim→ sup
Chọn 𝑥̅ , 𝑢 sao cho sup sup 𝑔 (𝑥, 𝑢) ≤ (1 + 2 )𝑔 ( 𝑥̅ , 𝑢 ) Khi đó sup, 𝛹 (𝑥, 𝑢) − 𝛹 (𝑥, 𝑢) ≤ (1 + 2 )𝑔 ( 𝑥̅ , 𝑢 ) × sup
Sử dụng tính hội tụ của tích
(1 + 2 ) , 𝑔 (𝑥 , 𝑢 ) và dữ kiện lim → sup
Giờ ta sẽ chứng minh rằng nếu điều kiện 3 được thỏa mãn thì lim → sup
𝑟 ∨ inf 𝑔 (𝑥, 𝑢) ≥ (1 − 2 )𝑔 (𝑥 , 𝑢 ) [𝑟 ∧ sup 𝑔 (𝑥, 𝑢)] ≤ (1 + 2 )𝑔 (𝑥 , 𝑢 ) Tính hội tụ của các tích
𝑔 (𝑥 , 𝑢 ) 𝑣à 𝑔 (𝑥 , 𝑢 ) suy ra rằng với 𝑁 đủ lớn thì inf 𝑔 (𝑥, 𝑢) > 0 𝑣à sup 𝑔 (𝑥, 𝑢) < ∞ với 𝑘 ≥ 𝑁 và hơn nữa sup 𝑔 (𝑥, 𝑢) 𝑣à inf 𝑔 (𝑥, 𝑢) hội tụ Vậy ta có thể tìm 𝑁 và các hằng số𝑐 , 𝑐 sao cho
Giờ chọn 𝑚 ≥ 𝑁 và 𝑥 , 𝑢 thỏa mãn điều kiện
Vì vậy với 𝑘 đủ lớn, sup
55 sup, 𝑓 (𝑥, 𝑢) < ∞ Suy ra với 𝑚 đủ lớn sup, 𝐹 (𝑥, 𝑢) ≤ 𝑐 sup
Dễ thấy vế phải của bất đẳng thức cuối tiến tới 0 khi 𝑚 → ∞ Hệ thức (1.57) được chứng minh □
Do vậy từ định lý 1.6 và các nhận định trước dẫn tới định lý sau Định lý 1.11 Cho một xích Markov điều khiển được thỏa mãn các điều kiện
1 và 2 và hàm giá 𝐹(𝒙, 𝒖) có dạng (1.52) và thỏa mãn điều kiện 3 Khi đó tồn tại
I Một dãy các hàm 𝛹 (𝑥, 𝑢) thỏa mãn các điều kiện:
(a) 𝛹 (𝑥, 𝑢) là nửa liên tục dưới
, 𝛹 (𝑥, 𝑢) = 0 ; (c) Với mọi 𝑚 ≥ 1thì (1.56) được thỏa mãn Điều kiện (a)-(c) khẳng định tính tồn tại duy nhất của dãy hàm 𝛹
II Một dãy các hàm Borel 𝜑 thỏa mãn hệ thức inf [𝑓 (𝑥, 𝑢) + 𝑔 (𝑥, 𝑢)𝛹 (𝑥, 𝑢) ]
= 𝑓 𝑥, 𝜑 (𝑥) + 𝑔 (𝑥, 𝜑 (𝑥))𝛹 (𝑥, 𝜑 (𝑥)) (1.58) III Một giá điều khiển tối ưu 𝑆(𝑥) đã cho thỏa mãn 𝜉(0) = 𝑥 được xác định bởi đẳng thức
Ta sẽ mô tả cách thức xây dựng các hàm 𝛹 (𝑥, 𝑢) Giả sử rằng các hàm 𝑔 (𝑥, 𝑢) thỏa mãn hệ thức ≤ 𝑔 (𝑥, 𝑢) ≤ 𝑟 với mọi 𝑘 và với 𝛿 > 0 Theo suy luận trước thì với 𝑐 , 𝑐
Ký hiệu 𝛹 (𝑥, 𝑢), 𝑚 ≤ 𝑁 là một dãy các hàm xác định bởi hệ thức
Bằng cách tương tự với lấy giới hạn của hiệu 𝛹 𝑣à 𝛹 , ta có sup
Cho 𝑁 → ∞ và theo I.b ta có
Nhận xét 1.10 Cho hàm giá 𝐹(𝒙, 𝒖)được xác định bởi công thức
𝐹(𝒙, 𝒖) = 𝑔 (𝑥 , … , 𝑥 , 𝑢 , … , 𝑢 ) × 𝑓 (𝑥 , … , 𝑥 , 𝑢 , … , 𝑢 ). trong đó 𝑔 , 𝑓 là các hàm nửa liên tục dưới không âm trên 𝑋 × 𝑈 Tất cả các khẳng định trước đều áp dụng được cho hàm này
Ta có thể chỉ ra sự tồn tại của một dãy hàm nửa liên tục dưới
𝛹 (𝑥 , … , 𝑥 , 𝑢 , … , 𝑢 ), 𝑚 = 0, 1 … thỏa mãn lim → sup 𝛹 (𝑥 , , 𝑥 , 𝑢 , … , 𝑢 ) = 0 và
+ 𝑔 (𝑥 , … , 𝑥 , 𝑢 , … , 𝑢 ) × 𝛹 (𝑥 , … , 𝑥 , 𝑢 , … , 𝑢 )]𝑃(𝑥 , 𝑑𝑥 ; 𝑢 ) (1.60)Nếu các hàm 𝜑 (𝑥 , … , 𝑥 , 𝑢 , … , 𝑢 ) thỏa mãn
+ 𝑔 (𝑥 , … , 𝑥 , 𝑢 , … , 𝜑 ( )) × 𝛹 (𝑥 , … , 𝑥 , 𝑢 , … , 𝜑 ( )) thì {𝑢 = 𝜑 ( )} sẽ trở thành điều khiển tối ưu có điều kiện với
Xét trường hợp đặc biệt quan trọng khi
Hệ thức này dẫn tới đẳng thức cho 𝜌 (𝑥)
+ 𝑔 (𝑥, 𝑦, 𝑢)𝜌 (𝑦) 𝑃 (𝑥, 𝑑𝑦; 𝑢) (1.62) Đẳng thức (1.62) có thể được suy ra từ (1.60) với 𝑙 = 1 sử dụng dãy hệ thức
𝛹 (𝑥 , 𝑥 , 𝑢 , 𝑢 ) chỉ phụ thuộc vào 𝑥 , 𝑢 Vì thế
Các hàm 𝜌 (𝑥)được sử dụng cho vị trí của 𝛹 khi nó chỉ phụ thuộc vào một biến
Ta có thể thu được nhận xét từ định lý 1.6 tương tựnhư ở định lý 1.11:
Tồn tại duy nhất một dãy các hàm nửa liên tục dưới không âm 𝜌 (𝑥) thỏa mãn (1.62) và điều kiện lim
→ 𝜌 (𝑥) = 0 Nếu các hàm Borel 𝜌 (𝑥)được xác định với đẳng thức
𝜌 (𝑥) = 𝑓 𝑥, 𝑦 , 𝜑 (𝑥) + 𝑔 𝑥, 𝑦 , 𝜑 (𝑥) 𝜌 (𝑦) × 𝑃 𝑥, 𝑑𝑦; 𝜑 (𝑥) thì điều khiển 𝑣: {𝑢 = 𝜑 (𝑥 ), 𝑚 = 0, 1 … } là một chiến lược tối ưu và đại lượng 𝜌 (𝑥)là giá điều khiển tối ưu với điều kiện 𝜉 = 𝑥đã cho.
Xét trường hợp một tối ưu “tiến tới” một tập Cho 𝐺 là tập đóng; 𝑔(𝑥) = 1 với 𝑥 ∉ 𝐺 và 𝑔(𝑥) = 0 với 𝑥 ∈ 𝐺 Ta thu nhỏ hàm
= 𝑓 (𝑥 , 𝑥 , 𝑢 ) (1.63) trong đó 𝜏 là thời điểm mà dãy 𝑥 , , 𝑥 , … tiến tới 𝐺 lần đầu tiên Các hàm 𝑓 là không âm và nửa liên tục dưới Đặt
Các hàm 𝜌 (𝑥) là nửa liên tục dưới không âm và thỏa mãn
Một điều khiển tối ưu được xác định bởi
+ 𝑔(𝑦)𝜌 (𝑦)]𝑃 (𝑥, 𝑑𝑦; 𝜑 (𝑥)) (1.66) Khẳng định này được chứng minh với xích Markov điều khiển được đã cho thỏa mãn điều kiện 1 và 2 Tuy nhiên, hàm 𝐹 không thỏa mãn điều kiện 3 Vì vậy vấn đề tính duy nhất của phương án cho đẳng thức (1.65) yêu cầu một điều kiện bổsung Đồng thời ta thu được các điều kiện đủ cho 𝜌 (𝑥) bị chặn Định lý 1.12 Cho một xích Markov điều khiển được thỏa mãn điều kiện 1 và
2 và các hàm 𝑓 (𝑥, 𝑦, 𝑢) xuất hiện trong định nghĩa hàm 𝐹(𝒙, 𝒖) là nửa liên tục dưới, bị chặn đồng thời và 𝑓 ≥ 𝛿 ≥ 0, và cho dãy số nguyên tăng 𝑛 0) và cũng giả thiết rằng nếu hệ thống làm việc sai hoặc ngừng hoạt động, người ta phải mất phí tổn là 𝑐 đơn vị tiền tệ trên một đơn vị thời gian (𝑐 > 0) Cũng giả thiết thêm rằng chúng ta chỉ phát hiện hệ thống làm việc sai hoặc ngừng hoạt động bằng kiểm tra định kỳ
Vấn đề đặt ra trong thực tiễn là: Nếu đặt các điểm kiểm tra quá dày thì tốn kém do kinh phí kiểm tra quá lớn, nếu đặt các điểm kiểm tra quá thưa thì từ khi hệ thống làm việc sai hoặc ngừng hoạt động đến khi chúng ta phát hiện ra nó (tại điểm kiểm tra) là quá muộn, do đó tổn phí cũng sẽ quá lớn
Vậy phải xây dựng chiến lược kiểm tra như thế nào (xác định các mốc kiểm tra theo thời gian) sao cho mức thiệt hại là thấp nhất
Bài toán đó dẫn tới việc nghiên cứu và giải quyết mô hình điều khiển ngẫu nhiên sau.
Xây d ựng mô hình điề u khi ể n cho bài toán
Giả sử trên không gian xác suất (𝛺, 𝒜, 𝑃) tồn tại đại lượng ngẫu nhiên
𝜉 có hàm phân phối 𝐹 (𝑡) đã biết và thỏa mãn các điều kiện:
• 𝐸𝜉 < +∞, trong đó 𝐸𝑧 là kỳ vọng toán học của đại lượng ngẫu nhiên 𝑧
Kí hiệu 𝑅 = [0, +∞), 𝑅 ∗ = 𝑅 ∪ {+∞} (𝑅 ∗ là không gian compact)
Hệ điều khiển được với quá trình cơ bản 𝑋 = {𝑥 , 𝑛 = 1,2, … } và chiến lược
𝑈 = {𝑢 , 𝑛 = 1, 2, … } được xác định bởi phương pháp đệqui như sau:
Với điều kiện 𝑥 = 𝑥, 𝑥 ∈ 𝑅 là trạng thái đầu của quá trình cơ bản, khi đó điều khiển được chọn tương ứng là 𝑢 (𝑥 ) = 𝑢 , 𝑢 ∈ 𝑅 Giả sử ở bước thứ 𝑛 (𝑛 ≥ 1) quá trình cơ bản có trạng thái 𝑥 và chúng ta chọn điều khiển tương ứng là 𝑢 (𝑥 ) = 𝑢 (𝑥 ∈ 𝑅 , 𝑢 ∈ 𝑅 ), thì trạng thái 𝑥 được xác định bởi công thức
𝑥 = 𝑥 + 𝑢 , 𝑛 = 1, 2, … Điều khiển được chọn tương ứng xác định như sau
𝑢 (𝑥 ) = 𝑢 , 𝑢 ∈ 𝑅 Định nghĩa 2.1 Dãy các điều khiển 𝑈 ≔ {𝑢 = 𝑢 (𝑥 ), 𝑛 = 1, 2, … } được gọi là một chiến lược Định nghĩa 2.2 Nếu ở bước thứ 𝑛, trạng thái của quá trình cơ bản là 𝑥 và điều khiển được chọn tương ứng là 𝑢 (𝑥 ∈ 𝑅 , 𝑢 ∈ 𝑅 ) thì giá của bước này được xác định theo công thức sau
𝜙(𝑥, 𝑢) = 𝐸 𝑎 + 𝑐 max(0, 𝑥 + 𝑢 − 𝜉) | Ở đây 𝑎 là hằng số dương và là giá chi phí cho một lần điều khiển, còn
𝑐 cũng là hằng số dương và là thiệt hại (tính trên một đơn vị thời gian) của thời gian trễ từ 𝜉 (thời điểm đối tượng điều khiển làm việc sai hoặc ngừng hoạt động) đến lần điều khiển tiếp theo Kí hiệu
Nghĩa là 𝜏 là thời điểm đầu tiên của quá trình 𝑋 = {𝑥 , 𝑛 = 1, 2, … } được điều khiển bởi chiến lược 𝑈 = {𝑢 , 𝑛 = 1, 2, … } với điều kiện trạng thái đầu
𝑥 = 𝑥 rơi vào miền [𝜉, +∞) (𝜏 là thời điểm Markov)
76 Định nghĩa 2.3 Nếu quá trình cơ bản 𝑋 = {𝑥 , 𝑛 = 1, 2, … } được điều khiển bởi chiến lược 𝑈 = {𝑢 , 𝑛 = 1, 2, … } với điều kiện trạng thái đầu 𝑥 = 𝑥, 𝑥 ∈
𝑅 thì hàm giá được xác định như sau
𝛹 (𝑈) = 𝐸 𝜙(𝑥 , 𝑢 ) Ở đây 𝐸 ( ) là kỳ vọng toán học lấy theo phân phối xác suất cảm sinh bởi quá trình 𝑋 = {𝑥 , 𝑛 = 1, 2, … } với điều kiện trạng thái đầu 𝑥 = 𝑥, 𝑥 ∈
𝑅 và được điều khiển bởi chiến lược 𝑈 = {𝑢 = 𝑢 (𝑥 ), 𝑛 = 1, 2, … }
(i) Nếu trạng thái đầu của quá trình cơ bản 𝑥 = 𝑥 ≥ 𝜉 (𝑚𝑜𝑑 𝑃) thì bài toán trở thành tầm thường Bởi vậy chúng ta chỉ xét bài toán trên với điều kiện về trạng thái đầu 𝑥 là 𝑃[𝑥 < 𝜉] > 0
(ii) Nếu tại bước thứ 𝑛, chúng ta chọn 𝑢 = +∞, thì 𝜙(𝑥 , +∞) = +∞.
Do vậy chúng ta không chọn điều khiển 𝑢 = +∞, ∀ 𝑛 = 1, 2, … (nghĩa là bổ sung {+∞} vào 𝑅 để được 𝑅 ∗ là chính thức), từ đó chúng ta có thể xem không gian pha của điều khiển là compact
(iii) Chúng ta không chọn điều khiển 𝑢 = 0 vì nếu 𝑢 = 0, chúng ta xây dựng chiến lược 𝑈 = {𝑢 , 𝑘 = 1, 2, … } Trong đó
Từ đó chúng ta nhận được 𝛹 𝑈 + 𝑎 = 𝛹 (𝑈), suy ra 𝛹 𝑈 < 𝛹 (𝑈), do
𝑎 > 0 Bởi vậy chúng ta có thể giả thiết rằng
Kí hiệu ℳ là lớp tất cả các chiến lược U sao cho 𝛹 (𝑈) hữu hạn Chúng ta hạn chế chỉ xét các chiến lược thuộc lớp ℳ. Định nghĩa 2.4
(i) Hàm 𝜌(𝑥) = inf ∈ℳ 𝛹 (𝑈), ∀ 𝑥 ∈ 𝑅 , được gọi là giá tối ưu.
(ii) Nếu tồn tại chiến lược 𝑈 ∗ , 𝑈 ∗ ∈ ℳ, sao cho
Thì 𝑈 ∗ được gọi là chiến lược tối ưu.
S ự t ồ n t ạ i chi ến lượ c t ối ưu
∈ℳ𝛹 (𝑈) là hàm giới nội, đơn điệu không giảm và là hàm liên tục theo biến 𝑥 (với 𝑃[𝑥 < 𝜉] > 0)
Chọn chiến lược 𝑈 = {𝑢 ≡ 𝑞, 𝑛 = 1, 2, … } Suy ra với mọi 𝑥 ∈ 𝑅 , chúng ta có
Cho 0 < 𝑥 < 𝑦 với 𝑃[𝜉 > 𝑦] > 0 Chúng ta kí hiệu ℳ(𝑧) là lớp tất cả các chiến lược 𝑈 với điều kiện trạng thái đầu 𝑥 = 𝑧, nghĩa là ℳ(𝑧) ≔
𝑈 = {𝑢} với điều kiện trạng thái đầu 𝑥 = 𝑧 Để phân biệt các chiến lược 𝑈 với điều kiện trạng thái đầu 𝑥 = 𝑧, (𝑧 ∈ 𝑅 ), chúng ta ký hiệu: 𝑈 𝑈 , 𝑢 = 𝑢 , 𝑘 = 1, 2, … Từđó suy ra:
ℳ(𝑥) = 𝑈 = {𝑢 , 𝑘 = 1, 2, … } với điều kiện trạng thái đầu 𝑥 = 𝑥,
ℳ(𝑦) = 𝑈 = 𝑢 , 𝑘 = 1, 2, … với điều kiện trạng thái đầu 𝑥 = 𝑦,
Giả sử đã có chiến lược 𝑈 , chúng ta xây dựng chiến lược 𝑈 tương ứng như sau
Kí hiệu ℳ(𝑥) là lớp tất cả các chiến lược 𝑈 được xây dựng theo công thức (3.1) Khi đó chúng ta có
Vậy 𝜌(𝑥) là hàm đơn điệu không giảm
Chọn 𝜀 > 0 đủ bé sao cho 𝑥 − 𝜀 > 0 Chúng ta có
𝛹 (𝑈) ≥ 𝛹 (𝑈) − 𝜀𝑐 (3.2) Hoàn toàn tương tự ta có
Từ các kết quả (3.2) (3.3) chúng ta nhận được
Sử dụng tính chất đơn điệu không giảm của hàm 𝜌(𝑥) chúng ta có
Suy ra 𝜌(𝑥) là hàm liên tục □ Định lý 2.1
(i) Hàm 𝜌(𝑥) thỏa mãn phương trình Bellman
(ii) Tồn tại chiến lược tối ưu 𝑈 ∗ ≔ {𝑢 ∗ (𝑥 ) = 𝑢 ∗ , 𝑛 = 1, 2, … } sao cho
Do 𝜌(𝑥 + 𝑢) là hàm liên tục theo bổđề 2.1, 𝑃[𝜉 > 𝑥 + 𝑢] liên tục trái,
80 liên tục theo biến 𝑢, nên 𝜑(𝑢) là hàm liên tục trái Như vậy 𝜑(𝑢) là hàm nửa liên tục dưới và bị chặn dưới, 𝜑(𝑢) ≥ 0 ∀𝑢 ∈ 𝑅 ∗ Suy ra tồn tại 𝑢 ∗ > 0 sao cho
𝜌(𝑥) = 𝜑(𝑢 ∗ ) = min 𝜑(𝑢) □ Định lý 2.2 Phương trình
𝑃[𝜉 > 𝑥] 𝜌(𝑥 + 𝑢) (3.4) có nghiệm giới nội duy nhất
Giả sử 𝜌 (𝑥), 𝜌 (𝑥) là hai nghiệm giới nội của (3.4) Đặt 𝐾 sup∈ |𝜌 (𝑥) − 𝜌 (𝑥)| Do 𝜌 (𝑥), 𝜌 (𝑥) là các hàm giới nội nên 𝐾 là hữu hạn Áp dụng định lý 2.1, ta có
Chọn 0 < 𝜀 < min(𝑢 ∗ , 𝑢 ∗ ), sử dụng phương pháp quy nạp theo m, ta chứng minh được
Phương pháp xây dự ng chi ến lượ c t ối ưu và chiến lượ c 𝜺 − t ối ưu
𝜺 −tối ưu. Để phát biểu các kết quả tiếp theo, chúng ta xây dựng họ các hàm
𝑉 ( ) (𝑥), 𝑚 = 1, 2, … bằng phương pháp đệqui như sau Với mỗi 𝑛 cố định,
𝑛 ∈ 𝑁 , lấy 𝑉 ( ) (𝑥) là hàm liên tục bị chặn tùy ý Giả sử chúng ta đã có hàm
𝑉 ( ) (𝑥), (𝑚 ≥ 1), khi đó hàm 𝑉 ( ) (𝑥) được xác định bởi công thức
𝑃[𝜉 > 𝑥] 𝑉 ( ) (𝑥 + 𝑢) Định lý 2 3 Nếu 𝜌(𝑥) là nghiệm tối ưu của phương trình Bellman
𝜌(𝑥) = lim → lim → 𝑉 ( ) (𝑥), ∀𝑥 ∈ 𝑅 (𝑃[𝜉 > 𝑥] > 0). Trong đó giới hạn được hiểu theo nghĩa giới hạn lặp
Với mỗi 𝑛 cố định, 𝑛 ∈ 𝑁 , chúng ta ký hiệu ℳ(𝑛) là lớp tất cả các chiến lược
Gọi 𝜌 ( ) (𝑥) là giá tối ưu của điều khiển tối ưu hạn chế trên lớp ℳ , có nghĩa là
Lặp lại phương pháp chứng minh bổđề 2.1, định lý 2.1 và định lý 2.2, chúng ta nhận được các kết quả sau:
(i) 𝜌 ( ) (𝑥) là hàm giới nội, đơn điệu không giảm và liên tục theo biến 𝑥 với mỗi 𝑛 cốđịnh
(ii) 𝜌 ( ) (𝑥) 𝑛 = 1, 2, … là dãy đơn điệu không tăng và bị chặn dưới theo
(iii) Với 𝑛 đủ lớn thì 𝜌 ( ) (𝑥) là nghiệm của phương trình
(iv) Giả sử 𝜌 ( ) (𝑥) là nghiệm của phương trình (4.1) khi đó trên mọi đoạn hữu hạn [𝛼, 𝛽], (0 < 𝛼 < 𝛽, 𝑃[𝜉 > 𝛽] > 0) chúng ta có lim→ sup
Từ các kết quả (i), (ii), (iii), (iv) chúng ta nhận được
𝜌(𝑥) = lim → 𝜌 ( ) (𝑥) = lim → lim → 𝑉 ( ) (𝑥), ∀𝑥 ∈ 𝑅 Trong đó 𝜌(𝑥) là hàm bị chặn, đơn điệu không giảm, liên tục hầu khắp nơi trên 𝑅 và là nghiệm của phương trình
𝑃[𝜉 > 𝑥] 𝜌(𝑥 + 𝑢) Áp dụng kết quả của định lý 2, chúng ta có
Chi ến lượ c t ối ưu và giá t ối ưu trong trườ ng h ợ p th ờ i gian s ống là đại lượ ng ng ẫ u nhiên 𝝃 có phân ph ối mũ
sống là đại lượng ngẫu nhiên 𝝃 có phân phối mũ. Định nghĩa 2.5 Chúng ta nói rằng đại lượng ngẫu nhiên không âm 𝜉 có tính chất không có trí nhớ, nếu
Nghĩa là đại lượng ngẫu nhiên 𝜉 và đại lượng ngẫu nhiên 𝜉 − 𝑥 (với điều kiện
Lưu ý rằng đại lượng ngẫu nhiên không âm có tính chất không có trí nhớ khi và chỉ khi 𝜉 có phân phối mũ. Định lý 2.4 Nếu đại lượng ngẫu nhiên 𝜉 có phân phối mũ thì
Nghĩa là giá không phụ thuộc vào trạng thái xuất phát
Do đại lượng ngẫu nhiên 𝜉 có phân phối mũ nên đại lượng ngẫu nhiên
𝜉 và đại lượng ngẫu nhiên 𝜉 − 𝑥 có cùng phân phối Kí hiệu 𝜌(𝑥) = 𝜌 (𝑥) là giá tối ưu tương ứng với đại lượng ngẫu nhiên 𝜉 Đặt 𝜉 = 𝜉 − 𝑥 Do 𝜌(𝑥) chỉ phụ thuộc vào trạng thái đầu của quá trình cơ bản là 𝑥 = 𝑥 và hàm phân phối của 𝜉 là 𝐹 (𝑡) nên chúng ta có
𝜌 (𝑥) = 𝜌 (vì 𝜉, 𝜉′ có cùng phân phối) (5.1)
Mặt khác nếu 𝜉′ nhận giá trị 0 thì 𝜉 tương ứng nhận giá trị𝑥, nên chúng ta có
Từ các kết quả (5.1), (5.2) chúng ta nhận được 𝜌 (𝑥) = 𝜌 (0) Từđó suy ra
𝜌(𝑥) ≡ 𝐾 ≡ 𝑐𝑜𝑛𝑠𝑡, ∀ 𝑥 ∈ 𝑅 (𝑃[𝜉 > 𝑥] > 0) □ Định lý 2.5 Nếu đại lượng ngẫu nhiên 𝜉 có phân phối mũ với tham số
𝛼, (𝛼 > 0) thì giá tối ưu của điều khiển được xác định bởi công thức
Trong đó điều khiển tối ưu 𝑢 ∗ là nghiệm của phương trình
Chứng minh Áp dụng các kết quả của định lý 2.1 và định lý 2.4, chúng ta có
Do 𝜑(𝑢 ∗ ) = min 𝜑(𝑢) nên 𝜑 (𝑢 ∗ ) = 0trong đó
Từ các kết quả (5.3) và (5.4) chúng ta nhận được
Quá trình Markov điều khiển được là một quá trình có nhiều ứng dụng quan trọng trong kỹ thuật hiện đại Trong bài luận văn này, em đưa ra các khái niệm cơ bản về quá trình ngẫu nhiên điều khiển được, bài toán tối ưu, chỉ ra sự tồn tại và cấu trúc của điều khiển tối ưu và điều khiển 𝜀 −tối ưu, đưa ra phương trình đối với hàm giá tối ưu Từ đó xây dựng điều khiển tối ưu và hàm giá tối ưu của xích Markov điều khiển được, cũng như giải quyết các vấn đề liên quan tới điều khiển tối ưu của xích Markov điều khiển được thuần nhất
Về phần ứng dụng, em đưa ra một bài toán thực tiễn ứng dụng mô hình điều khiển bước nhảy và xây dựng mô hình và giải quyết bài toán xác định thời điểm kiểm tra tối ưu theo quan điểm của lí thuyết các quá trình ngẫu nhiên điều khiển được Từđóđưa ra kết quả mới đối với mô hình quá trình Markov điều khiển được đã được xây dựng tương ứng, cụ thể là: Chứng minh sự tồn tại chiến lược tối ưu; dẫn ra phương trình tối ưu Bellman đối với giá tối ưu; chứng minh các tính chất của hàm giá; đưa ra phương pháp xây dựng chiến lược tối ưu và tìm giá tối ưu; dẫn ra biểu thức giải tích tường minh đối với điều khiển tối ưu và giá tối ưu trong trường hợp thời gian xảy ra sự cố có phân phối mũ. Đây là lần đầu tiên em làm đề tài và vì trình độ bản thân còn nhiều hạn chế nên không thể tránh khỏi những thiếu sót Em rất mong nhận được những lời đóng góp từ quý thầy cô giáo và các độc giả để hoàn thiện bài nghiên cứu này
Em xin chân thành cảm ơn!
[1] NGUYỄN HỒNG HẢI, ĐẶNG THANH HẢI, Về một mô hình quá trình Markov bước nhảy bị điều khiển và áp dụng, Tạp chí Ứng Dụng Toán Học, tập III, số 1, 2005
[2] GICHMAN I I., SKOROHOD A V., Controlled Stochastic Processes, Springer – Verlag, New York, 1979.