Luật điều khiển học củng cố dựa vào nghiệm HJI- 123docz.net

Để thiết lập mối quan hệ giữa RL và phương trình HJI, ta định nghĩa hàm chỉ tiêu chất lượng [75], [103], [122]: 𝐽 𝑥(0), 𝑢, 𝑑 = 𝑟(𝑥, 𝑢, 𝑑) ∞ 0 𝑑𝑡 (4.8) trong đó 𝑟 𝑥, 𝑢, 𝑑 = 𝑄(𝑥) + 𝑢𝑇𝑅𝑢 − 𝛾2𝑑𝑇𝑑 (4.9)

với 𝑄 𝑥 = 𝑕𝑇 𝑥 𝑕(𝑥), ∀𝑥 ≠ 0, 𝑄 𝑥 > 0, 𝑄 𝑥 = 0 ⟺ 𝑥 = 0. Hàm chi phí tối ưu dựa vào (4.12) [103], [122]:

𝑉 𝑥(0), 𝑢∗, 𝑑∗ = min

𝑢 max

𝑑 𝐽 𝑥(0), 𝑢, 𝑑 (4.10)

trong đó 𝑢∗ là luật điều khiển nhằm cực tiểu 𝐽 𝑥(0), 𝑢, 𝑑 trong khi 𝑑∗ là luật nhiễu xấu nhất nhằm cực đại 𝐽 𝑥(0), 𝑢, 𝑑 . Trong lý thuyết trò chơi ZDGT (Zero-sum Differential Game Theory) [11], [15], [34], [100], [103], [122] phương trình (4.10) mang ý nghĩa: Luật chơi của người thứ nhất (luật điều khiển 𝑢∗) nhằm giảm thiểu chi phí của mình trong khi luật chơi của người thứ hai (luật nhiễu xấu nhất 𝑑∗) nhằm tăng tối đa chi phí của đối thủ 𝑢∗. Lời giải của lý thuyết trò chơi này cũng chính là nghiệm của phương trình (4.10), đó là điểm yên ngựa (Saddle) (𝑢∗, 𝑑∗) [100], [103] sao cho:

𝑉 𝑥(0), 𝑢∗, 𝑑 ≤ 𝑉 𝑥(0), 𝑢∗, 𝑑∗ ≤ 𝑉 𝑥(0), 𝑢, 𝑑∗ (4.11)

Với luật điều khiển 𝑢(𝑥(𝑡)) và luật nhiễu 𝑑(𝑥(𝑡)) cho trước, định nghĩa hàm đánh giá luật điều khiển [103], [122]:

𝑉 𝑥(𝑡) = 𝑟(𝑥, 𝑢, 𝑑) ∞

𝑡

𝑑𝑡 (4.12)

Giả thiết 4.3: Hàm đánh giá 𝑉 𝑥 (4.12) với 𝑉 0 = 0, khả vi liên tục bậc nhất, đó là 𝑉(𝑥) ∈ 𝐶1, với mọi 𝑥 ∈ 𝛺𝑥.

Khi 𝑉 𝑥 có giá trị hữu hạn, sử dụng Giả thiết 4.3, ta chuyển phương trình (4.12) thành phương trình vi phân tương đương dưới dạng phương trình Lyapunov phi tuyến [100], [103]:

𝑟 𝑥, 𝑢, 𝑑 + 𝑉𝑥𝑇 𝑓 𝑥 + 𝑔 𝑥 𝑢 + 𝑘(𝑥)𝑑 = 0, 𝑉 0 = 0 (4.13)

trong đó 𝑉𝑥 = 𝜕𝑉 𝜕𝑥. Định nghĩa hàm Hamilton [103], [122]:

𝐻(𝑥, 𝑢, 𝑑, 𝑉𝑥) = 𝑉𝑥𝑇 𝑓 𝑥 + 𝑔 𝑥 𝑢 + 𝑘(𝑥)𝑑 + 𝑟 𝑥, 𝑢, 𝑑 (4.14)

Giả thiết 4.4: Phương trình (4.10) thỏa điều kiện sau (Điều kiện Nash) [100], [103], [122]: min 𝑢 max 𝑑 𝐽 𝑥 0 , 𝑢, 𝑑 = max 𝑑 min 𝑢 𝐽 𝑥 0 , 𝑢, 𝑑 (4.15)

Giả thiết này nhằm đảm bảo tồn tại nghiệm duy nhất cho 𝑉 𝑥(0), 𝑢∗, 𝑑∗ ở phương trình (4.10) [15]. Để đảm bảo điều kiện (4.15), điều kiện Isaacs sau phải thỏa [100]:

min

𝑢 max

𝑑 𝐻 𝑥, 𝑢, 𝑑, 𝑉𝑥 = max

𝑑 min

𝑢 𝐻 𝑥, 𝑢, 𝑑, 𝑉𝑥 (4.16)

Kết hợp với (4.11), điều kiện (4.16) trở thành [100]:

𝐻 𝑥, 𝑢∗, 𝑑, 𝑉𝑥 ≤ 𝐻 𝑥, 𝑢∗, 𝑑∗, 𝑉𝑥 ≤ 𝐻 𝑥, 𝑢, 𝑑∗, 𝑉𝑥 (4.17)

Với hàm Halmilton (4.14), và Giả thiết 4.4, phương trình HJI (4.6) có thể viết thành [122]:

min

𝑢 max

𝑑 𝐻 𝑥, 𝑢, 𝑑, 𝑉𝑥∗ = 0 (4.18)

trong đó 𝑉𝑥∗ = 𝜕𝑉∗ 𝜕𝑥. Từ đó, luật điều khiển tối ưu và luật nhiễu xấu nhất được xác định: 𝜕𝐻 𝑥, 𝑢, 𝑑∗, 𝑉𝑥∗ 𝜕𝑢 = 0 (4.19) 𝜕𝐻 𝑥, 𝑢∗, 𝑑, 𝑉𝑥∗ 𝜕𝑑 = 0 (4.20) Sử dụng (4.9), giải (4.19) và (4.20), ta có: 𝑢∗(𝑥) = −1 2𝑅 −1𝑔 𝑥 𝑇𝑉𝑥∗ (4.21) 𝑑∗(𝑥) = 1 2𝛾2𝑘 𝑥 𝑇𝑉𝑥∗ (4.22)

Bổ đề 4.2 [15]:Chọn trước 𝛾 > 0, giả sử tồn tại 𝑉∗ 𝑥 ≥ 0 khả vi liên tục và là nghiệm của phương trình HJI (4.6), nếu sử dụng luật điều khiển (4.21) và luật nhiễu (4.22), thì điều kiện Isaacs (4.17)sẽ thỏa, khi đó:

𝐻 𝑥, 𝑢∗, 𝑑, 𝑉𝑥∗ ≤ 𝐻 𝑥, 𝑢∗, 𝑑∗, 𝑉𝑥∗ ≤ 𝐻 𝑥, 𝑢, 𝑑∗, 𝑉𝑥∗ (4.23)

Hình 4.1 Sơ đồ ý tưởng về cấu trúc điều khiển ORADP

Phương trình vi phân HJI (4.6) phụ thuộc vào động học nội 𝑓(𝑥). Vì vậy, ý tưởng ban đầu là nhận dạng hệ thống, sau đó giải (4.6) để thiết kế bộ điều khiển. Tuy nhiên, do phương trình (4.6) không có nghiệm giải tích, nên kết quả nhận dạng nếu có cũng không thể sử dụng. Vì vậy, vấn đề xấp xỉ nghiệm không phụ thuộc vào thông tin động học nội 𝑓(𝑥) được đặt ra. Giải thuật ORADP phân tích và thiết kế sau đây sẽ đáp ứng được yêu cầu này.

Luật điều khiển học củng cố dựa vào nghiệm HJI

Tính cấp thiết của đề tài

Đối tượng và phạm vi nghiên cứu