Cấu trúc điều khiển và luật cập nhật trong ORADP mở rộng

Một phần của tài liệu LUẬN ÁN TIẾN SĨ NGHIÊN CỨU GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG CHO HỆ PHI TUYẾN (Trang 113)

96

Cấu trúc ORADP với một NN đã thiết kế trong chương 4 sẽ được mở rộng trong chương này cho bài toán điều khiển hợp tác nhiều hệ phi tuyến.

Định nghĩa hàm đánh giá cho động học nút thứ 𝑖:

𝑉𝑖(𝑒𝑖, 𝑢𝑖, 𝑑𝑖) = 𝑟𝑖 𝑒𝑖, 𝑢𝑖, 𝑑𝑖 𝑑𝜏 ∞

𝑡

(6.20)

Giả thiết 6.1: Hàm đánh giá 𝑉𝑖(𝑒𝑖, 𝑢𝑖, 𝑑𝑖) (6.20) với 𝑉𝑖 0 = 0, khả vi đến bậc một, đó là 𝑉𝑖(𝑒𝑖, 𝑢𝑖, 𝑑𝑖) ∈ 𝐶1.

Với hai luật hồi tiếp trạng thái 𝑢𝑖 và 𝑑𝑖, hàm đánh giá (6.20) được viết thành:

𝑉𝑖 𝑒𝑖 𝑡 = 𝑟𝑖 𝑒𝑖, 𝑢𝑖, 𝑑𝑖 𝑑𝜏 𝑡+𝑇

𝑡

+ 𝑉 𝑒𝑖 𝑡 + 𝑇 (6.21)

Dựa vào giải thuật ORADP, hàm Hamilton hợp tác cho hệ phi tuyến 𝑖 được định nghĩa:

𝐻𝑖 𝑒𝑖, 𝑢𝑖, 𝑑𝑖, 𝑉𝑒𝑖 = 𝑟𝑖 𝑒𝑖, 𝑢𝑖, 𝑑𝑖 + 𝑉𝑒𝑖𝑇𝐹𝑒𝑖 + 𝑉𝑒𝑖𝑇 𝑕𝑖 + 𝑧𝑖 𝐺𝑖 𝑥𝑖 𝑢𝑖 + 𝐾𝑖 𝑥𝑖 𝑑𝑖 − 𝐺𝑗 𝑥𝑗 𝑢𝑗 + 𝐾𝑗(𝑥𝑗)𝑑𝑗

𝑗 ∈ℕ𝑖

(6.22) trong đó 𝑉𝑒𝑖 = 𝜕𝑉𝑖(𝑒𝑖)/𝜕𝑒𝑖. Từ đó, theo giải thuật ORADP luật điều khiển tối ưu và luật nhiễu xấu nhất hồi tiếp trạng thái 𝑢𝑖∗ và 𝑑𝑖∗ có thể tìm được bởi điều kiện dừng từ (6.22) như sau:

𝑢𝑖∗(𝑒𝑖) = −1

2 𝑕𝑖 + 𝑧𝑖 𝑅𝑖−1𝐺𝑖𝑇 𝑥𝑖 𝑉𝑒𝑖∗ (6.23)

𝑑𝑖∗(𝑒𝑖) = 1

2𝜌𝑖2 𝑕𝑖 + 𝑧𝑖 𝐾𝑖𝑇 𝑥𝑖 𝑉𝑒𝑖∗ (6.24) trong đó 𝑉𝑒𝑖∗ = 𝜕𝑉𝑖∗(𝑒𝑖)/𝜕𝑒𝑖, với 𝑉𝑖∗ 𝑒𝑖 = 𝑉𝑖 𝑒𝑖(0), 𝑢𝑖∗, 𝑑𝑖∗ là hàm đánh giá tối ưu của các luật hồi tiếp trạng thái. Với mọi đối tượng 𝑖 và các đối tượng lân cận 𝑗, phương trình HJI hợp tác nhận được bằng cách thay (6.23) và (6.24) vào (6.22):

𝑄𝑖 𝑒𝑖 + 𝑉𝑒𝑖∗𝑇𝐹𝑒𝑖 −1 4 𝑕𝑖 + 𝑧𝑖 2𝑉𝑒𝑖∗𝑇 𝐺𝑖 𝑥𝑖 𝑅𝑖−1𝐺𝑖𝑇 𝑥𝑖 − 1 𝜌𝑖2𝐾𝑖 𝑥𝑖 𝐾𝑖𝑇 𝑥𝑖 𝑉𝑒𝑖∗ +1 2 𝑎𝑖𝑗𝑉𝑒𝑖 ∗𝑇 𝑕𝑗 + 𝑧𝑗 𝐺𝑗 𝑥𝑗 𝑅𝑗−1𝐺𝑗𝑇 𝑥𝑗 − 1 𝜌𝑗2𝐾𝑗 𝑥𝑗 𝐾𝑗𝑇 𝑥𝑗 𝑉𝑒𝑗∗ = 0 𝑗 ∈ℕ𝑖 (6.25)

Theo giải thuật ORADP, phương trình (6.25) luôn tồn tại nghiệm cục bộ không âm

𝑉𝑖∗(𝑒𝑖). Tuy nhiên, phương trình này phụ thuộc động học nội 𝐹𝑒𝑖 và không có nghiệm giải tích. Vì vậy, bài toán xấp xỉ nghiệm không phụ thuộc vào 𝐹𝑒𝑖 được đặt ra.

97

NN xấp xỉ cho hàm đánh giá được định nghĩa:

𝑉𝑖 𝑒𝑖 = 𝑊𝑖𝑇𝜙𝑖 𝑒𝑖 + 𝜀𝑖(𝑒𝑖) (6.26)

trong đó 𝑊𝑖 ∈ ℝ𝑛𝑕 trọng số NN, 𝜙𝑖 𝑒𝑖 : ℝ𝑛 → ℝ𝑛𝑕 là véc tơ hàm tác động, với 𝑛𝑕 là số đơn vị nút ở lớp ẩn và 𝜀(𝑥) là sai số xấp xỉ NN.

Tính chất 6.1(Xấp xỉ) [48]: Có thể chọn 𝜙𝑖 𝑒𝑖 sao cho 𝑛𝑕 → ∞, 𝜀𝑖(𝑒𝑖) → 0 và

𝜀𝑒𝑖(𝑒𝑖) = 𝜕𝜀𝑖(𝑒𝑖) 𝜕𝑒𝑖 → 0, ngoài ra với 𝑛𝑕 hữu hạn thì 𝜀𝑖(𝑒𝑖) ≤ 𝜀𝑖𝑚𝑎𝑥 và

𝜀𝑒𝑖(𝑒𝑖) ≤ 𝜀𝑒𝑖𝑚𝑎𝑥 , với 𝜀𝑖𝑚𝑎𝑥 và 𝜀𝑒𝑚𝑎𝑥 là các hằng số dương. Sử dụng (6.26) cho phương trình HJI (6.25), ta có:

𝑄𝑖 𝑒𝑖 + 𝑊𝑖𝑇𝜙𝑒𝑖𝐹𝑒𝑖 −1 4 𝑕𝑖 + 𝑧𝑖 2𝑊𝑖𝑇𝜙𝑒𝑖 𝐺 𝑖 − 𝐾𝑖 𝜙𝑒𝑖𝑇𝑊𝑖 +1 2𝑊𝑖 𝑇𝜙𝑒𝑖 𝑎𝑖𝑗 𝑕𝑗 + 𝑧𝑗 𝐺 𝑗 − 𝐾𝑗 𝜙𝑒𝑗𝑇 𝑊𝑗 + ℰ𝐻𝐽𝐼𝑖 = 0 𝑗 ∈ℕ𝑖 (6.27) trong đó 𝐺 𝑖 = 𝐺𝑖𝑅𝑖−1𝐺𝑖𝑇, 𝐾𝑖 = 𝐾𝑖𝐾𝑖𝑇/𝜌𝑖2 và ℰ𝐻𝐽𝐼𝑖 là sai số gây bởi xấp xỉ hàm:

ℰ𝐻𝐽𝐼𝑖 = 𝜀𝑒𝑖𝑇𝐹𝑒𝑖 + 𝑕𝑖 + 𝑧𝑖 𝜀𝑒𝑖𝑇 𝐺𝑖𝑢𝑖∗+ 𝐾𝑖𝑑𝑖∗ +1 4 𝑕𝑖 + 𝑧𝑖 2𝜀𝑒𝑖𝑇 𝐺 𝑖 − 𝐾𝑖 𝜀𝑒𝑖 − 𝜀𝑒𝑖𝑇 × 𝑎𝑖𝑗 𝑕𝑗 + 𝑧𝑗 𝐺𝑗𝑢𝑗∗+ 𝐾𝑗𝑑𝑗∗ 𝑗 ∈ℕ𝑖 +1 2𝑊𝑖 𝑇𝜙𝑒𝑖 𝑎𝑖𝑗 𝑕𝑗 + 𝑧𝑗 𝐺 𝑗 − 𝐾𝑗 𝜀𝑒𝑗 𝑗 ∈ℕ𝑖 (6.28)

Thuộc tính của (6.28) là khi 𝑛𝑕 → ∞, ℰ𝐻𝐽𝐼𝑖 hội tụ đều đến giá trị không, với 𝑛𝑕 hữu hạn, ℰ𝐻𝐽𝐼𝑖 bị chặn trong tập đóng [104].

Tính chất 6.2: Theo giả thiết 6.1, 𝐺 𝑖, ∀𝑖 = 1, … , 𝑁, là ma trận bị chặn với

𝐺 𝑖𝑚𝑖𝑛 ≤ 𝐺 𝑖 ≤ 𝐺 𝑖𝑚𝑎𝑥, với 𝐺 𝑖𝑚𝑖𝑛 = min1≤∀𝑘≤𝑚 𝑔𝑖𝑘𝑚𝑖𝑛2 𝜆𝑚𝑎𝑥(𝑅𝑖) và 𝐺 𝑖𝑚𝑎𝑥 = min1≤∀𝑘≤𝑚 𝑔𝑖𝑘𝑚𝑎𝑥2 𝜆𝑚𝑖𝑛(𝑅𝑖), với 𝜆𝑚𝑖𝑛(𝑅𝑖) và 𝜆𝑚𝑎𝑥(𝑅𝑖) lần lượt là các giá trị riêng lớn nhất và nhỏ nhất của ma trận 𝑅𝑖.

Tính chất 6.3: Theo giả thiết 6.2, 𝐾𝑖, ∀𝑖 = 1, … , 𝑁, là ma trận bị chặn sao cho

𝐾𝑖𝑚𝑖𝑛 ≤ 𝐾𝑖 ≤ 𝐾𝑖𝑚𝑎𝑥, với 𝐾𝑖𝑚𝑖𝑛 = min1≤∀𝑘≤𝑚 𝑘𝑖𝑘𝑚𝑖𝑛2 𝜌𝑖2, 𝐾𝑖𝑚𝑎𝑥 = max1≤∀𝑘≤𝑚

𝑘𝑖𝑘𝑚𝑎𝑥2 𝜌𝑖2.

Giả thiết 6.7: Với mọi 𝑖 = 1, … , 𝑁, động học bám vòng kín của đối tượng 𝑖 bị

chặn với 𝑕𝑖 + 𝑧𝑖 𝐺𝑖𝑢𝑖∗+ 𝐾𝑖𝑑𝑖∗ ≤ 𝛾𝑖𝑚𝑎𝑥 với 𝛾𝑖𝑚𝑎𝑥 là hằng số dương. Theo các tính chất 6.2, 6.3 và giả thiết 6.7, ℰ𝐻𝐽𝐼𝑖 bị chặn bởi: ℰ𝐻𝐽𝐼𝑖 < ℰ𝐻𝐽𝐼𝑖𝑚𝑎𝑥 = 𝜀𝑒𝑖𝑚𝑎𝑥 𝑕𝑖 + 𝑧𝑖 𝛾𝑖𝑚𝑎𝑥 +1

4𝜀𝑒𝑖𝑚𝑎𝑥

98 +𝜀𝑒𝑖𝑚𝑎𝑥 𝑎𝑖𝑗𝛾𝑖𝑚𝑎𝑥

𝑗 ∈ℕ𝑖

+1

2𝑊𝑖𝑚𝑎𝑥𝜙𝑒𝑖𝑚𝑎𝑥 𝑗 ∈ℕ𝑖𝑎𝑖𝑗 𝑕𝑗 + 𝑧𝑗 𝐺 𝑗𝑚𝑎𝑥 − 𝐾𝑗𝑚𝑎𝑥 𝜀𝑒𝑗𝑚𝑎𝑥 Trọng số NN lý tưởng (6.26) không có sẵn, vì vậy, hàm đánh giá được xấp xỉ bởi:

𝑉 𝑖 𝑒𝑖 = 𝑊𝑖𝑇𝜙𝑖 𝑒𝑖 (6.30)

Từ đó, ta có luật điều khiển tối ưu xấp xỉ và luật nhiễu xấu nhất xấp xỉ:

𝑢 𝑖 = −1

2 𝑕𝑖 + 𝑧𝑖 𝑅𝑖−1𝐺𝑖 𝑥𝑖 𝑇𝜙𝑒𝑖𝑇𝑊𝑖 (6.31)

𝑑 𝑖 = 1

2𝜌𝑖2 𝑕𝑖 + 𝑧𝑖 𝐾𝑖𝑇 𝑥𝑖 𝜙𝑒𝑖𝑇𝑊𝑖 (6.32) Hàm Hamilton xấp xỉ nhận được bằng cách thay (6.30), (6.31) và (6.32) vào (6.22)

𝐻𝑖 𝑒𝑖, 𝑊𝑖 = 𝑄𝑖 𝑒𝑖 + 𝑊𝑖𝑇𝜙𝑒𝑖𝐹𝑒𝑖 −1 4 𝑕𝑖 + 𝑧𝑖 2𝑊𝑖𝑇𝜙𝑒𝑖 𝐺 𝑖 − 𝐾𝑖 𝜙𝑒𝑖𝑇𝑊𝑖 +1 2𝑊𝑖 𝑇𝜙𝑒𝑖 𝑎𝑖𝑗 𝑕𝑗 + 𝑧𝑗 𝐺 𝑗 − 𝐾𝑗 𝜙𝑒𝑗𝑇 𝑊𝑗 𝑗 ∈ℕ𝑖 (6.33)

Thay (6.30), (6.31) và (6.32) vào phương trình mục tiêu (6.21), gọi 𝑒𝑝𝑖 là sai số gây ra bởi NN, luật điều khiển và luật nhiễu xấp xỉ, ta có:

𝑒𝑝𝑖 = 𝑊𝑖𝑇∆𝜙𝑖 𝑒𝑖 + 𝑄𝑖(𝑒𝑖) +1 4 𝑕𝑖 + 𝑧𝑖 2𝑊𝑖𝑇𝜙𝑒𝑖 𝐺 𝑖 − 𝐾𝑖 𝜙𝑒𝑖𝑇𝑊𝑖 𝑑𝜏 𝑡+𝑇 𝑡 (6.34) trong đó ∆𝜙𝑖 𝑒𝑖 = 𝜙𝑖 𝑒𝑖(𝑡 + 𝑇) − 𝜙 𝑒𝑖(𝑡) .

Luật cập nhật để tối thiểu sai số 𝐸𝑝𝑖 =1

2𝑒𝑝𝑖𝑇𝑒𝑝𝑖 ổn định hệ kín và không phụ thuộc vào động học nội 𝐹𝑒𝑖 được đề xuất:

𝑊 𝑖 = 𝑊 1𝑖 nếu 𝑒𝑖(𝑡+𝑇) 𝑇 𝑒𝑖(𝑡+𝑇) ≤ 𝑒𝑖𝑡𝑇𝑒𝑖𝑡, 𝑊 1𝑖 + 𝑊𝑅𝐵𝑖 ngược lại (6.35) trong đó 𝑒𝑖(𝑡+𝑇) = 𝑒𝑖(𝑡 + 𝑇), 𝑒𝑖𝑡 = 𝑒𝑖𝑡(𝑡) và 𝑊 1𝑖 = −𝛼1𝑖 𝜎 𝑖 𝜎 𝑖𝑇𝜎 𝑖 + 1 2 𝜎𝑖𝑇𝑊1𝑖 + 𝑄𝑖(𝑒𝑖) +1 4 𝑕𝑖 + 𝑧𝑖 2𝑊1𝑖𝑇𝜙𝑒𝑖 𝐺 𝑖 − 𝐾𝑖 𝜙𝑒𝑖𝑇𝑊1𝑖 𝑑𝜏 𝑡+𝑇 𝑡 (6.36)

99 𝑊𝑅𝐵𝑖 = −𝛼2 2 𝑕𝑖 + 𝑧𝑖 𝜙𝑒𝑖 𝑡+𝑇 𝑡 𝐺 𝑖 − 𝐾𝑖 𝑒𝑖𝑑𝜏 −𝛼2 2 𝑎𝑖𝑗 𝑕𝑗 + 𝑧𝑗 𝜙𝑒𝑗 𝐺 𝑗 − 𝐾𝑗 𝑗 ∈ℕ𝑖 𝑡+𝑇 𝑡 𝑒𝑗𝑑𝜏 (6.37)

𝜎 𝑖 trong phương trình (6.36) được tính như sau:

𝜎 𝑖 = 𝜙𝑒𝑖 𝐹𝑒𝑖 −1 2 𝑕𝑖 + 𝑧𝑖 2 𝐺 𝑖 − 𝐾𝑖 𝜙𝑒𝑖𝑇𝑊𝑖 𝑡+𝑇 𝑡 +1 2 𝑎𝑖𝑗 𝑕𝑗 + 𝑧𝑗 𝐺 𝑗 − 𝐾𝑗 𝜙𝑒𝑗𝑇 𝑊𝑗 𝑗 ∈ℕ𝑖 𝑑𝜏 (6.38)

Sử dụng động học bám đối tượng 𝑖 từ động học toàn hệ thống (6.13) với luật (6.31) và (6.32) và để ý rằng 𝑒 𝑖 = 𝑒 𝑞𝑖𝑇, 𝑒 𝜗𝑖𝑇 𝑇, 𝜎 𝑖 trở thành:

𝜎 𝑖 = 𝜙𝑒𝑖 𝑡+𝑇 𝑡

𝑒 𝑖𝑑𝜏 = 𝜙𝑖 𝑒𝑖(𝑡 + 𝑇) − 𝜙 𝑒𝑖(𝑡) = ∆𝜙𝑖 𝑒𝑖 (6.39)

𝑊 1𝑖 trong phương trình (6.36) được tạo thành từ luật suy giảm độ dốc trong giải thuật Levenberg-Marquardt với số hạng (𝜎 𝑖𝑇𝜎 𝑖 + 1) được thay bằng (𝜎 𝑖𝑇𝜎 𝑖 + 1)2 liên quan đến việc chứng minh tính ổn định của hệ thống ở phần sau. 𝑊𝑅𝐵𝑖 trong (6.35) được thêm vào nhằm bảo đảm hệ thống sẽ ổn định theo tiêu chuẩn UUB.

Chú ý 6.2: Luật cập nhật (6.35) không liên quan đến động học nội 𝐹𝑒𝑖(𝑡) trong hệ thống, vì vậy áp dụng luật này cho (6.31), (6.32) và nếu chứng minh được rằng hệ kín ổn định thì (6.31) trở thành luật điều khiển bám thích nghi bền vững.

Cấu trúc điều khiển ORADP mở rộng cho đối tượng phi tuyến i được đề xuất trên H. 6.2, trong đó chỉ cần một NN. Chú ý rằng các đại lượng mang chỉ số 𝑗, ∀𝑗 ∈ ℕ𝑖, biểu thị luồng thông tin từ các đối tượng lân cận đến đối tượng 𝑖.

Với cấu trúc ORADP, tiếp theo, ta thiết kế luật cập nhật trọng số NN và mở rộng giải thuật ORADP để tham số hệ thống cập nhật đồng thời trong một bước lặp và liên tục, tránh trường hợp phải ngưng cập nhật tham số trong một thời gian để thu thập mẫu dữ liệu cho lần cập nhật tiếp theo [122].

Để bảo đảm sự hội tụ của 𝑊𝑖, ngõ vào điều khiển và nhiễu phải được kích thích đầy đủ. Do đó, điều kiện PE (Persistence of Excitation) (Định lý 4.3) trong khoảng thời gian [𝑡, 𝑇𝑃], 𝑇𝑃 > 0, thỏa với mọi 𝑡 được sử dụng:

100

Hình 6.2 Cấu trúc ORADP mở rộng điều khiển hợp tác nhiều hệ phi tuyến

𝛽1𝑖𝐼 ≤ 𝜎 𝑖(𝜏)𝜎 𝑖𝑇(𝜏)𝑑𝜏 𝑡+𝑇𝑃

𝑡

≤ 𝛽2𝑖𝐼 (6.40)

trong đó 𝛽1𝑖, 𝛽2𝑖 là các hằng số dương, 𝜎 𝑖 = 𝜎 𝑖/(𝜎 𝑖𝑇𝜎 𝑖 + 1) và 𝐼 là ma trận đơn vị có kích thước phù hợp.

Một phần của tài liệu LUẬN ÁN TIẾN SĨ NGHIÊN CỨU GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG CHO HỆ PHI TUYẾN (Trang 113)

Tải bản đầy đủ (PDF)

(175 trang)