Cấu trúc điều khiển OADP được phát triển dựa trên cấu trúc cơ sở ADP sử dụng hai NN [9], [101]. Tuy nhiên, điểm khác biệt quan trọng là OADP không sử dụng NN cho luật điều khiển. NN dùng để xấp xỉ hàm đánh giá 𝑉 𝑥 , và được định nghĩa:
𝑉 𝑥 = 𝑊𝑇𝜙 𝑥 + 𝜀(𝑥) (3.18)
trong đó 𝑉 𝑥 giả sử thỏa giả thiết 3.3, 𝑊 là trọng số NN, 𝜙 𝑥 : ℝ𝑛 → ℝ𝑛 là véc tơ hàm tác động, với 𝑛 là số đơn vị nút ở lớp ẩn và 𝜀(𝑥) là sai số xấp xỉ NN. Với NN truyền thẳng một lớp, ta có thể chọn 𝜙 𝑥 sao cho 𝑛 → ∞, 𝜀 → 0 và 𝜀𝑥 = 𝜕𝜀 𝜕𝑥 → 0, ngoài ra với 𝑛 hữu hạn thì 𝜀(𝑥) ≤ 𝜀𝑚𝑎𝑥 và 𝜀𝑥 ≤ 𝜀𝑥𝑚𝑎𝑥, với 𝜀𝑚𝑎𝑥 và 𝜀𝑥𝑚𝑎𝑥 là các hằng số dương (Xem tính chất 2.1). Sử dụng (3.18) cho (3.7), Hamilton (3.8) trở thành: 𝐻 𝑥, 𝑢, 𝑊 = 𝑊𝑇𝜙𝑥 𝑓 𝑥 + 𝑔 𝑥 𝑢 + 𝑄 𝑥 + 𝑢𝑇𝑅𝑢 − 𝜀𝐻 = 0 (3.19) trong đó 𝜙𝑥 = 𝜕𝜙(𝑥) 𝜕𝑥 ∈ ℝ𝑛×𝑛 và 𝜀𝐻 được xác định: 𝜀𝐻 = −𝜀𝑥 𝑓 𝑥 + 𝑔 𝑥 𝑢 (3.20) Sử dụng NN (3.18) cho phương trình HJB (3.17), ta có: 𝑄 𝑥 + 𝑊𝑇𝜙𝑥𝑓 𝑥 −1 4𝑊 𝑇𝜙𝑥𝐺𝜙𝑥𝑇𝑊 + 𝜀𝐻𝐽𝐵 = 0 (3.21)
trong đó 𝜙𝑥 = 𝜕𝜙(𝑥) 𝜕𝑥 ∈ ℝ𝑛×𝑛 và 𝜀𝐻𝐽𝐵 là sai số thặng dư gây bởi NN:
𝜀𝐻𝐽𝐵 = 𝜀𝑥𝑇𝑓 𝑥 −1
2𝑊
𝑇𝜙𝑥𝐺𝜀𝑥 −1 4𝜀𝑥
𝑇𝐺𝜀𝑥 (3.22)
với 𝐺(𝑥) = 𝑔(𝑥)𝑅−1𝑔𝑇(𝑥) ∈ ℝ𝑛×𝑛 với 𝐺(𝑥) = 𝐺𝑇(𝑥) > 0. Cộng và trừ (3.22) với
1
2𝜀𝑥𝑇𝐺𝜀𝑥, sử dụng luật điều khiển tối ưu (3.16) và để ý đạo hàm của (3.18), ta có:
𝜀𝐻𝐽𝐵 = 𝜀𝑥𝑇 𝑓 𝑥 + 𝑔𝑢∗ +1 4𝜀𝑥
32
Tính chất 3.1:
𝐺𝑚𝑖𝑛 ≤ 𝐺(𝑥) ≤ 𝐺𝑚𝑎𝑥 (3.24)
trong đó 𝐺𝑚𝑖𝑛 = 𝜆𝑚𝑎𝑥(𝑅)𝑔𝑚𝑖𝑛2 , 𝐺𝑚𝑎𝑥 = 𝜆𝑚𝑖𝑛(𝑅)𝑔𝑚𝑎𝑥2 , với 𝜆𝑚𝑎𝑥(𝑅) và 𝜆𝑚𝑖𝑛(𝑅) lần lượt là giá trị riêng lớn nhất và nhỏ nhất của ma trận 𝑅.
Tính chất 3.2: Khi 𝑛 → ∞, 𝜀𝐻𝐽𝐵 hội tụ đều về giá trị không, với 𝑛 hữu hạn,
𝜀𝐻𝐽𝐵 bị chặn trong tập đóng [9].
Trọng số lý tưởng NN (3.18) chưa xác định, do đó 𝑉 𝑥 được xấp xỉ bởi:
𝑉 𝑥 = 𝑊𝑇𝜙 𝑥 (3.25)
trong đó 𝑊 ∈ ℝ𝑛 là trọng số NN xấp xỉ. Sử dụng 𝑉 𝑥 cho phương trình mục tiêu (3.7), gọi 𝑒1 là sai số của Hamilton (3.8) gây bởi NN xấp xỉ, ta có:
𝐻 𝑥, 𝑢, 𝑊 = 𝑊𝑇𝜙𝑥 𝑓 𝑥 + 𝑔 𝑥 𝑢 + 𝑄 𝑥 + 𝑢𝑇𝑅𝑢 = 𝑒1 (3.26)
Định nghĩa sai số xấp xỉ trọng số NN: 𝑊 = 𝑊 − 𝑊. Từ (3.26) và (3.19) ta có:
𝑒1 = −𝑊𝑇𝜙𝑥 𝑓 𝑥 + 𝑔 𝑥 𝑢 + 𝜀𝐻 (3.27)
Với bất kỳ luật điều khiển 𝑢 ∈ 𝑈(𝑥) cho trước, để 𝑊 → 𝑊, khi đó 𝑒1 → 𝜀𝐻, ta cần chỉnh định 𝑊 nhằm tối thiểu 𝐸1 =1
2𝑒1𝑇𝑒1 [101]. Sử dụng giải thuật suy giảm độ dốc chuẩn hóa (normalized gradient descent), luật cập nhật 𝑊 được định nghĩa:
𝑊 = −𝛼1𝜕𝐸1
𝜕𝑊 = −𝛼1
𝜎
𝜎𝑇𝜎 + 1 2 𝜎𝑇𝑊 + 𝑄 𝑥 + 𝑢𝑇𝑅𝑢 (3.28)
trong đó 𝜎 = 𝜙𝑥 𝑓(𝑥) + 𝑔 𝑥 𝑢 . Mẫu số bình phương của (3.28) nhận được bởi giải thuật Levenberg–Marquardt cải tiến bằng cách thay 𝜎𝑇𝜎 + 1 bằng 𝜎𝑇𝜎 + 1 2 [54].
Định lý 3.1 (Persistence of Excitation (PE)) [101]: Với bất kỳ luật điều khiển 𝑢
ổn định hệ kín (1.1), giả sử luật cập nhật thích nghi trọng số NN theo (3.28), nếu 𝜎
thỏa điều kiện PE (3.29) trong khoảng thời gian 𝑡, 𝑡 + 𝑇𝑃 , 𝑇𝑃 > 0, với mọi 𝑡:
𝛽1𝐼 ≤ 𝜎 (𝜏)𝜎 𝑇(𝜏)𝑑𝜏
𝑡+𝑇𝑃
𝑡
≤ 𝛽2𝐼 (3.29)
trong đó 𝜎 = 𝜎/(𝜎𝑇𝜎 + 1), 𝛽1 và 𝛽2 là các hằng số dương và 𝐼 là ma trận đơn vị có kích thước phù hợp:
Nếu 𝜀𝐻 = 0 thì sai số xấp xỉ trọng số NN hội tụ đến giá trị zero theo qui luật hàm mũ.
33
đến tập sai số thặng dư (residual error set). Chứng minh: Xem Phụ lục B.
Trong giải thuật AC [100], [101], CNN sử dụng luật cập nhật (3.28), trong đó 𝑢
được thay bởi xấp xỉ hàm ANN. Vì vậy, cần hai luật cập nhật khác nhau. Luật cập nhật CNN nhằm tối thiểu sai số bình phương xấp xỉ hàm trong khi luật cập nhật của ANN bảo đảm sự ổn định của toàn hệ kín. Ngược lại, giải thuật OADP trong luận án chỉ sử dụng duy nhất một NN nên luật cập nhật (3.28) không thể áp dụng trực tiếp, cần đề xuất mới theo hướng kết hợp cả hai mục tiêu trên vào một luật cập nhật trọng số NN duy nhất.
Với hàm đánh giá xấp xỉ 𝑉 𝑥 (3.25), luật điều khiển xấp xỉ sẽ là:
𝑢 = −1
2𝑅
−1𝑔 𝑥 𝑇𝑉 𝑥 𝑥 = −1 2𝑅
−1𝑔 𝑥 𝑇𝜙𝑥𝑇(𝑥)𝑊 (3.30) Sử dụng (3.25) và (3.30) cho phương trình mục tiêu (3.7), gọi 𝑒2 sai số của Hamilton (3.8) sinh ra bởi NN xấp xỉ và luật điều khiển xấp xỉ, ta có:
𝐻 𝑥, 𝑢 , 𝑊 = 𝑄 𝑥 + 𝑊𝑇𝜙𝑥𝑓 𝑥 + 𝑢 𝑇𝑅𝑢 = 𝑒2 (3.31)
Luật cập nhật 𝑊 nhằm tối thiểu sai số 𝐸2 =1
2𝑒2𝑇𝑒2 và ổn định hệ kín được đề xuất: 𝑊 = 𝑊 nếu 𝑥1 𝑇 𝑓(𝑥) + 𝑔 𝑥 𝑢 ≤ 0, 𝑊1 + 𝑊𝑅𝐵 ngược lại (3.32) trong đó 𝑊 1 = −𝛼1𝜕𝐸2 𝜕𝑊 = −𝛼1 𝜎 𝜎 𝑇𝜎 + 1 2 𝜎 𝑇𝑊 + 𝑄 𝑥 + 𝑢 𝑇𝑅𝑢 (3.33) 𝑊𝑅𝐵 =1 2𝛼2𝜙𝑥𝐺 𝑥 𝑥 (3.34) với 𝜎 = 𝜙𝑥 𝑓(𝑥) + 𝑔 𝑥 𝑢 . Luật cập nhật 𝑊1 được thiết kế dựa vào giải thuật Levenberg-Marquardt cải tiến sử dụng 𝜎 𝑇𝜎 + 1 2 thay cho 𝜎 𝑇𝜎 + 1 [54]. Việc điều chỉnh này nhằm mục đích chứng minh ổn định ở phần sau. Luật bền vững 𝑊𝑅𝐵
được thêm vào nhằm chứng minh định lý ổn định theo tiêu chuẩn bị chặn UUB.
Cấu trúc điều khiển trong giải thuật OADP được mô tả trên H. 3.1, trong đó chỉ sử dụng duy nhất một NN cho hàm đánh giá. Luật cập nhật trọng số NN, luật điều khiển cùng các thông tin cần thiết khác được mô tả bằng các khối tương ứng.
34
Hình 3.1 Cấu trúc điều khiển OADP sử dụng một NN