Để xấp xỉ luật điều khiển online trong giải thuật PI, các nghiên cứu [43], [67], [84], [123] (xem thêm các tài liệu tham khảo trong đó) đề xuất cấu trúc ADP (còn gọi là cấu trúc AC) sử dụng hai hoặc ba xấp xỉ hàm (H. 1.2 hoặc H. 1.3). Các xấp xỉ hàm trong ADP chủ yếu là các NN truyền thẳng một lớp có Thuộc tính 2.1. NN thứ nhất
23
đóng vai trò critic (Critic Neural Network (CNN)) dùng để xấp xỉ online hàm đánh giá tối ưu, các NN còn lại đóng vai trò actor (Actor Neural Network (ANN)) xấp xỉ luật điều khiển tối ưu (2.8). Luật cập nhật tham số của các NN phụ thuộc lẫn nhau. ANN cập nhật trọng số sử dụng tín hiệu từ CNN. Cấu trúc hai NN này đã được sử dụng trong bài toán điều khiển hệ phi tuyến với ngõ vào ràng buộc bão hòa [2], [3].
Giải thuật cập nhật các xấp xỉ hàm ADP trong điều khiển tối ưu cho hệ phi tuyến (1.1) có hai loại: Trọng số các NN cập nhật tuần tự ở hai bước lặp khác nhau [108]- [110] hoặc trọng số NN cập nhật đồng bộ trong một bước lặp [100], [101], [106]. Hai loại giải thuật này được trình như sau.
Giải thuật 2.4 ADP sử dụng hai NN cập nhật tuần tự
Bước 1: Khởi tạo tham số xấp xỉ hàm cho CNN và ANN, xấp xỉ hàm đánh giá 𝑉(0) dựa vào CNN và luật điều khiển 𝑢0 dựa vào ANN, gán 𝑙 = 0
Bước 2: Cập nhật tham số cho hàm đánh giá:
Sử dụng 𝑢(𝑙) điều khiển hệ thống thu thập mẫu dữ liệu để cập nhật trọng số cho CNN
Xác định hàm đánh giá 𝑉(𝑙+1) dựa vào CNN
Bước 3: Cập nhật tham số cho luật điều khiển:
Cập nhật ANN dựa vào gradient của 𝑉(𝑙+1)
Xác định luật điều khiển 𝑢(𝑙+1) dựa vào ANN
Bước 4: Xác định điều kiện kết thúc giải thuật: Nếu thỏa tiêu chuẩn hội tụ 𝑉(𝑙)− 𝑉(𝑙+1) ≤ 𝛿 với 𝛿 là số dương đủ nhỏ thì kết thúc giải thuật, ngược lại gán 𝑙 ← 𝑙 + 1
quay về Bước 2
Giải thuật 2.5 ADP sử dụng hai NN cập nhật đồng bộ
Bước 1: Khởi tạo tham số xấp xỉ hàm cho CNN và ANN, xấp xỉ hàm đánh giá 𝑉(0) dựa vào CNN và luật điều khiển 𝑢(0) dựa vào ANN, gán 𝑙 = 0
Bước 2: Cập nhật tham số:
Cập nhật trọng số CNN và ANN
24
Bước 3: Xác định điều kiện kết thúc giải thuật: Nếu thỏa tiêu chuẩn hội tụ 𝑉(𝑙)− 𝑉(𝑙+1) ≤ 𝛿 với 𝛿 là số dương đủ nhỏ thì kết thúc giải thuật, ngược lại gán 𝑙 ← 𝑙 + 1
quay về Bước 2
Giải thuật 2.4 và 2.5 sử dụng hai NN. Sau đây là các giải thuật ADP sử dụng ba NN (CNN, ANN1, ANN2) để giải bài toán điều khiển tối ưu 𝐻∞ cho hệ phi tuyến, trong đó thời điểm cập nhật trọng số NN về cơ bản khác với hai giải thuật nêu trên. Tùy theo cách cập nhật, ta chia thành hai loại: Hoặc trọng số CNN, ANN1 và ANN2 được cập nhật tuần tự ở ba bước lặp khác nhau [109], [112] (Giải thuật 2.6) hoặc trọng số CNN cập nhật đồng bộ với ANN1 nhưng ANN2 lại cập nhật tuần tự trong một bước lặp khác [103], [104], [100] (Giải thuật 2.7).
Giải thuật 2.6 ADP sử dụng ba NN cập nhật tuần tự
Bước 1: Khởi tạo tham số xấp xỉ hàm cho CNN và ANN1, ANN2, xấp xỉ hàm đánh giá
𝑉(0) dựa vào CNN và luật điều khiển 𝑢(0) dựa vào ANN1, luật nhiễu xấu nhất 𝑑(0) dựa vào ANN2, gán 𝑙 = 0
Bước 2: Cập nhật tham số cho hàm đánh giá:
Sử dụng 𝑢(𝑙) và 𝑑(𝑙) điều khiển hệ thống thu thập mẫu dữ liệu để cập nhật trọng số CNN
Xấp xỉ hàm đánh giá 𝑉(𝑙+1) dựa vào CNN
Bước 3: Cập nhật tham số cho luật điều khiển:
Cập nhật trọng số ANN1 dựa vào gradient của 𝑉(𝑙+1) cho đến khi hội tụ
Xác định luật điều khiển 𝑢(𝑙+1) dựa vào ANN1
Bước 4: Cập nhật tham số cho luật nhiễu:
Cập nhật trọng số ANN2 dựa vào gradient của 𝑉(𝑙+1) cho đến khi hội tụ
Xác định luật nhiễu 𝑑(𝑙+1) dựa vào ANN2
Bước 5: Xác định điều kiện kết thúc giải thuật: Nếu thỏa tiêu chuẩn hội tụ 𝑉(𝑙)− 𝑉(𝑙+1) ≤ 𝛿 với 𝛿 là số dương đủ nhỏ thì kết thúc giải thuật, ngược lại gán 𝑙 ← 𝑙 + 1
25
Giải thuật 2.7 ADP sử dụng ba NN cập nhật đồng bộ
Bước 1: Khởi tạo tham số xấp xỉ hàm cho CNN và ANN1, ANN2, xấp xỉ hàm đánh giá
𝑉(0) dựa vào CNN và luật điều khiển 𝑢(0) dựa vào ANN1, luật nhiễu xấu nhất 𝑑(0) dựa vào ANN2, gán 𝑙 = 0
Bước 2: Cập nhật tham số hàm đánh giá và luật điều khiển:
Cập nhật đồng thời trọng số CNN và ANN1 cho đến khi ANN1 hội tụ
Tính hàm đánh giá 𝑉(𝑙+1)dựa vào CNN, 𝑢(𝑙+1) dựa vào ANN1
Bước 3: Cập nhật tham số luật nhiễu:
Cập nhật trọng số ANN2 dựa vào gradient của 𝑉(𝑙+1) cho đến khi hội tụ
Tính 𝑑(𝑙+1) dựa vào ANN2
Bước 4: Xác định điều kiện kết thúc giải thuật: Nếu thỏa tiêu chuẩn hội tụ 𝑉(𝑙)− 𝑉(𝑙+1) ≤ 𝛿 với 𝛿 là số dương đủ nhỏ thì kết thúc giải thuật, ngược lại gán 𝑙 ← 𝑙 + 1
quay về Bước 2
Các giải thuật cập nhật đồng bộ 2.5 hoặc 2.7 được chứng minh là hiệu quả hơn so với các giải thuật cập nhật tuần tự 2.4 hoặc 2.6 về tốc độ hội tụ [100]. Vì vậy, các giải thuật cập nhật đồng bộ được chọn để phục vụ cho việc nâng cấp mở rộng các giải thuật học củng cố trong Luận án. Tuy nhiên, tất cả các giải thuật nêu trên sử dụng nhiều hơn một NN, do đó chi phí cập nhật và tài nguyên lưu trữ, tốc độ hội tụ vẫn còn là vấn đề thách thức, đặc biệt nếu NN có nhiều ngõ vào và cấu trúc nhiều nút ẩn. Vì vậy, rút gọn bớt số lượng NN trong các giải thuật là một trong những hướng nghiên cứu quan trọng cần thực hiện tiếp theo.