Chỉ một số rất ít nghiên cứu về giải thuật RL, gần đây, đã kết hợp đặc tính tối ưu
𝐻∞ vào bài toán điều khiển thích nghi bền vững hệ phi tuyến chứa thành phần bất định, chịu tác động bởi nhiễu [10], [53], [103], [112]. Các nghiên cứu này sử dụng giải thuật lặp PI dựa vào cấu trúc ADP ba xấp xỉ hàm (H. 1.3). Tuy nhiên, với cấu trúc ba xấp xỉ hàm, ADP còn tồn tại một số hạn chế: Tính toán phức tạp, lãng phí tài nguyên, chậm hội tụ, cập nhật tham số giữa các xấp xỉ hàm là tuần tự qua nhiều bước lặp [100], [103]-[106]. Ngoài ra, các giải thuật này cần được khởi động bởi các luật điều khiển ổn định cho trước. Điều này làm giảm tính linh hoạt trong thiết kế, bởi vì trong một số ứng dụng đặc biệt, xác định trước luật điều khiển khởi tạo ổn định là điều thách thức.
Tăng tốc độ hội tụ, tăng tính linh hoạt trong thiết kế bằng cách giảm độ phức tạp tính toán, giảm tài nguyên hệ thống và thiết kế đơn giản luôn là động cơ thúc đẩy để nghiên cứu các giải thuật điều khiển [122], [125]. Nếu mỗi xấp xỉ hàm là một mạng thần kinh (Neural Network (NN)), thì với ba xấp xỉ hàm, số lớp ẩn và số đơn vị nút ở lớp ẩn, số lượng hàm tác động sẽ tăng lên theo cấp số nhân, kéo theo số phần tử trong ma trận trọng số sẽ tăng lên tương ứng. Với cấu trúc ADP sử dụng ba NN, đặc biệt khi áp dụng cho hệ thống đa biến, hồi tiếp đủ trạng thái thì số lượng tham số sẽ tăng lên đáng kể. Các trọng số NN phải được liên tục cập nhật trong suốt quá trình học, do đó chi phí tính toán là vấn đề thách thức. Khi sử dụng giải thuật PI để xấp xỉ nghiệm online, tốc độ hội tụ của giải thuật ngoài các yếu tố khác còn phụ thuộc rất nhiều vào cấu trúc chọn trước. Nếu nhiều xấp xỉ hàm được sử dụng, quá trình tính toán sẽ rất phức tạp, giải thuật chậm hội tụ là điều khó tránh khỏi.
Các giải thuật trong [10], [34], [103] ngoài việc đòi hỏi phải biết rõ các hàm thành phần trong phương trình mô tả hệ phi tuyến, trọng số NN còn phải cập nhật trong hai vòng lặp khác nhau, với lý do là phương trình HJI được xấp xỉ tuần tự bởi một loạt các phương trình HJB. Thủ tục như vậy sẽ dẫn đến nghiệm của các phương trình bị dư thừa gây lãng phí tài nguyên và cho hiệu quả thấp [122]. Ngoài ra, do các xấp xỉ hàm phụ thuộc lẫn nhau, nếu khởi tạo trọng số NN không phù hợp sẽ dẫn đến hệ kín mất ổn định ngay từ những thời điểm học đầu tiên [100]. Hay nói cách khác, tìm luật điều khởi tạo ổn định cho giải thuật là điều bắt buộc.
8
lượng xấp xỉ hàm trong cấu trúc điều khiển. [31], [125] đã đề xuất giải thuật SOLA (Single Online Approximator), trong đó chỉ duy nhất một NN được sử dụng để khắc phục hiện tượng nhiều xấp xỉ hàm. Ngoài ra, với SOLA, luật điều khiển ổn định để khởi động cho giải thuật là không cần thiết. Tuy nhiên, giải thuật này yêu cầu phải xác định trước thành phần động học nội trong mô hình hệ thống. Để kết hợp yếu tố thích nghi trong bài toán điều khiển tối ưu 𝐻∞ liên quan đến nghiệm HJI đồng thời khắc phục luôn hiện tượng dư thừa nghiệm, [122] đã đề xuất giải thuật xấp xỉ online nghiệm HJI sử dụng duy nhất một NN. Giải thuật này không cần biết trước và không cần sử dụng thông tin về động học nội trong hệ thống. Quá trình cập nhật tham số luật điều khiển và luật nhiễu trong giải thuật này đồng bộ trong cùng một bước lặp, ưu điểm hơn [103]. Tuy nhiên, giải thuật này vẫn còn gặp trở ngại, đó là phải ngưng cập nhật các tham số của hệ thống trong một khoảng thời gian đủ lớn để lấy tập mẫu huấn luyện cho lần cập nhật trọng số tiếp theo. Ngoài ra, giải thuật này vẫn còn đòi hỏi bộ điều khiển khởi tạo ổn định.