Như ta đã bàn trong chương 1 về thiết kế bộ điều khiển phản hồi trạng thái tối ưu với thời gian tối ưu là vô hạn, hệ đã cho phải biết trước các tham số cụ thể là ma trận trạng thái A và ma trận đầu B để có thể giải được phương trình đại số Riccati. Việc không biết trước 2 ma trận A, B khiến cho áp dụng các thuật toán cổ điển ko thể áp dụng.
Với giả thiết các ma trận A B của hệ 1.1 là hằng số, nhưng ko biết trước, có rất nhiều các hướng đã được triển khai nhằm giải quyết vấn đề này. Paul J. Werbos với các công trình liên quan đến Reinfor Reinforcemenent learning and approximate dynamic programming (RLADP) tài liệu [9]
. Ngoài ra, hướng sử dụng nhận dạng nhằm đưa ra các tham số hệ thống để xây dựng bộ điều khiển tối ưu cũng đã được xem xét, nhưng do khối lượng tham số khá nhiều (ví dụ: ma trận A, B) nên việc ước lượng không khả thi. Trong nội dung chương này tác giả sẽ trình bày phương pháp xử lý vấn đề này.
Bài toán 2.1: Cho hệ tuyến tính tham số hằng (1.1) A và B là hai ma trận không
biết trước.
Hãy thiết kế luật điều khiển phản hồi trạng thái:
u Kx
Sao cho hàm mục tiêu:
1 min 2 0 T T T J x Qxu Ru dt
Với các điều kiện cho trước:
20
- (A B) điều khiển được và (A, Z) quan sát được để đảm bảo nghiệm duy nhất ARE làm hệ ổn định.
Gọi *
K là ma trận phản hồi trạng thái tối ưu, theo công thức (1.9) K* phải thỏa mãn: * * * 1 * 0 T T A P P A P BR B P * 1 T * K R B P
Rõ ràng việc không biết các ma trận A, B khiến cho phương trình 2.1 ko giải được. Lợi dụng các tính chất liên quan đến thuật toán của Kleinman ta đưa ra phương pháp lặp để tìm K*.