Hệ thống học củng cố kinh điển trong điều khiển được mô tả bởi:
Tập hữu hạn trạng thái Ω𝑥 = 𝑥1, 𝑥2, … , 𝑥𝑁 ∈ ℝ𝑁
Ở mỗi trạng thái 𝑥 ∈ Ω𝑥, có tập hữu hạn các tín hiệu điều khiển 𝑈 𝑥
Mô hình đối tượng điều khiển 𝑥𝑘+1 = 𝑓(𝑥𝑘, 𝑢(𝑥𝑘)) với 𝑢(𝑥𝑘) ∈ 𝑈 𝑥𝑘 là tín hiệu điều khiển để chuyển trạng thái hệ thống từ 𝑥𝑘 sang 𝑥𝑘 +1
15
cho chi phí điều khiển khi áp dụng luật điều khiển 𝑢(𝑥𝑘) ở trạng thái 𝑥𝑘
Luật điều khiển 𝑢 𝑥 : Ω𝑥 → 𝑈(𝑥) sao cho nếu áp dụng 𝑢 𝑥 từ trạng thái 𝑥0
sẽ phát sinh ra quỹ đạo trạng thái 𝑥0, 𝑥1, 𝑥2, …, thỏa điều kiện: ∀𝑘 = 1, … , 𝑁 − 1, 𝑥𝑘+1 = 𝑓(𝑥𝑘, 𝑢(𝑥𝑘))
Hàm biểu diễn tổng chi phí cộng dồn xuất phát từ 𝑥0 khi tín hiệu điều khiển
𝑢 𝑥𝑘 được áp dụng dọc theo quỹ đạo trạng thái, ∀𝑥𝑘 ∈ Ω𝑥 được gọi là hàm chỉ tiêu chất lượng hoặc hàm chi phí của 𝑢(𝑥𝑘):
𝐽 𝑥0 = 𝑟(𝑥𝑘, 𝑢(𝑥𝑘)) 𝑁
𝑘=0
(2.3) Để ý rằng hàm chi phí 𝐽 𝑥0 chỉ phụ thuộc vào luật điều khiển 𝑢(𝑥) và trạng thái khởi tạo 𝑥0.
𝐽 𝑥0 có thể phân kỳ, chỉ hội tụ khi hàm chi phí 𝑟 𝑥𝑘, 𝑢(𝑥𝑘) đạt đến giá trị bằng không trong thời gian hữu hạn. Trong trường hợp tổng quát, nhằm đảm bảo 𝐽 𝑥0 hội tụ theo tiêu chuẩn chuỗi giảm dần, hệ số hàm mũ 𝛾𝑘 được sử dụng [96], [99]:
𝐽 𝑥0 = 𝛾𝑘𝑟(𝑥𝑘, 𝑢(𝑥𝑘)) 𝑁
𝑘=0
(2.4) trong đó 𝛾 ∈ 0, 1 . Hàm đánh giá 𝑉 𝑥𝑘 của trạng thái 𝑥𝑘, ∀𝑥𝑘 ∈ Ω𝑥 được định nghĩa dưới dạng hồi qui như sau [96]:
𝑉 𝑥𝑘 = 𝑟(𝑥𝑘, 𝑢(𝑥𝑘)) + 𝛾𝑉 𝑓 𝑥𝑘, 𝑢(𝑥𝑘) (2.5)
Mục tiêu của giải thuật học củng cố là tìm hàm đánh giá tối ưu 𝑉∗(𝑥0) tương ứng với luật điều khiển tối ưu 𝑢∗(𝑥), ∀𝑥0 ∈ Ω𝑥:
𝑉∗ 𝑥0 = min
𝑢 𝐽 𝑥0 (2.6)
Luật điều khiển tối ưu 𝑢∗(𝑥), tồn tại nhưng không duy nhất [96]. Tuy nhiên, cùng xuất phát tại 𝑥0, hai luật điều khiển tối ưu khác nhau có thể cho tổng chi phí như nhau, vậy
𝑉∗ 𝑥0 không phụ thuộc vào 𝑢∗(𝑥). Giả sử tồn tại 𝑉∗ 𝑥0 , theo nguyên lý qui hoạch động (DP) tối ưu Bellman [16], hàm đánh giá tối ưu của trạng thái 𝑥𝑘 được định nghĩa:
𝑉∗ 𝑥𝑘 = 𝑚𝑖𝑛
𝑢∈𝑈(𝑥𝑘) 𝑟(𝑥𝑘, 𝑢(𝑥𝑘)) + 𝛾𝑉∗ 𝑓 𝑥𝑘, 𝑢(𝑥𝑘 (2.7)
Hình 2.1 minh họa hàm đánh giá tối ưu (2.7) theo nguyên lý DP [27], trong đó
16
𝑓 𝑥𝑘, 𝑢(𝑥𝑘) là trạng thái kế tiếp tùy theo tín hiệu điều khiển nào được áp dụng. Từ đó, luật điều khiển tối ưu được định nghĩa:
𝑢∗ 𝑥𝑘 = argmin
𝑢∈ 𝑢1,𝑢2,…,𝑢𝑚
𝑟(𝑥𝑘, 𝑢(𝑥𝑘)) + 𝛾𝑉∗ 𝑓 𝑥𝑘, 𝑢(𝑥𝑘 (2.8)
Trong nhiều bài toán ứng dụng thực tế, ta không thể xây dựng được mô hình qui hoạch động Bellman (2.7) để tìm luật điều khiển tối ưu (2.8) [16]. Do đó, xấp xỉ nghiệm 𝑉∗ 𝑥 là cần thiết. Các giải thuật học củng cố thông dụng như Value Iteration (VI) [96], Policy Iteration (PI) [96] và Q-Learning [115] ra đời nhằm xấp xỉ hai nghiệm này trên cơ sở phương trình (2.7) hoặc/và (2.8).
Hình 2.1 Nguyên lý qui hoạch động Bellman và hàm đánh giá tối ưu