Lý thuyết học củng cố

Một phần của tài liệu LUẬN ÁN TIẾN SĨ NGHIÊN CỨU GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG CHO HỆ PHI TUYẾN (Trang 32)

Hệ thống học củng cố kinh điển trong điều khiển được mô tả bởi:

 Tập hữu hạn trạng thái Ω𝑥 = 𝑥1, 𝑥2, … , 𝑥𝑁 ∈ ℝ𝑁

 Ở mỗi trạng thái 𝑥 ∈ Ω𝑥, có tập hữu hạn các tín hiệu điều khiển 𝑈 𝑥

 Mô hình đối tượng điều khiển 𝑥𝑘+1 = 𝑓(𝑥𝑘, 𝑢(𝑥𝑘)) với 𝑢(𝑥𝑘) ∈ 𝑈 𝑥𝑘 là tín hiệu điều khiển để chuyển trạng thái hệ thống từ 𝑥𝑘 sang 𝑥𝑘 +1

15

cho chi phí điều khiển khi áp dụng luật điều khiển 𝑢(𝑥𝑘) ở trạng thái 𝑥𝑘

 Luật điều khiển 𝑢 𝑥 : Ω𝑥 → 𝑈(𝑥) sao cho nếu áp dụng 𝑢 𝑥 từ trạng thái 𝑥0

sẽ phát sinh ra quỹ đạo trạng thái 𝑥0, 𝑥1, 𝑥2, …, thỏa điều kiện: ∀𝑘 = 1, … , 𝑁 − 1, 𝑥𝑘+1 = 𝑓(𝑥𝑘, 𝑢(𝑥𝑘))

 Hàm biểu diễn tổng chi phí cộng dồn xuất phát từ 𝑥0 khi tín hiệu điều khiển

𝑢 𝑥𝑘 được áp dụng dọc theo quỹ đạo trạng thái, ∀𝑥𝑘 ∈ Ω𝑥 được gọi là hàm chỉ tiêu chất lượng hoặc hàm chi phí của 𝑢(𝑥𝑘):

𝐽 𝑥0 = 𝑟(𝑥𝑘, 𝑢(𝑥𝑘)) 𝑁

𝑘=0

(2.3) Để ý rằng hàm chi phí 𝐽 𝑥0 chỉ phụ thuộc vào luật điều khiển 𝑢(𝑥) và trạng thái khởi tạo 𝑥0.

𝐽 𝑥0 có thể phân kỳ, chỉ hội tụ khi hàm chi phí 𝑟 𝑥𝑘, 𝑢(𝑥𝑘) đạt đến giá trị bằng không trong thời gian hữu hạn. Trong trường hợp tổng quát, nhằm đảm bảo 𝐽 𝑥0 hội tụ theo tiêu chuẩn chuỗi giảm dần, hệ số hàm mũ 𝛾𝑘 được sử dụng [96], [99]:

𝐽 𝑥0 = 𝛾𝑘𝑟(𝑥𝑘, 𝑢(𝑥𝑘)) 𝑁

𝑘=0

(2.4) trong đó 𝛾 ∈ 0, 1 . Hàm đánh giá 𝑉 𝑥𝑘 của trạng thái 𝑥𝑘, ∀𝑥𝑘 ∈ Ω𝑥 được định nghĩa dưới dạng hồi qui như sau [96]:

𝑉 𝑥𝑘 = 𝑟(𝑥𝑘, 𝑢(𝑥𝑘)) + 𝛾𝑉 𝑓 𝑥𝑘, 𝑢(𝑥𝑘) (2.5)

Mục tiêu của giải thuật học củng cố là tìm hàm đánh giá tối ưu 𝑉∗(𝑥0) tương ứng với luật điều khiển tối ưu 𝑢∗(𝑥), ∀𝑥0 ∈ Ω𝑥:

𝑉∗ 𝑥0 = min

𝑢 𝐽 𝑥0 (2.6)

Luật điều khiển tối ưu 𝑢∗(𝑥), tồn tại nhưng không duy nhất [96]. Tuy nhiên, cùng xuất phát tại 𝑥0, hai luật điều khiển tối ưu khác nhau có thể cho tổng chi phí như nhau, vậy

𝑉∗ 𝑥0 không phụ thuộc vào 𝑢∗(𝑥). Giả sử tồn tại 𝑉∗ 𝑥0 , theo nguyên lý qui hoạch động (DP) tối ưu Bellman [16], hàm đánh giá tối ưu của trạng thái 𝑥𝑘 được định nghĩa:

𝑉∗ 𝑥𝑘 = 𝑚𝑖𝑛

𝑢∈𝑈(𝑥𝑘) 𝑟(𝑥𝑘, 𝑢(𝑥𝑘)) + 𝛾𝑉∗ 𝑓 𝑥𝑘, 𝑢(𝑥𝑘 (2.7)

Hình 2.1 minh họa hàm đánh giá tối ưu (2.7) theo nguyên lý DP [27], trong đó

16

𝑓 𝑥𝑘, 𝑢(𝑥𝑘) là trạng thái kế tiếp tùy theo tín hiệu điều khiển nào được áp dụng. Từ đó, luật điều khiển tối ưu được định nghĩa:

𝑢∗ 𝑥𝑘 = argmin

𝑢∈ 𝑢1,𝑢2,…,𝑢𝑚

𝑟(𝑥𝑘, 𝑢(𝑥𝑘)) + 𝛾𝑉∗ 𝑓 𝑥𝑘, 𝑢(𝑥𝑘 (2.8)

Trong nhiều bài toán ứng dụng thực tế, ta không thể xây dựng được mô hình qui hoạch động Bellman (2.7) để tìm luật điều khiển tối ưu (2.8) [16]. Do đó, xấp xỉ nghiệm 𝑉∗ 𝑥 là cần thiết. Các giải thuật học củng cố thông dụng như Value Iteration (VI) [96], Policy Iteration (PI) [96] và Q-Learning [115] ra đời nhằm xấp xỉ hai nghiệm này trên cơ sở phương trình (2.7) hoặc/và (2.8).

Hình 2.1 Nguyên lý qui hoạch động Bellman và hàm đánh giá tối ưu

Một phần của tài liệu LUẬN ÁN TIẾN SĨ NGHIÊN CỨU GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG CHO HỆ PHI TUYẾN (Trang 32)

Tải bản đầy đủ (PDF)

(175 trang)