Giải thuật Q-Learning

Một phần của tài liệu LUẬN ÁN TIẾN SĨ NGHIÊN CỨU GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG CHO HỆ PHI TUYẾN (Trang 36)

Thay vì xấp xỉ hàm 𝑉 𝑥𝑘 như giải thuật VI hoặc PI, giải thuật 𝑄-Leanring xấp xỉ hàm 𝑄(𝑥𝑘, 𝑢𝑘) chứa tổ hợp biến trạng thái và tín hiệu điều khiển ứng, trong đó ở mỗi bước lặp, luật cập nhật hàm 𝑄(𝑥𝑘, 𝑢𝑘) được định nghĩa dựa vào luật TD [115]:

𝑄(𝑙+1) 𝑥𝑘, 𝑢𝑘 = 𝑄(𝑙) 𝑥𝑘, 𝑢𝑘

+𝛼 𝑟 𝑥𝑘, 𝑢𝑘 + 𝛾 argmin ∀𝑎∈𝑈(𝑥𝑘+1)

𝑄(𝑙) 𝑥𝑘+1, 𝑎 −𝑄(𝑙) 𝑥𝑘, 𝑢𝑘 (2.14)

trong đó 𝛼 ∈ 0, 1 là tốc độ học. Khi 𝑄(𝑥𝑘, 𝑢𝑘) hội tụ về hàm đánh giá tối ưu

𝑄∗ 𝑥𝑘, 𝑢𝑘 , luật điều khiển tối ưu sẽ là:

𝑢𝑘∗ = argmin ∀𝑢𝑘∈𝑈(𝑥𝑘)

𝑄∗(𝑥𝑘, 𝑢𝑘) (2.15)

Giải thuật 2.3 Q-Learning

Bước 1: Rời rạc hóa không gian trạng thái để có tập Ω𝑥, lượng tử hóa tín hiệu điều khiển để có tập 𝑈(𝑥𝑘). ∀𝑥𝑘 ∈ Ω𝑥 , ∀𝑢𝑘 ∈ 𝑈(𝑥𝑘) khởi tạo 𝑄 𝑥𝑘, 𝑢𝑘 = 0.

Bước 2: Xấp xỉ hàm đánh giá 𝑄:

 𝑙 ← 𝑙 + 1

 Vòng lặp ngoài ∀𝑥𝑘 ∈ Ω𝑥:

19

Áp dụng 𝑢 vào đối tượng điều khiển nhận trạng thái 𝑥𝑘+1, cập nhật:

𝑄(𝑙) 𝑥𝑘, 𝑢𝑘 = 𝑄(𝑙−1) 𝑥𝑘, 𝑢𝑘

+𝛼 𝑟 𝑥𝑘, 𝑢𝑘 + 𝛾 argmin∀𝑎∈𝑈(𝑥𝑘+1) 𝑄(𝑙−1) 𝑥𝑘+1, 𝑎 −𝑄(𝑙−1) 𝑥𝑘, 𝑢𝑘 (2.16)  Nếu thỏa tiêu chuẩn hội tụ sao cho 𝑄(𝑙) − 𝑄(𝑙−1) ≤ 𝛿, với 𝛿 là số dương đủ nhỏ thì gán 𝑄∗ 𝑥𝑘, 𝑢𝑘 = 𝑄(𝑙) 𝑥𝑘, 𝑢𝑘 thực hiện Bước 3, ngược lại quay về Bước 2.

Bước 3: Xấp xỉ luật điều khiển tối ưu:

 Lặp vòng ∀𝑥𝑘 ∈ Ω𝑥; Cập nhật:

𝑢∗ 𝑥𝑘 = argmin ∀𝑎∈𝑈(𝑥𝑘)

𝑄∗(𝑥𝑘, 𝑎) (2.17)

 Kết thúc giải thuật

Chú ý rằng, để Giải thuật 2.1, 2.2 và 2.3 có thể thực hiện được, yêu cầu phải xác định trước tập 𝑈(𝑥𝑘), ∀𝑥𝑘 ∈ Ω𝑥, chứa các tín hiệu điều khiển rời rạc ở 𝑥𝑘. Việc phân rã tập 𝑈(𝑥𝑘) phụ thuộc vào sự hiểu biết và kinh nghiệm của người thiết kế đối với hệ thống đang xét. Trong một số trường hợp, ví dụ hệ thống đa biến, việc phân rã này rất phức tạp. Ngoài ra, các giải thuật nêu trên chỉ phù hợp trong bài toán học off-line.

Một phần của tài liệu LUẬN ÁN TIẾN SĨ NGHIÊN CỨU GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG CHO HỆ PHI TUYẾN (Trang 36)

Tải bản đầy đủ (PDF)

(175 trang)