Giải thuật PI khởi động sử dụng luật điều khiển ổn định, sau đó xấp xỉ hàm đánh giá trong một bước và cải thiện luật điều khiển dựa vào hàm đánh giá vừa xấp xỉ ở bước tiếp theo [96]. Các bước trong giải thuật PI được mô tả như sau:
Giải thuật 2.2 PI
Bước 1:∀𝑥𝑘 ∈ Ω𝑥 , khởi tạo luật điều khiển ổn định 𝑢(0)(𝑥𝑘)
Gán 𝑖 = 0
Bước 2: Xấp xỉ hàm đánh giá:
Lặp vòng ∀𝑥𝑘 ∈ Ω𝑥; Khởi tạo 𝑉(0) 𝑥𝑘 = 0
Bước 3: Xấp xỉ hàm đánh giá ở bước 𝑖 + 1 sử dụng luật điều khiển 𝑢𝑖:
𝑖 ← 𝑖 + 1
Lặp vòng ∀𝑥𝑘 ∈ Ω𝑥; Cập nhật:
𝑉 𝑖 𝑥𝑘 = 𝑟 𝑥𝑘, 𝑢 𝑖−1 (𝑥𝑘) + 𝛾𝑉 𝑖−1 𝑓 𝑥𝑘, 𝑢 𝑖−1 (𝑥𝑘) (2.11)
Bước 4: Xấp xỉ luật điều khiển tối ưu:
Lặp vòng ∀𝑥𝑘 ∈ Ω𝑥; Cập nhật:
𝑢(𝑖) 𝑥𝑘 = argmin∀𝑎∈𝑈(𝑥) 𝑟(𝑥𝑘, 𝑎) + 𝛾𝑉(𝑖) 𝑓 𝑥𝑘, 𝑎 (2.12)
Nếu thỏa tiêu chuẩn hội tụ sao cho 𝑉(𝑖)− 𝑉(𝑖−1) ≤ 𝛿 với 𝛿 là số dương đủ nhỏ thì gán 𝑢∗ 𝑥𝑘 = 𝑢(𝑖) 𝑥𝑘 và 𝑉∗ 𝑥𝑘 = 𝑉(𝑖) 𝑥𝑘 , kết thúc giải thuật, ngược lại quay về Bước 3.
18
Ta thấy rằng, từ phương trình (2.9) đến (2.12), Giải thuật 2.1 và 2.2 đòi hỏi thông tin về mô hình hệ thống 𝑓 𝑥𝑘, 𝑢(𝑥𝑘) , điều này làm giảm khả năng ứng dụng của học củng cố. Hạn chế này được giải quyết bằng giải thuật dự báo sai phân tạm thời (Temporal Difference (TD)) [95]. Khi đó, luật cập nhật (2.11) sẽ là:
𝑉(𝑖) 𝑥𝑘 = 𝑉(𝑖−1) 𝑥𝑘 + 𝛼 𝑟 𝑥𝑘, 𝑢(𝑖)(𝑥𝑘) + 𝛾𝑉(𝑖−1) 𝑥𝑘+1 − 𝑉(𝑖−1) 𝑥𝑘 (2.13) trong đó 𝑥𝑘+1 là trạng thái mà hệ thống nhận được khi áp dụng luật điều khiển 𝑢(𝑖) tại
𝑥𝑘, 𝛼 ∈ (0,1] là tốc độ học. Nhìn vào phương trình (2.13) ta thấy rằng hàm đánh giá được cập nhật không cần sử dụng mô hình của hệ thống. Sau khi 𝑉(𝑖) 𝑥𝑘 ở (2.13) được cập nhật, luật điều khiển 𝑢(𝑖+1) ở Bước 4 của giải thuật 2.2 được cập nhật ngay mà không mà không cần phải chờ đợi sự hội tụ của hàm đánh giá ở Bước 3. Giải thuật PI sử dụng luật cập nhật TD, bảo đảm rằng luật điều khiển xấp xỉ sẽ hội tụ đến giá trị tối ưu [51]. Tuy nhiên, TD chỉ sử dụng được trong các giải thuật off-line.