Nếu ta có thể thiết kế được một chính sách hồn hảo để tạo ra những tác động đúng cho cơ cấu chấp hành ở mỗi trạng thái thì cơng việc thiết kế coi như hoàn thành. Nhưng điều này khơng dễ dàng bởi vì cho dù có thể thiết kế được chính sách hồn hảo rồi nhưng mơi trường bên ngồi thay đổi thì các phản ứng cũng sẽ khác đi. Do đó để có thể có được chính sách tối ưu thì chính sách phải được thay đổi dựa vào hành động đã thực hiện, phản hồi của mơi trường và phần thưởng nhận được. Đây chính là nguyên lý hoạt động của các thuật toán học tăng cường.
3.2.2 Mối liên hệ giữa điều khiển truyền thống và điều khiển học tăng cường (Reinforcement Learning)
Mục tiêu của một hệ thống điều khiển là tính tốn các đầu vào điều khiển (hành động) cho một hệ thống để tạo ra đáp ứng mong muốn. Ở các hệ thống điều khiển phản hồi, bộ điều khiển sử dụng các trạng thái phản hồi để cải thiện chất lượng hệ thống. Người kỹ sư thiết kế sử dụng các thông tin phản hồi cùng với mơ hình hệ thống và mơi trường để thiết kế bộ điều khiển. Với điều khiển học tăng cường, mục tiêu và yêu cầu tương tự như điều khiển truyền thống, chỉ khác ở cách thực hiện. Với học tăng cường, việc tạo ra tín hiệu điều khiển (hành động) phù hợp chỉ có thể có được sau một q trình học. Q trình học này được thực hiện bởi máy tính thơng qua việc tương tác với mơi trường mà khơng cần biết mơ hình cụ
thể của đối tượng và mơi trường. Do vậy, học tăng cường thường được áp dụng trong các hệ thống có mơ hình bất định hoặc có số lượng trạng thái và hành động lớn.
Câu trả lời cho việc máy học như nào nằm ở cách thức xây dựng chính sách. Chính sách về bản chất là một hàm toán học được xây dựng dựa trên một thuật tốn và có các tham số có thể thay đổi được. Với mỗi chính sách được xây dựng, sẽ có một tập các tham số làm cho hành động sinh ra là tối ưu. Và nhiệm vụ của việc học là thay đổi các tham số sẵn có một cách có hệ thống để hội tụ dần đến giá trị tối ưu. Q trình học sẽ được máy tính thực hiện thơng qua các thuật tốn được đề cập ở các phần tiếp theo
3.2.3 Các thuật toán cơ bản của Reinforcement Learning