Học tang cuờng (RL - Reinforcement Learning) [114] là một kỹ thuật học mỏy mà một tỏc tử học bằng cỏch tuong tỏc với mụi truờng xung quanh dể tối da húa diểm thuởng nhận duợc. Cỏc yếu tố chớnh trong học tang cuờng bao gồm: Tỏc tử tuong tỏc với mụi truờng bằng cỏc hành dộng. Sau mỗi hành dộng, mụi truờng trả lại cho tỏc tử một trạng thỏi và diểm thuởng tuong ứng với trạng thỏi dú. Một chuỗi cỏc trạng thỏi và hành dộng từ trạng thỏi bắt dầu dến trạng thỏi kết thỳc duợc gọi là một tập (episode). Trong một tập, tỏc tử sẽ chọn ra cỏc hành dộng tối uu dể tối da húa diểm thuởng nhận duợc sau mỗi tập. Cỏch mà tỏc tử chọn những hành dộng dú gọi là chiến luợc và mục dớch là tỡm ra chiến luợc tốt nhất. Hỡnh 2.20 duới dõy mụ tả tuong tỏc giữa tỏc tử - mụi truờng.
( , ) ( , ) max ( ', )
a
Q s a r s a = +γ Q s a
(2.38) trong dú:
Q(s,a) là Q-value khi thực hiện hành dộng a tại trạng thỏi s, r(s,a) là diểm thuởng nhận duợc, s' là trạng thỏi kế tiếp, γ là hệ số tiờu hao (discount factor) kiểm soỏt sự dúng gúp của diểm thuởng dể dảm bảo càng "xa" dớch thỡ Q-value càng nhỏ.
Cụng thức (2.38) tạo ra một ma trận trạng thỏi - hành dộng duợc xem nhu một bảng tra cứu Q (Q-table). Với mỗi cặp trạng thỏi - hành dộng tỏc tử chỉ cần tỡm hành dộng cú Q-value lớn nhất bằng việc tra cứu bảng Q-table. Tuy nhiờn, học tang cuờng là một tiến trỡnh ngẫu nhiờn nờn Q-value ở thời diểm (t-1) và thời diểm t sau khi thực hiện hành dộng là khỏc nhau và giỏ trị này duợc tớnh theo cụng thức:
1 ' ( , ) ( , ) max ( ', ') t ( , ) a TD a s r s a = + γ Q s a Q s a− − (2.39) với: a' là hành dộng kế tiếp, a là hệ số học.
Tại thời diểm t, ma trận Q(s,a) cần phải cập nhật trọng số dựa trờn giỏ trị
TD(a,s) nhu sau: 1
( , ) ( , ) ( , )
t t t
Q s a Q s a = − +αTD a s
(2.40) Quỏ trỡnh này duợc gọi là học Q (Q-Learning) và thuật toỏn Q-Learning [114]
học tất cả cỏc giỏ trị Q(s,a) của mụi truờng bằng việc thử và cập nhật dể xõy dựng Q- table.