Mỗi lĩnh vực trong khoa học và kỹ thuật đều có những giả định và hạn chế riêng. Chúng tôi không có ý định phán đoán việc học có giám sát là tốt hay
không tốt. Tuy nhiên, có những vấn đề mà học có giám sát không thể giải quyết
hiệu quả. Dó là lý do tại sao học tăng cường đã trở thành một phương pháp hấp dẫn trong việc đối phó với những thách thức đó.
Trong lĩnh vực học tăng cường, không tồn tại các cặp dữ liệu đầu vào-đầu ra chính xác, và việc đánh giá tính tối ưu của các hành động cũng không được thực hiện theo cách đơn giản. Thay vào đó, chúng ta sử dụng một hệ thống phần thưởng cố định [9]. Sự quan tâm chủ yếu tập trung vào hoạt động trực tiếp của tác tử. Trong lĩnh vực học tăng cường, tồn tại các thách thức liên quan đến
việc học cách ánh xạ các tình huống thành các hành động để tối đa hóa phần thưởng. Việc này đòi hỏi sự cân nhắc giữa khám phá (tìm hiểu kiến thức chưa
được biết) và khai thác (sử dụng kiến thức đã được biết). Nói chung, học tăng
25
cường bao gồm hai thực thể chính là tác tử và môi trường, và chúng tương tác
với nhau qua các kênh giao tiếp bao gồm hành động, phần thưởng và quan sát.
OBSERVATIONS
State changes: S¿+1
Reward: Tp
AGENT Action: at
ACTIONS
ENVIRONMENT
Reward: feedback that measures the success or failure of the agent's action.
Hình 2.7: Hình ảnh mô tả các thực thể chính của RL
Tac tử, là một cái gì đó tương tac với môi trường thông qua việc thực hiện
những hành động nhất định, quan sát và nhận về phần thưởng cuối cùng cho
việc này
Môi trường, là những thứ bên ngoài tác tử nhận dữ liệu từ tác tử và xử lí
để trả dữ liệu về cho tác tử học.
Hành động, là những điều mà tác tử có thể thực hiện bên trong môi trường.
Quan sát đề cập đến các mau thông tin về môi trường mà tác tử có thể nhận được. Đôi khi, các quan sát có thể trùng nhau, tuy nhiên chúng ta cần phân biệt giữa quan sát và trạng thái của môi trường. Trong lý thuyết học tăng
cường, chúng ta sử dụng quy trình quyết định Markov để định nghĩa chính thức
về trạng thái. Trạng thái phải có thuộc tính Markov, điều này có nghĩa là khi
biết trạng thái, ta có thể xác định phản hồi của môi trường đối với một hành
động. Những yếu tố khác được xem như là ngẫu nhiên và không được biết đến cho đến khi hành động kết thúc.
Các hệ thống như hệ thống xác định, các trò chơi dựa trên xác suất hoặc các
mô phỏng do máy tính điều khiển có thể được thiết kế sao cho có các trạng thái
26
dễ quan sát với thuộc tính này. Ví dụ, trong môi trường Inverted Pendulum,
một bài toán kinh điển trong học tăng cường, một con lắc ngược thực tế có thể hoạt động khác nhau tùy thuộc vào nhiệt độ, các khớp nối và bộ truyền động,
hoặc sự thay đổi về lực ma sát, và nhiều yếu tố khác. Tuy nhiên, tác tử học tăng cường thường chỉ quan tâm đến chuyển động và vị trí hiện tại của xe day
và con lắc. Trong trường hợp này, việc quan sát 4 đặc điểm là đủ và trạng thái dựa trên 4 đặc điểm này gần như có thuộc tính Markov.
Bên cạnh đó, cũng có những trường hợp mà quan sát không đủ để tạo ra dit
liệu trạng thái sử dụng cho hệ thống học tăng cường. Ví dụ, khi một khung hình
bị mất dữ liệu về chuyển động. Để giải quyết vấn đề này, chúng ta có thể lấy bốn khung hình liên tiếp và kết hợp chúng để tạo ra một trạng thái duy nhất. Trong trường hợp này, ta có thể hiểu rằng mỗi khung hình đại diện cho một quan sát, và cần kết hợp bốn quan sát này để tạo ra một trạng thái có ý nghĩa
và hữu ích.
Phần thưởng là một yếu tố quan trọng trong học tăng cường, đại diện cho
giá trị số mà tác tử nhận được từ môi trường thông qua các hành động của nó.
Phần thưởng có thể có giá trị âm hoặc dương, lớn hoặc nhỏ, và đơn giản chỉ
là một con số. Mục tiêu của phần thưởng là giúp tác tử đánh giá hiệu quả của hành vi của mình. Phần thưởng có thể được cung cấp sau mỗi tương tác giữa tác
tử và môi trường, hoặc sau một khoảng thời gian nhất định, tùy thuộc vào cách người lập trình xác định phù hợp cho từng bài toán cụ thể. Tuy nhiên, phần thưởng chỉ áp dụng cục bộ, chỉ phản ánh thành công của những hành động gần đây của tác tử, không bao gồm toàn bộ thành công trong quá khứ hoặc trong
tương lai. Quan trọng là tác tử có thể nhận được nhiều phần thưởng sau một
số hành động, nhưng điều này không đảm bảo rằng tác tử sẽ không gặp phải những hậu quả nghiêm trọng từ những quyết định trước đó. Ví dụ, việc ăn một
quân cờ của đối thủ trong một trận cờ vua có thể mang lại phần thưởng, tuy nhiên, cần lưu ý rằng điều này có thể dẫn đến tình huống bị chiếu bí mà đối thủ
đã chuẩn bị trước cho tác tử.
27
Hơn nữa, tín hiệu phần thưởng đóng vai trò quan trọng trong việc điều chỉnh chính sách. Nếu một hành động được chính sách chọn dẫn đến một phần thưởng
thấp, chính sách có thể được điều chỉnh để ưu tiên các hành động khác trong
những tình huống tương tự trong tương lai. Tuy nhiên, nếu phần thưởng chỉ có
tính cục bộ và ngay lập tức, các ham giá tri sẽ định nghĩa những gì được xem
là giá trị lâu dài. Giá trị của một trạng thái là tổng phần thưởng mà tác tử có thể tích lũy được trong tương lai. Thay vì xác định kết quả ngay lập tức của các
trạng thái môi trường như phần thưởng, các hàm giá trị sẽ đánh giá khả năng tích lũy phần thưởng lâu dài sau khi xem xét các trạng thái tiếp theo và phần thưởng có sẵn trong những trạng thái đó. Mặc dù vậy, phần thưởng vẫn mang ý nghĩa quan trọng và được coi là một yếu tố trung tâm trong hệ thống học tăng cường. Không có phần thưởng, không có giá trị, và mục tiêu chính của việc ước
tính giá trị là để đạt được nhiều phần thưởng hơn.
Nhìn chung, những yếu tố này gây ra các thách thức cho học tăng cường vì hành động của tác tử có tác động lâu dài đến các đầu vào trong tương lai. Thay
vì có sẵn hướng dẫn về cách thực hiện hành động, tác tử phải khám phá các hành động mang lại phần thưởng cao nhất thông qua quá trình thử và sai. Đôi
khi, hành động có thể ảnh hưởng không chỉ đến phần thưởng hiện tại mà còn
đến tình huống và phần thưởng trong tương lai, như đã đề cập trước đó. Hơn
nữa, có nhiều mô hình học tăng cường khác nhau có thể được áp dụng tùy thuộc vào vấn đề cụ thể, bao gồm cả mô hình đơn tác tử và đa tác tử. Tuy nhiên, trong học tăng cường, tất cả các tác tử đều cố gắng cải thiện hành vi dựa trên phan
thưởng mà chúng thu được. Một tác tử hiệu quả trong học tăng cường sẽ tích
lũy được một lượng phần thưởng đáng kể sau một chuỗi các hành động mà nó
thực hiện.
Quy trình ra quyết định Markov là một mô hình toán học trong lý thuyết quyết định và lý thuyết điều khiển. N6 dùng để mô phỏng quá trình ra quyết
định trong một hệ thống động, trong đó quyết định được đưa ra dựa trên trạng
thái hiện tại và tác động lên trạng thái tương lai.
28
Quy trình ra quyết định Markov bao gồm các thành phần sau:
e Trạng thái (State): Hệ thống được mô hình hóa thành các trạng thái khác
nhau, đại diện cho tình trạng của hệ thống tại một thời điểm cụ thể. Trạng thái có thể là rời rạc hoặc liên tục.
e Hành động (Action): Các hành động có thể được thực hiện trong mỗi trạng
thái. Hành động có thể là rời rạc hoặc liên tục và có thể có một tập hợp
hành động khác nhau tại mỗi trạng thái.
e Xác suất chuyển trạng thái (State Transition Probability): Xác suất chuyển
từ một trạng thái hiện tại sang các trạng thái khác trong tương lai khi thực
hiện một hành động. Xác suất chuyển trạng thái thường được biểu diễn
dưới dạng ma trận xác suất.
e Phần thưởng (Reward): Mỗi hành động thực hiện trong một trạng thái có
thể được liên kết với một giá trị phần thưởng, đại điện cho lợi ích hoặc chỉ phí của hành động đó. Mục tiêu là tối đa hóa tổng giá trị phần thưởng thu
được theo thời gian.
e Hàm giá trị (Value Function): Ham giá trị đo lường giá trị dai hạn của một
trạng thái hoặc hành động. No thể hiện mức độ tốt hơn của một trạng thái hoặc hành động dựa trên tổng giá trị phần thưởng dự kiến.