Các thành phan chính

Mỗi lĩnh vực trong khoa học và kỹ thuật đều có những giả định và hạn chế riêng. Chúng tôi không có ý định phán đoán việc học có giám sát là tốt hay

không tốt. Tuy nhiên, có những vấn đề mà học có giám sát không thể giải quyết

hiệu quả. Dó là lý do tại sao học tăng cường đã trở thành một phương pháp hấp dẫn trong việc đối phó với những thách thức đó.

Trong lĩnh vực học tăng cường, không tồn tại các cặp dữ liệu đầu vào-đầu ra chính xác, và việc đánh giá tính tối ưu của các hành động cũng không được thực hiện theo cách đơn giản. Thay vào đó, chúng ta sử dụng một hệ thống phần thưởng cố định [9]. Sự quan tâm chủ yếu tập trung vào hoạt động trực tiếp của tác tử. Trong lĩnh vực học tăng cường, tồn tại các thách thức liên quan đến

việc học cách ánh xạ các tình huống thành các hành động để tối đa hóa phần thưởng. Việc này đòi hỏi sự cân nhắc giữa khám phá (tìm hiểu kiến thức chưa

được biết) và khai thác (sử dụng kiến thức đã được biết). Nói chung, học tăng

cường bao gồm hai thực thể chính là tác tử và môi trường, và chúng tương tác

với nhau qua các kênh giao tiếp bao gồm hành động, phần thưởng và quan sát.

OBSERVATIONS

State changes: S¿+1

Reward: Tp

AGENT Action: at

ACTIONS

ENVIRONMENT

Reward: feedback that measures the success or failure of the agent's action.

Hình 2.7: Hình ảnh mô tả các thực thể chính của RL

Tac tử, là một cái gì đó tương tac với môi trường thông qua việc thực hiện

những hành động nhất định, quan sát và nhận về phần thưởng cuối cùng cho

việc này

Môi trường, là những thứ bên ngoài tác tử nhận dữ liệu từ tác tử và xử lí

để trả dữ liệu về cho tác tử học.

Hành động, là những điều mà tác tử có thể thực hiện bên trong môi trường.

Quan sát đề cập đến các mau thông tin về môi trường mà tác tử có thể nhận được. Đôi khi, các quan sát có thể trùng nhau, tuy nhiên chúng ta cần phân biệt giữa quan sát và trạng thái của môi trường. Trong lý thuyết học tăng

cường, chúng ta sử dụng quy trình quyết định Markov để định nghĩa chính thức

về trạng thái. Trạng thái phải có thuộc tính Markov, điều này có nghĩa là khi

biết trạng thái, ta có thể xác định phản hồi của môi trường đối với một hành

động. Những yếu tố khác được xem như là ngẫu nhiên và không được biết đến cho đến khi hành động kết thúc.

Các hệ thống như hệ thống xác định, các trò chơi dựa trên xác suất hoặc các

mô phỏng do máy tính điều khiển có thể được thiết kế sao cho có các trạng thái

dễ quan sát với thuộc tính này. Ví dụ, trong môi trường Inverted Pendulum,

một bài toán kinh điển trong học tăng cường, một con lắc ngược thực tế có thể hoạt động khác nhau tùy thuộc vào nhiệt độ, các khớp nối và bộ truyền động,

hoặc sự thay đổi về lực ma sát, và nhiều yếu tố khác. Tuy nhiên, tác tử học tăng cường thường chỉ quan tâm đến chuyển động và vị trí hiện tại của xe day

và con lắc. Trong trường hợp này, việc quan sát 4 đặc điểm là đủ và trạng thái dựa trên 4 đặc điểm này gần như có thuộc tính Markov.

Bên cạnh đó, cũng có những trường hợp mà quan sát không đủ để tạo ra dit

liệu trạng thái sử dụng cho hệ thống học tăng cường. Ví dụ, khi một khung hình

bị mất dữ liệu về chuyển động. Để giải quyết vấn đề này, chúng ta có thể lấy bốn khung hình liên tiếp và kết hợp chúng để tạo ra một trạng thái duy nhất. Trong trường hợp này, ta có thể hiểu rằng mỗi khung hình đại diện cho một quan sát, và cần kết hợp bốn quan sát này để tạo ra một trạng thái có ý nghĩa

và hữu ích.

Phần thưởng là một yếu tố quan trọng trong học tăng cường, đại diện cho

giá trị số mà tác tử nhận được từ môi trường thông qua các hành động của nó.

Phần thưởng có thể có giá trị âm hoặc dương, lớn hoặc nhỏ, và đơn giản chỉ

là một con số. Mục tiêu của phần thưởng là giúp tác tử đánh giá hiệu quả của hành vi của mình. Phần thưởng có thể được cung cấp sau mỗi tương tác giữa tác

tử và môi trường, hoặc sau một khoảng thời gian nhất định, tùy thuộc vào cách người lập trình xác định phù hợp cho từng bài toán cụ thể. Tuy nhiên, phần thưởng chỉ áp dụng cục bộ, chỉ phản ánh thành công của những hành động gần đây của tác tử, không bao gồm toàn bộ thành công trong quá khứ hoặc trong

tương lai. Quan trọng là tác tử có thể nhận được nhiều phần thưởng sau một

số hành động, nhưng điều này không đảm bảo rằng tác tử sẽ không gặp phải những hậu quả nghiêm trọng từ những quyết định trước đó. Ví dụ, việc ăn một

quân cờ của đối thủ trong một trận cờ vua có thể mang lại phần thưởng, tuy nhiên, cần lưu ý rằng điều này có thể dẫn đến tình huống bị chiếu bí mà đối thủ

đã chuẩn bị trước cho tác tử.

Hơn nữa, tín hiệu phần thưởng đóng vai trò quan trọng trong việc điều chỉnh chính sách. Nếu một hành động được chính sách chọn dẫn đến một phần thưởng

thấp, chính sách có thể được điều chỉnh để ưu tiên các hành động khác trong

những tình huống tương tự trong tương lai. Tuy nhiên, nếu phần thưởng chỉ có

tính cục bộ và ngay lập tức, các ham giá tri sẽ định nghĩa những gì được xem

là giá trị lâu dài. Giá trị của một trạng thái là tổng phần thưởng mà tác tử có thể tích lũy được trong tương lai. Thay vì xác định kết quả ngay lập tức của các

trạng thái môi trường như phần thưởng, các hàm giá trị sẽ đánh giá khả năng tích lũy phần thưởng lâu dài sau khi xem xét các trạng thái tiếp theo và phần thưởng có sẵn trong những trạng thái đó. Mặc dù vậy, phần thưởng vẫn mang ý nghĩa quan trọng và được coi là một yếu tố trung tâm trong hệ thống học tăng cường. Không có phần thưởng, không có giá trị, và mục tiêu chính của việc ước

tính giá trị là để đạt được nhiều phần thưởng hơn.

Nhìn chung, những yếu tố này gây ra các thách thức cho học tăng cường vì hành động của tác tử có tác động lâu dài đến các đầu vào trong tương lai. Thay

vì có sẵn hướng dẫn về cách thực hiện hành động, tác tử phải khám phá các hành động mang lại phần thưởng cao nhất thông qua quá trình thử và sai. Đôi

khi, hành động có thể ảnh hưởng không chỉ đến phần thưởng hiện tại mà còn

đến tình huống và phần thưởng trong tương lai, như đã đề cập trước đó. Hơn

nữa, có nhiều mô hình học tăng cường khác nhau có thể được áp dụng tùy thuộc vào vấn đề cụ thể, bao gồm cả mô hình đơn tác tử và đa tác tử. Tuy nhiên, trong học tăng cường, tất cả các tác tử đều cố gắng cải thiện hành vi dựa trên phan

thưởng mà chúng thu được. Một tác tử hiệu quả trong học tăng cường sẽ tích

lũy được một lượng phần thưởng đáng kể sau một chuỗi các hành động mà nó

thực hiện.

Quy trình ra quyết định Markov là một mô hình toán học trong lý thuyết quyết định và lý thuyết điều khiển. N6 dùng để mô phỏng quá trình ra quyết

định trong một hệ thống động, trong đó quyết định được đưa ra dựa trên trạng

thái hiện tại và tác động lên trạng thái tương lai.

Quy trình ra quyết định Markov bao gồm các thành phần sau:

e Trạng thái (State): Hệ thống được mô hình hóa thành các trạng thái khác

nhau, đại diện cho tình trạng của hệ thống tại một thời điểm cụ thể. Trạng thái có thể là rời rạc hoặc liên tục.

e Hành động (Action): Các hành động có thể được thực hiện trong mỗi trạng

thái. Hành động có thể là rời rạc hoặc liên tục và có thể có một tập hợp

hành động khác nhau tại mỗi trạng thái.

e Xác suất chuyển trạng thái (State Transition Probability): Xác suất chuyển

từ một trạng thái hiện tại sang các trạng thái khác trong tương lai khi thực

hiện một hành động. Xác suất chuyển trạng thái thường được biểu diễn

dưới dạng ma trận xác suất.

e Phần thưởng (Reward): Mỗi hành động thực hiện trong một trạng thái có

thể được liên kết với một giá trị phần thưởng, đại điện cho lợi ích hoặc chỉ phí của hành động đó. Mục tiêu là tối đa hóa tổng giá trị phần thưởng thu

được theo thời gian.

e Hàm giá trị (Value Function): Ham giá trị đo lường giá trị dai hạn của một

trạng thái hoặc hành động. No thể hiện mức độ tốt hơn của một trạng thái hoặc hành động dựa trên tổng giá trị phần thưởng dự kiến.

Mô hình tạo ra chuỗi lời gọi hàm