Tổng quan Deep Reinforcement Learning - Học tăng c- 123docz.net

2.4. Học tăng cường(Reinforcement Learning)

2.5.1. Tổng quan Deep Reinforcement Learning

Deep Reinforcement Learning (Hoc tăng cường sâu) là một phương phấp hoc

máy kết hợp giữa Deep Learning (Học sâu) và Reinforcement Learning (Học tăng cường). Nó là sự kết hợp của các mạng nơ-ron sâu (Deep Neural Networks)

với các thuật toán Reinforcement Learning để học các chính sách (policies) tối

ưu trong các môi trường phức tạp.

Deep Reinforcement Learning thường được ấp dụng cho các bài toán mà môi

trường hoặc không gian hành động rất lớn và phức tạp, nơi các phương pháp truyền thống của Reinforcement Learning gặp khó khăn trong việc đạt được hiệu suất cao. Bằng cách sử dụng mạng nơ-ron sâu, Deep Reinforcement Learning có

khả năng học các biểu diễn sâu và phức tạp của môi trường và tìm ra các chính

sách tối ưu dựa trên đó.

Trong Deep Reinforcement Learning, các mạng nơ-ron sâu được sử dụng để

học các hàm giá trị (value functions) hoặc hàm chính sách (policy functions).

Hàm giá trị được sử dụng để đánh giá giá trị dự đoán của một trạng thái hoặc

cặp trạng thái-hành động, trong khi hàm chính sách xác định sự ưu tiên của các

hành động trong một trạng thái cụ thể.

Một số phương pháp Deep Reinforcement Learning phổ biến bao gồm Deep

Q-Networks (DQN), Proximal Policy Optimization(PPO), và Actor-Critic. DQN

kết hợp mang no-ron sâu với thuật toán Q-Learning để học hàm giá trị tối ưu.

PPO là một phương pháp tối ưu hóa chính sách trong DRL. Nó sử dụng mạng

nơ-ron sâu để biểu diễn hàm chính sách và tối ưu hóa chính sách dựa trên cách

tiếp cận Proximal Policy Optimization. PPO cố gắng tối đa hóa hiệu suất chính

sách trong khi duy trì sự ổn định và giảm các biến đổi lớn trong quá trình tối ưu hóa.. Actor-Critic kết hợp cả mạng nơ-ron để đại diện cho chính sách (Actor) và ham giá trị (Critic) để cung cấp phản hồi cho chính sách. Chúng tôi sẽ trình bay

rõ hơn về phương pháp Proximal Policy Optimization(PPO), và Actor-Critic

trong phần 2.6. Các thuật toán Deep RL khác cũng được phát triển và nghiên cứu để giải quyết các bài toán cụ thể và khó khăn trong học tăng cường. Mỗi thuật toán có cách tiếp cận và ưu điểm riêng, nhưng chung quy lại, họ đều sử dụng mạng nơ-ron sâu để biểu diễn và học các chính sách tối ưu trong môi

trường tương tác.

Deep Reinforcement Learning đã dat được những thành tựu đáng kể trong

nhiều lĩnh vực, bao gồm trò chơi điện tử, robot học, quản lý tài nguyên, tự động lái xe và nhiều ứng dụng tương tác người-máy khác...

2.5.2. Mô hành Deep Reinforcement Learning

Để trình bày về mô hình Deep Reinforcement Learning ta xét phương pháp

Deep Q-Networks (DQN) so với phương pháp Q Learning đã trình bày ở mục

2.4.6. Việc lưu trữ giá trị Q ở dạng bảng là một giải pháp đơn giản, nhưng đồng thời nó cũng gây hao tốn tài nguyên rất nhanh chóng, đặc biệt là đối với môi

trường sử dụng đữ liệu lớn như hình ảnh. Vì vậy, mô hình học sâu được ứng

dụng vào mô hình học tăng cường để giảm thiểu hao tổn tài nguyên. Mô hình

kết hợp này được gọi là mô hình học sâu tăng cường.

Thay vì trực tiếp tính tóan giá trị Q và lưu trữ ở dạng bảng thì một mạng

nơ ron với trọng số 9 được dùng để tính toán xấp xi các giá trị. Mạng này được

huấn luyện để tối thiểu hóa hàm mat mát L(#) qua các lượt với phương pháp

như SGD (stochastic gradient descent). Kích cỡ của đầu ra của mạng này phải bằng số lượng hành động của tác tử. Hệ thống này tương tự như hệ thống học giám sát, và phần thưởng sẽ tương tự như các nhãn. Mạng nơ ron sẽ học các giá trị như hành động, trạng thái của môi trường và phần thưởng, từ đó nó sẽ

dự đoán các phần thưởng cho các giá trị khác để giảm tối thiểu hàm mat mát.

Hình 2.5 mô tả mô hình của Deep Reinforcement Learning

‘State-Action Value

k= mm ' - — -

Q Learning

Deep Q Learning Hành 2.6: Mô hành Deep Reinforcement Learning

2.5.3. Lợi ít của Deep Reinforcement Learning

Việc kết hợp Deep Learning va Reinforcement Learning thành Deep Rein- forcement Learning mang lại một số lợi ích quan trọng trong việc giải quyết các

bài toán học tăng cường phức tạp:

e Khả năng học biểu diễn sâu: Deep Learning cho phép mạng nơ-ron sâu

học các biểu diễn phức tạp và trừu tượng từ dữ liệu đầu vào. Điều này cho phép Deep Reinforcement Learning học được các biểu diễn sâu về môi

trường và tương tác với nó một cách hiệu quả hơn.

e Tự động trích xuất đặc trưng: Deep Learning có khả năng tự động

trích xuất các đặc trưng quan trọng từ dit liệu đầu vào. Khi áp dụng vào

Reinforcement Learning, Deep Reinforcement Learning có thể tự động tìm hiểu các đặc trưng quan trọng trong môi trường và tạo ra một biểu diễn

sâu về nó.

e Xử lý dữ liệu phức tạp: Deep Learning cung cấp khả năng xử lý dữ liệu

phức tạp như ảnh, âm thanh hoặc văn bản. Khi kết hợp với Reinforcement Learning, Deep Reinforcement Learning có thể 4p dụng vào các bài toán thực tế mà dữ liệu đầu vào là các định dạng phức tạp.

e Tính tổng quát hóa: Deep Learning cho phép mạng nơ-ron sâu học các

mô hình tổng quát từ dữ liệu huấn luyện. Điều này giúp Deep Reinforcement Learning tổng quát hóa tốt hơn và áp dụng được vào các môi trường mới

mà nó chưa trước đây tương tác.

e Hiệu suất cao: Két hợp Deep Learning va Reinforcement Learning cho

phép học một chính sách tối ưu trong các môi trường phức tạp. Deep Rein-

forcement Learning có khả năng học một hàm giá trị hoặc hàm chính sách

tối ưu sử dụng dữ liệu lớn và mạng nơ-ron sâu, giúp đạt được hiệu suất cao hơn so với phương pháp truyền thống.