2.4. Học tăng cường(Reinforcement Learning)
2.5.1. Tổng quan Deep Reinforcement Learning
Deep Reinforcement Learning (Hoc tăng cường sâu) là một phương phấp hoc
máy kết hợp giữa Deep Learning (Học sâu) và Reinforcement Learning (Học tăng cường). Nó là sự kết hợp của các mạng nơ-ron sâu (Deep Neural Networks)
với các thuật toán Reinforcement Learning để học các chính sách (policies) tối
ưu trong các môi trường phức tạp.
Deep Reinforcement Learning thường được ấp dụng cho các bài toán mà môi
trường hoặc không gian hành động rất lớn và phức tạp, nơi các phương pháp truyền thống của Reinforcement Learning gặp khó khăn trong việc đạt được hiệu suất cao. Bằng cách sử dụng mạng nơ-ron sâu, Deep Reinforcement Learning có
khả năng học các biểu diễn sâu và phức tạp của môi trường và tìm ra các chính
sách tối ưu dựa trên đó.
Trong Deep Reinforcement Learning, các mạng nơ-ron sâu được sử dụng để
học các hàm giá trị (value functions) hoặc hàm chính sách (policy functions).
Hàm giá trị được sử dụng để đánh giá giá trị dự đoán của một trạng thái hoặc
cặp trạng thái-hành động, trong khi hàm chính sách xác định sự ưu tiên của các
hành động trong một trạng thái cụ thể.
24
Một số phương pháp Deep Reinforcement Learning phổ biến bao gồm Deep
Q-Networks (DQN), Proximal Policy Optimization(PPO), và Actor-Critic. DQN
kết hợp mang no-ron sâu với thuật toán Q-Learning để học hàm giá trị tối ưu.
PPO là một phương pháp tối ưu hóa chính sách trong DRL. Nó sử dụng mạng
nơ-ron sâu để biểu diễn hàm chính sách và tối ưu hóa chính sách dựa trên cách
tiếp cận Proximal Policy Optimization. PPO cố gắng tối đa hóa hiệu suất chính
sách trong khi duy trì sự ổn định và giảm các biến đổi lớn trong quá trình tối ưu hóa.. Actor-Critic kết hợp cả mạng nơ-ron để đại diện cho chính sách (Actor) và ham giá trị (Critic) để cung cấp phản hồi cho chính sách. Chúng tôi sẽ trình bay
rõ hơn về phương pháp Proximal Policy Optimization(PPO), và Actor-Critic
trong phần 2.6. Các thuật toán Deep RL khác cũng được phát triển và nghiên cứu để giải quyết các bài toán cụ thể và khó khăn trong học tăng cường. Mỗi thuật toán có cách tiếp cận và ưu điểm riêng, nhưng chung quy lại, họ đều sử dụng mạng nơ-ron sâu để biểu diễn và học các chính sách tối ưu trong môi
trường tương tác.
Deep Reinforcement Learning đã dat được những thành tựu đáng kể trong
nhiều lĩnh vực, bao gồm trò chơi điện tử, robot học, quản lý tài nguyên, tự động lái xe và nhiều ứng dụng tương tác người-máy khác...
2.5.2. Mô hành Deep Reinforcement Learning
Để trình bày về mô hình Deep Reinforcement Learning ta xét phương pháp
Deep Q-Networks (DQN) so với phương pháp Q Learning đã trình bày ở mục
2.4.6. Việc lưu trữ giá trị Q ở dạng bảng là một giải pháp đơn giản, nhưng đồng thời nó cũng gây hao tốn tài nguyên rất nhanh chóng, đặc biệt là đối với môi
trường sử dụng đữ liệu lớn như hình ảnh. Vì vậy, mô hình học sâu được ứng
dụng vào mô hình học tăng cường để giảm thiểu hao tổn tài nguyên. Mô hình
kết hợp này được gọi là mô hình học sâu tăng cường.
Thay vì trực tiếp tính tóan giá trị Q và lưu trữ ở dạng bảng thì một mạng
nơ ron với trọng số 9 được dùng để tính toán xấp xi các giá trị. Mạng này được
25
huấn luyện để tối thiểu hóa hàm mat mát L(#) qua các lượt với phương pháp
như SGD (stochastic gradient descent). Kích cỡ của đầu ra của mạng này phải bằng số lượng hành động của tác tử. Hệ thống này tương tự như hệ thống học giám sát, và phần thưởng sẽ tương tự như các nhãn. Mạng nơ ron sẽ học các giá trị như hành động, trạng thái của môi trường và phần thưởng, từ đó nó sẽ
dự đoán các phần thưởng cho các giá trị khác để giảm tối thiểu hàm mat mát.
Hình 2.5 mô tả mô hình của Deep Reinforcement Learning
‘State-Action Value
k= mm ' - — -
Q Learning
Deep Q Learning Hành 2.6: Mô hành Deep Reinforcement Learning
2.5.3. Lợi ít của Deep Reinforcement Learning
Việc kết hợp Deep Learning va Reinforcement Learning thành Deep Rein- forcement Learning mang lại một số lợi ích quan trọng trong việc giải quyết các
bài toán học tăng cường phức tạp:
e Khả năng học biểu diễn sâu: Deep Learning cho phép mạng nơ-ron sâu
học các biểu diễn phức tạp và trừu tượng từ dữ liệu đầu vào. Điều này cho phép Deep Reinforcement Learning học được các biểu diễn sâu về môi
trường và tương tác với nó một cách hiệu quả hơn.
e Tự động trích xuất đặc trưng: Deep Learning có khả năng tự động
trích xuất các đặc trưng quan trọng từ dit liệu đầu vào. Khi áp dụng vào
26
Reinforcement Learning, Deep Reinforcement Learning có thể tự động tìm hiểu các đặc trưng quan trọng trong môi trường và tạo ra một biểu diễn
sâu về nó.
e Xử lý dữ liệu phức tạp: Deep Learning cung cấp khả năng xử lý dữ liệu
phức tạp như ảnh, âm thanh hoặc văn bản. Khi kết hợp với Reinforcement Learning, Deep Reinforcement Learning có thể 4p dụng vào các bài toán thực tế mà dữ liệu đầu vào là các định dạng phức tạp.
e Tính tổng quát hóa: Deep Learning cho phép mạng nơ-ron sâu học các
mô hình tổng quát từ dữ liệu huấn luyện. Điều này giúp Deep Reinforcement Learning tổng quát hóa tốt hơn và áp dụng được vào các môi trường mới
mà nó chưa trước đây tương tác.
e Hiệu suất cao: Két hợp Deep Learning va Reinforcement Learning cho
phép học một chính sách tối ưu trong các môi trường phức tạp. Deep Rein-
forcement Learning có khả năng học một hàm giá trị hoặc hàm chính sách
tối ưu sử dụng dữ liệu lớn và mạng nơ-ron sâu, giúp đạt được hiệu suất cao hơn so với phương pháp truyền thống.