Mặc dù đã giải quyết phần nào vấn đề về lưu trữ cho thuật tốn Q – Learning và khơng gian trạng thái cũng được mở rộng liên tục, thuật tốn DQN vẫn bị giới hạn trong khơng gian hành động rời rạc.
Thành cơng của DQN nói riêng và RL nói chung đến từ việc ứng dụng Deep Learning – DL trong bài toán xấp xỉ hàm. Tuy nhiên, huấn luyện thành công một mạng DL chưa bao giờ là dễ dàng và khơng có cơng thức tổng qt nào cho mọi bài toán.
Với một bài tốn Machine Learning thuộc nhóm học có giám sát (Supervise Learning), xét trên cùng một đầu vào thì đầu ra khơng thay đổi. Ngoài ra đầu vào là độc lập và có phân phối giống nhu hoặc gần giống nhau (independent and identically distributed, i.d.d). Đó là những điều kiện quan trọng để huấn luyện thành cơng mơ hình DL.
Ngược lại, trong bài tốn RL, cả đầu vào và đầu ra thay đổi liên tục trong suốt quá trình huấn luyện. Nghĩa là ta đang xây dựng một mạng neuron để xấp xỉ hàm giá trị Q trong khi chính hàm Q này lại đang thay đổi đến khi chúng ta làm việc với nó. May mắn là trong RL cả đầu vào và đầu ra đều có thể hội tụ nên nếu chúng ta làm chậm được các thay đổi ở đầu vào và đầu ra thì ta sẽ có khả năng mơ hình hóa được hàm giá trị Q này.
Một vấn đề nữa nảy sinh liên quan đến mối tương quan trong mơ hình. Tại một vịng lặp huấn luyện ta cập nhật tham số mơ hình để tăng hoặc giảm giá trị Q, tuy nhiên việc làm này sẽ ảnh hưởng trực tiếp đến các giá trị ước lượng của các trạng thái xung quanh. Nếu ta thực hiện với tập dữ liệu lớn, hiệu ứng này sẽ gia tăng và làm mất ổn định trong quá trình huấn luyện mạng.
Trong DQN có hai kỹ thuật rất quan trọng được giới thiệu để giải quyết phần nào nững vấn đề đã nêu trên đó là Experience Replay và Separate Target Network.
Với Experience Replay, q trình tương tác với mơi trường, tác nhân tạp ra những dữ liệu cần thiết cho quá trình huấn luyện mạng neuron và nững dữ liệu này được lưu trữ thành một tập:
𝐸𝑥𝑝𝑒𝑟𝑖𝑒𝑛𝑐𝑒 𝐵𝑢𝑓𝑓𝑒𝑟 = {(𝑠1, 𝑎1, 𝑅1, 𝑠2); … ; (𝑠𝑡, 𝑎𝑡, 𝑅𝑡, 𝑠𝑡+1)}
Cơ chế Experience Replay trong DQN giúp loại bỏ sự tương quan bằng cách lấy mẫu ngẫu nhiên trong Experience Buffer. Sau đó cập nhật tham số mơ hình theo mẻ để bộ dữ liệu đầu vào ổn định hơn trước khi huấn luyện.
Bên cạnh đó, nếu chúng ta đưa các mẫu liên tiếp vào mạng neuron, mạng sẽ có xu hướng quên đi những kinh nghiệm lúc trước vì bị ghi đè những kinh nghiệm mới. Cơ chế lưu trữ rồi phát lại kinh nghiệm bằng việc lấy mẫu ngẫu nhiên theo mẻ như trên cũng giúp sử dụng dữ liệu hiệu quả hơn, học nhiều lần hơn thay vì mỗi mẫu chỉ học một lần.
Với Separate Target Network, ý tưởng chính là xây dựng một mạng mục tiêu tách biệt với mạng sử dụng để huấn luyện, từ đó tạm thời loại bỏ được vấn đề chạy theo mục tiêu đang thay đổi. Ngoài ra, việc cập nhật tham số mơ hình của mạng huấn luyện không ảnh hưởng đến tham số mạng mục tiêu nên khơng xảy ra hiệu ứng gia tăng, khi đó khả năng dao động phân kỳ ít xảy ra và q trình huấn luyện thuận tốn ổn định hơn. Theo ý tưởng đó, trong suốt q trình huấn luyện DQN duy trì đồng thời hai hàm xấp xỉ tương ứng với hai mạng neuron:
Q(s,a): hàm ước lượng dùng để huấn luyện trong cả quá trình
Q’(s,a): hàm mục tiêu được tạo tách biệt giúp cải thiên tính ổn định.
Mạng này được giữ cố định để tính tốn và được cập nhật dần dần
Hai mạng Q(s,a) và Q’(s,a) có cùng cấu trúc và khi quá trình huấn luyện kết thúc, kết quả được lưu trữ tại Q(s,a).
3.2.3.4 Thuật toán Policy Gradient
Policy Gradient (PG) là phương pháp tăng cường thuộc nhóm on – policy, học online và khơng phụ thuộc vào mơ hình. Thuật tốn này được sử dụng khá phổ biến trong học tăng cường, dựa trên nguyên tắc “Quan sát và hành động” và tập trung hướng đến các bài tốn mang tính ngẫu nhiên (liên quan đến phân phối xác suất).
Một tác nhân PG cần phải tương tác rất nhiều với môi trường, học hỏi tùng bước để những hành động có phần thưởng cao thường xuyên xảy ra hơn và ngược lại. Theo đó, PG Agent xây dựng một mạng neuron để xấp xỉ xác suất. Đầu vào mạng là trạng thái s, đầu ra là xác suất xảy ra mỗi hành động trên trạng thái s.