1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học máy tính: Kết hợp học tăng cường với các phương pháp tính toán tiến hoá cho bài toán tối ưu hoá chính sách

66 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Kết hợp học tăng cường với các phương pháp tính toán tiến hóa cho bài toán tối ưu hóa chính sách
Tác giả Võ Minh Hiếu, Mai Đại Lâm
Người hướng dẫn TS. Lương Ngọc Hoàng
Trường học Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành Khoa học máy tính
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2023
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 66
Dung lượng 23,42 MB

Cấu trúc

  • 2.2.2 Phương pháp Policy-basedl (26)
    • 2.2.2.1 Policy Gradienttheorem| (27)
    • 2.2.2.2 Deterministic Policy Gradient theorem sees 13 [2.2.3 Phuong pháp Actor-Critic| (28)
  • 2.2.4 Thuật toán Twin Delayed Deep Deterministic Policy Gradi- ent(TD3)| (30)
  • 2.2.5 Thuật toán Double Actors TD3(DATD3) (31)
  • 2.3.1 Thuật toán tiếnhóa| (35)
  • 2.3. EMERY! . AV dee. fe ee ee 21 [4 Population-guided parallel policy search cho Reinforcement (0)
  • M- DATD3] (0)
    • 4.1 Môi trường thực nghiệm| (48)
      • 4.3.1 Kiến trúc của các mạng] (50)
      • 4.3.2 Thiết lập hyperparameter cho các thuật toán| (50)
    • 3.3 Thuật toán baselinel (0)
    • 4.41 CEM-P3S-TD3 với CEM-TD3 (51)
    • 1.1 Agent tuong tac với môi trường| (0)
    • 2.6 Quá trình tinh target value trong thuật toán DATD3| (0)
    • B.1 Mô hình CEM-P3STD3].......................... 3.2_ MôhìnhCEM-DA:TD3|.......................... các môi trường (version 2) ở một triệu bước|............. - 4.3. Learning curve của thuật toán CEM-P3S-TD3, CEM-TD3 trong các môi trường (version 2) ở ba triệu bước| (0)

Nội dung

HO CHÍMINH CONG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAMTRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN ĐĂNG KÝ ĐÈ TÀI KHÓA LUẬN TÓT NGHIỆP Tên đề tài: Kết hợp học tăng cường với các

Phương pháp Policy-basedl

Policy Gradienttheorem|

Trong phương pháp này, ta sử dung stochastic policy 79(a|s) với @ là tham số của mang neural policy Ta sẽ tối ưu policy của agent bằng phương pháp gradient ascent: ỉ8 =0+aVạ/7(7m)

Ta sẽ phân tích Vo J (70):

Xác suất xuất hiện của Trajectory:

P(t\zt) = po(so) TIÊ*o P(st+1|s+, ar)70(a#ls+)

VolnP(t|79) = Velnpo(so) + 3 ”[ValnP(s¿ 1|s;„ứ;) + Valnzr¿(4i|s¿)]

Chương 2 Kiến thức cơ bản

VoT (mt) = E (3 Volnmo(asR (rt) ® =0

Deterministic Policy Gradient theorem sees 13 [2.2.3 Phuong pháp Actor-Critic|

Trong phương pháp nay, ta sử dung deterministic policy 7rạ(s) = a làm policy cho agent Đây có thể coi là một trường hợp đặc biệt của stochastic policy với phương sai là 0 Tuy nhiên, có một điểm khác biệt giữa hai loại policy này Trong trường hợp stochastic policy, hàm policy lấy tích phân trên cả state và action, trong khi đó với deterministic policy thì chỉ lấy tích phân trên state Chính vì như thế, việc tính toán stochastic policy gradient sẽ cần nhiều sample hơn, đặc biệt khi không gian action có số chiều lớn Tương tự phương pháp trên, ta sẽ tối ưu policy của agent bằng phương pháp gradient ascent:

= = Jp“(s) 'VạQ”*(s, 7rạ(s))ds Áp dụng quy tắc chain rule, ta có:

Chương 2 Kiến thức cơ bản

Vạ/Z7(mạ) = E_ [VaQ”°(s,a)Vạ7ra(s)] s~p70

2.2.3 Phương pháp Actor-Critic Ở phần trước, ta đã biết được rằng có thể tìm được policy tối ưu bằng hai cách: tối ưu policy trực tiếp bằng phương pháp policy-based hoặc tính giá trị của Q- function, từ đó agent sẽ chọn thực hiện action nào tại state đó để Q-funtion đạt giá trị tối đa Actor-Critic là phương pháp kết hợp của của hai phương pháp trên nhằm tận dụng được các điểm mạnh của cả hai phương pháp Nhóm thuật toán này gồm hai mạng là mạng Actor và mạng Critic Mạng Actor có vai trò tối ưu policy, cơ bản thì nó tương tụ như mạng policy và ta có thể tìm policy tối ưu bằng phương pháp policy gradient Còn mạng Critic tương tự như mạng Q-network, có nhiệm vụ tính toán giá trị của Q-funtion để sử dụng cho việc update tham số của mạng Actor.

Thuật toán chung của phương pháp Actor-Critic xem tại|Algorithm1

Chương 2 Kiến thức cơ bản

Khởi tạo s,0,p, a ~ 79(a|s) for = 1to T do

Lay rar; ~ R(s,a) và state tiếp theo s” ~ P(s'|s,a)

Va lay ra action tiếp theo a’ ~ 7t9(s’,a’)

Cập nhật tham số của mang Actor: 6 — ỉ + ạQ¿(s,a)Vạln7r(als)

Tính giá trị hiệu chỉnh của Q-function: G¡ = r¡ + yQ(s⁄,a') — Q(®)(s,a)

Cập nhật tham số của mang Critic: @ ÿ + apGrV pQo(s,4)

Cập nhật a

Ngày đăng: 23/10/2024, 01:20

HÌNH ẢNH LIÊN QUAN

So với CEM-TD3. Đối với eTD3, Hình |4.2Ì cho thay thuật toán của chúng tôi tốt hơn ở tất cả các môi trường và chênh lệch hiệu suất được biểu thị ở bảng - Khóa luận tốt nghiệp Khoa học máy tính: Kết hợp học tăng cường với các phương pháp tính toán tiến hoá cho bài toán tối ưu hoá chính sách
o với CEM-TD3. Đối với eTD3, Hình |4.2Ì cho thay thuật toán của chúng tôi tốt hơn ở tất cả các môi trường và chênh lệch hiệu suất được biểu thị ở bảng (Trang 52)
Kết qua ở bảng [4.5] Bảng [4.5] cho thay rằng CEM-P3S-TD3 vẫn duy trì được độ - Khóa luận tốt nghiệp Khoa học máy tính: Kết hợp học tăng cường với các phương pháp tính toán tiến hoá cho bài toán tối ưu hoá chính sách
t qua ở bảng [4.5] Bảng [4.5] cho thay rằng CEM-P3S-TD3 vẫn duy trì được độ (Trang 53)
BẢNG 4.5: Kết quả của thuật toán CEM-P3S-TD3, CEM-TD3 trong - Khóa luận tốt nghiệp Khoa học máy tính: Kết hợp học tăng cường với các phương pháp tính toán tiến hoá cho bài toán tối ưu hoá chính sách
BẢNG 4.5 Kết quả của thuật toán CEM-P3S-TD3, CEM-TD3 trong (Trang 54)
Bảng l4.8|tổng kết điểm hiệu suất đạt được sau khi huấn luyện một triệu bước tương tác - Khóa luận tốt nghiệp Khoa học máy tính: Kết hợp học tăng cường với các phương pháp tính toán tiến hoá cho bài toán tối ưu hoá chính sách
Bảng l4.8 |tổng kết điểm hiệu suất đạt được sau khi huấn luyện một triệu bước tương tác (Trang 55)

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN