Học tăng cường (reinforcement learning)

6. Bố cục của luận văn

1.4.4. Học tăng cường (reinforcement learning)

Khái niệm học tăng cường:

Trong ngành khoa học máy tính, học tăng cường (tiếng Anh: reinforcement

learning) là một lĩnh vực con của học máy, nghiên cứu cách thức một tác nhân trong một mơi trường (điều kiện cụ thể) nên chọn thực hiện các hành động nào để đạt thành cơng tốt nhất đối với một mục tiêu nào đĩ về lâu dài. Các thuật tốn học tăng cường cố gắng tìm một chiến lược ánh xạ các hành động của thế giới tới các hành động mà tác nhân nên chọn trong các hành động đĩ.

‘Mơi trường’ thường được biểu diễn dưới dạng một Markov decision process – MDP với tham số hữu hạn, và các thuật tốn học tăng cường cĩ liên quan nhiều đến các kỹ thuật quy hoạch động. Các xác suất chuyển trạng thái và các xác suất thu lợi trong MDP thường là ngẫu nhiên nhưng lại tĩnh trong quá trình của bài tốn (stationary over the course of the problem).

Khác với học cĩ giám sát, trong học tăng cường khơng cĩ các cặp dữ liệu vào/kết quả đúng, các hành động gần tối ưu cũng khơng được đánh giá đúng sai một cách tường minh. Hơn nữa, ở đây hoạt động trực tuyến (on-line performance) được quan tâm, trong đĩ cĩ việc tìm kiếm một sụ cân bằng giữa khám phá (lãnh thổ chưa lập bản đồ) và khai thác (tri thức hiện cĩ). Trong học tăng cường, sự được và mất giữa khám phá và khai thác đã được nghiên cứu chủ yếu qua bài tốn multi-armed bandit.

Một cách hình thức, mơ hình học tăng cường bao gồm:

S: tập các trạng thái của mơi trường;

A: tập các hành động; và {\displaystyle

{mathbb }

{R}: tập các khoản "thưởng" với giá trị vơ hướng.

Tại mỗi thời điểm t, agent thấy được trạng thái của nĩ là st \in S và tập các hành động cĩ thể A(st). Nĩ chọn một hành động a\in A(st) và nhận được từ mơi trường trạng thái mớist+1 và một khoản thưởng rt+1. Dựa trên các tương tác này, agent học tăng cường phải phát triển một chiến lược π:S {\displaystyle \rightarrow} A cĩ tác dụng cực đại hĩa lượng R=r0+r1+...+rn với các MDP cĩ một trạng thái kết thúc, hoặc lượng R=Σtγtrt với các MDP khơng cĩ trạng thái kết thúc (trong đĩ γ là một hệ số giảm khoản "thưởng trong tương lai" nào đĩ, với giá trị trong khoảng 0.0 và 1.0).

Do đĩ, học tăng cường đặc biệt thích hợp cho các bài tốn cĩ sự được mất giữa các khoản thưởng ngắn hạn và dài hạn. Học tăng cường đã được áp dụng thành cơng cho nhiều bài tốn, trong đĩ cĩ điều khiển robot, điều vận thang máy, viễn thơng, các trò chơi backgammon và cờ vua.

Một số thuật tốn học tăng cường:

Sau khi ta đã định nghĩa được một hàm trả về thích hợp cần được cực đại hĩa, ta cần chỉ rõ thuật tốn sẽ được sử dụng để tìm chiến lược thu được kết quả trả về cao nhất. Cĩ hai cách tiếp cận chính, cách tiếp cận hàm giá trị và cách tiếp cận trực tiếp.

Cách tiếp cận trực tiếp dẫn đến hai bước sau đây:

 Với mỗi chiến lược cĩ thể, lấy mẫu các kết quả trong khi thực hiện chiến lược đĩ.

 Chọn chiến lược cĩ kết quả trả về kỳ vọng cao nhất.

Một vấn đề với cách tiếp cận này là số chiến lược cĩ thể cực kỳ lớn, hoặc thậm chí vơ hạn. Một vấn đề khác là các giá trị trả về cĩ thể ngẫu nhiên, khi đĩ sẽ cần đến một lượng lớn các mẫu để cĩ thể ước lượng chính xác kết quả trả về của mỗi chiến lược. Cách tiếp cận trực tiếp là cơ sở cho các thuật tốn dùng trong ngành Robotic tiến hĩa.

Các vấn đề của cách tiếp cận trực tiếp cĩ thể được làm giảm nhẹ nếu ta giả thiết một cấu trúc nào đĩ trong bài tốn và bằng cách nào đĩ cho phép các mẫu thu được từ một chiến lược này cĩ thể được ảnh hưởng tới các ước lượng cho một chiến lược khác. Cách tiếp cận hàm giá trị thực hiện điều này bằng cách chỉ giữ một tập các ước lượng về các giá trị trả về của một chiến lược π (thường là chiến lược hiện tại hoặc

chiến lược tối ưu). Trong các cách tiếp cận như vậy, người ta cố gắng ước lượng một trong hai hàm: giá trị trả về nếu xuất phát từ trạng thái s và theo chiến lược π như sau,

V(s) = E[R|s,π],

hoặc giá trị trả về kỳ vọng khi thực hiện hành động a trong trạng thái s và theo chiến lược π nghĩa là,

Q(s,a) = E[R|s,π],

Nếu cĩ sẵn chiến lược tối ưu Q, ta luơn cĩ thể chọn các hành động tối ưu đơn giản bằng cách tại mỗi trạng thái chọn hành động với giá trị cao nhất. Để thực hiện được điều này với V, ta phải cĩ một mơ hình mơi trường, dưới dạng các xác suất P(s'|s,a), cho phép tính Q bằng cơng thức.

Hoặc ta cĩ thể sử dụng các phương pháp Actor-Critic, trong đĩ mơ hình được chia làm hai phần: phần critic giữ ước lượng giá trị trạng thái V, và phần actor cĩ trách nhiệm chọn các hành động thích hợp với mỗi trạng thái.

Cho trước một chiến lược cố định π, việc ước lượng E[R|.] đối với γ=0 là đơn giản, do ta chỉ phải lấy trung bình của các khoản thưởng trực tiếp. Cách dễ thấy nhất để thực hiện việc này với γ>0 là lấy trung bình của tổng trả về sau mỗi trạng thái. Tuy nhiên, kiểu lấy mẫu Monte Carlo đòi hỏi MPD phải kết thúc.

Do đĩ, nĩi chung việc ước lượng khơng dễ. Thực ra, việc này lại khá đơn giản khi ta nhận ra rằng giá trị kỳ vọng của R tạo nên một phương trình Bellman đệ quy: Bằng cách thay thế các giá trị kỳ vọng trên bằng các ước lượng của ta, và thực hiện thuật tốn gradient descent với hàm chi phí lỗi bình phương, ta thu được TD(0) - thuật tốn học temporal difference learning. Trong trường hợp đơn giản nhất, tập hợp các trạng thái và hành động đều là rời rạc và ta giữ các ước lượng dạng bản cho mỗi trạng thái. Các phương pháp cặp đơi trạng thái-hành động là SARSA và Q- Learning. Tất cả các phương pháp đều cĩ các mở rộng mà nhờ đĩ một kiến trúc xấp xỉ nào đĩ được sử dụng, mặc dù trong một số trường hợp, sự hội tụ khơng được đảm bảo sẽ xảy ra. Các ước lượng thường được cập nhập bởi một dạng gradient descent, tuy rằng gần đây đã cĩ các phương pháp bình phương tối thiểu cho các trường hợp xấp xỉ tuyến tính.

Các phương pháp trên khơng những đều hội tụ về các ước lượng đúng cho một chiến lược cố định, và cịn cĩ thể được dùng để tìm chiến lược tối ưu. Việc này thường được thực hiện bằng cách theo một chiến lược π được rút ra từ các ước lượng hiện tại, nghĩa là bằng cách hầu như luơn luơn chọn hành động với lượng giá cao nhất, và thỉnh thoảng chọn các hành động ngẫu nhiên để khám phá khơng gian. Các chứng minh cho sự hội tụ tới chiến lược tối ưu cũng tồn tại đối với các thuật tốn nĩi đến ở trênvới một số điều kiện nhất định. Tuy nhiên tất cả các chứng minh này chỉ chứng tỏ sự hội tụ tiệm cận, và về lý thuyết người ta cịn biết rất ít về hành vi của các thuật tốn học tăng cường trong trường hợp mẫu nhỏ, ngoại trừ trong các điều kiện tham số (setting) rất hạn chế.

Một phương pháp khác để tìm chiến lược tối ưu là tìm thẳng trong khơng gian các chiến lược. Phương pháp khơng gian chiến lược định nghĩa chiến lược là một hàm cĩ tham số π(s,θ) với các tham số θ. Thơng thường, một phương pháp leo đồi (gradient method) được áp dụng để điều chỉnh các tham số. Tuy nhiên, việc áp dụng các phương pháp leo đồi khơng đơn giản, do khơng cĩ thơng tin nào về độ dốc (gradient information) được giả thiết. Thay vào đĩ, chính độ dốc phải được ước lượng từ các mẫu nhiều nhiễu (noisy samples) của kết quả trả về. Do điều này làm tăng mạnh chi phí tính tốn, nên việc sử dụng một phương pháp leo đồi mạnh hơn là leo đồi độ dốc cao nhất(steepest gradient descent) cĩ thể cĩ lợi hơn. Các phương pháp leo đồi dùng cho khơng gian chiến lược đã được sự quan tâm lớn trong 5 năm trở lại đây và giờ đã đạt đến giai đoạn tương đối chính muồi, nhưng lĩnh vực nghiên cứu này vẫn cịn hoạt động. Cĩ nhiều cách tiếp cận khác, chẳng hạn luyện thép (simulated annealing), cĩ thể dùng để khám phá khơng gian chiến lược. Các nghiên cứu về các kỹ thuật này ít phát triển hơn.

Học tăng cường (reinforcement learning)

Phương pháp học bán giám sát (Semi-Supervised Learning)

Mơ hình khối máy học MLBlocks