reinforcement learning

THÔNG TIN TÀI LIỆU

MỤC LỤC TỔNG QUAN VỀ REINFORCEMENT LEARNING 1 1 1 Reinforcement Learning là một nhánh của Machine Learning 1 1 2 Reinforcement Learning là gì? 2 1 3 Các thuật ngữ thông dụng 3 1 3 1 Agent 3 1 3 2 Environment 3 1 3 3 Action 3 1 3 4 Observation 4 1 3 5 State 4 1 3 6 Policy 5 1 3 7 Reward 5 1 3 8 Episode 5 Khai thác và khám phá 5 1 4 Markov Decision Process 6 1 5 Policy and value functions 7 1 5 1 Policy 7 1 5 2 Value functions 7 1 6 Phương trình Bellman 8 1 6 1 Phương trình Bellman cho hàm State.

MỤC LỤC TỔNG QUAN VỀ REINFORCEMENT LEARNING 1.1 Reinforcement Learning nhánh Machine Learning 1.2 Reinforcement Learning gì? 1.3 Các thuật ngữ thông dụng 1.3.1 Agent 1.3.2 Environment 1.3.3 Action 1.3.4 Observation 1.3.5 State 1.3.6 Policy 1.3.7 Reward .5 1.3.8 Episode .5 *Khai thác khám phá .5 1.4 Markov Decision Process 1.5 Policy and value functions 1.5.1 Policy 1.5.2 Value functions 1.6 Phương trình Bellman 1.6.1 Phương trình Bellman cho hàm State-value 1.6.2 Phương trình Bellman cho hàm Action-value .9 1.6.3 Phương trình bellman tính tối ưu 10 1.7 Ưu điểm việc Reinforcement Learning 11 1.8 Nhược điểm Reinforcement Learning .12 PHÂN LOẠI CÁC THUẬT TOÁN REINFORCE LEARNING .12 2.1 Model-Free so với Model-Based Reinforcement Learnning 13 2.2 Tối ưu hóa kiểm sốt Model-Based( Dựa mơ hình) 14 2.2.1 Dynamic programming .15 2.3 Model-Free Reinforcement Learning .21 2.3.1 Monte Carlo Learning .21 2.3.2 Temporal difference (TD) learning 23 2.3.3 SARSA: State–action–reward–state–action learning 24 2.3.4 Q-Learning 25 2.3.5 So sánh Q-learning SARSA 25 2.4 Policy Gradient Optimization 26 2.5 Deep Reinforcement Learning 28 2.5.1 Deep Q-learning 29 2.5.2 So sánh Deep Q-learning với Q learning 30 2.5.3 Actor-critic learning 31 2.5.4 Những thách thức Deep RL so với Deep Learning 32 SO SÁNH CÁC THUẬT TOÁN REINFORCEMENT LEARNING 35 3.1 Các yếu tố định để chọn thuật toán Reinforcement Learning 35 3.2 On-Policy so với Off-policy .37 3.3 Hiệu mẫu 40 3.4 Hiệu lấy mẫu so với thời gian lấy mẫu 42 3.5 Ổn định hội tụ .42 3.6 So sánh model-free model-based 44 3.7 So sánh học dựa giá trị với gradient sách 45 3.8 Tóm tắt lại 46 TỔNG QUAN VỀ REINFORCEMENT LEARNING 1.1 Reinforcement Learning nhánh Machine Learning “Machine learning (ML) is a process whereby a computer program learns from experience to improve its performance at a specified task” (Kiran, 2020) Hiểu đơn giản machine learning (học máy) kỹ thuật giúp cho máy tính tự học đưa định mà không cần phải cài đặt quy tắc, luật lệ Machine learning lĩnh vực công nghệ quan tâm nhiều Nó ngày ứng dụng vào thực tế sống, từ ứng dụng mạng xã hội, thương mại điện tử hay marketing… tạo giá trị to lớn cho dịch vụ Mối liên hệ AI, Machine learning Deep learning (Ảnh: intel) Các thuật toán học máy thường phân thành loại lớn: supervised learning (học có giám sát), unsupervised learning (học khơng giám sát) reinforcement learning (học tăng cường) Nếu supervised learning học tập từ tệp liệu gắn nhãn để suy luận quan hệ đầu vào đầu ra, unsupervised learning khơng cung cấp liệu gắn nhãn ấy, thay vào cung cấp liệu mà thuật tốn tìm cách mô tả liệu cấu trúc chúng Loại thứ reinforcement learning - phương pháp tập trung vào việc làm tác tử mơi trường hành động cho lấy phần thưởng nhiều Khác với học có giám sát, học tăng cường khơng có cặp liệu gán nhãn trước làm đầu vào khơng có đánh giá hành động hay sai “Reinforcement learning đào tạo mơ hình học máy để đưa chuỗi định Tác tử học cách đạt mục tiêu môi trường khơng chắn, phức tạp.” Đến ta thấy, reinforcement learning nhánh machine learning loại Học máy (Ảnh: Google) 1.2 Reinforcement Learning gì? Reinforcement Learning việc đào tạo mơ hình Machine Learning để đưa chuỗi định Trong Reinforcement Learning, trí tuệ nhân tạo (AI) đối mặt với tình giống trị chơi Máy tính sử dụng thử sai (trial and error) để đưa giải pháp cho vấn đề Để khiến máy làm lập trình viên muốn, máy (agent) nhận phần thưởng (reward) hình phạt (penalty) cho hành động(action) mà thực Mục tiêu tối đa hóa tổng phần thưởng Bằng cách tận dụng sức mạnh tìm kiếm nhiều thử nghiệm, Reinforcement Learning cách hiệu để gợi ý sáng tạo máy móc Trái ngược với người, trí thơng minh nhân tạo thu thập kinh nghiệm từ hàng nghìn gameplays song song thuật tốn Reinforcement Learning chạy sở hạ tầng máy tính đủ mạnh 1.3 Các thuật ngữ thơng dụng Trong reinforcement learning có nhiều thuật ngữ khác Sau liệt kê thuật ngữ thơng dụng tìm hiểu ý nghĩa thuật ngữ ! 1.3.1 Agent Trong reinforcement learning có thuật ngữ gọi agent - định nghĩa “anything that can be viewed as perceiving its environment through sensors and acting upon that environment through actuators” (máy quan sát môi trường sinh hành động tương ứng) 1.3.2 Environment Môi trường không gian xung quanh agent, nơi mà agent tồn tương tác 1.3.3 Action Hành động phương thức agent cho phép tương tác với mơi trường thay đổi môi trường Dựa State S(t) environment mà agent đưa Action A(t) 1.3.4 Observation Sau nhận tương tác từ agent environment có chuyển đổi trạng thái agent 1.3.5 State Là trạng thái môi trường mà agent nhận 1.3.6 Policy Chính sách yếu tố xác định cách thức hoạt động agent thời điểm định Nói cách khác, sách ánh xạ từ trạng thái (state) môi trường đến hành động thực trạng thái Chính sách cốt lõi agent việc xác định hành vi Trong số trường hợp, sách hàm bảng tra cứu đơn giản Trong số trường hợp khác, sách liên quan đến tính tốn mở rộng, ví dụ q trình tìm kiếm 1.3.7 Reward Ở hành động, môi trường gửi đến cho agent phần thưởng xác định Mục tiêu agent tối đa hóa tổng phần thưởng mà nhận thời gian dài Tín hiệu phần thưởng (reward signal) giúp xác định đâu kiện tốt xấu agent, đồng thời sở để thay đổi sách Nếu hành động lựa chọn sách mang đến phần thưởng thấp, sách bị thay đổi Agent lựa chọn hành động khác tình tương tự tương lai 1.3.8 Episode Là loạt tương tác agent environment từ thời điểm bắt đầu đến kết thúc trình *Khai thác khám phá Một thách thức nảy sinh reinforcement learning, đánh đổi khai thác khám phá (exploit or explore) Để nhận nhiều phần thưởng, agent phải ưu tiên lựa chọn hành động mà thử khứ giúp đạt phần thưởng Agent xem tất hành động xảy cho trạng thái định, sau lựa chọn hành động dựa giá trị tối đa hành động Đây gọi khai thác (exploit) sử dụng thơng tin có sẵn để đưa định (make a decision) Ngồi ra, agent thay chọn hành động dựa phần thưởng tối đa tương lai, chọn hành động cách ngẫu nhiên Hành động ngẫu nhiên quan trọng cho phép agent thăm dò khám phá trạng thái mà khơng lựa chọn q trình khai thác Tóm lại, agent phải khai thác mà trải qua để nhận phần thưởng, phải khám phá để đưa lựa chọn hành động tốt tương lai 1.4 Markov Decision Process Các vấn đề học tập củng cố mô tả dạng Quá trình định Markov (MDP) xác định yếu tố:  Một không gian trạng thái S trạng thái tn theo thuộc tính Markov Nó hữu hạn vơ hạn  Một không gian hành động A hành động a, hữu hạn vơ hạn, rời rạc liên tục  Một phân phối trạng thái ban đầu (từ trạng thái tác nhân có khả bắt đầu)  Một mơ hình động lực học chuyển tiếp với mật độ Nó xác định xác suất đến trạng thái s′ thời điểm t + trạng thái s thực hành động a  Một hàm phần thưởng r(s,a,s′): S × A × S → R xác định phần thưởng (ngẫu nhiên) nhận sau thực trạng thái s đến s′ Hành vi tác nhân theo thời gian quỹ đạo (còn gọi episode) : xác định động lực MDP Mỗi chuyển đổi xảy với xác suất cung cấp lượng phần thưởng định xác định r(s,a,s′): Trong nhiệm vụ nhiều đoạn T hữu hạn, trong nhiệm vụ liên tục T vơ hạn Điều quan trọng, thuộc tính Markov tuyên bố rằng: tức bạn khơng cần tồn lịch sử tác nhân để dự đốn nơi đến sau hành động Trong toán đơn giản, câu hỏi cung cấp đủ thông tin để mơ tả trạng thái: q trình chuyển đổi phụ thuộc vào xảy khứ, cần đưa thơng tin vào mơ tả trạng thái Nếu thuộc tính Markov khơng đáp ứng, phương thức RL khơng hội tụ (hoặc kém) Trong nhiều tốn, người ta khơng tiếp cận trạng thái thực tác nhân mà người ta quan sát gián tiếp chúng Ví dụ: trò chơi điện tử, trạng thái thực xác định vài biến số: tọa độ (x, y) hai người chơi, vị trí bóng, tốc độ, v.v Tuy nhiên, tất bạn có quyền truy cập pixel thơ, đơi bóng bị khuất sau tường gốc cây, tồn khơng gian trạng thái Thông tin tốc độ quan sát khung hình Trong Quy trình định Markov quan sát phần (POMDP), quan sát đến từ không gian liên kết với trạng thái cách sử dụng hàm mật độ Các quan sát thường khơng phải Markov, cần có lịch sử đầy đủ quan sát để giải vấn đề 1.5 Policy and value functions 1.5.1 Policy Chính sách chức ánh xạ trạng thái định với xác suất chọn hành động xảy từ trạng thái Chúng ta sử dụng biểu tượng π để biểu thị sách Khi nói sách, thức nói Agent “tuân theo sách” Ví dụ: Agent tuân theo sách π thời điểm t, sau π(a|s) xác suất Điều có nghĩa rằng, thời điểm t, theo sách π, xác suất thực hành động a trạng thái s π(a|s) Lưu ý rằng, trạng thái s∈S, π phân phối xác suất a∈A(s) 1.5.2 Value functions Hàm giá trị hàm trạng thái cặp hành động trạng thái, ước tính mức độ tốt Agent trạng thái định mức độ tốt Agent thực hành động định trạng thái định Khái niệm mức độ tốt cặp trạng thái hành động trạng thái đưa xét lợi tức mong đợi Hãy nhớ rằng, phần thưởng mà đại lý mong đợi nhận phụ thuộc vào hành động mà đại lý thực trạng thái định Vì vậy, hàm giá trị xác định liên quan đến cách hành động cụ thể Vì cách hành động đại lý bị ảnh hưởng sách mà họ tuân theo, nên thấy hàm giá trị xác định sách 1.5.2.1 State-value funcion Hàm giá trị trạng thái cho sách π, biểu thị , cho biết trạng thái cụ thể tốt Agent tn theo sách π Nói cách khác, cung cấp cho giá trị trạng thái sách π Về mặt hình thức, giá trị trạng thái s theo sách π lợi tức mong đợi từ bắt đầu s thời điểm t tuân theo sách π sau Về mặt tốn học, chúng tơi xác định : 1.5.2.2 Action-value funcion Tương tự, hàm giá trị hành động cho sách π, biểu thị , cho biết việc Agent thực hành động cụ thể từ trạng thái định tuân thủ sách tốt π Nói cách khác, cung cấp cho giá trị hành động sách π Về mặt hình thức, giá trị hành động a trạng thái s theo sách π lợi tức mong đợi từ s thời điểm t, hành động a tuân theo sách π sau Về mặt tốn học, xác định : Thông thường, hàm giá trị hành động gọi hàm Q kết đầu từ hàm cho cặp hành động trạng thái định gọi giá trị Q Chữ “ Q ” sử dụng để thể Quality việc thực hành động định trạng thái định Chúng ta làm việc với hàm Q-value nhiều tương lai 1.6 Phương trình Bellman Phương trình Bellman xuất khắp nơi tài liệu Học tăng cường, yếu tố trung tâm nhiều thuật tốn Học tăng cường Tóm lại, nói phương trình Bellman phân tách hàm giá trị thành hai phần, phần thưởng trước mắt cộng với giá trị chiết khấu tương lai.Phương trình đơn giản hóa việc tính tốn hàm giá trị, cho thay tính tổng theo nhiều bước thời gian, tìm lời giải tối ưu tốn phức tạp cách chia thành toán đệ quy, đơn giản tìm lời giải tối ưu chúng giản cập nhật tham số sách cách sử dụng sai lệch thời gian (TD error) : Việc kết hợp Deep learning vào khuôn khổ Actor-critic đơn giản Ví dụ: mạng lưới nhà phê bình tác nhân lợi (A2C), Actor deep policy network critic DDQNs Trong trường hợp này, cập nhật cung cấp : 2.5.4 Những thách thức Deep RL so với Deep Learning Cho đến nay, tất điều trông tuyệt Chúng ta hiểu cách mạng nơ-ron giúp Agent học hành động tốt Tuy nhiên, có thách thức so sánh Deep RL với Deep learning (DL): Mục tiêu không cố định không ổn định: Chúng ta quay lại mã giả cho Deep Q-learning: Như thấy đoạn mã trên, mục tiêu liên tục thay đổi với lần lặp Trong deep learning, biến mục tiêu không thay đổi việc đào tạo ổn định, điều khơng với RL Tóm lại, thường phụ thuộc vào sách chức giá trị học tập củng cố để lấy mẫu hành động Tuy nhiên, điều thường xuyên thay đổi liên tục tìm hiểu điều cần khám phá Khi chơi trò chơi, hiểu thêm giá trị chân lý trạng thái hành động đó, kết đầu thay đổi Vì vậy, chúng a phảicố gắng học cách lập đồ để có đầu vào đầu thay đổi liên tục Nhưng sau giải pháp gì? 2.5.4.1 Mạng mục tiêu Vì mạng tính tốn giá trị dự đốn giá trị mục tiêu, nên có nhiều khác biệt hai mạng Vì vậy, thay sử dụng mạng nơ-ron để học, sử dụng hai mạng Chúng tơi sử dụng mạng riêng để ước tính mục tiêu Mạng mục tiêu có kiến trúc với cơng cụ xấp xỉ hàm với tham số cố định Đối với lần lặp C (một siêu tham số), tham số từ mạng dự đoán chép sang mạng đích Điều dẫn đến việc đào tạo ổn định giữ cho hàm mục tiêu cố định (trong thời gian): 2.5.4.2 Phát lại trải nghiệm Để thực phát lại trải nghiệm, lưu trữ trải nghiệm Agent Thay chạy Q-learning cặp trạng thái / hành động chúng xảy q trình mơ trải nghiệm thực tế, hệ thống lưu trữ liệu khám phá cho [state, action, reward, next_state] - bảng lớn Hãy hiểu điều cách sử dụng ví dụ Giả sử cố gắng xây dựng bot trị chơi điện tử khung hình trị chơi đại diện cho trạng thái khác Trong trình đào tạo, lấy mẫu loạt 64 khung hình ngẫu nhiên từ 100.000 khung hình cuối để đào tạo mạng ta Điều giúp có tập hợp mối tương quan mẫu thấp mang lại hiệu lấy mẫu tốt 2.5.4.3 Để tất chúng Các khái niệm học nay? Tất chúng kết hợp để tạo thuật toán Deep Q-learning sử dụng để đạt hiệu suất cấp độ người trị chơi Atari (chỉ sử dụng khung hình video trị chơi) Tơi liệt kê bước liên quan đến mạng Deep Q network (DQN) bên dưới: Xử lý trước cung cấp (các) hình trị chơi cho DQN, điều trả giá trị Q tất hành động có trạng thái Chọn hành động cách sử dụng epsilon-greedy policy Với xác suất epsilon, chọn hành động ngẫu nhiên A với xác suất 1-epsilon, chúng tơi chọn hành động có giá trị Q lớn nhất, chẳng hạn a = argmax (Q (s, a, w)) Thực hành động trạng thái chuyển sang trạng thái để nhận phần thưởng Trạng thái hình ảnh xử lý trước chơi Chúng ta lưu trữ trình chuyển đổi đệm phát lại dạng

Ngày đăng: 07/04/2022, 20:44

Xem thêm:

reinforcement learning

So sánh Q-learning và SARSA

Ổn định và hội tụ