Phương pháp học tăng cường

NGUYỄN THỊ THUẬN BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ KHOA HỌC NGÀNH: CÔNG NGHỆ THÔNG TIN CÔNG NGHỆ THÔNG TIN PHƯƠNG PHÁP HỌC TĂNG CƯỜNG NGUYỄN THỊ THUẬN 2004-2006 HÀ NỘI 2006 HÀ NỘI 2006 LỜI CẢM ƠN Trong suốt trình học tập trình làm luận văn, em nhận giúp đỡ thầy cô giáo môn, đặc biệt bảo hướng dẫn tận tình thầy giáo hướng dẫn TS Nguyễn Linh Giang Với lòng biết ơn sâu sắc, em xin chân thành cảm ơn thầy cô giáo môn đặc biệt thầy giáo TS Nguyễn Linh Giang giúp đỡ để em hoàn thành luận văn thạc sỹ khoa học Em xin gửi lời cảm ơn tới ban lãnh đạo đồng nghiệp nơi em cơng tác tạo điều kiện giúp em có môi trường nghiên cứu làm việc tốt Cuối cùng, em xin gửi lời cảm ơn tới gia đình, bạn bè, người thân ln động viên, khích lệ giúp đỡ em suốt trình học tập làm luận văn vừa qua Hà Nội, tháng 10 năm 2006 Học viên Nguyễn Thị Thuận Lớp: Cao học CNTT 2004-2006 MỤC LỤC LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT MỞ ĐẦU CHƯƠNG BÀI TOÁN QUYẾT ĐỊNH MARKOV VÀ PHƯƠNG PHÁP HỌC TĂNG CƯỜNG 1.1 PHÁT BIỂU BÀI TOÁN 1.2 CÁC PHẦN TỬ CỦA BÀI TOÁN QUYẾT ĐỊNH MARKOV .10 1.2.1 Hàm phản hồi 15 1.2.2 Hàm giá trị .16 1.3 CẤU TRÚC TOÁN HỌC CỦA BÀI TOÁN QUYẾT ĐỊNH MARKOV 20 1.4 PHƯƠNG PHÁP HỌC TĂNG CƯỜNG 26 1.4.1 Ý tưởng chung 26 1.4.2 Một số thuật ngữ 30 1.4.2.1 Khảo sát khai thác 30 1.4.2.2 Kỹ thuật ε-greedy, ε-soft softmax 30 1.4.2.3 Khái niệm học on-policy off-policy 32 1.4.3 Phân loại thuật toán học tăng cường .33 1.4.3.1 Học dựa mô hình 33 1.4.3.2 Học khơng có mơ hình 33 1.4.4 Lịch sử phát triển lĩnh vực ứng dụng 35 CHƯƠNG CÁC THUẬT TOÁN HỌC TĂNG CƯỜNG 40 2.1 PHƯƠNG PHÁP QUY HOẠCH ĐỘNG (DP) .40 2.2 PHƯƠNG PHÁP MONTE CARLO (MC) 41 2.2.1 Phương pháp MC on-policy 44 2.2.2 Phương pháp MC off-policy 45 2.3 PHƯƠNG PHÁP TEMPORAL DIFFERENCE (TD) 45 2.3.1 TD(0) .46 2.3.2 TD(λ) .47 2.3.3 Q-Learning .48 2.3.4 SARSA 49 2.4 2.5 SO SÁNH CÁC THUẬT TOÁN HỌC TĂNG CƯỜNG ĐIỂN HÌNH 50 MỘT SỐ PHƯƠNG PHÁP TIẾN BỘ KHÁC 51 CHƯƠNG THỬ NGHIỆM 52 3.1 BÀI TỐN LỰA CHỌN MƠ PHỎNG 52 3.2 PHƯƠNG PHÁP HỌC TĂNG CƯỜNG LỰA CHỌN MÔ PHỎNG 55 3.2.1 Phương pháp quy hoạch động (DP) 55 3.2.2 Học khơng có mơ hình (Phương pháp Q-Learning) 58 3.2.3 Học dựa mơ hình (Phương pháp prioritized sweeping) 59 3.3 KỊCH BẢN VÀ KẾT QUẢ THỬ NGHIỆM 61 3.3.1 Kịch 1: Thay đổi kích thước khơng gian trạng thái 67 3.3.1.1 3.3.1.2 3.3.1.3 3.3.1.4 3.3.1.5 3.3.2 3.3.2.1 3.3.2.2 3.3.2.3 3.3.2.4 3.3.2.5 3.3.3 Số bước hội tụ .68 Thời gian hội tụ 68 Phân tích kết 69 Giải pháp cải thiện .70 Kết luận 70 Kịch 2: Thay đổi hệ số học .70 Phân rã hệ số học theo số đoạn lặp .71 Mối quan hệ giá trị chiến lược hệ số học .71 Phân tích kết 73 Giải pháp cải thiện .73 Kết luận 74 Kịch 3: Thay đổi số đoạn lặp 74 3.3.3.1 Mối quan hệ giá trị chiến lược số đoạn lặp 74 3.3.3.2 Phân tích đánh giá kết 76 3.3.4 Kịch 4: Thay đổi chiến lược lựa chọn 76 3.3.4.1 Mối quan hệ giá trị chiến lược tham số chiến lược 76 3.3.4.2 Phân tích đánh giá kết 77 ĐÁNH GIÁ KẾT LUẬN 78 TÀI LIỆU THAM KHẢO 79 TÓM TẮT LUẬN VĂN 80 DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT Thuật ngữ Viết tắt Học tăng cường (Reinforcement Learning) RL Phương pháp lập trình động (Dynamic Programming) DP Phương pháp Monte Carlo MC Phương pháp Temporal Difference TD MỞ ĐẦU Tính cấp thiết đề tài Xã hội ngày đại, kỹ thuật công nghệ ngày phát triển, với nghiên cứu phát triển không ngừng lĩnh vực trí tuệ nhân tạo học máy, cho đời hệ thống máy móc thơng minh ứng dụng rộng rãi hầu hết lĩnh vực đời sống máy truy tìm liệu, chẩn đốn y khoa, phát thẻ tín dụng giả, phân tích thị trường chứng khốn, phân loại chuỗi DNA, nhận dạng tiếng nói chữ viết, … đặc biệt lĩnh vực điều khiển Các phương pháp tự đào tạo (học) đưa từ lâu để khả hệ thống thơng minh q trình hoạt động tự tích luỹ, phân tích thơng tin thu từ tự nâng cao khả thân, mục đích quan trọng lỹ thuyết định toán tự động hoá điều khiển tối ưu Chúng ta có nhiều loại thuật tốn học học có giám sát, học khơng có giám sát, học tăng cường, loại thuật tốn thích ứng với loại tốn cụ thể Trong phạm vi đề tài này, nghiên cứu tìm hiểu vấn đề liên quan đến phương pháp học tăng cường Đây thuật toán học có khả giải tốn thực tế phức tạp có tương tác giữ hệ thống mơi trường Với tình môi trường không đứng yên, cố định mà thay đổi phức tạp phương pháp học truyền thống khơng cịn đáp ứng mà phải sử dụng phương pháp học tăng cường Những tốn với mơi trường thay đổi thực tế không nhỏ ứng dụng nhiều lĩnh vực quan trọng Mục đích Qua q trình làm luận văn tổng hợp nắm vững kiến thức phương pháp học tăng cường nói chung Hiểu rõ ý tưởng, chế hoạt động thuật toán học tăng cường ứng dụng tốn điển hình cụ thể Đồng thời thực mơ tốn thử nghiệm, đo đạc thống kê đánh giá kết thử nghiệm thuật toán RL Giới hạn vấn đề Do hạn chế điều kiện thời gian thực hiện, đề tài nghiên cứu mức lý thuyết cài đặt thử nghiệm, chưa ứng dụng vào thực tiễn Hướng phát triển Trong thời gian tới, cố gắng ứng dụng kiến thức phương pháp học tăng cường, xây dựng toán thực tiễn cụ thể ứng dụng rộng rãi Bố cục luận văn Luận văn gồm chương với nội dung sau: Chương 1: Trình bày lý thuyết tổng quan phương pháp học tăng cường, mơ hình tốn định Markov, bên cạnh giới thiệu sơ lược đời, lịch sử phát triển phương pháp học tăng cường, lĩnh vực ứng dụng thực tiễn Chương 2: Trình bày chi tiết đặc điểm, bước thực loại giải thuật học tăng cường sử dụng Chương 3: Trình bày tốn lựa chọn thử nghiệm, giới thiệu lại sơ qua loại thuật toán học tăng cường lựa chọn áp dụng toán thử nghiệm Các kịch thử nghiệm kết thu Trên sở đó, kết luận đánh giá đưa giải pháp cải tiến Chương BÀI TOÁN QUYẾT ĐỊNH MARKOV VÀ PHƯƠNG PHÁP HỌC TĂNG CƯỜNG Phương pháp học tăng cường phương pháp phổ biến để giải toán định Markov Bài tốn định Markov có nhiều ứng dụng lĩnh vực kỹ thuật lý thuyết định, quy hoạch toán học, điều khiển tối ưu, Trong phần này, trình bày q trình định Markov tập trung vào khái niệm q trình Markov có số bước vơ hạn có số bước hữu hạn 1.1 PHÁT BIỂU BÀI TỐN Bài tốn định Markov toán học từ tác động để đạt mục đích Người học người định gọi tác tử Tất mà chúng tương tác với, bao gồm thứ bên tác tử gọi môi trường Các tác động thực cách liên tục, tác tử lựa chọn hành động, môi trường đáp ứng lại hành động chuyển từ trạng thái thời sang trạng thái Môi trường đem lại mục tiêu, giá trị số mà tác tử cố gắng cực đại hoá qua thời gian Một đặc tả hồn thiện mơi trường coi “nhiệm vụ”, thực thể toán định Markov Tóm lại, tốn định Markov liên quan đến lớp tốn tác tử rút kết luận phân tích chuỗi hành động với tín hiệu vơ hướng đưa môi trường Trong khái niệm chung thấy hai đặc tính quan trọng: • Tác tử tương tác với môi trường cặp “Tác tử + Môi trường” tạo thành hệ thống động • Tín hiệu tăng cường, nhận biết dựa vào mục tiêu, cho phép tác tử thay đổi hành vi Lược đồ tương tác tác tử-mơi trường sau: Hình 1.1: Mơ hình tương tác tác tử môi trường Trong lược đồ trên, tác tử môi trường tác động lẫn bước chuỗi bước thời gian rời rạc, t = 0, 1, 2, 3, …Tại bước thời gian t, tác tử nhận số biểu diễn trạng thái môi trường, st∈S, với S tập trạng thái có thể, lựa chọn hành động at∈A(st), với A(st) tập hành động có hiệu lực trạng thái st Mỗi bước thời gian tiếp theo, tác tử nhận giá trị tăng cường rt+1∈R tự tìm trạng thái st+1 Tại bước tác tử thực ánh xạ từ trạng thái đến hành động lựa chọn Phép ánh xạ gọi chiến lược tác tử, kí hiệu πt với πt(s,a) xác suất thực hành động at=a st=s Như vậy, tốn định Markov thực chất phát biểu sau: Biết - Tập trạng thái: S - Tập hành động có thể: A - Tập tín hiệu tăng cường (mục tiêu) Bài tốn Tìm π:S→A cho R lớn Với mơ hình tốn định Markov trên, xem xét qua số ví dụ quen thuộc Ví dụ 1: Máy bán hàng tự động - Trạng thái: cấu hình khe - Hành động: thời gian dừng lại - Mục tiêu: kiếm nhiều tiền - Bài tốn: tìm π:S→A cho R lớn Ví dụ 2: Tic-Tac-Toe Đây trị chơi quen thuộc giới trẻ Hai người chơi thực chơi bảng kích thước 3x3 Một người ghi kí hiệu X người ghi kí hiệu O, đến tận có người thắng nhờ ghi dấu hàng dọc hàng ngang hàng chéo, người ghi dấu X hình vẽ: Nếu bảng bị lấp đầy mà không người chơi ghi dấu hàng trận đấu hồ Bài tốn tic-tac-toe tiếp cận sử dụng RL sau: - Trạng thái: bảng 3x3 - Hành động: phép di chuyển - Mục tiêu: thắng, -1 thua, hoà - Bài tốn: tìm π:S→A cho R lớn Ví dụ 3:Robot di động - Trạng thái: vị trí Robot người - Hành động: di chuyển - Mục tiêu: số bước đối mặt thành công 65 Hình 3.4: Policy Iteration Chức Q-Learning: Sử dụng thuật toán Q-Learning để giải toán, với tham số ‘pjog’, ε, độ xác, hệ số học α, số đoạn lặp episode thực hiện, nhấn nút Initialize để khởi tạo Sau nhấn nút episode, thuật toán Q-Learning cài đặt sẵn cho kết giá trị ô trạng thái, chiến lược tối ưu trạng thái Chúng ta biết giá trị chiến lược tối ưu Score Policy 66 Hình 3.5: Q-Learning Chức P.Sweeping: Sử dụng thuật toán Prioritized Sweeping để giải tốn 67 Hình 3.6: P.Sweeping Trên sở cài đặt tốn mơ phỏng, ta tiến hành kiểm tra theo kịch sau để có đánh giá nhận xét kết luận giải thuật RL 3.3.1 Kịch 1: Thay đổi kích thước khơng gian trạng thái Tiến hành thay đổi kích thước khơng gian trạng thái tốn để kiểm tra độ hội tụ thời gian thực thuật toán lặp giá trị thuật toán lặp chiến lược 68 Bằng cách chạy thuật toán lặp giá trị lặp chiến lược mẫu tốn mê lộ với số lượng khác (mỗi ô tương đương với trạng thái) Ta có số liệu thống kê sau: 3.3.1.1 Số bước hội tụ Không gian trạng thái (Số trạng thái) 18 54 60 100 Value Iteration (Số bước hội tụ) 34 44 48 58 61 Policy Iteration (Số bước hội tụ) 4 Từ số liệu thực nghiệm ta có biểu đồ biểu diễn mối quan hệ không gian trạng thái số bước lặp thuật toán lặp giá trị lặp chiến lược sau: 70 60 Số bước lặp 50 40 Value Iteration Policy Iteration 30 20 10 18 54 60 Không gian trạng thái 3.3.1.2 Thời gian hội tụ 100 69 Không gian trạng thái (Số trạng thái) Value Iteration (Thời gian hội tụ: ms) 18 54 60 100 0 30 78 219 Policy Iteration (Thời gian hội tụ: ms) 0 62 109 287 Từ số liệu thực nghiệm ta có biểu đồ biểu diễn mối quan hệ không gian trạng thái thời gian hội tụ thuật toán lặp giá trị lặp chiến lược sau: 350 Thời gian hội tụ 300 250 200 Value iteration Policy iteration 150 100 50 18 54 60 100 Không gian trạng thái 3.3.1.3 Phân tích kết Thuật tốn lặp chiến lược cần số bước lặp đến hội tụ so với thuật toán lặp giá trị cho toán mê lộ, thời gian cần thực thuật toán lặp chiến lược lại lớn so với thuật toán lặp giá trị Hiệu hai thuật toán phụ thuộc vào tỷ lệ số hành động số trạng thái Tỷ lệ cao hiệu thuật tốn cao 70 3.3.1.4 Giải pháp cải thiện Phép lặp chiến lược hội tụ với số bước lặp thời gian thực bước lặp nhiều so với phép lặp giá trị Lý vấn đề bước đánh giá chiến lược phép lặp chiến lược Trong bước đó, việc phải giải để tìm giá trị xác V(S) cho chiến lược đưa chi phí nhiều so với việc tính thay đổi Vt+1(s) nhỏ t tăng Như vậy, thay tìm xác giá trị V(S) cho chiến lược đưa ra, vài bước lặp giá trị thực thay đổi hàm giá trị không nhận biết (nhỏ ngưỡng đó) Do đó, bước đánh giá chiến lược phương pháp lặp chiến lược thay đổi sau để làm tăng hiệu 3.3.1.5 Kết luận Phép lặp chiến lược lý tưởng tốn có khơng gian hành động lớn làm giảm việc xem xét khơng gian hành động bước lặp Trong phép lặp giá trị lý tưởng cho tốn có khơng gian trạng thái lớn 3.3.2 Kịch 2: Thay đổi hệ số học Ta phân tích tác động hệ số học phương pháp Q-Learning đề xuất hệ số học phù hợp cho môi trường không ổn định 71 3.3.2.1 Phân rã hệ số học theo số đoạn lặp Ở ta sử dụng thử nghiệm phương pháp phân rã hệ số học thuật tốn Q-Learning theo cơng thức: Hệ số học = (1000 * max Hệ số học)/(1000 + số đoạn lặp) Lấy: max Hệ số học = 0.7 Ta có số liệu thống kê thực nghiệm sau: Số đoạn lặp (Episodes) 1000 2000 3000 4000 5000 Hệ số học (α) 0.7 0.35 0.23 0.18 0.14 0.11 Từ số liệu thực nghiệm ta có biểu đồ biểu diễn mối quan hệ hệ Hệ số học số học với số đoạn lặp thuật toán Q-Learning sau: 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 Hệ số học 1000 2000 3000 4000 5000 episodes 3.3.2.2 Mối quan hệ giá trị chiến lược hệ số học Thử nghiệm hệ số học = 0.1 72 Bảng số liệu thống kê: Số đoạn lặp (Episodes) Giá trị chiến lược 1000 2000 3000 4000 5000 6000 7000 8000 9000 25581 7092 4005 5768 3428 19398 1394 902 16735 Từ số liệu thực nghiệm ta vẽ biểu đồ biểu diễn giá trị chiến lược số bước lặp tăng thuật toán Q-Learning sau: 30000 25000 20000 15000 Giá trị chiến lược 10000 5000 1000 3000 5000 7000 9000 Thử nghiệm hệ số học = 0.001 Bảng số liệu thống kê: Số đoạn lặp (Episodes) Giá trị chiến lược 1000 2000 3000 4000 5000 6000 7000 26645 870 2468 875 14495 7472 453 73 8000 9000 2955 6348 Từ số liệu thực nghiệm ta vẽ biểu đồ biểu diễn giá trị chiến lược số bước lặp tăng thuật toán Q-Learning sau: 30000 25000 20000 15000 Giá trị chiến lược 10000 5000 1000 3000 5000 7000 9000 3.3.2.3 Phân tích kết Với hệ số học = 0.1, tác tử cải thiện chiến lược nhanh khơng ổn định đến chiến lược tối ưu mà giữ dao động vị trí gần chiến lược tối ưu chiến lược tồi Trong với hệ số học = 0.001, tác tử tiến tới chiến lược tối ưu chậm đặn chắn 3.3.2.4 Giải pháp cải thiện Qua kết thử nghiệm ta thấy thực tế, tác tử nhạy cảm giá trị tăng cường nhận từ mơi trường hệ số học cao Trong môi trường nhiễu, tác tử thực hành động chuyển sang trạng thái kỳ vọng mà bị đẩy sang trạng thái kề có xác suất chắn Trong mơi trường nhiễu, tác tử thực hành động tối ưu kết lại bước di chuyển sang trạng thái tồi nhận giá trị phạt Trong tình vậy, hệ số học lớn, hàm giá trị tính cho cặp trạng 74 thái-hành động thay đổi đáng kể, dẫn đến tác tử thay đổi độ tin cậy khả tối ưu hành động tác tử thay đổi chiến lược Tuy nhiên, hệ số học lớn, tác tử lại nhạy cảm với nhiễu môi trường tạo nên bất lợi Như vậy, để đạt tối ưu, ta cần sử dụng hệ số học lớn giai đoạn đầu tương tác tác tử môi trường, giúp cho tác tử học tính động mơi trường nhanh chóng Sau phải thực giảm hệ số học để tiến dần đến chiến lược tối ưu Đây việc sử dụng phép phân rã hệ số học suốt thời gian thực thuật tốn 3.3.2.5 Kết luận Hệ số học có giá trị lớn hoạt động tốt hệ số học có giá trị nhỏ giai đoạn đầu tương tác tác tử với môi trường hệ số học có giá trị nhỏ hoạt động tốt giai đoạn sau tương tác tác tử với môi trường 3.3.3 Kịch 3: Thay đổi số đoạn lặp 3.3.3.1 Mối quan hệ giá trị chiến lược số đoạn lặp Ta phân tích tác động số đoạn lặp đến giá trị chiến lược thu phương pháp Q-Learning hai trường hợp khơng có phân rã hệ số học có phân rã hệ số học Thay đổi số đoạn lặp có phân rã hệ số học Ta thực nghiệm tốn với thuật tốn Q-Learning hệ số học không ổn định mà thay đổi theo công thức phân rã suốt q trình chạy thuật tốn Thơng tin thực nghiệm thu sau: Số đoạn lặp (Episodes) 1000 Giá trị chiến lược 13952 75 2000 3000 4000 5000 46139 8863 7131 3134 Từ số liệu thực nghiệm ta vẽ biểu đồ biểu diễn giá trị chiến lược số bước lặp tăng thuật toán Q-Learning sau: 50000 40000 30000 Giá trị chiến lược 20000 10000 1000 2000 3000 4000 5000 episodes Thay đổi số đoạn episode khơng có phân rã hệ số học Ta thực nghiệm toán với thuật tốn Q-Learning hệ số học ổn định khơng đổi suốt q trình chạy thuật tốn Thơng tin thực nghiệm thu sau: Số đoạn lặp (Episodes) 1000 2000 3000 4000 5000 Giá trị chiến lược 8405 1550 12558 1634 14108 Từ số liệu thực nghiệm ta vẽ biểu đồ biểu diễn giá trị chiến lược số bước lặp tăng thuật toán Q-Learning sau: 76 16000 14000 12000 10000 8000 6000 4000 2000 Giá trị chiến lược 1000 2000 3000 4000 5000 episodes 3.3.3.2 Phân tích đánh giá kết Từ kết thực nghiệm ta thấy số đoạn lặp tăng (trong trường hợp có phân rã hệ số học hệ số học trở nên nhỏ), thay đổi môi trường không làm thay đổi nhiều giá trị Q Do đó, tác tử trì việc thực chiến lược tối ưu Khi số đoạn lặp thay đổi, giá trị chiến lược mà tác tử thực cần nhiều thời gian để tiến đến giá trị tối ưu Có nghĩa tác tử cần nhiều thời gian để tìm chiến lược tối ưu 3.3.4 Kịch 4: Thay đổi chiến lược lựa chọn 3.3.4.1 Mối quan hệ giá trị chiến lược tham số chiến lược Thay đổi giá trị ε chiến lược lựa chọn ε-Greedy Quan sát thông tin thay đổi giá trị chiến lược sau: Tham số lựa chọn (ε) Giá trị chiến lược 0.1 0.2 0.3 0.4 0.5 0.6 14975 5193 10064 7461 7375 9327 77 0.7 0.8 0.9 3531 7885 1984 Từ số liệu thực nghiệm ta vẽ biểu đồ biểu diễn giá trị chiến lược Giá trị chiến lược tham số lựa chọn chiến lược thay đổi thuật toán Q-Learning sau: 16000 14000 12000 10000 8000 6000 4000 2000 Giá trị chiến lược 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 ε 3.3.4.2 Phân tích đánh giá kết Khi thay đổi tham số ε giữ nguyên giá trị tham số khác, thấy giá trị chiến lược nhận giảm theo chiều tăng tham số ε 78 ĐÁNH GIÁ KẾT LUẬN Trong suốt trình học hỏi nghiên cứu làm luận văn, em nắm bắt vấn đề liên quan đến phương pháp học tăng cường, ứng dụng thiết thực vào tốn thực tế Hiểu rõ ý tưởng, chế hoạt động thuật toán học tăng cường phổ biến, cách thức áp dụng chúng toán cụ thể Em tìm hiểu số cơng cụ phát triển RL có, sở cài đặt chương trình thử nghiệm mơ tốn Đưa kịch thử nghiệm để đánh giá thuật toán Hướng nghiên cứu tương lai ứng dụng góp phần giải tốn quan trọng thiết thực bối cảnh xã hội ngày đại phát triển 79 TÀI LIỆU THAM KHẢO Tiếng Anh Bellman, R (1957) Applied Dynamic Programming Princeton University Press, Princeton, New Jersey Bertsekas, D P (1995) Dynamic Programming and Optimal Control, Athena Scientific, Belmont, Massachusetts Coulom R (2000): Reinforcement Learning using Neural Networks PhD thesis Doya K (1999) Reinforcement Learning in continuous time and space Christ Gaskett (2002) Q-Learning for Robot Control, RMIT University Carlos Henrique Costa Ribeiro A Tutorial on Reinforcement Learning Techniques Kaelbling L P and Littman M L Reinforcement Learning: a Survey Puterman, M L (1994) Markovian Decision Problems Robinson A (May 7, 2002) CS 242 FinalProject: ReinforcementLearning 10 Singh, S P (1994) Learning to Solve Markovian Decision Processes PhD thesis, University of Massachusetts 11 Sutton R and Barto A (1998) Reinforcement Learning: An Introduction, MIT Press 12 V Gullapalli V (1992): Reinforcement Learning and its application to control 13 William D Smart and Leslie Pack Kaelbling (2002) Effective Reinforcement Learning for Mobile Robots 14 Whitehead, S D and Lin, L.-J (1995), Reinforcement learning of non-markov decision processes 15 Java Reinforcement Learning Framework ... Trên sở đó, kết luận đánh giá đưa giải pháp cải tiến 7 Chương BÀI TOÁN QUYẾT ĐỊNH MARKOV VÀ PHƯƠNG PHÁP HỌC TĂNG CƯỜNG Phương pháp học tăng cường phương pháp phổ biến để giải toán định Markov... thống học tăng cường phát triển Các hệ thống học tăng cường ban đầu người học “thử lỗi”, với cách tiếp cận chúng thực xem đối lập với kế hoạch Tuy nhiên, ngày rõ ràng phương pháp học tăng cường. .. trọng tất thuật toán học tăng cường phương pháp để ước lượng hàm giá trị cách hiệu Vai trò 13 trung tâm phép ước lượng hàm giá trị xem điều quan trọng mà học phương pháp học tăng cường suốt thập kỷ

Định dạng
Số trang	80
Dung lượng	1,72 MB