1. Trang chủ
  2. » Luận Văn - Báo Cáo

Thuật toán học tăng cường và ứng dụng trong bài toán tìm đường đi cho robot

54 136 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 54
Dung lượng 892,36 KB

Nội dung

TRẦN QUỐC KIỆT TRƯỜNG ĐẠI HỌC VINH TRẦN QUỐC KIỆT TỐN HỌC TĂNG CƯỜNG KHĨA 23 VÀ ỨNG DỤNG TRONG BÀI TỐN TÌM ĐƯỜNG ĐI CHO ROBOT THUẬT TỐN HỌC TĂNG CƯỜNG VÀ ỨNG DỤNG TRONG BÀI TỐN TÌM ĐƯỜNG ĐI CHO ROBOT LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGHỆ AN, 3/2017 TRƯỜNG ĐẠI HỌC VINH TRẦN QUỐC KIỆT THUẬT TOÁN HỌC TĂNG CƯỜNG VÀ ỨNG DỤNG TRONG BÀI TỐN TÌM ĐƯỜNG ĐI CHO ROBOT CHUN NGÀNH: CƠNG NGHỆ THÔNG TIN MÃ SỐ: 60.48.02.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Người hướng dẫn khoa học: TS.Trần Xuân Sang NGHỆ AN, 3/2017 LỜI CẢM ƠN Trong suốt trình học tập trình làm luận văn, em nhận quan tâm Ban giám hiệu trường Đại Học Vinh, Ban Giám Hiệu trường Đại học Kinh Tế Công Nghiệp Long An, giúp đỡ thầy cô giáo khoa Công Nghệ Thông Tin khoa sau Đại Học trường Đại học Trường Đại học Vinh, khoa Liên kết Trường Đại học Kinh Tế Công Nghiệp Long An Đặc biệt hướng dẫn tận tình thầy giáo hướng dẫn TS Trần Xn Sang Với lịng biết ơn sâu sắc trưởng khoa CNTT TS Phan Lê Na, thầy phó khoa CNTT TS Hoàng Hữu Việt giúp đỡ để em hoàn thành luận văn thạc sỹ khoa học Em xin gửi lời cảm ơn tới ban lãnh đạo, đồng nghiệp nơi em công tác tạo điều kiện giúp em, cảm ơn bạn ban cán lớp cao học CNTT khóa 23 Long An em có khoảng thời gian học tập bổ ích Cuối cùng, em xin gửi lời cảm ơn tới gia đình, bạn bè, người thân ln động viên chia sẻ em suốt thời gian học tập LỜI CAM ĐOAN Tôi xin cam đoan luận văn tự thân thực sản phẩm riêng Các số liệu tài liệu luận văn trung thực, tin thứ cấp sử dụng luận văn có nguồn gốc trích dẫn rõ ràng Tơi hồn tồn chịu trách nhiệm tính xác thực nguyên luận văn Học viên thực Tác giả Trần Quốc Kiệt MỤC LỤC LỜI CẢM ƠN Trang LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH MỞ ĐẦU Lý chọn đề tài Lịch sử vấn đề Đối tượng phạm vi nghiên cứu NỘI DUNG Chương TỔNG QUAN 1.1 Đặt vấn đề 10 10 10 1.2 Phát biểu toán định markov 10 1.2.2 Các thành phần củamơ hình Markov 15 1.2.3 Phương pháp học tăng cường 1.2.4 Phân loại thuật toán học tăng cường 17 18 1.3 Tổng quan tình hình nghiên cứu 19 Chương CÁC THUẬT TOÁN HỌC TĂNG CƯỜNG 2.1 Tổng quan phương pháp học tăng cường 20 20 2.1.1 Phương pháp Monte Carlo (MC) 20 2.1.2 Phương pháp MC on-policy 2.1.3 Phương pháp MC off-policy 22 22 2.2 Phương pháp Temporal Difference (TD) 23 2.2.1 Thuật toán Q-learning 24 2.2.2 Thuật toán Sarsa (state, action, reward, state, action) 25 2.2.3 Thuật toán Dyna-Q 26 Chương THIẾT KẾ HỆ THỐNG THỬ NGHIỆM 30 3.1 Bài tốn mơ tìm đường ngắn cho robot mơi trường 2x3 28 3.1.1 Mơ hình hóa mơi trường 28 3.1.2 Trạng thái hành động để đến mục tiêu 29 3.1.3 Thực vài bước thuật toán Q-Learning 31 3.1.4 Kết kiểm thử với mã code Matlab 36 3.2 Bài tốn mơ tìm đường ngắn cho robot môi trường 5x5 38 3.2.1 Môi tả môi trường 38 3.2.2 Sự hội tụ toán 39 3.3 Đánh giá mơ dự thuật tốn Q-Learning , Sarsa, DynaQ 41 3.3.1 Mô tả yêu cầu tốn mơ đánh giá 41 3.3.2 Các giả định 42 KẾT LUẬN 51 TÀI LIỆU THAM KHẢO 52 DANH MỤC CÁC TỪ VIẾT TẮT Thuật ngữ Viết tắt Học tăng cường (Reinforcement Learning) RL Phương pháp Monte Carlo MC Phương pháp Temporal Difference TD Phương pháp quy hoạch động (Dynamic DP Programming) DANH MỤC CÁC BẢNG Thuật ngữ Tên bảng Bảng phần thưởng Bảng 3.1 Bảng giá trị Q(1) Bảng 3.2 Bảng giá trị Q(2) Bảng 3.3 Bảng giá trị Q(3) Bảng 3.4 Bảng giá trị Q(4) Bảng 3.5 Bảng giá trị Q(5) Bảng 3.6 Bảng số bước di chuyển tường giai đoạn thuật toán Q-learning Bảng số bước di chuyển tường giai đoạn thuật toán Sarsa Bảng số bước di chuyển tường giai đoạn thuật toán Dyna-Q Bảng so sánh số đường ngắn Bảng 3.7 Bảng 3.10 Bảng so sánh số đường ngắn Bảng 3.11 Bảng so sánh giá trị chiến lược giai đoạn Bảng so sánh giá trị chiến lược giai đoạn Bảng 3.12 Bảng 3.13 Bảng 3.8 Bảng 3.9 DANH MỤC CÁC HÌNH Thuật ngữ Tên hình Sơ đồ học tăng cường Hình 1.1 Mơ trị chơi Tic-Tac-Toe Hình 1.2 Mơ mơi trường Hình 3.1 Sơ đồ mơ mơi trường dạng Hình 3.2 Sơ đồ mơ mơi trường dạng Hình 3.3 Mơ mơi trường Hình 3.4 Sơ đồ mơ mơi trường Hình 3.5 Sơ đồ mơ mơi trường Hình 3.6 Kết thực nghiệm Hình 3.7 Mê cung x5 Hình 3.8 Trạng thái tốt sử dụng Hình 3.9 Trạng thái tốt sử dụng Hình 3.10 Trạng thái tốt sử dụng Hình 3.11 Trạng thái tốt sử dụng Hình 3.12 Biểu đồ giá trị Q Hình 3.13 Mê cung 9x6 Hình 3.14 Trạng thái bước robot thuật toán Qlearning Trạng thái bước robot thuật tốn Sara Hình 3.15 Trạng thái bước robot thuật toán DynaQ Sơ đồ hội tụ thuật tốn Hình 3.17 Sơ đồ đường thuật tốn Q-learning Hình 3.19 Sơ đồ đường thuật tốn Sarsa Hình 3.20 Sơ đồ đường thuật tốn Dyna-Q Hình 3.21 Sơ đồ so sánh số phương án tối ưu thuật toán Hình 3.22 Sơ đồ so sánh hệ số học giá trị chiến lược Hình 3.23 Mối quan hệ số đoạn lặp hệ số học Hình 3.24 Hình 3.16 Hình 3.18 MỞ ĐẦU Lý chọn đề tài Trước đây, người ta giải toán tìm đường cách sử dụng thuật tốn tìm đường cổ điển, ví dụ thuật tốn Dijkstra, thuật toán BellmanFord, thuật toán Johnson Tuy nhiên thuật toán tìm đường nói có số hạn chế địi hỏi mơi trường phải xác định trước khơng thay đổi q trình tìm đường Như thuật tốn khơng xử lý tốn tìm đường thực tế mơi trường đường thực tế thường bị thay đổi Với phát triển trí tuệ nhân tạo, ngày cơng nghệ với trợ giúp máy tính, máy tính “học”, hay nói cách khác tự tìm quy luật hành động nói chung hay tự tìm đường nói riêng thơng qua kinh nghiệm thu từ hành động thực trước Từ thực tế đó, chúng tơi hướng tới việc nghiên cứu thuật toán học tăng cường Q-learning để áp dụng việc lập kế hoạch đường cho robot tự hành Lịch sử vấn đề Các phương pháp học máy đề xuất để khả hệ thống thơng minh có khả tự tích lũy thơng tin q trình hoạt động, phân tích thơng tin thu từ tự nâng cao khả hệ thống, mục đích quan trọng lý thuyết định toán tự động hoá điều khiển tối ưu Đối tượng phạm vi nghiên cứu 3.1 Đối tượng nghiên cứu Nghiên cứu lý thuyết: Nghiên cứu tài liệu thuật toán học tăng cường cơng bố ngồi nước Nghiên cứu tài liệu trích chọn đặc trưng thuật toán học tăng cường Nghiên cứu thuật toán học tăng cường áp dụng toán tìm đường ngắn Nghiên cứu thực nghiệm: Nghiên cứu cách xây mơ hình đường ngắn cho robot Cài đặt cho tốn tìm đường ngắn cài đặt đánh giá thuật toán học tăng cường 3.2 Phạm vi nghiên cứu Bài tốn tìm đường ngắn thực nhiều thuật toán khác như: thuật toán Sarsa, Dyna-Q, DynaH …và giải với thời gian hội tụ nhanh Trong phạm vi Luận văn này, tập trung vào phương pháp phương pháp Monte Carlo (MC) phương pháp Temporal Difference (TD) để giải tốn tìm đường ngắn cho Robot Mục đích, nhiệm vụ nghiên cứu Luận văn tập trung vào mục tiêu sau: Nắm vững kiến thức phương pháp học tăng cường, hiểu rõ ý tưởng, chế hoạt thuật toán ứng dụng toán cụ thể Nghiên cứu cài đặt tốn tìm đường ngắn thuật toán học tăng cường (thuật toán Q-Learning) 38 Q (4) Action State P1 P2 P3 P4 P1 90 72.9 P2 81 81 P3 81 81 P4 90 72.9 P5 81 P6 - P5 90 - P6 max 90 100 100 81 90 100 100 0 Q (4) State P1 P2 P3 P4 P5 P6 Action Percentage P1 P2 P3 P4 P5 P6 max - 0.9 0.73 0.9 0.81 - 0.81 1 0.81 - 0.81 - 0.81 - 0.9 0.73 - 0.9 0.9 - 0.81 1 0 Bảng 3.5:Bảng giá trị Q(4) Q (5) Action State P1 P2 P3 P4 P1 90 72.9 P2 81 81 P3 81 81 P4 90 72.9 P5 81 P6 - P5 90 - P6 max 90 100 100 81 90 100 100 0 Q (5) State P1 P2 P3 P4 P5 P6 Action Percentage P1 P2 P3 P4 P5 P6 max - 0.9 0.73 0.9 0.81 - 0.81 1 0.81 - 0.81 - 0.81 - 0.9 0.73 - 0.9 0.9 - 0.81 1 0 Bảng 3.6: Bảng giá trị Q(5) Kết P3 - P1 - P2 - P6 3.2 Bài tốn mơ tìm đường ngắn cho robot mơi trường 5x5 Để thấy rõ hội tụ thuật toán ta xem xét thử nghiệm thứ hai Bước đầu thử nghiệm thuật tốn xét mơi trường mê cung gồm 25 hình 3.8 phát triển Matlab Yêu cầu tìm đường từ trạng thái 1(ô 1) đến trạng thái 25 ( ô 25) 3.2.1 Môi tả môi trường Hình 3.8: Mê cung x5 Hành động dẫn đến trạng thái 25 trao phần thưởng 100 Tất hành động khác có phần thưởng thiết lập Từ trạng thái có 39 hành động di chuyển trạng trạng thái khác liền kề Vì vậy, từ trạng thái robot di chuyển đến 2, Từ trạng thái robot di chuyển đến 1, 2, 3, 6, 8, 11, 12 13 Từ trạng thái 25 robot đến đâu Nó thiết lập trạng thái hấp thụ Một robot trả trạng thái ban đầu cho chu kỳ khác Đối với số mã thực với yếu tố giảm thiết lập 0,9 tỷ lệ học 0,7 Các robot luôn trạng thái cố gắng tìm hiểu để tìm phần thưởng trạng thái 25 Để định sách hành động robotcó biến epsilon, biến thiết lập Nếu epsilon đặt robot luôn chọn trạng thái ngẫu nhiên Nếu epsilon robot chọn tùy chọn mà có giá trị Q cao Bất nơi robot khám phá lựa chọn ngẫu nhiên chọn lựa chọn tốt Ví dụ, epsilon thiết lập để 0.4 40% thời gian robot có lựa chọn tốt 60% thời gian chọn ngẫu nhiên Epsilon thiết lập mức 0.4 cho thử nghiệm ban đầu 3.2.2 Sự hội tụ tốn Hình 3.9 cho thấy đường tốt mà robot tìm thấy để từ trạng thái đến trạng thái 25 sau 250 giai đoạn Được tìm thấy với bước di chuyển để có phần thưởng Hình 3.9: Trạng thái tốt sử dụng Hình 3.10 cho thấy robot tìm thấy đường tối ưu để đến phần thưởng Sau thực 500 giai đoạn robot tìm đường có 40 bước di chuyển Trong trường hợp đơn giản rõ ràng tuyến đường tối ưu tìm thấy Hình 3.10: Trạng thái tốt sử dụng Hình 3.11, hình 3.12 hiển thị trạng thái giá trị Q lưu trữ cho hành động robot Các trục y bảng trạng thái trục x hành động (di chuyển đến trạng thái tiếp theo) có sẵn Những màu sắc đại diện cho Q (s, a) giá trị từ (các giá trị thiết lập ban đầu) lên đến gần 100 (đối với hành động để thưởng cho giai đoạn 25) Hình 3.11: Trạng thái tốt sử dụng Hình 3.12: Trạng thái tốt sử dụng 41 Các giá trị Q chủ yếu thể hình 3.11 sau 250 di chuyển tác nhân Trong hình 3.12 cho thấy giá trị Q sau 500 di chuyển Bảng cho thấy nhiều giá trị giải pháp tối ưu hình 3.10 tìm thấy Hình 3.13: biểu đồ giá trị Q Một cách để kiểm tra giá trị Q phải nhìn vào tổng tồn ma trận Q số lượng gia tăng di chuyển Tổng giá trị Q ban đầu phát triển nhanh chóng sau giá trị bị thay đổi thể hình 3.13 Khi gần đến hội tụ giá trị kéo dài theo gia tăng chu kỳ Biểu đồ sử dụng để kiểm tra nhanh thuật toán học tập 3.3 Đánh giá mơ dự thuật tốn Q-Learning, Sarsa DynaQ 3.3.1 Mô tả yêu cầu tốn mơ đánh giá Trong phần này, sử dụng phần mềm Matlab thực để đánh giá tính hiệu thuật tốn Mơi trường mơ mạng lưới bao gồm ô, ô có giá trị gọi trạng thái mơi trường, ngược lại đóng vai trị vật cản Mê cung gồm x = 54 ô có 20% trở ngại, số lượng trạng thái môi trường 44 trạng thái trình bày hình 3.14 Nhiệm vụ đường cho di chuyển từ ô [1,1] đến ô [9,6] hình 3.14 với đường ngắn 42 Các thông số cho tất mô thiết lập sau: Alpha = 0.1, gamma = 0.95, epsilon = 0.1 Các bước tối đa giai đoạn 2.000 bước Hình 3.14: Mê cung 9x6 3.3.2 Các giả định Trong phần này, giả định vấn đề đặt để xác địch đường định hiệu Sự ước lượng dựa mơ thuật tốn thực môi trường Giả thuyết 1: Môi trường robot bao gồm số vị trí mục tiêu trở ngại Các vị trí mục tiêu hình dạng trở ngại robot chưa biết Giả thuyết 2: Robot trang bị thiết bị cần thiết để robot nhận biết vị trí mình, phát trở ngại va chạm xảy 43 Hình 3.15: Trạng thái bước robot thuật tốn Qlearning Hình 3.16: Trạng thái bước robot thuật tốn Sara Hình 3.17: Trạng thái bước robot thuật toán DynaQ So sánh trạng thái robot bước thực thuật tốn Qlearning, Sarsa, Dyna-Q thể hình 3.15, hình 3.16, hình 3.7 44 Hiệu suất thuật toán Q-learning, Sarsa, Dyna-Q Thuật toán Q-learning Giai đoạn Số bước di chuyển lớn để robot đến mục tiêu Số bước di chuyển nhỏ để robot đến mục tiêu 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 1400 1500 794 134 94 79 53 46 34 38 52 34 17 21 34 28 20 14 11 11 11 11 11 11 11 11 11 11 11 11 11 11 Bảng 3.7: Bảng số bước di chuyển giai đoạn thuật toán Q-learning Thuật toán Sarsa 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 1400 1500 Giai đoạn Số bước di chuyển lớn để robot 622 118 83 56 44 46 33 28 30 20 41 41 40 34 19 đến mục tiêu Số bước di chuyển nhỏ để robot 17 11 10 10 10 10 10 10 10 10 10 10 10 10 10 đến mục tiêu Bảng 3.8: Bảng số bước di chuyển giai đoạn thuật toán Sarsa Thuật toán Dyna-Q 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 1400 1500 Giai đoạn Số bước di chuyển lớn để robot 531 21 18 17 17 18 19 18 18 18 19 19 19 17 17 đến mục tiêu Số bước di chuyển nhỏ để robot 11 11 11 11 11 11 11 11 11 11 11 11 11 11 11 đến mục tiêu Bảng 3.9: Bảng số bước di chuyển giai đoạn thuật toán Dyna-Q Số đường ngắn mà thuật tốn tìm 1500 giai đoạn Thuật toán Q-learning Sarsa Dyna-Q Số đường ngắn mà 465 453 623 thuật tốn tìm 31% 30% 41,5% Tỷ lệ Bảng 3.10: Bảng so sánh số đường ngắn kết luận 45 Kết luận Với giả thuyết 1, giả thuyết Trong thực nghiệm thể bảng 3.7, hình 3.8, hình 3.9 thấy mơi trường, có khoảng 20% trở vật cản thuật tốn Q-learning, Sarsa chưa tìm thấy đường tối ưu cho robot 100 giai đoạn đầu giai đoạn robot thực số bước di chuyển cao để đến mục tiêu Nhưng thuật tốn Dyna-Q tìm thấy đường tối ưu cho robot 100 giai đoạn đầu robot thực số bước di chuyển để đến mục tiêu thấp thuật toán Q-learning, Sarsa Số lượng đường ngắn mà thuật toán tìm thể bảng 3.10 thấy thuật tốn Dyna-Q tìm thấy nhiều hai thuật tốn Qlearning, Sarsa Sự hội tụ thuật toán thể hình 3.18 thấy số bước di chuyển lớn hai thuật toán Q-learning cao Sarsa Sự hội tụ xảy thuật toán thực khoản 500 giai đoạn đầu đường hội tụ hai thuật tốn gần cịn giao động Ở thuật toán Dyna-Q hội tụ hình 3.18 xảy tương đối nhanh thuật tốn thực khoản 300 giai đoạn đầu bị giao động Số lần chuyển đến mục tiêu 900 800 700 600 500 Q-learning 400 Sarsa 300 Dyna-Q 200 100 -100 500 1000 1500 2000 Giai đoạn Hình 3.18: Sơ đồ hội tụ thuật tốn 46 Giả thuyết 3: Thay đổi khơng gian trạng thái cách thay đổi vị trí vật cản thay đổi vị trí xuất phát robot Giả thuyết 4: Từ vị trí nó, robot di chuyển đến vị trí liền kề tám hướng, Đông, Đông Bắc, Bắc, Tây Bắc, Tây, Nam, Tây, Nam, Đông Nam, trừ trường hợp robot vào chướng ngại vật bên môi trường, trường hợp robot giữ vị trí Hình 3.19: Sơ đồ đường thuật tốn Q-learning Hình 3.20: Sơ đồ đường thuật tốn Sarsa Hình 3.21: Sơ đồ đường thuật tốn Dyna-Q Đường tìm thấy thuật toán Q-learning Sarsa, Q (k) Sarsa (k) sau 300 giai đoạn thể hình 3.19, hình 3.20, hình 3.21 Kết luận Thực nghiệm thể hình 3.19, hình 3.20 hình 3.21 sau thực 1500 giai đoạn, thấy đường ngắn mà thuật tốn tìm thấy khơng thay đổi nhiều Trong số lượng đường ngắn thuật toán toán Q-learning Sarsa thể bảng 3.11 chênh lệch khơng nhiều, thuật tốn Dyna-Q cao hai thuật toán Thuật toán Q-learning Sarsa Dyna-Q Số đường ngắn mà 561 535 804 thuật tốn tìm 37,5 % 37,6 % 53,6% Tỷ lệ Bảng 3.11: Bảng so sánh số đường ngắn kết luận 47 18 Số phương án tối ưu 16 14 12 Q-learning 10 Sarsa Dyna-Q 0 500 1000 1500 2000 Giai đoạn Hình 3.22: Sơ đồ so sánh số phương án tối ưu thuật tốn Theo liệu hình 3.22 ta nhận thấy thuật toán Q-learning, Sarsa có hội tụ chậm lại có số phương án tốt thuật toán Dyna-Q Thay đổi hệ số học  với giá trị 0.01, 0.05, 0.1 ta thấy mối quan hệ giá trị chiến lược hệ số học qua bảng thống kê sau Giá trị chiến lược Giai đoạn  =0.01  =0.05  =0.1 100 41650 22600 15962 200 24224 8688 4622 300 18149 5476 2661 400 14665 3776 1862 500 12386 2922 1497 600 10775 2378 1254 700 9442 1989 1196 800 8444 1701 1173 900 7661 1592 1172 1000 6887 1461 1181 1100 6300 1288 1138 1200 5736 1257 1155 1300 5439 1206 1170 1400 5019 1205 1143 1500 4737 1252 1172 Bảng 3.12: Bảng so sánh giá trị chiến lược giai đoạn 48 45000 40000 Giá trị chiến lược 35000 30000 0.01 25000 0.05 20000 0.1 15000 10000 5000 0 200 400 600 800 1000 1200 1400 1600 Giai đoạn Hình 3.23: Sơ đồ so sánh hệ số học giá trị chiến lược a) Phân tích kết Với hệ số học = 0.1, tác tử cải thiện chiến lược nhanh khơng ổn định đến chiến lược tối ưu mà giữ dao động vị trí gần chiến lược tối ưu Trong với hệ số học = 0.01, tác tử tiến tới chiến lược tối ưu chậm đặn chắn b) Giải pháp cải thiện Qua kết thử nghiệm ta thấy thực tế, tác tử nhạy cảm giá trị tăng cường nhận từ mơi trường hệ số học cao Nếu hệ số học lớn, hàm giá trị tính cho cặp trạng thái-hành động thay đổi đáng kể, dẫn đến tác tử thay đổi độ tin cậy khả tối ưu hành động tác tử thay đổi chiến lược Tuy nhiên, hệ số học lớn, tác tử lại nhạy cảm với nhiễu môi trường tạo nên bất lợi Như để đạt tối ưu ta cần sử dụng hệ số học lớn giai đoạn đầu tương tác tác tử môi trường, giúp cho tác tử học tính động mơi trường nhanh chóng Sau phải thực giảm hệ số học để tiến dần đến chiến lược tối ưu Đây việc sử dụng phép phân rã hệ số học suốt thời gian thực thuật toán 49 Kết luận Hệ số học có giá trị lớn hoạt động tốt hệ số học có giá trị nhỏ giai đoạn đầu tương tác tác tử với môi trường hệ số học có giá trị nhỏ hoạt động tốt giai đoạn sau tương tác tác tử với môi trường Thay đổi số đoạn lặp Giả thuyết 5: Phân rã hệ số học theo số đoạn lặp ta sử dụng thử nghiệm phương pháp phân rã hệ số học thuật tốn Q-Learning theo cơng thức: Hệ số học = (Tổng trạng thái môi trường * max Hệ số học)/(Tổng trạng thái môi trường + số đoạn lặp) Trong môi trường thử nghiệm hình 3.14 ta có mơ hình x 6= 54 Lấy: max Hệ số học = 0.7 Hệ số học = ( 54 x 0.7)/(54+ số đoạn lặp) Ta có số liệu thống kê thực nghiệm sau: Số đoạn lặp Hệ số học 100 0.25 200 0.15 300 0.11 400 0.08 500 0.07 600 0.06 700 0.05 800 0.04 900 0.04 1000 0.04 Bảng 3.13: Bảng so sánh giá trị chiến lược giai đoạn Từ số liệu thực nghiệm ta có biểu đồ biểu diễn mối quan hệ hệ số học với số đoạn lặp thuật toán Q-Learning sau: 50 Hệ số học 0.30 0.25 0.20 Hệ số học 0.15 0.10 0.05 0.00 200 400 600 800 1000 1200 Hình 3.24: Mối quan hệ số đoạn lặp hệ số học Kết luận Qua hình 3.24 ta thấy hệ số học không thay đổi số đoạn lặp lớn 800 Từ ta phải dựa thơng số để chọn số đoạn lặp tối đa cho thuật toán 51 KẾT LUẬN Trong phần đánh giá số thuật toán thuật toán học tăng cường phổ biến Q-learning, Sarsa, Dyna-Q áp dụng cho tốn tìm đường ngắn robot di động Trong thuật toán học tăng cường, thuật toán Q-learning phổ biến Tuy nhiên qua kết mô cho thấy Q-learning không thực hiệu để tìm kiếm đường mơi trường thay đổi nhiều có có trở ngại lớn Cả hai thuật toán Sarsa thuật toán Q-learning hình thành chậm độ xác cao Trong thuật tốn Dyna-Q xác định đường robot tương đối nhanh có ổn định cao Tuy nhiên đường đường mà thuật toán Dyna-Q tìm chưa tối ưu Trong thực tế khơng có thuật tốn tối ưu cho tất mơi trường việc sử dụng thuật phụ thuộc vào nhu cầu người dung mơi hình áp dụng Tuy nhiên mô phạm vi mê cung có cịn hạn chế độ lớn, tơi có kế hoạch ngun cứu phát triển đề tài, mở rộng thuật toán DynaQ cho robot thực áp dụng môi trường thực tế Áp dụng việc chế tạo cho xe tự hành, máy bay khơng người lái tìm đường mạng Do thời gian kiến thức hạn chế nên nội dung nghiên cứu chưa sâu cịn nhiều thiếu sót Xin q thầy cơ, thầy hướng dẫn bạn đóng góp ý kiến 52 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Thị Thuận, Phương pháp học tăng cường, Luận văn thạc sĩ Đại học Bách khoa Hà Nội, Hà Nội, Việt Nam, 2006 [2] Phạm Nguyễn Huy Phương, Bùi Cơng Danh, Tìm đường ngắn phương pháp Q-learning Tạp chí Khoa học Cơng nghệ & Thực phẩm, số 04, trang 30-37, 2014 Tiếng Anh [3] Coulom R, "Reinforcement Learning using Neural Networks” PhD thesis, 2000 [4] Christ Gaskett, “Q-Learning for Robot Control”, RMIT University, 2002 [5] Hoang Huu Viet, Phyo Htet Kyaw and TaeChoong Chung, “SimulationBased Evaluations of Reinforcement Learning Algorithms for Autonomous Mobile Robot Path Planning”, IT Convergence and Services, ( 467-476), 2012 [6] Kardi Teknomo, “Q-Learning Tutorial”, Published by Revoledu.com Online, 2013 ... tốn tìm đường ngắn thuật toán học tăng cường cơng bố Nghiên cứu tốn định Markov hội tụ áp dụng vào học tăng cường Nghiên cứu thuật toán học tăng cường với hai phương pháp học dựa mơ hình học. .. phương pháp học tăng cường, hiểu rõ ý tưởng, chế hoạt thuật toán ứng dụng toán cụ thể Nghiên cứu cài đặt tốn tìm đường ngắn thuật toán học tăng cường (thuật toán Q-Learning) 9 Đánh giá hiệu thuật. .. trưng thuật tốn học tăng cường Nghiên cứu thuật toán học tăng cường áp dụng tốn tìm đường ngắn Nghiên cứu thực nghiệm: Nghiên cứu cách xây mơ hình đường ngắn cho robot Cài đặt cho tốn tìm đường

Ngày đăng: 25/08/2021, 16:35

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w