Học cũng cố điều khiển cánh tay robot tránh vật cản

Đại Học Quốc Gia Tp Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN TẤN LŨY HỌC CỦNG CỐ ĐIỀU KHIỂN CÁNH TAY ROBOT TRÁNH VẬT CẢN Chuyên ngành : Điều Khiển Học Kỹ Thuật Mã số ngành : 2.05.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH , tháng 11 năm 2005 CÔNG TRÌNH ĐƯC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học: Cán chấm nhận xét 1: Caùn chấm nhận xét 2: Luận văn thạc só bảo vệ HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày tháng 12 năm 2005 TRƯỜNG ĐH BÁCH KHOA PHÒNG ĐÀO TẠO SĐH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM ĐỘC LẬP – TỰ DO – HẠNH PHÚC TpHCM, Ngày Tháng Năm 2005 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: NGUYỄN TẤN LŨY Ngày, tháng, năm sinh:16/09/1966 Nơi sinh: Đà Lạt Chuyên ngành: Điều khiển học kỹ thuật I TÊN ĐỀ TÀI: HỌC CỦNG CỐ ĐIỀU KHIỂN CÁNH TAY ROBOT TRÁNH VẬT CẢN II NHIỆM VỤ VÀ NỘI DUNG: Tìm hiểu phương pháp học để điều khiển Tìm hiểu phương pháp giải thuật học củng cố Tìm hiểu xấp xỉ hàm So sánh chọn xấp xỉ hàm kết hợp với phương pháp học củng cố để học điều khiển cánh tay robot tránh vật cản Xây dựng mô hình động lực học cánh tay robot hai khớp nối Xây dựng thư viện học củng cố ngôn ngữ lập trình C cho khối S-Function Simulink Matlab Mô trình học củng cố thư viện xây dựng Phân tích đánh giá kết mô III NGÀY GIAO NHIỆM VỤ: IV NGAØY HOAØN THAØNH NHIỆM VỤ: V CÁN BỘ HƯỚNG DẪN: TS Nguyễn Thiện Thành CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM NGÀNH TS Nguyễn Thiện Thành TS Trần Đức Thành BỘ MÔN QL CHUYÊN NGÀNH TS Trần Đức Thành Nội dung yêu cầu LATN hội đồng chuyên ngành thông qua Ngày PHÒNG ĐÀO TẠO-SĐH tháng năm KHOA QUẢN LÝ NGÀNH Abstract Reinforcement Learning is a powerful learning and control method for dynamical systems which directly interact with unknown or unpredictable environment with the objective of finding optimal strategies to decide optimal actions for control Reinforcement Learning methods are being developed from formal theories of “trial and error”, however furthermore, during the course of learning, actions are optimized by received knowledge or explored Building automatic controllers for robots, which always have uncertainties in dynamic model, in stochastic environments using reinforcement learning is a realistic model with a great challengingly but efficiently, where an accurate model of the dynamics of the robot or the environment is not required, also optimal trajectories, that pre-computing them is often too costly to be performed online, is not planted The optimal policy will be found in any situation, not only in the neighborhood of a pre-compute optimal trajectory if it exits In some other situations, new optimal actions might be necessary to find quickly The advantage of using reinforcement learning for control robot is that the desired behavior need not to be completely specified by human designer Only the reward function, which is defined in terms of desired outcomes In other words, the robot is simply told what it has to do, and not how, in the task specification A reinforcement learning operating in real-time with large state and action spaces are approximation problems that must be solved with great care In the thesis, a Cerebellar Model Articulation Controller (CMAC) networks is used as fast function approximators to combine with reinforcement learning techniques to set up reinforcement learning systems for solving the manipulator control problem above in real-time with large state and action space In the thesis, to evaluate the effectiveness of reinforcement learning techniques, a learning controller is build for manipulator control The task facing the learning controller is to generate a sequence of torque change commands to drive the links of the manipulator from arbitrary starting arm configuration in order to position the end-effector at the destination with proper velocity, without obstacle collisions along the way Tóm tắt Học củng cố phương pháp học điều khiển mạnh mẽ hệ thống động lực tương tác trực tiếp với môi trường không xác định với mục tiêu tìm chiến lược tối ưu để định chọn hành động tối ưu cho điều khiển Có thể nói học củng cố phát triển từ lý thuyết hình thức học thử sai, nhiên cao nữa, trình học hành động tối ưu “tri thức” học thăm dò để tìm tối ưu Xây dựng điều khiển robot có mô hình động lực xác môi trường động lực không xác định, sử dụng học củng cố phương pháp thực tế thách thức hiệu quả, không cần xác định xác mô hình động lực robot môi trường, không cần qui hoạch trước q đạo tham chiếu tối ưu không qui hoạch điều kiện Chiến lược tối ưu tìm tình không lân cận q đạo tối ưu hoạch định có q đạo Trong vài trường hợp khác hành động tối ưu cần phải nhanh chóng tìm thấy Thuận lợi học củng cố hành vi robot không cần đặc tả đầy đủ người, có tín hiệu củng cố định nghóa theo kết mong muốn Nói cách khác, robot bảo phải làm làm Học điều khiển hệ thống thời gian thực với không gian trạng thái hành động lớn toán xấp xỉ cần phải giải thận trọng Mạng CMAC (Cerebellar Model Articulation Controller) sử dụng xấp xỉ hàm tốc độ nhanh để kết hợp với kỹ thuật học củng cố tạo thành hệ thống học củng cố giải toán điều khiển cánh tay robot nêu thời gian thực với không gian trạng thái hành động lớn Trong luận văn để đánh giá hiệu kỹ thuật học củng cố, điều khiển học xây dựng để điều khiển cánh tay robot Nhiệm vụ học để phát mô men dẫn khâu cánh tay từ động học ban đầu động học đích, đầu cuối cánh tay đạt đến đích với vận tốc hợp lý, mà không khâu cánh tay đụng vào vật cản dọc đường Lời cảm ơn Tôi xin cảm ơn Ts Nguyễn Thiện Thành, người thầy tận tình giúp đở suốt trình học tập thực luận văn Thầy cô môn điều khiển tự động khoa điện-điện tử Trường Đại Học Bách Khoa Tp Hồ Chí Minh tận tâm, tận lực dìu dắt trình học tập nghiên cứu Trường Tôi xin cảm ơn đồng nghiệp khoa khí Trường Cao Đẳng Giao Thông Vận Tải III khích lệ động viên trình thực luận văn Ngoài chia đến bạn học chung lớp K14 gắn bó hai năm học tập Luận văn thay lời tặng vợ Thanh Hồng hai Hồng Hạnh Phương Quân Mục lục Chương Giới thiệu 1.1 Sự tương tác tác nhân môi trường 1.2 Hệ thống học 1.2.1 Học giám sát 1.2.2 Học củng cố 1.3 Điều khiển robot học củng cố Chương 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 4 Học củng cố Khái niệm Quá trình định Markov Qui hoạch động 2.3.1 Chiến lược hàm đánh giá .8 2.3.2 Chiến lược trội 2.3.3 Tối ưu 10 2.3.4 Phương trình tối ưu Bellman .10 2.3.5 Lặp chiến lược 12 2.3.6 Lặp giá trị 13 Phương pháp sai phân tạm thời .14 2.4.1 Các giá trị dự báo giải thuật TD(λ) .14 2.4.2 Dự báo tổng giá trị thưởng với TD(λ) 15 Q-learning .17 2.5.1 Giaûi thuaät Q-learning 17 2.5.2 Giải thuật Sarsa 18 2.5.3 Sarsa TD(λ) kết hợp 19 Hệ thống học trích-hành động 19 Thăm dò lựa chọn hành động 21 2.7.1 Phương pháp thăm dò ε-greedy 21 2.7.2 Phương pháp thăm dò dùng phân bố xác xuất 21 Boltzmann Haøm củng cố – hàm thưởng 24 i MỤC LỤC ii Chương 3.1 3.2 3.3 Xấp xỉ hàm học củng cố 31 Sự cần thiết phải xấp xỉ hàm 31 Maïng MLP (Multi-Layer-Perception) 32 Maïng RBF (Radial Basis Function) 34 3.3.1 Mạng RAN (Resource Allocating Network) 34 3.3.2 Ưu điểm mạng RBF .36 3.3.3 Nhược điểm mạng RBF 36 3.4 Mạng CMAC (Cerebellar Model Articulation Controller) 36 3.4.1 Toång quan 36 3.4.2 Hoạt động mạng CMAC 36 3.4.3 Ánh xạ mạng CMAC 38 3.4.4 Kỹ thuật băm (Hasing) .41 3.4.5 Öu điểm mạng CMAC 41 3.4.6 Nhược điểm mạng CMAC 42 Chương Điều khiển cánh tay Robot sử dụng học củng cố 43 4.1 Học củng cố để cải thiện chất lượng hệ thống .43 4.1.1 Đặc tả yêu cầu 43 4.1.2 Điều khiển PI 44 4.1.3 Hoïc củng cố để cải thiện chất lượng 45 4.1.4 Kết luận 48 4.2 Mô hình động lực học cánh tay robot hai khớp nối 50 4.3 Mô động học cánh tay robot 51 4.4 Điều khiển robot bám theo q đạo tham chiếu 52 4.5 Học củng cố để điều khiển cánh tay robot tránh vật cản 53 4.5.1 Hàm thưởng – Hàm củng cố 54 4.5.2 Hệ thống học trích - hành động sử dụng mạng 55 CMAC 4.5.3 Hệ thống Q-learning sử dụng mạng CMAC .56 4.6 Thực 59 4.6.1 Mô tả 61 4.6.2 Keát 60 4.7 Phân tích 69 Chương Kết luận hướng phát triển đề tài 71 5.1 Kết luaän 71 5.2 Hướng phát triển đề tài 71 MUÏC LUÏC Phụ lục A A.1 A.2 A.3 iii Mô hình động lực học cánh tay robot 72 Thông số robot 72 Phương trình Lagrange 72 Phương trình động lực học 74 Phụ lục B Thư viện học củng cố 77 B.1 Cài đặt thư viện học củng cố 77 B.2 Ý nghóa, mô tả, tham số khối S-Function 78 Phụ lục C Các thông số thực nghiệm 90 C.1 Các thông số mạng CMAC 90 C.2 Các thông số học củng cố 90 Tài Liệu Tham Khảo 101 Danh sách hình vẽ 1.1 1.2 Tương tác tác nhân môi trường Tương tác tác nhân môi trường hệ thống cánh tay robot học củng cố để chuyển động môi trường phức tạp 2.1 Mô tả phương trình Bellman cho hành động a1 , a2 , a3 2.2 2.3 2.4 2.5 2.6 trạng thái x hàm chuyển trạng thái T ( x , a ) Tương tác hệ thống học Q-learning môi trường Hệ thống học trích – tác động Mobile robot học củng cố để chuyển động đích tránh vật cản Robot di chuyeån tránh vật cản với cảm biến phát vật cản Mô hình cánh tay sinh học với sáu bắp u1 , u ,K , u hai 10 17 20 26 29 khớp nối 29 3.1 3.2 3.3 3.4 3.5 Bảng dò tìm để lưu trữ hàm đánh giá Cấu trúc mạng MLP học điều khiển cánh tay robot bậc tự Cấu trúc mạng RAN với hàm Gauss hàm sở “xuyên tâm” Ví dụ mạng CMAC Ánh xạ mạng CMAC 31 33 35 38 40 4.1 4.2 Hệ thống điều khiển PI Sơ đồ mô học củng cố để điều khiển giảm sai số hệ thống Ngõ y bám theo r với điều khiển PI Ngõ y bám theo r sau huấn luyện học củng cố Cánh tay robot với vật cản không gian làm việc Sơ đồ động lực học cánh tay robot Sơ đồ tương tác tác nhân mô robot hoạt động môi trường có vật cản 44 45 4.3.1 4.3.2 4.4 4.5 4.6 49 49 50 52 53 iv ... lực học cánh tay robot hai khớp nối 50 4.3 Mô động học cánh tay robot 51 4.4 Điều khiển robot bám theo q đạo tham chiếu 52 4.5 Học củng cố để điều khiển cánh tay robot tránh vật cản. .. pháp học để điều khiển Tìm hiểu phương pháp giải thuật học củng cố Tìm hiểu xấp xỉ hàm So sánh chọn xấp xỉ hàm kết hợp với phương pháp học củng cố để học điều khiển cánh tay robot tránh vật cản. .. kỹ thuật học củng cố, điều khiển học xây dựng để điều khiển cánh tay robot Nhiệm vụ học để phát mô men dẫn khâu cánh tay từ động học ban đầu động học đích, đầu cuối cánh tay đạt đến đích với vận

Định dạng
Số trang	109
Dung lượng	777,84 KB