Học cũng cố điều khiển cánh tay robot tránh vật cản

Đại Học Quốc Gia Tp Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN TẤN LŨY HỌC CỦNG CỐ ĐIỀU KHIỂN CÁNH TAY ROBOT TRÁNH VẬT CẢN Chuyên ngành : Điều Khiển Học Kỹ Thuật Mã số ngành : 2.05.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH , tháng 11 năm 2005 CÔNG TRÌNH ĐƯC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học: Cán chấm nhận xét 1: Caùn chấm nhận xét 2: Luận văn thạc só bảo vệ HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày tháng 12 năm 2005 TRƯỜNG ĐH BÁCH KHOA PHÒNG ĐÀO TẠO SĐH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM ĐỘC LẬP – TỰ DO – HẠNH PHÚC TpHCM, Ngày Tháng Năm 2005 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: NGUYỄN TẤN LŨY Ngày, tháng, năm sinh:16/09/1966 Nơi sinh: Đà Lạt Chuyên ngành: Điều khiển học kỹ thuật I TÊN ĐỀ TÀI: HỌC CỦNG CỐ ĐIỀU KHIỂN CÁNH TAY ROBOT TRÁNH VẬT CẢN II NHIỆM VỤ VÀ NỘI DUNG: Tìm hiểu phương pháp học để điều khiển Tìm hiểu phương pháp giải thuật học củng cố Tìm hiểu xấp xỉ hàm So sánh chọn xấp xỉ hàm kết hợp với phương pháp học củng cố để học điều khiển cánh tay robot tránh vật cản Xây dựng mô hình động lực học cánh tay robot hai khớp nối Xây dựng thư viện học củng cố ngôn ngữ lập trình C cho khối S-Function Simulink Matlab Mô trình học củng cố thư viện xây dựng Phân tích đánh giá kết mô III NGÀY GIAO NHIỆM VỤ: IV NGAØY HOAØN THAØNH NHIỆM VỤ: V CÁN BỘ HƯỚNG DẪN: TS Nguyễn Thiện Thành CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM NGÀNH TS Nguyễn Thiện Thành TS Trần Đức Thành BỘ MÔN QL CHUYÊN NGÀNH TS Trần Đức Thành Nội dung yêu cầu LATN hội đồng chuyên ngành thông qua Ngày PHÒNG ĐÀO TẠO-SĐH tháng năm KHOA QUẢN LÝ NGÀNH Abstract Reinforcement Learning is a powerful learning and control method for dynamical systems which directly interact with unknown or unpredictable environment with the objective of finding optimal strategies to decide optimal actions for control Reinforcement Learning methods are being developed from formal theories of “trial and error”, however furthermore, during the course of learning, actions are optimized by received knowledge or explored Building automatic controllers for robots, which always have uncertainties in dynamic model, in stochastic environments using reinforcement learning is a realistic model with a great challengingly but efficiently, where an accurate model of the dynamics of the robot or the environment is not required, also optimal trajectories, that pre-computing them is often too costly to be performed online, is not planted The optimal policy will be found in any situation, not only in the neighborhood of a pre-compute optimal trajectory if it exits In some other situations, new optimal actions might be necessary to find quickly The advantage of using reinforcement learning for control robot is that the desired behavior need not to be completely specified by human designer Only the reward function, which is defined in terms of desired outcomes In other words, the robot is simply told what it has to do, and not how, in the task specification A reinforcement learning operating in real-time with large state and action spaces are approximation problems that must be solved with great care In the thesis, a Cerebellar Model Articulation Controller (CMAC) networks is used as fast function approximators to combine with reinforcement learning techniques to set up reinforcement learning systems for solving the manipulator control problem above in real-time with large state and action space In the thesis, to evaluate the effectiveness of reinforcement learning techniques, a learning controller is build for manipulator control The task facing the learning controller is to generate a sequence of torque change commands to drive the links of the manipulator from arbitrary starting arm configuration in order to position the end-effector at the destination with proper velocity, without obstacle collisions along the way Tóm tắt Học củng cố phương pháp học điều khiển mạnh mẽ hệ thống động lực tương tác trực tiếp với môi trường không xác định với mục tiêu tìm chiến lược tối ưu để định chọn hành động tối ưu cho điều khiển Có thể nói học củng cố phát triển từ lý thuyết hình thức học thử sai, nhiên cao nữa, trình học hành động tối ưu “tri thức” học thăm dò để tìm tối ưu Xây dựng điều khiển robot có mô hình động lực xác môi trường động lực không xác định, sử dụng học củng cố phương pháp thực tế thách thức hiệu quả, không cần xác định xác mô hình động lực robot môi trường, không cần qui hoạch trước q đạo tham chiếu tối ưu không qui hoạch điều kiện Chiến lược tối ưu tìm tình không lân cận q đạo tối ưu hoạch định có q đạo Trong vài trường hợp khác hành động tối ưu cần phải nhanh chóng tìm thấy Thuận lợi học củng cố hành vi robot không cần đặc tả đầy đủ người, có tín hiệu củng cố định nghóa theo kết mong muốn Nói cách khác, robot bảo phải làm làm Học điều khiển hệ thống thời gian thực với không gian trạng thái hành động lớn toán xấp xỉ cần phải giải thận trọng Mạng CMAC (Cerebellar Model Articulation Controller) sử dụng xấp xỉ hàm tốc độ nhanh để kết hợp với kỹ thuật học củng cố tạo thành hệ thống học củng cố giải toán điều khiển cánh tay robot nêu thời gian thực với không gian trạng thái hành động lớn Trong luận văn để đánh giá hiệu kỹ thuật học củng cố, điều khiển học xây dựng để điều khiển cánh tay robot Nhiệm vụ học để phát mô men dẫn khâu cánh tay từ động học ban đầu động học đích, đầu cuối cánh tay đạt đến đích với vận tốc hợp lý, mà không khâu cánh tay đụng vào vật cản dọc đường Lời cảm ơn Tôi xin cảm ơn Ts Nguyễn Thiện Thành, người thầy tận tình giúp đở suốt trình học tập thực luận văn Thầy cô môn điều khiển tự động khoa điện-điện tử Trường Đại Học Bách Khoa Tp Hồ Chí Minh tận tâm, tận lực dìu dắt trình học tập nghiên cứu Trường Tôi xin cảm ơn đồng nghiệp khoa khí Trường Cao Đẳng Giao Thông Vận Tải III khích lệ động viên trình thực luận văn Ngoài chia đến bạn học chung lớp K14 gắn bó hai năm học tập Luận văn thay lời tặng vợ Thanh Hồng hai Hồng Hạnh Phương Quân Mục lục Chương Giới thiệu 1.1 Sự tương tác tác nhân môi trường 1.2 Hệ thống học 1.2.1 Học giám sát 1.2.2 Học củng cố 1.3 Điều khiển robot học củng cố Chương 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 4 Học củng cố Khái niệm Quá trình định Markov Qui hoạch động 2.3.1 Chiến lược hàm đánh giá .8 2.3.2 Chiến lược trội 2.3.3 Tối ưu 10 2.3.4 Phương trình tối ưu Bellman .10 2.3.5 Lặp chiến lược 12 2.3.6 Lặp giá trị 13 Phương pháp sai phân tạm thời .14 2.4.1 Các giá trị dự báo giải thuật TD(λ) .14 2.4.2 Dự báo tổng giá trị thưởng với TD(λ) 15 Q-learning .17 2.5.1 Giaûi thuaät Q-learning 17 2.5.2 Giải thuật Sarsa 18 2.5.3 Sarsa TD(λ) kết hợp 19 Hệ thống học trích-hành động 19 Thăm dò lựa chọn hành động 21 2.7.1 Phương pháp thăm dò ε-greedy 21 2.7.2 Phương pháp thăm dò dùng phân bố xác xuất 21 Boltzmann Haøm củng cố – hàm thưởng 24 i MỤC LỤC ii Chương 3.1 3.2 3.3 Xấp xỉ hàm học củng cố 31 Sự cần thiết phải xấp xỉ hàm 31 Maïng MLP (Multi-Layer-Perception) 32 Maïng RBF (Radial Basis Function) 34 3.3.1 Mạng RAN (Resource Allocating Network) 34 3.3.2 Ưu điểm mạng RBF .36 3.3.3 Nhược điểm mạng RBF 36 3.4 Mạng CMAC (Cerebellar Model Articulation Controller) 36 3.4.1 Toång quan 36 3.4.2 Hoạt động mạng CMAC 36 3.4.3 Ánh xạ mạng CMAC 38 3.4.4 Kỹ thuật băm (Hasing) .41 3.4.5 Öu điểm mạng CMAC 41 3.4.6 Nhược điểm mạng CMAC 42 Chương Điều khiển cánh tay Robot sử dụng học củng cố 43 4.1 Học củng cố để cải thiện chất lượng hệ thống .43 4.1.1 Đặc tả yêu cầu 43 4.1.2 Điều khiển PI 44 4.1.3 Hoïc củng cố để cải thiện chất lượng 45 4.1.4 Kết luận 48 4.2 Mô hình động lực học cánh tay robot hai khớp nối 50 4.3 Mô động học cánh tay robot 51 4.4 Điều khiển robot bám theo q đạo tham chiếu 52 4.5 Học củng cố để điều khiển cánh tay robot tránh vật cản 53 4.5.1 Hàm thưởng – Hàm củng cố 54 4.5.2 Hệ thống học trích - hành động sử dụng mạng 55 CMAC 4.5.3 Hệ thống Q-learning sử dụng mạng CMAC .56 4.6 Thực 59 4.6.1 Mô tả 61 4.6.2 Keát 60 4.7 Phân tích 69 Chương Kết luận hướng phát triển đề tài 71 5.1 Kết luaän 71 5.2 Hướng phát triển đề tài 71 MUÏC LUÏC Phụ lục A A.1 A.2 A.3 iii Mô hình động lực học cánh tay robot 72 Thông số robot 72 Phương trình Lagrange 72 Phương trình động lực học 74 Phụ lục B Thư viện học củng cố 77 B.1 Cài đặt thư viện học củng cố 77 B.2 Ý nghóa, mô tả, tham số khối S-Function 78 Phụ lục C Các thông số thực nghiệm 90 C.1 Các thông số mạng CMAC 90 C.2 Các thông số học củng cố 90 Tài Liệu Tham Khảo 101 Danh sách hình vẽ 1.1 1.2 Tương tác tác nhân môi trường Tương tác tác nhân môi trường hệ thống cánh tay robot học củng cố để chuyển động môi trường phức tạp 2.1 Mô tả phương trình Bellman cho hành động a1 , a2 , a3 2.2 2.3 2.4 2.5 2.6 trạng thái x hàm chuyển trạng thái T ( x , a ) Tương tác hệ thống học Q-learning môi trường Hệ thống học trích – tác động Mobile robot học củng cố để chuyển động đích tránh vật cản Robot di chuyeån tránh vật cản với cảm biến phát vật cản Mô hình cánh tay sinh học với sáu bắp u1 , u ,K , u hai 10 17 20 26 29 khớp nối 29 3.1 3.2 3.3 3.4 3.5 Bảng dò tìm để lưu trữ hàm đánh giá Cấu trúc mạng MLP học điều khiển cánh tay robot bậc tự Cấu trúc mạng RAN với hàm Gauss hàm sở “xuyên tâm” Ví dụ mạng CMAC Ánh xạ mạng CMAC 31 33 35 38 40 4.1 4.2 Hệ thống điều khiển PI Sơ đồ mô học củng cố để điều khiển giảm sai số hệ thống Ngõ y bám theo r với điều khiển PI Ngõ y bám theo r sau huấn luyện học củng cố Cánh tay robot với vật cản không gian làm việc Sơ đồ động lực học cánh tay robot Sơ đồ tương tác tác nhân mô robot hoạt động môi trường có vật cản 44 45 4.3.1 4.3.2 4.4 4.5 4.6 49 49 50 52 53 iv Thư viện học củng cố 83 ACTION VALUES Ý nghóa Tính toán giá trị ngõ mạng CMAC giá trị hành động cho trạng thái Diễn giải Sử dụng trọng số để tính giá trị tất hành động (ngõ mạng CMAC) theo biểu thức y i = g( s ) = K −1 ∑ w[index l ] l=0 Index Chỉ số tích cực từ mạng CMAC cho giá trị trạng thái bước t Hình B.2 Weight Trọng số cũ Action Value Véc tơ giá trị hành động Q(x,a) i = ÷ 121 Giá trị hành động (mỗi khớp có 11 giá trị mô men rời rạc , nên có 121 hành động trạng thái K số lượng trọng số, có giá trị với giá trị tham số Memory sau Tham số Các tham số giống khối CMAC Index Thư viện học củng cố 84 BOLTZMANN Ý nghóa Chọn hành động cách khai thác thăm dò Diễn giải Dùng phân phối xác suất Boltzmann để chọn hành động thích hợp tùy theo tham số Temprature Tham số giảm từ từ trình học để nghiêng chọn hành động có giá trị lớn Xác suất để chọn hành động pi = Q ( x ,ai ) e T n ∑e Hình B.3 Q ( x ,a j ) T j =1 Action Value Action Veùc tơ giá trị hành động Giá trị hành động (mô men) khớp chọn Q(x,a) Action Giá trị hành động (mô men) Số lượng hành động trạng khớp chọn thái với kích thước Q(x,a) n Tham số Temprature Tham số để điều chỉnh việc thực hành động có giá trị lớn Thư viện học củng cố 85 Các tham số khác giống khối CMAC index EPSILON-GREEDY Ý nghóa Chọn hành động cách khai thác thăm dò Diễn giải Chọn ngẫu nhiên hành động không trội với phân bố chuẩn có xác xuất epsilon Action Value Véc tơ giá trị hành động Q(x,a) Action Giá trị hành động (mô men) khớp chọn Hình B.4 Action Giá trị hành động (mô men) khớp chọn Random Giá trị ngẫu nhiên từ đến phát sinh Tham số Epsilon Xác suất để chọn hành động ngẫu nhiên Các tham số khác giống khối CMAC index Thư viện học củng cố 86 KINEMATIC-REWARD Ý nghóa Thực động học thuận robot để xác định vị trí đầu cuối dựa vào để tính toán tín hiệu củng cố Diễn giải Để xác định đầu cuối robot có đạt đến đích khâu có đụng vào vật cản hay giải trước phần động học thuận robot; tín hiệu củng cố tính trước theo biểu thức sau − ( θ& + θ& )  + e sd ∈ G   − 0.025 θ& (C ∈ l1 \ {(0,0 ) ≤ C ≤ A1 (x , y )}) U θ1 ∉ S   (C ∈ l2 \ {A1 (x , y ) ≤ C ≤ A2 (x , y )}) U θ ∉ S r =  − 0.025 θ&  Vmax < θ& , θ& U θ& , θ& < Vmin  − 0.05  θ1 , θ ∈ S   ( Hình B.5 Reward Giá trị tín hiệu củng cố Failure Tín hiệu có đụng độ xảy q, dq Giống khối CMAC Index ) ( ) Thư viện học củng cố 87 KINEMATIC-REWARD (tt) Tham số x Traget, y Target Vị trí đích theo phương Ox Oy x Obstacle, y Obstacle Các véc tơ hàng chứa vị trí vật cản theo phương Ox Oy Obstacle Dimension Bán kính vật cản Velociy Boundary Ve1c tơ chứa giới hạn vận tốc góc khớp Length of Link Véc tơ chứa chiều dài khâu Upper Position Véc tơ chứa giới hạn vị trí khớp Lower Position Véc tơ chứa giới hạn vị trí khớp Thư viện học củng cố 88 ACTION VALUE Ý nghóa Tính giá trị hành động Diễn giải Tính giá trị hành động từ trọng số vừa cập nhật số tích cực Action Hành động a cần tính giá trị Action Value cổng vào Giá trị hành động Q(x,a) củ Index Chỉ số tích cực từ mạng CMAC cho giá trị trạng thái bước t+1 Hình B.6 Weight Trọng số vừa cập nhật từ Action Value cổng Giá trị hành động Q(x,a) Tham số Các tham số giống khối CMAC index Thư viện học củng cố 89 SETTING TRACE Ý nghóa Vết tương hợp điều chỉnh Diễn giải Điều chỉnh vết tương hợp cách xóa vết tương hợp không thuộc hành động a đặt lại vết tương hợp cho hành động hành 1 et =   γλet −1 Hình B.7 Action Hành động a cần tính giá trị Trace Vết tương hợp cũ x = x t , a = at , ngược lại Index Chỉ số tích cực từ mạng CMAC Setting Trace Vết sau điều chỉnh Tham số Gamma, Lamda Hệ số giảm γ hệ số TD(λ) Các tham số lại giống khối CMAC index Thư viện học củng cố 90 WEIGHT UPDATE Ý nghóa Cập nhật trọng số Diễn giải Cập nhật trọng số mạng CMAC theo luaät wt = wt −1 + α[rt −1 + γQt − Qt −1 ]et −1 Trace Vết tương hợp et −1 Epsilon ε t −1 = [rt −1 + γQt − Qt −1 ] Hình B.8 γ hệ số giảm Update Weight Trọng số cập nhật Tham số Alpha tốc độ học α Thư viện học củng cố 91 ANIMATION Ý nghóa Hoạt hình Diễn giải Hoạt hình cánh tay robot mặt phẳng thẳng đứng có nhiều vật cản hình tròn Hai khâu biểu diễn hai đoạn thẳng; vật cản biểu diễn hình tròn đồng màu; đích biểu diễn hình tròn khác với màu vật cản q Vị trí khớp quay (rad) Hình B.9 Obstacle Véc tơ chứa tọa độ vật cản theo cặp x,y Hai phần tử vị trí đích C(x,y) Vị trí đầu cuối cánh tay Tham số L Chiều dài hai khâu cánh tay robot Object Véc tơ chứa bán kính đối tượng Phần tử đích; Các phần tử theo sau vật cản Trace Giữ lại vết vẽ trước (1: giữ vết; 0: xóa vết) Thư viện học củng cố 92 POLICY Ý nghóa Chiến lược tối ưu Diễn giải Sau học củng cố chiến lược hội tụ chiến lược tối ưu Q* : S × U x∈S A(x) → R cho Q * (x, a ) = Q π* (x, a ) ∀x ∈ S, ∀a ∈ A(x) Hình B.10 Q* tập chứa hành động a có giá trị tối ưu trạng thái x Action Value Véc tơ chứa hàm đánh giá Q(x,a) Opt Action1 Giá trị lớn hàm đánh giá hành động (mô men khớp 1) trạng thái x Opt Action2 Giá trị lớn hàm đánh giá hành động (mô men khớp 2) trạng thái x Equal Policy Đếm số chiến lược tối ưu Tham số Các tham số khối CMAC Index Phụ lục C Các thông số thực nghiệm C.1 Các thông số mạng CMAC Số lượng hàm lương tử: K= 10 Các phần tử phân giải chiều Qi = 10 (i=1÷4) Độ rộng phần tử phân giải cho vị trí khớp θ1 t1= 3π/24 (rad) Độ rộng phần tử phân giải cho cho vị trí khớp θ2 t2 =3π/16 (rad) Độ rộng phần tử phân giải cho vận tốc góc θ& , θ& t3 =t4=20/8 (rad/s) Số lượng trọng số Nω=100.000 Sử dụng bảng băm (Hasing): bảng chứa 2048 phần tử có giá trị ngẫu nhiên C.2 Các thông số học củng cố Tốc độ học αstart=0.5 Sau phép thử α ← α×0.99995 Hệ số λ=0.9 Hệ số giảm γ=0.55 Thông số nhiệt độ phân bố xác suất Boltzmann Tmax= 0.1, Tmin = 0.01 93 Thư viện học củng cố Mỗi chu kỳ giảm 0.01 94 Tài liệu tham khảo [1] Andreas Matt Georg Regensbuger ( 2004) [2] Barto, A (1993) A brief overview of reinforcement learning In Handbook of Neurocontrol , ed by D White and D Sofge Florence, Kentucky 41022: Van Nostrand Reinhold [3] Barto, A., Bradtke, S and Singh, S (1991) Real-time learning and control using asynchronous dynamic programming Technical Report TR 91{57, Dept of Computer Science, University of Massachusetts, Amherst, MA A revised version of this report appears under the title of Learning to Act using Real-Time Dynamic Programming', CMPSCI Technical Report 93-02, March 1993 [4] Bellman, R (1957) Dynamic Programming Princeton, NJ: Princeton University Press [5] Bellman, R and Dreyfus, S (1962) Applied Dynamic Programming RAND Corp [6] Charles W Anderson Comparison of CMACs and Radial Basis Functions for Local Function Approximators in Reinforcement Learning [7] Chen Khong Tham (1994) Modular On-Line Function Approximation For Scaling Up Reinforcement University of Cambridge Department of Engineering [8] Chist Gaskett (2002) Q_Learning For Robot Control., Ph.D Thesis [9] Jette Randlov (2001) Solving Complex Problems With Learning, Ph.D thesis University of Copenhagen Reinforcement [10] Jun Izawa, Toshiyuki Kondo, Koji Ito (2002) Biological Robot Arm Motion through Reinforcement Learning [11] Katsunari Shibatay, Masanori Sugisakay& Koji Ito (2002) Hand Reaching Movement Acquired through Reinforcement Learning [12] Kadirkamanathan, V and Niranjan, M (1992) A function estimation approach to sequential learning with neural networks Technical Report 95 Tài liệu Tham Khảo 96 CUED/F-INFENG/TR111, Cambridge University Engineering Department, Cambridge, U.K [13] Kaelbling, L P., Littman, M L., and Cassandra, A R (1996) Reinforcement learning: A survey Journal of Arti_cial Intelligence Research, [14] Keisuke SATO (2002) Deadlock-Free Motion Planning using the Laplace Potential Field University of Tokyo [15] Lakhmi C.Jain Clarence W.deSilva (1999) Intelligent Adaptive Control CRC Press [16] Matthew Kretchmar,R (2002) A Synthesis of Reinforcement Learning And Robust Control Theory, Ph.D thesis, University of Colorado State [17] Melanie Coggan (2004) Exploration and Exploitationin Reinforcement Learning, CRA-W DMP Project at McGill University [18] Neumann, G., Neumann, S (2003) Reinforcement Learning Toolbox Tutorial [19] Péter Stefán, László Monostori , On the Relationship between Learning Capability and the Boltzmann-formula, Computer and Automation Research Institute, Hungarian Academy of Sciences [20] Platt, J (1991) A resource-allocating network for function interpolation Neural Computation (2): 213{225 [21] Remi Coulom (2002) Reinforcement Learning Using Neural NetWork, With Application To Motor Control, Ph.D thesis [22] Rummery, G.A (1995) Problem Solving with Reinforcement Learning, Ph.D thesis, Cambridge University Engineering Department, Cambridge University [23] Sigh, S.P and Sutton, R.S (1996) Reinforcement learning with replacing traces, Machine Learning 22: pp 123-158 [24] Sutton, R S and Barto, A G (1998) Reinforcement Learning: An Introduction The MIT Press TÓM TẮT LÝ LỊCH TRÍCH NGANG Họ Tên: Nguyễn Tấn Lũy Ngày, tháng, năm sinh 16/09/1966 Nơi sinh: Đà Lạt QUÁ TRÌNH ĐÀO TẠO • • • Từ 1989 đến 1994: học đại học trường ĐH GTVT, ngành Cơ khí Từ 1998 đến 2000: học đại học trường ĐH BK Tp Hồ Chí Minh, ngành Công nghệ thông tin Từ 2003 đến 2005: học cao học trường ĐH BK Tp Hồ Chí Minh, ngành Điều khiển học kỹ thuật QUÁ TRÌNH CÔNG TÁC • • Từ 1995 đến 2001: công tác Công ty Đăng kiểm 50.01S Từ 2002 đến 2004: công tác Công ty xe Khách sài Gòn ... lực học cánh tay robot hai khớp nối 50 4.3 Mô động học cánh tay robot 51 4.4 Điều khiển robot bám theo q đạo tham chiếu 52 4.5 Học củng cố để điều khiển cánh tay robot tránh vật cản. .. pháp học để điều khiển Tìm hiểu phương pháp giải thuật học củng cố Tìm hiểu xấp xỉ hàm So sánh chọn xấp xỉ hàm kết hợp với phương pháp học củng cố để học điều khiển cánh tay robot tránh vật cản. .. tìm để học củng cố cải thiện chất lượng đối tượng bậc Sau sở so sánh, xấp xỉ hàm mạng CMAC phát triển để học củng cố điều khiển cánh tay robot tránh vật cản Học củng cố Chương Học củng cố 2.1

Định dạng
Số trang	109
Dung lượng	777,88 KB