Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 91 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
91
Dung lượng
616,19 KB
Nội dung
3 TRƯỜNG ĐH BÁCH KHOA NAM PHÒNG ĐẠO TẠO SAU SÑH COÄNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT ĐỘC LẬP – TỰ DO – HẠNH PHÚC -TpHCM, ngày……tháng… năm 2006 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: NGUYỄN THỊ THANH THÚY Ngày tháng năm sinh: 25/05/1981 Nơi sinh: Đà Nẵng Chuyên ngành: Điều khiển học kỹ thuật I TÊN ĐỀ TÀI: HỌC CỦNG CỐ ĐIỀU KHIỂN CON LẮC NGƯC KÉP DÙNG MẠNG XUYÊN TÂM II NHIỆM VỤ VÀ NỘI DUNG: - Nghiên cứu mạng Neuron hệ thống điều khiển - Nghiên cứu học củng cố với mạng Neuron điều khiển - Tìm hiểu mạng RBF thuật toán học củng cố dùng mạng RBF - Học củng cố điều khiển hệ thống lắc ngược đơn kép dùng mạng RBF - Kết mô thuật toán học củng cố III NGÀY GIAO NHIỆM VỤ:………………………………………………… IV NGÀY HOÀN THÀNH NHIỆM VỤ:…………………………………………… V CÁN BỘ HƯỚNG DẪN: TS NGUYỄN THIỆN THÀNH CÁN BỘ HƯỚNG DẪN CN BỘ MÔN QL CHUYÊN NGÀNH TS Nguyễn Thiện Thành Nội dung yêu cầu LVTN hội đồng chuyên ngành thông qua Ngày tháng năm TRƯỞNG PHÒNG ĐT- SĐH TRƯỞNG KHOA QL NGÀNH CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học : (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét : (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét : (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn thạc sĩ bảo vệ HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày tháng năm LỜI CẢM ƠN Em xin chân thành cảm ơn thầy TS.NGUYỄN THIỆN THÀNH, người trực tiếp hướng dẫn, tận tình bảo tạo điều kiện thuận lợi để em hoàn thành tốt luận văn tốt nghiệp Em xin chân thành cảm ơn tất Quý thầy cô cán khoa Điện-Điện tử Trường Đại Học Bách Khoa TP HCM hết lòng giảng dạy, truyền đạt kiến thức giúp đỡ em suốt thời gian học trường Cuối cùng, xin gửi lời cảm ơn đến gia đình, bạn bè lớp đồng nghiệp hỗ trợ động viên suốt trình học tập thực luận văn tốt nghiệp Tác giả MỤC LỤC Trang Lời giới thiệu 11 Chương 1: Giới thiệu tổng quan 1.1 Giới thiệu vấn ñeà 13 1.1.1 Giới thiệu hệ thống lắc ngược keùp 13 1.1.2 Học củng cố 14 1.1.3 Điều khiển lắc ngược kép học củng cố 15 1.2 Hướng giải đề tài 16 1.3 Nội dung phạm vi nghiên cứu đề tài .16 Chương 2: Mạng neuron hệ thống điều khiển Neuron 2.1 Giới thiệu mạng Neuron 19 2.1.1 Maïng Neuron 19 2.1.2 Maïng truyền thẳng thuật toán lan truyền ngược 23 2.1.3 Mạng hồi qui bán phần thuật toán lan truyền ngược 27 2.2 Mạng neuron hệ thống điều khiển: 30 2.2.1 Cấu hình chép từ điều khiển sẵn có 30 2.2.2 Cấu hình nhận dạng hệ thống 30 2.2.3 Caáu hình nhận dạng hệ thống đảo 31 2.2.4 Cấu hình sai phân mô hình 32 2.2.5 Điều khiển đối tượng phi tuyến sử dụng mạng Neuron 32 2.3 Huấn luyện mạng neuron (training, learning): 35 2.3.1 Hoïc giaùm saùt (supervised learning): 35 2.3.2 Học củng cố (reinforcement learning): 36 2.3.3 Học không giám sát (Unsupervised learning): 36 Chương 3: Học củng cố 3.1 Khái niệm bản: 39 3.1.1 Tín hiệu củng cố .41 3.1.2 Học củng cố 43 3.2 Học củng cố thưởng – phạt (Reward - Penalty): 43 3.3 Thuật toán củng cố .45 3.4 Phương pháp sai phân tạm thời 50 Chương 4: Mạng RBF 4.1 Mạng RBF (Radial Basic Function: hàm xuyên tâm): 52 4.1.1 Tổng quan maïng RBF : 52 4.1.2 Nguyên tắc làm việc: 54 4.1.3 Huấn luyện mạng: 55 4.1.4 Đánh giá hàm RBF: 57 4.2 Mạng RBF học củng cố 59 Chương 5: Học củng cố dùng mạng RBF điều khiển lắc ngược kép 5.1 Giới thiệu mô hình lắc thuận 62 5.2 Giới thiệu mô hình toán lắc ngược kép 64 5.3 Giải hệ phương trình vi phân dùng phương pháp Runge-Kutta: 68 5.3.1 Giải phương trình vi phân biến: 68 5.3.2 Giải hệ phương trình vi phân nhiều biến: 69 5.3.3 Giải hệ phương trình vi phân mô hình lắc thuận dùng phương pháp Runge-Kutta: 70 5.3.4 Giải hệ phương trình vi phân mô hình lắc ngược kép dùng phương pháp Runge-Kutta: 72 5.4 Giải thuật học củng cố điều khiển lắc ngược kép bám theo quỹ đạo mong muốn: 73 5.5 Bộ điều khiển hệ thống dùng mạng RBF học củng cố: 75 5.5.1 Sơ đồ khối hệ thống điều khiển: .76 5.5.2 Xây dựng quỹ đạo mong muoán: 77 5.5.3 Xây dựng mô hình tham chiếu: (Reference model) 78 5.6 Bộ điều khiển neural với thuật toán học củng cố dùng mạng RBF : 79 5.6.1 Bộ điều khiển Neural dùng mạng RBF cho hệ thống lắc thuận: 80 5.6.1 Bộ điều khiển Neural dùng mạng RBF cho hệ thống lắc ngược kép:82 Chương 6: Kết thực hướng phát triển đề tài 6.1 Kết thực hiện: 84 6.1.1 Kết thực lắc thuận : 84 6.1.2 Kết thực lắc ngược kép: 91 6.2 Kết luận hướng phát triển đề tài .95 6.2.1 Kết luận .95 6.2.1 Hướng phát triển đề tài 96 Tài liệu tham khảo 97 10 TÓM TẮT Học củng cố phương pháp học điều khiển mạnh mẽ hệ thống có mô hình không xác liệu vào không xác Mục tiêu sau trình học, ngõ đối tượng bám theo quỹ đạo mong muốn với sai số tối thiểu Phương pháp học củng cố dùng mạng xuyên tâm có nhiều ưu điểm Do đặc điểm phân bố điểm xuyên tâm mạng, việc huấn luyện liệu vào bám theo điểm xuyên tâm nên trình học cục bộ, nhanh bị nhiễu Ngõ mạng xuyên tâm kết hợp tuyến tính ngõ vào nên phương pháp thích hợp cho việc điều khiển hệ thống phi tuyến phức tạp Trong luận văn này, điều khiển dùng thuật toán học củng cố với mạng RBF xây dựng cho hệ thống lắc ngược kép để điều khiển bám theo quỹ đạo mong muốn Ngõ mạng tín hiệu điện áp tác động lên động xe cho xe chạy, giữ cho lắc đứng vị trí cân xe Phần mô thể kết điều khiển hệ lắc thuận hệ lắc ngược kép 11 LỜI GIỚI THIỆU Học củng cố phương pháp học phát triển từ lý thuyết hình thức học thử sai Đối với học củng cố, liệu vào mong muốn không cần phải xác Đặc biệt học củng cố coi phương pháp học điều khiển mạnh mẽ hệ thống động lực tương tác trực tiếp với môi trường không xác định với mục tiêu tìm chiến tối ưu để định chọn hành động tối ưu cho điều khiển Học củng cố mô hình học thực tế ứng dụng nhiều giới, lónh vực điều khiển robot, điều khiển tàu thoi, lónh vực không gian vũ trụ… Hệ thống lắc ngược kép xe (DIP) mở rộng hệ thống lắc ngược (SIP), phù hợp cho việc nghiên cứu phương pháp điều khiển khác có mô hình phi tuyến bậc cao trạng thái cân Nó nghiên cứu nhiều phòng thí nghiệm trường đại học giới Việc nghiên cứu điều khiển lắc ngược giúp nghiên cứu hệ thống lắc tương đương cánh tay robot nhiều khớp nối Và cao ứng dụng điều khiển số hệ thống máy bay, vệ tinh… Đã có nhiều phương pháp giải toán điều khiển swing up cân hệ thống lắc ngược kép cho kết tốt Trong đề tài tác giả sử dụng phương pháp học củng cố dùng mạng RBF để điều khiển cân hệ thống Mục tiêu đề tài xây dựng mạng Neuron học củng cố dùng hàm 12 xuyên tâm để điều khiển ngõ vị trí lắc bám theo quỹ đạo mong muốn, cho sau thời gian mô phỏng,vị trí góc vận tốc lắc tiến dần Luận văn gồm có chương: Chương 1: Giới thiệu tổng quan Chương 2: Mạng Neuron hệ thống điều khiển Neuron Chương 3: Học củng cố Chương 4: Mạng RBF Chương 5: Học củng cố dùng mạng RBF điều khiển lắc ngược kép Chương 6: Báo cáo kết hướng phát triển đề tài Tuy nỗ lực trình thực luận văn, song thiếu sót Vì mong nhận đóng góp sửa đổi hay bổ sung thêm từ thầy cô bạn đọc, theo địa : thanhthuy25dn@yahoo.com 79 - Với mong muốn ngõ vị trí xe sai lệch so với vị trí mong muốn cuối (0 m) ± 0.3m Ta chọn miền phân bố e y : - 0.3m ≤ e y ≤ 0.3m c y : − 0.015m ≤ c y ≤ 0.015m a) Cho vị trí lắc b) Cho vị trí xe Hình 6.1 Sơ đồ phân bố điểm xuyên tâm mảng kẻ lưới 7x7 * Trường hợp 1: M=0.75 kg; m=0.1 kg; l=0.3m; I=0.06 kg.m2 ;b=0.2 N/m/s Ta có kết quả: Hình 6.2a- Ngõ vị trí góc lắc Hình 6.2b- Vận tốc lắc: 80 Hình 6.2c- Ngõ vị trí xe Hình 6.2d- Vận tốc xe: Hình 6.2e- Ngõ mạng điều khiển Hình 6.2 Trường hợp: M=0.75 kg; m=0.1 kg; l=0.3m; I=0.06 kg.m2 ;b=0.2 N/m/s Nhận xét: Hình 6.2a c cho thấy ngõ vị trí lắc vị trí xe bám theo quỹ đạo mong muốn Trong thời gian huấn luyện t< 500s, sai số tương đối lớn sau thời gian này, hai vị trí tiến dần sai số gần Hình 6.2b d cho thấy vận tốc lắc xe tiến dần ứng với thời điểm vị trí lắc xe Như vậy, lắc giữ cân Hình 6.2e cho thấy ngõ mạng huấn 81 luyện Neuron (delta) Đó lực đẩy xe, đưa mô hình để điều khiển lắc Trường hợp 2: Giữ nguyên tham số mô hình, chọn ngõ quỹ đạo mong muốn tắt dần nhanh Hình 6.3a- Ngõ vị trí góc lắc Hình 6.3c- Ngõ vị trí xe Hình 6.3b- Vận tốc lắc: Hình 6.3d- Vận tốc xe: 82 Hình 6.3e- Ngõ mạng điều khiển Hình 6.3 Ngõ mô hình thay đổi bám theo quỹ đạo mong muốn Nhận xét: Hình 6.3a c cho thấy quỹ đạo mong muốn lắc xe tiến nhanh so với trường hợp Sau thời gian t= 400s, ngõ tiến Với trường hợp này, hệ thống điều khiển cho ngõ bám theo quỹ đạo mong muốn Trường hợp 3: Ta thay đổi giá trị tham số mô hình laéc a) M=1.5 kg; m=0.2 kg; l=0.5m; I=0.1 kg.m2 ;b=0.35 N/m/s Hình 6.4a- Ngõ vị trí góc lắc Hình 6.4b- Vận tốc lắc: 83 Hình 6.4c- Ngõ vị trí xe Hình 6.4d- Vận tốc xe: Hình 6.4e- Ngõ mạng điều khiển Hình 6.4 Trường hợp M=1.5 kg; m=0.2 kg; l=0.5m; I=0.1 kg.m2 ;b=0.35 N/m/s b) M=5 kg; m=0.5 kg; l=0.6m; I=0.25 kg.m2 ;b=1 N/m/s 84 Hình 6.5a- Ngõ vị trí góc lắc Hình 6.5c- Ngõ vị trí xe Hình 6.5b- Vận tốc lắc: Hình 6.5d- Vận tốc xe: Hình 6.5e- Ngõ mạng điều khiển Hình 6.5 Trường hợp M=5 kg; m=0.5 kg; l=0.6m; I=0.25 kg.m2; b=1 N/m/s 85 * Nhận xét: Khi thay đổi giá trị tham số mô hình cách hợp lý, ta thay đổi thông số điều khiển để điều khiển hệ thống cho ngõ bám theo quỹ đạo mong muốn Khối lượng xe lắc lớn, lực tác động u lớn để đảm bảo điều khiển 6.1.2 Kết thực lắc ngược kép: Chọn: + Số lớp ẩn mạng RBF: n=11; số thuận vị ẩn: n2 =11x11 + Thời gian kết thúc mô phỏng: tstop=40s + Bước lấy tích phân : step=.01s + Thời gian lấy mẫu điều khiển: T=1s + Số lần sử dụng lấy tích phân để giải hệ phương trình không gian trạng thái: counter=10; + Ngõ bão hòa: − 30 ≤ θ1 , θ ≤ 30 − m ≤ y = θ0 ≤ m * Sơ đồ phân bố điểm xuyên tâm: - Với mong muốn ngõ vị trí góc sai lệch so với vị trí mong muốn cuối (00) ± 12 Ta chọn miền phân bố eθ : - 12 ≤ eθ ≤ 12 ; eθ : - 12 ≤ eθ ≤ 12 cθ : − 0.6 ≤ cθ ≤ 0.6 ; cθ : − 0.6 ≤ cθ ≤ 0.6 - Với mong muốn ngõ vị trí xe sai lệch so với vị trí mong muốn cuối (0 m) ± 0.3m Ta chọn miền phân bố eθo : - 0.3m ≤ eθo ≤ 0.3m cuûa cθo : − 0.015m ≤ cθo ≤ 0.015m 86 a) Cho vị trí b) Cho vị trí c) Cho vị trí xe Hình 6.6 Sơ đồ phân bố điểm xuyên tâm mảng kẻ lưới 11x11 a) Trường hợp mo=2 kg; m1=0.02 kg; k2=0.001; J1=0.002; J2=0.002; f=0.01 m2=0.02kg; l1=0.02m; l2=0.02; k1=0.001; 87 Hình 6.7a- Ngõ vị trí Hình 6.7b- Vận tốc Hình 6.7c- Ngõ vị trí Hình 6.7d- Vận tốc Hình 6.7 Trường hợp mo=2 kg; m1=0.02 kg; m2=0.02;l1=0.02m;l2=0.02;k1=0.001;k2=0.001;J1=0.002; J2=0.002; f=0.01 b) Trường hợp mo=3 kg; m1=0.2kg; m2=0.3kg; l1=0.1m; l2=0.15m; k1=0.1; k2=0.1; J1=0.005; J2=0.008; f=1 88 Hình 6.8a- Ngõ vị trí Hình 6.8b- Vận tốc Hình 6.8c- Ngõ vị trí Hình 6.8d- Vận tốc Hình 6.16 Trường hợp mo=3 kg; m1=0.2kg; m2=0.3kg; l1=0.1m; l2=0.15m; k1=0.1; k2=0.1; J1=0.005; J2=0.008; f=1 89 6.2 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI: 6.2.1 Kết luận: Luận văn trình bày lý thuyết phương pháp học củng cố, lý thuyết mạng hàm xuyên tâm đề nghị dùng phương pháp học củng cố dùng mạng RBF để điều khiển hệ thống lắc ngược Quá trình mô dùng Matlab cho kết khả quan, đáp ứng mục tiêu đặt ngõ hệ thống phải bám theo quỹ đạo mong muốn Các kết trình bày với trường hợp khác nhau: thay đổi mô hình thông số hệ thống, thay đổi quỹ đạo mong muốn Trong mạng học củng cố, số lớp ẩn đề nghị n=7 (đối với hệ thống lắc thuận) n=11 (đối với hệ thống lắc ngược kép) Nếu thay đổi số lớp ẩn, ta phải thay đổi liệu khác như: số học, số thích nghi mạng, độ rộng hàm Gauss… nhìn chung phức tạp Do đó, số thông số mô hình lắc phần kết thực nghiệm mà có Mạng học củng cố dùng mạng RBF có ưu điểm học online, cập nhật sai số để thay đổi lực điều khiển cho phù hợp Do việc học thành công tương đối nhanh so với phương pháp khác Đối với hệ thống lắc thuận, việc học củng cố dùng mạng RBF cho kết khả quan Cả vị trí vị trí xe bám theo quỹ đạo mong muốn tốt Nhưng hệ thống lắc ngược kép, đề tài thực việc điều khiển vị trí hai thanh, chưa điều khiển vị trí xe 6.2.2 Hướng phát triển đề tài: 90 Từ kết thực được, đề tài cần khắc phục vấn đề điều khiển vị hệ thống lắc ngược kép Mặt khác, phát triển đề tài sau: Xây dựng toán điều khiển Swing up cho hệ thống lắc đơn cải tiến mạng để điều khiển mô hình thực 91 TÀI LIỆU THAM KHẢO [1] Alexander Bogdanov- Optimal control of a double pendulum on a cart [2] Arun Jagota (1998)- The Radial Basis Function Network [3] Charles W Anderson and R Matthew Kretchmar Dept of Computer Science, Colorado State University, Fort Collins, CO, 80523 - Solving Optimal Control and Search Problems with Reinforcement Learning in MATLAB [4] Duc Truong Pham and Liu Xing – Neural Networks for Identification, Prediction and Control [5] Eric A Wan – Control System: Classical, Neural, and Fuzzy [6] Hans Joachim Ferreau, Christian Kirches October 27, 2005 - An attempt at stabilizing a double inverted pendulum on a cart [7] J.K Tar, I.J Rudas, L Horváth, Spyros G Tzafestas - Adaptive Control of the Double Inverted Pendulum Based on Novel Principles of Soft Computing [8] Marvin Bugeja.Faculty of Engineering University of Malta - Non-Linear Swing-Up and Stabilizing Control of an Inverted Pendulum System [9] Nguyễn Tấn Lũy – Luận văn thạc só: Học củng cố điều khiển cánh tay robot tránh vật cản [10] Norimasa Kobori, Kenji Suzuki - Learning to control a joint driven double inverted pendulum using nested actor/critic algorithm [11] Omid Omidvar - Neuron Systems For Control 92 [12] Ong Hee Seng - Recent Advances in Radial Basis Functions Network [13] Peter Vas – Artifical-Inteligence-Based Electrical Machines and Drives [14] Remi Coulom (2002) - Reinforcement Learning Using Neural Network, With Application To Motor Control, Ph.D thesis [15] Sigh, S.P and Sutton, R.S (1996) - Reinforcement learning with replacing traces [16] Simon Haykin - Neuron Networks [17] Sutton, R.S and Barto, A.G (1998) – Reinforcement Learning: An Introduction [18] Tim Callinan - Artificial Neural Network identification and control of the inverted pendulum [19] TS Nguyễn Thiện Thành, ĐH Bách Khoa Tp HCM - Maïng Neuron [20] Wei Zhong and Helmut Răock - Energy and Passivity Based Control of the Double Inverted Pendulum on a Cart 93 ... thống điều khiển Lý thuyết học củng cố phương pháp học củng cố dùng hàm xuyên tâm Xây dựng mô hình toán cho hệ thống lắc ngược kép Xây dựng hệ thống điều khiển lắc ngược kép dùng thuật toán học củng. .. mô học củng cố để di chuyển môi trường có nhiều vật cản (Chen Khong Tham,1994), học củng cố để điều khiển môtơ (Remi Coulom,2002) 1.1.3 Điều khiển lắc ngược kép học củng cố: Mục tiêu điều khiển. .. Bộ điều khiển neural với thuật toán học củng cố dùng mạng RBF : 79 5.6.1 Bộ điều khiển Neural dùng mạng RBF cho hệ thống lắc thuận: 80 5.6.1 Bộ điều khiển Neural dùng mạng RBF cho hệ thống lắc