LUẬN ÁN TIẾN SĨ NGHIÊN CỨU GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG CHO HỆ PHI TUYẾN

175 588 2
LUẬN ÁN TIẾN SĨ NGHIÊN CỨU GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG CHO HỆ PHI TUYẾN

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƢỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN TẤN LŨY NGUYỄN TẤN LŨY NGHIÊN CỨU GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG CHO HỆ PHI TUYẾN LUẬN ÁN TIẾN SĨ KỸ THUẬT TP. HỒ CHÍ MINH NĂM 2015 ĐẠI HỌC QUỐC GIA TP. HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN NGUYỄN TẤN LŨY TẤN LŨY NGHIÊN CỨU GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG CHO HỆ PHI TUYẾN Chuyên ngành: Tự động hóa Mã số chuyên ngành: 62.52.60.01 Phản biện độc lập 1: GS.TS Phan Xuân Minh Phản biện độc lập 2: PGS.TS Nguyễn Chí Ngôn Phản biện 1: GS.TSKH Hồ Đắc Lộc Phản biện 2: PGS.TS Nguyễn Ngọc Lâm Phản biện 3: PGS.TS Lê Minh Phương HƯỚNG DẪN KHOA HỌC 1. TS. NGUYỄN THIỆN THÀNH NGƯỜI HƯỚNG DẪN KHOA HỌC 1. TS. NGUYỄN THIỆN THÀNH 2. TS. HOÀNG MINH TRÍ 2. TS. HOÀNG MINH TRÍ i LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của bản thân tôi. Các kết quả nghiên cứu và các kết luận trong luận án này là trung thực, và không sao chép từ bất kỳ một nguồn nào và dưới bất kỳ hình thức nào. Việc tham khảo các nguồn tài liệu đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định. Tác giả luận án Nguyễn Tấn Lũy yễn Tấn Lũy ii TÓM TẮT LUẬN ÁN Bài toán điều khiển tối ưu cho hệ phi tuyến bị ràng buộc trực tiếp bởi nghiệm của phương trình Hamilton-Jacobi-Bellman (HJB) và bài toán điều khiển tối ưu bền vững bị ràng buộc trực tiếp bởi nghiệm của phương trình Hamilton-Jacobi-Isaacs (HJI). Đây là các phương trình vi phân phi tuyến không có nghiệm giải tích. Từ đó, bài toán xấp xỉ nghiệm HJB và HJI off-line hoặc online được đặt ra. Học củng cố (Reinforcement Learning (RL)) bắt nguồn từ qui hoạch động (Dynamic Programming (DP)), phát triển thành qui hoạch động thích nghi (Adaptive Dynamic Programming (ADP)) trở thành một trong những phương pháp hữu hiệu dùng để xấp xỉ các nghiệm HJB và HJI. Dựa vào cấu trúc điều khiển chuẩn của ADP bao gồm hai hoặc ba xấp xỉ hàm, các giải thuật RL không ngừng được nghiên cứu và phát triển. Ngày nay, các giải thuật điều khiển RL là online, không off-line như những nghiên cứu đã công bố trong những năm đầu của thế kỷ 21. Ví dụ, các giải thuật RL đã được thiết kế để xấp xỉ nghiệm ARE (Algebraic Riccati Equation) cho hệ tuyến tính với các ma trận trạng thái không biết và sau này, xấp xỉ nghiệm HJB và HJI cho hệ phi tuyến với các thành phần động học trong mô hình hệ thống biết hoặc không biết, có nhiễu hoặc bỏ qua nhiễu. Luận án này nghiên cứu giải thuật học củng cố điều khiển thích nghi bền vững hệ phi tuyến, trong đó qui hoạch động thích nghi online (Online Adaptive Dynamic Programming (OADP)) và qui hoạch động thích nghi bền vững online (Online Robust Adaptive Dynamic Programming (ORADP)) là hai giải thuật chính được phân tích và thiết kế. Giải thuật OADP dùng để xấp xỉ nghiệm HJB cho hệ thống phi tuyến với mô hình xác định, sau đó được phát triển thành giải thuật ORADP để xấp xỉ nghiệm HJI cho hệ phi tuyến hoàn toàn không có thông tin về động học nội (internal dynamics). Ban đầu, cấu trúc ADP chuẩn với hai hoặc ba xấp xỉ hàm được sử dụng để chuyển đổi thành cấu trúc điều khiển với duy nhất một xấp xỉ hàm để tránh độ phức tạp tính toán và lãng phí tài nguyên nhằm đẩy nhanh tốc độ hội tụ. Sau đó, luật cập nhật mới cho tham số cho xấp xỉ hàm và các giải thuật điều khiển mới được thiết kế. Trong giải thuật, các luật cập nhật tham số được đồng bộ hóa trong một bước lặp nhằm tăng tốc độ hội tụ. Bên cạnh đó, luật điều khiển ổn định ban đầu để khởi động giải thuật là không cần thiết. Từ đó, thủ tục thiết kế trở nên linh hoạt hơn. Giải thuật đảm bảo rằng hàm chi phí được tối thiểu, tham số xấp xỉ hàm và luật điều khiển hội tụ về giá trị cận iii tối ưu trong khi toàn bộ trạng thái của hệ kín và sai số xấp xỉ bị chặn theo tiêu chuẩn UUB (Uniform Ultimate Bounded). Kết quả mô phỏng có so sánh với các phương pháp khác sử dụng hai hoặc ba xấp xỉ hàm cho thấy tính hiệu quả của giải thuật OADP và ORADP. Để kiểm tra khả năng ứng dụng của giải thuật ORADP, mô phỏng số và thực nghiệm cho robot di động dạng xe (Wheeled Mobile Robot (WMR)) được tiến hành. So sánh với các giải thuật điều khiển thích nghi khác, giải thuật ORADP điều khiển WMR có một số ưu điểm mới. Thứ nhất, việc chia tách bộ điều khiển động học (kinematic) và động lực học (dynamic) sử dụng phổ biến trong điều khiển thích nghi cho WMR là không cần thiết. Từ đó, tránh phụ thuộc vào kinh nghiệm của người thiết kế trong việc lựa chọn các tham số cho bộ điều khiển động học. Thứ hai, không đòi hỏi nhận dạng trực tiếp hoặc gián tiếp thành phần động học không chắc chắn, không cấu trúc trong mô hình robot. Cuối cùng, với giải thuật ORADP, hàm chỉ tiêu chất lượng có liên quan đến sai số bám cả về động học, động lực học lẫn năng lượng điều khiển được tối thiểu. Giải thuật ORADP tiếp tục được sử dụng để thiết kế mở rộng cho bài toán điều khiển hợp tác nhiều hệ phi tuyến MIMO không sử dụng thông tin về động học nội hệ thống. Ban đầu, lý thuyết đồ thị được sử dụng để thiết lập cấu hình truyền thông phân tán cho nhiều hệ phi tuyến hợp tác. Sau đó, giải thuật ORADP được thiết kế mở rộng thành giải thuật điều khiển hợp tác thích nghi bền vững. Kết quả điều khiển đồng bộ hóa hệ thống robot bầy đàn từ mô phỏng cho thấy tính hiệu quả của giải thuật ORADP mở rộng. iv ABSTRACT The optimal control problem for nonlinear systems is constrained directly by the solution of Hamilton-Jacobi-Bellman (HJB) equation and the robust optimal control problem is constrained directly by the solution of Hamilton-Jacobi-Isaacs (HJI) equation. These are nonlinear partial differential equations that have been proven to be impossible to solve analytically. Since then, the problems for approximating off-line or online HJB and HJI solutions are devoted. The reinforcement learning (RL) method, at first, derived from the dynamic programming (DP) theory, and then, developed into adaptive dynamic programming (ADP) method, becomes one of the most effective online methods to approximate HJB and HJI solutions. Based on the standard control structure of ADP, including two or three approximators, RL algorithms are studied and developed continuously. Nowadays, these algorithms are online and no longer off-line as the researches that are published in the early years of the 21st century. For example, RL algorithms have been developing to approximate the ARE (Algebraic Riccati Equation) solutions for linear systems with unknown state matrices, and after that, HJB and HJI solutions for nonlinear systems contained known and unknown system dynamics with or without impacted by disturbance. This thesis propose reinforcement learning-based robust adaptive control algorithms for nonlinear systems, in which Online Adaptive Dynamic Programming (OADP) and Online Robust Adaptive Dynamic Programming (ORADP) are two main analyzed and designed algorithms. OADP algorithm is used to approximate a HJB solution for the nonlinear system with known dynamics, and then extended to ORADP algorithm to approximate HJI solution for the nonlinear system without absolutely knowing knowledge of internal dynamics. Firstly, the standard ADP structures with two or three approximators are used to transform into control structures with only single approximator to avoid the complex computation and waste of resources in order to accelerate the speed of update processes. Then, novel update laws for the approximator’s parameters and the novel algorithms are designed. In the algorithm, parameter update laws are synchronized in one iterative step to increase the speed of convergence. Besides, any stability control law to initialize algorithm is not needed; Therefore, design procudures become more flexible. The algorithms guarantee that v cost functions are minimized, parameters of approximators and control laws converge to suboptimal values while all closed-system states and the approximate errors are bounded by UUB (Uniform Ultimate Bounded) standard. The results of numerical simulation compared with other methods using two or three approximators demonstrate the effectiveness of the OADP and ORADP algorithms. To verify the application ability of ORADP algorithm, simulation and experiment for WMR (Wheeled Mobile Robot) are conducted. It is shown that when ORADP algorithm is applied to control WMR, some novel advantages compared with other adaptive control algorithms have been gained. Firstly, the separation of kinematic and dynamic controllers that commonly used in adaptive control for WMR is unnecessary. By doing that, we can avoid depending on the designer's experience in choosing the parameters for the kinematic controller. Secondly, identifying directly or indirectly uncertainty, unstructured and unmodeled dynamics in the robot models is not required. Lastly, using ORADP algorithm, the performance index function related to both kinematic, dynamic tracking errors and control energy is minimized. The ORADP algorithm is continuously designed extendedly for the cooperative control problem of multiple MIMO nonlinear systems without using the knowledge of system internal dynamics. Initially, graph theory is used to establish distributed communication configures for multiple cooperative nonlinear systems. Then, ORADP algorithm is expanded to become the robust adaptive cooperative control algorithm. Simulation results of synchronous control for the swarm robot system show the effectiveness of the extended ORADP algorithm. vi LỜI CÁM ƠN Luận án này được hoàn thành dưới sự hướng dẫn của TS. Nguyễn Thiện Thành và TS. Hoàng Minh Trí. Tôi xin gửi tới các Thầy lời biết ơn vô hạn về sự quan tâm giúp đỡ, tạo điều kiện tối đa để tôi hoàn thành cuốn luận án này. Đặc biệt, tôi xin trân trọng bày tỏ lòng biết ơn chân thành đến Thầy Nguyễn Thiện Thành người đã giới thiệu và truyền cho tôi nguồn cảm hứng về lĩnh vực học củng cố. Luận án này không thể hoàn thành nếu không có sự hướng dẫn khoa học của PGS.TS. Nguyễn Thị Phương Hà. Cô đã cho tôi định hướng và truyền đạt cho tôi rất nhiều kiến thức quan trọng về lĩnh vực điều khiển thích nghi bền vững. Vì vậy, cho tôi được bày tỏ đến Cô lòng biết ơn sâu sắc. Tôi xin chân thành cảm ơn tập thể các nhà khoa học trong Bộ môn Điều khiển tự động, Đại học Bách Khoa Thành phố Hồ Chí Minh đã có những đóng góp rất quí báu về mặt học thuật để luận án này được hoàn thành. Tôi cũng xin dành riêng lời cảm ơn đến các đồng nghiệp ở Khoa Công nghệ Điện tử Đại học Công nghiệp Thành phố Hồ Chí Minh, đã tạo điều kiện về thời gian để tôi hoàn thành luận án, cảm ơn các bạn ở Phòng Thí nghiệm Trọng điểm Quốc Gia Điều khiển số và Kỹ thuật hệ thống Đại học Quốc Gia, Đại học Bách Khoa đã tạo môi trường vui vẻ và chia sẻ những khó khăn trong thời gian tôi công tác tại đây. Cuối cùng nhưng không kém phần quan trọng, tôi xin cảm ơn gia đình của tôi, vợ và hai con, đã hết lòng ủng hộ tôi về thời gian, tinh thần, tình cảm, giúp tôi vượt qua mọi khó khăn thử thách trên con đường nghiên cứu đầy chông gai nhiều lúc tưởng chừng như bế tắt để hoàn thành luận án này. vii MỤC LỤC DANH MỤC CÁC HÌNH VẼ x DANH MỤC CÁC GIẢI THUẬT VÀ BẢNG BIỂU xii DANH MỤC CÁC TỪ VIẾT TẮT xiii DANH MỤC CÁC KÝ HIỆU xv CHƢƠNG 1 GIỚI THIỆU 1 1.1 Tổng quan về đề tài 1 1.1.1 Khái niệm về học củng cố 1 1.1.2 Lịch sử phát triển của RL trong điều khiển 2 1.2 Động cơ, mục tiêu và nhiệm vụ nghiên cứu 5 1.2.1 Sự cần thiết phải nghiên cứu học củng cố trong điều khiển 5 1.2.2 Tính cấp thiết của đề tài 7 1.2.3 Mục tiêu nghiên cứu 8 1.2.4 Nhiệm vụ nghiên cứu 8 1.3 Đối tượng, phạm vi và phương pháp nghiên cứu 9 1.3.1 Đối tượng và phạm vi nghiên cứu 9 1.3.2 Phương pháp nghiên cứu 11 1.4 Những đóng góp mới của luận án về mặt khoa học 11 1.4.1 Về mặt lý thuyết 11 1.4.2 Về mặt thực tiễn 12 1.5 Bố cục luận án 13 CHƢƠNG 2 CƠ SỞ LÝ THUYẾT 14 2.1 Các định nghĩa 14 2.2 Lý thuyết học củng cố 14 2.3 Các giải thuật học củng cố kinh điển 16 2.3.1 Giải thuật VI (Value Iteration) 16 2.3.2 Giải thuật PI (Policy Iteration) 17 2.3.3 Giải thuật Q-Learning 18 2.4 Xấp xỉ hàm trong RL 19 2.4.1 Sự cần thiết phải sử dụng xấp xỉ hàm trong RL 19 2.4.2 Yêu cầu về xấp xỉ hàm trong RL 20 2.5 Các loại xấp xỉ hàm trong RL, so sánh và đánh giá 21 viii 2.6 Thuộc tính của NN truyền thẳng một lớp 21 2.7 Giải thuật qui hoạch động thích nghi sử dụng xấp xỉ hàm 22 2.8 Tóm tắt 25 CHƢƠNG 3 GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN TỐI ƢU 27 3.1 Học củng cố trong điều khiển tối ưu 28 3.1.1 Mô tả bài toán 28 3.1.2 Phương trình HJB (Hamilton-Jacobi-Bellman) 28 3.2 Phân tích và thiết kế giải thuật học củng cố OADP 31 3.2.1 Cấu trúc điều khiển và luật cập nhật tham số online 31 3.2.2 Giải thuật OADP 34 3.2.3 Phân tích ổn định và hội tụ của giải thuật OADP 35 3.3 Mô phỏng, so sánh và đánh giá 36 3.4 Tóm tắt 41 CHƢƠNG 4 GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG 42 4.1 Học củng cố trong điều khiển thích nghi bền vững 43 4.1.1 Mô tả bài toán 43 4.1.2 Phương trình HJI (Hamilton-Jacobi-Isaacs) 44 4.1.3 Luật điều khiển học củng cố dựa vào nghiệm HJI 46 4.2 Giải thuật ORADP 48 4.2.1 Cấu trúc điều khiển và luật cập nhật tham số 48 4.2.2 Giải thuật ORADP 52 4.3 Phân tích ổn định và hội tụ của giải thuật ORADP 54 4.4 Mô phỏng, so sánh và đánh giá 55 4.5 Tóm tắt 59 CHƢƠNG 5 ÁP DỤNG GIẢI THUẬT ORADP CHO ROBOT DI ĐỘNG 61 5.1 Mô hình phi tuyến của WMR 63 5.2 Mô hình WMR thực nghiệm 67 5.3 Giải thuật ORADP áp dụng cho WMR 72 5.4 Mô phỏng 74 5.4.1 Quỹ đạo tham chiếu 75 5.4.2 Thiết lập tham số học 76 [...]... 1.2.3 Mục tiêu nghi n cứu Trên cơ sở ưu và nhược điểm của giải thuật học củng cố vừa giới thiệu, mục tiêu nghi n cứu chính trong luận án này là phân tích và thiết kế giải thuật học củng cố mới trong điều khiển thích nghi bền vững cho hệ phi tuyến Giải thuật đáp ứng các yêu cầu: 1 Điều khiển online, tránh thủ tục nhận dạng hệ thống (gián tiếp hoặc trực tiếp) 2 Bảo đảm được hệ kín ổn định bền vững 3 Tối... động học nội không biết trước Giải thuật điều khiển cho nhiều hệ phi tuyến (1.3) mà luận án nghi n cứu là giải thuật học củng cố điều khiển hợp tác thích nghi bền vững được phát triển mở rộng trên nền tảng giải thuật điều khiển hệ phi tuyến (1.2) 1.3.2 Phương pháp nghi n cứu Trên cơ sở lý thuyết về RL và tiếp cận đến những kết quả công bố mới nhất về RL, luận án phân tích ưu nhược điểm của từng giải thuật, ... của hệ thống, không sử dụng trong luật điều khiển cũng như luật cập nhật tham số Giải thuật điều khiển cho đối tượng (1.2) mà luận án nghi n cứu là giải thuật học củng cố trong điều khiển thích nghi bền vững được phát triển trên nền tảng cơ sở lý thuyết qui hoạch động thích nghi bền vững sử dụng xấp xỉ hàm Đối tượng thực nghi m nhằm kiểm chứng tính hiệu quả của phương pháp học củng cố thích nghi bền vững. .. đến sai số bám động học, động lực học và năng lượng điều khiển 12 b) Mở rộng giải thuật ORADP cho bài toán điều khiển hợp tác thích nghi bền vững nhiều hệ phi tuyến MIMO (1.3): - Thành lập đồ thị truyền thông phân tán với mỗi nút đặc trưng cho động học phi tuyến MIMO (1.3) Mở rộng giải thuật ORADP điều khiển hợp tác thích nghi bền vững nhiều hệ phi tuyến - Ứng dụng giải thuật điều khiển để đồng bộ hóa... mục tiêu chính trong luận án này 1.2 Động cơ, mục tiêu và nhiệm vụ nghi n cứu 1.2.1 Sự cần thiết phải nghi n cứu học củng cố trong điều khiển Thiết kế giải thuật điều khiển cho hệ phi tuyến có các thành phần không chắc chắn, nhiễu sai số mô hình, nhiễu ngoài tác động sao cho hệ kín không chỉ ổn định bền vững mà còn tăng cường chất lượng điều khiển là bài toán được rất nhiều nhà nghi n cứu quan tâm Các... động thích nghi kinh điển Thiết kế được luật cập nhật tham số online cho xấp xỉ hàm Loại bỏ được yêu cầu phải chọn trước luật điều khiển ổn định để khởi động giải thuật Xây dựng được giải thuật điều khiển và chứng minh được sự hội tụ và ổn định cho toàn hệ thống b) Nghi n cứu giải thuật học củng cố điều khiển thích nghi bền vững hệ phi tuyến trên nền tảng cấu trúc qui hoạch động thích nghi bền vững sử... ổn định cho toàn hệ thống c) Kiểm tra được tính hiệu quả của giải thuật đề xuất qua các nội dung: (𝑖) Mô phỏng, so sánh và đánh giá với các giải thuật học củng cố khác trên cùng hệ phi tuyến (𝑖𝑖) Mô phỏng và thực nghi m trên đối tượng robot di động dạng xe d) Mở rộng giải thuật học củng cố điều khiển thích nghi bền vững cho bài toán điều khiển hợp tác nhiều hệ phi tuyến MIMO, áp dụng trong mô phỏng đồng... khiển thích nghi bền vững cho hệ phi tuyến với nội dung chính như sau: - Phân tích và thiết kế cấu trúc điều khiển - Phân tích và thiết kế luật cập nhật tham số xấp xỉ hàm - Xây dựng giải thuật, chứng minh sự hội tụ và ổn định của hệ kín 4 Chương 5: Mô phỏng và thực nghi m robot di động dạng xe sử dụng giải thuật học củng cố thích nghi bền vững 5 Chương 6: Mở rộng giải thuật học củng cố thích nghi bền vững. .. điều khiển bền vững vào luật điều khiển thích nghi để bù sai số xấp xỉ và nhiễu là cần thiết [24], [69] Tuy nhiên, các phương pháp điều khiển thích nghi hoặc thích nghi bền vững chưa giải quyết triệt để bài toán tối ưu [125] Thành phần điều khiển bền vững thêm vào sơ đồ điều khiển thích nghi thường có tham số hằng, được thiết kế để hệ kín ổn định bền vững nên thường phải “hy sinh” chất lượng điều khiển. .. hoạch động thích nghi bền vững ORADP Online Robust Adaptive online: một giải thuật học củng cố được đề Dynamic Programming xuất trong luận án để tìm luật điều khiển tối ưu thích nghi bền vững online Kích thích hệ thống bằng cách thêm nhiễu PE Persistence of Excitation vào véc tơ tín hiệu vào/ra PE là điều kiện để tham số hội tụ trong nhận dạng và điều khiển thích nghi Giải thuật học củng cố sử dụng

Ngày đăng: 08/07/2015, 20:43

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan