LUẬN ÁN TIẾN SĨ NGHIÊN CỨU GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG CHO HỆ PHI TUYẾN

xiii DANH MỤC CÁC TỪ VIẾT TẮT Từ viết ADP Adaptive Dynamic Programming Qui hoạch động thích nghi, một phương pháp học củng cố để xấp xỉ luật điều khiển tối ưu online ANN Actor Neura

Trang 1

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

Trang 2

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGHIÊN CỨU GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG CHO HỆ PHI TUYẾN

Chuyên ngành: Tự động hóa

Mã số chuyên ngành: 62.52.60.01

Phản biện độc lập 1: GS.TS Phan Xuân Minh

Phản biện độc lập 2: PGS.TS Nguyễn Chí Ngôn

Phản biện 1: GS.TSKH Hồ Đắc Lộc

Phản biện 2: PGS.TS Nguyễn Ngọc Lâm

Phản biện 3: PGS.TS Lê Minh Phương

Trang 3

i

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của bản thân tôi Các kết quả nghiên cứu và các kết luận trong luận án này là trung thực, và không sao chép từ bất

kỳ một nguồn nào và dưới bất kỳ hình thức nào Việc tham khảo các nguồn tài liệu đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định

Tác giả luận án

Nguyễn Tấn Lũy

yễn Tấn Lũy

Trang 4

ii

TÓM TẮT LUẬN ÁN

Bài toán điều khiển tối ưu cho hệ phi tuyến bị ràng buộc trực tiếp bởi nghiệm của phương trình Hamilton-Jacobi-Bellman (HJB) và bài toán điều khiển tối ưu bền vững

bị ràng buộc trực tiếp bởi nghiệm của phương trình Hamilton-Jacobi-Isaacs (HJI) Đây

là các phương trình vi phân phi tuyến không có nghiệm giải tích Từ đó, bài toán xấp

xỉ nghiệm HJB và HJI off-line hoặc online được đặt ra Học củng cố (Reinforcement Learning (RL)) bắt nguồn từ qui hoạch động (Dynamic Programming (DP)), phát triển thành qui hoạch động thích nghi (Adaptive Dynamic Programming (ADP)) trở thành một trong những phương pháp hữu hiệu dùng để xấp xỉ các nghiệm HJB và HJI Dựa vào cấu trúc điều khiển chuẩn của ADP bao gồm hai hoặc ba xấp xỉ hàm, các giải thuật RL không ngừng được nghiên cứu và phát triển Ngày nay, các giải thuật điều khiển RL là online, không off-line như những nghiên cứu đã công bố trong những năm đầu của thế kỷ 21 Ví dụ, các giải thuật RL đã được thiết kế để xấp xỉ nghiệm ARE (Algebraic Riccati Equation) cho hệ tuyến tính với các ma trận trạng thái không biết và sau này, xấp xỉ nghiệm HJB và HJI cho hệ phi tuyến với các thành phần động học trong mô hình hệ thống biết hoặc không biết, có nhiễu hoặc bỏ qua nhiễu

Luận án này nghiên cứu giải thuật học củng cố điều khiển thích nghi bền vững hệ phi tuyến, trong đó qui hoạch động thích nghi online (Online Adaptive Dynamic Programming (OADP)) và qui hoạch động thích nghi bền vững online (Online Robust Adaptive Dynamic Programming (ORADP)) là hai giải thuật chính được phân tích và thiết kế Giải thuật OADP dùng để xấp xỉ nghiệm HJB cho hệ thống phi tuyến với mô hình xác định, sau đó được phát triển thành giải thuật ORADP để xấp xỉ nghiệm HJI cho hệ phi tuyến hoàn toàn không có thông tin về động học nội (internal dynamics) Ban đầu, cấu trúc ADP chuẩn với hai hoặc ba xấp xỉ hàm được sử dụng để chuyển đổi thành cấu trúc điều khiển với duy nhất một xấp xỉ hàm để tránh độ phức tạp tính toán

và lãng phí tài nguyên nhằm đẩy nhanh tốc độ hội tụ Sau đó, luật cập nhật mới cho tham số cho xấp xỉ hàm và các giải thuật điều khiển mới được thiết kế Trong giải thuật, các luật cập nhật tham số được đồng bộ hóa trong một bước lặp nhằm tăng tốc

độ hội tụ Bên cạnh đó, luật điều khiển ổn định ban đầu để khởi động giải thuật là không cần thiết Từ đó, thủ tục thiết kế trở nên linh hoạt hơn Giải thuật đảm bảo rằng hàm chi phí được tối thiểu, tham số xấp xỉ hàm và luật điều khiển hội tụ về giá trị cận

Trang 5

iii

tối ưu trong khi toàn bộ trạng thái của hệ kín và sai số xấp xỉ bị chặn theo tiêu chuẩn UUB (Uniform Ultimate Bounded) Kết quả mô phỏng có so sánh với các phương pháp khác sử dụng hai hoặc ba xấp xỉ hàm cho thấy tính hiệu quả của giải thuật OADP

kế trong việc lựa chọn các tham số cho bộ điều khiển động học Thứ hai, không đòi hỏi nhận dạng trực tiếp hoặc gián tiếp thành phần động học không chắc chắn, không cấu trúc trong mô hình robot Cuối cùng, với giải thuật ORADP, hàm chỉ tiêu chất lượng có liên quan đến sai số bám cả về động học, động lực học lẫn năng lượng điều khiển được tối thiểu

Giải thuật ORADP tiếp tục được sử dụng để thiết kế mở rộng cho bài toán điều khiển hợp tác nhiều hệ phi tuyến MIMO không sử dụng thông tin về động học nội hệ thống Ban đầu, lý thuyết đồ thị được sử dụng để thiết lập cấu hình truyền thông phân tán cho nhiều hệ phi tuyến hợp tác Sau đó, giải thuật ORADP được thiết kế mở rộng thành giải thuật điều khiển hợp tác thích nghi bền vững Kết quả điều khiển đồng bộ hóa hệ thống robot bầy đàn từ mô phỏng cho thấy tính hiệu quả của giải thuật ORADP

mở rộng

Trang 6

iv

ABSTRACT

The optimal control problem for nonlinear systems is constrained directly by the solution of Hamilton-Jacobi-Bellman (HJB) equation and the robust optimal control problem is constrained directly by the solution of Hamilton-Jacobi-Isaacs (HJI) equation These are nonlinear partial differential equations that have been proven to be impossible to solve analytically Since then, the problems for approximating off-line or online HJB and HJI solutions are devoted The reinforcement learning (RL) method, at first, derived from the dynamic programming (DP) theory, and then, developed into adaptive dynamic programming (ADP) method, becomes one of the most effective online methods to approximate HJB and HJI solutions Based on the standard control structure of ADP, including two or three approximators, RL algorithms are studied and developed continuously Nowadays, these algorithms are online and no longer off-line

as the researches that are published in the early years of the 21st century For example,

RL algorithms have been developing to approximate the ARE (Algebraic Riccati Equation) solutions for linear systems with unknown state matrices, and after that, HJB and HJI solutions for nonlinear systems contained known and unknown system dynamics with or without impacted by disturbance

This thesis propose reinforcement learning-based robust adaptive control algorithms for nonlinear systems, in which Online Adaptive Dynamic Programming (OADP) and Online Robust Adaptive Dynamic Programming (ORADP) are two main analyzed and designed algorithms OADP algorithm is used to approximate a HJB solution for the nonlinear system with known dynamics, and then extended to ORADP algorithm to approximate HJI solution for the nonlinear system without absolutely knowing knowledge of internal dynamics Firstly, the standard ADP structures with two or three approximators are used to transform into control structures with only single approximator to avoid the complex computation and waste of resources in order

to accelerate the speed of update processes Then, novel update laws for the approximator’s parameters and the novel algorithms are designed In the algorithm, parameter update laws are synchronized in one iterative step to increase the speed of convergence Besides, any stability control law to initialize algorithm is not needed; Therefore, design procudures become more flexible The algorithms guarantee that

Trang 7

v

cost functions are minimized, parameters of approximators and control laws converge

to suboptimal values while all closed-system states and the approximate errors are bounded by UUB (Uniform Ultimate Bounded) standard The results of numerical simulation compared with other methods using two or three approximators demonstrate the effectiveness of the OADP and ORADP algorithms

To verify the application ability of ORADP algorithm, simulation and experiment for WMR (Wheeled Mobile Robot) are conducted It is shown that when ORADP algorithm is applied to control WMR, some novel advantages compared with other adaptive control algorithms have been gained Firstly, the separation of kinematic and dynamic controllers that commonly used in adaptive control for WMR

is unnecessary By doing that, we can avoid depending on the designer's experience in choosing the parameters for the kinematic controller Secondly, identifying directly or indirectly uncertainty, unstructured and unmodeled dynamics in the robot models is not required Lastly, using ORADP algorithm, the performance index function related

to both kinematic, dynamic tracking errors and control energy is minimized

The ORADP algorithm is continuously designed extendedly for the cooperative control problem of multiple MIMO nonlinear systems without using the knowledge of system internal dynamics Initially, graph theory is used to establish distributed communication configures for multiple cooperative nonlinear systems Then, ORADP algorithm is expanded to become the robust adaptive cooperative control algorithm Simulation results of synchronous control for the swarm robot system show the effectiveness of the extended ORADP algorithm

Trang 8

vi

LỜI CÁM ƠN

Luận án này được hoàn thành dưới sự hướng dẫn của TS Nguyễn Thiện Thành

và TS Hoàng Minh Trí Tôi xin gửi tới các Thầy lời biết ơn vô hạn về sự quan tâm giúp đỡ, tạo điều kiện tối đa để tôi hoàn thành cuốn luận án này Đặc biệt, tôi xin trân trọng bày tỏ lòng biết ơn chân thành đến Thầy Nguyễn Thiện Thành người đã giới thiệu và truyền cho tôi nguồn cảm hứng về lĩnh vực học củng cố

Luận án này không thể hoàn thành nếu không có sự hướng dẫn khoa học của PGS.TS Nguyễn Thị Phương Hà Cô đã cho tôi định hướng và truyền đạt cho tôi rất nhiều kiến thức quan trọng về lĩnh vực điều khiển thích nghi bền vững Vì vậy, cho tôi được bày tỏ đến Cô lòng biết ơn sâu sắc

Tôi xin chân thành cảm ơn tập thể các nhà khoa học trong Bộ môn Điều khiển

tự động, Đại học Bách Khoa Thành phố Hồ Chí Minh đã có những đóng góp rất quí báu về mặt học thuật để luận án này được hoàn thành

Tôi cũng xin dành riêng lời cảm ơn đến các đồng nghiệp ở Khoa Công nghệ Điện tử Đại học Công nghiệp Thành phố Hồ Chí Minh, đã tạo điều kiện về thời gian

để tôi hoàn thành luận án, cảm ơn các bạn ở Phòng Thí nghiệm Trọng điểm Quốc Gia Điều khiển số và Kỹ thuật hệ thống Đại học Quốc Gia, Đại học Bách Khoa đã tạo môi trường vui vẻ và chia sẻ những khó khăn trong thời gian tôi công tác tại đây

Cuối cùng nhưng không kém phần quan trọng, tôi xin cảm ơn gia đình của tôi,

vợ và hai con, đã hết lòng ủng hộ tôi về thời gian, tinh thần, tình cảm, giúp tôi vượt qua mọi khó khăn thử thách trên con đường nghiên cứu đầy chông gai nhiều lúc tưởng chừng như bế tắt để hoàn thành luận án này

Trang 9

vii

MỤC LỤC

1.1 Tổng quan về đề tài 1

1.1.1 Khái niệm về học củng cố 1

1.1.2 Lịch sử phát triển của RL trong điều khiển 2

1.2 Động cơ, mục tiêu và nhiệm vụ nghiên cứu 5

1.2.1 Sự cần thiết phải nghiên cứu học củng cố trong điều khiển 5

1.2.2 Tính cấp thiết của đề tài 7

1.2.3 Mục tiêu nghiên cứu 8

1.2.4 Nhiệm vụ nghiên cứu 8

1.3 Đối tượng, phạm vi và phương pháp nghiên cứu 9

1.3.1 Đối tượng và phạm vi nghiên cứu 9

1.3.2 Phương pháp nghiên cứu 11

1.4 Những đóng góp mới của luận án về mặt khoa học 11

1.4.1 Về mặt lý thuyết 11

1.4.2 Về mặt thực tiễn 12

1.5 Bố cục luận án 13

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 14 2.1 Các định nghĩa 14

2.2 Lý thuyết học củng cố 14

2.3 Các giải thuật học củng cố kinh điển 16

2.3.1 Giải thuật VI (Value Iteration) 16

2.3.2 Giải thuật PI (Policy Iteration) 17

2.3.3 Giải thuật Q-Learning 18

2.4 Xấp xỉ hàm trong RL 19

2.4.1 Sự cần thiết phải sử dụng xấp xỉ hàm trong RL 19

2.4.2 Yêu cầu về xấp xỉ hàm trong RL 20

2.5 Các loại xấp xỉ hàm trong RL, so sánh và đánh giá 21

Trang 10

viii

2.6 Thuộc tính của NN truyền thẳng một lớp 21

2.7 Giải thuật qui hoạch động thích nghi sử dụng xấp xỉ hàm 22

2.8 Tóm tắt 25

CHƯƠNG 3 GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN TỐI ƯU 27 3.1 Học củng cố trong điều khiển tối ưu 28

3.1.1 Mô tả bài toán 28

3.1.2 Phương trình HJB (Hamilton-Jacobi-Bellman) 28

3.2 Phân tích và thiết kế giải thuật học củng cố OADP 31

3.2.1 Cấu trúc điều khiển và luật cập nhật tham số online 31

3.2.2 Giải thuật OADP 34

3.2.3 Phân tích ổn định và hội tụ của giải thuật OADP 35

3.3 Mô phỏng, so sánh và đánh giá 36

3.4 Tóm tắt 41

CHƯƠNG 4 GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG 42 4.1 Học củng cố trong điều khiển thích nghi bền vững 43

4.1.1 Mô tả bài toán 43

4.1.2 Phương trình HJI (Hamilton-Jacobi-Isaacs) 44

4.1.3 Luật điều khiển học củng cố dựa vào nghiệm HJI 46

4.2 Giải thuật ORADP 48

4.2.1 Cấu trúc điều khiển và luật cập nhật tham số 48

4.2.2 Giải thuật ORADP 52

4.3 Phân tích ổn định và hội tụ của giải thuật ORADP 54

4.4 Mô phỏng, so sánh và đánh giá 55

4.5 Tóm tắt 59

CHƯƠNG 5 ÁP DỤNG GIẢI THUẬT ORADP CHO ROBOT DI ĐỘNG 61 5.1 Mô hình phi tuyến của WMR 63

5.2 Mô hình WMR thực nghiệm 67

5.3 Giải thuật ORADP áp dụng cho WMR 72

5.4 Mô phỏng 74

5.4.1 Quỹ đạo tham chiếu 75

5.4.2 Thiết lập tham số học 76

Trang 11

ix

5.4.3 Kết quả mô phỏng 76

5.5 Thực nghiệm 80

5.6 Tóm tắt 86

CHƯƠNG 6 GIẢI THUẬT HỌC CỦNG CỐ ĐIỀU KHIỂN THÍCH NGHI BỀN VỮNG HỢP TÁC NHIỀU HỆ PHI TUYẾN MIMO 88 6.1 Lý thuyết đồ thị và mô hình hợp tác nhiều hệ phi tuyến MIMO 89

6.1.1 Đồ thị truyền thông phân tán 89

6.1.2 Động học nút 90

6.1.3 Mô hình hợp tác nhiều hệ phi tuyến 91

6.2 Phân tích, thiết kế mở rộng giải thuật học củng cố ORADP 95

6.2.1 Học củng cố trong điều khiển hợp tác 95

6.2.2 Cấu trúc điều khiển và luật cập nhật trong ORADP mở rộng 95

6.2.3 Giải thuật ORADP mở rộng 100

6.2.4 Phân tích ổn định và hội tụ của giải thuật ORADP mở rộng 101

6.3 Điều khiển hệ thống robot bầy đàn bằng giải thuật ORADP mở rộng 101

6.3.1 Mô hình hệ thống robot bầy đàn 102

6.3.2 Áp dụng giải thuật và kết quả mô phỏng 105

6.4 Tóm tắt 109

Trang 12

x

DANH MỤC CÁC HÌNH VẼ

Hình 1.1 Minh họa về học củng cố 2

Hình 1.2 Cấu trúc ADP sử dụng hai xấp xỉ hàm trong điều khiển tối ưu 4

Hình 1.3 Cấu trúc ADP sử dụng ba xấp xỉ hàm trong điều khiển tối ưu 𝐻∞ 4

Hình 2.1 Nguyên lý qui hoạch động Bellman và hàm đánh giá tối ưu 16

Hình 3.1 Cấu trúc điều khiển OADP sử dụng một NN 34

Hình 3.2 Trạng thái hệ thống trong quá trình học online sử dụng OADP và AC2NN 38 Hình 3.3 Sự hội tụ của trọng số NN sử dụng OADP và AC2NN 38

Hình 3.5 OADP và AC2NN: Hàm đánh giá tối ưu xấp xỉ 39

Hình 3.4 OADP và AC2NN: (a) Sai số giữa hàm đánh giá tối ưu xấp xỉ và tối ưu lý thuyết; (b) Sai số giữa luật điều khiển tối ưu xấp xỉ và tối ưu lý thuyết 39

Hình 3.6 Hội tụ trọng số NN của giải thuật OADP với giá trị khởi tạo bằng không 40

Hình 3.7 Trọng số NN của giải thuật AC2NN không hội tụ về giá trị tối ưu khi giá trị khởi tạo của trọng số bằng không 40

Hình 4.2 Cấu trúc điều khiển ORADP sử dụng một NN 52

Hình 4.3 Sự hội tụ của trọng số NN hàm đánh giá tối ưu ORADP so với AC3NN 56

Hình 4.4 ORADP và AC3NN: a) Hàm đánh giá tối ưu xấp xỉ; b)Sai số hàm đánh giá tối ưu xấp xỉ và tối ưu lý thuyết 57

Hình 4.5 ORADP và AC3NN: a) Sai số giữa luật điều khiển tối ưu xấp xỉ và tối ưu lý thuyết; b) Sai số giữa luật nhiễu tối ưu xấp xỉ và tối ưu lý thuyết 57

Hình 4.6 Sự mất ổn định và không hội tụ của trọng số NN của giải thuật AC3NN với giá trị khởi tạo bằng không 58

Hình 4.7 Sự ổn định và hội tụ của trọng số NN của giải thuật ORADP với giá trị khởi tạo bằng không 59

Hình 5.1 Mô hình robot di động dạng xe (WMR) 63

Hình 5.2 Mô hình robot thực nghiệm: a) Mặt sau; b) Mặt trước 68

Hình 5.3 Mô hình hệ thống thị giác đa chiều trên robot 69

Hình 5.4 Ảnh không gian thực qua hệ thống thị giác đa chiều 70

Hình 5.5 Xác định tâm robot so với hệ trục cố định 70

Hình 5.6 Sơ đồ điều khiển sử dụng ORADP cho WMR 73

Hình 5.7 Lịch trình thay đổi khối lượng robot trong quá trình điều khiển 75

Hình 5.8 Lịch trình thay đổi mô men quán tính robot trong quá trình điều khiển 76

Hình 5.9 Sự hội tụ của trọng số NN trong quá trình học điều khiển 77

Hình 5.11 Sai số bám vị trí: a) Toàn bộ quá trình; b) Sau khi hội tụ 79

Hình 5.12 Quỹ đạo 𝑥, 𝑦 trong quá trình học điều khiển: a) 𝑥; b) 𝑦 79

Oxy

Trang 13

xi

Hình 5.14 Sai số bám vận tốc: a) Vận tốc quay; b)Vận tốc dài 80

Hình 5.15 Quỹ đạo vận tốc quay: a) Toàn bộ quá trình; b) Sau khi hội tụ 81

Hình 5.16 Quỹ đạo vận tốc dài: a) Toàn bộ quá trình; b) Sau khi hội tụ 81

Hình 5.17 Mô men điều khiển tối ưu: a) Toàn bộ quá trình; b) Sau khi hội tụ 81

Hình 5.18 Quỹ đạo x-y thực nghiệm: a) Toàn bộ quá trình; b) Sau khi hội tụ 82

Hình 5.23 a) Không gian hoạt động; b) Quỹ đạo 𝑥 − 𝑦 của robot so với tham chiếu 85

Hình 5.24 a) Sai số bám vị trí 𝑥, 𝑦, 𝜃 ; b) Sai số bám vận tốc dài 85

Hình 5.25 a) Sai số bám vận tốc góc; b) Mô men điều khiển 85

Hình 6.1 Đồ thị truyền thông của 4 đối tượng phi tuyến 89

Hình 6.2 Cấu trúc ORADP mở rộng điều khiển hợp tác nhiều hệ phi tuyến 100

Hình 6.3 Sơ đồ điều khiển nhiều robot hợp tác sử dụng ORADP mở rộng 105

Hình 6.4 Quá trình hội tụ trọng số NN: a) Robot 1; b) Robot 2; c) Robot 3 107

Hình 6.5 Chất lượng bám vị trí của đội hình: a) Sai số bám; Quỹ đạo bám x-y 107

Hình 6.7 Đồng bộ hóa vị trí y qua các giai đoạn: a) Ban đầu; b) Hội tụ 108

Hình 6.8 Đồng bộ hóa hướng  qua các giai đoạn: a) Ban đầu; b) Hội tụ 108

Hình 6.9 Sai số bám vận tốc giữa các robot: a) Vận tốc dài; b) Vận tốc quay 109

Hình 6.10 Đồng bộ hóa vận tốc dài qua các giai đoạn: a) Ban đầu; b) Hội tụ 109

Hình 6.11 Đồng bộ hóa vận tốc quay qua các giai đoạn: a) Ban đầu; b) Hội tụ 110

Hình 6.12 Mô men điều khiển đội hình robot sau khi hội tụ: a) Sau 100s; b) Hội tụ 110 Hình A.1 Mạng MLP hai lớp ẩn: (a) Cấu trúc; (b) Các thành phần trong một nút 126

Hình A.2 Cấu trúc mạng MLP một lớp ẩn, một đơn vị ngõ ra 127

Hình A.3 Cấu trúc mạng RBF 129

Hình A.4 Cấu trúc mạng RARBF 130

Hình A.5 Sai số bình phương trung bình giữa ngõ ra xấp xỉ và ngõ ra mong muốn của hai mạng MLP có số đơn vị ẩn khác nhau 133

Hình A.6 Sai số bình phương trung bình giữa ngõ ra xấp xỉ và ngõ ra mong muốn của nhóm mạng CMAC 133

Hình A.7 Sai số bình phương trung bình giữa ngõ ra xấp xỉ và ngõ ra mong muốn của nhóm mạng RBF 133

Hình G.1 Tập mẫu ngõ vào đo trong không gian ảnh 151

Hình G.2 Tập mẫu ngõ ra mong muốn đo trong không gian thực 151

Hình G.3 Kết quả huấn luyện RBF so với mẫu mong muốn 152

Hình G.4 Ngõ ra của RBF so với mong muốn biểu diễn theo X (cm)-Y (pixel) 152

Trang 14

xii

DANH MỤC CÁC GIẢI THUẬT VÀ BẢNG BIỂU

Giải thuật 2.1 VI 16

Giải thuật 2.2 PI 17

Giải thuật 2.3 Q-Learning 18

Giải thuật 2.4 ADP sử dụng hai NN cập nhật tuần tự 23

Giải thuật 2.5 ADP sử dụng hai NN cập nhật đồng bộ 23

Giải thuật 2.6 ADP sử dụng ba NN cập nhật tuần tự 24

Giải thuật 2.7 ADP sử dụng ba NN cập nhật đồng bộ 25

Giải thuật 3.1 OADP 34

Giải thuật 4.1 ORADP 53

Giải thuật 5.1 ORADP áp dụng cho WMR 74

Giải thuật 6.1 ORADP mở rộng 100

Bảng 3.1 So sánh chỉ tiêu chất lượng giữa OADP và AC2NN 38

Bảng 3.2 Chỉ tiêu chất lượng khi trọng số của các NN được khởi tạo bằng không 40

Bảng 4.1 So sánh chỉ tiêu chất lượng giữa ORADP và AC3NN 57

Trang 15

xiii

DANH MỤC CÁC TỪ VIẾT TẮT

Từ viết

ADP Adaptive Dynamic

Programming

Qui hoạch động thích nghi, một phương pháp học củng cố để xấp xỉ luật điều khiển tối ưu online

ANN Actor Neural Network NN actor đóng vai trò bộ điều khiển trong

cấu trúc AC

ARE Algebraic Riccati Equation Phương trình đại số Riccati

Articulation Controller

NN dựa theo mô hình tiểu não

CNN Critic Neural Network NN critic đóng vai trò xấp xỉ hàm đánh giá

trong cấu trúc AC

COD Curse of Dimensionality Sự bùng nổ tổ hợp không gian trạng thái

DP Dynamic Programming Qui hoạch động

LS Least Square Phương pháp bình phương tối thiểu

LQR Linear Quadratic Regulation Điều khiển tối ưu tuyến tính dạng toàn

phương

Trang 16

xiv

MLP Multi-Layer Perceptron NN truyền thẳng nhiều lớp

án để tìm luật điều khiển tối ưu online

Dynamic Programming

Qui hoạch động thích nghi bền vững online: một giải thuật học củng cố được đề xuất trong luận án để tìm luật điều khiển tối

ưu thích nghi bền vững online

PE Persistence of Excitation

Kích thích hệ thống bằng cách thêm nhiễu vào véc tơ tín hiệu vào/ra PE là điều kiện

để tham số hội tụ trong nhận dạng và điều khiển thích nghi

PI Policy Iteration Giải thuật học củng cố sử dụng một số

bước lặp để xấp xỉ luật điều khiển tối ưu

RL Reinforcement Learning Học củng cố

RBF Radial Basis Function NN có hàm cơ sở xuyên tâm

Sai phân tạm thời: giải thuật cập nhật tham

số của bộ dự báo liên quan đến sai phân tín hiệu theo thời gian sử dụng trong học củng

cố

UUB Uniform Ultimate Boun-ded Bị chặn tới hạn đều

VI Value Iteration Giải thuật học củng cố sử dụng một số

bước lặp để xấp xỉ hàm đánh giá tối ưu

WMR Wheeled Mobile Robot Robot di động dạng xe

Theory

Lý thuyết trò chơi sai phân tổng bằng không ứng dụng trong lý thuyết điều khiển tối ưu 𝐻∞

Trang 17

𝑥 Chuẩn của véc tơ 𝑥

𝑥 ∞ Chuẩn vô cùng của véc tơ 𝑥

𝐴 Chuẩn của ma trận 𝐴

𝐴 ∞ Chuẩn vô cùng của ma trận 𝐴

𝑉𝑥 𝑥 Gradient của hàm 𝑉(𝑥) theo 𝑥: 𝑉𝑥 𝑥 =𝜕𝑉(𝑥)

Diag(αi) Ma trận đường chéo chứa các phần tử αi

𝐿2 0, ∞ Không gian Banach, nếu ∀𝑑 ∈ 𝐿2 0, ∞ thì 𝑑 0∞ 2𝑑𝑡 < ∞

sub 𝑥(𝑡) Cận trên nhỏ nhất (cận trên đúng) của 𝑥(𝑡)

inf 𝑥(𝑡) Cận dưới lớn nhất (cận dưới đúng) của 𝑥(𝑡)

𝑊 Ma trận trọng số của NN

𝑤𝑖 Trọng số NN giữa đơn vị ẩn thứ 𝑖 và đơn vị ra (một ngõ ra)

𝑤𝑖𝑗 Trọng số NN kết nối giữa ngõ ra của đơn vị 𝑖 và ngõ vào đơn vị 𝑗

𝑛𝑖, 𝑛𝑕 Lần lượt là số lượng nút ở lớp vào, số lượng nút ở lớp ẩn của NN

𝜙(𝑥) Véc tơ hàm tác động của NN

𝑉 𝑥 Hàm đánh giá

𝑉∗(𝑥) Hàm đánh giá tối ưu

𝑢, 𝑢∗ Véc tơ tín hiệu ngõ vào điều khiển và ngõ vào điều khiển tối ưu

𝑑 Véc tơ nhiễu của hệ thống

𝑥 Véc tơ tín hiệu trạng thái của hệ thống

𝑥0 Véc tơ trạng thái của hệ thống tại thời điểm 𝑡 = 0

Trang 19

Phương pháp RL, đặc biệt hữu ích nếu môi trường thiếu thông tin để ra quyết định chọn hành động Trong trường hợp đó, RL sử dụng phương pháp thử và sai có đánh giá Thông tin hồi tiếp từ môi trường tương ứng với hành động thử sai được đánh giá và lưu trữ Sau đó, dựa vào thông tin lưu trữ, chiến lược chọn hành động tốt hơn được thực hiện để cải thiện chất lượng tương tác với môi trường [18], [56], [68], [71], [96], [100], [112]

Trong điều khiển tối ưu, RL học thích nghi trực tuyến nghiệm HJB dựa vào thông tin vào ra của đối tượng với mục tiêu tối thiểu hàm chi phí cho trước RL được chứng minh là phương pháp điều khiển tối ưu thích nghi trực tiếp [43], [44]-[46], [63] [72]-[73], [84], [92], [96]-[98], [100]-[103], [108]-[113]

Lý thuyết RL kế thừa từ lý thuyết tối ưu của qui hoạch động (Dynamic Programming (DP)) [16] và phát triển thành lý thuyết qui hoạch động thích nghi (Adaptive Dynamic Programming (ADP)) hoặc qui hoạch động xấp xỉ (Approximate Dynamic Programming (ADP)) [35], [38], [39], [43], [53], [60], [61], [72], [73], [84], [92], [98], [109], [113], [114], [120], [128]-[130] ADP đã khắc phục được các hạn chế của DP như off-line, không điều khiển thời gian thực, cần mô hình toán chính xác Ngoài ra, khi ADP sử dụng xấp xỉ hàm sẽ khắc phục được các điểm yếu quan trọng của

Trang 20

2

Hình 1.1 Minh họa về học củng cố

DP như giảm chi phí tính toán và tài nguyên lưu trữ, khắc phục được hiện tượng bùng

nổ tổ hợp (Curse of Dimensionality (COD)) khi rời rạc hóa không gian trạng thái [88], đặc biệt nếu đối tượng điều khiển là hệ MIMO (Multi Input-Multi Output)

Theo thời gian, các giải thuật RL đã liên tục phát triển Trong [119], dựa vào lý thuyết RL, Werbos đã phát triển giải thuật lặp PI (Policy Iteration) Từ đó đến nay rất nhiều giải thuật PI thời gian thực được nghiên cứu và mở rộng [17]-[19], [43], [56], [71], [73], [98], [100], [113]-[114], [120], [129] Gần đây, các giải thuật lặp PI kết hợp xấp xỉ hàm ADP được nghiên cứu để điều khiển thích nghi tối ưu online cho hệ phi tuyến chứa động học nội (internal dynamics) không biết trước, bỏ qua thủ tục nhận dạng hệ thống [56], [100], [106], [108], [112], [114], [122]-[123], [129]

1.1.2 Lịch sử phát triển của RL trong điều khiển

RL được nghiên cứu, phát triển và ứng dụng mạnh trong lĩnh vực học máy từ những thập niên 1980 [96] Tuy nhiên, đối với lĩnh vực điều khiển, RL chỉ mới thực sự bắt đầu phát triển từ những năm đầu của thế kỷ 21 Lịch sử phát triển của RL trong lĩnh vực điều khiển tạm chia thành ba giai đoạn Trong giai đoạn đầu tiên (trước năm 2005), lý thuyết RL từ lĩnh vực trí tuệ nhân tạo được phát triển mở rộng sang lĩnh vực điều khiển Trước tiên, RL với mô hình Markov được định nghĩa bằng cách rời rạc hóa không gian trạng thái [96] Sau đó, hai giải thuật lặp cơ bản: PI [51], [119] và VI (Value Iteration) [96] được sử dụng để xấp xỉ luật điều khiển hoặc hàm đánh giá tối

ưu Để áp dụng được hai giải thuật này, mô hình toán của hệ thống cần phải xác định trước Một giải thuật khác được đề xuất với luật cập nhật tham số không phụ thuộc vào

mô hình hệ thống, đó là giải thuật dự báo TD (Temporal Difference) [95] Nếu tín hiệu

Tác tử (Agent)

Môi trường

Thông tin Hành động

Bộ nhớ

Trang 21

3

điều khiển được lượng tử hóa cùng với không gian trạng thái, giải thuật Q-Learning [116] được đề nghị Trong Q-Learning luật cập nhật tham số không phụ thuộc vào mô hình hệ thống Tuy nhiên, tất cả các giải thuật nêu trên chỉ áp dụng cho bài toán điều khiển off-line

Một trong những nghiên cứu RL thành công chuyển từ điều khiển off-line sang online trong giai đoạn này là phương pháp qui hoạch động tăng cường (Incremental Dynamic Programming (IDP)) [20], [42] IDP được thiết kế để điều khiển tối ưu thích nghi dựa trên giải thuật Q-learning, xấp xỉ online nghiệm cho bài toán LQR (Linear Quaratic Regulation) rời rạc với các ma trận trạng thái không biết trước Bên cạnh đó, phải kể đến một loạt các nghiên cứu thành công khác, đó là sử dụng xấp xỉ hàm vào cấu trúc ADP để giải quyết vấn đề bùng nổ tổ hợp trong không gian trạng thái rời rạc cho hệ đa biến [88]

Các ứng dụng ADP với xấp xỉ hàm từ đó tiếp tục được phát triển mở rộng [27], [96], [99], [123] Tuy nhiên, hầu hết các nghiên cứu trong giai đoạn này không chứng minh tính ổn định hệ thống trong quá trình học và điều khiển Ngoài ra, luật cập nhật online cho tham số xấp xỉ hàm chưa được thiết kế chặt chẽ Một điểm quan trọng khác đáng lưu ý trong giai đoạn này là RL chỉ được áp dụng cho hệ thống rời rạc Lý do này xuất phát từ thuộc tính rời rạc của qui hoạch động mà RL thừa kế (xem [73] cùng các tài liệu tham khảo trong đó)

Ở giai đoạn thứ hai (từ những năm 2005-2010), các nhà nghiên cứu tập trung vào việc sử dụng lý thuyết điều khiển hiện đại vào RL để thiết kế bộ điều khiển online cho

hệ thống phi tuyến [71] Ngoài ra, do không thể áp dụng phương pháp RL rời rạc cho

hệ thống liên tục nên lý thuyết RL bắt đầu chuyển hướng Giải thuật điều khiển tối ưu thích nghi cho hệ thống tuyến tính liên tục với ma trận trạng thái không biết trước được đề xuất trong [110] với kết quả là nghiệm tối ưu được xấp xỉ online đến nghiệm giải tích ARE (nghiệm giải chỉ tích tồn tại khi biết trước ma trận trạng thái) Trong nghiên cứu này, sự hội tụ và ổn định hệ kín được chứng minh chặt chẽ Song song với

đó là một loạt các nghiên cứu khác về điều khiển tối ưu cho hệ thống phi tuyến rời rạc

và liên tục với thông tin về các thành phần động trong mô hình hoàn toàn biết trước [19], [29], [31], [35], [43], [45], [73], [84]-[85], [92], [98], [101], [108], [113], [130]

Trang 22

4

Hình 1.2 Cấu trúc ADP sử dụng hai xấp xỉ hàm trong điều khiển tối ưu

Đa số các nghiên cứu trong thời kỳ này sử dụng cấu trúc điều khiển ADP chuẩn (xem (H 1.2) và các định nghĩa trong [56]) với hai xấp xỉ hàm gọi là AC (Actor-Critic), trong đó một xấp xỉ hàm (critic) dùng để đánh giá luật điều khiển và xấp xỉ hàm chi phí tối ưu, xấp xỉ hàm còn lại (actor) dùng để xấp xỉ luật điều khiển tối ưu [56], [57] Luật cập nhật tham số của hai xấp xỉ hàm là online có sự ràng buộc lẫn nhau Thành công của các nghiên cứu trong giai đoạn này là sự ổn định của hệ kín bao gồm các xấp xỉ hàm chứa tham số chỉnh định online được phân tích và chứng minh rất chặt chẽ

Trạng thái/Ngõ ra

Hành động (Tín hiệu điều khiển)

Xấp xỉ hàm (Critic) (Hàm chi phí)

Môi trường (Đối tượng) Xấp xỉ hàm (Actor)

Xấp xỉ hàm (Actor 2)

Chặn trên của nhiễu

Trạng thái /Ngõ ra Xấp xỉ hàm (Critic) (Hàm chi phí)

Xấp xỉ hàm (Actor 1)

Môi trường (Đối tượng) Hành động

(Tín hiệu điều khiển)

Trang 23

5

Giai đoạn thứ ba (từ năm 2010 cho đến nay), lịch sử phát triển về RL liên quan đến bài toán điều khiển tối ưu thích nghi cho hệ phi tuyến chứa một vài thành phần động học hệ thống không biết trước [17]-[19], [38], [58], [61], [63], [66], [71], [80]-[81], [85], [105]-[106], [120]-[121], [128]-[129] Song song với các nghiên cứu vừa nêu là các nghiên cứu về giải thuật RL cho bài toán điều khiển tối ưu 𝐻∞ với hệ tuyến tính có ma trận trạng thái không biết trước [109], hoặc hệ phi tuyến với các thành phần động học trong mô hình hoàn toàn xác định [31], [53], [56], [57], [102]-[103] Đa số các nghiên cứu này đều sử dụng cấu trúc ADP với ba xấp xỉ hàm [43], [67], [84], [123] Một xấp xỉ hàm (Actor 2 trong H 1.3) được thêm vào cấu trúc ADP nhằm xấp

xỉ chặn trên của nhiễu (nhiễu xấu nhất)

Xuất phát từ lý thuyết của RL, nghiên cứu chuyên sâu hơn nữa để phát triển RL

về mặt lý thuyết cũng như thực tiễn là mục tiêu chính trong luận án này

1.2 Động cơ, mục tiêu và nhiệm vụ nghiên cứu

1.2.1 Sự cần thiết phải nghiên cứu học củng cố trong điều khiển

Thiết kế giải thuật điều khiển cho hệ phi tuyến có các thành phần không chắc chắn, nhiễu sai số mô hình, nhiễu ngoài tác động sao cho hệ kín không chỉ ổn định bền vững mà còn tăng cường chất lượng điều khiển là bài toán được rất nhiều nhà nghiên cứu quan tâm Các phương pháp để giải quyết bài toán này là điều khiển thích nghi [62] trong đó phổ biến là nhận dạng gián tiếp hệ thống [77], sau đó thiết kế bộ điều khiển Phương pháp thứ hai là nhận dạng online các thành phần không chắc chắn trong

hệ thống sử dụng các bộ xấp xỉ hàm Do xấp xỉ hàm bị giới hạn bởi một số hữu hạn các tham số nên sai số xấp xỉ là không thể tránh khỏi Sai số này cùng với nhiễu có thể làm cho hệ kín mất ổn định Vì vậy, kết hợp thêm thành phần điều khiển bền vững vào luật điều khiển thích nghi để bù sai số xấp xỉ và nhiễu là cần thiết [24], [69] Tuy nhiên, các phương pháp điều khiển thích nghi hoặc thích nghi bền vững chưa giải quyết triệt để bài toán tối ưu [125]

Thành phần điều khiển bền vững thêm vào sơ đồ điều khiển thích nghi thường có tham số hằng, được thiết kế để hệ kín ổn định bền vững nên thường phải “hy sinh” chất lượng điều khiển Nếu chọn tham số hằng không phù hợp có thể xảy ra các hiện tượng: hệ thống nhanh thích nghi nhưng chất lượng điều khiển không tốt hoặc ngược

Trang 24

6

lại Hệ kín luôn bảo đảm ổn định bền vững nhưng có hiện tượng chattering (hiện tượng biên độ giá trị ngõ vào điều khiển thay đổi giá trị với tần số cao) hoặc ngược lại Nói cách khác, phương pháp điều khiển thích nghi bền vững kinh điển chỉ mang đến sự thỏa hiệp giữa chất lượng điều khiển và khả năng ổn định của hệ thống

Cùng với sự phát triển của lý thuyết điều khiển thích nghi, bền vững, lý thuyết điều khiển tối ưu hiện đại cho hệ phi tuyến là một trong những vấn đề được liên tục nghiên cứu trong nhiều thập kỷ qua Luật điều khiển tối ưu được thiết kế không chỉ ổn định hệ thống mà còn tối thiểu hàm chi phí ràng buộc đến chỉ tiêu chất lượng mong muốn Về mặt toán học, bài toán điều khiển tối ưu được giải nếu nghiệm phương trình Hamilton-Jacobi-Bellman (HJB) được giải Đối với hệ tuyến tính, HJB trở thành phương trình ARE (Algebraic Riccati Equation) Đối với hệ phi tuyến, HJB trở thành phương trình vi phân phi tuyến Với hệ tuyến tính thiếu thông tin về ma trận trạng thái, nghiệm ARE không thể giải được bằng giải tích, với hệ phi tuyến, nghiệm giải tích HJB là rất khó giải, nếu không muốn nói là không thể cho dù biết trước mô hình hệ thống Vì lý do đó, vấn đề xấp xỉ nghiệm HJB được đặt ra

Lý thuyết điều khiển bền vững sử dụng chuẩn 𝐻∞ đóng vai trò rất quan trọng trong phân tích và thiết kế hệ thống [131] Bộ điều khiển tối ưu bền vững 𝐻∞ được thiết kế bằng cách giải phương trình đại số Riccati mở rộng cho hệ tuyến tính [109] và HJI (Hamilton-Jacobi-Isaacs) cho hệ tuyến tính [107] Mặc dù lý thuyết điều khiển hiện đại liên quan đến bài toán điều khiển 𝐻∞ cho hệ phi tuyến [15] nhưng trong nhiều ứng dụng thực tế, vấn đề phức tạp ở chỗ làm thế nào để tìm nghiệm HJI, bởi vì đây là phương trình vi phân phi tuyến không có nghiệm giải tích [100], [122]

Lý thuyết RL là một trong những công cụ mạnh dùng để nghiên cứu và phát triển các giải thuật điều khiển tối ưu bằng cách xấp xỉ online nghiệm HJB và HJI nhằm khắc phục các hạn chế nêu trên [10], [11], [17]-[19], [38], [53], [61]-[58], [63], [66], [71], [81]-[80], [85], [105]-[106], [120]-[122], [128]-[129] Tuy nhiên, trong hầu hết các giải thuật RL, thành phần động học nội trong mô hình hệ phi tuyến đòi hỏi phải xác định trước và nhiễu tác động bị bỏ qua [100], [106] Vì vậy, kết hợp đặc tính thích nghi bền vững vào giải thuật RL để giải bài toán điều khiển tối ưu cho hệ phi tuyến chứa thành phần động không có thông tin xác định, bị tác động bởi nhiễu là cần thiết

Trang 25

7

1.2.2 Tính cấp thiết của đề tài

Chỉ một số rất ít nghiên cứu về giải thuật RL, gần đây, đã kết hợp đặc tính tối ưu

𝐻∞ vào bài toán điều khiển thích nghi bền vững hệ phi tuyến chứa thành phần bất định, chịu tác động bởi nhiễu [10], [53], [103], [112] Các nghiên cứu này sử dụng giải thuật lặp PI dựa vào cấu trúc ADP ba xấp xỉ hàm (H 1.3) Tuy nhiên, với cấu trúc ba xấp xỉ hàm, ADP còn tồn tại một số hạn chế: Tính toán phức tạp, lãng phí tài nguyên, chậm hội tụ, cập nhật tham số giữa các xấp xỉ hàm là tuần tự qua nhiều bước lặp [100], [103]-[106] Ngoài ra, các giải thuật này cần được khởi động bởi các luật điều khiển

ổn định cho trước Điều này làm giảm tính linh hoạt trong thiết kế, bởi vì trong một số ứng dụng đặc biệt, xác định trước luật điều khiển khởi tạo ổn định là điều thách thức Tăng tốc độ hội tụ, tăng tính linh hoạt trong thiết kế bằng cách giảm độ phức tạp tính toán, giảm tài nguyên hệ thống và thiết kế đơn giản luôn là động cơ thúc đẩy để nghiên cứu các giải thuật điều khiển [122], [125] Nếu mỗi xấp xỉ hàm là một mạng thần kinh (Neural Network (NN)), thì với ba xấp xỉ hàm, số lớp ẩn và số đơn vị nút ở lớp ẩn, số lượng hàm tác động sẽ tăng lên theo cấp số nhân, kéo theo số phần tử trong

ma trận trọng số sẽ tăng lên tương ứng Với cấu trúc ADP sử dụng ba NN, đặc biệt khi

áp dụng cho hệ thống đa biến, hồi tiếp đủ trạng thái thì số lượng tham số sẽ tăng lên đáng kể Các trọng số NN phải được liên tục cập nhật trong suốt quá trình học, do đó chi phí tính toán là vấn đề thách thức Khi sử dụng giải thuật PI để xấp xỉ nghiệm online, tốc độ hội tụ của giải thuật ngoài các yếu tố khác còn phụ thuộc rất nhiều vào cấu trúc chọn trước Nếu nhiều xấp xỉ hàm được sử dụng, quá trình tính toán sẽ rất phức tạp, giải thuật chậm hội tụ là điều khó tránh khỏi

Các giải thuật trong [10], [34], [103] ngoài việc đòi hỏi phải biết rõ các hàm thành phần trong phương trình mô tả hệ phi tuyến, trọng số NN còn phải cập nhật trong hai vòng lặp khác nhau, với lý do là phương trình HJI được xấp xỉ tuần tự bởi một loạt các phương trình HJB Thủ tục như vậy sẽ dẫn đến nghiệm của các phương trình bị dư thừa gây lãng phí tài nguyên và cho hiệu quả thấp [122] Ngoài ra, do các xấp xỉ hàm phụ thuộc lẫn nhau, nếu khởi tạo trọng số NN không phù hợp sẽ dẫn đến

hệ kín mất ổn định ngay từ những thời điểm học đầu tiên [100] Hay nói cách khác, tìm luật điều khởi tạo ổn định cho giải thuật là điều bắt buộc

Để khắc phục nhược điểm nêu trên, một số nghiên cứu về RL đề xuất giảm số

Trang 26

8

lượng xấp xỉ hàm trong cấu trúc điều khiển [31], [125] đã đề xuất giải thuật SOLA (Single Online Approximator), trong đó chỉ duy nhất một NN được sử dụng để khắc phục hiện tượng nhiều xấp xỉ hàm Ngoài ra, với SOLA, luật điều khiển ổn định để khởi động cho giải thuật là không cần thiết Tuy nhiên, giải thuật này yêu cầu phải xác định trước thành phần động học nội trong mô hình hệ thống Để kết hợp yếu tố thích nghi trong bài toán điều khiển tối ưu 𝐻∞ liên quan đến nghiệm HJI đồng thời khắc phục luôn hiện tượng dư thừa nghiệm, [122] đã đề xuất giải thuật xấp xỉ online nghiệm HJI sử dụng duy nhất một NN Giải thuật này không cần biết trước và không cần sử dụng thông tin về động học nội trong hệ thống Quá trình cập nhật tham số luật điều khiển và luật nhiễu trong giải thuật này đồng bộ trong cùng một bước lặp, ưu điểm hơn [103] Tuy nhiên, giải thuật này vẫn còn gặp trở ngại, đó là phải ngưng cập nhật các tham số của hệ thống trong một khoảng thời gian đủ lớn để lấy tập mẫu huấn luyện cho lần cập nhật trọng số tiếp theo Ngoài ra, giải thuật này vẫn còn đòi hỏi bộ điều khiển khởi tạo ổn định

1.2.3 Mục tiêu nghiên cứu

Trên cơ sở ưu và nhược điểm của giải thuật học củng cố vừa giới thiệu, mục tiêu nghiên cứu chính trong luận án này là phân tích và thiết kế giải thuật học củng cố mới trong điều khiển thích nghi bền vững cho hệ phi tuyến Giải thuật đáp ứng các yêu cầu:

1 Điều khiển online, tránh thủ tục nhận dạng hệ thống (gián tiếp hoặc trực tiếp)

2 Bảo đảm được hệ kín ổn định bền vững

3 Tối thiểu được hàm chỉ tiêu chất lượng và chỉnh định được các tham số luật điều khiển về giá trị cận tối ưu

4 Giảm được chi phí tính toán và tài nguyên nhằm tăng nhanh tốc độ hội tụ

5 Loại bỏ được yêu cầu về chọn trước luật điều khiển ổn định để khởi động giải thuật

6 Giải thuật càng đơn giản càng tốt

Các mục tiêu trên nhằm cải thiện hơn nữa chất lượng điều khiển, tăng tốc độ hội

tụ, tăng tính linh hoạt trong thiết kế so với các giải thuật học củng cố trước đây

1.2.4 Nhiệm vụ nghiên cứu

Để đạt được mục tiêu nghiên cứu, trong khuôn khổ luận án, một số nhiệm vụ cấp

Trang 27

9

thiết được đặt ra như sau:

a) Nghiên cứu giải thuật học củng cố điều khiển tối ưu cho hệ phi tuyến dựa trên cấu trúc qui hoạch động thích nghi sử dụng hai xấp xỉ hàm (H 1.2) [56], [100], [101] Giải thuật trong luận án chỉ sử dụng một xấp xỉ hàm, khắc phục được sự dư thừa của xấp xỉ hàm so với qui hoặc động thích nghi kinh điển Thiết kế được luật cập nhật tham số online cho xấp xỉ hàm Loại bỏ được yêu cầu phải chọn trước luật điều khiển ổn định để khởi động giải thuật Xây dựng được giải thuật điều khiển và chứng minh được sự hội tụ và ổn định cho toàn hệ thống

b) Nghiên cứu giải thuật học củng cố điều khiển thích nghi bền vững hệ phi tuyến trên nền tảng cấu trúc qui hoạch động thích nghi bền vững sử dụng ba xấp xỉ hàm (H 1.3) [56], [100], [103] Giải thuật trong luận án chỉ sử dụng một xấp xỉ hàm, khắc phục được sự dư thừa của hai xấp xỉ hàm còn lại Thiết kế được luật cập nhật tham số online cho xấp xỉ hàm không sử dụng thông tin về động học nội tránh thủ tục nhận dạng hệ thống Loại bỏ được yêu cầu phải chọn trước luật điều khiển ổn định để khởi động giải thuật Xây dựng được giải thuật điều khiển và chứng minh được sự hội

tụ và ổn định cho toàn hệ thống

c) Kiểm tra được tính hiệu quả của giải thuật đề xuất qua các nội dung: (𝑖) Mô phỏng, so sánh và đánh giá với các giải thuật học củng cố khác trên cùng hệ phi tuyến (𝑖𝑖) Mô phỏng và thực nghiệm trên đối tượng robot di động dạng xe

d) Mở rộng giải thuật học củng cố điều khiển thích nghi bền vững cho bài toán điều khiển hợp tác nhiều hệ phi tuyến MIMO, áp dụng trong mô phỏng đồng bộ hóa đội hình robot bầy đàn

1.3 Đối tượng, phạm vi và phương pháp nghiên cứu

1.3.1 Đối tượng và phạm vi nghiên cứu

Đối tượng điều khiển được xét trong luận án có ba loại Đối tượng thứ nhất cần nghiên cứu là lớp hệ thống phi tuyến có dạng [101]:

trong đó 𝑥 ∈ ℝ𝑛 là véc tơ trạng thái, 𝑢 ∈ ℝ𝑚 là véc tơ tín hiệu điều khiển và 𝑓 𝑥 ∈

ℝ𝑛, 𝑔 𝑥 ∈ ℝ𝑛 ×𝑚 là các hàm phi tuyến khả vi liên tục giả sử biết trước Ngoài ra,

𝑓 0 = 0 và 𝑓 𝑥 , 𝑔 𝑥 giả sử bị chặn [124]-[125] Giả sử này chỉ sử dụng để chứng minh tính ổn định của hệ thống, không sử dụng trong luật điều khiển cũng như luật cập

Trang 28

10

nhật tham số

Giải thuật điều khiển cho đối tượng (1.1) mà luận án nghiên cứu là giải thuật học củng cố điều khiển tối ưu được phát triển trên nền tảng cơ sở lý thuyết qui hoạch động thích nghi sử dụng xấp xỉ hàm

Đối tượng thứ hai cần nghiên cứu tiếp theo là lớp hệ phi tuyến có dạng [122]:

𝑥 = 𝑓 𝑥 + 𝑔 𝑥 𝑢 + 𝑘 𝑥 𝑑

𝑦 = 𝑕(𝑥) (1.2) trong đó 𝑥 ∈ ℝ𝑛 là véc tơ trạng thái, 𝑢 ∈ ℝ𝑚 là véc tơ tín hiệu điều khiển với 𝑢 ∈

𝐿2 0 , ∞ , 𝑑 ∈ ℝ𝑞 là nhiễu thỏa điều kiện 𝑑 ∈ 𝐿2 0 , ∞ , 𝑓 𝑥 ∈ ℝ𝑛 là véc tơ hàm phi tuyến liên tục đặc trưng cho thành phần động học nội hệ thống không biết trước [122],

𝑦 ∈ ℝ𝑝 là ngõ ra mục tiêu, 𝑕(𝑥) ∈ ℝ𝑝, 𝑔 𝑥 ∈ ℝ𝑛 ×𝑚 và 𝑘 𝑥 ∈ ℝ𝑛 ×𝑞 lần lượt là véc

tơ hàm và các ma trận hàm phi tuyến liên tục xác định trước, giả sử bị chặn [31] Giả

sử này chỉ sử dụng để chứng minh tính ổn định của hệ thống, không sử dụng trong luật điều khiển cũng như luật cập nhật tham số

Giải thuật điều khiển cho đối tượng (1.2) mà luận án nghiên cứu là giải thuật học củng cố trong điều khiển thích nghi bền vững được phát triển trên nền tảng cơ sở lý thuyết qui hoạch động thích nghi bền vững sử dụng xấp xỉ hàm

Đối tượng thực nghiệm nhằm kiểm chứng tính hiệu quả của phương pháp học củng cố thích nghi bền vững là lớp hệ phi tuyến thuộc (1.2) Đó là robot di động dạng

xe, một đối tượng phi tuyến chứa thành phần động không thể cấu trúc hóa hoặc mô hình hóa, chịu tác động bởi nhiễu mô men ngõ vào có năng lượng hữu hạn

Đối tượng cuối cùng cần nghiên cứu để mở rộng giải thuật học củng cố trong điều khiển thích nghi bền vững là 𝑁 hệ phi tuyến MIMO hợp tác Mỗi hệ 𝑖, 1 ≤ 𝑖 ≤ 𝑁

có 𝑚 (𝑚 ≥ 2) phương trình phi tuyến:

Trang 29

11

ℝ𝑛 𝑕 ×𝑛 𝑕 +1 lần lượt là các véc tơ và ma trận hàm phi tuyến khả vi liên tục Giả sử rằng toàn bộ trạng thái có sẵn để hồi tiếp và 𝑓𝑖𝑕(𝑥 𝑖𝑕) là động học nội không biết trước Giải thuật điều khiển cho nhiều hệ phi tuyến (1.3) mà luận án nghiên cứu là giải thuật học củng cố điều khiển hợp tác thích nghi bền vững được phát triển mở rộng trên nền tảng giải thuật điều khiển hệ phi tuyến (1.2)

1.3.2 Phương pháp nghiên cứu

Trên cơ sở lý thuyết về RL và tiếp cận đến những kết quả công bố mới nhất về

RL, luận án phân tích ưu nhược điểm của từng giải thuật, tiếp tục nghiên cứu và phát triển nhằm khắc phục các hạn chế còn tồn tại Phương pháp nghiên trong luận án là:

- Nghiên cứu tài liệu tham khảo có liên quan, phân tích và thiết kế hệ thống, tính toán và chứng minh ổn định và hội tụ bằng cơ sở toán học, kết hợp giữa mô phỏng

và thực nghiệm nhằm mục đích kiểm tra tính hiệu quả của lý thuyết

1.4 Những đóng góp mới của luận án về mặt khoa học

So với các công trình nghiên cứu khoa học khác đã công bố cùng lĩnh vực, luận

án này đóng góp thêm các điểm mới về mặt lý thuyết cũng như thực tiễn như sau:

1.4.1 Về mặt lý thuyết

a) Trên cơ sở lý thuyết tổng quan về học củng cố và xấp xỉ hàm [1], [3], [99], luận án nghiên cứu và phát triển giải thuật học củng cố OADP (Online Adaptive Dynamic Programming) điều khiển tối ưu hệ phi tuyến (1.1) Các điểm mới trong giải thuật OADP được thể hiện như sau:

- Cấu trúc điều khiển được đề xuất với duy nhất một xấp xỉ hàm đã khắc phục được hiện tượng dư thừa một xấp xỉ hàm còn lại so với các nghiên cứu khác [18], [80], [101] Cấu trúc này tránh độ phức tính toán nhằm tăng nhanh tốc độ hội tụ

- Luật cập nhật online cho tham số xấp xỉ hàm được phân tích và thiết kế

Trang 30

12

không chỉ bảo đảm hệ kín ổn định mà còn tham số hệ thống hội tụ đến giá trị cận tối

ưu Ngoài ra, yêu cầu về luật điều khiển ổn định để khởi động giải thuật được loại bỏ

- Tham số xấp xỉ hàm và luật điều khiển được cập nhật đồng bộ trong một bước lặp nhằm tăng thêm tốc độ hội tụ, khác với [73], [111]

- Định lý ổn định và hội tụ được phát biểu và chứng minh (Định lý 3.2)

b) Mở rộng giải thuật OADP, phân tích và thiết kế giải thuật học củng cố ORADP (Online Robust Adaptive Dynamic Programming) điều khiển thích nghi bền vững hệ phi tuyến (1.2) với thông tin về động học nội hoàn toàn không biết Các điểm mới trong giải thuật ORADP được thể hiện như sau:

- Cấu trúc điều khiển học củng cố thích nghi bền vững với duy nhất một xấp xỉ hàm được sử dụng, khắc phục được hiện tượng dư thừa hai xấp xỉ hàm so còn lại với các nghiên cứu khác [103], [109] Ưu điểm này dẫn đến độ phức tính toán và tài nguyên mà giải thuật sử dụng sẽ giảm nhiều lần, từ đó tốc độ hội tụ tăng lên

- Luật cập nhật online cho tham số xấp xỉ hàm được phân tích và thiết kế đạt được các mục tiêu chính: bỏ qua thủ tục nhận dạng hệ thống (khác với [18]), không đòi hỏi phải khởi động giải thuật bằng luật điều khiển ổn định (khác với [103], [109]), bảo đảm hệ kín ổn định bền vững và tham số hệ thống hội tụ đến giá trị cận tối ưu

- Tham số xấp xỉ hàm và luật điều khiển được cập nhật đồng bộ trong một bước lặp nhằm tăng thêm tốc độ hội tụ, khác với [103], [109]

- Định lý ổn định và hội tụ được phát biểu và chứng minh (Định lý 4.4)

- Không cần nhận dạng (trực tiếp hoặc gián tiếp) thành phần động học chưa xác định trong mô hình robot

- Tối thiểu được hàm chỉ tiêu chất lượng liên quan đến sai số bám động học, động lực học và năng lượng điều khiển

Trang 31

1 Chương 2: Trình bày cơ sở lý thuyết về học củng cố bao gồm các giải thuật học củng cố kinh điển, các loại xấp xỉ hàm và so sánh giữa các xấp xỉ hàm, các giải thuật qui hoạch động thích nghi sử dụng xấp xỉ hàm, chọn xấp xỉ hàm hợp lý phục

vụ cho bài toán thiết kế ở các chương tiếp theo

2 Chương 3: Phân tích và thiết kế giải thuật học củng cố trong điều khiển tối ưu cho

hệ phi tuyến với nội dung chính như sau:

- Phân tích, thiết kế cấu trúc điều khiển

- Phân tích, thiết kế luật cập nhật tham số xấp xỉ hàm

- Xây dựng giải thuật, chứng minh sự hội tụ và ổn định của hệ kín

3 Chương 4: Phân tích và thiết kế giải thuật học củng cố điều khiển thích nghi bền vững cho hệ phi tuyến với nội dung chính như sau:

- Phân tích và thiết kế cấu trúc điều khiển

- Phân tích và thiết kế luật cập nhật tham số xấp xỉ hàm

- Xây dựng giải thuật, chứng minh sự hội tụ và ổn định của hệ kín

4 Chương 5: Mô phỏng và thực nghiệm robot di động dạng xe sử dụng giải thuật học củng cố thích nghi bền vững

5 Chương 6: Mở rộng giải thuật học củng cố thích nghi bền vững để điều khiển thích nghi bền vững hợp tác nhiều hệ phi tuyến MIMO, kiểm chứng giải thuật qua ứng dụng mô phỏng điều khiển robot bầy đàn hợp tác

Cuối cùng là phần kết luận và hướng phát triển

Trang 32

14

Chương này trình bày tóm lược lý thuyết học củng cố, giới thiệu các giải thuật kinh điển của học củng cố, trình bày cấu trúc và luật học đơn giản của các xấp xỉ hàm thông dụng, phát biểu về sự cần thiết phải sử dụng xấp xỉ hàm trong học củng cố Sau

đó, các loại xấp xỉ hàm được so sánh đánh giá, làm cơ sở cho việc nghiên cứu các giải thuật học củng cố dựa vào xấp xỉ hàm ở các chương tiếp theo

2.1 Các định nghĩa

Định nghĩa 2.1 (Uniform Ultimate Bounded-UUB [74]): Xét hệ thống phi tuyến:

với trạng thái 𝑥(𝑡) ∈ ℝ𝑛 Điểm cân bằng 𝑥𝑐 được gọi là UUB nếu tồn tại một tập đóng

Ω𝑥 ⊂ ℝ𝑛, sao cho với mọi 𝑥 ⊂ Ω𝑥, luôn tồn tại chặn trên 𝐵 và thời gian 𝑇𝐵(𝐵, 𝑥𝑐) để điều kiện 𝑥 𝑡 − 𝑥𝑐 ≤ 𝐵 luôn thỏa với mọi 𝑡 ≥ 𝑡0 + 𝑇𝐵

Định nghĩa 2.2 (Zero-State Observability [55]): Hệ thống (2.1) với ngõ ra đo

được 𝑦 = 𝑕(𝑥) gọi là quan sát được trạng thái không, nếu 𝑦 𝑡 ≡ 0, ∀𝑡 ≥ 0, kéo theo

𝑥 𝑡 ≡ 0

Định nghĩa 2.3 (Điều kiện PE (Persistently Exciting) [55]): Một véc tơ tín hiệu

bị chặn 𝜎 𝑡 được gọi là thỏa điều PE trong khoảng thời gian 𝑡, 𝑡 + 𝑇𝑃 , 𝑇𝑃 > 0 nếu tồn tại 𝛽1 > 0 và 𝛽2 > 0 sao cho với mọi 𝑡:

 Ở mỗi trạng thái 𝑥 ∈ Ω𝑥, có tập hữu hạn các tín hiệu điều khiển 𝑈 𝑥

 Mô hình đối tượng điều khiển 𝑥𝑘+1 = 𝑓(𝑥𝑘, 𝑢(𝑥𝑘)) với 𝑢(𝑥𝑘) ∈ 𝑈 𝑥𝑘 là tín hiệu điều khiển để chuyển trạng thái hệ thống từ 𝑥𝑘 sang 𝑥𝑘 +1

 Hàm thưởng/phạt, còn gọi là tín hiệu củng cố, 𝑟 𝑥𝑘, 𝑢(𝑥𝑘) ∈ ℝ, đặc trưng

Trang 33

15

cho chi phí điều khiển khi áp dụng luật điều khiển 𝑢(𝑥𝑘) ở trạng thái 𝑥𝑘

 Luật điều khiển 𝑢 𝑥 : Ω𝑥 → 𝑈(𝑥) sao cho nếu áp dụng 𝑢 𝑥 từ trạng thái 𝑥0

sẽ phát sinh ra quỹ đạo trạng thái 𝑥0, 𝑥1, 𝑥2, …, thỏa điều kiện: ∀𝑘 = 1, … , 𝑁 −

1, 𝑥𝑘+1 = 𝑓(𝑥𝑘, 𝑢(𝑥𝑘))

 Hàm biểu diễn tổng chi phí cộng dồn xuất phát từ 𝑥0 khi tín hiệu điều khiển

𝑢 𝑥𝑘 được áp dụng dọc theo quỹ đạo trạng thái, ∀𝑥𝑘 ∈ Ω𝑥 được gọi là hàm chỉ tiêu chất lượng hoặc hàm chi phí của 𝑢(𝑥𝑘):

𝐽 𝑥0 = 𝑟(𝑥𝑘, 𝑢(𝑥𝑘))

𝑁 𝑘=0

𝑈 𝑥𝑘 = 𝑢1, 𝑢2, … , 𝑢𝑚 là tập tín hiệu điều khiển ở trạng thái 𝑥𝑘 và 𝑥𝑘+1 =

Trang 34

16

𝑓 𝑥𝑘, 𝑢(𝑥𝑘) là trạng thái kế tiếp tùy theo tín hiệu điều khiển nào được áp dụng Từ

đó, luật điều khiển tối ưu được định nghĩa:

Hình 2.1 Nguyên lý qui hoạch động Bellman và hàm đánh giá tối ưu

2.3 Các giải thuật học củng cố kinh điển

Các giải thuật học củng cố kinh điển mô tả sau đây xấp xỉ hàm đánh giá và luật điều khiển tối ưu Mặc dù các giải thuật này chỉ điều khiển off-line nhưng đó là nền tảng cơ sở để nghiên cứu mở rộng cho các giải thuật online nâng cao trong luận án

2.3.1 Giải thuật VI (Value Iteration)

Giải thuật VI sau đây mô tả chi tiết các bước xấp xỉ trực tiếp hàm đánh giá tối ưu

𝑉∗ 𝑥𝑘 Khi có 𝑉∗ 𝑥𝑘 , luật điều khiển tối ưu 𝑢∗ 𝑥 được xấp xỉ [96]

Trang 35

Bước 3: Xấp xỉ luật điều khiển tối ưu:

2.3.2 Giải thuật PI (Policy Iteration)

Giải thuật PI khởi động sử dụng luật điều khiển ổn định, sau đó xấp xỉ hàm đánh giá trong một bước và cải thiện luật điều khiển dựa vào hàm đánh giá vừa xấp xỉ ở bước tiếp theo [96] Các bước trong giải thuật PI được mô tả như sau:

Trang 36

18

Ta thấy rằng, từ phương trình (2.9) đến (2.12), Giải thuật 2.1 và 2.2 đòi hỏi thông tin về mô hình hệ thống 𝑓 𝑥𝑘, 𝑢(𝑥𝑘) , điều này làm giảm khả năng ứng dụng của học củng cố Hạn chế này được giải quyết bằng giải thuật dự báo sai phân tạm thời (Temporal Difference (TD)) [95] Khi đó, luật cập nhật (2.11) sẽ là:

𝑉(𝑖) 𝑥𝑘 = 𝑉(𝑖−1) 𝑥𝑘 + 𝛼 𝑟 𝑥𝑘, 𝑢(𝑖)(𝑥𝑘) + 𝛾𝑉(𝑖−1) 𝑥𝑘+1 − 𝑉(𝑖−1) 𝑥𝑘 (2.13) trong đó 𝑥𝑘+1 là trạng thái mà hệ thống nhận được khi áp dụng luật điều khiển 𝑢(𝑖) tại

𝑥𝑘, 𝛼 ∈ (0,1] là tốc độ học Nhìn vào phương trình (2.13) ta thấy rằng hàm đánh giá được cập nhật không cần sử dụng mô hình của hệ thống Sau khi 𝑉(𝑖) 𝑥𝑘 ở (2.13) được cập nhật, luật điều khiển 𝑢(𝑖+1) ở Bước 4 của giải thuật 2.2 được cập nhật ngay

mà không mà không cần phải chờ đợi sự hội tụ của hàm đánh giá ở Bước 3 Giải thuật

PI sử dụng luật cập nhật TD, bảo đảm rằng luật điều khiển xấp xỉ sẽ hội tụ đến giá trị tối ưu [51] Tuy nhiên, TD chỉ sử dụng được trong các giải thuật off-line

2.3.3 Giải thuật Q-Learning

Thay vì xấp xỉ hàm 𝑉 𝑥𝑘 như giải thuật VI hoặc PI, giải thuật 𝑄-Leanring xấp

xỉ hàm 𝑄(𝑥𝑘, 𝑢𝑘) chứa tổ hợp biến trạng thái và tín hiệu điều khiển ứng, trong đó ở mỗi bước lặp, luật cập nhật hàm 𝑄(𝑥𝑘, 𝑢𝑘) được định nghĩa dựa vào luật TD [115]:

𝑄(𝑙+1) 𝑥𝑘, 𝑢𝑘 = 𝑄(𝑙) 𝑥𝑘, 𝑢𝑘

+𝛼 𝑟 𝑥𝑘, 𝑢𝑘 + 𝛾 argmin

∀𝑎∈𝑈(𝑥𝑘+1)

𝑄(𝑙) 𝑥𝑘+1, 𝑎 −𝑄(𝑙) 𝑥𝑘, 𝑢𝑘 (2.14) trong đó 𝛼 ∈ 0, 1 là tốc độ học Khi 𝑄(𝑥𝑘, 𝑢𝑘) hội tụ về hàm đánh giá tối ưu

𝑄∗ 𝑥𝑘, 𝑢𝑘 , luật điều khiển tối ưu sẽ là:

𝑢𝑘∗ = argmin

∀𝑢 𝑘 ∈𝑈(𝑥 𝑘 )

Giải thuật 2.3 Q-Learning

Bước 1: Rời rạc hóa không gian trạng thái để có tập Ω𝑥, lượng tử hóa tín hiệu điều khiển để có tập 𝑈(𝑥𝑘) ∀𝑥𝑘 ∈ Ω𝑥 , ∀𝑢𝑘 ∈ 𝑈(𝑥𝑘) khởi tạo 𝑄 𝑥𝑘, 𝑢𝑘 = 0

Bước 2: Xấp xỉ hàm đánh giá 𝑄:

 𝑙 ← 𝑙 + 1

 Vòng lặp ngoài ∀𝑥𝑘 ∈ Ω𝑥:

 Lặp vòng trong ∀𝑢𝑘 ∈ 𝑈(𝑥𝑘):

Trang 37

2.4 Xấp xỉ hàm trong RL

2.4.1 Sự cần thiết phải sử dụng xấp xỉ hàm trong RL

Trong Giải thuật 2.1 và 2.2, ở mỗi bước lặp, hàm 𝑉 𝑥𝑘 phải được cập nhật và lưu trữ với mọi trạng thái 𝑥𝑘, và trong Giải thuật 2.3, ở mỗi bước lặp, hàm 𝑄 𝑥𝑘, 𝑢𝑘 được cập nhật và lưu trữ với mọi tổ hợp 𝑥𝑘 và 𝑢𝑘 Do đó, nếu áp dụng các giải thuật này trong điều khiển sẽ tồn tại một số hạn chế sau:

- Chỉ áp dụng được cho hệ thống với số lượng hữu hạn các điểm giá trị trạng thái và tín hiệu điều khiển rời rạc Trong trường hợp hệ thống với không gian trạng thái và tín hiệu điều khiển liên tục, có vô số điểm giá trị cần rời rạc thì chi phí tính toán không cho phép các giải thuật trên lặp qua toàn bộ các điểm này để cập nhật và lưu trữ hàm đánh giá một cách tường minh

- Với giải thuật Q-learning, chi phí lưu trữ và tính toán tăng theo hàm mũ (𝛺𝑥 𝑈(𝑥) ) giữa số lượng các điểm trong không gian trạng thái với số lượng tín hiệu điều khiển phân rã ở mỗi trạng thái Điều này dẫn đến việc bùng nổ tổ hợp

- Đối với hệ thống nhiều ngõ vào ra, cấu trúc dữ liệu lưu trữ đòi hỏi mảng hoặc

Trang 38

20

ma trận đa chiều, khó có thể xử lý dữ liệu với kích cỡ mỗi chiều lớn hàng trăm

Sẽ giảm được chi phí tính toán nếu giá trị hàm ở các điểm trong không gian trạng thái chưa được cập nhật có thể nội suy được từ giá trị hàm của những điểm lân cận đã được cập nhật Xấp xỉ hàm là một trong những công cụ hữu hiệu có thể giải quyết được vấn đề này [99], [123] Ngoài ra, khi sử dụng xấp xỉ hàm thì tài nguyên lưu trữ không còn là vấn đề thách thức bởi vì lưu trữ tường minh hàm đánh giá của từng điểm trạng thái riêng biệt là điều không cần thiết

2.4.2 Yêu cầu về xấp xỉ hàm trong RL

Trong học củng cố người ta quan tâm đến các xấp xỉ hàm [1], [99] thỏa mãn yêu cầu:

- Khả năng xấp xỉ luật điều khiển cho các trạng thái liên tục chưa được cập nhật

từ các trạng thái đã được cập nhật mà không cần thiết phải rời rạc hoá không gian trạng thái và đi qua mọi quỹ đạo trạng thái

- Cấu trúc càng đơn giản càng tốt

- Tham số bộ xấp xỉ hàm được cập nhật online từ các trạng thái hồi tiếp, không

có tín hiệu đúng, sai mong muốn để điều chỉnh như phương pháp học giám sát

- Thông tin học trong quá khứ phải được đánh giá và lưu trữ càng nhiều càng tốt

để cải thiện kết quả ở tương lai, tuy nhiên tài nguyên lưu trữ càng nhỏ càng tốt

- Có khả năng xấp xỉ cục bộ để nâng cao hiệu quả tính toán

Đến nay đã có nhiều nghiên cứu và ứng dụng về xấp xỉ hàm Thành công và thất bại của mỗi loại còn tùy thuộc vào từng bài toán điều khiển cụ thể và cách chọn trước các thông số và cấu trúc ban đầu cho từng bộ xấp xỉ cũng như cách thiết kế luật cập nhật sao cho tham số bộ xấp xỉ không chỉ hội tụ mà còn đảm bảo hệ kín luôn ổn định trong quá trình học và điều khiển online

Phương pháp xấp xỉ bình phương tối thiểu (Least Square (LS)) tuy đơn giản nhưng thiếu khả năng xấp xỉ so với phương pháp “hộp đen” như NN Brartke và Barto [3] đã áp dụng giải thuật sai phân tạm thời (TD) cho LS để tạo ra giải thuật học LSTD Tuy nhiên, sau khi hàm đánh giá được học, luật điều khiển không thể cải thiện tốt hơn nữa nếu mô hình hệ thống động không có sẵn Stephan Ten Hagen [4] đã kết hợp giải thuật Q-learning với NN truyền thẳng để học điều khiển hệ thống với không gian trạng

Trang 39

21

thái liên tục Tuy nhiên, để xấp xỉ luật điều khiển hồi tiếp phi tuyến tối ưu, cần phải có sẵn bộ điều khiển LQR nhằm thu thập mẫu huấn luyện, và NN bị ràng buộc phải duy trì giá trị các trọng số giữa lớp ẩn và lớp ra đủ nhỏ trong suốt quá trình học

2.5 Các loại xấp xỉ hàm trong RL, so sánh và đánh giá

Các loại xấp xỉ hàm sử dụng NN [1] được trình bày trong Phụ lục A là cơ sở để thiết kế giải thuật RL dựa vào xấp xỉ hàm, trong đó cấu trúc và luật cập nhật trọng số cho các loại xấp xỉ hàm khác nhau được giới thiệu, bao gồm nhóm xấp xỉ hàm truyền thẳng nhiều lớp MLP (Multi-Layer Perceptron), nhóm xấp xỉ hàm cơ sở xuyên tâm RBF (Radial Basis Function) với các phiên bản khác nhau như: RBF chuẩn hóa NRBF (Normalized Radial Basis Function), RBF cấp phát tài nguyên động RARBF (Resource Allocating Radial Basis Function) và RBF thích nghi chuẩn hóa (Adaptive NANRBF Normalized Radial Basis Function), và cuối cùng là nhóm xấp xỉ hàm mô phỏng theo mô hình tiểu não CMAC (Cerebellar Model Articulation Controller) Trong Phụ lục A, khả năng xấp xỉ của mỗi nhóm xấp xỉ hàm được so sánh theo các tiêu chí: sai số, tốc độ hội tụ, tài nguyên lưu trữ và chi phí tính toán nhằm tìm ra loại xấp xỉ hàm phù hợp cho nghiên cứu tiếp theo Kết quả so sánh cho thấy rằng xấp

xỉ hàm MLP mặc dù chậm hội tụ nhưng cấu trúc đơn giản, tính toán không phức tạp, đặc biệt là tài nguyên lưu trữ rất nhỏ so với các xấp xỉ hàm còn lại Đó là lý do tại sao, hầu hết các giải thuật RL gần đây đều sử dụng loại xấp xỉ hàm này, đặc biệt là NN truyền thẳng sử dụng cấu trúc một lớp thể hiện trên H A.2 [43], [67], [84], [123], nhằm tránh sử dụng giải thuật lan truyền ngược không hiệu quả về tốc độ hội tụ Cốt lõi của vấn đề là luật cập nhật off-line của xấp xỉ hàm này không còn phù hợp để điều khiển online Vì vậy, bài toán thiết kế mới luật cập trọng số online được đặt ra

Một số thuộc tính cần thiết của xấp xỉ hàm truyền thẳng một lớp được trình bày sau đây nhằm phục vụ cho việc thiết kế giải thuật online ở những chương tiếp theo

2.6 Thuộc tính của NN truyền thẳng một lớp

Với xấp xỉ hàm truyền thẳng sử dụng NN một lớp ẩn có cấu trúc trên H A.2, ta

có các định nghĩa và tính chất sau:

Định nghĩa 2.4: Chuỗi hàm 𝑓𝑘(𝑥) được gọi là hội tụ đều đến 𝑓(𝑥) trong tập đóng Ω𝑥 nếu ∀ε > 0, ∃𝑁 𝜀 : sup𝑥∈Ω 𝑓𝑛 𝑥 − 𝑓(𝑥) < 𝜀

Trang 40

22

Định lý xấp xỉ bậc cao Weierstrass (Weierstrass higher-order approximation Theorem) trong [37] và kết quả trong [48] phát biểu rằng luôn tồn tại tập cơ sở độc lập hoàn toàn (complete independent basis set) 𝜙(𝑥) để hàm khả vi liên tục 𝑓(𝑥) và gradient của nó được xấp xỉ đều (uniformly approximated), đó là tồn tại các hệ số 𝑤𝑖:

[12]) Vậy, nếu sử dụng NN để xấp xỉ hàm, ta có thể biểu diễn:

sẽ bị chặn bởi các hằng số dương trong tập đóng [48]

2.7 Giải thuật qui hoạch động thích nghi sử dụng xấp xỉ hàm

Để xấp xỉ luật điều khiển online trong giải thuật PI, các nghiên cứu [43], [67], [84], [123] (xem thêm các tài liệu tham khảo trong đó) đề xuất cấu trúc ADP (còn gọi

là cấu trúc AC) sử dụng hai hoặc ba xấp xỉ hàm (H 1.2 hoặc H 1.3) Các xấp xỉ hàm trong ADP chủ yếu là các NN truyền thẳng một lớp có Thuộc tính 2.1 NN thứ nhất

Định dạng
Số trang	175
Dung lượng	6,65 MB