Nhiệm vụ nghiên cứu

9 thiết được đặt ra như sau:

a) Nghiên cứu giải thuật học củng cố điều khiển tối ưu cho hệ phi tuyến dựa trên cấu trúc qui hoạch động thích nghi sử dụng hai xấp xỉ hàm (H. 1.2) [56], [100], [101]. Giải thuật trong luận án chỉ sử dụng một xấp xỉ hàm, khắc phục được sự dư thừa của xấp xỉ hàm so với qui hoặc động thích nghi kinh điển. Thiết kế được luật cập nhật tham số online cho xấp xỉ hàm. Loại bỏ được yêu cầu phải chọn trước luật điều khiển ổn định để khởi động giải thuật. Xây dựng được giải thuật điều khiển và chứng minh được sự hội tụ và ổn định cho toàn hệ thống.

b) Nghiên cứu giải thuật học củng cố điều khiển thích nghi bền vững hệ phi tuyến trên nền tảng cấu trúc qui hoạch động thích nghi bền vững sử dụng ba xấp xỉ hàm (H. 1.3) [56], [100], [103]. Giải thuật trong luận án chỉ sử dụng một xấp xỉ hàm, khắc phục được sự dư thừa của hai xấp xỉ hàm còn lại. Thiết kế được luật cập nhật tham số online cho xấp xỉ hàm không sử dụng thông tin về động học nội tránh thủ tục nhận dạng hệ thống. Loại bỏ được yêu cầu phải chọn trước luật điều khiển ổn định để khởi động giải thuật. Xây dựng được giải thuật điều khiển và chứng minh được sự hội tụ và ổn định cho toàn hệ thống.

c) Kiểm tra được tính hiệu quả của giải thuật đề xuất qua các nội dung: (𝑖) Mô phỏng, so sánh và đánh giá với các giải thuật học củng cố khác trên cùng hệ phi tuyến. (𝑖𝑖) Mô phỏng và thực nghiệm trên đối tượng robot di động dạng xe.

d) Mở rộng giải thuật học củng cố điều khiển thích nghi bền vững cho bài toán điều khiển hợp tác nhiều hệ phi tuyến MIMO, áp dụng trong mô phỏng đồng bộ hóa đội hình robot bầy đàn.

1.3 Đối tƣợng, phạm vi và phƣơng pháp nghiên cứu

1.3.1 Đối tượng và phạm vi nghiên cứu

Đối tượng điều khiển được xét trong luận án có ba loại. Đối tượng thứ nhất cần nghiên cứu là lớp hệ thống phi tuyến có dạng [101]:

𝑥 = 𝑓 𝑥 + 𝑔 𝑥 𝑢 (1.1)

trong đó 𝑥 ∈ ℝ𝑛 là véc tơ trạng thái, 𝑢 ∈ ℝ𝑚 là véc tơ tín hiệu điều khiển và 𝑓 𝑥 ∈ ℝ𝑛, 𝑔 𝑥 ∈ ℝ𝑛 ×𝑚 là các hàm phi tuyến khả vi liên tục giả sử biết trước. Ngoài ra,

𝑓 0 = 0 và 𝑓 𝑥 , 𝑔 𝑥 giả sử bị chặn [124]-[125]. Giả sử này chỉ sử dụng để chứng minh tính ổn định của hệ thống, không sử dụng trong luật điều khiển cũng như luật cập

10 nhật tham số.

Giải thuật điều khiển cho đối tượng (1.1) mà luận án nghiên cứu là giải thuật học củng cố điều khiển tối ưu được phát triển trên nền tảng cơ sở lý thuyết qui hoạch động thích nghi sử dụng xấp xỉ hàm.

Đối tượng thứ hai cần nghiên cứu tiếp theo là lớp hệ phi tuyến có dạng [122]:

𝑥 = 𝑓 𝑥 + 𝑔 𝑥 𝑢 + 𝑘 𝑥 𝑑

𝑦 = 𝑕(𝑥) (1.2)

trong đó 𝑥 ∈ ℝ𝑛 là véc tơ trạng thái, 𝑢 ∈ ℝ𝑚 là véc tơ tín hiệu điều khiển với 𝑢 ∈ 𝐿2 0 , ∞ , 𝑑 ∈ ℝ𝑞 là nhiễu thỏa điều kiện 𝑑 ∈ 𝐿2 0 , ∞ , 𝑓 𝑥 ∈ ℝ𝑛 là véc tơ hàm phi tuyến liên tục đặc trưng cho thành phần động học nội hệ thống không biết trước [122],

𝑦 ∈ ℝ𝑝 là ngõ ra mục tiêu, 𝑕(𝑥) ∈ ℝ𝑝, 𝑔 𝑥 ∈ ℝ𝑛 ×𝑚 và 𝑘 𝑥 ∈ ℝ𝑛 ×𝑞 lần lượt là véc tơ hàm và các ma trận hàm phi tuyến liên tục xác định trước, giả sử bị chặn [31]. Giả sử này chỉ sử dụng để chứng minh tính ổn định của hệ thống, không sử dụng trong luật điều khiển cũng như luật cập nhật tham số.

Giải thuật điều khiển cho đối tượng (1.2) mà luận án nghiên cứu là giải thuật học củng cố trong điều khiển thích nghi bền vững được phát triển trên nền tảng cơ sở lý thuyết qui hoạch động thích nghi bền vững sử dụng xấp xỉ hàm.

Đối tượng thực nghiệm nhằm kiểm chứng tính hiệu quả của phương pháp học củng cố thích nghi bền vững là lớp hệ phi tuyến thuộc (1.2). Đó là robot di động dạng xe, một đối tượng phi tuyến chứa thành phần động không thể cấu trúc hóa hoặc mô hình hóa, chịu tác động bởi nhiễu mô men ngõ vào có năng lượng hữu hạn.

Đối tượng cuối cùng cần nghiên cứu để mở rộng giải thuật học củng cố trong điều khiển thích nghi bền vững là 𝑁 hệ phi tuyến MIMO hợp tác. Mỗi hệ 𝑖, 1 ≤ 𝑖 ≤ 𝑁

có 𝑚 (𝑚 ≥ 2) phương trình phi tuyến:

𝑥 𝑖𝑕 = 𝑓𝑖𝑕 𝑥 𝑖𝑕 + 𝑔𝑖𝑕 𝑥 𝑖𝑕 𝑥𝑖 𝑕+1 + 𝑘𝑖𝑕 𝑥 𝑖𝑕 𝑑𝑖 𝑕+1 , 1 ≤ 𝑕 ≤ 𝑚 − 1 ⋮

𝑥 𝑖𝑚 = 𝑓𝑖𝑚 𝑥 𝑖𝑚 + 𝑔𝑖𝑚 𝑥 𝑖𝑚 𝑢𝑖𝑚 + 𝑘𝑖𝑚 𝑥 𝑖𝑚 𝑑𝑖𝑚

(1.3) trong đó với mọi 1 ≤ 𝑕 ≤ 𝑚, 𝑥 𝑖𝑕 = [𝑥𝑖1𝑇, 𝑥𝑖2𝑇, … , 𝑥𝑖𝑕𝑇]𝑇 ∈ ℝ𝑛1+⋯+𝑛𝑕 với 𝑥𝑖𝑕 ∈ ℝ𝑛𝑕 là véc tơ trạng thái, 𝑢𝑖𝑚 ∈ ℝ𝑛𝑚 là véc tơ ngõ vào điều khiển, và 𝑑𝑖𝑕 ∈ ℝ𝑛𝑕 là véc tơ nhiễu sao cho 𝑑𝑖𝑕 ∈ 𝐿2[0, ∞), 𝑓𝑖𝑕(𝑥 𝑖𝑕) ∈ ℝ𝑛𝑕, 𝑘𝑖𝑕(𝑥 𝑖𝑕) ∈ ℝ𝑛𝑕×𝑛𝑕 và 𝑔𝑖𝑕(𝑥 𝑖𝑕) ∈

ℝ𝑛𝑕×𝑛𝑕 +1 lần lượt là các véc tơ và ma trận hàm phi tuyến khả vi liên tục. Giả sử rằng toàn bộ trạng thái có sẵn để hồi tiếp và 𝑓𝑖𝑕(𝑥 𝑖𝑕) là động học nội không biết trước.

Giải thuật điều khiển cho nhiều hệ phi tuyến (1.3) mà luận án nghiên cứu là giải thuật học củng cố điều khiển hợp tác thích nghi bền vững được phát triển mở rộng trên nền tảng giải thuật điều khiển hệ phi tuyến (1.2).

1.3.2 Phương pháp nghiên cứu

Trên cơ sở lý thuyết về RL và tiếp cận đến những kết quả công bố mới nhất về RL, luận án phân tích ưu nhược điểm của từng giải thuật, tiếp tục nghiên cứu và phát triển nhằm khắc phục các hạn chế còn tồn tại. Phương pháp nghiên trong luận án là:

- Nghiên cứu tài liệu tham khảo có liên quan, phân tích và thiết kế hệ thống, tính toán và chứng minh ổn định và hội tụ bằng cơ sở toán học, kết hợp giữa mô phỏng và thực nghiệm nhằm mục đích kiểm tra tính hiệu quả của lý thuyết.

- Mô phỏng bằng phần mềm MATLAB.

- So sánh kết quả đạt được với kết quả của các nghiên cứu khác trong cùng lĩnh vực, cùng đối tượng.

- Xây dựng mô hình phần cứng cho robot di động, cài đặt giải thuật cho bộ điều khiển nhúng thời gian thực bằng ngôn ngữ lập trình C, thiết kế giao diện đồ họa bằng ngôn ngữ lập trình VC++.

1.4 Những đóng góp mới của luận án về mặt khoa học

So với các công trình nghiên cứu khoa học khác đã công bố cùng lĩnh vực, luận án này đóng góp thêm các điểm mới về mặt lý thuyết cũng như thực tiễn như sau:

1.4.1 Về mặt lý thuyết

a) Trên cơ sở lý thuyết tổng quan về học củng cố và xấp xỉ hàm [1], [3], [99], luận án nghiên cứu và phát triển giải thuật học củng cố OADP (Online Adaptive Dynamic Programming) điều khiển tối ưu hệ phi tuyến (1.1). Các điểm mới trong giải thuật OADP được thể hiện như sau:

- Cấu trúc điều khiển được đề xuất với duy nhất một xấp xỉ hàm đã khắc phục được hiện tượng dư thừa một xấp xỉ hàm còn lại so với các nghiên cứu khác [18], [80], [101]. Cấu trúc này tránh độ phức tính toán nhằm tăng nhanh tốc độ hội tụ.

không chỉ bảo đảm hệ kín ổn định mà còn tham số hệ thống hội tụ đến giá trị cận tối ưu. Ngoài ra, yêu cầu về luật điều khiển ổn định để khởi động giải thuật được loại bỏ.

- Tham số xấp xỉ hàm và luật điều khiển được cập nhật đồng bộ trong một bước lặp nhằm tăng thêm tốc độ hội tụ, khác với [73], [111].

- Định lý ổn định và hội tụ được phát biểu và chứng minh (Định lý 3.2).

b) Mở rộng giải thuật OADP, phân tích và thiết kế giải thuật học củng cố ORADP (Online Robust Adaptive Dynamic Programming) điều khiển thích nghi bền vững hệ phi tuyến (1.2) với thông tin về động học nội hoàn toàn không biết. Các điểm mới trong giải thuật ORADP được thể hiện như sau:

- Cấu trúc điều khiển học củng cố thích nghi bền vững với duy nhất một xấp xỉ hàm được sử dụng, khắc phục được hiện tượng dư thừa hai xấp xỉ hàm so còn lại với các nghiên cứu khác [103], [109]. Ưu điểm này dẫn đến độ phức tính toán và tài nguyên mà giải thuật sử dụng sẽ giảm nhiều lần, từ đó tốc độ hội tụ tăng lên.

- Luật cập nhật online cho tham số xấp xỉ hàm được phân tích và thiết kế đạt được các mục tiêu chính: bỏ qua thủ tục nhận dạng hệ thống (khác với [18]), không đòi hỏi phải khởi động giải thuật bằng luật điều khiển ổn định (khác với [103], [109]), bảo đảm hệ kín ổn định bền vững và tham số hệ thống hội tụ đến giá trị cận tối ưu.

- Tham số xấp xỉ hàm và luật điều khiển được cập nhật đồng bộ trong một bước lặp nhằm tăng thêm tốc độ hội tụ, khác với [103], [109].

- Định lý ổn định và hội tụ được phát biểu và chứng minh (Định lý 4.4).

1.4.2 Về mặt thực tiễn

a) Áp dụng giải thuật ORADP để điều khiển robot di động bằng mô phỏng và thực nghiệm với các điểm mới như sau:

- Không chia tách luật điều khiển động học (Kinematic) và động lực học (Dynamic) như phương pháp điều khiển thích nghi dựa vào kỹ thuật cuốn chiếu, tránh phụ thuộc vào kinh nghiệm của người thiết kế trong việc chọn tham số điều khiển động học [32], [47].

- Không cần nhận dạng (trực tiếp hoặc gián tiếp) thành phần động học chưa xác định trong mô hình robot.

- Tối thiểu được hàm chỉ tiêu chất lượng liên quan đến sai số bám động học, động lực học và năng lượng điều khiển.

b) Mở rộng giải thuật ORADP cho bài toán điều khiển hợp tác thích nghi bền vững nhiều hệ phi tuyến MIMO (1.3):

- Thành lập đồ thị truyền thông phân tán với mỗi nút đặc trưng cho động học phi tuyến MIMO (1.3).

- Mở rộng giải thuật ORADP điều khiển hợp tác thích nghi bền vững nhiều hệ phi tuyến.

- Ứng dụng giải thuật điều khiển để đồng bộ hóa đội hình robot bầy đàn.

1.5 Bố cục luận án

Chương 1 giới thiệu tổng quan về học củng cố, động cơ, mục tiêu và nhiệm vụ nghiên cứu cũng như phương pháp, đối tượng và phạm vi nghiên cứu. Nội dung tiếp theo của luận án được bố cục như sau:

1. Chương 2: Trình bày cơ sở lý thuyết về học củng cố bao gồm các giải thuật học củng cố kinh điển, các loại xấp xỉ hàm và so sánh giữa các xấp xỉ hàm, các giải thuật qui hoạch động thích nghi sử dụng xấp xỉ hàm, chọn xấp xỉ hàm hợp lý phục vụ cho bài toán thiết kế ở các chương tiếp theo.

2. Chương 3: Phân tích và thiết kế giải thuật học củng cố trong điều khiển tối ưu cho hệ phi tuyến với nội dung chính như sau:

- Phân tích, thiết kế cấu trúc điều khiển

- Phân tích, thiết kế luật cập nhật tham số xấp xỉ hàm

- Xây dựng giải thuật, chứng minh sự hội tụ và ổn định của hệ kín

3. Chương 4: Phân tích và thiết kế giải thuật học củng cố điều khiển thích nghi bền vững cho hệ phi tuyến với nội dung chính như sau:

- Phân tích và thiết kế cấu trúc điều khiển

- Phân tích và thiết kế luật cập nhật tham số xấp xỉ hàm

- Xây dựng giải thuật, chứng minh sự hội tụ và ổn định của hệ kín

4. Chương 5: Mô phỏng và thực nghiệm robot di động dạng xe sử dụng giải thuật học củng cố thích nghi bền vững.

5. Chương 6: Mở rộng giải thuật học củng cố thích nghi bền vững để điều khiển thích nghi bền vững hợp tác nhiều hệ phi tuyến MIMO, kiểm chứng giải thuật qua ứng dụng mô phỏng điều khiển robot bầy đàn hợp tác.

CHƢƠNG 2 CƠ SỞ LÝ THUYẾT

Chương này trình bày tóm lược lý thuyết học củng cố, giới thiệu các giải thuật kinh điển của học củng cố, trình bày cấu trúc và luật học đơn giản của các xấp xỉ hàm thông dụng, phát biểu về sự cần thiết phải sử dụng xấp xỉ hàm trong học củng cố. Sau đó, các loại xấp xỉ hàm được so sánh đánh giá, làm cơ sở cho việc nghiên cứu các giải thuật học củng cố dựa vào xấp xỉ hàm ở các chương tiếp theo.

2.1 Các định nghĩa

Định nghĩa 2.1 (Uniform Ultimate Bounded-UUB [74]): Xét hệ thống phi tuyến:

𝑥 = 𝑓(𝑥, 𝑡) (2.1)

với trạng thái 𝑥(𝑡) ∈ ℝ𝑛. Điểm cân bằng 𝑥𝑐 được gọi là UUB nếu tồn tại một tập đóng

Ω𝑥 ⊂ ℝ𝑛, sao cho với mọi 𝑥 ⊂ Ω𝑥, luôn tồn tại chặn trên 𝐵 và thời gian 𝑇𝐵(𝐵, 𝑥𝑐) để điều kiện 𝑥 𝑡 − 𝑥𝑐 ≤ 𝐵 luôn thỏa với mọi 𝑡 ≥ 𝑡0 + 𝑇𝐵.

Định nghĩa 2.2 (Zero-State Observability [55]): Hệ thống (2.1) với ngõ ra đo được 𝑦 = 𝑕(𝑥) gọi là quan sát được trạng thái không, nếu 𝑦 𝑡 ≡ 0, ∀𝑡 ≥ 0, kéo theo

𝑥 𝑡 ≡ 0.

Định nghĩa 2.3 (Điều kiện PE (Persistently Exciting) [55]): Một véc tơ tín hiệu bị chặn 𝜎 𝑡 được gọi là thỏa điều PE trong khoảng thời gian 𝑡, 𝑡 + 𝑇𝑃 , 𝑇𝑃 > 0 nếu tồn tại 𝛽1 > 0 và 𝛽2 > 0 sao cho với mọi 𝑡:

𝛽1𝐼 ≤ 𝜎 𝑡 𝜎𝑇 𝑡

𝑡+𝑇𝑃

𝑡

𝑑𝑡 ≤ 𝛽2𝐼 (2.2)

trong đó 𝐼 là ma trận đơn vị có chiều phù hợp.

2.2 Lý thuyết học củng cố

Hệ thống học củng cố kinh điển trong điều khiển được mô tả bởi:

 Tập hữu hạn trạng thái Ω𝑥 = 𝑥1, 𝑥2, … , 𝑥𝑁 ∈ ℝ𝑁

 Ở mỗi trạng thái 𝑥 ∈ Ω𝑥, có tập hữu hạn các tín hiệu điều khiển 𝑈 𝑥

 Mô hình đối tượng điều khiển 𝑥𝑘+1 = 𝑓(𝑥𝑘, 𝑢(𝑥𝑘)) với 𝑢(𝑥𝑘) ∈ 𝑈 𝑥𝑘 là tín hiệu điều khiển để chuyển trạng thái hệ thống từ 𝑥𝑘 sang 𝑥𝑘 +1

cho chi phí điều khiển khi áp dụng luật điều khiển 𝑢(𝑥𝑘) ở trạng thái 𝑥𝑘

 Luật điều khiển 𝑢 𝑥 : Ω𝑥 → 𝑈(𝑥) sao cho nếu áp dụng 𝑢 𝑥 từ trạng thái 𝑥0

sẽ phát sinh ra quỹ đạo trạng thái 𝑥0, 𝑥1, 𝑥2, …, thỏa điều kiện: ∀𝑘 = 1, … , 𝑁 − 1, 𝑥𝑘+1 = 𝑓(𝑥𝑘, 𝑢(𝑥𝑘))

 Hàm biểu diễn tổng chi phí cộng dồn xuất phát từ 𝑥0 khi tín hiệu điều khiển

𝑢 𝑥𝑘 được áp dụng dọc theo quỹ đạo trạng thái, ∀𝑥𝑘 ∈ Ω𝑥 được gọi là hàm chỉ tiêu chất lượng hoặc hàm chi phí của 𝑢(𝑥𝑘):

𝐽 𝑥0 = 𝑟(𝑥𝑘, 𝑢(𝑥𝑘)) 𝑁

𝑘=0

(2.3) Để ý rằng hàm chi phí 𝐽 𝑥0 chỉ phụ thuộc vào luật điều khiển 𝑢(𝑥) và trạng thái khởi tạo 𝑥0.

𝐽 𝑥0 có thể phân kỳ, chỉ hội tụ khi hàm chi phí 𝑟 𝑥𝑘, 𝑢(𝑥𝑘) đạt đến giá trị bằng không trong thời gian hữu hạn. Trong trường hợp tổng quát, nhằm đảm bảo 𝐽 𝑥0 hội tụ theo tiêu chuẩn chuỗi giảm dần, hệ số hàm mũ 𝛾𝑘 được sử dụng [96], [99]:

𝐽 𝑥0 = 𝛾𝑘𝑟(𝑥𝑘, 𝑢(𝑥𝑘)) 𝑁

𝑘=0

(2.4) trong đó 𝛾 ∈ 0, 1 . Hàm đánh giá 𝑉 𝑥𝑘 của trạng thái 𝑥𝑘, ∀𝑥𝑘 ∈ Ω𝑥 được định nghĩa dưới dạng hồi qui như sau [96]:

𝑉 𝑥𝑘 = 𝑟(𝑥𝑘, 𝑢(𝑥𝑘)) + 𝛾𝑉 𝑓 𝑥𝑘, 𝑢(𝑥𝑘) (2.5)

Mục tiêu của giải thuật học củng cố là tìm hàm đánh giá tối ưu 𝑉∗(𝑥0) tương ứng với luật điều khiển tối ưu 𝑢∗(𝑥), ∀𝑥0 ∈ Ω𝑥:

𝑉∗ 𝑥0 = min

𝑢 𝐽 𝑥0 (2.6)

Luật điều khiển tối ưu 𝑢∗(𝑥), tồn tại nhưng không duy nhất [96]. Tuy nhiên, cùng xuất phát tại 𝑥0, hai luật điều khiển tối ưu khác nhau có thể cho tổng chi phí như nhau, vậy

𝑉∗ 𝑥0 không phụ thuộc vào 𝑢∗(𝑥). Giả sử tồn tại 𝑉∗ 𝑥0 , theo nguyên lý qui hoạch động (DP) tối ưu Bellman [16], hàm đánh giá tối ưu của trạng thái 𝑥𝑘 được định nghĩa:

𝑉∗ 𝑥𝑘 = 𝑚𝑖𝑛

𝑢∈𝑈(𝑥𝑘) 𝑟(𝑥𝑘, 𝑢(𝑥𝑘)) + 𝛾𝑉∗ 𝑓 𝑥𝑘, 𝑢(𝑥𝑘 (2.7)

Hình 2.1 minh họa hàm đánh giá tối ưu (2.7) theo nguyên lý DP [27], trong đó

𝑓 𝑥𝑘, 𝑢(𝑥𝑘) là trạng thái kế tiếp tùy theo tín hiệu điều khiển nào được áp dụng. Từ đó, luật điều khiển tối ưu được định nghĩa:

𝑢∗ 𝑥𝑘 = argmin

𝑢∈ 𝑢1,𝑢2,…,𝑢𝑚

𝑟(𝑥𝑘, 𝑢(𝑥𝑘)) + 𝛾𝑉∗ 𝑓 𝑥𝑘, 𝑢(𝑥𝑘 (2.8)

Trong nhiều bài toán ứng dụng thực tế, ta không thể xây dựng được mô hình qui

Tính cấp thiết của đề tài

Đối tượng và phạm vi nghiên cứu