Giải thuật OADP được tác giả sử dụng để điều khiển tối ưu robot [5], [6]. Hai kết quả mô phỏng trong đó cho thấy tính hiệu quả của Giải thuật OADP khi áp dụng cho một ứng dụng cụ thể. Sau đây, Giải thuật OADP và AC sử dụng hai NN [101] (AC2NN) được mô phỏng và so sánh trong cùng bài toán điều khiển để kiểm chứng và đánh giá khách quan về chất lượng điều khiển của hai giải thuật.
Xét hệ thống phi tuyến sau [100], [101]: 𝑥 1 = −𝑥1 + 𝑥2
𝑥 2 = −0.5𝑥1 − 0.5𝑥2 1 − cos 2𝑥1 + 2 2 + cos 2𝑥1 + 2 𝑢 (3.35)
trong đó 𝑓 𝑥 = −𝑥1 + 𝑥2 −0.5𝑥1 − 0.5𝑥2 1 − cos 2𝑥1 + 2 2 𝑇 và 𝑔 𝑥 = [0 cos 2𝑥1 + 2 ]𝑇. Hàm đánh giá tối ưu lý thuyết cho hệ thống (3.35) [86]:
𝑉∗ 𝑥 = 1
2𝑥1
2 + 𝑥22 (3.36)
và tín hiệu điều khiển tối ưu lý thuyết [101]:
𝑢∗ 𝑥 = − cos 2𝑥1 + 2 𝑥2 (3.37)
Chọn véc tơ hàm tác động 𝜙(𝑥) = 𝑥12 𝑥1𝑥2 𝑥22 T và véc tơ trọng số NN: 𝑊 = 𝑊1 𝑊2 𝑊3 T. Khi đó, hàm đánh giá xấp xỉ 𝑉 (𝑥) theo (3.25) và luật điều khiển xấp xỉ 𝑢 (𝑥) theo (3.30) trở thành: 𝑉 (𝑥) = 𝑥12 𝑥1𝑥2 𝑥22 𝑊1 𝑊2 𝑊3 (3.38) 𝑢 (𝑥) = −1 2𝑅 −1 0 cos 2𝑥1 + 2 2𝑥1 𝑥2 0 0 𝑥1 2𝑥2 𝑊1 𝑊2 𝑊3 (3.39) trong đó 𝑊 = 𝑊1 𝑊2 𝑊3 T là xấp xỉ của 𝑊. Với các định nghĩa như trên, kết quả mô phỏng mong muốn sẽ là 𝑊 → 𝑊, 𝑉 → 𝑉∗ và 𝑢 → 𝑢∗.
37
nghĩa bởi (3.2), với 𝑟 𝑥, 𝑢 = 𝑄(𝑥) + 𝑢𝑇𝑅𝑢, trong đó 𝑄(𝑥) = 𝑥𝑇𝑄1𝑥, với 𝑄1 = 1 0
0 1 , 𝑅 = 1. Các hằng số tốc độ cập nhật được chọn 𝛼1 = 8 và 𝛼2 = 0.1. Điều kiện PE được thực hiện bằng cách cộng thêm nhiễu ống vào tín hiệu điều khiển [101]. Sau khi trọng số NN hội tụ, điều kiện PE có thể duy trì hoặc tắt. Giá trị khởi tạo của véc tơ trạng thái 𝑥0 = 1, −1 𝑇. Trọng số khởi tạo NN của hai giải thuật được xét trong hai trường hợp. Để đánh giá tốc độ hội tụ và tài nguyên hệ thống, toàn bộ giá trị trọng số NN được khởi tạo bằng đơn vị, tương tự [101]. Ngược lại, để đánh giá tính linh hoạt trong thiết kế hệ thống, toàn bộ giá trị trọng số NN được chọn bằng không.
Đánh giá tốc độ hội tụ: Quỹ đạo trạng thái trong quá trình học điều khiển của
Giải thuật OADP và AC2NN được biểu diễn trên H. 3.2, trong đó nhiễu PE được áp dụng để kích thích hệ thống cho đến khi trọng số NN hội tụ và tiếp tục kéo dài sau đó đến 80(s). Quá trình hội tụ trọng số NN của OADP và CNN (Critic NN) của giải thuật AC2NN [101] được vẽ trên cùng đồ thị (H. 3.3) và tốc độ hội tụ của từng trọng số NN giữa hai giải thuật được trình bày trong cùng một bảng (Bảng 3.1).
Ta thấy rằng tốc độ hội tụ trọng số NN trong giải thuật OADP nhanh hơn so với tốc độ hội tụ CNN trong Giải thuật AC2NN. Trọng số thứ nhất của trong OADP hội tụ tại thời điểm 25(s), trong khi với AC3NN chỉ hội tụ sau 65(s). Thời điểm hội tụ trọng số thứ hai của hai giải thuật là như nhau, tuy nhiên rất khác nhau ở trọng số thứ ba, với 8(s) cho OADP và 22(s) cho AC2NN.
Dĩ nhiên, đối với bài toán điều khiển tối ưu, cả hai giải thuật đều cho giá trị hội tụ tương đương nhau: 𝑊 = [ 0.501, 0.0013, 1.0]𝑇 đối với NN trong OADP và 𝑊 = [0.5017, 0.002, 1.008]𝑇 đối với CNN trong AC2NN. Sau khi hội tụ, trọng số NN không bị ảnh hưởng bởi nhiễu PE. Với các giá trị hội tụ này, hàm đánh giá xấp xỉ của hai giải thuật sẽ đạt đến giá trị tối ưu theo biểu thức (3.36). Thay 𝑊 hội tụ vào (3.39), ta có luật điều khiển xấp xỉ hội tụ đến luật điều khiển tối ưu (3.37). H. 3.4 biểu diễn hàm đánh giá tối ưu xấp xỉ 𝑉 của cả hai giải thuật. H 3.4(a) biểu diễn sai số xấp xỉ giữa hàm đánh giá tối ưu xấp xỉ 𝑉 so với tối ưu lý thuyết 𝑉∗, H. 3.4(b) biểu diễn sai số xấp xỉ giữa luật điều khiển tối ưu xấp xỉ 𝑢 so với tối ưu lý thuyết 𝑢∗. Ta nhận thấy rằng sai số giữa xấp xỉ và lý thuyết của OADP nhỏ hơn so với AC2NN. Một lần nữa hãy nhớ rằng tốc độ hội tụ của giải thuật OADP nhanh hơn so với AC2NN.
38
Hình 3.2 Trạng thái hệ thống trong quá trình học online sử dụng OADP và AC2NN
Hình 3.3 Sự hội tụ của trọng số NN sử dụng OADP và AC2NN
Bảng 3.1 So sánh chỉ tiêu chất lượng giữa OADP và AC2NN
STT Tiêu chí so sánh OADP AC2NN
1 Thời gian hội tụ 𝑊1(s) 25 65
2 Thời gian hội tụ 𝑊2(s) 20 20
3 Thời gian hội tụ 𝑊3(s) 8 22
4 Số lượng tham số xấp xỉ hàm cần lưu trữ và cập nhật 6 12
5 𝑉 − 𝑉∗ 0.1687 0.1716
6 𝑢 − 𝑢∗ 0.02 0.0752
Đánh giá tài nguyên hệ thống: Với hệ phi tuyến (3.35) một ngõ vào hai ngõ ra,
một NN cần ba trọng số và ba hàm tác động. Số lượng tham số cần lưu trữ của OADP là 6 trong khi đó của AC2NN sẽ tăng gấp đôi (Tiêu chí số 4 trong Bảng 3.1). Tuy nhiên, với hệ phi tuyến MIMO phức tạp, số lượng tham số NN rất nhiều và tài nguyên trong AC2NN sẽ tăng gấp hai lần theo số lượng này. Hậu quả là chi phí tính toán tăng lên sẽ làm giảm tốc độ hội tụ của AC2NN rất đáng kể so với OADP.
0 20 40 60 80 100 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 0 2 4 6 -2 0 2 4 0 20 40 60 80 100 -0.2 0 0.2 0.4 0.6 0.8 1 1.2
39
Hình 3.5 OADP và AC2NN: Hàm đánh giá tối ưu xấp xỉ
Đánh giá về khả năng linh hoạt trong thiết kế: Với giải thuật AC2NN sử dụng
hai NN, nếu giá trị khởi tạo trọng số của cả hai NN hoặc cùng bằng không, hoặc một trong hai bằng không, hệ thống sẽ mất ổn định ngay từ những giây điều khiển đầu tiên [101]. Điều này chứng tỏ rằng AC2NN cần luật điều khiển khởi tạo ổn định. Ngược lại, với OADP, nếu trọng số NN được khởi tạo bằng không thì hệ thống vẫn ổn định và trọng số vẫn hội tụ về giá trị cận tối ưu. Nhận định trên sẽ được kiểm chứng thông qua kết quả mô phỏng sau đây.
Với trọng số NN khởi tạo bằng không, H. 3.6 biểu diễn quá trình hội tụ trọng số NN của giải thuật OADP với kết quả 𝑊 = 0.5, 0, 1 𝑇. Trong khi đó, trọng số CNN của AC2NN (H. 3.7) không hội tụ về giá trị đúng, dẫn đến giá trị trạng thái ngoài vùng ổn định (Hình vẽ quỹ đạo trạng thái trong trường hợp này xin được không trình bày).
-2 0 2 -2 0 2 0 2 4 6 8 AC2NN OADP -2 -1 0 1 -2 0 22 0 1 2 3 4 5 6 7 AC2NN OADP (a) (b)
Hình 3.4 OADP và AC2NN: (a) Sai số giữa hàm đánh giá tối ưu xấp xỉ và tối ưu lý
thuyết; (b) Sai số giữa luật điều khiển tối ưu xấp xỉ và tối ưu lý thuyết
-2 0 2 -2 0 2 -0.01 0 0.01 0.02 AC2NN OADP -2 0 2 -2 0 2 -6 -4 -2 0 2 4 6 x 10-3 AC2NN OADP
40
Hình 3.6 Hội tụ trọng số NN của giải thuật OADP với giá trị khởi tạo bằng không
Hình 3.7 Trọng số NN của giải thuật AC2NN không hội tụ về giá trị tối ưu khi giá trị khởi tạo của trọng số bằng không
Bảng 3.2 Chỉ tiêu chất lượng khi trọng số của các NN được khởi tạo bằng không
STT Tiêu chí so sánh OADP AC2NN
1 Thời gian hội tụ 𝑊1(s) 20 Không hội tụ,
hệ thống mất ổn định, giá trị trạng thái tăng
rất lớn
2 Thời gian hội tụ 𝑊2(s) 18
3 Thời gian hội tụ 𝑊3(s) 10
4 𝑉 − 𝑉∗ 4.3718e-004
5 𝑢 − 𝑢∗ 3.4590e-005
Một số chỉ tiêu khác được trình bày trên Bảng 3.2. Kết quả trong trường hợp này chứng tỏ rằng chọn trước luật điều khiển khởi tạo ổn định cho OADP là không cần thiết. Từ đó, OADP đạt được sự linh hoạt trong thiết kế, bởi vì trong một số ứng dụng đặc biệt, việc tìm luật điều khiển để khởi tạo ổn định hệ thống là điều thách thức.
0 20 40 60 80 100 -0.2 0 0.2 0.4 0.6 0.8 1 1.2 0 1 2 3 -0.2 0 0.2 0.4 0.6 0.8 0 20 40 60 80 100 -0.04 -0.035 -0.03 -0.025 -0.02 -0.015 -0.01 -0.005 0 0.005 0.01 0 1 2 3 -0.04 -0.03 -0.02 -0.01 0 0.01
41
3.4 Tóm tắt
Giải thuật qui hoạch động thích nghi online trong điều khiển tối ưu đã được đề xuất trong chương này. Do Giải thuật chỉ sử dụng một NN nên đã đạt được các mục tiêu như giảm chi phí tính toán và giảm tài nguyên lưu trữ để tăng tốc độ hội tụ. Luật cập nhật trọng số NN được thiết kế phù hợp nên trạng thái hệ thống, sai số xấp xỉ NN đảm bảo bị chặn UUB. Bên cạnh đó, hàm đánh giá và ngõ vào điều khiển xấp xỉ hội tụ đến giá trị cận tối ưu. Kết quả này đã được phân tích và chứng minh bằng Định lý ổn định và hội tụ. Ngoài ra, do giải thuật không đòi hỏi luật điều khiển khởi tạo ổn định nên đã đạt được khả năng linh hoạt trong thiết kế.
Cuối cùng, kết quả mô phỏng điều khiển tối ưu hệ phi tuyến có so sánh với kết quả của nghiên cứu khác đã cho thấy giải thuật OADP đã đạt được các mục tiêu đề ra.
Tuy nhiên, giải thuật OADP chỉ áp dụng được cho hệ phi tuyến với thông tin về động học nội 𝑓(𝑥) biết trước và bỏ qua nhiễu tác động. Điều này làm giảm khả năng ứng dụng của giải thuật OADP trong thực tế. Chương tiếp theo, giải thuật OADP sẽ được mở rộng để điều khiển thích nghi bền vững hệ phi tuyến có nhiễu tác động và động học nội 𝑓(𝑥) không biết trước.
42
CHƢƠNG 4 GIẢI THUẬT HỌC CỦNG CỐ TRONG ĐIỀU KHIỂN
THÍCH NGHI BỀN VỮNG
Chuẩn 𝐻∞ đóng vai trò quan trọng trong phân tích và thiết kế hệ thống điều khiển bền vững từ bài toán điều khiển tối ưu bền vững 𝐻∞ cho hệ tuyến tính bằng cách giải phương trình đại số Riccati [49] cho đến hệ phi tuyến bằng cách giải phương trình HJI [107]. Mặc dù lý thuyết điều khiển hiện đại phát triển rất mạnh để giải bài toán điều khiển 𝐻∞ cho hệ phi tuyến [15] nhưng trong nhiều ứng dụng thực tế, giải nghiệm phương trình HJI vẫn còn là vấn đề phức tạp [122]. Phương trình HJI, tương tự phương trình HJB trong giải thuật OADP, thuộc loại phương trình vi phân không có nghiệm giải tích. Vì vậy, trong những năm gần đây, RL là một trong những phương pháp được nghiên cứu và phát triển để xấp xỉ online nghiệm HJI [10], [11], [53], [56], [103], [100], [122].
Trong điều khiển tối ưu 𝐻∞ cho hệ phi tuyến, phương trình HJI nói chung là khó giải hơn phương trình HJB, bởi vì trong phương trình HJI xuất hiện nhiễu [34], [122]. Ngoài ra, điều khác biệt giữa phương trình HJI và HJB là phương trình HJB chứa số hạng toàn phương bán xác định dương, còn phương trình HJI chứa số hạng toàn phương không xác định dấu. Vì vậy, giải thuật OADP đề xuất ở chương 3 không thể áp dụng trực tiếp để giải phương trình HJI.
Các giải thuật học củng cố xấp xỉ nghiệm HJI thường sử dụng cấu trúc ADP với ba xấp xỉ hàm [11], [10], [18], [98], [100], trong đó một NN được sử dụng để xấp xỉ online hàm chi phí, hai NN còn lại dùng để xấp xỉ luật điều khiển tối ưu và luật nhiễu xấu nhất. Luật cập nhật trọng số các NN có thể là tuần tự [109] hoặc đồng bộ [103]. Tuy nhiên, tham số luật điều khiển và luật nhiễu của các giải thuật này phải được cập nhật ở hai vòng lặp khác nhau. Với cấu trúc ba NN và cách cập nhật như vậy, ADP sẽ tính toán phức tạp và lãng phí tài nguyên dẫn đến giảm tốc độ hội tụ [122], [125]. Ngoài ra, các giải thuật nêu trên đòi hỏi luật điều khiển khởi tạo ổn định.
Để khắc phục nhược điểm sử dụng nhiều xấp xỉ hàm trong giải thuật điều khiển, [31], [125] đã đề xuất giải thuật SOLA (Single Online Approximator) chỉ sử dụng duy nhất một NN. Tuy nhiên, giải thuật này yêu cầu phải xác định thông tin về động học nội trong mô hình hệ thống. Các nghiên cứu ADP [80], [106] nhằm thiết kế giải thuật
43
xấp xỉ luật điều khiển tối ưu không phụ thuộc vào thông tin về động học nội của hệ phi tuyến. Tuy nhiên, các giải thuật này chỉ áp dụng cho bài toán giải nghiệm HJB trong điều khiển tối ưu. [122] đã đề xuất giải thuật xấp xỉ online nghiệm HJI để điều khiển tối ưu 𝐻∞ sử dụng duy nhất một NN. Giải thuật này có nhiều ưu điểm nổi trội, đó là không sử dụng thông tin về động học nội, khác biệt với giải thuật [31], [103]. Ngoài ra, tham số của luật điều khiển và luật nhiễu trong giải thuật này được cập nhật đồng bộ trong cùng một bước lặp, khác với [103]. Tuy nhiên, giải thuật này vẫn còn hạn chế, đó là ở mỗi chu kỳ, tham số hệ thống phải ngưng cập nhật trong một khoảng thời gian đủ để lấy mẫu dữ liệu cho lần cập nhật tiếp theo. Điều này sẽ ảnh hưởng đến tốc độ hội tụ của hệ thống. Ngoài ra, giải thuật này vẫn còn đòi hỏi luật điều khiển khởi tạo ổn định.
Trong chương này, giải thuật học củng cố qui hoạch động thích nghi bền vững online (ORADP) được đề xuất nhằm khắc phục các nhược điểm: Cấu trúc ADP với ba xấp xỉ hàm [103], hiện tượng gián đoạn trong quá trình cập nhật [122], yêu cầu đủ thông tin về động học nội [103] hoặc nhận dạng động học nội [18], đòi hỏi luật điều khiển khởi tạo ổn định [103], [122] và cập nhật tham số trong nhiều bước lặp [103].
4.1 Học củng cố trong điều khiển thích nghi bền vững
4.1.1 Mô tả bài toán
Xét lớp hệ thống phi tuyến mô tả bởi [122]:
𝑥 𝑡 = 𝑓 𝑥 + 𝑔 𝑥 𝑢 𝑡 + 𝑘 𝑥 𝑑 𝑡 𝑦 𝑡 = 𝑥
(4.1) trong đó 𝑥 ∈ ℝ𝑛 là véc tơ trạng thái, 𝑢 ∈ ℝ𝑚 là véc tơ tín hiệu điều khiển với 𝑢(𝑡) ∈ 𝐿2 0 , ∞ , 𝑑 ∈ ℝ𝑞 là nhiễu với 𝑑(𝑡) ∈ 𝐿2 0 , ∞ , 𝑓 𝑥 ∈ ℝ𝑛, 𝑓 0 = 0 là véc tơ hàm phi tuyến liên tục đặc trưng cho thành phần động học nội không biết trước của hệ thống [122], 𝑦(𝑡) ∈ ℝ𝑝 là ngõ ra mục tiêu, (𝑥) ∈ ℝ𝑝, với 0 = 0, 𝑔 𝑥 ∈ ℝ𝑛 ×𝑚
và 𝑘 𝑥 ∈ ℝ𝑛×𝑞 lần lượt là véc tơ hàm và các ma trận hàm phi tuyến khả vi liên tục giả sử xác định trước.
Giả thiết 4.1: 𝑔𝑚𝑖𝑛 ≤ 𝑔 𝑥 ≤ 𝑔𝑚𝑎𝑥, với 𝑔𝑚𝑖𝑛, 𝑔𝑚𝑎𝑥 là các hằng số dương.
44
Chú ý 4.1: Các giả thiết 4.1 và 4.2 thỏa với hầu hết các đối tượng phi tuyến có trong thực tế [31], [124]-[125], đặc biệt là lĩnh vực robot, trong đó luôn tồn tại các ma trận ngõ vào (ma trận khối lượng) xác định dương và bị chặn [32], [82]. Ngoài ra, các giả thiết này chỉ nhằm chứng minh tính ổn định của hệ thống ở phần sau, không sử dụng trong luật điều khiển và luật cập nhật trọng số NN. Vì vậy, xác định các cận trên và dưới của 𝑔 𝑥 và 𝑘 𝑥 là không cần thiết.
Định nghĩa 4.1: Hệ thống (4.1) có độ lợi 𝐿2 nhỏ hơn hoặc bằng 𝛾 với mọi
𝑑 𝑡 ∈ 𝐿2 0 , 𝑇], 0 ≤ 𝑇 < ∞, nếu: 𝑦(𝑡) 2 + 𝑢(𝑡) 𝑅2 𝑇 0 𝑑𝑡 ≤ 𝛾2 𝑑(𝑡) 2 𝑇 0 𝑑𝑡 (4.2)
trong đó 𝑢(𝑡) 𝑅2 = 𝑢𝑇𝑅𝑢, 𝑅 ∈ ℝ𝑚 ×𝑚 sao cho 𝑅 = 𝑅𝑇 > 0, và 𝛾 > 0 là mức suy giảm nhiễu cho trước [15], [103], [107], [122].
Mục tiêu của bài toán học củng cố trong điều khiển thích nghi bền vững là với một tập luật điều khiển hồi tiếp trạng thái 𝑈 𝑥 liên tục trong Ω𝑥 ⊆ ℝ𝑛, với 𝑈 0 =0, sao cho hệ kín (4.1) ổn định tiệm cận và có độ lợi 𝐿2 nhỏ hơn hoặc bằng 𝛾 (𝛾 ≥ 𝛾∗ > 0, với 𝛾∗ là giá trị nhỏ nhất của 𝛾 sao cho (4.1) còn ổn định [107]), tìm luật điều khiển hồi tiếp trạng thái 𝑢 𝑡 = 𝑢∗(𝑥) ∈ 𝑈 𝑥 để cực tiểu hàm chỉ tiêu chất lượng, không sử dụng thông tin về động học nội, tránh thủ tục nhận dạng hệ thống.