1. Trang chủ
  2. » Giáo án - Bài giảng

Giáo trình học máy và ứng dụng điều khiển thông minh 5

19 2 0
Tài liệu được quét OCR, nội dung có thể không chính xác

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 19
Dung lượng 655,14 KB

Nội dung

Trang 1

CHUONGS THUẬT TOÁN HỌC MÁY TRONG DIEU KHIEN TÓI ƯU HỆ PHI TUYẾN

Điều khiến tối ưu là một trong những bài toán được rất nhiều nhà

nghiên cứu quan tâm Luật điều khiên tối ưu thiết kế không chỉ ô ổn định hệ thông mà còn tối thiểu hàm chỉ phí mô tả chỉ tiêu chất lượng mong muốn Về mặt toán học, bải toán điều khiển tối ưu được giải nêu nghiệm phương trình Hamilton-Jacobi-Bellman (HJB) được giải Đối với hệ phi tuyến, HJB là phương trình vi phân phi tuyến Nghiệm giải tích HJB phi tuyén nói chung là không thé giải [32]

Dé khac phuc han ché néu trén, nhiéu thuat toan xấp xi nghiém HJB online dựa trên lý thuyết cơ sở của học máy đã được đề xuất Các nghiên

cứu [28], [62], [11], [63], [33] thực hiện bài toán xấp xi thích nghi online nghiệm nghiệm HJB cho hệ phi tuyến [47], [11], [50], [66], [67], [68],

[43]-144] Các phương pháp này sử dụng thuật toán P] với câu trúc ADP chuẩn gồm hai xấp xỉ hàm, đó là hai bộ xâp xỉ hàm truyền thắng [34], [67] Luật cập nhật trọng số xấp xỉ hàm trong các phương pháp này được chứng minh ôn định UUB trong quá trình xâp xỉ online cùng với hàm chi phí và luật điều khiển hội tụ về giá trị cận tối ưu Trong số các thuật toán cập nhật trọng số xấp xỉ hàm, đáng chú ý nhất là PI cập nhật đồng bộ, trong đó tốc

độ hội tụ đã được cải thiện đáng kể [15], [67] Học củng cố trong điều

khiển tối ưu hệ tuyến tính

5.1 Bài toán Hamilton-Jacobi-Bellman 5.1.1 M6 ta baitoan

Xét lớp hệ thống phi tuyến mô tả bởi:

#Œ) = ƒ(xŒ)) + g(Œ))u(x@)) —

trong đó x € IR” là véc tơ trạng thái, € IR”” là véc tơ tín hiệu điều khiên -

và ƒ(x) € R”, gŒx) € IÑ"*"" là véc tơ và ma trận hàm phi tuyên khả vi

liên tục giả sử biết trước

Giả thiết 5.1: Cho trước tập Q„ G IR* chứa gốc 0, tồn tại ƒ (0)=0 và f(x) + g(x)u(x) liên tuc Lipschitz trén 0; Tôn tại luật điều khiển liên

tuc u(t) dé hé kin (5.1) 6n định tiệm cận trên @„

Trang 2

các hăng sô dương

Chu y 5.1: Gia thiết 5.2 thỏa với hầu hết các đối tượng phi tuyến có trong thực tế [69], [70], đặc biệt trong lĩnh vực robot luôn tồn tại các ma

trận ngõ vào (ma trận: khối lượng) xác định dương và bị chặn [65], [71]

Giá thiết này chỉ sử dụng để chứng minh én định hệ thống, không sử dụng trong luật điều khiển và luật cập nhật trọng số xấp xỉ hàm Vi vay, tim phương pháp xác định chặn trên và dưới của ø(+) là không cần thiết

Mục tiêu của bài toán học củng cố trong điều khiến tối ưu [15], [67]:

Với một tập luật điều khiển hồi tiếp trang thai U (x) € 2, © R”, lién tục trong 2, va U (0)=0, tìm luật điều khiến tối ưu u(t) = = u"(x(t)) €U (x)

ôn định hệ kín (5.1) trên Q„ đồng thời cực tiểu phiém hàm chỉ tiêu chất

lượng ràng buộc bởi (Š.1)

5.1.2 Phuong trinh HJB (Hamilton-Jacobi-Bellman)

Dinh nghia ham chi tiéu chat lượng [67]: |

Jœ(0)) = |` rœŒ),u())đt (5.2)

Trong đó °

r(x,u) = Q(x) +ul Ru | (5.3)

vol x = x(t),u = u(t), Q(x) 1a ham xác định dương sao cho Vx #

0,Q(x) > 0, Q(x) =0 = x =0,RER™™ sao cho R = RT>0,uec

U(x) là luật điều khiển được thiết kế để ổn định hệ kín (5.1) và bảo đảm J(x(0)) (S.2) hữu hạn với mọi x(0) € Ô¿

Nếu (+) xác định, hàm đánh giá luật điều khiển được định nghĩa

[67]: |

co

V(x(t)) = | r(x, u)dt (5.4)

t

Gia thiét 5.3: Ham V(x(t)) c6 dao ham bac nhat kha vi liên tục,

nghia la V(x) € Ct, voi moi x € (0x

Phuong trinh (5.4) duge bién déi thanh phương trình vi phân dựa vào xâp xỉ vô cùng nhỏ At:

vœ@) = | È t+At r(x,u) dt + | 00 r(x,u) dt (5.5)

t+At

Trang 3

t+At = Ị r(x,u) dt + V(x(t + At)) t Chuyén vé phuong trình (5.5), để ý Giả thiết 5.3, sử dụng định nghĩa về đạo hàm ta có: lim =“ +A£))— có) At-0 At ttAt = — jim r(x, u) dt, Vix + r(x,u) =0 (5.6) Trong dé V, = 9V/8x Sử dụng phương trình (5.1) va (5.3) cho (5 9, ta Có: VWVŒ(x) + g(x)u) + Q(«) +uTRu =0, V(0)=0 (5.7) Trong phương trình (5.7), nếu cho trước luật điều khiển u(x) thi nghiệm W(+z) hoàn toàn xác định Ngồi ra, nếu (+) ơn định hệ kín (5.1) thì V(x) tré thanh ham Lyapunov, khi do (5.7) la phương trinh Lyapunov

phi tuyén [15], [67]

Dinh nghia ham Hamilton:

H(x,u, Vy) = Ve (f(x) + g(x)w) + Q() + u” Ru (5.8)

Hàm chỉ tiêu chất lượng tối ưu V*(x(0)) được định nghĩa dựa vào (5.2):

V"@(0)) = min JO) = min | rear — 9)

Trang 4

(5.1), biến đối ta có: tf t+At min lim =f r(x,u) dt u€U (At¬0 vu (x(t + At)) — V*(x(t)) x m8 minữŒ,1) + (7)”#) = 0 min[r(,w) + (2T (() + ø(œ)w)] = 0 (5.12) Trong do V5 = 8V*/ôx Định nghĩa hàm Hamilton tối ưu:

H(x,w Ve) = UW)" F@) + gu) + r@,u) (5.13) |

Từ (5.12) và (5.13) ta c6 phuong trinh HJB nhu sau [67]:

min H(x,u, Vy") = 0 (5.14)

Giả sử rằng (5.13) có cực trị và duy nhất, thì luật điều khiển tối ưu được

xác định dựa vào điều kiện dừng [67]: OH (x, u, V,") \ 5 tt =0 ° | (5.15) Sử dụng (5.3) và (5.15) ta có luật điều khiến tối ưu: 1 ue = —sR"'g”œ)wW | (5.16)

Thay (5.16) vào phương trình (Š.14), chú ý (5.3) va (5.1), ta có phương

trinh HJB theo tham sô V," [67]:

9G) + 0)TƒŒ&)~‡()TgG)Rˆ1g7@W =0, sty

_V*{0)=0

V*{z) được gọi là nghiệm HIB Dé ý (5.7) và (5.17), ta thấy phương

trình HJB (5.17) phi tuyến với V*(x) trong khi phương trình Lyapunov (5.7) tuyến tính với ƒ(+) Để tìm nghiệm V(x), phuong pháp giải tích

được sử dụng để giải phương trình vi phân tuyến tính, trong khi tìm nghiệm

V*(x) bang gidi tích từ phương trình vi phân phi tuyến là không thể Vi vậy, [L] sử dụng thuật toán hoc off-line dé xap xi ham V*(x), sau đó luật điều khiển tối ưu được thiết kế ngược dựa vào V*(%) Ngược lại, thuật toán OADP (Online adaptive dynamics programming) sau day dugc phan tich và thiết kế đựa vào qui hoạch động thích nghĩ (ADP) có thể xấp xỉ online nghiệm V*(+z) đồng thời với luật điều khiển tối ưu

Trang 5

5.2 Thuật toán học máy OADP

Thuật toán OADP sử dụng để xấp xi online nghiệm tối ưu V”(%) (nghiệm HJB) đồng thời với luật điều khiến tối ưu *(x) được giới thiệu

sau đây với ba nội dung chính: cau trúc điều khiến, luật cập nhật tham số

và thuật toán điều khiến

5.2.1 Cấu trúc điều khiển và luật cập nhật tham số online

- Cấu trúc điều khién OADP dugc phat trién dua trén cau tric co sé ADP sir dung hai x4p xi ham [1], [67] Tuy nhién, điểm khác biệt quan

trọng là OADP không sử dụng xấp xỉ hàm cho luật điều khiển xấp xi hàm

dùng để ước lượng hàm đánh giá V(x), và được định nghĩa:

V(z) = WT¿(x) + (+) | (5.18)

trong đó V(+} giả sử thỏa giả thiết 5.3, W là trọng số xấp xỉ hàm,

(x): IR” IR* là véc tơ hàm tác động, với np, là số tế bào nút ở lớp ẩn

va €(x) là sai số xấp xi xấp xỉ hàm Với xấp xỉ hàm truyền thắng một lớp, ta có thé chon @(%) sao cho n„ — œ0, € ¬ 0 và e„ = ô£/ôx — 0, ngoài ra

với ft hữu hạn thì l|e()|Ì S Emax va llexll S Exmax, VOl Emax Va Exmax

là các hằng số đương (Xem tính chất 2.1)

Sir dung (5.18) cho (5.7), Hamilton (5.8) tré thanh:

H(x,u,W) = WT gL f(x) + g(x)u] + Q(x) +uTRu~ en (5 19) =0

trong dé o, = A(x) /dx € R"*" và €, dugc xac dinh: Ex = —£x[ƒ() + g()u] (5.20) Sử dụng xâp xỉ hàm (5.18) cho phương trinh HJB (5.17), ta có: Q(x) +W" o,f (x) - 2WT¿,00ÏW + £g = 0 (5.21) trong đó ó„ = 8ó(%)/ôx € nền Va Ey 7p la sai s6 thang du Bay bởi xấp xi ham: CHJB — ex f (x) — 2WT4,6, — S16, (5.22)

với G(x) = " g(4)R_ 1aT(x) € IR*?** với G(x) = GT(zx) > 0 Cộng và trừ

Trang 6

1

up = £x(ƒ(+) + gu”) + ae Gey (5.23) Tính chat 5.1:

Gmin < ||ơ(x)|| < Gmax (5.24)

Trong đó Grin = Amax(R) Gpnin> Gmax = Amin(R) Ghraxs VOI Amax(R) va

Amin(R) lần lượt là giá trị riêng lớn nhất và nhỏ nhất của ma trận R

Tỉnh chất 5.2: Khi nụ — œ, eu;pg hội tụ đều về giá trị không, với mu ˆ hữu hạn, £„;p bị chặn trong tập đóng [1]

_ Trong số lý tưởng xấp xỉ hàm (5.18) chưa xác định, do đó V(+) được

xap xi bot:

V(x) = W(x) (5.25)

trong do W € R™ 1a trong sé xap xi ham x4p xi Str dung V(x) cho

phuong trinh muc tiéu (5.7), goi e, 1a sai s6 cua Hamilton (5.8) gay bởi xâp xỉ hàm xâp xi, ta có:

H(x,u,W) = WT$„(#) + gŒ)u) + Q(x) +uTRu=e, (5.26) Định nghĩa sai số xấp xi trọng số x4p xi ham: W = W — W Tw (5.26) va

(5.19) ta cd:

ey = —WT”$„((+) + g()u) + &y (5.27) Với bất kỳ luật điều khién u € U(x) cho trudc, dé W > W, khi đó e, > €y, ta cần chỉnh định ỨP nhằm tối thiểu E; = s27 e; [67] Sử dụng

thuật toán suy giảm độ dốc chuẩn hóa (normalized gradient descent), luat

cap nhat W duoc dinh nghia:

a OE, Ø Trò |

= —@, — = -a, -———_ (a W am = SIS ED? (o7W + Q(x) +uTRu) r (5.28) 5.28 trong đó ø = $,(f(x) + g(x)u) Mau sé binh phương của (5.28) nhận được bởi thuật toán Levenberg-Marquardt cải tiên bang cach thay

Trang 7

Trong thuật toán AC [15], [67], xấp xi hàm critic sử dụng luật cập nhật (5.28), trong đó được thay bởi xấp xỉ hàm bộ điều khiển Vì vậy, cần hai luật cập nhật khác nhau Luật cập nhật x4p xi ham critic nham téi thiểu sai số bình phương xấp xỉ hàm trong khi luật cập nhật của bộ điều khiển bảo đảm sự ổn định của toàn hệ kín Ngược lại, thuật toán OADP chỉ sử dụng duy nhất một xấp xỉ hàm nên luật cập nhật (5.28) không thể áp dụng trực tiếp, cần đề xuất mới theo hướng kết hợp cả hai mục tiêu trên vào một luật cập nhật trọng số xấp xỉ hàm duy nhất

Với hàm đánh giá xấp xi Ÿ(x) (5.25), luật điều khiển xấp xi sẽ là:

^ 1 TÔ 1 —1 TAT ‘A

i= —sR"ˆg@) Vix) = — ZR g(x)" bs (XW 6.2)

Sử dụng (5.25) và (5.29) cho phương trình mục tiêu (5.7), gọi #; sai số của Hamilton (5.8) sinh ra bởi xấp xỉ hàm và luật điều khiển xap xi, ta Có: H(x,&,W) = Q(x) + WO, f(x) + RA = e, (5.30) Ag A ^ 12 > Ấ+ d1 *Ä ok 1 ` Ä Aye Luat cap nhat W nham toi thiéu sai s6 F = 5 e2 e; và ỗn định hệ kín được đề xuất: W _ W, néu x? (f(x) + g(x)a) < 0, (5.31) W, +W„g ngược lại trong đó - W, =-a,— OF aw 1(0T@+1)? ˆ (2T +Q()+0TR0) (5.32) 1 5.3 Were = 24;@xG(%)x 6-39)

voi & = j„ (+) + g(z)8) Luật cập nhật Ứ được thiết kế dựa vào thuật

toán Levenberg-Marquardt cải tiên sử dụng (@T@ + 1) thay cho (67 + 1) [72] Việc điều chỉnh nảy nhằm mục đích chứng minh ổn định ở phần sau Luật bền vững Wng được thêm vào nhằm chứng minh định lý

Trang 8

*, | R ! Luat cap nhat trong so eed 4 online (5.31) xi i (5:29) 4| xe, { vn fs a Z 9 12% Hệ phi tuyến | „ g(x) G(x)]| ƒ@) me ] I

Hình 5.1 Cấu trúc điều khiển OADP sử dụng một xấp xỉ hàm

Cấu trúc điều khiển trong thuật toán QOADP được mộ tả trên H 5.1, trong đó chỉ sử dụng duy nhất một xấp xi hàm cho hàm đánh giá Luật cập nhật trọng số › xấp xỉ hảm, luật điều khiển cùng các thông tin cân thiết khác được mô tả bằng các khối tương ứng

$%2.2 Mô tả thuật toán OADP

Thuật toán OADP được xây dựng trên nên tảng của thuật toán lặp PI Tuy nhién, do OADP chi sử dụng một xấp xi ham nén việc cập nhật trọng số xấp xi hàm và tham số luật điều khiển được thực hiện đồng bộ trong cùng một bước lặp Từ đó, giám được độ phức tạp tính toán nhằm tăng nhanh tốc độ hội tụ

Bảng 5.1: Thuật toán OADP

Bước I: Chon Q(x), R; Chon véc to hàm tác động ở, nhiễu ông (Probing noise) £ [67] Khởi tạo trọng s6 W©) cho bé xấp xỉ hàm hàm đánh giá,

tinh 9 = ƒ?(®T@(x) và 89) = —2R~1g(x)7@‡W); Gán các hệ số

thích nghỉ ø;, #;; Gán bước lặp đừng thuật toán i„;¿„; Gán ổ là số dương đủ nhỏ dé tắt nhiễu PE; Gán í = 0;

Bước 2: Cộng nhiễu £ vào tín hiệu điều khiển: 8® — AO +e để kích

Trang 9

PO) = PUT g(x)

Bước 3: Nếu ||PŒ) — ƒŒ+Đ|| < 8 gán ÿ = 0 Nếu Ï < l;;a„ gán l — ! + 1, quay lại Bước 2, ngược lại gán Ÿ = +1) và ñ = +1) sau đó dừng thuật toán

Chu y 5.2: Trong thuật toán OADP, trọng số xấp xỉ hàm và luật điều

khiển được cập nhật đồng bộ tại bước 2 Từ đó, OADP là thuật toán cập

nhật đồng bộ khác với các thuật toán trong [73], [17]

Chú ÿ 5.3: Ở bước 3 của thuật toán OADP, nếu hàm đánh giá hội

tụ, nhiễu PE được bỏ qua và thuật toán có dừng ngay mà không cân lặp đến bước kết thúc | stop-

._ Chủ ý 5.4: Ở bước l, giá trị khởi tạo của số W®) có thể chọn bằng không Khi đó giá trị khởi, tạo cho luật điều khiển và hàm đánh giá đều bằng không Tuy nhiên, do hệ thống bị kích thích bởi nhiễu PE ở bước 2,

thuật toán sẽ tiêp tục lặp cho đến khi hội tụ Từ đó, chọn luật điều khiển én định để khởi động cho thuật toán OADP là không cần thiết

5.2.3 Phân tích ổn định và hội tụ của thuật toán OADP

Giá thiết 5.4: Động học hệ thống ƒ(+) giả sử thỏa điều kiện

Lipschitz, sao cho ||ƒ(x)|| < zllz|l

Giá thiết 5.5 [17J: Hệ kín (5.L) với luật điều khiển * bị chặn bởi

hằng số dương u: ||f(x) + g(x)u"ll Su

Sự hội tụ tham số và tính ổn định của hệ kín trong thuật toán OADP

được phân tích và chứng minh thông qua Định lý 5.1: ,

Định Ù 5.1: Xét hệ thống phi tuyến (5.1), sử dung các giả thiết từ

5.1 dén 5.5, phương trinh HJB theo (5.17), NN để ước lượng hàm đánh

giá theo (5.25), luật điều khiển theo (5.29) và luật cập nhật trọng số xấp xỉ hàm theo (5.31), thì thuật toán OADP bao dam:

- Ơn định: Tồn bộ trạng thái của hệ kín (5.1) và sai số xấp xỉ xắp xỉ hàm trong thuật toán OADP sé bi chan UUB

- - Hội tu Khi t —= œ, sai số giữa ham chi phí xấp xỉ so với tôi tru voi Ey la hằng số đương nhỏ, và sai số gia luật điều khiển x xấp xỉ so với tối ưu thỏa tiêu chuẩn ||ũ — u*|| < £„,

với eụ là hằng số dương nhỏ

Trang 10

Chủ ÿ 5.3: Nếu trọng số xấp xi hàm chưa hội tụ mà x = 0 thi luật -

cập nhật (5.31) trở thành (5.32) va @,(x) = 0 kéo theo ø; = 0, khi đó,

Q(z) = 0 theo (5.3) Trong trường hợp này Ú? sẽ ngưng cập nhật và không hội tụ về W Để thoát khỏi bẩy cục bộ, điều kiện PE [67] được áp dụng cho luật cập nhật (5.31) với ø được thay bằng 4, trong dé & = 6/(676 + 1) Ví dụ 5.1: Xét hệ thống máy bay chiến đấu phản lực đa nhiệm vụ F-16 (H.5.): Động học tuyến tính của F-L6 được mô tả bởi: 101887 0.990506 —0.00215 0 #x=| 082225 —1.07741 —0.17555|x+|0|u 0 0 —1 L1

Trang 11

0 200 400 600 800 t(s)

Hình 5.3 Quá trình hội tụ trọng số xấp xi ham

Nghiệm của phương trình HJI là nghiệm của: 1 ATP + PA + Q—PBRBTP +> PKK™P = 0 Giai bang Matlab ta có nghiệm P* va sap xếp ta có trọng số xấp xỉ ham lý thuyết: W*=[l14254 11682 -0,1352 1.439 -0.1501 0.4329]

Chon a, = 30, a, = 0.01, nhiễu PE § = 30rand[—1,1] Kết quả

Trang 12

và g(x) = [0 (cos(2x¡) + 2)]” Hàm đánh giá tối ưu lý thuyết cho hệ thống (5.34) [74]: 1 V*(x) = 3i + x2 (5.35) và tín hiệu điều khiển tối ưu lý thuyết [67]: | u*(x) = —(cos(2x,) + 2)x2 (5.36) Chon véc to ham tac dng (x) = [x? x,x, x3]? va véc to trọng số xấp xỉ hàm: W =[W+ W; W;] Khi đó, hàm đánh giá xấp xi V(x) theo (5.25) và luật điêu khiên xâp xỉ &(x) theo (5.29) trở thành: ~ Mì Vix) = [xf xx x2) |W, (5.37) Ws 1 2x, x 0 W, ^ —_ pri 1 2 wr âœ) =—sR~1|0 cos(2x) + 2] | ox 2x,| W,| (5.38) 3 trong do W =[W, W, ?]T là xấp xỉ của W Với các định nghĩa như trên, kết quả mô phỏng mong muốn sẽ là W ¬ W,Ÿ >V'" và ñ > u*

Các thông số học được thiết lập như sau: hàm chỉ tiêu chất lượng được định nghĩa bởi (5.2), với r(x,u) = Q(%) + u“Ru, trong đó Q(%) =

x7 Q,x, Voi Q, = F "Ì R = 1 Các hằng số tốc độ cập nhật được chọn

ứ; = 8 và #; = 0.1 Điều kiện PE được thực hiện bằng cách cộng thêm

nhiễu ống vào tín hiệu điều khiển [67] Sau khi trọng số xấp xỉ hàm hội tụ,

điều kiện PE có thể đuy trì hoặc tắt Giá trị khởi tạo của véc tơ trạng thái

Xo = [1,—1]" Trọng số khởi tạo xấp xỉ hàm của hai thuật toán được xét

trong hai trường hợp Để đánh giá tốc độ hội tụ và tài nguyên hệ thống,

toàn bộ giá trị trọng số xấp xỉ hàm được khởi tạo bằng té bao, tuong tu

[67] Ngược lại, để đánh giá tính linh hoạt trong thiết kế hệ thống, toàn bộ

giá trị trọng số xấp xỉ hàm được chọn bằng không (Sơ đồ Simulink Matlab

Trang 13

xin tham khảo phụ lục A)

Đánh giá tốc độ hội tụ: Quỹ đạo trạng thái trong quá trình học điều khiển của thuật toán OADP và AC2NN (Thuật toán AC sử dụng 2NN) [67] được biểu điễn trên H.5., trong đó nhiễu PE được áp dụng để kích thích hệ thống cho đến khi trọng số xấp xỉ hàm hội tụ và tiếp tục kéo dài

sau đó đến 80(s) Quá trình hội tụ trọng số xắp xi ham của OADP và NN

của thuật toán AC2NN được vẽ trên cùng đồ thị (H.5.) và tốc độ hội tụ của

từng trọng số xấp xỉ hàm giữa hai thuật toán được trình bày trong cùng

bảng 5.1

Ta thấy rằng tốc độ hội tụ trọng số xp xi ham trong thuat toan OADP

nhanh hơn so với tốc độ hội tu x4p xi ham critic trong thuật toán AC2NN

Trọng số thứ nhất của trong OADP hội tụ tại thời điểm 25%), trong khi với AC3NN chỉ hội tụ sau 65(s) Thời điểm hội tụ trọng sô thứ hai của hai

thuật toán là như nhau, tuy nhiên rất khác nhau ở trọng số thứ ba, với 8(s) cho OADP và 22(s) cho AC2NN

Dĩ nhiên, đối với bài toán điều khiển tối ưu, cả hai thuật toán đều

cho giá trị hội tụ tương đương nhau: W = [ 0.501,0.0013, 1.0]7 đối với

x4p xi ham trong OADP va W = [0.5017, 0.002, 1 008]" đối với xấp xỉ

hàm critic trong AC2NN Sau khi hội tụ, trọng số xấp xỉ hàm không bị

ảnh hưởng bởi nhiễu PE Với các gia trị hội tụ này, hàm đánh giá xâp xi

của hai giải thuật sẽ đạt đến giá trị tối ưu theo biểu thức (5 35) Thay W

hội tụ vào (5.38), ta có luật điều khiển xấp xỉ hội tụ đến luật điều khiến tối

ưu (5.36) H.3.4 biểu diễn hàm đánh giá tối ưu xấp xi Ÿ của cả hai thuật toán H 5.(a) biểu diễn sai số xấp xỉ giữa hàm đánh giá tối ưu xấp xi V so với tối ưu lý thuyết V*, H5 (b) biểu diễn sai số xấp xỉ giữa | luật điều khiến tối ưu xấp xỉ ñ so với tối ưu lý thuyết * Ta nhận thấy rằng sai số giữa

xấp xỉ và lý thuyết của OADP nhỏ hơn so với AC2NN

Đánh giá tài nguyên hệ thống: Với hệ phi tuyến (5.34) một ngõ vào hai ngõ ra; một xấp xi hàm cần ba trọng số và ba hàm tác động Số lượng tham số cần lưu trữ của OADP là 6 trong khi đó của AC2NN sé tang gap

đôi (Tiêu chí số 4 trong bảng 5.1) Tuy nhiên, với hệ-phi tuyến MIMO phức tạp, số lượng tham sô xp _ xi ham rat nhiéu va tai nguyén trong AC2NN sé tang gap hai lần theo số lượng này Hậu quả là chị phí tính toán

Trang 15

Báng 5.1 So sánh chỉ tiêu chất lượng giữa OADP và ACNN

STT Tiêu chí so sánh OADP_ | AC2NN

mm Thời gian hội tụ W(s) 25 65

2 Thời gian hội tụ Wz(s) _ | 20 20 gian hội tụ W⁄2(s) _ Š 2 Sé lượng tham số xp xi ham cần lưu 6 12 mm trữ vả cập nhật _ 5 ||P — v' || _| 01687 | 01716 “6 Ha u'll 002 0.0752

Đánh giá về khả năng linh hoạt trong thiết kế: Với thuật toán

AC2NN sit dung hai xấp xi hàm, nếu giá trị khởi tạo trọng số của cá hai

xp xi hàm hoặc củng bằng không, hoặc một trong hai bằng không, hệ thông sẽ mắt én định ngay từ những giây điều khiến đầu tiên [67] Điều này chứng tô rằng ACNN cần luật điều khiển khởi tạo én định Ngược

lại, với OADP, nêu trọng số xdp xỉ hàm được khởi tao bằng không thì hệ

Trang 16

80 100

Hình 5.7 Hội tụ trọng số xắp xỉ hàm của thuật toán OADP với giá trị khỏi tạo bằng không

Với trọng số xấp xỉ hàm khởi tạo bằng không, H.5 biểu diễn quá trình hội tụ trọng số xấp xỉ hảm của thuật toán OADP voi két qua W = [0.5, 0, 1]” Trong khi đó, trọng số xấp xỉ hàm critc của ACANN (H.5.) không hội tụ về giá trị đúng, dẫn đến giá trị trạng thái ngoài vùng ấn định Một số chỉ tiêu khác được trình bảy trên bảng 5.2 Kết quá trong trường hợp này chứng tỏ rằng chọn trước luật điều khiển khởi tạo ôn định cho OADP là không cần thiết Từ đó, OADP đạt được sự linh hoạt trong thiết kế, bởi vì trong một số ứng dụng đặc biệt, việc tìm luật điều khiển dé khởi tạo 6n định hệ thống là điều thách thức AC2NN {a} ) ,

Hinh 5.8 OADP va AC2NN: (a) Sai số giữa hàm đánh giá tối tru xap xỉ và tối ưu lÿ thuyết; (b) Sai số giữa luật điều khiển tôi tru xáp xi và tôi ưu

lý thuyết

Trang 17

O01 pment 0.05 —-— —- Q i Ị an 0.01 & -0.05 = Úc + 62 3 0.02 -0.03 0.04 3 ` 0 20 40 60 80 100

Hình 5.9 Trọng số xấp xỉ hàm của thuật tốn ACANN khơng hội tụ về giả trị tôi trụ khi giá trị khởi tạo của trọng số bằng không

Bảng 5.2 Chỉ tiêu chất lượng khi trọng số của các xấp xi hàm được khởi tạo bằng không

STT Tiêu chí so sánh OADP AC2NN

i Thời gian hội tụ W@) | - 20 | Khônghội

2 Thời gian hội tụ W2(s) 18 tụ, hệ thống

Mi oan Ai : 1 mat 6n

N ca On Ean OI UIs) : định, giá tri

eres I|? - 4.3718e-004 | trạng thái

5 llê — z"|l 3.4590e-005 | tăng rất lớn

5.3 Tóm tắt

Thuật toán qui hoạch động thích nghi online trong điều khiển tối ưu đã được đề xuất trong chương này Do thuật toán chỉ sử dụng một xấp xi hàm nên đã đạt được các mục tiêu như giảm chi phí tính toán và giảm tai nguyên lưu trữ để tăng tốc độ hội tụ Luật cập nhật trọng số xấp xỉ hàm được thiết kế phù hợp nên trạng thái hệ thống, sai số xấp xi xap xi ham đảm báo bị chặn UUB Bên cạnh đó, hàm đánh giá và ngõ vào điều khiển xấp xi hội tụ đến giá trị cận tối ưu Kết quả này đã được phân tích và chứng

Trang 18

luật điều khiển khởi tạo ôn định nên đã đạt được khả năng linh hoạt trong

thiết kế

Vi dụ mô phỏng điều khiến tối ưu hệ phi tuyến có so sánh với kết

quả của nghiên cứu khác đã cho thấy thuật toán OADP- đã đạt được các mục tiêu đề ra Tuy nhiên, thuật toán OADP chỉ áp dụng được cho hệ phi tuyến với thông tin về động học nội ƒ(x) biết trước và bỏ qua nhiễu tác

động Điều nay lam giảm khả năng ứng dụng của thuật toán OADP trong thực tế Chương tiếp theo, thuật toán OADP sẽ được mở rộng để điều khiển thích nghi bền vững hệ phi tuyến có nhiễu tác động và động học nội ƒ(%) không biết trước

3.4 Bài tập

Bài tập 5.1: Thiết kế luật điều khiển tối ưu cho hệ phi tuyến Van đer Pol có phương trình.không gian trạng thái như sau:

X1 = Xo

1 | 5.39

x, = —X_ — 5 Xa(1 — xt) — X5 +#zị¡u 6.32)

Chọn Ợ = ||x||? và R = 1,@(x) = [x? x,x2 +z‡]” Nhiễu PE thêm vào

tín hiệu điêu khin được chon = sin*(t) + 0.5cos(t) — 0.1 sin?(£) cos(t) + sin°(t)

Đáp số: Hàm đánh giá và luật điều khiển tối wu: V*(x) = x? + x2 va u*(x) = X4X2 Bài tập 5.2: Cho hệ bồn nước đôi (H.5.2) có phương trình vi phân như sau: dh 1 | de 7 Fy (Cov 2B + kyu(0)

Ca) _ 7 (aso 20h - a;Cp2gh;()) +

Trong đó: hes số lưu lượng của bơm k, = 150(cm?/s V), hé số nạp và xả Cp = 0.8, tiết điện (tròn) bổn thứ nhất A4; = 100(cm2), tiết diện (tròn) bồn thứ hai 4; = 4;-Tiết diện van xả một a = 1(cm?), tiết diện van xả hai a, = ¥2a,(cm?) Gia tốc trọng trường øg = 981(cm/s”) Chiều cao mực - nước bồn một là hạ (£), chiều cao mực nước bồn hai là h;(£), điện áp bơm

95

Trang 19

(tín hiệu vào) là u(£)

Ngày đăng: 14/07/2022, 20:02

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w