1. Trang chủ
  2. » Luận Văn - Báo Cáo

Điều khiển tối ưu thích nghi trên cơ sở học tăng cường tích phân trực tuyến

11 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 11
Dung lượng 335,05 KB

Nội dung

ĐIỀU KHIỂN TỐI ƯU THÍCH NGHI TRÊN CƠ SỞ HỌC TĂNG CƯỜNG TÍCH PHÂN TRỰC TUYẾN Nguyễn Thị Thắm, Vũ Văn Tú Khoa Điện-Cơ Email: thamnt@dhhp.edu.vn, tuvv@dhhp.edu.vn Ngày nhận bài: 24/8/2020 Ngày PB đánh giá: 22/9/2020 Ngày duyệt đăng: 25/9/2020 TÓM TẮT: Bài báo đề xuất cách tiếp cận trực tuyến để điều khiển tối ưu thích nghi trực tiếp với chi phí vơ hạn cho hệ thống phi tuyến khung thời gian liên tục Sự hội tụ thuật toán trực tuyến với giải pháp điều khiển tối ưu mà không yêu cầu động học nội hệ thống Tính ổn định động vịng kín đảm bảo Thuật tốn xây dựng chương trình học tăng cường (RL), cụ thể thuật toán lặp PI (Policy Iteration) sử dụng mạng nơ-ron cấu trúc Actor/Critic để biểu diễn thông số luật điều khiển hiệu suất hệ thống điều khiển Hai mạng nơ-ron huấn luyện để thể điều khiển tối ưu hàm chi phí tối ưu mô tả hiệu suất điều khiển vô hạn Kết cấu trúc điều khiển lai gồm điều khiển liên tục theo thời gian cấu trúc điều khiển thích nghi giám sát hoạt động dựa liệu lấy mẫu từ đối tượng hiệu suất động học thời gian liên tục Các phân tích lý thuyết kết mô chứng minh hiệu thuật tốn đề xuất Từ khóa: Điều khiển tối ưu thích nghi trực tiếp, Thuật tốn lặp, Mạng nơ-ron, Điều khiển trực tuyến ADAPTIVE OPTIMAL CONTROL BASED ON OFF-LINE INTEGRAL REINFORCEMENT LEARNING ABTRACT: This paper proposes in a continuous-time framework an online approach to direct adaptive optimal control with infinite horizon cost for nonlinear systems The algorithm converges online to the optimal control solution without knowledge of the internal system dynamics Closed-loop dynamic stability is guaranteed throughout The algorithm is based on a reinforcement learning scheme, namely Policy Iterations, and makes use of neural networks, in an Actor/Critic structure, to parametrically represent the control policy and the performance of the control system Two neural networks are trained to express the optimal controller and optimal cost function which describes the infinite horizon control performance The result is a hybrid control structure which involves a continuous-time controller and a supervisory adaptation structure which operates based on data sampled from the plant and from the continuous-time performance dynamics The theoretical analysis and simulation results demonstrate the performance of the proposed algorithm Keywords: Direct adaptive optimal control, Policy iteration, Neural networks, Online control ĐẶT VẤN ĐỀ Trong bối cảnh điều khiển truyền thống, hai vấn đề lớn điều khiển điều khiển thích nghi điều khiển tối 64 | Tạp chí khoa học, Số 42, tháng năm 2020 ưu, hai phương pháp điều khiển xử lý hai toán lớn khác lý thuyết điều khiển Điều khiển tối ưu đưa phương pháp để tìm luật điều khiển giúp ổn định hệ thống, đồng thời tối ưu hàm mục tiêu cho trước, nhiên tìm luật điều khiển tối ưu, cách tiếp cận cũ đòi hỏi thông tin rõ ràng hệ động học hệ thống, điều làm cản trở khả thuật toán áp dụng vào thực tế bất định mơ hình Trong phương pháp điều khiển thích nghi cho phép thiết kế điều khiển với đối tượng bất định, dựa luật thích nghi cho điều khiển, gián tiếp thơng qua cấu nhận dạng đối tượng hay trực tiếp chỉnh định tham số điều khiển, nhiên điều khiển thích nghi chưa xét đến yếu tố tối ưu chất lượng luật điều khiển Dưới góc nhìn thuật toán học tăng cường, hai cách tiếp cận hai phương pháp dung hòa làm một, tận dụng điểm mạnh hai phương pháp Ban đầu, thuật toán ADP phát triển để giải xấp xỉ phương trình HJB thơng qua việc giải lặp phương trình Lyapunov (LE) [1] Phương pháp ADP sử dụng NN xây dựng điều khiển dựa cấu trúc Actor-Critic (AC) Việc thực cấu trúc AC dựa việc cập nhật tham số cập nhật tham số song song hay gọi cập nhật trực tuyến (online) Cấu trúc điều khiển sử dụng trực tuyến Actor-Critic với tham số Actor Critic cập nhật song song, chứng minh định lý trạng thái hệ kín, sai lệch tham số AC bị giới hạn miền xác định Lớp thuật toán coi phương pháp quy hoạch động xấp xỉ, chưa có yếu tố thích nghi, việc giải phương trình Lyapunov u cầu rõ thông tin động học hệ thống [3], [5] Để giải vấn đề bất định mô hình, người ta sử dụng phương pháp nhận dạng hệ thống với cấu trúc điều khiển Actor-Critic-Identifier (ACI) Việc sử dụng nhận dạng hệ thống làm tăng đáng kể khối lượng tính tốn gây khó khăn thực thuật toán trực tuyến, sai lệch nhận dạng đối tượng gây ảnh hưởng đến chất lượng điều khiển Một vấn đề lớn học tăng cường việc cân tìm tịi (Exploration) tận dụng (Exploitation), dẫn đến hai phương pháp để giải vấn đề on-policy off-policy Trong onpolicy, tín hiệu dị thêm vào điều khiển Cơng trình nghiên cứu 2015 J B P and Y H C J Y Lee đề xuất phương pháp tính tốn tín hiệu dị thêm vào điều khiển dựa phương pháp IRL giúp thỏa mãn điều kiện PE (Persistent Excitation), đảm bảo hội tụ tham số điều khiển PHƯƠNG TRÌNH HAMILTONJACOBI-BELLMAN Xét hệ thống phi tuyến affine liên tục mô tả bởi: 𝑥 = 𝑓(𝑥) + 𝑔(𝑥)𝑢 (1) Trong 𝑥 ∈ ℝ véc-tơ trạng thái, 𝑢 ∈ ℝ véc-tơ tín hiệu điều khiển 𝑓(𝑥) ∈ ℝ , 𝑔(𝑥) ∈ × ℝ , 𝑓(𝑥) = 0, 𝑓(𝑥) + 𝑔(𝑥)𝑢 thỏa mãn tính chất liên tục Lipschitz tập Ω ∈ℝ Định nghĩa hàm mục tiêu [3]: TẠP CHÍ KHOA HỌC, Số 42, tháng năm 2021| 65 𝐽(𝑥, 𝑢) = 𝑟(𝑥, 𝑢)𝑑𝑡 Trong 𝑟(𝑥, 𝑢) = 𝑄(𝑥) + 𝑢 𝑅𝑢 Với 𝑄(𝑥) hàm xác định dương 𝑥, 𝑅 ma trận đối xứng xác định dương Mục tiêu thiết kế tìm luật điều khiển 𝑢(𝑥) giúp ổn định hệ thống (1) tối thiểu hóa hàm mục tiêu (2) Trước thiết kế thuật toán ADP, ta đưa định nghĩa luật điều khiển chấp nhận 𝑉(𝑥(𝑡)) = (2) Định nghĩa 1-1: Một luật điều khiển 𝑢(𝑥) ∈ 𝛹(𝑥) coi tập hợp luật điều khiển chấp nhận 𝑢(𝑥) làm ổn định hệ thống (1) miền 𝑥 ∈ 𝛺 hàm mục tiêu (2) ứng với luật điều khiển 𝑢(𝑥) hữu hạn [1] Giả sử luật điều khiển 𝑢(𝑥) ∈ Ψ(𝑥), hàm chi phí luật định nghĩa [3]: 𝑟(𝑥, 𝑢)𝑑𝑡 (3) Phương trình (3) biến đổi thành phương trình vi phân sau: 𝑉 𝑥(𝑡) = 𝑟(𝑥, 𝑢)𝑑𝑡 + 𝑟(𝑥, 𝑢)𝑑𝑡 (4) = 𝑟(𝑥, 𝑢)𝑑𝑡 + 𝑉 𝑥(𝑡 + 𝑇) Chuyển vế phương trình (4) ta được: ∆ 𝑉 𝑥(𝑡) − 𝑉 𝑥(𝑡 + ∆𝑇) = 𝑟(𝑥, 𝑢)𝑑𝑡 (5) Lấy giới hạn hai vế (5) 𝑇 → 0, giả thiết 𝑉 𝑥(𝑡) có đạo hàm bậc khả vi liên tục, sử dụng định nghĩa đạo hàm ta có: lim ∆ → 𝑉 𝑥(𝑡 + ∆𝑇) − 𝑉 𝑥(𝑡) ∆𝑇 = − lim ∆ → ∆𝑇 ∆ 𝑟(𝑥, 𝑢)𝑑𝑡 (6) Ta thu phương trình sau: (𝑉 ) 𝑥 + 𝑟(𝑥, 𝑢) = (7) Trong 𝑉 = 𝜕𝑉/𝜕𝑥 Sử dụng phương trình (1) 𝑟(𝑥, 𝑢) = 𝑄(𝑥) + 𝑢 𝑅𝑢 vào phương trình (7) ta được: (𝑉 ) (𝑓(𝑥) + 𝑔(𝑥)𝑢) + 𝑄(𝑥) + 𝑢 𝑅𝑢 = Nếu 𝑢(𝑥) ổn định hệ kín (1) 𝑉 𝑥(𝑡) thành hàm Lyapunov 66 | Tạp chí khoa học, Số 42, tháng năm 2020 (8) phương trình (8) gọi phương trình Lyapunov phi tuyến (LE) [3], [7] khiển từ luật điều khiển 𝑢(𝑥) ∈ Ψ(𝑥) thuật toán dần hội tụ điều khiển tối ưu Bất luật điều khiển chấp nhận 𝑢(𝑥) thỏa mãn phương trình LE (8), thơng qua việc giải (8) để tìm nghiệm 𝑉 𝑥(𝑡) cập nhật điều Định nghĩa hàm Hamilton: 𝐻(𝑥, 𝑢, 𝑉 ) = (𝑉 ) (𝑓(𝑥) + 𝑔(𝑥)𝑢) + 𝑄(𝑥) + 𝑢 𝑅𝑢 (9) ∗ Hàm chi phí tối ưu 𝑉 𝑥(𝑡) định nghĩa dựa vào (3) [3]: 𝑉 ∗ 𝑥(𝑡) = ( )∈ ( ) 𝑟(𝑥, 𝑢)𝑑𝑡 (10) Sử dụng định nghĩa đạo hàm phương trình phi tuyến (1) biến đổi phương trình (10) ta có: (𝑉 ∗ ) 𝑥 + 𝑟(𝑥, 𝑢) = ∈ 𝑉 ∗ (𝑓(𝑥) + 𝑔(𝑥)𝑢) + 𝑟(𝑥, 𝑢) = (11) ∈ Trong 𝑉 = 𝜕𝑉 ∗ /𝜕𝑥 Dựa vào biểu thức (9) xây dựng hàm Hamilton tối ưu sau: ∗ 𝐻(𝑥, 𝑢, 𝑉 ∗ ) = (𝑉 ∗ ) (𝑓(𝑥) + 𝑔(𝑥)𝑢) + 𝑟(𝑥, 𝑢) (12) Xét điều khiển tối ưu 𝑢∗ (𝑥) hàm chi phí tối ưu 𝑉 ∗ (𝑥) thỏa mãn (10) đó: 𝑢∗ (𝑥) = arg ( )∈ ( ) 𝑟(𝑥, 𝑢)𝑑𝑡 (13) Theo [8] luật điều khiển 𝑢∗ (𝑥) ứng với (13) thỏa mãn phương trình sau: 𝐻(𝑥, 𝑢∗ , 𝑉 ∗ ) = min𝐻(𝑥, 𝑢, 𝑉 ∗ ) (14) ∈ Từ phương trình (11) phương trình (12) ta có phương trình HJB [3]: min𝐻(𝑥, 𝑢, 𝑉 ∗ ) = ∈ (15) Dựa vào biểu thức (13) thu điều khiển tối ưu 𝑢∗ (𝑥): 𝑢∗ (𝑥) = arg 𝐻(𝑥, 𝑢, 𝑉 ∗ ) ∈ (16) Luật điều khiển tối ưu xác định: 𝜕𝑉 ∗ (𝑥) ∗ (𝑥) (17) 𝑢 = − 𝑅 𝑔 (𝑥) = − 𝑅 𝑔 (𝑥)𝑉 ∗ 𝜕𝑥 Sử dụng phương trình (17) vào phương trình (15) 𝑟(𝑥, 𝑢) = 𝑄(𝑥) + 𝑢 𝑅𝑢, ta phương trình HJB theo tham số 𝑉 ∗ sau [3]: (𝑉 ∗ ) 𝑓(𝑥) − (𝑉 ∗ ) 𝑔(𝑥)𝑅 𝑔 (𝑥)𝑉 ∗ + 𝑥 𝑄𝑥 = (18) 𝑉 ∗ (0) = TẠP CHÍ KHOA HỌC, Số 42, tháng năm 2021| 67 THUẬT TOÁN LẶP PI ĐỂ GIẢI QUYẾT PHƯƠNG TRÌNH HJB Thay chuyển phương trình HJB (18) dạng phương trình vi phân, để phương trình HJB dạng tích phân sau: 𝑉 ∗ 𝑥(𝑡) = 𝑟(𝑥, 𝑢)𝑑𝑡 ∈ 𝑟(𝑥, 𝑢)𝑑𝑡 + 𝑉 ∗ 𝑥(𝑡 + 𝑇) = ∈ = 𝑟(𝑥, 𝑢∗ )𝑑𝑡 + 𝑉 ∗ 𝑥(𝑡 + 𝑇) Với 𝑢( ) (𝑥(𝑡)) ∈ ψ(Ω) luật điều khiển chấp nhận 𝑇 > 0, 𝑥(𝑡) ∈ Ω, 𝑥(𝑡 + 𝑇) ∈ Ω chuyển sang dạng IRL sau: Thuật toán [9] Thuật toán lặp PI (Online On-Policy IRL) Bước 1: ∀x ∈ Ω , khởi tạo luật điều khiển chấp nhận u( ) (x) giá trị V ( ) (x) = i) Cho tín hiệu điều khiển u( ) vào hệ thống thu thập thông tin cần thiết 𝑉 ( ) (𝑥) = (19) hệ thống trạng thái, tín hiệu điều khiển n trích mẫu khác khoảng thời gian T ii) Gán i ← Bước 2: Sử dụng thông tin thu thập hệ thống nhằm xấp xỉ hàm V ( ) (x) bước i với tín hiệu điều khiển vào hệ thống u( ) (x) i) Xác định V ( ) (x) từ hệ phương trình: 𝑟 𝑥, 𝑢( ) 𝑑𝑡 + 𝑉 ( ) 𝑥(𝑡 + 𝑇) (20) 𝑉 ( ) (0) = Bước 3: Cập nhật luật điều khiển cho vòng lặp theo i) Cập nhật: 𝑢( ) (𝑥) 𝜕𝑉 ( ) (𝑥) = − 𝑅 𝐺 (𝑥) 𝜕𝑥 (21) ii) Nếu thỏa mãn tiêu chuẩn hội tụ cho V ( ) (x) − V ∗ (x) < ε, với ε số dương đủ nhỏ gán u∗ (x) = u( ) (x) V ∗ (x) = V ( ) (x), kết thúc giải thuật iii) Nếu không thỏa mãn, gán i ← i + 1, cho tín hiệu u( ) vào hệ thống thu thập thông tin cần thiết hệ thống trạng thái, tín hiệu điều khiển n trích mẫu khác khoảng thời gian T quay lại bước Phương trình (20) coi phương trình Lyapunov dạng tích phân Sự hội tụ thuật tốn IRL đảm bảo thơng qua định lý đây: 68 | Tạp chí khoa học, Số 42, tháng năm 2020 Định lý 1-1 [9] Giải hệ phương trình (20) để tìm V ( ) (x) tương đương với việc tìm nghiệm phương trình: 𝜕𝑉 ( ) 𝑓(𝑥) + 𝑔(𝑥)𝑢( ) (𝑥) + 𝑟 𝑥(𝑡), 𝑢( ) 𝑥(𝑡) 𝜕𝑥 𝑉 ( ) (0) = =0 (22) Chứng minh nghiệm tương đương Với 𝑢( ) ∈ ψ(Ω), 𝑉 ( ) ∈ C (Ω) định nghĩa 𝑟 𝑥(𝑡), 𝑢( ) (𝑥(𝑡)) 𝑑𝑡 hàm Lyapunov hệ thống 𝑥(𝑡) = 𝑉 ( ) (𝑥(𝑡)) = 𝑓(𝑥(𝑡)) + 𝑔(𝑥(𝑡))𝑢( ) (𝑥(𝑡)) 𝑉 ( ) ∈ C (Ω) thỏa mãn: 𝜕𝑉 ( ) 𝜕𝑥 𝑓(𝑥) + 𝑔(𝑥)𝑢( ) (𝑥) = −𝑟 𝑥(𝑡), 𝑢( ) 𝑥(𝑡) Với 𝑟 𝑥(𝑡), 𝑢( ) 𝑥(𝑡) (23) > 0; 𝑥(𝑡) ≠ Tích phân (23) khoảng thời gian 𝑡, 𝑡 + 𝑇 , ta thu được: 𝑉 ( ) 𝑥(𝑡) = 𝑟 𝑥(𝑡), 𝑢( ) 𝑥(𝑡) Điều có nghĩa nghiệm hệ phương trình (18), 𝑉 ( ) thỏa mãn phương trình (24) Để hồn thiện chứng minh ta phải phương trình (24) có nghiệm 𝑑 𝑉(𝑥(𝑡)) − 𝑉 ( ) (𝑥(𝑡)) 𝑑𝑥 𝑑 𝑉(𝑥(𝑡)) − 𝑉 ( ) (𝑥(𝑡)) = 𝑑𝑥 𝑑𝑡 + 𝑉 ( ) 𝑥(𝑡 + 𝑇) (24) Giả sử tồn hàm chi phí khác 𝑉 ∈ C (Ω) thỏa mãn với điều kiện 𝑉(0) = Hàm chi phí thỏa mãn 𝑉 (𝑥(𝑡)) = −𝑟 𝑥(𝑡), 𝑢( ) 𝑥(𝑡) Thay vào phương trình (24) ta thu được: 𝑥 (25) 𝑓(𝑥(𝑡)) + 𝑔(𝑥(𝑡))𝑢( ) (𝑥(𝑡)) = Điều với quỹ đạo trạng thái 𝑥 tạo hệ thống với luật điều khiển ổn định 𝑢( ) Do đó, 𝑉(𝑥(𝑡)) = 𝑉 ( ) (𝑥(𝑡)) + 𝑐 Quan hệ với 𝑥(𝑡) = 𝑉(0) = 𝑉 ( ) (0) + 𝑐 → = 𝑐 𝑉(𝑥(𝑡)) = 𝑉 ( ) (𝑥(𝑡)) Vì hệ phương trình (18) có nghiệm nghiệm trùng với nghiệm hệ phương trình (20) Hệ phương trình (18) hệ phương trình (20) có chung nghiệm hệ (20) không yêu cầu động học hệ thống 𝑓(𝑥) ỨNG DỤNG MẠNG NƠ-RON CHO THUẬT TOÁN HỌC TĂNG CƯỜNG TÍCH TUYẾN (OIRL) PHÂN TRỰC TẠP CHÍ KHOA HỌC, Số 42, tháng năm 2021| 69 Áp dụng khả xấp xỉ mạng Nơ-ron đồng thời nhằm giảm khối lượng tính tốn so với cấu trúc Actor – Critic, giải thuật sử dụng mạng Nơ-ron nhằm xấp xỉ hàm chi phí tối ưu 𝑉(𝑥) với 𝑥 ∈ Ω sau: 𝑉(𝑥) = 𝑊 𝜙(𝑥) (26) Trong 𝑊 ∈ ℝ ma trận trọng số lý tưởng chưa biết, 𝑁 số nơ-ron, 𝜙(𝑥) = 𝜙 (𝑥), 𝜙 (𝑥) … , 𝜙 (𝑥) ∈ ℝ véc-tơ hàm phù hợp Sử dụng mạng nơ-ron xấp xỉ cho hàm chi phí tối ưu, thay công thức (26) vào công thức (20) thu được: 𝑟 𝑥, 𝑢( ) 𝑑𝑡 + 𝑊 𝜙 𝑥(𝑡 + 𝑇) 𝑊 𝜙 𝑥(𝑡) = (27) Xuất sai lệch 𝑒(𝑡) sai số xấp xỉ hàm Bellman 𝑒(𝑥(𝑡), 𝑇) = 𝑊 𝜙 𝑥(𝑡 + 𝑇) − 𝜙 𝑥(𝑡) =− 𝑟 𝑥, 𝑢( ) 𝑑𝑡 (28) Ta đặt công thức: ℎ(𝑡) = 𝜙 𝑥(𝑡 + 𝑇) − 𝜙 𝑥(𝑡) 𝑦(𝑡) = Phương trình (28) viết lại sau: 𝑒(𝑡) = 𝑊 ℎ(𝑡) + 𝑦(𝑡) (30) Chỉnh định tham số 𝑊 để tối thiểu hóa đại lượng bình phương sai lệch 𝑒 (𝑡) Phương trình (30) hàm tuyến tính tham số 𝑊 Do ta áp dụng thuật tốn cực tiểu hóa bình phương sai lệch (Least Square Error) để tìm giá trị tối ưu cho 𝑊 Thông tin hệ thống thu thập N trích mẫu khác khoảng thời gian T ta tính tốn (29) n điểm từ 𝑡 → 𝑡 thu hàm: Thực chất việc tối thiểu hóa cơng thức (32) thỏa mãn phương trình sau ( , ) () (29) 𝑟 𝑥, 𝑢( ) 𝑑𝑡 𝑒(𝑥, 𝑇)𝑑𝑥 = Sử dụng 𝑑𝑒(𝑥, 𝑇) , 𝑒(𝑥, 𝑇) 𝑑𝑊 70 | Tạp chí khoa học, Số 44, tháng năm 2021 𝐻 = ℎ(𝑡 ), … , ℎ(𝑡 ) 𝑌 = 𝑦(𝑡 ), … , 𝑦(𝑡 ) (31) Việc thu thập liệu để giải xấp xỉ (27) yêu cầu tập liệu thỏa mãn ma trận 𝐻 đủ hạng túc 𝐻 𝐻 khả nghịch Để xác định trọng số 𝑊 mạng nơron xấp xỉ hàm chi phí 𝑉 ( ) (𝑥) dẫn tới để tối thiểu hóa hàm mục tiêu sau đây: 𝑆= 𝑒(𝑥, 𝑇)𝑒(𝑥, 𝑇)𝑑𝑥 tích 〈𝑓, 𝑔〉 = (32) 𝑓𝑔𝑑𝑥 tích phân Lebesgue viết: =0 (33) Sử dụng phương trình (30) cho phương trình (33) là: 𝐻 𝐻𝑊 + 𝑌 = (34) 𝑊 = −(𝐻𝐻 ) 𝐻𝑌 (35) Do đó: Để khẳng định 𝐻𝐻 khả đảo, 𝐻 đủ hạng tức 𝐻 có N hàng độc lập tuyến tính thỏa mãn Định nghĩa 1-2 Một tập hợp gọi độc lập hàm số 𝐻 Giả thiết Chọn tập hoàn ∈ 𝐶 (Ω) cho nghiệm chỉnh 𝐻 tuyến tính với tập 𝛺 ∑ 𝑐 𝐻 (𝑥) = 𝑐 = ⋯ = 𝑐 = Giả thiết Trình tự 𝐻 (𝑥(𝑡), 𝑇) = Bổ đề 1.1 Nếu tập hợp 𝐻 độc lập tuyến tính 𝑢(𝑥) ∈ 𝜓(Ω) sau tập hợp ∇𝐻 (𝑓 + 𝑔𝑢) độc lập tuyến tính Bổ đề 1.1 Đặt 𝑢(𝑥) ∈ 𝜓(Ω) cho 𝑓(𝑥) + 𝑔(𝑥)𝑢(𝑥) ổn định tiệm cận Cho độc lập tuyến tính tập hợp 𝐻 ∃𝑇 > cho ∀𝑥(𝑡) ∈ Ω − , tập hợp 𝐻 (𝑥(𝑡), 𝑇) = 𝐻 𝑥(𝑡 + 𝑇) − 𝐻 (𝑥(𝑡)) độc lập tuyến tính Giả thiết Nghiệm phương trình (20) ln xác định dương Điều đảm bảo hệ thống có động học xác định hàm thực thỏa mãn quan sát trạng thái hệ thống thông qua hàm chi phí Giả thiết Động học hệ thống tích phân thỏa mãn 𝑟 𝑥(𝑡), 𝑢 𝑥(𝑡) nghiệm phương trình (20) liên tục khả vi Ω 𝑢( ) (𝑥) 𝑉 ∈ 𝐶 (Ω) ∇𝑉 xấp xỉ thống chuỗi vô hạn xây dựng dựa 𝐻 𝐻 𝑥(𝑡 + 𝑇) − 𝐻 (𝑥(𝑡)) độc lập tuyến tính hồn chỉnh Kết độc lập tuyến tính từ Bổ đề 1.1, ước định giá trị định thời gian trích mẫu T Sự hoàn chỉnh dựa vào định lý xấp xỉ bậc cao Thuật toán Thuật toán OIRL sử dụng mạng nơ-ron Bước 1: ∀x ∈ Ω , khởi tạo luật điều khiển chấp nhận u( ) (x) ∈ ψ(Ω) i) Cho tín hiệu điều khiển u( ) vào hệ thống thu thập thông tin cần thiết hệ thống trạng thái, tín hiệu điều khiển n trích mẫu khác khoảng thời gian T ii) Gán i ← 0, khởi tạo ε Bước 2: Sử dụng thông tin thu thập hệ thống để tính H Y i) Xác định W từ phương trình (35) Bước 3: Cập nhật luật điều khiển cho vòng lặp theo i) Cập nhật: 𝜕𝜙(𝑥) = − 𝑅 𝐺 (𝑥) 𝜕𝑥 𝑊( ) (36) TẠP CHÍ KHOA HỌC, Số 42, tháng năm 2021| 71 ii) Nếu thỏa mãn tiêu chuẩn hội tụ cho W ( ) − W ( ) < ε , kết thúc giải thuật iii) Nếu không thỏa mãn, gán i ← i + 1, cho tín hiệu u( ) vào hệ thống thu thập thông tin cần thiết hệ thống trạng thái, tín hiệu điều khiển n trích mẫu khác khoảng thời gian T quay lại bước PHÂN TÍCH TÍNH HỘI TỤ VÀ ỔN ĐỊNH CỦA THUẬT TỐN Định lý 1-2 Thuật tốn lặp PI (20) (21) hội tụ nghiệm tối ưu quỹ đạo trạng thái 𝛺 tức với 𝜀 > tồn 𝑖 , 𝐿 cho với 𝑖 ≥ 𝑖 ta có: sup 𝑉 ( ) (𝑥) − 𝑉 ∗ (𝑥) < 𝜀, sup 𝑢( ) (𝑥) − 𝑢∗ (𝑥) < 𝜀 ∈ ∈ Chứng minh Trong tài liệu [1], chứng minh lặp lặp lại phương trình (21) (22) với điều kiện đầu 𝑢( ) (𝑥) tất luật điều khiển chấp nhận lặp (21) (22) hội tụ đến nghiệm phương trình HJB có nghĩa đồng thời thỏa mãn phương trình (37) (37) Dựa tương đương nghiệm chứng minh giữ phương trình (20) (22), kết luận giải thuật điều khiển tối ưu trực tuyến hội tụ đến nghiệm toán tối ưu (3) Ω mà không cần sử dụng kiến thức động học bên hệ thống điều khiển (1) MÔ PHỎNG TRÊN HỆ PHI TUYẾN BẬC Xét hệ phi tuyến affne: −𝑥 + 𝑥 𝑥= + )+2 u cos(2𝑥 (1 (cos(2𝑥 ) ) −0.5𝑥 −0.5𝑥 − + 2) (38) với hàm mục tiêu: 𝐽= (𝑥 𝑄𝑥 + 𝑢 𝑅𝑢)𝑑𝑡 (39) 𝑄(𝑥) = ;𝑅 = 1 Giải phương trình HJB ta thu hàm Bellman tín hiệu điều khiển tối ưu: 𝑉 ∗ (𝑥) = 𝑥 + 𝑥 (40) ∗ (𝑥) 𝑢 = −(cos(2𝑥 ) + 2)𝑥 Nhằm chứng minh tính đắn thuật tốn, ta chọn hàm tác động hai mạng NNs có dạng: 𝜙(𝑥) = 𝑥 𝑥 𝑥 72 | Tạp chí khoa học, Số 44, tháng năm 2021 𝑥 (41) Khởi tạo trọng số ban đầu 𝑊 = 0.5 , để đảm bảo điều kiện PE ta thêm tín hiệu thăm dị sau vào hệ thống khoảng thời gian ban đầu: (42) 𝑛(𝑡) = 𝑠𝑖𝑛 (𝑡)𝑐𝑜 𝑠(𝑡) + 𝑠𝑖𝑛 (2𝑡)𝑐𝑜 𝑠(0.1𝑡) + 𝑠𝑖𝑛 (−1.2𝑡)cos(0.5𝑡) + 𝑠𝑖𝑛 (𝑡) W x 1.2 x1 2.5 0.8 1.5 x2 0.6 0.4 0.5 0.2 0 -0.5 -0.2 -1 9 10 10 Hình Trạng thái hệ thống với thuật toán OIRL Hình Sự hội tụ trọng số 𝑾 với thuật toán OIRL Control Signal 0.5 -0.5 -1 -1.5 -2 -2.5 10 Hình Tín hiệu điều khiển hệ thống với thuật toán OIRL Như đồ thị ta thấy trọng số W hội tụ thống phi tuyến Sự hội tụ thuật tốn xác giá trị tối ưu nó, đề xuất, điều kiện điều tín hiệu điều khiển giúp cho khiển ổn định ban đầu với giải pháp hệ ổn định với tốc độ tốt Qua cho vấn đề điều khiển tối ưu thành lập Bài báo trình bày hội tụ thấy tính đắn thuật tốn cho phiên mạng nơ-ron dựa cập nhật trực tuyến có tính đến sai số KẾT LUẬN mạng Kết mô đánh giá Trong báo trình bày tốt kết đạt điều khiển thích nghi thời gian liên tục, xây dựng thuật toán lặp PI mà điều khiển thích nghi trực tuyến để tìm hiểu luật điều khiển tối ưu liên tục theo thời gian mà sử dụng phần thông tin động học nội mơ hình hệ TẠP CHÍ KHOA HỌC, Số 42, tháng năm 2021| 73 TÀI LIỆU THAM KHẢO Murad Abu-Khalaf and Frank L Lewis (2005), “Nearly optimal control laws for nonlinear systems with saturating actuators using a neural network hjb approach,” Automatica, vol 41(5), pp 779–791 F L Draguna Vrabie (2009), “Neural network approach to continuous-time direct adaptive optimal control for partially unknown nonlinear systems,” Neural Networks, vol 22, no 3, pp 237–246 K G Vamvoudakis and F L Lewis (2009), “Online actor critic algorithm to solve the continuous-time infinite horizon optimal control problem,” Proceedings of the International Joint Conference on Neural Networks pp 3180–3187 M and Bhasin, Shubhendu and Kamalapurkar, Rushikesh and Johnson and W E Vamvoudakis, Kyriakos G and Lewis, Frank L and Dixon (2013), “A novel actorcritic-identifier architecture for approximate optimal control of uncertain nonlinear systems,” Automatica, vol 49(1), pp 82–92 H Modares, F L Lewis, and M B Naghibi-Sistani (2013), “Adaptive optimal control of unknown constrained-input 74 | Tạp chí khoa học, Số 44, tháng năm 2021 systems using policy iteration and neural networks,” IEEE Transactions on Neural Networks and Learning Systems, vol 24, no 10 pp 1513–1525 J B P and Y H C J Y Lee (2015), “Integral Reinforcement Learning for Continuous-Time Input-Affine Nonlinear Systems With Simultaneous Invariant Explorations,” IEEE Trans Neural Networks Learn Syst., vol 26, no 5, pp 916–932 K G Vamvoudakis (2011), “Online learning algorithms for differential dynamic games and optimal control,” Ph.D Thesis, Univ Texas Arlingt D L V and V L S Frank L Lewis (2012), “Optimal Control,” John Wiley Sons, Inc K G Vamvoudakis, D Vrabie, and F L Lewis (2011), “Online adaptive learning of optimal control solutions using integral reinforcement learning,” IEEE SSCI 2011: Symposium Series on Computational Intelligence - ADPRL 2011: 2011 IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning pp 250–257 ... giải thuật điều khiển tối ưu trực tuyến hội tụ đến nghi? ??m toán tối ưu (3) Ω mà không cần sử dụng kiến thức động học bên hệ thống điều khiển (1) MÔ PHỎNG TRÊN HỆ PHI TUYẾN BẬC Xét hệ phi tuyến affne:... Trong báo trình bày tốt kết đạt điều khiển thích nghi thời gian liên tục, xây dựng thuật tốn lặp PI mà điều khiển thích nghi trực tuyến để tìm hiểu luật điều khiển tối ưu liên tục theo thời gian mà... pháp điều khiển thích nghi cho phép thiết kế điều khiển với đối tượng bất định, dựa luật thích nghi cho điều khiển, gián tiếp thơng qua cấu nhận dạng đối tượng hay trực tiếp chỉnh định tham số điều

Ngày đăng: 28/06/2021, 09:07

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w