4.1. Đặt vấn đề
Xem xét hệ thống trong thời gian rời rạc, được mô phỏng bởi động lực học phi tuyến dưới dạng phương trình sai lệch khơng gian trạng thái affine:
x(t + 1) = f(x(t)) + g(x(t))u(t) (4.1) y(t) =h(x(t), u(t − 1))
với trạng thái x(·) ∈ Rm đầu vào điều khiển u(·) ∈ Rn và đầu ra y(·) , Vì trong học tăng cường, thơng tin chi tiết của một mơ hình có thể khơng xác định, do đó, hệ thống trên có thể khái quát thành một hình thức nhỏ gọn hơn:
x(t + 1) =F(x(t),u(t)) (4.2)
y(t) =h(x(t), u(t − 1))
Hai giả định về hệ thống trên để thực hiện các ý tưởng về học tập tăng cường.
● Giả thuyết 1: Hệ thống trên thỏa mãn tính chất Markov bước 1 vì trạng thái tại thời điểm t + 1 chỉ phụ thuộc vào trạng thái và đầu vào tại thời điểm t trước đó, độc lập với dữ liệu lịch sử.
Giả sử nằm trong khn khổ của các q trình ra quyết định Markov (MDP), có mục tiêu là đạt được một mục tiêu cụ thể thơng qua một chính sách kiểm sốt thỏa đáng. Nó được định nghĩa theo cách tương tự với học tập tăng cường, điều này làm cho nó có tác động đáng kể trong việc kết hợp vấn đề điều khiển với học tăng cường. MDP là một dạng tốn học lý tưởng hóa của bài tốn RL
● Giả thuyết 2: Dấu của các đạo hàm riêng của h (·) đối với tất cả các đối số đã được biết đến, và nó cũng được coi là dấu của hệ Jacobian
4.1.1. Cấu trúc điều khiến
Bộ điều khiển PID được áp dụng cho các hệ thống quá trình tác động đến hiệu suất của hệ thống vịng kín.
Hình 4. 1: Sơ đồ khối của sơ đồ đề xuất
Xây dựng bộ điều khiển PID theo dõi cho quá trình điều khiến tốc độ làm giảm quá trình bị rung lắc:
u(t) = u(t − 1) + KI(t)e(t) − KP(t)∆y(t) − KD(t)∆2y(t), (4.3)
∆u(t) = K(t)Θ(t),
ở đây Θ(t) được định nghĩa là: Θ(t) := [e(t),−∆y(t),−∆2y(t)]T và là một trạng thái của hệ thống, ∆ biểu thị toán tử chênh lệch được xác định bởi ∆: = 1 − z – 1, khi đó ∆2y(t) trở thành:
∆2y(t) = y(t) − 2y(t − 1) + y(t − 2) (4.4)
K(t): = [KI (t), KP (t), KD (t)] là véc tơ các tham số điều khiển. e(t) là lỗi điều khiển và được xác định bằng sự khác biệt giữa tín hiệu tham chiếu yd và
đầu ra hệ thống y như sau:
e(t) = yd(t) − y(t).
(4.5)
Sơ đồ của phương pháp được đề xuất được trình bày trong Hình 4.2, trong đó trạng thái hệ thống Θ (t) được xây dựng dựa trên e (t) và đầu ra hệ thống hiện tại, và sau đó chúng sẽ được sử dụng làm đầu vào cho cấu trúc “Actor-Critic”. “Actor” điều chỉnh bộ điều khiển trực tuyến bằng cách sử dụng trạng thái hệ thống quan sát được dọc theo quỹ đạo hệ thống, trong khi “Critic”, nhận trạng thái hệ thống và tín hiệu tăng cường r(t + 1), đánh giá hiệu suất và tạo ra lỗi Chênh lệch thời gian (TD). Lỗi TD được xem là cơ sở quan trọng để cập nhật các thơng số. Do đó, mục tiêu là thiết kế bộ điều khiển PID với quy tắc cập nhật thích ứng mới theo cấu trúc Actor-Critic.
Hình 4. 2: Cấu trúc liên kết mạng RBF với cấu trúc Actor-Critic
4.2. Xây dựng bộ điều khiển thích ứng
4.2.1. Hàm lỗi Temporal Difference (TD)
Hàm lỗi TD là một hàm giá trị được định nghĩa là:
(4.6)
với 0 <γ ≤ 1 là hệ số chiết khấu và tín hiệu điều khiển u (t). Hàm r (x (i), u (i)) được gọi là tín hiệu tăng cường và có thể được chọn dựa trên hàm bậc hai.
(4.7)
Thay vì đánh giá tổng vơ hạn của phương trình trên, ta có thể sử dụng tín hiệu điều khiển hiện tại u (t) để giải phương trình sai phân tương đương sau:
V (t) = r(x(t),u(t)) + γV (t + 1),V (0) = 0. (4.8)
Phương trình này cịn được gọi là phương trình Bellman. Dựa trên phương trình Bellman, một lỗi TD có thể được xác định dựa vào sự khác biệt giữa hai bên:
δTD(t) = r(x(t),u(t)) + γV (t + 1) − V (t). (4.9)
Nếu phương trình Bellman giữ ngun, sai số TD bằng khơng. Do đó, tín hiệu điều khiển hiện tại có thể được coi là chính sách điều khiển tối ưu tại mỗi thời điểm.
4.2.2. Actor-Critic dựa trên mạng RBF
Mạng RBF đã được sử dụng như một kỹ thuật để xác định các tham số bằng cách thực hiện các ánh xạ chức năng. Nó bao gồm ba lớp mạng nơ-ron. Lớp đầu vào bao gồm các phép đo q trình có sẵn và trạng thái hệ thống được xây dựng. Trên cơ sở cấu trúc liên kết mạng RBF, nó cho phép truyền các trạng thái của hệ thống đến các lớp ẩn được chia sẻ trực tiếp bởi Actor và Critic. Tín hiệu điều khiển u (t) và hàm giá trị được tạo ra bằng một cách đơn giản hơn là tổng trọng số của giá trị hàm được liên kết với các đơn vị trong lớp ẩn.
Lớp đầu vào bao gồm biến trạng thái hệ thống x(i) trong đó i là một chỉ số biến đầu vào. Vectơ đầu vào Θ (t) ∈ R3 được chuyển cho lớp ẩn và được sử dụng để tính tốn đầu ra của ẩn đơn vị.
Trong lớp ẩn, Φj (t) là một vectơ chứa các phần tử [φ1 (t), ···, φh (t)], trong đó h là số đơn vị của ẩn. Hàm Gaussian được chọn làm hàm nhân của đơn vị ẩn của mạng RBF, do đó, kết quả đầu ra Φ (t) được hiển thị như sau:
(4.10)
trong đó, và lần lượt là vectơ tâm và độ rộng vô hướng của đơn vị. Vectơ tâm được xác định như sau:
(t) := (4.11)
Lớp thứ ba được gọi là lớp đầu ra, nơi có liên quan đến kết quả đầu ra của Actor - Critic. Các kết quả đầu ra được tính tốn một cách đơn giản và trực tiếp, các tham số PID, K (t) như sau:
(4.12)
với trọng số giữa đơn vị ẩn thứ j và đầu ra lớp của Actor. Hàm giá trị của Critic có thể là thu được như sau:
(4.13)
trong đó (t) biểu thị trọng số giữa đơn vị ẩn thứ j và lớp đầu ra của Critic. Các trọng số đầu ra khác nhau đó có thể được đào tạo bằng thuật tốn học dựa trên gradient. Do đó, có thể lấy quy tắc cập nhật thích ứng theo các thơng số tự định nghĩa. Tín hiệu tăng cường trong nghiên cứu này được định nghĩa là:
(4.14)
cho biết sự khác biệt giữa hiệu suất dự đoán và giá trị tham chiếu. Sau đó, lỗi TD trở thành:
(4.15)
Hàm chi phí được biểu thị như sau:
(4.16)
Do đó, các phương trình đạo hàm riêng đối với mỗi trọng số đầu ra của Actor như sau:
(4.17) trong đó, là tỷ lệ học tập, và
(4.18)
(4.20)
Cần chú ý đến các thông tin về hệ Jacobian ∂y (t + 1) / ∂u (t). Xem xét quan hệ , sau đó phương trình Jacobian thu được là:
(4.21)
với sign () = 1 () , -1 (). Dựa trên giả thiết trên, dấu của hệ thống Jacobian có thể được lấy, Quy tắc cập nhật cho trọng lượng đầu ra của Critic là
(4.22)
với learning rate = .
Các tâm và độ rộng của các đơn vị ẩn trong lớp ẩn được coi là được cập nhật theo những cách sau: cùng với (4.24)
trong đó, và là learning rate của tâm và chiều rộng tương ứng. 4.2.3. Tổng quan về thuật tốn
Hình 4. 3: : Sơ đồ tổng quan thuật toán
● Triển khai thuật toán
Các bước thiết kế của bộ điều khiển PID thích ứng được đề xuất theo cấu trúc Actor-Critic dựa trên mạng RBF như sau:
1. Khởi tạo giá trị tức thời t = 0, tín hiệu điều khiển đầu vào u(0) và tín hiệu tham chiếu yd (t).
2. Khởi tạo các tham số và đặt giá trị learning rate αw, αv, αµ, ασ . 3. Bắt đầu vịng lặp t = 1: EndTime
4. Đo đầu ra hệ thống y (t) và sau đó có thể thu được sai số hệ thống e (t). 5. Tính tốn hàm nhân trong lớp ẩn
6. Tính tốn đầu ra của Actor, đó là các tham số PID hiện tại từ (4) và đầu ra của hàm giá trị Critic V (t) tại thời điểm t
7. Nhận tín hiệu điều khiển hiện tại bằng cách
∆u(t) = KI(t)e(t) − Kp(t)∆y(t) − Kd(t)∆2y(t). (4.25)
8. Áp dụng tín hiệu điều khiển cho hệ thống được điều khiển và mang lại giá trị dự đoán của đầu ra hệ thống y (t + 1).
Θ (t + 1) := [e(t + 1),∆y(t + 1),∆2y(t + 1)]T. (4.26)
10.Tính giá trị hàm V (t + 1) 11.Lấy lỗi TD δTD(t) từ hàm
12.Cập nhật trọng số của các tham số PID và trọng số của hàm giá trị. 13.Cập nhật các trung tâm và độ rộng của các hàm chức năng của RBF 14.Kết thúc vòng lặp
4.3. Thử nghiệm mơ hình trên mơ phỏng
4.3.1. Lunar Lander Continuous Environment
Landing pad luôn ở tọa độ (0,0). Tọa độ là hai số đầu tiên trong vector trạng thái. Phần thưởng cho việc di chuyển từ đầu màn hình đến bệ hạ cánh và tốc độ bằng không là khoảng 100 - 140 điểm. Nếu tàu đổ bộ di chuyển khỏi bệ hạ cánh, nó sẽ mất phần thưởng trở lại. Tập kết thúc nếu tàu đổ bộ gặp sự cố hoặc nghỉ ngơi, nhận thêm -100 hoặc +100 điểm. Mỗi điểm tiếp xúc đất ở chân là +10. Kích hoạt động cơ chính là -0,3 điểm mỗi khung. Đã giải được 200 điểm. Có thể hạ cánh bên ngoài bãi đáp. Nhiên liệu là vơ hạn, vì vậy một đặc vụ có thể học cách bay và sau đó hạ cánh trong lần thử đầu tiên. Bốn hành động rời rạc có sẵn: khơng làm gì cả, bán động cơ định hướng bên trái, bán động cơ chính, bán động cơ định hướng bên phải.
Quá trình điều khiển và điều chỉnh PID đặt cố định tham số I, D lần lượt thay đổi giá trị P là (0, 0.5, 1, 1.5, 2) được kết quả theo biểu đồ, màu cam đại diện cho “SetPoint”, màu xanh đại điện cho “Feedback”, bên trái là angular controller, bên phải là vertical controller:
● P = 0, I = 0, D = 0
● P = 0.5, I = 0, D = 0
● P = 1, I = 0, D = 0
● P = 2, I = 0, D = 0
Từ biểu đồ thấy rõ việc điều chỉnh PID bằng cách đặt giá trị là (1,0,0) cho kết quả tối ưu trong quá trình điều khiển bay cả về điều khiển dọc và góc.
Áp dụng mơ hình tự điều khiển PID, với siêu tham số: gamma = 0.99, learning rate (actor = 0.01, critic = 0.001), để điều khiển online learning dò tự động bộ tham số PID trong quá trình bay, kết quả được ghi lại như sau:
● Lần bay 1:
● Lần bay 60:
Qua quá trình huấn luyện một số lượng nhất định bộ điều khiển PID sẽ liên tục điều chỉnh, tự động tìm và đặt giá trị cứ trong khi một khoảng thời gian hoạt
động nhất định. Điều này có thể tiết kiệm thời gian trong thực tế vì nó có thể bỏ qua q trình điều chỉnh phải huấn luyện từ đầu khi thiết bị được đưa vào môi trường thực và hoạt động đúng với yêu cầu.
4.3.2. Track Point Environment
Mục tiêu là giữ cho vòng tròn màu đỏ càng gần con trỏ chuột màu xanh càng tốt. Nói cách khác, điểm đặt được định nghĩa là vị trí của con trỏ chuột và lỗi được định nghĩa là khoảng cách (có hướng) giữa vịng trịn màu đỏ và con trỏ chuột. Bằng cách điều chỉnh hệ số PID, khả năng theo dõi con trỏ của vòng tròn màu đỏ có thể được nâng cao.
Hình 4. 5: Mơ phỏng Track point
Kết quả quá trình huấn luyện khi sử dụng mơ hình để tự động dị bộ PID như sau:
x y
Lần thứ 1
Lần thứ 48
4.4. Thử nghiệm trên khí tài quang
Trên cơ sở sơ đồ tổng quan thuật tốn, xây dựng mơ hình cụ thể cho bài toán bám mục tiêu di chuyển trên bệ khí tài quang như sau:
Hình 4. 6: Sơ đồ thuật tốn trên khí tài quang
Q trình bám mục tiêu được thực hiện trên 2 kênh góc: góc tầm và góc hướng, mơ hình điều khiển trên 2 kênh này là hồn tồn giống nhau, vì vậy chúng tơi chỉ nghiên cứu mơ hình điều khiển 1 kênh, 1 động cơ.
Khi mục tiêu trong trường nhìn của camera, tọa độ góc của mục tiêu sẽ được xác định bởi bộ bám ảnh (sử dụng các thuật toán bám ảnh như KCF, CSRT). Sai số góc giữa vị trí mục tiêu và trục tâm camera được bộ bám ảnh tính tốn và gửi về cho bộ điều khiển, đồng thời là cơ sở xác định reward cho RL agent. Bộ điều khiển dựa trên các tham số PID được thiết lập bởi RL agent để đưa ra tín hiệu điều khiển đến động cơ quay camera. Bộ điều khiển đạt đến
trạng thái lý tưởng khi mục tiêu di chuyển, bộ điều khiển đưa ra tốc độ phù hợp cho động cơ để bám theo mục tiêu và giữ được cho mục tiêu ở chính giữa trục camera. Sai số giữa trục tâm camera và vị trí mục tiêu càng nhỏ thì reward cho agent càng lớn.
4.5. Đánh giá và nhận xét
4.5.1. Kết quả thử nghiệm
Qua quá trình nghiên cứu bộ điều khiển PID thích ứng theo cấu trúc Actor- Critic dựa trên mạng RBF cho các hệ thống phi tuyến. Một quy tắc cập nhật thích ứng mới đã được trình bày thơng qua cập nhật trọng số trong mạng. Đầu tiên, bộ điều khiển PID thông thường kết hợp với việc học tăng cường trên cơ sở mạng RBF và PID được điều chỉnh theo cách trực tuyến. Tín hiệu tăng cường được xác định bằng cách xem xét đầu ra dự đốn, do đó, bản cập nhật có thể thực hiện một cách chính xác. Sau đó, lớp ẩn của mạng RBF là chia sẻ bởi Actor và Critic. Khơng gian lưu trữ có thể được tiết kiệm và giảm chi phí tính tốn cho các kết quả đầu ra của các đơn vị ẩn. Ngồi ra, các thơng số PID ban đầu được đặt bằng 0, có nghĩa là khơng cần biết kiến thức trước về hệ thống được kiểm sốt. Cuối cùng, số các mơ phỏng đã được đưa ra để chỉ ra hiệu quả và tính khả thi của sơ đồ đề xuất cho các hệ thống phi tuyến phức tạp. Các thông số PID dựa trên quy tắc cập nhật thích ứng đạt đến giá trị khơng đổi.
Áp dụng cho quá trình thử nghiệm trên thiết bị nhận thấy q trình học cịn mất nhiều thời gian. Ngồi ra sự thiếu sót của chương trình đề xuất là một số tham số do người dùng chỉ định cần thiết để thiết lập bởi các thử nghiệm thực nghiệm và chúng không thể vượt quá một phạm vi nhất định.
4.5.2. Nhận xét
Trong quá trình tìm hiểu, kiến thức cịn nhiều thiếu sót và hạn chế, các nội dung đã thực hiện vẫn còn một số tồn tại cần tiếp tục nghiên cứu và giải quyết như sau:
-Vấn đề cải thiện tốc độ học, điều chỉnh các miền giá trị giảm thiểu chi phí tính tốn cho kết quả đầu ra được chính xác dựa trên thơng số biết trước của hệ thống.
- Khả năng dự đốn vẫn cịn nhiều sai lệch khi đưa ra bộ PID phù hợp, giữa kết quả mô phỏng và kết quả chạy trên thiết bị khí tài, cần phải tiếp tục cải thiện thuật toán tăng cường khả năng luyện thực tiễn.
- Huấn luyện thực tiễn trên khí tài cịn ít thời gian, chưa đánh giá được chính xác tồn bộ khi thuật tốn hoạt động.
Việc giải quyết các mặt tồn tại kể trên cũng là trọng tâm nghiên cứu của nhóm thực hiện đề tài trong thời gian tới. Khi diễn biến dịch ổn định hơn, q trình thử nghiệm, điều chỉnh thuật tốn vẫn sẽ được tiếp tục thực hiện và tiến hành triển khai thiết bị tại các đơn vị cơ sở.
4.6. Tóm tắt chương 4
Trong hệ thống bệ Camera ổn định trên tàu, điều khiển cấu trúc biến dựa trên luật tiếp cận theo cấp số nhân được thiết kế dựa trên thực tế là mơ hình hệ thống và các tham số khơng chính xác với chuyển động của bệ quay chịu tác động của ma sát và nhiễu bên ngồi. Bởi vì điều khiển cấu trúc biến được dựa trên trạng thái hiện tại của hệ thống (như độ lệch và các dẫn xuất khác nhau) trong quy trình động để thực hiện thay đổi tham số điều khiển, buộc hệ thống
phải di chuyển theo quỹ đạo của chế độ trượt được xác định trước. Hệ thống không nhạy cảm với các tham số và nhiễu, không yêu cầu một mơ hình động chính xác. Điều khiển này có thể khắc phục ảnh hưởng của ma sát và cải thiện độ chính xác theo dõi của hệ thống Servo. Các thí nghiệm và mơ phỏng tiếp tục cho thấy rằng điều khiển cấu trúc biến đổi tốt hơn so với điều khiển PID truyền thống và hiệu ứng động của bộ điều khiển có thể được đánh giá dựa trên mơ