Bài viết giới thiệu một giải pháp đơn giản để cài đặt thuật toán điều khiển tối ưu thích nghi cho bài toán LQ. Giải pháp này giúp giảm được phần lớn số biến vi phân cần cài đặt, kéo theo là giảm được nhiều phép tính phải thực hiện trong thuật toán.
Nghiên cứu khoa học công nghệ MỘT GIẢI PHÁP CÀI ĐẶT ĐƠN GIẢN CHO THUẬT TOÁN ĐIỀU KHIỂN TỐI ƯU THÍCH NGHI Nguyễn Dỗn Phước*, Trịnh Hồng Minh, Nguyễn Hồi Nam Tóm tắt: Bài báo giới thiệu giải pháp đơn giản để cài đặt thuật toán điều khiển tối ưu thích nghi cho tốn LQ Giải pháp giúp giảm phần lớn số biến vi phân cần cài đặt, kéo theo giảm nhiều phép tính phải thực thuật toán Giải pháp báo triển khai cho học thích nghi trực tuyến học thích nghi ngoại tuyến Các kết mơ sau xác nhận tính áp dụng giải pháp Từ khóa: Điều khiển thơng minh; Điều khiển học tăng cường; Phương pháp biến phân; Quy hoạch động ĐẶT VẤN ĐỀ Trong năm gần đây, khái niệm “Điều khiển thơng minh” nói đến nhiều gần trở thành xu thế, thành “mốt” thời đại 4.0 Dưới tên gọi điều khiển thơng minh nhóm phương pháp, điều khiển mờ, điều khiển mạng neural, điều khiển học lặp, điều khiển học tăng cường [1], Điểm chung phương pháp điều khiển thông minh đó, thơng tin động học cần thiết cho việc phân tích thiết kế điều khiển, khơng cần phải lấy từ mơ hình tốn đối tượng, thay vào từ liệu khứ đo hệ thống Chẳng hạn toán thiết kế điều khiển tối ưu phản hồi trạng thái cho hệ tuyến tính, mơ tả mơ hình gồm hai ma trận ( A, B) : x Ax Bu (1) bị ràng buộc hàm mục tiêu dạng toàn phương: J x Qx u Ru dt T T (2) có Q QT bán xác định dương, R RT xác định dương, cịn gọi điều khiển LQR, việc thiết kế điều khiển khơng cịn cần sử dụng đến hai ma trận ( A, B) mơ hình (1), thay vào từ liệu vào u trạng thái x đo hệ Phương pháp thiết kế “thơng minh” có tên gọi “xấp xỉ tối ưu” hay “tối ưu thích nghi” [2, 3] “Tối ưu thích nghi” cơng cụ điều khiển học tăng cường Vai trị “là cơng cụ chính” tối ưu thích nghi cịn lấn át công cụ khác điều khiển tăng cường đến mức mà nhiều tài liệu gọi ln điều khiển học tăng cường, ví dụ [3, 4] Do việc có tính chất động học hệ thống từ liệu đo khứ, thay từ mơ hình tốn, nên phương pháp tối ưu thích nghi có hình thái giống thuật tốn “học để điều khiển” Vì vậy, nhiều tài liệu gọi thuật tốn học tối ưu thích nghi, hay quy hoạch động thích nghi [5-7] Có nhiều dạng cài đặt khác cho thuật toán học tối ưu thích nghi Theo chúng tơi, phân chia theo cách rời rạc hóa để thực thi thiết bị điều khiển số có ba dạng gồm (i) rời rạc hóa từ tốn tối ưu ban đầu với tập biến trạng thái giả thiết hữu hạn [5-7], (ii) rời rạc hóa tốn tối ưu với tập trạng thái vô hạn, đếm [2, 5, 6] (iii) rời rạc hóa kết liên tục cuối thu [2-6] Tất nhiên, việc rời rạc hóa kết liên tục thu cuối toán tối ưu sát với đối tượng hơn, nên chứa đựng sai lệch Tuy nhiên, số bước thực lại nhiều phức tạp hơn, kéo theo nguy tích lũy sai số tính tốn cao Tạp chí Nghiên cứu KH&CN qn sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 19 Kỹ thuật Điều khiển – Tự động hóa Ở báo này, chúng tơi tập trung giới thiệu giải pháp cài đặt thuật toán học tối ưu thích nghi đơn giản cho tốn LQ (1)-(2), sở rời rạc hóa kết liên tục cuối thu tốn tối ưu đó, với “mẹo” nhỏ xác định giá trị tích phân khoảng thời gian vô bé thông qua xấp xỉ (loại loại hai) nó, tức xấp xỉ tích phân tích giá trị trung bình hàm dấu tích phân thời điểm đầu, cuối khoảng thời gian lấy tích phân Nó gọi báo “thuật tốn cải biên” Nhân đây, cần có vài lời bàn thêm tên gọi “quy hoạch động thích nghi” hay “học tối ưu thích nghi” Trong hầu hết tài liệu tham khảo [2-7], người ta gọi chung “học tối ưu thích nghi” “quy hoạch động thích nghi”, cho trường hợp toán điều khiển tối ưu LQ (1)-(2) hệ tuyến tính Điều khơng đúng, phần tảng sở trình bày sau mục cho thấy, lời giải tốn LQ (1)-(2) hồn tồn khơng sử dụng đến nguyên lý tối ưu Bellman, tác giả quy hoạch động, “đoạn cuối quỹ đạo tối ưu tối ưu” Nó sử dụng cơng cụ phương pháp biến phân (variation) học cổ điển Theo dịng lịch sử áp dụng phương pháp biến phân cho hệ rời rạc, người ta phát rằng, để có dãy giá trị tín hiệu điều khiển tối ưu, cần phải xác định ngược biến đồng trạng thái từ điểm cuối đến điểm đầu [8] Theo chúng tơi, có lẽ phát mấu chốt gợi ý cho Bellman đến nguyên lý tối ưu từ xây dựng thành công phương pháp quy hoạch động mở rộng cho tốn tối ưu hệ liên tục phi tuyến thơng qua phương trình Hamilton-JacobiBellman (HJB) Vì vậy, để tơn trọng dịng lịch sử này, tơn trọng đóng góp phương pháp biến phân học cổ điển, riêng tốn tối ưu LQ (1)-(2), ta gọi tên “tối ưu thích nghi”, thay “quy hoạch động thích nghi” NỘI DUNG CHÍNH 2.1 Lời giải từ phương pháp biến phân Xét lại toán tối ưu LQ (1)-(2) Từ lý thuyết biến phân biết học cổ điển nghiệm tốn [8]: u K x với K R1BT L (3) đó, L nghiệm xác định dương phương trình đại số Riccati: LBR1BT L LA AT L Q (4) Để tìm nghiệm K toán tối ưu LQ (1)-(2) theo hai công thức (3) (4), người ta thường dựa vào thuật tốn lặp Newton-Kleinman, có chất chuyển (3) phương trình Riccati (4) thành phương trình Lyapunov: A BK T L L A BK AT L LA LBK K T B T L AT L LA LBR 1BT L K T RR 1BT L Q K T RK (5) Phương trình Lyapunov ln có nghiệm L xác định dương với ma trận xác định dương Q K T RK A BK Hurwitz (xem chứng minh [8]) Thuật tốn lặp Newton-Kleinman có nhiệm vụ bước lặp thứ k , có K k ta cần phải xác định Lk K k 1 cho vòng lặp tiếp theo, suy từ (5) sau: A BKk T Lk Lk A BKk Ek , đó, Ek Q KkT RKk Kk 1 R 1BT Lk Cứ vậy, với k 0,1, 20 (6) (7) có hai điều sau: N D Phước, T H Minh, N H Nam, “Một giải pháp cài đặt … tối ưu thích nghi.” Nghiên cứu khoa học công nghệ Lk Lk 1 1 Kk 1 Kk ln có lim Lk L lim K k K , k (8) k đó, 1 , hai số dương đủ nhỏ cho trước Algorithm 1: Thuật toán Newton-Kleinman Khởi tạo với việc chọn K để A BK0 Hurwitz Gán k chọn 1 , while điều kiện (8) chưa thỏa mãn Tính A BK k Ek từ K k Tính Lk theo (6) Tính K k 1 từ Lk theo (7) Gán k k end while Đáp số K Kk 1 L Lk 2.2 Cải biên thuật toán on-policy-learning Thuật toán (Algorithm 1) chưa mang tính “thích nghi” cịn cần đến hai ma trận A, B, tức cần đến mơ hình tốn (1) đối tượng điều khiển Để loại bỏ A, B khỏi thuật toán, tài liệu [2- 4] giới thiệu xu hướng sử dụng kết đo online từ hệ mơ tả hình đây, để thay cho A, B Nếu ký hiệu thời điểm đầu vòng lặp k thuật toán Newton-Kleinman tk thời điểm cuối vịng lặp tk 1 vai trị hai ma trận A, B vịng lặp thay bới lk liệu trạng thái đo online vòng lặp đó, ký hiệu là: xk ,i x(tk i ), 1 lk , i 0,1, , lk tk lk tk 1 , (9) hệ kích thích bới đầu vào tín hiệu thử “tăng cường”: u(t ) Kk x ek (t ) với tk t tk 1 K k , Lk 1 Các phép đo liệu tính tốn vòng lặp x k ,1 tk tk 1 (10) K k 1 , Lk x k ,2 tk t tk 1 tk lk Hình Tác động thử “tăng cường” để xác định Lk , K k 1 vòng lặp Trong cơng thức (10) K k kết vòng lặp trước (vòng lặp thứ k ) ek (t ) tín hiệu bổ sung để với thu đầy đủ thơng tin động học hệ vịng lặp Nó gọi “nhiễu nhân tạo” Cũng theo tài liệu [2- 4] nhiễu nhân tạo ek (t ) cần chọn có biên độ nhỏ, nhằm khơng làm sai lệch nhiều u cho công thức (10), với tín hiệu điều khiển tối ưu K k x có từ vịng lặp trước Ngồi ra, để giá trị trạng thái x k ,i đo theo (9) chứa đựng nhiều đặc tính động học hệ, cần phải biến đổi nhanh Tuy nhiên, cụ thể phải chọn ek (t ) tốt [2-4] chưa có câu trả lời đầy đủ Việc thay vai trò hai ma trận A, B bới x k ,i thực nhờ quan hệ (10), (6) (7) sau: Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 21 Kỹ thuật Điều khiển – Tự động hóa d xT d T T dx T T x Lk x Lk x x Lk Ax Bu Lk x x Lk Ax Bu dt dt dt T T T x A BK k Lk Lk A BK k x 2e k BT Lk x Ek x 2e k RR 1 BT Lk x Ek x 2e k RK k 1 x T T T T Suy ra, sau tích phân hai vế khoảng thời gian từ tk i đến tk i 1 được: T x Lk x tk i 1 tk i tk i 1 tk tk i 1 x Ek x dt T i e T k tk RK k 1 x dt (11) i Rõ ràng (11) khơng cịn chứa A, B Công thức sử dụng để tính “thích nghi” đồng thời K k 1 Lk từ Ek Q KkT RKk vòng lặp k Để làm điều này, tác giả [2-4] tách riêng nghiệm Kk 1 , Lk cần tìm khỏi thành phần cịn lại (11) nhờ tốn tử vector hóa ma trận tích Kronecker sau (xem thêm phép tính [8]): xk , j Lk x k , j vec x k , j Lk x k , j x k , j x k , j vec Lk T tk i 1 tk i T T T tk i tk i1 T T T e RK k 1 x dt vec ek RK k 1 x dt x ek R dt vec( K k 1 ) t t (i 1) k i k T k T T x k ,i Lk x k ,i ek RKk 1 x vơ hướng Khi đó, (11) viết lại thành: x x T T tk i 1 tk i tk i 1 vec( Lk ) tk x ek R dt vec( K k 1 ) T T i tk i 1 tk x Ek x dt T i hay T T x x tk i 1 tk i tk i 1 , 2 tk i tk i 1 vec( Lk ) T x e R dt x Ek x dt vec( K k 1 ) tk i T T k (12) Viết lại (12) chung cho tất số i 0,1, , lk ta có đẳng thức giới thiệu tài liệu [3] sau: vec( Lk ) k k vec( K k 1 ) (13) đó: tk 1 T T T T T T , 2 x e k R dt x k ,1 x k ,1 x k ,0 x k ,0 tk tk T T xT xT xT xT , 2 x e k R dt k ,2 k ,2 k ,1 k ,1 k tk 1 tk lk T T T T T T x k ,lk x k ,lk x k ,lk 1 x k ,lk 1 , 2 x e k R dt tk lk 1 22 N D Phước, T H Minh, N H Nam, “Một giải pháp cài đặt … tối ưu thích nghi.” Nghiên cứu khoa học công nghệ tk 1 T tk 1 T T x Ek xdt x x dt tk tk tk tk T T T x Ek xdt x x dt k tk 1 vec( Ek ) tk 1 tk l tk l k k T T T x Ek xdt x x dt tk lk 1 tk lk 1 Nhìn vào hai cơng thức tính k , k thấy để cài đặt thuật toán, với x lấy từ đối tượng, ta cần tạo biến vi phân sau (bằng khâu tích phân): d z1 d z2 T T T T x ek R x x có đầu vào x(t ), ek (t ) dt dt mơ tả hình ek Bộ điều khiển tối ưu thích nghi e z1 u (14) x Đối tượng điều khiển Xác định biến vi phân thứ hai Xác định biến vi phân thứ ek Hình Cài đặt biến vi phân (14) Có thể thấy, việc tạo thêm biến vi phân (14) làm tăng đáng kể bậc mơ hình phải cài đặt Để tránh điều này, ta “cải biên” “động tác” nhỏ sau: Thay lk cho vòng lặp k số l đủ lớn, chung cho tất vòng lặp Đồng thời, thay i i với số dương đủ nhỏ chọn trước Khi đủ nhỏ thay cơng thức tích phân để tính k , k giá trị xấp xỉ loại Khi được: T T xTk ,1 xTk ,1 xTk ,0 xTk ,0 , 2 x k ,0 (e k ,0 R ) T T xT xT xT xT , 2 x k ,1 (ek ,1 R) k ,2 k ,2 k ,1 k ,1 k xTk ,l xTk ,l xTk ,l 1 xTk ,l 1 , 2 xTk ,l 1 (eTk ,l 1 R ) đó, ek ,i e(tk i ), i 0,1, (15) , l xTk ,0 xTk ,0 T T x k ,1 x k ,1 k vec( Ek ) xT xT k ,l 1 k ,l 1 Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 (16) 23 Kỹ thuật Điều khiển – Tự động hóa Từ đây, ta đến thuật tốn học thích nghi trực tuyến dạng cải biên sau: Algorithm 2: Thuật tốn học thích nghi trực tuyến “dạng cải biên” Khởi tạo với việc chọn K để A BK0 Hurwitz Gán k chọn 1 , , đủ nhỏ, l đủ lớn Gán tk while điều kiện (8) chưa thỏa mãn Chọn tín hiệu nhiễu nhân tạo ek (t ), tk t tk l Tính Ek từ K k theo (6) Kích thích hệ u cho (10) Đo xk ,i x(tk i ), i 0,1, , l xây dựng k ,k theo (15), (16) Tính Lk , K k 1 từ (13) Gán k k tk tk l end while Đáp số K Kk 1 L Lk Về thuật tốn ta có vài điều bàn thêm đây: Thời gian thực vịng lặp ln l Để phương trình (13) có nghiệm K k 1 Lk k phải có đủ hạng Cụ thể là, đối tượng điều khiển (1) có bậc n m đầu vào hệ phương trình (13) có tổng cộng nm n(n 1) biến cần tìm, gồm nm phần tử ma trận K k 1 n(n 1) phần tử ma trận đối xứng Lk Vậy ma trận k phải có hạng nm n(n 1) ta phải chọn l đủ lớn để có điều Nhìn cách tổng thể tính thích nghi thuật tốn chưa thể đầy đủ bước khởi tạo cần đến A, B hệ cho việc chọn K Nếu có thêm giả thiết hệ ban đầu ổn định với việc chọn K0 , tất phép tính thuật tốn lúc hồn tồn khơng cần đến A, B Lúc đó, tính thích nghi thuật tốn thực trở nên đầy đủ 2.3 Cải biên thuật tốn off-policy-learning Thuật tốn thích nghi ngoại tuyến cho toán LQ (1)-(2) tác giả [2-4] xây dựng dựa vào thuật toán trực tuyến gốc ban đầu với thay đổi giá trị trạng thái (9) lấy từ hệ thống cần đo lần nhất, sau đó, chúng sử dụng chung cho tất vòng lặp k Như vậy, ta không cần ký hiệu chúng giống làm (9) liệu khơng cịn phụ thuộc theo k Hơn nữa, sử dụng chung cho vòng lặp nên tất vòng lặp phải có chung i i với số đủ nhỏ chọn trước, đồng thời phải có lk l , k Bởi vậy, thay ký hiệu (9), ta ký hiệu lại tập liệu trạng thái đo là: xi x(i ), i 0,1, , l (17) Tương ứng, nhiễu nhân tạo, tác nhân để thu thập thơng tin, khơng cịn phụ thuộc k Do đó, ta ký hiệu lại cách đơn giản e(t ) sử dụng lần để thu thập tập liệu trạng thái (17) Với thay đổi trên, từ kết có phương pháp biến phân, dọc theo quỹ đạo tối ưu tốn LQ (1)-(2) ln có cho vòng lặp k : x Lk x x Qx u Ru dt hay T u 24 tk T T d T T T x Lk x x Qx u Ru , dt (18) N D Phước, T H Minh, N H Nam, “Một giải pháp cài đặt … tối ưu thích nghi.” Nghiên cứu khoa học cơng nghệ qua thay đổi nhỏ (18) thay hai thành phần u bởi: u(t ) Kk x e(t ) u(t ) Kk 1 x , được: d T T T x Lk x x Qx K k x e R K k 1 x dt x Qx K k x e RK k 1 x T T Từ đây, tương tự làm thuật toán học trực tuyến, ta đến kết có tài liệu [[3], [4]], là: T T x x t ( i 1) t ( i 1) t i , t i vec( Lk ) T x ( K k x e)T R dt vec( K k 1 ) t ( i 1) T x Qxdt t i hay vec( Lk ) k v vec( K k 1 ) (19) đó: T T T T , x1 x1 x x k T T T T xl xl xl 1 xl 1 , T T x ( K x e ) R dt k t t l T T x ( K x e ) R dt k t ( l 1) t (20) t T x Qxdt t v (21) t l T x Qxdt t ( l 1) Vậy sử dụng lại “mẹo” cải biên áp dụng thuật tốn trực tuyến trước đây, nhằm đơn giản hóa việc cài đặt việc giảm bớt biến vi phân: dz d z1 T T (22) x ( K k x e)T R x Qx dt dt (20) (21) ta đến công thức xấp xỉ loại k , v sau: T T T T x1 x1 x x , ( ) T T k với i xi ( Kk xi ei ) R T xl xTl xTl 1 xTl 1 , ( l l 1 ) Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 (23) 25 Kỹ thuật Điều khiển – Tự động hóa 1 0 T v với i xi Qxi 2 l l 1 (24) Suy ra, thuật tốn học thích nghi ngoại tuyến dạng cải biên gồm bước sau: Algorithm 3: Thuật toán học thích nghi ngoại tuyến “dạng cải biên” Khởi tạo với việc chọn K để A BK0 Hurwitz Gán k chọn 1 , , đủ nhỏ, l đủ lớn Chọn tín hiệu nhiễu nhân tạo e(t ) đưa tín hiệu thử u K0 x e vào đối tượng Thu thập tập gồm l giá trị trạng thái xi x(i ), i 0,1, , l từ hệ thống tính theo (24) while điều kiện (8) chưa thỏa mãn Tính k theo (23) xác định nghiệm Lk , K k 1 (19) Gán k k end while Đáp số K Kk 1 L Lk Lưu ý vector v không phụ thuộc k nên ta chuyển vào bước khởi tạo KIỂM CHỨNG NHỜ MƠ PHỎNG Để kiểm chứng tính khả thi thuật toán “cải biên”, sau đây, ta áp dụng chúng cho toán LQ (1)-(2) với tham số: x 3 1 0 x , A , B , Q R 1 0 0 16 x2 Bài tốn LQ có nghiệm xác, thu thơng qua giải trực tiếp phương trình đại số Riccati (4) sau thay vào điều khiển (3), là: 4 L K , 8 20 Trước tiên, ta sử dụng thuật tốn học thích nghi trực tuyến gốc ban đầu để xác định nghiệm L, K Với tham số khởi tạo: 0.1s, l 10, 1 5.104 , x0 (5 , 8)T , t0 0, K0 (1.5 , 3.5) (25) nhiễu nhân tạo ek (t ) e(t ) thỏa mãn: de(t ) 200cos 100t (26) dt ta thu kết thể hình Sự phụ thuộc số vòng lặp k nhiễu nhân tạo ek (t ) thời điểm tk bắt đầu vịng lặp Nói cách khác, vịng lặp k giá trị ek ,i nhiễu nhân tạo là: ek ,i e(tk i ) với i 0,1, , l Trục hoành hình biểu thị thời gian t , đồng thời số bước lặp k Thời gian cần thiết để hồn thành vịng lặp l 1s Do sau vòng lặp, tức sau 7s , điều kiện (8) thỏa mãn với kết quả: 26 N D Phước, T H Minh, N H Nam, “Một giải pháp cài đặt … tối ưu thích nghi.” Nghiên cứu khoa học cơng nghệ 4.0 8.0 L7 K8 4.0 , 8.0 8.0 20.0 nên kể từ thời điểm ta khơng cịn cần đến tín hiệu nhiễu nhân tạo Trong trường hợp sử dụng thuật tốn học thích nghi trực tuyến cải biên (Algorithm 2) với giá trị khởi tạo: 103 s, l 200, 1 5.103 , x0 (5 , 8)T , t0 0, K0 (1 , 0.5) (27) nhiễu nhân tạo e(t ) thỏa mãn: de(t ) e0.35t 15cos(10t ) 5cos(3t 0.2) 5cos(7t 0.1) dt ta kết hình Thời gian cần thiết để thực vòng lặp lúc l 1s So sánh hai kết mơ cho thấy, thuật tốn cải biên Algorithm 2, không sử dụng biến vi phân (14) song đảm bảo tính hội tụ thích nghi tới nghiệm tốn tối ưu LQ (1)-(2) Hình Học thích nghi trực tuyến (gốc) Hình Kết với Algoritm (cải biên) Tiếp theo, hình hình kết tương ứng thu sử dụng thuật toán học ngoại tuyến cho hai trường hợp khác nhau, có khơng có biến vi phân (22) Ở đây, ta sử dụng lại điều kiện đầu gần giống phần mô trước là: Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 27 Kỹ thuật Điều khiển – Tự động hóa 103 s, l 1000, 1 5.104 , x0 (5 , 8)T , t0 0, K0 (1.5 , 3.5) Nhiễu nhân tạo sử dụng chung cho hai trường hợp (26) cho trước đây, tức là: de(t ) 200cos 100t dt Hình Học thích nghi ngoại tuyến (gốc) Hình Kết với Algoritm (cải biên) Vì học ngoại tuyến, nên tín hiệu nhiễu nhân tạo tồn bước khởi tạo k , thấy hình hình Với liệu thời gian cần thiết để thực vòng lặp lúc l 1s Qua so sánh trực quan thấy rằng, chất lượng học thích nghi ngoại tuyến cho hai trường hợp, hoàn toàn tương đương nhau, với Algorithm 3, thuật toán học ngoại tuyến cải biên, số lượng phép tính cần thực giảm đáng kể bỏ việc cài đặt biến vi phân (xem lại minh họa hình 2) KẾT LUẬN Thơng qua xấp xỉ loại loại cơng thức tích phân, báo đơn giản hóa việc cài đặt thuật tốn học tối ưu thích nghi cho tốn tối ưu LQ (1)-(2) với hai kết thuật toán học thích nghi trực tuyến cải biên (Algorithm 2) thuật tốn học thích nghi ngoại tuyến cải biên (Algorithm 3) Kết mô ứng dụng hai thuật toán 28 N D Phước, T H Minh, N H Nam, “Một giải pháp cài đặt … tối ưu thích nghi.” Nghiên cứu khoa học công nghệ cải biên cho thấy, chúng mang lại chất lượng tương đương cài đặt trực tiếp thuật toán học trực tuyến hay ngoại tuyến gốc ban đầu, tức với việc cài đặt thêm biến vi phân (14) (22) Vấn đề lại cần nghiên cứu tiếp xác định điều kiện đủ cho việc chọn nhiễu nhân tạo e(t ) Nó nhiệm vụ tương lai Mã nguồn chương trình mơ sử dụng báo này, kể mã nguồn chương trình cài đặt trực tiếp với biến vi phân để so sánh, độc giả tìm thấy trang cá nhân tác giả: https://sites.google.com/view/minhhoangtrinh/others TÀI LIỆU THAM KHẢO [1] Zilouchian, A., and Jamshidi, M (eds.), “Intelligent Control Systems Using Soft Computing Methodologies”, CRC Press, 2001 [2] Bertsekas, D.P., “Dynamic programming and optimal control Volume 2: Approximate dynamic programming”, Athena Scientific, Belmont MA, 2012 [3] Jiang,Y and Jiang, Z.P., “Robust adaptive dynamic programming”, John Wiley and Sons Inc New Jersey, 2017 [4] Lewis, F.L , and Liu, D (eds.), “Reinforcement learning and approximate dynamic programming for feedback control”, John Wieley and Sons, 2013 [5] Bertsekas, D.P., “Approximate policy iteration: A survey and some new methods”, Report LIDS-P-2833, MIT, Journal of control theory and applications, Vol.9, pp 310-315, 2010 [6] Busoniu, L., Bruin, T., Tolic, D., Kober, J., and Paluco, I., “Reinforcement learning for control: Performance, stability, and deep approximators”, Annual Reviews in Control, ScienDirect, Elsevier, Volume 46, Pages 8-28, 2018 [7] Sutton, R.S and Barto, A.G, “Reinforcement Learning: An Introduction”, The MIT Press, Cambridge, Massachusetts, London, England, 2017 [8] Phước,N.D “Tối ưu hóa điêu khiển điều khiển tối ưu”, NXB Bách khoa, 2016 ABSTRACT A SIMPLE APPROACH TO IMPLEMENT OPTIMAL ADAPTIVE CONTROL ALGORITHM The paper introduces a simple approach to implement optimal adaptive control algorithms for LQ optimal problems This approach helps to reduce a huge number of differential variables to implement, which implies consequently the reduction of many operations to carry out In this paper the approach has been also realized for both on-policy-learning algorithm and off-policy-learning algorithm Simulation results afterward have confirmed the applicability of introduced approach Keywords: Intelligent control; Reinforcement learning control; Variation technique; Dynamic programming Nhận ngày 16 tháng năm 2020 Hoàn thiện ngày 05 tháng 10 năm 2020 Chấp nhận đăng ngày 05 tháng 10 năm 2020 Địa chỉ: Bộ môn ĐKTĐ, Viện Điện, Đại học Bách khoa Hà Nội * Email: phuoc.nguyendoan@hust.edu.vn Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 29 ... phân, báo đơn giản hóa việc cài đặt thuật tốn học tối ưu thích nghi cho tốn tối ưu LQ (1)-(2) với hai kết thuật tốn học thích nghi trực tuyến cải biên (Algorithm 2) thuật toán học thích nghi ngoại...Kỹ thuật Điều khiển – Tự động hóa Ở báo này, tập trung giới thiệu giải pháp cài đặt thuật tốn học tối ưu thích nghi đơn giản cho toán LQ (1)-(2), sở rời rạc hóa kết liên tục cuối thu tốn tối ưu. .. dụng hai thuật tốn 28 N D Phước, T H Minh, N H Nam, ? ?Một giải pháp cài đặt … tối ưu thích nghi. ” Nghi? ?n cứu khoa học công nghệ cải biên cho thấy, chúng mang lại chất lượng tương đương cài đặt trực