Điều khiển tối ưu bền vững kích hoạt sự kiện dùng học củng cố áp dụng cho hệ truyền động PMSM p1

34 5 0
Điều khiển tối ưu bền vững kích hoạt sự kiện dùng học củng cố áp dụng cho hệ truyền động PMSM p1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ CÔNG THƢƠNG TRƢỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH ĐẶNG QUANG MINH ĐIỀU KHIỂN TỐI ƢU BỀN VỮNG KÍCH HOẠT SỰ KIỆN DÙNG HỌC CỦNG CỐ ÁP DỤNG CHO HỆ TRUYỀN ĐỘNG PMSM Chuyên ngành K THUẬT ĐIỆN TỬ Mã chuyên ngành 8520203 LUẬN VĂN THẠC SĨ THÀNH PHỐ HỒ CHÍ MINH, NĂM 2021 Công trình đƣợc hoàn thành tại Trƣờng Đại học Công nghiệp TP Hồ Chí Minh Ngƣời hƣớng dẫn khoa học PGS TS Nguyễn Tấn L y Luận v n thạc s đƣợc ảo vệ tại Hội đồng chấm ảo vệ Luận v n thạc s Trƣờng Đại học Công nghiệp thành phố.

BỘ CÔNG THƢƠNG TRƢỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH ĐẶNG QUANG MINH ĐIỀU KHIỂN TỐI ƢU BỀN VỮNG KÍCH HOẠT SỰ KIỆN DÙNG HỌC CỦNG CỐ ÁP DỤNG CHO HỆ TRUYỀN ĐỘNG PMSM Chuyên ngành: K THUẬT ĐIỆN TỬ Mã chuyên ngành: 8520203 LUẬN VĂN THẠC SĨ THÀNH PHỐ HỒ CHÍ MINH, NĂM 2021 Cơng trình đƣợc hồn thành Trƣờng Đại học Cơng nghiệp TP Hồ Chí Minh Ngƣời hƣớng dẫn khoa học: PGS TS Nguyễn Tấn L y Luận v n thạc s đƣợc ảo vệ Hội đồng chấm ảo vệ Luận v n thạc s Trƣờng Đại học Công nghiệp thành phố Hồ Chí Minh ngày 29 tháng 01 n m 2021 Thành phần Hội đồng đánh giá luận v n thạc s gồm: - Chủ tịch Hội đồng - Phản iện - Phản iện - Ủy viên - Thƣ ký CHỦ TỊCH HỘI ĐỒNG TRƢỞNG KHOA CN ĐIỆN TỬ BỘ CƠNG THƢƠNG CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƢỜNG ĐẠI HỌC CÔNG NGHIỆP Độc lập - Tự - Hạnh phúc THÀNH PHỐ HỒ CHÍ MINH NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Đ ng Quang Minh MSHV: 18104631 Ngày, tháng, n m sinh: 09/04/1973 Nơi sinh: TPHCM Chuyên ngành: K thuật điện tử Mã chuyên ngành: 8520203 I TÊN ĐỀ TÀI: “Điều khiển tối ƣu ền vững kích hoạt kiện dùng học củng cố áp dụng cho hệ truyền động PMSM” NHIỆM VỤ VÀ NỘI DUNG: - Thiết kế luật điều khiển truyền th ng để chuyển đổi ài toán điều khiển hệ phi tuyến truyền ngƣợc thành ài toán điều khiển hệ phi tuyến affine tƣơng đƣơng; thiết kế luật điều khiển tối ƣu kích hoạt kiện để loại ảnh hƣởng nhiễu - Thiết kế thuật toán điều khiển truyền th ng tối ƣu kích hoạt kiện để loại bỏ thủ tục nhận dạng, loại bỏ điều kiện kích thích hệ thống PE (Persistent Excitation) điều khiển thích nghi Chứng minh ổn định hệ kín sử dụng lý thuyết Lyapunov Chứng minh sai số xấp xỉ bị ch n hàm chi phí hội tụ giá trị cận tối ƣu Áp dụng thuật toán điều khiển cho hệ truyền động PMSM bị ràng buộc ngõ vào, bị tác động nhiễu tham số bất định II NGÀY GIAO NHIỆM VỤ: Thực Quyết định số 841/QĐ-ĐHCN ngày 10/07/2020 Trƣờng Đại Học Công Nghiệp Thành Phố Hồ Chí Minh việc giao đề tài cử ngƣời hƣớng dẫn luận v n thạc s III NGÀY HOÀN THÀNH NHIỆM VỤ: 25/01/2021 IV NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS TS Nguyễn Tấn L y Tp Hồ Chí Minh, ngày … tháng 01 năm 2021 NGƢỜI HƢỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO TRƢỞNG KHOA CN ĐIỆN TỬ LỜI CẢM ƠN Mƣời tám n m ch ng đƣờng, không dài nhƣng c ng không ngắn đời ngƣời Trải qua thời gian kể từ ngày tốt nghiệp đại học nay, kh kh n việc tiếp thu kiến thức ngƣời ngoại đạo không đ ng chuyên ngành đ th c không ngừng cố gắng tìm hiểu trau dồi Tuy nhiên kết đạt đƣợc c ng giới hạn định so với kiến thức vô ến nh n loại ản thân sau n m tháng học tập vất vả nghiên cứu c ng đ cố gắng để hồn thành đƣợc luận v n Tơi ghi nhận đ ng g p giúp đỡ, ủng hộ, hỗ trợ nhiệt tình ngƣời bên cạnh mình, nh n đ y tơi muốn gửi lời cảm ơn s u sắc tới họ Lời cảm ơn tr n trọng muốn dành tới PGS.TS Nguyễn Tấn L y, ngƣời thầy, ngƣời đồng nghiệp, ngƣời anh đ dìu dắt hƣớng dẫn tơi suốt q trình làm luận v n, bảo định hƣớng thầy giúp tự tin nghiên cứu vấn đề giải toán cách khoa học Lời cảm ơn s u sắc muốn đƣợc gửi tới thầy cô đ truyền đạt mở cho thấy chân trời tri thức mới, hƣớng dẫn cách khám phá làm chủ công nghệ Tôi muốn gửi lời cảm ơn ch n thành đến tập thể lớp CHĐT8 đ qua tháng ngày miệt mài học tập, chia sẻ niềm vui nỗi buồn, động viên qua kh kh n, để vững ƣớc vƣợt qua vất vả, tâm hoàn thành luận v n Tôi xin tr n trọng cảm ơn vợ, đ mang tới tất niềm tin, định hƣớng theo dõi suốt ch ng đƣờng đời N ng đỡ đến bên gi y ph t kh kh n sống mà tƣởng chừng vƣợt qua Tôi xin ch n thành cảm ơn an l nh đạo Khoa Công nghệ Điện tử đồng nghiệp, đ tạo điều kiện gi p đỡ công việc học tập để tơi theo học hồn thành khóa luận tốt nghiệp Đ c iệt thầy Nguyễn Thanh Đ ng cô Hu nh Tuyết Vy nh m nghiên cứu khoa học, đ không quản ngại kh kh n ngày đêm đồng hành suốt trình thực đề tài Cuối cùng, tơi gửi lời cảm ơn tới thầy Phạm Công Khoa Công nghệ Điện đ hỗ trợ nhiệt tình để tơi c thể thực nghiệm đƣợc i uy TÓM TẮT LUẬN VĂN THẠC SĨ Một phƣơng pháp điều khiển cho động đồng nam ch m v nh cửu (Permanent Magnet Synchronous Motors-PMSM) với động học chƣa iết, điện áp bão hịa, nhiễu tốc độ dịng điện Bài tốn bám tốc độ dịng điện cấu tr c thơng thƣờng đƣợc chuyển thành ài toán điều khiển tối ƣu với cấu trúc điều khiển truyền th ng, từ đ luật điều khiển tối ƣu kích hoạt kiện đƣợc thiết kế Nghiệm phƣơng trình Hamilton-Jacobi-Issac (HJI), cung cấp giá trị cho luật điều khiển luật nhiễu xấu nhất, đƣợc ƣớc lƣợng xấp xỉ hàm trực tuyến đơn giản, áp dụng kỹ thuật học củng cố không cần nhận dạng động học chƣa biết PMSM Hàm đánh giá, luật điều khiển luật nhiễu xấu đƣợc chứng minh hội tụ giá trị cận tối ƣu Mô số thực nghiệm mơ hình PMSM có so sánh với thuật toán điều khiển kinh điển PID (Proportional Integral Derivative) đƣợc thực để kiểm chứng tính hiệu phƣơng pháp đề xuất ii ABSTRACT A new control method for permanent magnet synchronous motors (PMSM) with partially unknown dynamics, saturation voltages, and disturbances in both speed and current dynamics The tracking problem of speed and current in conventional structures is transformed into the optimal control problem with the new structure by feedforward control, based on which the event-triggered optimal control law is designed The solution of the Hamilton-Jacobi-Issac equation (HJI), providing a value for control and worst disturbance laws, is approximated by a simple online approximator using reinforcement learning without observing unknown dynamics of PMSM The value function, the control and worst disturbance laws are proven to be converged on the near-optimal values Numerical simulation and experiment on model PMSM in comparison with classical control algorithm PID (Proportional Integral Derivative), is performed to verify the method iii effectiveness of the proposed LỜI CAM ĐOAN Tôi xin cam đoan đ y cơng trình nghiên cứu ản th n Các kết nghiên cứu kết luận luận v n trung thực, không chép từ ất k nguồn dƣới ất k hình thức Việc tham khảo nguồn tài liệu (nếu c ) đ đƣợc thực trích dẫn ghi nguồn tài liệu tham khảo đ ng quy định Học viên Đ n Qu n Min iv MỤC LỤC LỜI CẢM ƠN i TÓM TẮT LUẬN VĂN THẠC S ii ABSTRACT iii LỜI CAM ĐOAN iv MỤC LỤC v DANH MỤC HÌNH ẢNH viii DANH MỤC ẢNG IỂU x DANH MỤC TỪ VIẾT TẮT xi KÝ HIỆU xiv MỞ ĐẦU 1 Đ t vấn đề Mục tiêu nghiên cứu Đối tƣợng phạm vi nghiên cứu Cách tiếp cận phƣơng pháp nghiên cứu Ý ngh a thực tiễn đề tài CHƢƠNG 1.1 TỔNG QUAN VỀ L NH VỰC NGHIÊN CỨU Tổng quan đề tài 1.1.1 Khái niệm học củng cố 1.1.2 Lịch sử phát triển RL điều khiển 1.2 Tổng quan điều khiển tối ƣu ền vững 11 1.3 Tổng quan điều khiển cho hệ truyền động PMSM 13 1.4 Tổng quan chế kích hoạt kiện 15 CHƢƠNG CƠ SỞ LÝ THUYẾT 17 2.1 Các định ngh a 17 2.2 Lý thuyết học củng cố 18 2.3 Các giải thuật học củng cố kinh điển 20 2.3.1 Giải thuật VI ( Value Iteration ) 20 2.3.2 Giải thuật PI (Policy Iteration) 21 2.3.3 Giải thuật Q-Learning 22 2.3.4 Giải thuật trích thích nghi ( Adaptive Critic-AC) 24 2.4 Xấp xỉ hàm RL 25 v 2.4.1 Sự cần thiết phải sử dụng xấp xỉ hàm RL 25 2.4.2 Yêu cầu xấp xỉ hàm RL 26 2.5 Giải thuật học củng cố điều khiển tối ƣu ền vững 27 2.6 Giới thiệu điều khiển OC ( ield Oriented Control) 28 2.7 Động PMSM 29 2.7.1 Mơ hình điện từ động đồng nam ch m v nh cửu 31 2.7.2 Từ trƣờng quay 31 2.7.3 Phƣơng trình học 34 2.8 iến đổi Clarke: 35 2.9 iến đổi Park 36 2.10 iến đổi Park ngƣợc 39 2.11 Điều chế độ rộng xung: 40 2.12 IGBT 40 2.13 Giới thiệu phần cứng điều khiển OC 41 2.13.1 Code Composer StudioTM 41 2.13.2 Card điều khiển Piccolo F28035 42 2.13.3 Bộ xử lý tín hiệu kỹ thuật số 42 2.13.4 Quản lý liệu 43 2.13.5 Tín hiệu ng vào / ng 43 2.13.6 Điều chế độ rộng xung 44 2.13.7 Chuyển đổi tƣơng tự sang k thuật số 44 2.13.8 Điều khiển động k thuật số điện áp cao 44 2.13.9 Hiệu suất FOC 46 CHƢƠNG ĐIỀU KHIỂN BÁM TỐI ƢU CHO PMSM VỚI ĐỘNG HỌC KHƠNG BIẾT, ĐIỆN ÁP BÃO HỊA VÀ NHIỄU NGỒI 47 3.1 PMSM điều khiển truyền th ng 47 3.1.1 Hệ thống phi tuyến PMSM phản hồi nghiêm ng t 47 3.1.2 Điều khiển truyền th ng 48 3.2 Điều khiển ám tối ƣu 53 3.2.1 Phƣơng trình HJI cho điều khiển PMSM 53 3.2.2 Luật điều khiển bám tối ƣu thích nghi o hịa 55 3.3 So sánh ộ chất lƣợng điều khiển AOC PIC 57 3.4 Điều khiển tối ƣu H  kích hoạt kiện với ràng buộc ng vào nhiễu ngồi 61 vi 3.4.1 Phƣơng trình HJI kích hoạt kiện 62 3.4.2 Thuật tốn điều khiển tối ƣu kích hoạt kiện H  62 3.4.3 Ph n tích độ ổn định 66 3.4.4 Thời gian tối thiểu kiện 70 CHƢƠNG 4.1 KẾT QUẢ V Đ NH GI 73 Kết thực nghiệm 73 CHƢƠNG KẾT LUẬN VÀ KIẾN NGHỊ 79 DANH MỤC CƠNG TRÌNH ĐÃ CƠNG Ố CỦA HỌC VIÊN 80 T I LIỆU THAM KHẢO 81 LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN 86 vii luật nhiễu xấu [12] Trong thực tế, RL đƣợc sử dụng để học ộ điều khiển tối ƣu thích nghi để điều khiển điện áp ho c điện áp o hòa cho hệ thống truyền động điện ho c rô ốt [13]-[15] Một kỹ thuật RL khác, cụ thể học củng cố tích hợp (Integral Reinforcement Learning-IRL) [16] Phƣơng pháp nhằm giải ài toán PMSM với động học hệ thống chƣa iết phần [17] Tuy nhiên, ph n tích chứng minh tính ổn định vịng kín hệ thống chƣa đƣợc đề cập Lần đầu tiên, động học PMSM đƣợc xem xét nhƣ hệ thống phi tuyến phản hồi nghiêm ng t với động học chƣa iết phần, điện áp bão hịa cơng suất hạn chế chuyển đổi nhiễu tốc độ, dòng điện Các ng vào điều khiển truyền th ng đƣợc thiết kế để chuyển đổi toán bám tốc độ dịng điện thành tốn điều khiển bám tối ƣu Mục đích phép biến đổi để tránh sử dụng cấu trúc PID tầng kinh điển [1]-[3] Luật điều khiển tối ƣu kích hoạt kiện sau đ đƣợc thiết kế cho hệ thống Để xấp xỉ luật điều khiển tối ƣu, phƣơng trình HJI đƣợc đƣa lời giải đƣợc xấp xỉ trực tuyến xấp xỉ đơn giản, đ luật điều khiển đƣợc thiết kế dựa kỹ thuật IRL để loại bỏ thủ tục nhận dạng động học chƣa iết Sự hội tụ đồng hàm đánh giá, luật điều khiển luật nhiễu xấu đƣợc chứng minh cách ch t chẽ Ngoài ra, sai số bám sai số xấp xỉ c ng đƣợc chứng minh bị ch n tới hạn (Uniformly Ultimately BoundedUU ) Hơn để đảm bảo tham số hội tụ nhanh chóng, liệu khứ đƣợc sử dụng để kích thích hệ thống cách liên tục thay thêm nhiễu vào tín hiệu điều khiển Hiệu phƣơng pháp đề xuất đƣợc thể qua kết mơ thực nghiệm có so sánh với phƣơng pháp điều khiển PID không tối ƣu Từ ph n tích nhƣ trên, học viên mạnh dạn đề xuất đề tài “ Điều khiển tối ƣu bền vững kích hoạt kiện dùng học củng cố áp dụng cho hệ truyền động PMSM” Mục tiêu nghiên cứu Mục tiêu nghiên cứu luận v n đƣợc thể qua mục nhƣ sau:  Thiết kế luật điều khiển truyền th ng để chuyển đổi ài toán điều khiển hệ phi tuyến truyền ngƣợc thành ài toán điều khiển hệ phi tuyến affine tƣơng đƣơng; thiết kế luật điều khiển tối ƣu kích hoạt kiện để loại ảnh hƣởng nhiễu  Thiết kế thuật toán điều khiển truyền th ng tối ƣu kích hoạt kiện để loại ỏ thủ tục nhận dạng, loại ỏ điều kiện kích thích hệ thống PE (Persistent Excitation) điều khiển thích nghi Chứng minh ổn định hệ kín sử dụng lý thuyết Lyapunov Chứng minh sai số xấp xỉ ị ch n hàm chi phí hội tụ giá trị cận tối ƣu  p dụng thuật toán điều khiển cho hệ truyền động PMSM ị ràng uộc ng vào, ị tác động ởi nhiễu tham số ất định Đối tƣợng phạm vi nghiên cứu Trong khuôn khổ đề tài tốt nghiệp cao học, học viên tập trung vào nghiên cứu vấn đề sau:  Hệ phi tuyến nhiều ng vào nhiều ng (MIMO) dạng liên hệ ngƣợc nghiêm ng t (Strict feedback nonlinear systems)  Hệ truyền động PMSM ị ràng uộc ng vào, ị tác động ởi nhiễu tham số ất định Cách tiếp cận p ƣơn p áp n  iên cứu Cách tiếp cận Thông qua nguồn thông tin từ ài áo đ đƣợc đ ng tạp chí uy tín, thừa hƣởng kết đề tài kh a trƣớc, internet, đồng nghiệp chuyên môn cao Học viên tập trung vào nội dung sau: - Nghiên cứu hệ phi tuyến nhiều ng vào nhiều ng (MIMO) dạng liên hệ ngƣợc nghiêm ng t - Ph n tích thiết kế thuật tốn điều khiển dựa vào học củng cố - Nghiên cứu đối tƣợng hệ truyền động PMSM ị tác động ởi nhiễu tham số ất định - Kiểm chứng tính hiệu thuật tốn điều khiển thơng qua mơ thực nghiệm cho hệ thống PMSM  Phƣơng pháp nghiên cứu Từ vấn đề, mục tiêu đối tƣợng nghiên cứu Học viên thực công việc sau: - Nghiên cứu tài liệu tham khảo c liên quan, ph n tích thiết kế hệ thống, tính tốn chứng minh tính ổn định hội tụ thuật toán ằng sở toán học Kết hợp mơ thực nghiệm nhằm mục đích kiểm tra tính hiệu lý thuyết - Mơ ằng phần mềm MATLA - So sánh kết đạt đƣợc với kết nghiên cứu khác l nh vực, đối tƣợng - X y dựng phần cứng thực nghiệm mơ hình Ý n ĩ t ực tiễn củ đề tài So với cơng trình nghiên cứu khoa học khác đ công ố l nh vực, đề tài đ ng g p thêm điểm ý ngh a lý thuyết c ng nhƣ thực tiễn nhƣ sau:  Ý ngh a lý thuyết: Đề xuất thuật toán điều khiển tối ƣu ền vững kích hoạt kiện cho hệ phi tuyến truyền ngƣợc nghiêm ng t với diện nhiễu Luật điều khiển truyền th ng kích hoạt kiện đƣợc thiết kế để chuyển hệ phi tuyến phản hồi nghiêm ng t sang hệ phi tuyến affine Sau đ , luật điều khiển hồi tiếp tối ƣu ền vững kích hoạt kiện đƣợc đề xuất để loại ỏ ảnh hƣởng nhiễu tối thiểu hàm tiêu chất lƣợng ám H  M c dù thuật toán dựa vào học củng cố nhƣng khơng sử dụng điều kiện kích thích thủ tục nhận dạng hệ thống  Ý ngh a thực tiễn: Thuật tốn điều khiển áp dụng mơ hình thực hệ truyền động PMSM làm sở phát triển ứng dụng công nghiệp nhƣ ô tô điện, hệ tua in n ng lƣợng gi cấu chấp hành khác CHƢƠNG 1.1 TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU Tổng quan đề tài 1.1.1 Khái niệm học củng cố Học máy (Machine Learning-ML)[18] l nh vực trí tuệ nhân tạo (Artificial Intelligence-AI), liên quan đến việc nghiên cứu xây dựng kỹ thuật cho phép hệ thống học tự động từ liệu để giải vấn đề cụ thể Ƣu điểm học máy m c dù máy tính (bộ điều khiển, thiết bị) khơng đƣợc lập trình cách đầy đủ chi tiết, tự thay đổi, tự cải thiện chất lƣợng liên tục o đ học máy ứng dụng hiệu cho tốn khó, thiếu thông tin ho c tri thức ngƣời để lập trình Về ản học máy chia thành a l nh vực: học có giám sát, học khơng giám sát học củng cố hay gọi học t ng cƣờng Học máy (Machine Learning) Học giám sát (Supervised Learning) Học không giám sát (Unsupervised Learning) Học củng cố ( t ng cƣờng) (Reinforcement Learning) Hình 1.1 Các l nh vực học máy  Học c giám sát (Supervised Learning-SL): thuật tốn học nhận số thí dụ luyện tập nh n thí dụ tƣơng ứng để x y dựng mơ hình dự đốn Sử dụng muốn nhận dự đoán kết đầu từ liệu đầu vào c c p liệu (đầu vào/đầu ra) tƣơng ứng Để x y dựng mô hình học c giám sát thƣờng phải c nỗ lực từ ngƣời để gán nh n cho tập liệu  Học không giám sát (Unsupervised Learning-UL): Không ất kì nh n đƣợc cung cấp cho thuật tốn học, thuật tốn tìm cấu tr c ên dƣới liệu Mảng gồm nhiều ài toán khác nhƣ: ph n cụm (tự gán nh n cho cụm liệu c cấu tr c tƣơng tự nhau, giảm chiều liệu để hỗ trợ hình thức học khác)  Học t ng cƣờng (Reinforcement Learning-RL): liệu huấn luyện đƣợc thuật toán học x y dựng mơ hình, mơ hình dùng để dự đốn nhận phản hồi từ mơi trƣờng từ đ tự động cải thiện mơ hình Một số ài tốn tiêu iểu cho hình thức học t ng cƣờng là công nghệ xe tự lái, tự động chơi game Học t ng cƣờng không c c p liệu vào/kết đ ng, hành động gần tối ƣu c ng không đƣợc đánh giá đ ng sai cách tƣờng minh Học củng cố (Reinforcement Learning (RL)) thuộc lớp phƣơng pháp học máy (Machine Learning) dùng để giải toán tối ƣu ằng cách liên tục điều chỉnh hành động tác tử (Agent) Lý thuyết RL hình thành dựa quan sát nghiên cứu thuộc tính hành vi động vật tƣơng tác với mơi trƣờng để thích nghi tồn Các giải thuật điều khiển dựa vào RL mô n ng động vật Đ iết học hỏi từ sai lầm, biết tự dạy mình, biết sử dụng thơng tin trực tiếp từ mơi trƣờng c ng nhƣ thông tin đ đánh giá khứ để củng cố, điều chỉnh hành vi nhằm liên tục cải thiện chất lƣợng tƣơng tác, tối ƣu h a mục tiêu đ theo thời gian (Hình 1.2) Phƣơng pháp RL, đ c biệt hữu ích môi trƣờng thiếu thông tin để định chọn hành động Trong trƣờng hợp đ , RL sử dụng phƣơng pháp thử sai c đánh giá Thông tin hồi tiếp từ môi trƣờng tƣơng ứng với hành động thử sai đƣợc đánh giá lƣu trữ Sau đ , dựa vào thông tin lƣu trữ, chiến lƣợc chọn hành động tốt đƣợc thực để cải thiện chất lƣợng tƣơng tác với môi trƣờng [19] Trong điều khiển tối ƣu, RL học thích nghi trực tuyến nghiệm HJB dựa vào thông tin vào đối tƣợng với mục tiêu tối thiểu hàm chi phí cho trƣớc RL đƣợc chứng minh phƣơng pháp điều khiển tối ƣu thích nghi trực tiếp [20] Lý thuyết RL kế thừa từ lý thuyết tối ƣu quy hoạch động (Dynamic Programming (DP)) [21] phát triển thành lý thuyết quy hoạch động thích nghi (Adaptive Dynamic Programming (ADP)) ho c quy hoạch động xấp xỉ (Approximate Dynamic Programming (ADP)) [22] A P đ khắc phục đƣợc hạn chế P nhƣ offline, không điều khiển thời gian thực, cần mơ hình tốn xác Ngồi ra, ADP sử dụng xấp xỉ hàm khắc phục đƣợc điểm yếu quan trọng P nhƣ giảm chi phí tính tốn tài ngun lƣu trữ, khắc phục đƣợc tƣợng bùng nổ tổ hợp (Curse of Dimensionality (COD)) rời rạc hóa khơng gian trạng thái, đ c biệt đối tƣợng điều khiển hệ MIMO (Multi Input-Multi Output)[23] Môi trƣờng Hành động Thông tin Tác tử (Agent) ộ nhớ Hình 1.2 Minh họa học củng cố Theo thời gian, giải thuật RL đ liên tục phát triển ựa vào lý thuyết RL, Wer os đ phát triển giải thuật l p PI (Policy Iteration)[24] Từ đ đến nhiều giải thuật PI thời gian thực đƣợc nghiên cứu mở rộng Gần đ y, giải thuật l p PI kết hợp xấp xỉ hàm A P đƣợc nghiên cứu để điều khiển thích nghi tối ƣu online cho hệ phi tuyến chứa động học nội (internal dynamic) không iết trƣớc, ỏ qua thủ tục nhận dạng hệ thống 1.1.2 Lịch sử phát triển RL điều khiển RL đƣợc nghiên cứu, phát triển ứng dụng mạnh l nh vực học máy từ thập niên 1980 Tuy nhiên l nh vực điều khiển, RL thực bắt đầu phát triển từ n m đầu kỷ 21 Lịch sử phát triển RL l nh vực điều khiển tạm chia thành a giai đoạn Trong giai đoạn (trƣớc n m 2005), lý thuyết RL từ l nh vực trí tuệ nhân tạo đƣợc phát triển mở rộng sang l nh vực điều khiển Trƣớc tiên, RL với mô hình Markov đƣợc định ngh a ằng cách rời rạc hóa khơng gian trạng thái Sau đ , hai giải thuật l p ản: PI VI (Value Iteration) đƣợc sử dụng để xấp xỉ luật điều khiển ho c hàm đánh giá tối ƣu Để áp dụng đƣợc hai giải thuật này, mơ hình tốn hệ thống cần phải xác định trƣớc Một giải thuật khác đƣợc đề xuất với luật cập nhật tham số không phụ thuộc vào mơ hình hệ thống, đ giải thuật dự báo TD (Temporal Difference) Nếu tín hiệu điều khiển đƣợc lƣợng tử hóa với khơng gian trạng thái, giải thuật Q-Learning đƣợc đề nghị Trong Q-Learning luật cập nhật tham số khơng phụ thuộc vào mơ hình hệ thống Tuy nhiên, tất giải thuật nêu áp dụng cho toán điều khiển offline Một nghiên cứu RL thành công chuyển từ điều khiển offline sang online giai đoạn phƣơng pháp quy hoạch động t ng cƣờng (Incremental Dynamic Programming (IDP)) I P đƣợc thiết kế để điều khiển tối ƣu thích nghi dựa giải thuật Q-Learning, xấp xỉ nghiệm online cho toán LQR (Linear Quaratic Regulation) rời rạc với ma trận trạng thái trƣớc Bên cạnh đ , phải kể đến loạt nghiên cứu thành công khác, đ sử dụng xấp xỉ hàm vào cấu trúc A P để giải vấn đề bùng nổ tổ hợp không gian trạng thái rời rạc cho hệ đa iến Các ứng dụng ADP với xấp xỉ hàm từ đ tiếp tục đƣợc phát triển mở rộng Tuy nhiên, hầu hết nghiên cứu giai đoạn khơng chứng minh tính ổn định hệ thống trình học điều khiển Ngoài ra, luật cập nhật online cho tham số xấp xỉ hàm chƣa đƣợc thiết kế ch t chẻ Một điểm quan trọng khác đáng lƣu ý giai đoạn RL đƣợc áp dụng cho hệ thống rời rạc Lý xuất phát từ thuộc tính rời rạc quy hoạch động mà RL thừa kế Ở giai đoạn thứ hai (từ n m 2005-2010), nhà nghiên cứu tập trung vào việc sử dụng lý thuyết điều khiển đại vào RL để thiết kế điều khiển online cho hệ thống phi tuyến Ngồi ra, khơng thể áp dụng phƣơng pháp RL rời rạc cho hệ thống liên tục nên lý thuyết RL bắt đầu chuyển hƣớng Giải thuật điều khiển tối ƣu thích nghi cho hệ thống tuyến tính liên tục với ma trận trạng thái trƣớc đƣợc đề xuất với kết nghiệm tối ƣu đƣợc xấp xỉ online đến nghiệm giải tích ARE (nghiệm giải tích tồn biết trƣớc ma trận trạng thái) Trong nghiên cứu này, hội tụ ổn định hệ kín đƣợc chứng minh ch t chẽ Song song với đ loạt nghiên cứu khác điều khiển tối ƣu cho hệ thống phi tuyến rời rạc liên tục với thông tin thành phần động mơ hình hồn tồn biết trƣớc Xấp xỉ hàm (Actor) Hành động (Tín hiệu điều khiển) Trạng thái / Ng Môi trƣờng (Đối tƣợng) Xấp xỉ hàm (Critic) (Hàm chi phí) Hình 1.3 Cấu trúc ADP sử dụng hai xấp xỉ hàm điều khiển tối ƣu Xấp xỉ hàm (Actor1) Hành động (Tín hiệu điều khiển) Ch n nhiễu Mơi trƣờng (Đối tƣợng) Xấp xỉ hàm (Actor2) Trạng thái / Ng Xấp xỉ hàm (Critic) (Hàm chi phí) Hình 1.4 Cấu trúc ADP sử dụng ba xấp xỉ hàm điều khiển tối ƣu H  10 Đa số nghiên cứu thời k sử dụng cấu tr c điều khiển A P chuẩn xem (Hình 1.2) định ngh a với hai xấp xỉ hàm gọi AC (Actor-Critic), đ xấp xỉ hàm (critic) dùng để đánh giá luật điều khiển xấp xỉ hàm chi phí tối ƣu, xấp xỉ hàm cịn lại (actor) dùng để xấp xỉ luật điều khiển tối ƣu Luật cập nhật tham số hai xấp xỉ hàm online c ràng uộc lẫn Thành công nghiên cứu giai đoạn ổn định hệ kín ao gồm xấp xỉ hàm chứa tham số chỉnh định online đƣợc ph n tích chứng minh ch t chẽ Giai đoạn thứ a (từ n m 2010 nay), lịch sử phát triển RL liên quan đến ài tốn điều khiển tối ƣu thích nghi cho hệ phi tuyến chứa vài thành phần động học hệ thống không iết trƣớc Song song với nghiên cứu vừa nêu nghiên cứu giải thuật RL cho ài toán điều khiển tối ƣu H  với hệ tuyến tính c ma trận trạng thái khơng iết trƣớc, ho c hệ phi tuyến với thành phần động học mơ hình hồn tồn xác định Đa số nghiên cứu sử dụng cấu trúc ADP với a xấp xỉ hàm Một xấp xỉ hàm (Actor Hình 1.3) đƣợc thêm vào cấu tr c A P nhằm xấp xỉ ch n nhiễu (nhiễu xấu nhất) 1.2 Tổng quan điều khiển tối ƣu bền vững Tác giả [25] đ đƣa ộ điều khiển thích nghi strict-feedback sử dụng mạng thần kinh nhân tạo nhiều lớp (Neural Networks-NN) cho hệ phi tuyến Bằng cách hiệu chỉnh hàm Lyapunov, điều khiển thích nghi đối tƣợng điều khiển đƣợc tìm thấy Sau đ áp dụng cho hệ phi tuyến bậc cao cách dùng mạng NN để xấp xỉ kỹ thuật điều khiển chiếu thích nghi Sơ đồ điều khiển đƣợc bảo đảm hệ thống thích nghi vịng kín Kết cuối thu đƣợc bán tồn cục điều chỉnh thông số thiết kế, để sai số bám theo hội tụ giá trị nhỏ giới hạn Tuy nhiên tác giả chƣa đề cập đến ảnh hƣởng nhiễu bên áp dụng cho hệ phi tuyến mở rộng khác Trong báo [26] điều khiển tối ƣu cho hệ phi tuyến thời gian liên tục phản hồi kín cho hệ thống c mơ hình c động lực học khơng r ràng đƣợc đề xuất Bài tốn điều khiển tối ƣu đƣợc đƣa điều khiển thích nghi truyền th ng (feed- 11 forward) ngõ vào kỹ thuật chiếu Sau đ tác giả sử dụng điều khiển tối ƣu dựa vào mạng NN để ƣớc tính hàm chi phí, khơng gian vơ hạn cho hệ thống phi tuyến có kết dạng affine động lực học nội Hàm chi phí xấp xỉ sau đ đƣợc sử dụng để thu đƣợc ng vào điều khiển tối ƣu Vì vậy, ng vào điều khiển tối ƣu chung cho hệ thống phi tuyến thời gian liên tục phản hồi bao gồm tín hiệu truyền th ng cộng với tín hiệu hồi tiếp tối ƣu Hàm chi phí xấp xỉ tối thiểu hóa sai số Hammilton-Jacobi-Bellman mà khơng sử dụng bất k giải thuật l p giá trị ho c chiến lƣợc Đầu điều khiển phản hồi tối ƣu đƣợc giám sát quan sát phù hợp M c dù ƣu điểm nghiên cứu điều khiển tối ƣu thích nghi sử dụng mạng NN xấp xỉ sai số cho đối tƣợng c động lực học không r ràng đƣợc giải quyết, nhƣng nghiên cứu chƣa đề cập đến nhiễu vùng chết hệ thống Nghiên cứu [27] đề cập đến thiết kế điều khiển tối ƣu ph n cấp mờ thích nghi cho lớp kết nối hệ phi tuyến quy mô lớn với chức n ng phi tuyến chƣa iết phản hồi nghiêm ng t Tác giả đ đƣa hệ thống mờ để học động học chƣa iết, hàm giá trị tƣơng ứng, phát triển công cụ ƣớc lƣợng trạng thái động học đối tƣợng Bằng cách áp dụng ƣớc lƣợng trạng thái thuật toán chiếu thiết kế đệ quy, tạo điều khiển phân cấp truyền th ng Hệ thống phi tuyến quy mô lớn đƣợc xem xét liên kết dạng phản hồi nghiêm ng t đƣợc thay đổi thành hệ thống phi tuyến quy mô lớn tƣơng đƣơng Sau đ , sơ đồ điều khiển mờ thích hợp phi tập trung tối ƣu đƣợc xây dựng Toàn bộ điều khiển thích nghi mờ phi tập trung tối ƣu ao gồm điều khiển tiến phi tập trung điều khiển phi tập trung tối ƣu N đ đƣợc chứng minh điều khiển phi tập trung tối ƣu đƣợc phát triển đảm bảo tất biến hệ thống điều khiển đƣợc giới hạn cuối hàm chi phí nhỏ Nghiên cứu đ đề xuất sơ đồ điều khiển tối ƣu mờ thích nghi phi tập trung cho phản hồi nghiêm ng t phi tuyến không xác định phi tuyến liên kết hệ thống quy mô lớn Bằng cách kết hợp lý thuyết điều khiển phản hồi tối ƣu kỹ thuật đệ quy chiếu, phƣơng pháp điều khiển tối ƣu mờ thích nghi phi tập trung đ đƣợc 12 phát triển 1.3 Tổng quan điều khiển cho hệ truyền động PMSM Đối với thiết kế chung cho PMSM, điều khiển cấu trúc tầng đƣợc sử dụng nhằm mục đích tách riêng tốc độ dòng điện Trong báo [1], điều khiển trƣợt khâu cuối đƣợc thiết kế để tạo tín hiệu dịng tham chiếu Sau đ , hai ộ điều khiển tích phân tỉ lệ (Proportional Integral- PI) sử dụng tín hiệu tham chiếu để tạo hệ trục dq cho sai số dòng ổn định Trong báo [2], cấu trúc tầng đƣợc sử dụng cho điều khiển dự báo mơ hình (Model Pridiction Controller-MPC) cho vòng l p dòng Điều tối ƣu đƣợc ƣu tiên tính ổn định PMSM Tuy nhiên, cách sử dụng cấu trúc tầng đƣợc đề cập trên, điều khiển tối ƣu đƣợc khai thác để cải tiến chất lƣợng điều khiển tốt [4]-[6] Thay vào đ , kỹ thuật điều khiển không sử dụng cảm biến PMSM đƣợc phát triển để làm giảm độ phức tạp phần cứng Ví dụ, Qiao et al [3] đề xuất quan sát trƣợt (Sliding Mode ObserverSMO) để ƣớc lƣợng vị trí rotor tốc độ hệ trục dq khung tham chiếu Tuy nhiên điều khiển, cấu trúc tầng kinh điển với ba điều khiển PI c ng đƣợc sử dụng o đ chất lƣợng điều khiển tối ƣu khơng thể đạt đƣợc Hiện tại, phƣơng trình Riccati phụ thuộc trạng thái (State Dependent Riccati Equation-S RE) đƣợc sử dụng cho nỗ lực điều khiển tối ƣu dạng tồn phƣơng PMSM [4], [5] Mơ hình động lực học riêng biệt tốc độ dòng điện đƣợc tích hợp vào mơ hình động lực học phi tuyến có dạng x  A( x) x  Bu , với x vector trạng thái tốc độ dòng, u vector điện áp điều khiển khung tham chiếu hệ trục dq Ma trận bao gồm giá trị tham số cố định cuộn dây Statorr nhƣ: điện trở Statorr, từ thơng kích từ, hệ số ma sát nhớt, mơmen tải, tốc độ dịng M c dù phƣơng pháp S RE cung cấp điều khiển tối ƣu phi tuyến, nhiên việc ứng dụng vào PMSM lại có số điểm bất lợi Ví dụ nhƣ ộ điều khiển tìm trƣớc lời giải Riccati thời gian thực để ổn định hóa biến trạng thái quanh điểm cân bằng, việc địi hỏi phần cứng có tốc độ tính tốn cao 13 Những thực nghiệm báo [4] sử dụng câu lệnh Matla (nhƣ “care” “lyap”) ph n tích h a tính tốn lời giải SDRE chu k lấy mẫu Kết q trình điều khiển phải bị trì hỗn, thời gian cập nhật vƣợt chu k lấy mẫu dẫn đến ổn định hệ thống Các thành phần phƣơng trình Riccati bao gồm A( x) phải đƣợc xác định hoàn toàn trƣớc thực thi lệnh, ví dụ nhƣ ộ quan sát mômen tải cho A( x) [4] Những tham số khác đƣợc m c định số không nhiễu Thêm vào đ , ởi biến trạng thái tốc độ dịng để hồi tiếp khơng thể đạt đƣợc giá trị tối ƣu ằng phép đo trực tiếp, đạt đƣợc sau đƣợc xử lý mạch lọc nhƣ lọc Kalman báo [5] Quá trình làm t ng độ phức tạp việc tính tốn Nghiên cứu [28] đề xuất thuật toán điều khiển IRL áp dụng cho hệ truyền động PMSM Bộ điều khiển đƣợc đề xuất trì mức độ hiệu suất cao c phản ứng nhanh, độ xác cao mạnh mẽ nhằm chống lại không chắn thông số động thay đổi mômen tải Tuy nhiên, hệ thống PMSM khơng dễ kiểm sốt đ hệ thống đa iến phi tuyến với biến thể trực tuyến thông số hệ thống tùy thuộc vào thay đổi nhiệt độ, độ o hòa điện cảm o đ phƣơng thức ám H  đƣợc sử dụng rộng r i tính n ng mạnh mẽ việc chống lại thông số không chắn nhiễu ên ngồi Điểm điều khiển H  tổng hợp luật phản hồi cho hệ thống vòng kín để đáp ứng ràng buộc định mức H  quy định, thể yêu cầu độ ổn định ho c ám mong muốn Để kết thúc, giải thuật điều khiển đƣợc đ t tên giải thuật học củng cố tích hợp đƣợc thực cho thời gian thực để tìm lời giải phƣơng trình HamiltonJacobi-Issacs (HJI) trực tuyến Giải thuật đƣợc dựa giải thuật l p chiến lƣợc PI thực thi sử dụng actor/critic, sử dụng mạng neural để thể cách cấu trúc tham số hóa giá trị hàm số luật điều khiển, dị tìm hệ số độ lợi điều khiển dựa việc đo lƣờng ngõ hệ thống Bộ điều khiển đƣợc đề xuất đ đƣợc đánh giá thơng qua ài tốn điều khiển động PMSM ba pha cơng nghiệp có cơng suất 2KW 14 1.4 Tổn qu n c ế c oạt iện Hệ thống phi tuyến dạng liên hệ ngƣợc nghiêm ng t đƣợc biểu diễn theo nhiều cách khác có nhiều ứng dụng khác thực tế [29]-[33] Trong điều khiển thích nghi, điều khiển đƣợc thiết kế dựa vào kỹ thuật chiếu [29][31] Trong điều khiển tối ƣu, ộ điều khiển tối thiểu hàm chi phí đƣợc thiết kế sau áp dụng kỹ thuật chiếu để chuyển hệ thống hệ phi tuyến affine tƣơng đƣơng [32], [33] Tuy nhiên, khảo sát hệ phi tuyến nói trên, ràng buộc ngõ vào nhiễu chƣa đƣợc xem xét Gần đ y điều khiển tối ƣu ền vững đƣợc đề xuất cho hệ phi tuyến liên hệ ngƣợc nghiêm ng t có nhiễu ngồi [34]-[37] Trong đ phƣơng pháp qui hoạch động thích nghi (Adaptive Dynamic Programming-ADP) kết hợp với lý thuyết điều khiển [38] để xấp xỉ luật điều khiển tối ƣu luật nhiễu xấu đồng thời tối thiểu hàm tiêu chất lƣợng Nghiệm tốn phụ thuộc nghiệm phƣơng trình Hamilton-Jacobi-Isaacs (HJI) o phƣơng trình khơng c nghiệm giải tích nên thuật tốn xấp xỉ nghiệm online đƣợc đề xuất dựa vào kỹ thuật học củng cố (Reinforcement Learning–RL) mạng thần kinh (Neural Network-NN) Tuy nhiên, thuật toán sử dụng chế kích hoạt thời gian nên chƣa giảm đƣợc chi phí tính tốn truyền thơng Ngồi thuật tốn chƣa giải vấn đề ràng buộc ngõ vào Bên cạnh nhiễu ngoài, ngõ vào hệ phi tuyến thực tế thƣờng bị ràng buộc tính chất vật lý cấu chấp hành nhƣ o hoà, vùng chết, từ trễ,… Các ràng buộc làm suy giảm chất lƣợng điều khiển ho c chí gây ổn định hệ kín [39] Thuật tốn điều khiển tối ƣu đƣợc đề xuất [36], [37], [39] nhằm giải vấn đề ng vào o hoà Trong đ , chi phí n ng lƣợng o hồ đƣợc biểu diễn dƣới dạng hàm xác định dƣơng không tồn phƣơng Tuy nhiên, thuật tốn khơng thể điều khiển hệ phi tuyến với ràng buộc vùng chết, ràng buộc phức tạp làm cho hệ thống khả n ng điều khiển [40] Nếu phƣơng pháp điều khiển kinh điển khử đƣợc ảnh hƣởng vùng chết, bù vùng chết dựa vào NN đƣợc sử dụng [41] Hầu hết bù vùng chết đƣợc thiết 15 kế theo phƣơng pháp điều khiển thích nghi khơng tối thiểu bất k phiếm hàm tiêu chất lƣợng Theo hiểu biết nhóm tác giả, đến thuật toán điều khiển tối ƣu loại bỏ ảnh hƣởng vùng chết chƣa đƣợc nghiên cứu Những n m gần đ y, cộng đồng điều khiển tập trung vào điều khiển bẫy kiện [42]-[45] So với thuật toán điều khiển truyền thống lấy mẫu theo chu k , thuật toán điều khiển kích hoạt kiện có nhiều ƣu điểm Một ƣu điểm trội điều khiển cập nhật tham số sinh tín hiệu điều khiển sai số trạng thái lấy mẫu đƣợc giữ trƣớc đ trạng thái vƣợt ngƣỡng cho phép [44]; từ đ giảm tải đƣợc chi phí tính tốn truyền thơng Thuật tốn điều khiển tối ƣu ền vững kích hoạt kiện cho hệ phi tuyến affine với nhiễu đƣợc phát triển mạnh với phát triển ADP RL [45], [46] Trong đ , luật điều khiển tối ƣu kích hoạt kiện đƣợc xấp xỉ đồng thời với luật nhiễu kích hoạt theo chu k Ngồi ra, thuật tốn [46] cịn xử lý tƣợng bão hoà ngõ vào 16 ... TÀI: ? ?Điều khiển tối ƣu ền vững kích hoạt kiện dùng học củng cố áp dụng cho hệ truyền động PMSM? ?? NHIỆM VỤ VÀ NỘI DUNG: - Thiết kế luật điều khiển truyền th ng để chuyển đổi ài toán điều khiển hệ. .. không tối ƣu Từ ph n tích nhƣ trên, học viên mạnh dạn đề xuất đề tài “ Điều khiển tối ƣu bền vững kích hoạt kiện dùng học củng cố áp dụng cho hệ truyền động PMSM? ?? Mục tiêu nghiên cứu Mục tiêu... RL đƣợc sử dụng để học ộ điều khiển tối ƣu thích nghi để điều khiển điện áp ho c điện áp o hòa cho hệ thống truyền động điện ho c rô ốt [13]-[15] Một kỹ thuật RL khác, cụ thể học củng cố tích hợp

Ngày đăng: 30/06/2022, 09:08

Hình ảnh liên quan

Bộ điều khiển dự áo mô hình - Điều khiển tối ưu bền vững kích hoạt sự kiện dùng học củng cố áp dụng cho hệ truyền động PMSM p1

i.

ều khiển dự áo mô hình Xem tại trang 15 của tài liệu.
Hình 1.1 Cá cl nh vực học máy - Điều khiển tối ưu bền vững kích hoạt sự kiện dùng học củng cố áp dụng cho hệ truyền động PMSM p1

Hình 1.1.

Cá cl nh vực học máy Xem tại trang 24 của tài liệu.
Hình 1.2 Minh họa về học củng cố - Điều khiển tối ưu bền vững kích hoạt sự kiện dùng học củng cố áp dụng cho hệ truyền động PMSM p1

Hình 1.2.

Minh họa về học củng cố Xem tại trang 26 của tài liệu.
Hình 1.3 Cấu trúc ADP sử dụng hai xấp xỉ hàm trong điều khiển tối ƣu - Điều khiển tối ưu bền vững kích hoạt sự kiện dùng học củng cố áp dụng cho hệ truyền động PMSM p1

Hình 1.3.

Cấu trúc ADP sử dụng hai xấp xỉ hàm trong điều khiển tối ƣu Xem tại trang 28 của tài liệu.
Hình 1.4 Cấu trúc ADP sử dụng ba xấp xỉ hàm trong điều khiển tối ƣu  - Điều khiển tối ưu bền vững kích hoạt sự kiện dùng học củng cố áp dụng cho hệ truyền động PMSM p1

Hình 1.4.

Cấu trúc ADP sử dụng ba xấp xỉ hàm trong điều khiển tối ƣu  Xem tại trang 28 của tài liệu.

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan