17 CHƢƠNG 2 CƠ SỞ LÝ THUYẾT Chƣơng này trình ày t m lƣợc lý thuyết học củng cố, giới thiệu các giải thuật kinh điển của học củng cố, trình bày cấu trúc và luật học đơn giản của các xấp xỉ hàm thông dụng, phát biểu về sự cần thiết phải sử dụng xấp xỉ hàm trong học củng cố Sau đ , các loại xấp xỉ hàm đƣợc so sánh đánh giá, làm cơ sở cho việc nghiên cứu các giải thuật học củng cố dựa vào xấp xỉ hàm ở các chƣơng tiếp theo 2 1 Các địn n ĩ Định nghĩa 2 1 (Uniform Ultimate Bounded UUB) Xét hệ thống phi.
CHƢƠNG CƠ SỞ LÝ THUYẾT Chƣơng trình ày t m lƣợc lý thuyết học củng cố, giới thiệu giải thuật kinh điển học củng cố, trình bày cấu trúc luật học đơn giản xấp xỉ hàm thông dụng, phát biểu cần thiết phải sử dụng xấp xỉ hàm học củng cố Sau đ , loại xấp xỉ hàm đƣợc so sánh đánh giá, làm sở cho việc nghiên cứu giải thuật học củng cố dựa vào xấp xỉ hàm chƣơng 2.1 Các địn n ĩ Định nghĩa 2.1 (Uniform Ultimate Bounded- UUB): Xét hệ thống phi tuyến: x f ( x, t ) với trạng thái x(t ) đ ng x n n Điểm c n ằng xc đƣợc gọi UU (2.1) tồn tập , cho với x x , tồn ch n B thời gian TB ( B, xc ) để điều kiện x(t ) xc B thỏa với t t0 TB Định nghĩa 2.2 (Zero-State Observability): Hệ thống (2.1) với ng đo đƣợc y h( x) gọi quan sát đƣợc trạng thái không, y(t ) , t , kéo theo x(t ) Định nghĩa 2.3 (Điều kiện PE (Persistently Exciting): Một vector tín hiệu bị ch n (t ) đƣợc gọi thỏa điều PE khoảng thời gian [t , t Tp ], Tp tồn 1 cho với t : 1 I t Tp t (t ) T (t )dt I Trong đ I ma trận đơn vị có chiều phù hợp 17 (2.2) 2.2 Lý thuyết học củng cố Hệ thống học củng cố kinh điển điều khiển đƣợc mô tả : Tập hữu hạn trạng thái x x1 , x2 , , xn Ở trạng thái x x , có tập hữu hạn tín hiệu điều khiển U ( x) Mơ hình đối tƣợng điều khiển xk 1 f xk , u( xk ) với uk xk U xk tín N hiệu điều khiển để chuyển trạng thái hệ thống từ xk sang xk 1 Ch ý đơn giản cách viết ta định ngh a xk x(k ) xk 1 x(k 1) Hàm thƣởng/phạt, cịn gọi tín hiệu củng cố, r xk , u ( xk ) , đ c trƣng cho chi phí điều khiển áp dụng luật điều khiển u ( xk ) trạng thái xk Luật điều khiển u ( x) : x U ( x) cho áp dụng u ( x) từ trạng thái x0 phát sinh quỹ đạo trạng thái x0 , x1 , x2 , , thỏa điều kiện: k 1, , 1, xk 1 f xk , u( xk ) Hàm biểu diễn tổng chi phí cộng dồn xuất phát từ x0 tín hiệu điều khiển u ( xk ) đƣợc áp dụng dọc theo quỹ đạo trạng thái, xk x đƣợc gọi hàm tiêu chất lƣợng ho c hàm chi phí u ( xk ) : J ( x0 ) k 0 r ( xk , u ( xk )) N (2.3) Để ý hàm chi phí J ( x0 ) phụ thuộc vào luật điều khiển u ( x) trạng thái khởi tạo x0 J ( x0 ) phân k , hội tụ hàm chi phí r ( xk , u ( xk )) đạt đến giá trị không thời gian hữu hạn Trong trƣờng hợp tổng quát, nhằm đảm bảo J ( x0 ) hội tụ theo tiêu chuẩn chuỗi giảm dần, hệ số hàm m đƣợc áp dụng: k N J ( x0 ) k r ( xk , u ( xk )) k 0 18 (2.4) đ 0,1 Hàm đánh giá V ( xk ) trạng thái xk , xk x đƣợc định ngh a dƣới dạng hồi qui nhƣ sau [3]: V ( xk ) r ( xk , u( xk )) V ( f ( xk , u( xk ))) (2.5) * Mục tiêu giải thuật học củng cố tìm hàm đánh giá tối ƣu V ( x0 ) tƣơng ứng với luật điều khiển tối ƣu u* ( x), x0 x : V * ( x0 ) J ( x0 ) (2.6) u Luật điều khiển tối ƣu u* ( x) tồn nhƣng không Tuy nhiên, xuất phát x0 , hai luật điều khiển tối ƣu khác c thể cho tổng chi phí nhƣ nhau, * * V * ( x0 ) không phụ thuộc vào u ( x) Giả sử tồn V ( x0 ) , theo nguyên lý quy hoạch động (DP) tối ƣu ellman [10], hàm đánh giá tối ƣu trạng thái xk đƣợc định ngh a: V *( xk ) r ( xk , u( xk )) V *( f ( xk , u( xk )) (2.7) uU ( xk ) Hình 2.1 minh họa hàm đánh giá tối ƣu (2.7) theo nguyên lý P [24], đ U ( xk ) u1 , u2 , , um tập tín hiệu điều khiển trạng thái xk xk 1 f ( xk ,u ( xk )) trạng thái tùy theo tín hiệu điều khiển đƣợc áp dụng Từ đ , luật điều khiển tối ƣu đƣợc định ngh a: u* ( xk ) arg r ( xk , u ( xk )) V *( f ( xk , u( xk )) uu1 ,u2 , ,um (2.8) Trong nhiều toán ứng dụng thực tế, ta khơng thể xây dựng đƣợc mơ hình qui hoạch động ellman (2.7) để tìm luật điều khiển tối ƣu (2.8) [10] o đ , xấp xỉ nghiệm V * ( x) cần thiết Các giải thuật học củng cố thông dụng nhƣ l p giá trị, l p chiến lƣợc Q-Learning đời xấp xỉ hai nghiệm sở phƣơng trình (2.7) ho c /và (2.8) 19 f ( x, u1 ) u1 x f ( x, u ) u2 um f ( x, u m ) Hình 2.1 Nguyên lý quy hoạch động ellman hàm đánh giá tối ƣu 2.3 Các giải thuật học củng cố in điển Các giải thuật học củng cố kinh điển mô tả sau đ y xấp xỉ hàm đánh giá luật điều khiển tối ƣu M c dù giải thuật điều khiển offline nhƣng đ tảng sở để nghiên cứu mở rộng cho thuật toán online nâng cao luận v n 2.3.1 Giải thuật VI ( Value Iteration ) Giải thuật VI sau đ y mô tả chi tiết ƣớc xấp xỉ trực tiếp hàm đánh giá tối ƣu V * ( xk ) Khi có V * ( xk ) , luật điều khiển tối ƣu u* ( x) đƣợc xấp xỉ Giải thuật 2.1 VI ƣớc 1: xk x , khởi tạo V (0) ( xk ) , Gán i ƣớc 2: Xấp xỉ hàm đánh giá: i i 1 L p vòng xk x cập nhật: V i ( xk ) uU ( xk ) r ( xk , u) V (i 1) ( f ( xk , u)) (2.9) Nếu thỏa tiêu chuẩn hội tụ cho V (i ) V (i 1) với số dƣơng đủ nhỏ, 20 * (i ) gán V ( xk ) V ( xk ) , xk x sau đ thực ƣớc 3, ngƣợc lại quay ƣớc ƣớc 3: Xấp xỉ luật điều khiển tối ƣu: L p vòng xk x cập nhật: u* ( xk ) arg r ( xk , u ( xk )) V *( f ( xk , u( xk )) uU ( xk ) (2.10) Kết th c giải thuật 2.3.2 Giải thuật PI (Policy Iteration) Giải thuật PI khởi động luật điều khiển ổn định, sau đ xấp xỉ hàm đánh giá ƣớc cải thiện luật điều khiển dựa vào hàm đánh giá vừa xấp xỉ ƣớc Các ƣớc giải thuật PI đƣợc mô tả nhƣ sau: Giải thuật 2.2 PI (0) ƣớc 1: xk x , khởi tạo luật điều khiển ổn định u ( xk ) Gán i ƣớc 2: Xấp xỉ hàm đánh giá: (0) L p vòng xk x ; Khởi tạo V ( xk ) : ƣớc 3: Xấp xỉ hàm đánh giá ƣớc i sử dụng luật điều khiển ui : i i 1 L p vòng xk x cập nhật: V i ( xk ) r xk , u (i 1) ( xk ) V (i 1) f ( xk , u (i 1) ( xk )) ƣớc 4: Xấp xỉ luật điều khiển tối ƣu: 21 (2.11) L p vòng xk x , cập nhật: uk(i ) ( xk ) arg r ( xk , a) V (i ) ( f ( xk , a)) U ( x ) (2.12) Nếu thỏa tiêu chuẩn hội tụ cho V (i ) V (i 1) với số dƣơng đủ nhỏ, * (i ) * (i ) gán u ( xk ) u ( xk ) V ( xk ) V ( xk ) , kết th c thuật toán ngƣợc lại quay ƣớc Ta thấy rằng, từ phƣơng trình (2.9) đến (2.12), giải thuật VI PI địi hỏi thơng tin mơ hình hệ thống f ( xk , u( xk )) , điều làm giảm khả n ng ứng dụng học củng cố Hạn chế đƣợc giải giải thuật dự báo sai phân tạm thời (Temporal Difference (TD) Khi luật cập nhật (2.11) là: V (i ) ( xk ) V (i 1) ( xk ) r ( xk , u (i ) ( xk )) V (i 1) ( xk 1 ) V (i 1) ( xk ) đ (2.13) xk 1 trạng thái mà hệ thống nhận đƣợc áp dụng luật điều khiển u (i ) xk , 0,1 tốc độ học Nhìn vào phƣơng trình (2.13) ta thấy hàm đánh (i ) giá đƣợc cập nhật không cần sử dụng mơ hình hệ thống Sau V ( xk ) (2.13) đƣợc cập nhật, luật điều khiển u (i 1) ƣớc giải thuật PI đƣợc cập nhật mà không cần phải chờ đợi hội tụ hàm đánh giá ƣớc Giải thuật PI sử dụng luật cập nhật TD, bảo đảm luật điều khiển xấp xỉ hội tụ đến giá trị tối ƣu Tuy nhiên, T sử dụng đƣợc giải thuật offline 2.3.3 Giải thuật Q-Learning Thay xấp xỉ hàm V ( xk ) nhƣ giải thuật VI PI, giải thuật Q-Learning xấp xỉ hàm Q( xk , uk ) chứa tổ hợp iến trạng thái tín hiệu điều khiển, đ ƣớc l p, luật cập nhật hàm Q( xk , uk ) đƣợc định ngh a dựa vào luật T : 22 Q(l 1) ( xk , uk ) Q(l ) ( xk , uk ) r ( xk , uk ) arg (Q (l ) ( xk 1 , )) Q (l ) ( xk , uk ) (2.14) U ( xk 1) đ 0,1 tốc độ học Khi Q xk , uk hội tụ hàm đánh giá tối ƣu Q* ( xk , uk ) , luật điều khiển tối ƣu là: uk* arg Q* ( xk , uk ) (2.15) uk U ( xk ) * Thuật toán dừng hàm Q( xk , u ) hội tụ giá trị tối ƣu Q ( xk , u ) Giải thuật 2.3 Q-Learning ƣớc 1: Rời rạc h a không gian trạng thái để c tập x , lƣợng tử h a tín hiệu điều khiển để c tập U ( xk ), xk x , ukU ( xk ) , khởi tạo Q( xk , uk ) ƣớc 2: Xấp xỉ hàm đánh giá Q: l l 1 Vòng l p ngồi xk x : L p vịng uk U ( xk ) : p dụng u vào đối tƣợng điều khiển nhận trạng thái xk 1 , cập nhật: Q (l ) ( xk , uk ) Q (l 1) ( xk , uk ) r ( xk , uk ) arg (Q (l 1) ( xk 1 , )) Q (l 1) ( xk , uk ) U ( xk 1) (2.16) Nếu thỏa tiêu chuẩn hội tụ cho Q(l ) Q(l 1) với số dƣơng đủ nhỏ, gán Q* ( xk , uk ) Q(l ) ( xk , uk ) thực ƣớc 3, ngƣợc lại quay ƣớc ƣớc 3: Xấp xỉ luật điều khiển tối ƣu: 23 L p vòng xk x ; Cập nhật: u* ( xk ) arg Q* ( xk , ) U ( xk ) (2.17) Kết th c thuật tốn 2.3.4 Giải thuật trích thích nghi ( Adaptive Critic-AC) Khác với giải thuật VI, PI Q-Learning, giải thuật AC ( giải thuật 2.4) không áp dụng cho hệ thống rời rạc mà áp dụng cho hệ thống liên tục Giải thuật chứa hai thành phần cần phải đƣợc xấp xỉ Thành phần thứ ( trích ) ƣớc lƣợng hàm đánh giá V ( x) ho c Q( xk , uk ) dự báo tổng chi phí k vọng Thành phần thứ hai xấp xỉ luật điều khiển u ( x) ho c u ( xk ) Thành phần đƣợc điều chỉnh thích nghi dựa vào tín hiệu từ thành phần thứ Hình 2.2 biểu diễn mối quan hệ thành phần Giải thuật điều khiển đối tƣợng bị tác động nhiễu Hầu hết nghiên cứu gần đ y sử dụng cấu tr c điều khiển AC ộ điều khiển Chỉ trích (Critic) u V ( x) Nhiễu Hàm đánh giá r x Đối tƣợng điều khiển Hình 2.2 Sơ đồ điều khiển thuật toán AC 24 Giải thuật 2.4 AC ƣớc 1: Khởi tạo V ( x0 ) , u ( x0 ) với x0 x(t0 ) ƣớc 2: Áp dụng u ( x(t )) vào đối tƣợng điều khiển nhận trạng thái x(t ) f ( x, u) r ( x, u ) Cập nhật trích V ( x(t )) r ( x(t ), u( x)) V ( f ( x(t ), u(t ))) (2.18) Cập nhật tham số điều khiển u ( x) dựa vào V ( x(t )) ƣớc 3: Nếu V ( x(t )) V ( f ( x(t ), u( x))) , với số dƣơng đủ nhỏ, gán V * ( x(t )) V ( x(t )) , u* ( x) u( x) dừng thuật toán, ngƣợc lại quay ƣớc Chú ý: Để thuật tốn VI, PI Q-Learning thực đƣợc, yêu cầu phải xác định trƣớc tập U ( xk ) , xk x , chứa tín hiệu điều khiển rời rạc xk Việc phân rã tập U ( xk ) phụ thuộc vào hiểu biết kinh nghiệm ngƣời thiết kế hệ thống xét Trong số trƣờng hợp hệ thống đa iến, việc phân rã phức tạp Ngoài ra, giải thuật nêu phù hợp ài toán điều khiển offline 2.4 Xấp xỉ hàm RL 2.4.1 Sự cần thiết phải sử dụng xấp xỉ hàm RL Trong giải thuật 2.1 2.2, ƣớc l p, hàm V ( xk ) phải đƣợc cập nhật lƣu trữ với trạng thái xk , giải thuật 2.3, ƣớc l p, hàm Q( xk , uk ) đƣợc cập nhật lƣu trữ với tổ hợp xk uk o đ , áp dụng giải thuật điều khiển tồn số hạn chế sau: Chỉ áp dụng đƣợc cho hệ thống với số lƣợng hữu hạn điểm giá trị trạng thái tín hiệu điều khiển rời rạc Trong trƣờng hợp hệ thống với không gian trạng 25 thái tín hiệu điều khiển liên tục, c vơ số điểm giá trị cần rời rạc chi phí tính tốn khơng cho phép giải thuật l p qua toàn ộ điểm để cập nhật lƣu trữ hàm đánh giá cách tƣờng minh Với giải thuật Q-Learning, chi phí lƣu trữ tính tốn t ng theo hàm m ( x U ( x) ) số lƣợng điểm khơng gian trạng thái với số lƣợng tín hiệu điều khiển ph n r trạng thái Điều dẫn đến việc ùng nổ tổ hợp Đối với hệ thống nhiều ng vào ra, cấu tr c liệu lƣu trữ đòi hỏi mảng ho c ma trận đa chiều, kh c thể xử lý liệu với kích cỡ chiều lớn Sẽ giảm đƣợc chi phí tính tốn giá trị hàm điểm không gian trạng thái chƣa đƣợc cập nhật c thể nội suy đƣợc từ giá trị hàm điểm l n cận đ đƣợc cập nhật Xấp xỉ hàm công cụ hữu hiệu c thể giải đƣợc vấn đề Ngoài ra, sử dụng xấp xỉ hàm tài nguyên lƣu trữ khơng cịn vấn đề thách thức ởi lƣu trữ tƣờng minh hàm đánh giá điểm trạng thái riêng iệt điều không cần thiết 2.4.2 Yêu cầu xấp xỉ hàm RL Trong học củng cố ngƣời ta quan t m đến xấp xỉ hàm thỏa mãn yêu cầu: Khả n ng xấp xỉ luật điều khiển cho trạng thái liên tục chƣa đƣợc cập nhật từ trạng thái đ đƣợc cập nhật mà khơng cần thiết phải rời rạc hố không gian trạng thái qua quỹ đạo trạng thái Cấu tr c đơn giản tốt Tham số ộ xấp xỉ hàm đƣợc cập nhật online từ trạng thái hồi tiếp, không c tín hiệu đ ng, sai mong muốn để điều chỉnh nhƣ phƣơng pháp học giám sát Thông tin học khứ phải đƣợc đánh giá lƣu trữ nhiều tốt để cải thiện kết tƣơng lai, nhiên tài nguyên lƣu trữ nhỏ tốt C khả n ng xấp xỉ cục ộ để n ng cao hiệu tính tốn Đến đ c nhiều nghiên cứu ứng dụng xấp xỉ hàm Thành công thất bại loại cịn tùy thuộc vào ài tốn điều khiển cụ thể cách chọn trƣớc thông số cấu tr c an đầu cho xấp xỉ c ng nhƣ cách thiết kế luật cập 26 ắc cực nam, đ động đƣợc gọi động hai cực Giả sử dòng điện tức thời a cuộn d y là: iaa' I m sin( t ) ibb' I m sin( t 2 ) icc' I m sin( t 4 ) đ I m dòng điện cực đại, t thời gian, tốc độ g c Theo định luật Ampe, dòng điện qua cuộn d y tạo cƣờng độ từ trƣờng nhƣ sau: Hình 2.8 Sơ đồ cuộn dây stator ba pha H aa' H m sin( t ) H bb' H m sin( t 2 ) H cc' H m sin( t 4 ) Vì mật độ từ thông ( B ); B H , ta có Bm H m đ độ từ thẩm 32 vật liệu Mật độ từ thông cuộn d y a pha: Baa' Bm sin( t ) Bbb' Bm sin( t 2 ) Bcc' Bm sin( t 4 ) Tại thời điểm t : Baa' Bbb' Bm sin( t 2 ) Bcc' Bm sin( t 4 ) Tổng từ trƣờng từ a cuộn d y cộng lại với là: Bnet Baa' Bbb' Bcc' Bm 1200 2400 2 Bm (cos ) xˆ sin( ) yˆ cos( ) xˆ sin ) yˆ 3 3 Bm yˆ Vì thế, Bnet Bm 900 Nhƣ thể hình 2.9- (a) t 00 (b) t 900 , mật độ từ thông tổng 1.5Bm 900 Khi thời gian qua, mật độ thông lƣợng tổng đầu quay theo 33 hƣớng ngƣợc chiều kim đồng hồ quanh khe hở khơng khí với iên độ N quay với tốc độ đồng ộ, đƣợc cho ởi ( ns 120 f / P ), đ ns tốc độ đồng ộ từ trƣờng quay, f tần số P số cực Ngồi ra, hƣớng từ thơng quay c thể đƣợc thay đổi ằng cách hốn đổi hai dịng điện ng vào ất k cuộn d y stator Từ trƣờng quay yếu tố cần thiết hoạt động máy điện để tạo mômen tƣơng tác với từ thơng rotor Hình 2.9 Sơ đồ từ trƣờng 2.7.3 Phương trình học Phƣơng trình học đƣa vào mơ hình PMSM để hồn thành mơ tả động ằng cách sử dụng định luật thứ hai Newton J d m Te Bmm TL dt d m m dt Trong đ Te mômen điện từ, TL mômen tải, Bm hệ số ma sát nhớt J mômen quán tính rotor cộng với tải Mối quan hệ tốc độ g c điện học là: 34 e P m Mômen điện từ đạo hàm riêng hệ số tích trữ từ tính liên quan đến độ dịch chuyển g c Hệ số đƣợc cho là: T T Wc iabc Ls iabc iabc mabc WPM đ WPM n ng lƣợng đƣợc lƣu trữ nam ch m v nh cửu, không phụ thuộc vào dịch chuyển g c Mômen là: Te Wc P Wc m e Do độc lập với e , đạo hàm ma trận điện cảm Ls WPM ằng không Ngƣời ta c thể nhận đƣợc mômen điện từ nhƣ sau: Te 2.8 P m ia ib sin e ic sin e cos e 2 1 sin e cos e Biến đổi C r e: Các iến hai pha cố định iến đổi Clarke đƣợc ký hiệu nhƣ hình 2.10 Trục trùng với trục pha a trục chậm sau trục g c / Nhƣ phép iến đổi hai hƣớng iến thứ thành phần thứ tự không đƣợc thêm vào 35 cc ca t c cb c Hình 2.10 Biến đổi Clarke đ : f T f abc Trong đ ma trận iến đổi T trục trùng với trục pha a là: 1 T 1 2 1 T 2.9 3 2 1 1 1 Biến đổi P r Phép iến đổi Park từ a pha thành hai pha thƣờng đƣợc dùng ph n tích máy điện đồng ộ Quan hệ đại lƣợng dq abc đƣợc thể hình vẽ sau: 36 cd t cd cq cq cc cc cc d d ca d ca cb cb a b ca cq cb cd c Phƣơng trình iến đổi c dạng (hình a): f dq Tdq d f abc Trong đ ma trận iến đổi dq0 c dạng: cos d Tdq d sin d 2 2 cos d cos d 2 2 sin d sin d 1 2 cos d 1 2 Tdq d cos d 2 cos d sin d 2 sin d 2 sin d 1 1 1 Phép iến đổi Park thƣờng đƣợc dùng để iến đổi đại lƣợng stator máy điện đồng ộ lên hệ trục tọa độ dq cố định so với rotor Chiều dƣơng trục d đƣợc chọn trùng với trục từ trƣờng d y quấn kích thích Trong phép iến đổi Park chiều dƣơng trục q đƣợc chọn vƣợt trƣớc chiều dƣơng trục d góc / Nhƣ điện áp dây quấn hƣớng theo chiều dƣơng trục q Ta 37 chọn chiều dƣơng trục q chậm sau chiều dƣơng trục d góc / Lúc đ chiều dƣơng sức điện động cảm ứng dây quấn trùng với chiều dƣơng trục q điện áp dây quấn hƣớng ngƣợc chiều trục q Ma trận phép biến đổi với trục q chậm sau trục d (hình b) là: cos d 2 Tdq d sin d 3 2 2 cos d cos d 2 2 sin d sin d 1 2 C ng c thể dùng phép iến đổi dq0 c trục q vƣợt trƣớc trục d iểu diễn theo g c d gi a trục a trục q nhƣ (hình c) f dq Tdq f abc Trong đ cos q 2 Tdq q sin q 2 2 cos q cos q 2 2 sin q sin q 1 2 Và nghịch đảo phép iến đổi : cos q 1 2 Tdq q cos q 2 cos q 38 sin q 2 sin q 2 sin q 1 1 1 Giữa d q c quan hệ: q d Thay q vào Tdq d thực số iến đổi lƣợng giác ta c : cos d sin d 2 sin d cos d 2 Nhƣ hai phép iến đổi Tdq d Tdq q ản giống nhau, khác thứ tự iến d q 2.10 Biến đổi P r n ƣợc C thể tìm thấy hệ trục tọa độ “dq0” ằng cách chuyển từ khung " " cho máy điện xoay chiều a pha iến đổi Park c thể đƣợc chia thành hai ƣớc, biến đổi Clarke biến đổi Park ngƣợc, nhƣ đƣợc thể (hình 2.10) iến đổi thuận nghịch phép iến đổi Park ngƣợc đƣợc cho là: f dq Q f f Q 1 f dq cos Q sin sin cos cos Q sin sin cos o đ góc quay hệ trục tọa độ "dq" 39 2.11 Điều c ế độ rộn un Điều chế độ rộng xung (PWM) k thuật điều chỉnh ho c điều khiển độ rộng xung dạng s ng tạo kênh xung (tín hiệu PWM) Tín hiệu PWM tập hợp xung c độ rộng xung thay đổi độ lớn khơng đổi Các tín hiệu điều khiển cổng điện tử công suất làm thay đổi tần số ng cƣờng độ điện áp nguồn o đ , điện áp ng ho c dòng điện đƣợc điều khiển ằng cách thay đổi chu k làm việc dạng s ng PWM đƣợc sử dụng để điều khiển động ằng cách áp dụng tín hiệu PWM cho cổng chuyển đổi cơng suất nhƣ IGBT Có a phƣơng pháp ho c k thuật PWM: k thuật PWM hình sin, k thuật PWM vector không gian, k thuật PWM trễ Tuy nhiên, mục đích k thuật PWM tạo tín hiệu PWM để tạo điện áp ng mong muốn ho c dịng điện tính tốn chuỗi chuyển mạch để giảm thiểu tổn hao chuyển mạch iến dạng s ng hài K thuật không gian Vector PWM tạo iến dạng điện áp ho c dòng điện ng sử dụng hiệu liên kết C o đ PWM hình sin đƣợc xem xét lại, tảng ản PWM 2.12 IGBT Một thiết ị điện tử công suất đƣợc giới thiệu vào đầu n m 1980, ký hiệu IG T đƣợc thể (hình 2.11) Các đ c tính trội IG T trở thành thiết ị phù hợp cho ứng dụng truyền động so với BJT (Transistor Bipolar Junction) MOSFET (Metal-Oxide Semiconductor) JT thiết ị điện tử điều khiển dòng điện hoạt động tốt đ c tính trạng thái c thể xử lý dòng điện lớn M c dù điều kiện tắt, JT c thời gian chuyển đổi l u M t khác, MOSFET thiết ị điện tử điều khiển điện áp c tốc độ chuyển mạch nhanh Tuy nhiên, MOS ET khơng thích hợp cho ứng dụng công suất lớn Xem xét nhƣợc điểm này, IG T c vùng hoạt động an toàn trội, đ c tính trạng thái tốc độ chuyển mạch tốt o đ IG T đƣợc sử dụng làm cơng tắc nguồn cho trạng thái trung ình cao cho điện áp tần số 40 Hình 2.11 Ký hiệu mạch IGBT 2.13 Giới t iệu p ần cứn điều iển OC Để thực nghiệm điều khiển PIC AOC, phần mềm ộ dụng cụ Texas Instruments sản xuất Phần mềm c tên Code Composer Studio TM, CCStudio ộ dụng cụ ao gồm: Card điều khiển 28035, ộ xử lý điều khiển k thuật số Nguồn điện cung cấp 15V, cáp nguồn AC, d y cắm, cáp US -B sang A ảng điều khiển động k thuật số điện áp cao, HV MC (High Voltage Digital Motor Control), c phần điều khiển mạch Vỏ nhựa ảng điều khiển động Tản nhiệt Quạt Hình 2.12 Kit 2.13.1 Code Composer StudioTM Code Composer StudioTM ứng dụng dành cho họ xử lý nh ng TI Đ y mơi trƣờng phát triển tích hợp (IDE) M điều khiển đƣợc thực thông qua Code Composer StudioTM Sử dụng ứng dụng CCS cho phép lập trình viên viết mã ngôn ngữ hợp ngữ TI ho c C Tất họ biến thể xử lý tín hiệu k thuật số TIs đƣợc CCS hỗ trợ 41 2.13.2 Card điều khiển Piccolo F28035 Card điều khiển có nhiều tính n ng nhƣ kích thƣớc nhỏ 90mm * 25mm sử dụng nhƣ bảng đánh giá nhanh (Piccolo) Hình 2.13 Card điều khiển Piccolo F28035 2.13.3 Bộ xử lý tín hiệu kỹ thuật số Texas Instruments DSP (TMS320F28035) điều khiển k thuật số lập trình đƣợc với sức mạnh CPU C28x ƣới đ y tóm tắt ngắn gọn DSP 28035 Điểm mạnh F28035 có thiết bị ngoại vi CPU có khả n ng hoạt động với nhớ chip ođ , SP cho phép ngƣời dùng thiết kế thuật toán điều khiển phức tạp tính tốn thơng số thời gian thực, có CPU xử lý tốc độ cao SP đƣợc gắn card điều khiển dễ dàng giao tiếp với HV MC thơng qua đế cắm máy tính TI ƣới đ y số tính n ng DSP: Name TMS320F28035 Clock Speed 60 MHz Memory on-chip Analog to digital conversion 16 channels PWM 14 channels Input/output pins Up to 56 pins Signal level [0, 3.3]V (0-3.3V on ADC pin) 42 2.13.4 uản l d liệu Trên SP c hai ộ quản lý liệu: Quản lý liệu A (EMA) quản lý liệu (EM ) Vì ộ quản lý liệu c chức n ng điều khiển cần thiết (hẹn giờ, PWM, ADC) thiết bị điện nên đƣợc coi thiết bị ngoại vi quan trọng Cả hai trình quản lý liệu lập trình riêng lẻ nhƣng hoạt động song song 2.13.5 Tín hiệu ng v o ng Tổng số ch n SP đ cho lên đến 56 chân Hầu hết có nhiều chức n ng khác Các ch n đƣợc đ t thành chức n ng ho c phụ, mục đích chung liệu số I/O Hình 2.14 Sơ đồ khối chức n ng DSP TMS320F28035 43 2.13.6 Điều chế độ rộng xung Mỗi ộ quản lý liệu c tối đa ảy ePWM điều chế độ rộng xung nâng cao, tổng số DSP 14 kênh Các kênh ePWM chƣơng trình riêng lẻ ho c ghép nối Bộ hẹn tích hợp đƣợc sử dụng để tạo tín hiệu PWM PWM chứa xung c iên độ không đổi chu k nhiệm vụ thay đổi đƣợc sử dụng để điều khiển chuyển mạch thiết bị điện tử công suất 2.13.7 Chuyển đổi tương tự sang kĩ thuật số DSP có 16 kênh ADC chuyển đổi tƣơng tự sang k thuật số, đ c kênh ộ quản lý liệu A C chuyển đổi ho c lấy mẫu liệu tƣơng tự sang k thuật số Rất hữu ích cho ứng dụng điều khiển động cơ, cho phép ngƣời vận hành sử dụng điện trở shunt để cảm nhận phản hồi 2.13.8 Điều khiển động kĩ thuật số điện áp cao Điều khiển động k thuật số điện áp cao (HV MC) đƣợc cố định lồng nhựa có tản nhiệt với quạt DC gắn ên dƣới HVDMC, giúp dễ dàng thử nghiệm điều khiển k thuật số động điện áp cao Bản tóm tắt dựa (Texas Instruments) Bộ điều khiển đƣợc hiển thị hình 2.15, bao gồm số tính n ng: Giai đoạn chỉnh lƣu AC, đƣợc sử dụng để cung cấp nguồn C cho giai đoạn khác Ng vào AC pha tín hiệu 85V-132V/170V-250V Giai đoạn hiệu chỉnh hệ số công suất (P C: Power actor Correction), đƣợc sử dụng để lọc ng ộ chỉnh lƣu t ng hiệu dòng điện xoay chiều ng vào Giai đoạn iến tần pha, đƣợc sử dụng để điều khiển động điện áp cao Giai đoạn c thể đƣợc sử dụng để điều khiển OC không cảm iến c cảm iến động cảm ứng, PMSM ho c động C không chổi than N c ng vào xung m h a cầu phƣơng (QEP) CAP để đo vị trí tốc độ JTAG ảo vệ dòng 44 HV MC đƣợc chia thành bảy khối tùy theo chức n ng nhƣ đƣợc thể hình 2.15.Bảng tham chiếu khối macro Mạch khối có card điều khiển, jumper nối thiết bị đo đạc, kết nối QEP CAP chuyển đổi điện áp Khối M1 c nguồn ng vào AC lấy từ nguồn ên Nguồn cung cấp ộ chỉnh lƣu đƣợc chuyển đổi sang giai đoạn hiệu chỉnh hệ số công suất (P C) ho c thành us C cho iến tần Khối M2 c ộ nguồn phụ ng vào 400V, 5V 15V c thể tạo 15V – 5V từ nguồn AC chỉnh lƣu Khối M3 c mô US iệt lập US c thể đƣợc sử dụng nhƣ JTAG ho c SCI không cần JTAG Khối M4 c hai giai đoạn xen kẽ giai đoạn P C Khối M5 c iến tần a pha đƣợc sử dụng để cung cấp điện áp cao điều khiển động a pha Khối M6 c ng vào nguồn C đƣợc cấp nguồn từ điện áp đổi ên N tạo 15V, 5V 3.3V cho khối Hình 2.15 ảng tham chiếu khối macro 45 C ộ chuyển 2.13.9 Hiệu suất FOC DSP có thiết bị ngoại vi tích hợp hỗ trợ điều chế không gian vector PWM Sử dụng mã TI chƣơng trình để điều khiển PMSM Nếu SP đƣợc sử dụng mà khơng có card dụng cụ cần thêm kiến thức tín hiệu bên lập trình nhiều thiết bị Hình 2.16 Động điều khiển kỹ thuật số điện áp cao sơ đồ bảng PFC 46 ... trình học 2.5 Giải thuật học củng cố tron điều khiển tối ƣu bền vững Chuẩn H đ ng vai trò quan trọng ph n tích thiết kế hệ thống điều khiển ền vững từ ài toán điều khiển tối ƣu ền vững H cho hệ. .. hữu ích cho ứng dụng điều khiển động cơ, cho phép ngƣời vận hành sử dụng điện trở shunt để cảm nhận phản hồi 2.13.8 Điều khiển động kĩ thuật số điện áp cao Điều khiển động k thuật số điện áp cao... cịn gọi tín hiệu củng cố, r xk , u ( xk ) , đ c trƣng cho chi phí điều khiển áp dụng luật điều khiển u ( xk ) trạng thái xk Luật điều khiển u ( x) : x U ( x) cho áp dụng u ( x) từ trạng