DANH SÁCH CÁC HÌNH VẼ
1. CHƯƠNG 1 : TỔNG QUAN VỀ ĐỀ TÀI
1.2.2. Đề xuất các luật điều khiển tổng hợp từ các công trình liên quan
Những đề xuất ban đầu cho hệ thống thiếu cơ cấu truyền động này phải kể tới Spong [15]. Mark W. Spong đã sử dụng giải thuật phản hồi tuyến tính riêng phần để điều khiển hệ Acrobot [7]. Chiến lược cơ bản để đưa robot lên vị trí cân bằng ngược là chọn một bộ điều khiển ngoài để đưa khớp thứ 2 lên và biên độ của khớp 1 tăng theo, muốn cân bằng vị trí ngược này chúng ta phải thiết kế một bộ điều khiển làm ổn định tác động của hệ thống trong khu vực đó về một điểm cân bằng. Acrobot có một điểm duy nhất cân bằng ổn định tương ứng với cả hai khớp nối với nhau theo phương thẳng đứng hướng xuống và có duy nhất một điểm cân bằng ngược không ổn định, đó là kết quả mong muốn đạt được khi áp dụng giải thuật điều khiển cân bằng vào hệ thống động lực học của Acrobot trong mặt phẳng của vị trí cân bằng ngược này. Theo luật tự nhiên, Acrobot ở vị trí cân bằng ngược thì tâm khối lượng của hệ thống nằm ngay bên trên khớp nối, mỗi vị trí cân bằng được liên kết với duy nhất một hằng số momen ngõ vào [15]. Vì vậy, chỉ khi Acrobot ở vị trí cân bằng ngược thẳng đứng thì momen ngõ vào bằng 0 (có rất nhiều vị trí cân bằng ngược nhưng chỉ có một vị trí cân bằng ngược thẳng đứng 2 khớp nối). Tuy nhiên luật điều khiển được chọn dựa trên điều kiện là năng lượng của từng khớp đơn tăng. Vì vậy theo lý thuyết thì điều này không đảm bảo được rằng năng lượng của Acrobot cũng tăng tương ứng cùng với sự chuyển động lên.
*Kết quả đạt được:
Hình 1.4: Đáp ứng góc của hệ thống với phương pháp điều khiển phản hồi tuyến tính hóa riêng phần và LQR
Trong [26] Brown và Passino đã trình bày phương pháp điều khiển LQR, điều khiển mờ và mờ thích nghi điều khiển cân bằng Acrobot và bộ điều khiển PD với điều khiển tuyến tính hóa hồi tiếp riêng phần, điều khiển hồi tiếp trạng thái và điều khiển mờ để đưa Acrobot về vị trí cân bằng trên. Cùng lúc đó, sử dụng 2 giải thuật di truyền để điều chỉnh tối ưu quá trình Swing-Up và giữ trạng thái cân bằng đó khi mà robot đã vào miền cân bằng. Ở [26] trong quá trình Swing-Up đã đề cập tới 3 giải thuật bao gồm : Hồi tiếp tuyến tính hóa riêng phần kết hợp với bộ điều khiển PD. Thực tế như chúng ta đã biết là thông số bộ điều khiển của hệ thống là không chính xác, là thông số ước lượng nó được cập nhật liên tục trong quá trình Swing-Up, vì thế chúng ta mong muốn tìm được một luật điều khiển sao cho không phụ thuộc hoàn toàn vào bộ thông số này của hệ thống, đó là sử dụng bộ điều khiển hồi tiếp trạng thái và thứ 3 là giải thuật điều khiển mờ trực tiếp. Thông số đầu tiên cho mỗi bộ điều khiển được ấn định trực tiếp, sau đó bộ GA sẽ được sử dụng để điều chỉnh lại bộ thông số điều khiển này nhằm cải
thiện chất lượng điều khiển. Bằng việc kết hợp các luật điều khiển và sử dụng giải thuật di truyền để tự chỉnh các thông số cho quá trình Swing-Up và cân bằng hệ Acrobot, Brown và passion cho kêt quả mô phỏng rất tốt. Tuy nhiên, các phương pháp này tương đối phức tạp và thời gian đáp ứng khá lớn (sau khoảng 20s thì hệ thống mới đạt được trạng thái cân bằng ngược).
*Kết quả đạt được:
Hình 1.5: Đáp ứng góc của hệ thống với phương pháp điều khiển mờ và GA Trong [28] YzengGuo và Peng-yung Woo đã đề xuất giải thuật điều khiển mờ trượt thích nghi (AFSMC) cho quá trình Swing-Up hệ Acrobot. YzengGuo và Peng-Yung Woo đã sử dụng hệ thống mờ một ngõ vào một ngõ ra (SISO) ứng cho việc tính toán mỗi phần tử của vecto độ lợi trong bộ điều khiển trượt. Luật điều khiển thích nghi được xây dựng dựa trên hàm Lyapunov. Ở đây V được xem như chỉ số của năng lượng của s và M là ma trận được xây dựng như trong mục 2.1.Tính ổn định của hệ thống được đảm bảo bằng cách chọn một luật điều khiển sao cho đảm bảo ̇
̇ với ̇ được xác định theo công thức : ̇ ∑ ( ) .Trong [28] mỗi phần tử của vecto độ lợi được tạo ra từ một bộ mờ dựa vào giá trị của mặt trượt Si và biến số của nó. Bởi vì vecto điều khiển độ lợi được xây dựng từ bộ mờ, là bộ điều khiển phi tuyến và liên tục, các hàm thành viên của vecto độ lợi được cập nhật on-line nên bộ điều khiển này không chỉ đơn thuần là bộ mờ mà là bộ mờ thích nghi. Kết quả mô phỏng cho đáp ứng rất tốt, nó đã khắc phục được hiện tượng “chattering” và ổn định sai số bám so với một bộ điều khiển trượt thông thường . Trong [3] R.N.Banavar và A.D Mahindrakar đã dùng luật điều khiển dựa vào thuyết ổn định lyapunov cho hệ thống chuyển động không trơn láng (non-smooth) và điều khiển tối ưu thời gian cho Acrobot. Trong nghiên cứu này, mục tiêu là chuyển hệ thống Acrobot từ mức năng lượng này qua mức năng lượng khác. Mục tiêu cụ thể hơn là cấp cho hệ thống một mức năng lượng để chuyển từ mức năng lượng đặt này tới một mức năng lượng được đặt tương ứng (hoặc gần tới mức ngưỡng đặt tương ứng) của vị trí cân bằng ngược. Luật điều khiển được tự động cập nhật cho tới khi hệ thống gần đạt tới vị trí cân bằng mới. Tại điểm này thì luật điều khiển hồi tiếp tuyến tính hóa sẽ giúp cho hệ thống được giữ thẳng đứng xung quanh vị trí cân bằng mới. Chúng ta có luật biến đổi năng lượng được sử dụng cho quá trình Swing-Up và điều khiển Bang-Bang giúp khảo sát tối ưu hóa thời gian biến đổi năng lượng, [3] mới trình bày được điều kiện cần để tối ưu hóa thời gian biến đổi năng lượng của luật điều khiển và chưa có được điều kiện đủ để thực hiện được luật điều khiển này. Nhược điểm của phương pháp là khó kiểm chứng số liệu và quá trình khảo sát, các thí nghiệm để khắc phục vấn đề này vẫn đang được tiếp tục nghiên cứu và cải thiện.
*Kết quả đạt được:
Hình 1.6: Đáp ứng góc 1 của hệ thống với phương pháp điều khiển năng lượng
Hình 1.7: Đáp ứng góc2 của hệ thống với phương pháp điều khiển năng lượng Trong [23] Xin Xin và Masahiro kaneda cũng đã đề xuất phương pháp đưa Acrobot lên vị trí cân bằng ngược dựa trên hướng tiếp cận điều khiển năng lượng. Trong [23]
luật điều khiển được thiết kế dựa vào thuyết ổn định Lyapunov, tổng năng lượng của hệ thống được biến đổi thành thế năng để đưa Acrobot lên vị trí cân bằng ngược. Đặc tính của hệ thống là điều khiển vòng kín với luật biến đổi năng lượng. Ưu điểm của
phương pháp này là đạt được mục tiêu đưa hệ thống tới điểm cân bằng ngược và cân bằng nó trong một miền lân cân nhỏ xung quanh vị trí cân bằng ngược thẳng đứng, hệ thống có thể dao động qua trái hay phải xung quanh vị trí cân bằng nhưng nếu trong một lân cận nhỏ được xác định thì nó vẫn có thể dao động về lại vị trí cân bằng thẳng đứng một cách dễ dàng. Tuy nhiên, nhược điểm của phương pháp là khi luật điều khiển hướng tiếp cận năng lượng được áp dụng, điều khiển vòng kín của hệ thống khó xác định và phức tạp hơn Pendubot, hơn nữa luật điều khiển này còn hạn chế miền giới hạn điều khiển.
*Kết quả đạt được:
Hình 1.8: Đáp ứng góc và vận tốc của hệ thống với phương pháp điều khiển năng lượng
Tiếp đến là các nhà nghiên cứu đã sử dụng các luật điều khiển mờ để điều khiển hệ Acrobot. Michael A.Lee và Micheal H.smith đã đề xuất việc điều khiển mờ tự chỉnh định cho Acrobot sử dụng giải thuật di truyền, DSFS và kĩ thuật Meta-Rule [5].
W.Wang, J.Yi Zhao và D.Liu đã đề xuất giải thuật thiết kế hệ thống theo mô hình trượt để điều khiển hệ thống Acrobot [1]. X.Lai, J-H.She, Y.Ohyama và Z.Cai đã đề xuất
luật điều khiển mờ kết hợp điều khiển mờ tự do và điều khiển mờ theo mô hình để điều khiển hệ acrobot [2].
Trong quá trình chuyển động lên, luật điều khiển momen được điều khiển trực tiếp từ năng lượng của Acrobot và điều khiển mờ tự do sẽ điều chỉnh biên độ của momen điều khiển theo năng lượng. Điểm cần chú ý trong cách điều khiển này là tìm ra được một luật điều khiển momen để đảm bảo được rằng năng lượng của Acrobot tăng tỉ lệ với chuyển động Swing-Up của hệ thống. Điều này hoàn toàn khác với đề xuất của Spong [15], [17]. Trọng tâm chính của phương pháp là điều khiển biên độ của momen giảm trong khi năng lượng tăng. Bởi vì, chuyển động của Acrobot tới vị trí không ổn định ngược có dao động rất lớn, quá trình cân bằng nó được đề xuất xây dựng dựa trên mô hình mờ Takagi- Sugeno để ước lượng dao động của Acrobot gọi là “điều khiển theo mô hình”. Mô hình điều khiển này sử dụng luật điều khiển mờ Takagi-Sugeno kết hợp với phép phân bố bù song song để cân bằng hệ Acrobot tại vị trí cân bằng ngược.
Ban dầu, luật điều khiển mờ tự do được sử dụng để đưa Acrobot lên vị trí cân bằng ngược, luật này được thiết kế sao cho đảm bảo được rằng năng lượng của Acrobot tăng lên tỉ lệ với quá trình Swing-Up của nó và biên độ của momen điều khiển đồng thời phải giảm tỉ lệ với năng lượng. Luật này được sử dụng để đưa robot từ vị trí cân bằng thuận (khu vực đu lên ) tới vị trí cân bằng ngược (khu vực hấp dẫn ), không gian chuyển động của Acrobot được chia nhỏ thành hai miền : Miền một là khu vực hấp dẫn bao gồm toàn bộ khoảng [- ] (khoảng cân bằng ngược) và khu vực Swing-Up.
Cho hai số dương bé là được định nghĩa tương ứng trong hai miền như sau:
- Khu vực đưa lên =| | | | ( ) - Khu vự hấp dẫn =| | | | ( )
Trong khu vực đưa lên, luật điều khiển mờ sẽ đưa Acrobot lên vị trí cân bằng ngược. Trong quá trình Swing-Up này, momen tải suy ra trực tiếp từ năng lượng của Acrobot. Một luật điều khiển mô hình mờ cơ bản được thiết kế để điều chỉnh biên độ
năng lượng để mà đảm bảo làm trơn chuyển động của Acrobot từ khu vực đưa lên tới khu vực hấp dẫn.
* Xác định Momen điều khiển.
Phương trình năng lượng của robot được xác định bởi công thức.
( ̇) ( ̇) ( ) ( )
Trong đó : ( ̇) là động năng và V(q) là thế năng. Và công thức để xác định động năng và thế năng của hệ như sau:
( ̇) ̇ ( ) ̇ (10a)
( ) ∑
( ) ∑ ( ) ( )
Trong đó ( ) và ( ) lần lượt là thế năng và chiều dài từ đầu khớp tới trung điểm của khớp . ( ) ( ) được xác định bởi công thức:
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
Trong quá trình Swing-Up, năng lượng của Acrobot phải tăng cho tới khi đạt tới vị trí cân bằng trên. Có nghĩa rằng năng lượng của Acrobot phải thỏa mãn điều kiện sau trong miền Swing-Up : ( ̇) ( )
Từ (9) ta khai triển ra như sau:
( ̇) [ ( ̇) ̇ ( ̇) ̇ ] [ ̈
̈ ] [ ( ̇) ̇ ( ̇) ̇ ] [ ̇
̇ ] [ ( ) ( ) ] [ ̇
̇ ] (13)
Từ (10) chúng ta có: [ ( ̇)
̇ ( ̇)
̇ ] ̇ ̇ ( ) ( ) Và : [ ( ̇) ̇ ( ̇) ̇ ] [ ̇
̇ ] ( ̇ ) ( ̇ ) [ ̇
̇ ] ( ) Từ 10b ta có : [ ( ) ( ) ] ( ) ( ) (
Khi đó ta viết lại phương trình 1a và 1b như sau:
[ ̈
̈ ] ( ) [ ( ̇) ( )
( ̇) ( )] ( )
Kết hợp (14),(15),(16) và (17) thế vào phương trình (13) ta được.
( ̇) ̇ ( )
Vì thế momen cho quá trình đu lên được xác định bởi công thức : ( ̇ ) ( ) ỏ ươ ( )
Để điều khiển biến trong phương trình (19) có thể chọn một miền giá trị bất kì cho momen điều khiển miễn là nó mang giá trị dương. Rõ ràng là, biên độ của momen phải được chọn sao cho năng lượng biến đổi tăng thì biên độ phải giảm tương ứng. Điều kiện này thỏa mãn sẽ làm cho robot chuyển động trơn đu lên về miền hấp dẫn khi luật điều khiển thay đổi. Để thực hiện được luật điều khiển này thì một luật điều khiển mờ được thiết kế để xác định biến điều khiển . Bởi vì luật điều khiển mờ được xây dựng chỉ nhằm một mục tiêu duy nhất là đảm bảo rằng biên độ của momen điều khiển giảm tỉ lệ khi năng lượng của acrobot tăng lên nên chúng ta nhận thấy rằng chỉ cần cung cấp một luật mờ đơn giản cũng đủ để đảm bảo được điều kiện này. Trong đó, ngõ vào của bộ mờ là năng lượng ( ̇) và ngõ ra là biến điều khiển . Mối quan hệ giữa ngõ vào năng lượng ( ̇) và ngõ ra được thiết lập bằng một luật mờ đơn giản. Hàm thành viên (mfs) cho ngõ vào /ngõ ra biến ngôn ngữ được chọn có hình tam giác, ngõ ra biến
. Nếu có 2 luật điều khiển mờ được xây dựng, một cho năng lượng và một cho ngõ ra biến được chọn có thể đạt được một luật điều khiển tốt hơn nữa như là : rút ngắn thời gian đáp ứng, chuyển động từ miền Swing-Up qua miền hấp dẫn sẽ trơn láng hơn
…sử dụng luật mờ sẽ cho kết quả tốt hơn một bộ điều khiển tuyến tính đơn thuần. Bộ điều khiển mờ này sẽ được sử dụng tới khi Acrobot đu lên tới vị trí cân bằng ngược.Việc sử dụng phương pháp này có thể mở rộng để điều khiển chuyển động và cân bằng cho hệ robot có nhiều bậc tự do mà thiếu cơ cấu truyền động trong hệ phẳng.
Nó có thể áp dụng cho hệ thống có tính phi tuyến cao như hệ con lắc ngược, hệ pendubot….
*Kết quả đạt được:
Hình 1.9: Đáp ứng góc của hệ thống với phương pháp điều khiển mờ
Hình 1.10: Đáp ứng vận tốc của hệ thống với phương pháp điều khiển mờ
Trong những năm gần đây, đã có rất nhiều phương pháp mới giải quyết vấn đề điều khiển Swing-Up được nghiên cứu và đề xuất. Cùng với sự phát triển lĩnh vực điều
khiển hiện đại, kéo theo đó là rất nhiều giải thuật điều khiển thông minh được đề xuất và áp dụng như: Điều khiển neural, giải thuật di truyền, kết hợp mạng thần kinh và giải thuật di truyền, kết hợp mờ và GA, mờ và neural...Tiêu biểu là phương pháp điều khiển Acrobot của Sam Chau Duong, Hiroshi Kinjo, Eiho Uezato và Tetsuhiko Yamamoto [4]. Cụ thể, Sam Chau Duong, Hiroshi Kinnjo, Eiho Uezato và Tetsuhiko Yamamoto đã đề xuất việc thiết kế luật điều khiển Acrobot bằng việc sử dụng mạng thần kinh kết hợp giải thuật di truyền [4]. Trong [4] đã đề xuất giải thuật điều khiển mới trong đó luật điều khiển NC (neuroncontroller) được điều khiển tối ưu bằng GA sử dụng cho quá trình Swing-Up hệ Acrobot và luật điều khiển LQR cho quá trình cân bằng hệ thống, kết quả mô phỏng trong 2 khoảng thời gian giới hạn t=5s và t=2s đều cho đáp ứng rất tốt và nhận thấy rằng có thể điều khiển một cách trơn láng chuyển động của Acrobot và rút ngắn thời gian đưa lên vị trí cân bằng. Có thể tóm lược nội dung của giải thuật này một cách ngắn gọn như sau : Từ phương trình động học đã được xây dựng ở mục 2.1 thì ta phải xây dựng được một bộ điều khiển để đưa Acrobot từ trạng thái cân bằng thuận tới gần với trạng thái cân bằng trên
, sai số ( ) sẽ là ngõ vào cho bộ Neural và ngõ ra là momen tải . Sai số giữa trạng thái mong muốn và trạng thái tức thời sẽ được cập nhật liên tục ( tín hiệu vào ) và qua trọng số của mạng noron điều khiển bằng GA. sau thời gian t bé của quá trình Swing-Up đạt được thì luật điều khiển cân bằng LQR sẽ được sử dụng để điều khiển ( ) trong đó K là độ lợi điều khiển được tính toán trong quá trình thiết kế bộ điều khiển LQR. Cấu trúc của bộ NC (Neural control) gồm lớp tín hiệu vào (4 tín hiệu là hiệu số lần lượt (( ) ( )( ) ( ) ( )), một lớp ẩn với hàm tác động tansig, hàm tác động ngõ ra là hàm tác động tuyến tính f(x)=x và một tín hiệu ngõ ra , trong đó bộ trọng số được xây dựng bằng thuật toán di truyền, mỗi trọng số được chuyển thành một mã gen bằng bộ mã hóa 16 bít.
Hàm thích nghi được định nghĩa như sau : ( )
( )
Trong đó N là kích thước quần thể và Ep là hàm sai số của Pth và E(P) được xác định bởi công thức : ∑ ( ) trong đó Qi là hệ số trọng số , là biến trạng thái tại trạng thái cuối của Acrobot tại thời điểm ts trong quá trình mô phỏng.
*Kết quả đạt được:
Hình 1.11: Đáp ứng góc của hệ thống với phương pháp điều khiển kết hợp mạng noron thần kinh và giải thuật di truyền (GA).
Hình 1.12: Đáp ứng vận tốc góc của hệ thống với phương pháp điều khiển kết hợp mạng noron thần kinh và giải thuật di truyền (GA).
Từ kết quả mô phỏng chúng ta thấy được ưu điểm của phương pháp này là trong khi các phương pháp tiếp cận khác sử dụng những điều kiện cơ bản không thể tối ưu được