.Quá trình huấn luyện DDPG Agent

Một phần của tài liệu ĐỒ án tốt NGHIỆP điều khiển con lắc ngược sử dụng phương pháp học tăng cường (Trang 41)

Nhận xét:

 Thuật toán SAC mất hơn 120 episodes đầu tiên để khám phá mơi trường, cịn với DDPG là hơn 250 episodes.

 Quá trình huấn luyện SAC ổn định hơn so với DDPG, hiệu suất huấn luyện SAC đã có xu hướng tăng và đạt được tiêu chí dừng sau 178 episodes, với DDPG mặc dù đã hết số episodes nhưng vẫn chưa đạt được tiêu chí dừng.

hiệu quả so với DDPG

Sau khi đã huấn luyện thành công, SAC Agent được sử dụng để điều khiển con lắc ngược mô phỏng và thu được kết quả sau:

Hình 28: Kết quả góc(sensor 2),(sensor 1) thu được khi chạy mơ phỏng

Hình 29: Kết quả . (sensor 3) và . (sensor 4)

Hình 30: Kết quả điện áp đặt vào động cơ

Nhận xét kết quả mô phỏng:

 Từ kết quả mơ phỏng cho thấy góc cánh tay quay và góc con lắc ngược . Tại giây đầu tiên, con lắc ngược quay đang trong q trình lật ngược. Sau đó, ở trạng thái cân bằng, con lắc ngược được giữ tại vị trí thẳng đứng trong khoảng thời gian cịn lại.

 Giá trị điện áp đặt vào động cơ không vượt quá 12V về mặt thực tế đảm bảo an toàn cho động cơ

 So với bộ điều khiển truyền thống (LQR) thì bộ điều khiển được đề xuất ở đây làm thời gian đáp ứng của theta và alpha nhanh hơn (2s với bộ điều khiển đề xuất và 5s-8s của bộ điều khiển LQR)

CHƯƠNG 4. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Nhìn lại những kết quả đã đạt được trong quá trình làm đồ án, chúng em nhận thấy đã cơ bản đạt được những mục tiêu ban đầu đặt ra là thiết kế và xây dựng hoàn chỉnh một hệ thống điều khiển cho mơ hình con lắc ngược.

Từ những kết quả đã đạt được và qua quá trình nghiên cứu tài liệu khi thực hiện đồ án, chúng em xin được đề xuất các hướng phát triển tiếp theo của đồ án này:

- Thực thi phương án này trên thiết bị thực tế thông qua các vi điều khiển chuyên dụng.

- Sử dụng thêm các thuật toán học tăng cường phức tạp hơn như áp dụng kỹ thuật Prioritized Experience Replay vào thuật toán DDPG, thuật toán Twin- delayed deep deterministic policy gradient (TD3), thuật toán Proximal policy optimization (PPO), …

Rất mong có thể nhận được nhiều lời đóng góp ý kiến của thầy cô và các bạn cho đồ án của chúng em. Và mong rằng đề tài này của chúng em trong tương lai sẽ được phát triển tiếp để hoàn thiện hơn nữa, với nhiều giải thuật điều khiển thú vị và tốt hơn nữa được đưa ra.

1. TÀI LIỆU THAM KHẢO

[1] C. Andrew, K. Robert and L. Joao, "Furuta Pendulum," Massachusetts, 2013. [2] Vũ Thị Thúy Nga, Ong Xuân Lộc, Trịnh Hải Nam, Học tăng cường trong điều khiển Tự động với Matlab và Simulink, Hà Nội: Nhà xuất bản Bách khoa Hà Nội, 2020.

[3] N. D. Phước, Tối ưu hóa trong điều khiển và điều khiển tối ưu., Hà Nội: Nhà xuất bản Bách khoa Hà Nội, 2015.

[4] N. P. Quang, Matlab Simulink dành cho kỹ sư điều khiển tự động, Hà Nội: Nhà xuất bản Khoa học & Kỹ thuật, 2005.

[5] Nguyễn Viết Quý, Phạm Văn Tiến, "Thiết kế và điều khiển mơ hình con lắc ngược furuta," Hà Nội, 2016.

[6] Timothy P. Lillicrap,Jonathan J. Hunt,Alexander Pritzel, Nicolas Heess,Alexander Pritzel, Nicolas Heess,, "CONTINUOUS CONTROL WITH DEEP REINFORCEMENT," London, UK, 2016.

Một phần của tài liệu ĐỒ án tốt NGHIỆP điều khiển con lắc ngược sử dụng phương pháp học tăng cường (Trang 41)

Tải bản đầy đủ (PDF)

(47 trang)