Kết quả thực nghiệm bổ sung|

Một phần của tài liệu Khóa luận tốt nghiệp: Học tăng cường kết hợp tính toán tiến hóa cho bài toán điều khiển liên tục với các phép biến đổi kiểu hình ổn định (Trang 66 - 78)

Nhằm tìm hiểu về vai trò của các thay đổi của PhEDARC so với PDERL, chúng tôi thực hiện chạy thêm một số thực nghiệm để so sánh mức độ hiệu quả của các thành phần này trong thuật toán. Chúng tôi đặt ra hai câu hỏi để xoay quanh hai thay đổi lớn nhất của PhEDARC bao gồm

se Liệu chỉ đơn giản thay thé DDPG trong PDERL thành DARC có thể giúp thuật

toán tốt hơn hay không và tận dụng cơ chế policy gradient của DARC trực tiếp lên các cá thể như một phép biến đổi có lợi ích gì?

© Việc thay đổi phép đột biến từ PM thành PhDM giúp tăng hiệu năng cho

PhEDARC như thé nào?

BẢNG 4.5: Kết quả thực nghiệm bổ sung. Các thí nghiệm được chạy trên các môi trường khác nhau. Mỗi thuật toán được chạy 10 lần độc lập nhau. Các kết quả tốt nhất được in đậm. Mỗi ô được phủ xám chứa kết quả khác nhau về mặt ý nghĩa thống kê so với kết quả tốt nhất được

in đậm.

Môi trường Độ đo | PhDM PM No mut PDERL-DARC

Mean |15486.09 12968.28 14558.27 13750.92 HalfCheetah-v2 Std 1045.17 311.01 990.1 862.21

Median | 15902.09 12856.37 14377.62 13527.52

Mean | 6236.86 824.07 5301.8 5762.54

Walker2d-v2 Std 554.6 427.99 670.42 519.88

Median | 6184.62 953.23 53424 5955.86

Mean | 6774.07 6268.26 6893.74 6720.98

Ant-v2 Std 293.23 682.96 175.5 521.13

Median | 6823.81 6475.25 6912.62 6866.6

Mean | 3814.77 3494.25 3821.37 3313.59

Hopper-v2 Std 350.62 376.79 269.08 881.96

Median | 3935.08 3633.19 3877.33 3623.08

Liệu chỉ đơn giản thay thế DDPG trong PDERL thành DARC có thé giúp thuật toán tốt hon hay không va tận dụng cơ chế policy gradient của DARC trực tiếp lên các cá thể như một phép biến đổi có lợi ích gì?

Đầu tiên, chúng tôi tạo ra PDERL-DARC đơn giản bằng cách thay đổi tác tử

DDPG ở bên ngoài của PDERL với một tác tử DARC và giữ nguyên lại toàn bộ các

Chương 4. THUC NGHIEM 48

HalfCheetah-v2 Walker2d-v2

HN .oổ+

ree .a

co a aa

Scores N ua ° = 1

0 2 4 6

Steps 1e6 Steps 1e6

Ant-v2

8000 4

6000 1

wn

oO

o 4000 4

ư

2000 4

=

0 1 2 3 4

Steps 1e6 Steps 1e6

—— PhDM -*** No mutation —- PM —- PDERL-DARC

HÌNH 4.3: Các kết quả thực nghiệm bổ sung trên bốn môi trường của

OpenAI Gym.

thành phần khác cũng như các cài đặt của PDERL. Các kết quả của PDERL-DARC

được thể hiện trong Hình|4.3|và Bảng |4.5| Ta nhận thấy rằng PDERL-DARC có hiệu

năng vượt qua thuật toán gốc PDERL(-DDPG) trên cả kết quả cuối cùng và tính hiệu quả của lay mẫu đối với toàn bộ tất cả các tác vụ. Tuy nhiên, PhEDARC thậm chí tốn

ít số bước tương tác hơn để chạm được đến cùng kết quả và sau đó vượt trội hơn so với PDERL-DARC ở hầu hết các tác vụ, ngoại trừ Ant, khi hầu như không có sự khác biệt đáng kể nào về kết quả giữa hai thuật toán. Lý do chính cho sự khác biệt này là cách mà chúng tôi sử dụng DARC như một phép biến đổi. PDERL-DARC thu thập các kinh nghiệm khác nhau từ nhiều cá thể tác tử khác nhau trong quần thể và đưa

Chương 4. THUC NGHIEM 49

các kinh nghiệm này vào quá trình huấn luyện tác tử RL riêng biệt thông qua một

bộ nhớ chung. Trong khi đó, PhEDARC thực hiện cập nhật policy gradient trực tiếp trên các cá thể của quan thể dé tạo ra các cá thể có phần thưởng trả về cao hơn. Một yếu tố khác đóng góp vào kết quả vượt trội hơn của PhEDARC so với PDERL-DARC

là vì chúng tôi sử dụng PhDM thay vì PM. Lưu ý rằng, trong khi PhEDARC sử dụng phép biến đổi PhDM có tính ổn định cao hơn thì PDERL-DARC lại sử dụng PM lại thiếu sự ổn định như chúng tôi đã chỉ ra ở trước đó để làm phép đột biến. Nhằm

làm rõ luận điểm này, ở câu hỏi sau chúng tôi sẽ so sánh hiệu năng của toàn bộ

thuật toán PhEDARC nếu thay đổi giữa các phép đột biến với nhau. Tổng kết lại, các kết quả này cho thấy chỉ đơn thuần thay đổi DDPG thành DARC trong thuật toán PDERL sẽ không mang lại tính hiệu quả của lấy mẫu cao hơn so với PhEDARC.

Việc thay đổi phép đột biến từ PM thành PhDM giúp tăng hiệu năng cho PhEDARC như thé nào?

Kế tiếp, chúng tôi thực hiện so sánh PhEDARC sử dụng các phép đột biến khác nhau để làm rõ vai trò của phép đột biến mới được đề xuất trong thuật toán. Các biến thể được sử dụng trong thực nghiệm này bao gồm

¢ PhDM. Phép đột biến vi phân kiểu hình vẫn được giữ nguyên như trong thuật

toán PhEDARC.

¢ PM. PhEDARC nhưng thay thế phép đột biến vi phân kiểu hình thành phép

đột biến gần.

¢ No mut. PhEDARC nhưng không sử dụng bat cứ phép đột biến nào, tức là,

sau khi thực hiện lai ghép sẽ ngay lập tức cập nhật tham số của một nửa quần thể bằng thuật toán DARC mà không cần thực hiện đột biến.

Bảng |4.5|cho thấy rằng, trên HalfCheetah và Walker2d, chúng ta có thể thay sự

khác biệt rõ rệt về kết quả cuối cùng đạt được giữa các phép đột biến. PhEDARC-

PM không thể tìm ra chiến lược tốt hơn sau khi chạm đến số điểm nhất định trong khi PhEDARC-PhDM và kể cả No mut (biến thể không có đột biến) vẫn có thể tiếp tục đạt được kết quả tốt hơn. Để giải thích cho kết quả không tốt của thuật toán PhEDARC sử dụng phép biến đổi PM, chúng tôi đặt ra giả thuyết rằng phép đột biến gần có thể đã biến đổi các cá thể ở các vị trí mới có hiệu năng tương đối xâu trong không gian tham số chiến lược qua đó cản trở quần thể thu được các kinh

Chương 4. THUC NGHIEM 50

nghiệm có giá tri cao khiến cho actors và có thể là cả critics không thể học được các hành động tốt thông qua cơ chế của DARC. Hiện tượng này có thể được thấy rõ ràng trên Walker2d khi mà PhEDARC-PM cho ra kết quả cực kỳ tệ so với các biến thể khác. Thế nhưng, PDERL-DARC trên tác vụ Walker2d với phép biến đổi PM vẫn đạt được kết quả tốt hơn. Chúng tôi cho rằng tác tử DARC trong PDERL-DARC được cập nhật tham số riêng lẻ so với các cá thể trong quan thể mà không bi ảnh hưởng trực tiếp bởi các phép biến đổi khác; vì vậy, PM không ảnh hưởng trực tiếp đến tác

tử bên ngoài mà chỉ cung cấp kinh nghiệm thông qua các cá thể được đột biến trong quan thể, và từ đó bản thân hai actors bên ngoài của DARC giúp nâng toàn bộ hiệu năng của quan thể nói riêng và thuật toán nói chung. Trong khi đó, PhEDARC-PM

có hai actors của DARC là các cá thể được lay từ quan thể luân phiên nhau cập nhật tham số cùng với hai critics ở bên ngoài. Các cá thể này bị ảnh hưởng trực tiếp từ phép lai ghép và đột biến trước đó dẫn đến việc mức độ hiệu quả của DARC phụ

thuộc phần lớn vào các phép biến đổi này, mà cụ thể là PM và PhDM.

Ở môi trường Ant va Hopper, chúng tôi không nhận thấy có bat kỳ sự khác biệt

nào về ý nghĩa thống kê giữa PhEDARC không sử dụng đột biến và PhEDARC với PhDM, thể hiện rằng lai ghép chắt lọc và biến đổi bằng policy gradient của DARC

có thể là đủ tốt cho hai tác vụ này. Vì thế, những đóng góp của PhDM được cho thấy tốt hơn trên tác vụ HalfCheetah và Walker2d. Trên hai môi trường này, PhEDARC không sử dụng đột biến (No mut) cũng hoạt động tương đồi tốt ở thời điểm ban đầu của quá trình huấn luyện, nhưng sau khi đạt được đến số điểm nhất định, quá trình tìm kiếm có vẻ như đã có dấu hiệu bị chững lại và đường kết quả bắt đầu đi ngang

ra. Như vậy, để có thể tìm thấy chiến lược tốt hơn, một phép biến đổi có khả năng khám phá hiệu quả và an toàn như PhDM là cần thiết. Nhìn chung ở câu hỏi này, chúng tôi đã cho thấy được sự hiệu quả của khả năng khám phá và tính ổn định của PhDM, đóng góp vào sự cải thiện hiệu năng so với các phương pháp biến đổi được

so sánh khác.

51

Chuong 5

KET LUAN VA HUONG PHAT

TRIEN

5.1 Kétluan

Trong khóa luận này, một phương pháp mới được dé xuất, PhEDARC, duy tri một quần thể các chiến lược được tiến hóa ổn định về vùng có phần thưởng cao được

hỗ trợ bởi nhiều cơ chế hữu ích. Chúng tôi sử dụng tính hiệu quả của lai ghép chắt lọc từ PDERL với hàm ước lượng giá trị Q chính xác hơn thông qua việc điều chỉnh critics của DARC để tạo ra các cá thể có tiểm năng tốt hơn. Chúng tôi đã chỉ ra rằng các phép đột biến Gaussian truyền thống, dù đã được chia tỉ lệ lại theo độ nhạy so với đầu ra mạng neural như phép đột biến gần đã làm, vẫn rất khó để có thể tỉnh chỉnh siêu tham số (cụ thể là độ lớn đột biến) để đạt được kết quả mong muốn. Phép đột biến mới, PhDM, yêu cầu ít công sức hon để tinh chỉnh siêu tham số nhờ vào khả năng tự thích nghỉ để điều chỉnh dựa trên phân phối quan thể hiện tại. Tinh hiệu quả trong việc lay mẫu được tăng thêm từ thuật toán DARC bằng cách thực hiện policy gradient trực tiếp trên các cá thể trong quan thể có thể được xem như

là một phép biến đổi khác góp phần vào sự cải thiện hiệu năng của toàn bộ thuật toán. Chúng tôi sau đó kết hợp toàn bộ các thành phần kể trên để tạo ra một thuật toán tìm kiếm vừa ổn định và hiệu quả (PhEDARC) cho các tác vụ điều khiển liên

tục. PhEDARC vượt trội hơn cả một thuật toán state-of-the-art trong DRL hiện nay

là DARC về khả năng khám phá các kinh nghiệm mới và một thuật toán ERL gần đây là PDERL về tính hiệu quả của lấy mẫu.

Chương 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 52

5.2 Các hạn chế và hướng phát triển

Mặc dù phương pháp dé xuất đã cho thấy những cải thiện đáng kể về mặt hiệu năng và tính ổn định của phương pháp được đề xuất, tuy nhiên phương pháp chỉ

dừng lại ở so sánh với các hướng tiếp cận được kết hợp mà vẫn chưa thực hiện so

sánh với các thuật toán RL tốt hơn như SAC [15], TOC [23]. Một hạn chế khác là việc

huấn luyện critic dựa trên kinh nghiệm thu thập từ nhiều chiến lược khác nhau như cách làm của các thuật toán ERL hiện nay vẫn chưa được đảm bảo về tính ổn định.

Bên cạnh đó, nghiên cứu hiện tai chỉ được thực hiện trên các benchmarks, trình mô

phỏng có sẵn nên vẫn chưa làm rõ về khả năng ứng dụng của thuật toán.

Trong tương lai, chúng tôi sẽ tìm hiểu về cơ chế giúp ổn định hơn để huấn luyện critics có thể học được một cách chính xác giá trị hành động trên nhiều actors khác nhau trọng quan thể. Ngoài ra, chúng tôi cũng sẽ mở rộng phép biến đổi PhDM trên các thuật toán ERL khác và thí nghiệm kết hợp PhEDARC với các thuật toán DRL hiện đại ngày nay. Cuối cùng, chúng tôi sẽ cô gang đưa vào ứng dụng trong các lĩnh vực liên quan đến điều khiển liên tục như robotics.

53

DANH MUC CONG BO KHOA HOC

CUA TAC GIA

Hội nghị quôc tê:

[CT1] Thai Huy Nguyen and Ngoc Hoang Luong. “Stable and Sample-Efficient Pol-

icy Search for Continuous Control via Hybridizing Phenotypic Evolutionary Algorithm with the Double Actors Regularized Critics”. In Proceedings of the Genetic and Evolutionary Computation Conference, GECCO 2023, Lisbon, Portugal.

ACM, 2023, pp. 1239-1247. DOI: 10. 1145/3583131. 3590455. (CORE Rank A)

[CT2] Thai Huy Nguyen and Ngoc Hoang Luong. “Understanding the Role of Pop-

ulation Experiences in Proximal Distilled Evolutionary Reinforcement Learn- ing”. In Proceedings of the 12th International Symposium on Information and Com- munication Technology, SOICT 2023, Ho Chi Minh, Vietnam. ACM, 2023, pp. 205-212. DOI: 10.1145/3628797 . 3629006.

54

TÀI LIỆU THAM KHẢO

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Alex M. Andrew. “Reinforcement Learning: An Introduction by Richard S. Sutton and Andrew G. Barto, Adaptive Computation and Machine Learning series, MIT Press (Bradford Book), Cambridge, Mass., 1998, xviii + 322 pp, ISBN 0- 262-19398-1, (hardback, £31.95)”. In: Robotica 17.2 (1999), pp. 229-235. DOT:

Adria Puigdomenech Badia et al. “Never Give Up: Learning Directed Explo- ration Strategies”. In: 8th International Conference on Learning Representations, ICLR 2020, Addis Ababa, Ethiopia, April 26-30, 2020. OpenReview.net, 2020.

Marc G. Bellemare et al. “Unifying Count-Based Exploration and Intrinsic Motivation”. In: Advances in Neural Information Processing Systems 29: Annual Conference on Neural Information Processing Systems 2016, December 5-10, 2016, Barcelona, Spain. Ed. by Daniel D. Lee et al. 2016, pp. 1471-1479.

Alessio Benavoli, Giorgio Corani, and Francesca Mangili. “Should We Really Use Post-Hoc Tests Based on Mean-Ranks?”. In: J. Mach. Learn. Res. 17 (2016),

5:1-5:10.

Cristian Bodnar, Ben Day, and Pietro Lid. “Proximal Distilled Evolutionary Reinforcement Learning”. In: The Thirty-Fourth AAAI Conference on Artificial Intelligence, AAAI 2020, New York, NY, USA, February 7-12, 2020. AAAI Press,

2020, pp. 3283-3290.

Yuri Burda et al. “Exploration by random network distillation”. In: 7th Interna- tional Conference on Learning Representations, ICLR 2019, New Orleans, LA, USA,

May 6-9, 2019. OpenReview.net, 2019.

Kamil Ciosek et al. “Better Exploration with Optimistic Actor Critic”. In: Ad- vances in Neural Information Processing Systems 32: Annual Conference on Neural

TÀI LIỆU THAM KHẢO 55

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

Information Processing Systems 2019, NeurIPS 2019, December 8-14, 2019, Vancou- ver, BC, Canada. 2019, pp. 1785-1796.

Edoardo Conti et al. “Improving Exploration in Evolution Strategies for Deep Reinforcement Learning via a Population of Novelty-Seeking Agents”. In: Ad- vances in Neural Information Processing Systems 31: Annual Conference on Neural Information Processing Systems 2018, NeurIPS 2018, December 3-8, 2018, Montréal, Canada. 2018, pp. 5032-5043.

Jonas Degrave et al. “Magnetic control of tokamak plasmas through deep re- inforcement learning”. In: Nat. 602.7897 (2022), pp. 414-419. DOI: 10 . 1038 /

541586-021-04301-9

Adrien Ecoffet et al. “Go-Explore: a New Approach for Hard-Exploration Prob-

lems”. In: CoRR abs/1901.10995 (2019). arXiv: 1901. 10995,

Alhussein Fawzi et al. “Discovering faster matrix multiplication algorithms with reinforcement learning”. In: Nat. 610.7930 (2022), pp. 47-53.

Scott Fujimoto, Herke van Hoof, and David Meger. “Addressing Function Ap- proximation Error in Actor-Critic Methods”. In: Proceedings of the 35th Interna- tional Conference on Machine Learning, ICML 2018, Stockholmsmiissan, Stockholm, Sweden, July 10-15, 2018. Vol. 80. Proceedings of Machine Learning Research.

PMLR, 2018, pp. 1582-1591.

Tanmay Gangwani and Jian Peng. “Policy Optimization by Genetic Distilla- tion”. In: 6th International Conference on Learning Representations, ICLR 2018, Vancouver, BC, Canada, April 30 - May 3, 2018, Conference Track Proceedings.

OpenReview.net, 2018.

Tuomas Haarnoja et al. “Learning Agile Soccer Skills for a Bipedal Robot with

Deep Reinforcement Learning”. In: CoRR abs/2304.13653 (2023). DOI: 10 .48550/

ARXIV. 2304 .13653) arXiv: 2304. 13653.

Tuomas Haarnoja et al. “Soft Actor-Critic Algorithms and Applications”. In:

CoRR abs/1812.05905 (2018). arXiv: 1812. 05908,

TÀI LIỆU THAM KHẢO 56

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

Rein Houthooft et al. “VIME: Variational Information Maximizing Exploration”. In: Advances in Neural Information Processing Systems 29: Annual Conference on Neural Information Processing Systems 2016, December 5-10, 2016, Barcelona, Spain.

Ed. by Daniel D. Lee et al. 2016, pp. 1109-1117.

Whiyoung Jung, Giseung Park, and Youngchul Sung. “Population-Guided Par- allel Policy Search for Reinforcement Learning”. In: 8th International Conference

on Learning Representations, ICLR 2020, Addis Ababa, Ethiopia, April 26-30, 2020. OpenReview.net, 2020.

Elia Kaufmann et al. “Champion-level drone racing using deep reinforcement

learning”. In: Nat. 620.7976 (2023), pp. 982-987. DOI: 10.. 1038 /841586- 023-.

06419-4

Shauharda Khadka and Kagan Tumer. “Evolution-Guided Policy Gradient in Reinforcement Learning”. In: Advances in Neural Information Processing Systems 31: Annual Conference on Neural Information Processing Systems 2018, NeurIPS

2018, December 3-8, 2018, Montréal, Canada. 2018, pp. 1196-1208.

Shauharda Khadka et al. “Collaborative Evolutionary Reinforcement Learn- ing”. In: Proceedings of the 36th International Conference on Machine Learning, ICML 2019, 9-15 June 2019, Long Beach, California, USA. Vol. 97. Proceedings

of Machine Learning Research. PMLR, 2019, pp. 3341-3350.

Diederik P. Kingma and Jimmy Ba. “Adam: A Method for Stochastic Optimiza- tion”. In: 3rd International Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, May 7-9, 2015, Conference Track Proceedings. Ed. by Yoshua Ben- gio and Yann LeCun. 2015.

B. Ravi Kiran et al. “Deep Reinforcement Learning for Autonomous Driving:

A Survey”. In: IEEE Trans. Intell. Transp. Syst. 23.6 (2022), pp. 4909-4926. DOI: 10.1109/TITS . 2021 .3054625

Arsenii Kuznetsov et al. “Controlling Overestimation Bias with Truncated Mix- ture of Continuous Distributional Quantile Critics”. In: Proceedings of the 37th International Conference on Machine Learning, ICML 2020, 13-18 July 2020, Vir- tual Event. Vol. 119. Proceedings of Machine Learning Research. PMLR, 2020,

pp. 5556-5566.

TÀI LIỆU THAM KHẢO 57

[24

[25]

[26]

[27]

[28]

[29]

[30]

[31]

Joel Lehman and Kenneth O. Stanley. “Evolving a diversity of virtual creatures through novelty search and local competition”. In: 13th Annual Genetic and Evolutionary Computation Conference, GECCO 2011, Proceedings, Dublin, Ireland, July 12-16, 2011. ACM, 2011, pp. 211-218. DOI:

Joel Lehman et al. “Safe mutations for deep and recurrent neural networks through output gradients”. In: Proceedings of the Genetic and Evolutionary Com-

putation Conference, GECCO 2018, Kyoto, Japan, July 15-19, 2018. Ed. by Hernan

E. Aguirre and Keiki Takadama. ACM, 2018, pp. 117-124. DOI: 10 . 1145 /|

3205455 . 3205473

Timothy P. Lillicrap et al. “Continuous control with deep reinforcement learn- ing”. In: 4th International Conference on Learning Representations, ICLR 2016, San Juan, Puerto Rico, May 2-4, 2016, Conference Track Proceedings. 2016.

Jiafei Lyu et al. “Efficient Continuous Control with Double Actors and Regu- larized Critics”. In: Thirty-Sixth AAAI Conference on Artificial Intelligence, AAAI

2022, Virtual Event, February 22 - March 1, 2022. AAAI Press, 2022, pp. 7655— 7663.

Volodymyr Mnih et al. “Playing Atari with Deep Reinforcement Learning”.

In: CoRR abs/1312.5602 (2013). arXiv: 1312. 5602,

Nils Mũller and Tobias Glasmachers. “Challenges in High-Dimensional Rein- forcement Learning with Evolution Strategies”. In: Parallel Problem Solving from Nature - PPSN XV - 15th International Conference, Coimbra, Portugal, September 8-12, 2018, Proceedings, Part II. Ed. by Anne Auger et al. Vol. 11102. Lecture Notes in Computer Science. Springer, 2018, pp. 411-423. DOI:

Hieu Trung Nguyen, Khang Tran, and Ngoc Hoang Luong. “Combining Soft- Actor Critic with Cross-Entropy Method for Policy Search in Continuous Con- trol”. In: IEEE Congress on Evolutionary Computation, CEC 2022, Padua, Italy, July

18-23, 2022. IEEE, 2022, pp. 1-8. DOI: 10. 1109/CECB5065. 2022. 9870209

Karol R. Opara and Jaroslaw Arabas. “Comparison of mutation strategies in Differential Evolution - A probabilistic perspective”. In: Swarm Evol. Comput.

TÀI LIỆU THAM KHẢO 58

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

Takayuki Osa et al. “An Algorithmic Perspective on Imitation Learning”. In:

Found. Trends Robotics 7.1-2 (2018), pp. 1-179. DOI: 10. 1561/2300000053)

lan Osband et al. “Deep Exploration via Bootstrapped DQN”. In: Advances

in Neural Information Processing Systems 29: Annual Conference on Neural Infor- mation Processing Systems 2016, December 5-10, 2016, Barcelona, Spain. Ed. by Daniel D. Lee et al. 2016, pp. 4026-4034.

Ling Pan, Qingpeng Cai, and Longbo Huang. “Softmax Deep Double Deter- ministic Policy Gradients”. In: Advances in Neural Information Processing Sys- tems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS

2020, December 6-12, 2020, virtual. 2020.

Deepak Pathak et al. “Curiosity-driven Exploration by Self-supervised Pre- diction”. In: Proceedings of the 34th International Conference on Machine Learning, ICML 2017, Sydney, NSW, Australia, 6-11 August 2017. Ed. by Doina Precup and Yee Whye Teh. Vol. 70. Proceedings of Machine Learning Research. PMLR,

2017, pp. 2778-2787.

Alois Pourchot and Olivier Sigaud. “CEM-RL: Combining evolutionary and gradient-based methods for policy search”. In: 7th International Conference on Learning Representations, ICLR 2019, New Orleans, LA, USA, May 6-9, 2019. Open- Review.net, 2019.

Sebastian Ruder. “An overview of gradient descent optimization algorithms”. In: CoRR abs/1609.04747 (2016). arXiv: 1609. 04747

John Schulman et al. “Proximal Policy Optimization Algorithms”. In: CoRR

abs/1707.06347 (2017). arXiv:|1707. 06347,

John Schulman et al. “Trust Region Policy Optimization”. In: Proceedings of the 32nd International Conference on Machine Learning, ICML 2015, Lille, France, 6-11 July 2015. Ed. by Francis R. Bach and David M. Blei. Vol. 37. JMLR Workshop and Conference Proceedings. JMLR.org, 2015, pp. 1889-1897.

Olivier Sigaud. “Combining Evolution and Deep Reinforcement Learning for Policy Search: a Survey”. In: CoRR abs/2203.14009 (2022). DOI: 10 . 48550 /

arXiv: 2203. 14009.

Một phần của tài liệu Khóa luận tốt nghiệp: Học tăng cường kết hợp tính toán tiến hóa cho bài toán điều khiển liên tục với các phép biến đổi kiểu hình ổn định (Trang 66 - 78)

Tải bản đầy đủ (PDF)

(78 trang)