Thiết lập huấn luyện AI

Một phần của tài liệu Xây dựng game đua xe online ứng dụng machine learning (Trang 58 - 59)

3.2. Xây dựng môi trường huấn luyện AI

3.2.3. Thiết lập huấn luyện AI

Trong đề tài này, việc huấn luyện được chia làm ba giai đoạn:

− Ở giai đoạn đầu của quá trình huấn luyện, việc thưởng cho xe khi tăng tốc là khơng cần thiết, vì ở thời điểm này agent vẫn chưa học được cách định hướng trong môi trường. Cũng trong thời kỳ này, ta giới hạn điểm phạt tối đa trong quá trình học để khi điểm phạt vượt ngưỡng, episode sẽ kết thúc ngay lập tức. Điều này giúp agent nhanh chóng học cách né tránh điểm phạt vì thời gian học càng lâu đồng nghĩa với việc thưởng càng nhiều. Gian đoạn này thường kéo dài khoảng 300.000 bước.

− Khi agent đã làm quen với mội trường, ta bước vào giai đoạn 2. Ta đã có thể tăng điểm thưởng tăng tốc, tăng mức phạt khi va chạm với tường cũng như giới hạn điểm phạt. Mục đích của việc này là để agent có thời gian để học cách thốt ra khỏi tưởng và trở lại đường đua trong trường hợp va chạm với tường chắn xảy ra. Giai đoạn 2 kéo dài 300.000 – 400.000 bước.

41

− Giai đoạn 3 tiến hành khi xe đã có thể dễ dàng hồn thành cả vòng đua và việc episode kết thúc vì quá ngưỡng phạt hiếm khi xãy ra. Ở giai đoạn này, ta muốn agent có thể học . Ta thêm một phần thưởng / mức phạt nhỏ cho mỗi frame agent va chạm với xe khác. Đồng thời, ta đặt phần thưởng mỗi khi agent nhặt vật phầm tăng tốc và đặt mức phạt khi nhặt vật phẩm giảm tốc. Ta ngừng việc huấn luyện khi agent đạt 1,2 triệu – 1,3 triệu bước.

Quá trình huấn luyện được theo dõi trực tiếp trên Unity và số liệu đầu ra được theo dõi trên Tensorboard.

Hình 3.18. Giao diện TensorBoard

Một phần của tài liệu Xây dựng game đua xe online ứng dụng machine learning (Trang 58 - 59)

Tải bản đầy đủ (PDF)

(75 trang)