1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận áp dụng học tăng cường để dạy ai chơi rắn săn mồi

31 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 31
Dung lượng 445,97 KB

Nội dung

TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH KHOA CÔNG NGHỆ THÔNG TIN TIỂU LUẬN ÁP DỤNG HỌC TĂNG CƯỜNG ĐỂ DẠY AI CHƠI RẮN SĂN MỒI Giảng viên giảng dạy Sinh viên thực MSSV Chun ngành Mơn học Khóa : TS Đặng Như Phú : Trần Tiến Đạt : 2000005374 : Trí tuệ nhân tạo : Hệ thống thơng minh : 2020 Tp HCM, tháng năm 2023 TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH KHOA CÔNG NGHỆ THÔNG TIN TIỂU LUẬN ÁP DỤNG HỌC TĂNG CƯỜNG ĐỂ DẠY AI CHƠI RẮN SĂN MỒI Giảng viên hướng dẫn: Sinh viên thực : MSSV : Sinh viên thực : MSSV : Sinh viên thực : MSSV : Ngành/ chun ngành : Mơn học : Khố : TS Đặng Như Phú Mai Gia Hưng 2000004237 Trần Tiến Đạt 2000005374 Lê Nguyễn Tường Vy 2000004366 Trí tuệ nhân tạo Hệ thống thông minh 2020 Tp HCM, tháng năm 2023 LỜI CẢM ƠN Mang kiến thức giáo viên, lời truyền đạt kinh nghiệm giáo viên người trước chúng em xin chân thành cám ơn đội ngũ giáo viên khoa Công Nghệ Thông Tin trường Đại Học Nguyễn Tất Thành truyền đạt cho em kiến thức quý báu cho chúng em suốt học kì vừa qua Nhờ có lời dạy bảo hướng dẫn giáo viên mà em hoàng thành đồ án kết thúc môn Bài đồ án em thực vịng tuần Trong q trình làm có nhiều lúc em cịn bỡ ngỡ gặp nhiều khó khăn thiếu sót hoàng thành đồ án Bài đồ án đơn giản để làm đồ án kết thúc môn e dành nhiều công sức tâm huyết thân để hồng thành Em mong thầy cô thông cảm cho chúng em nhận ý kiến đóng góp q báu từ thầy để em hồn thiện kiến thức thân phát triển tương lai Một lần chúng em xin cám ơn đội ngũ giáo viên trường khoa nhiều TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH TRUNG TÂM KHẢO THÍ BM-ChT11 KỲ THI KẾT THÚC HỌC PHẦN HỌC KỲ … … NĂM HỌC …… - ….… PHIẾU CHẤM THI TIỂU LUẬN/ĐỒ ÁN Môn thi:Hệ thống thông minh .Lớp học phần:20DTH1C Nhóm sinh viên thực : 1.Mai Gia Hưng .Tham gia đóng góp: 2.Trần Tiến Đạt .Tham gia đóng góp: Lê Nguyễn Tường Vy Tham gia đóng góp: Tham gia đóng góp: .Tham gia đóng góp: .Tham gia đóng góp: .Tham gia đóng góp: .Tham gia đóng góp: Ngày thi: Phòng thi: Đề tài tiểu luận/báo cáo sinh viên : Phần đánh giá giảng viên (căn thang rubrics mơn học): Tiêu chí (theo Điểm tối Đánh giá GV CĐR HP) đa Cấu trúc 1,5 báo cáo Nội dung - Các nội dung thành phần - Lập luận - Kết luận Trình bày TỔNG ĐIỂM Điểm đạt 0.5 10 Giảng viên chấm thi (ký, ghi rõ họ tên) LỜI MỞ ĐẦU Trong năm gần đây, trí tuệ nhân tạo (AI) phát triển nhanh chóng ứng dụng nhiều lĩnh vực khác nhau, từ công nghiệp đến y tế, giáo dục, tài nhiều lĩnh vực khác Trong đó, lĩnh vực Học tăng cường (Reinforcement Learning - RL) trở nên ngày phổ biến, nhờ khả việc giải tốn tối ưu hóa định môi trường động, không chắn Trong tiểu luận này, chúng em trình bày việc áp dụng Học tăng cường để dạy cho rắn chơi game săn mồi Đây ví dụ minh họa cho việc ứng dụng RL vào thực tiễn, giúp hiểu rõ khái niệm Học tăng cường cách hoạt động Trong tiểu luận này, chúng em trình bày việc thiết kế mơi trường cho trị chơi rắn săn mồi, với cách tiếp cận để xử lý tạo liệu huấn luyện, cách thiết kế mơ hình RL để giúp cho rắn tự học cách di chuyển săn mồi cách thông minh Chúng em đề cập đến số kỹ thuật khác RL, bao gồm giải thuật Q-learning, Deep QNetwork (DQN) nhiều Bài tiểu luận mong muốn giúp độc giả hiểu rõ Học tăng cường cách áp dụng vào thực tiễn Ngồi ra, viết hy vọng cung cấp cho độc giả nhìn tổng quan việc ứng dụng AI vào toán thực tế Chúng em hy vọng viết hữu ích thú vị cho bạn MỤC LỤC LỜI MỞ ĐẦU DANH MỤC BẢNG, HÌNH KÍ HIỆU CÁC CỤM TỪ VIẾT TẮT CHƯƠNG .7 Tổng quan đề tài .7 Tổng quan đề tài Lý chọn đề tài Mục tiêu nghiên cứu Đối tượng nghiên cứu CHƯƠNG .9 Cơ sở lý thuyết Giới thiệu học máy(Machine Learning) Giới thiệu Học sâu (Deep Learning) 10 Học tăng cường(Reinforcement Learning) .11 PyTorch .11 Pygame 12 CHƯƠNG 12 Các nghiên cứu liên quan .12 Các nghiên cứu nước 12 Các nghiên cứu nước 13 Các thuật toán sử dụng báo cáo .14 CHƯƠNG 14 Xây dựng mơ hình 14 Chuẩn bị 14 Quy trình 15 Mơ hình 16 Tính tốn giá trị Q 17 Lựa chọn hành động tối ưu 18 Huấn luyện cập nhật mơ hình .18 CHƯƠNG 19 Các bước thực .19 Thiết lập môi trường game Snake 20 Khởi tạo mơ hình Neural Network thuật tốn Q-learning 24 Huấn luyện mơ hình 25 Kiểm tra đánh giá mơ hình 26 CHƯƠNG 28 Kết luận hướng phát triển .28 Kết luận 28 Hướng phát triển .28 DANH MỤC TÀI LIỆU THAM KHẢO .29 DANH MỤC BẢNG, HÌNH Hình 1.học máy(Machine Learning)………………………………………………… Hình2 Học sâu (Deep Learning)………………………………………………………10 Hình3 Học tăng cường…………………………………………………………………11 KÍ HIỆU CÁC CỤM TỪ VIẾT TẮT Chữ viết tắt AI RL DQN Ý nghĩa Artificial Intelligence Reinforcement Learning Deep Q-Network CHƯƠNG Tổng quan đề tài Tổng quan đề tài Bài tiểu luận tập trung vào ứng dụng kỹ thuật Học tăng cường (Reinforcement Learning) để dạy cho trí tuệ nhân tạo (Artificial Intelligence) chơi trò chơi rắn săn mồi (Snake game) Học tăng cường phương pháp học máy (Machine Learning) mà tác nhân (agent) học cách tương tác với môi trường (environment) để đạt mục tiêu cụ thể (objective) Trong trường hợp này, mục tiêu trí tuệ nhân tạo phải điều khiển rắn di chuyển ăn mồi cách hiệu quả, tránh va chạm với tường Bài tiểu luận giới thiệu mơ hình học tăng cường áp dụng cho trị chơi rắn săn mồi, bao gồm thành phần định hành động, nhớ chiến lược học tối ưu Ngoài ra, tiểu luận giới thiệu số kỹ thuật thủ thuật để tăng tính hiệu trí tuệ nhân tạo trò chơi rắn săn mồi Với kiến thức học tăng cường kinh nghiệm trò chơi rắn săn mồi, đồng thời sử dụng thư viện học máy ngơn ngữ lập trình phổ biến Python, tiểu luận trình bày chi tiết trình áp dụng Học tăng cường để dạy AI chơi rắn săn mồi, đồng thời đánh giá hiệu kỹ thuật Lý chọn đề tài Bài tiểu luận chọn đề tài áp dụng Học tăng cường để dạy AI chơi rắn săn mồi ví dụ minh họa cho việc áp dụng Học tăng cường thực tế Học tăng cường phương pháp học máy quan trọng ứng dụng rộng rãi nhiều lĩnh vực trò chơi điện tử, robot tự động, tự động hóa sản xuất, tài chính, y tế, vv Ngồi ra, trị chơi rắn săn mồi trò chơi phổ biến thú vị, chơi rộng rãi nhiều tảng nhiều người yêu thích Việc áp dụng Học tăng cường để dạy cho trí tuệ nhân tạo chơi trị chơi khơng thú vị mà cịn giúp ta hiểu rõ cách thức tiến trình mà hệ thống Học tăng cường hoạt động Với kiến thức kinh nghiệm Học tăng cường thư viện học máy ngơn ngữ lập trình phổ biến, tiểu luận trình bày chi tiết trình áp dụng Học tăng cường để dạy cho trí tuệ nhân tạo chơi trị chơi rắn săn mồi, từ đánh giá hiệu kỹ thuật Mục tiêu nghiên cứu Nghiên cứu tập trung vào sử dụng mơ hình ResNet để phân loại đối tượng ảnh với độ xác cao thực thí nghiệm để đánh giá hiệu mơ hình Ngồi ra, mục tiêu nghiên cứu tìm hiểu sâu cấu trúc cách hoạt động mơ hình ResNet xử lý ảnh Đối tượng nghiên cứu Đối tượng nghiên cứu tiểu luận trí tuệ nhân tạo áp dụng vào trò chơi rắn săn mồi Cụ thể, đối tượng nghiên cứu phương pháp kỹ thuật học tăng cường áp dụng để dạy cho trí tuệ nhân tạo chơi trò chơi rắn săn mồi tính số điểm ghi rắn ăn thức ăn Nếu rắn đâm vào tường đâm vào thể mình, giá trị phần thưởng âm Sau tính tốn giá trị phần thưởng, sử dụng thuật toán Q-learning để học cách đưa hành động tối ưu trị chơi Rắn Trong Q-learning, tính tốn giá trị Q cho cặp trạng thái hành động, sau cập nhật giá trị Q sau lần chơi Việc cập nhật giá trị Q thực cách sử dụng cơng thức sau: Trong Q(s, a) Q-value thực action a state s; r(s, a) reward nhận được; s' state γ hệ số discount, đảm bảo "xa" đích Q-value nhỏ Quy trình Để xây dựng mơ hình học tăng cường (reinforcement learning), cần: + Xây dựng môi trường game: viết này, sử dụng Pygame để tạo môi trường chơi rắn + Xây dựng mơ hình Q-network: mạng nơ-ron nhân tạo (neural network) sử dụng để ước tính giá trị Q hành động trạng thái xác định Trong viết này, sử dụng mạng nơ-ron tuyến tính đơn giản với hai lớp tuyến tính + Xác định siêu tham số hàm mát: Trong viết này, sử dụng giảm dần tốc độ học (learning rate) hàm mát (MSE loss) + Xác định thuật toán huấn luyện: Trong viết này, sử dụng thuật toán Qlearning để huấn luyện mơ hình 15 + Huấn luyện mơ hình: Chúng ta sử dụng thuật tốn Q-learning để huấn luyện mơ hình, cách lặp lại việc chơi game cập nhật giá trị Q dựa kinh nghiệm chơi game Mơ hình Chuẩn bị đầu vào Thiết lập mơ hình Thiết lập tối ưu hóa Huấn luyện mơ hình Kiểm tra sử dụng mơ hình Đây bước mơ hình áp dụng thuật tốn tăng cường vào việc huấn luyện AI chơi rắn săn mồi:  Chuẩn bị liệu đầu vào: thông tin trạng thái trị chơi, bao gồm vị trí rắn, thức ăn vật cản 16  Thiết lập mơ hình: bao gồm định nghĩa mơ hình mạng nơ-ron thơng số liên quan số lượng lớp, kích thước đầu vào/đầu ra, hệ số học tập  Thiết lập tối ưu hóa: để mơ hình học cải thiện sau lần chơi, cần thiết lập tối ưu hóa, bao gồm hàm mát thuật toán tối ưu  Huấn luyện mơ hình: cung cấp liệu đầu vào đầu cho mơ hình, để học cách dự đoán phản hồi tối ưu trạng thái trò chơi  Kiểm tra sử dụng mơ hình: sau huấn luyện xong, ta sử dụng mơ hình để chơi trị chơi kiểm tra kết quả, lưu trữ sử dụng cho mục đích khác Tính tốn giá trị Q Sau có liệu cho mơ hình, cần tính tốn giá trị Q (Qvalue) cho hành động game rắn Giá trị Q tính dựa cơng thức Bellman, cơng thức quan trọng lý thuyết học tăng cường Cụ thể, giá trị Q cho trạng thái hành động tính tổng giá trị phần thưởng giá trị tối đa Q cho trạng thái tiếp theo, điều chỉnh hệ số chiết khấu γ Để tính tốn giá trị Q cho trạng thái hành động, cần cập nhật bảng Q sau lượt chơi Trong trình đào tạo, sử dụng giá trị Q để cập nhật bảng Q, từ giúp AI học cách đưa hành động tối ưu trạng thái Để thực tính tốn giá trị Q, sử dụng thuật toán Q-learning Thuật toán sử dụng bảng Q để lưu trữ giá trị Q cho trạng thái hành động Mỗi lần AI chơi game, cập nhật bảng Q dựa công thức Bellman, sau lượt chơi, AI đào tạo lại liệu để cải thiện khả chơi 17 Tóm lại, tính tốn giá trị Q bước quan trọng việc xây dựng mơ hình dạy AI chơi game rắn thuật toán tăng cường với PyTorch Pygame Việc tính tốn giá trị Q giúp AI học cách đưa hành động tối ưu trạng thái, từ cải thiện khả chơi Lựa chọn hành động tối ưu Sau có liệu cho mơ hình, cần tính tốn giá trị Q (Qvalue) cho hành động game rắn Giá trị Q tính dựa công thức Bellman, công thức quan trọng lý thuyết học tăng cường Cụ thể, giá trị Q cho trạng thái hành động tính tổng giá trị phần thưởng giá trị tối đa Q cho trạng thái tiếp theo, điều chỉnh hệ số chiết khấu γ Để tính tốn giá trị Q cho trạng thái hành động, cần cập nhật bảng Q sau lượt chơi Trong trình đào tạo, sử dụng giá trị Q để cập nhật bảng Q, từ giúp AI học cách đưa hành động tối ưu trạng thái Để thực tính tốn giá trị Q, sử dụng thuật toán Q-learning Thuật toán sử dụng bảng Q để lưu trữ giá trị Q cho trạng thái hành động Mỗi lần AI chơi game, cập nhật bảng Q dựa công thức Bellman, sau lượt chơi, AI đào tạo lại liệu để cải thiện khả chơi Tóm lại, tính tốn giá trị Q bước quan trọng việc xây dựng mơ hình dạy AI chơi game rắn thuật tốn tăng cường với PyTorch Pygame Việc tính tốn giá trị Q giúp AI học cách đưa hành động tối ưu trạng thái, từ cải thiện khả chơi Huấn luyện cập nhật mơ hình Sau thiết lập mơ hình neural network tính tốn giá trị Q, ta bắt đầu huấn luyện mơ hình 18

Ngày đăng: 31/07/2023, 09:51

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w