Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 95 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
95
Dung lượng
2,98 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM NGUYỄN BÁ TÙNG NGUYỄN HỒI THU KHĨA LUẬN TỐT NGHIỆP HỆ THỐNG ĐIỀU KHIỂN XE TỰ HÀNH MÔ PHỎNG Autonomous Vehicle Navigation System with Vehicle Simulator KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM GIẢNG VIÊN HƯỚNG DẪN TS NGUYỄN ĐÌNH HIỂN THS HUỲNH TUẤN ANH TP HỒ CHÍ MINH, 2021 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM NGUYỄN BÁ TÙNG 16521395 NGUYỄN HỒI THU 16521200 KHĨA LUẬN TỐT NGHIỆP HỆ THỐNG ĐIỀU KHIỂN XE TỰ HÀNH MÔ PHỎNG Autonomous Vehicle Navigation System with Vehicle Simulator KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM GIẢNG VIÊN HƯỚNG DẪN TS NGUYỄN ĐÌNH HIỂN THS HUỲNH TUẤN ANH TP HỒ CHÍ MINH, 2021 DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số … Hiệu trưởng Trường Đại học Công nghệ Thông tin – Chủ tịch – Thư ký – Ủy viên ĐHQG TP HỒ CHÍ MINH CỘNG HỒ XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC Độc Lập – Tự Do – Hạnh Phúc CÔNG NGHỆ THÔNG TIN TP HCM, ngày tháng năm 2020 NHẬN XÉT KHOÁ LUẬN TỐT NGHIỆP (CỦA CÁN BỘ HƯỚNG DẪN) Tên khoá luận: HỆ THỐNG ĐIỀU KHIỂN XE TỰ HÀNH MƠ PHỎNG Nhóm SV thực hiện: Cán hướng dẫn: Nguyễn Bá Tùng 16521395 Tiến sĩ Nguyễn Đình Hiển Nguyễn Hoài Thu 16521200 Thạc sĩ Huỳnh Tuấn Anh Đánh giá khoá luận: Về báo cáo: Số trang: Số chương: Số bảng số liệu: Số hình vẽ: Số tài liệu tham khảo: Sản phẩm: Một số nhận xét hình thức báo cáo: ······························································································ ······························································································ ······························································································ Về nội dung nghiên cứu: ··································································································· ··································································································· ··································································································· ··································································································· Về chương trình ứng dụng: ··································································································· ··································································································· ··································································································· ··································································································· Về thái độ làm việc sinh viên: ··································································································· ··································································································· ··································································································· Đánh giá chung: ··································································································· ··································································································· ··································································································· ··································································································· Điểm sinh viên: Nguyễn Bá Tùng : /10 Nguyễn Hoài Thu : /10 Người nhận xét (Ký tên ghi rõ họ tên) ĐHQG TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc Lập – Tự Do – Hạnh Phúc CÔNG NGHỆ THÔNG TIN TP HCM, ngày tháng năm 2020 NHẬN XÉT KHOÁ LUẬN TỐT NGHIỆP (CỦA CÁN BỘ PHẢN BIỆN) Tên khoá luận: HỆ THỐNG ĐIỀU KHIỂN XE TỰ HÀNH MÔ PHỎNG Nhóm SV thực hiện: Cán phản biện: Nguyễn Bá Tùng 16521395 Nguyễn Hồi Thu 16521200 Đánh giá khố luận: Về báo cáo: Số trang: Số chương: Số bảng số liệu: Số hình vẽ: Số tài liệu tham khảo: Sản phẩm: Một số nhận xét hình thức báo cáo: ······························································································ ······························································································ ······························································································ Về nội dung nghiên cứu: ··································································································· ··································································································· ··································································································· ··································································································· Về chương trình ứng dụng: ··································································································· ··································································································· ··································································································· ··································································································· Về thái độ làm việc sinh viên: ··································································································· ··································································································· ··································································································· Đánh giá chung: ··································································································· ··································································································· ··································································································· Điểm sinh viên: Nguyễn Bá Tùng : /10 Nguyễn Hoài Thu : /10 Người nhận xét (Ký tên ghi rõ họ tên) ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HỒ XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC Độc Lập – Tự Do – Hạnh Phúc CÔNG NGHỆ THÔNG TIN ĐỀ CƯƠNG KHOÁ LUẬN TỐT NGHIỆP Tên đề tài: Hệ thống điều khiển xe tự hành mô Tên đề tài (tiếng anh): Autonomous vehicle navigation system with vehicle simulator Cán hướng dẫn: TS Nguyễn Đình Hiển ThS Huỳnh Tuấn Anh Thời gian thực hiện: Từ ngày 01/10/2020 đến ngày 31/12/2020 Sinh viên thực hiện: Nguyễn Bá Tùng - 16521395 Nguyễn Hoài Thu - 16521200 Nội dung đề tài: Ngày nay, xã hội phải đối mặt với vấn đề sức khỏe chủ yếu phương tiện giao thông gây ra: tử vong giao thông trở thành nguyên nhân tử vong thứ 10 giới, nguyên nhân gây tử vong cho niên [1] Bên cạnh đó, hậu tai nạn giao thông để lại ngày nghiêm trọng năm gần Đồng thời, nóng lên tồn cầu xem hệ giao thông vận tải Hầu hết vấn đề nêu hệ gia tăng nhanh chóng số lượng phương tiện giao thơng đó, tổng số lái xe tăng theo Một báo cáo cho thấy 94% số người tử vong tai nạn giao thông lỗi người lái xe [2] phương tiện sở hạ tầng Vì lý này, nhà sản xuất xác định tương lai họ phát triển Phương Tiện Tự Hành (Autonomous Vehicles - AV) AV dự đoán giúp giảm số vụ tai nạn giao, giảm tắc đường lãng phí thời gian bên xe Phương Tiện Tự Hành (Autonomous Vehicles - AV) khái niệm không mới, thu hút quan tâm khổng lồ từ công ty sản xuất xe tập đồn cơng nghệ AV khơng giải giảm thiểu hầu hết vấn đề giao thông (tai nạn, ô nhiễm, tắc đường, v.v.) mà thay đổi vai trò người bên xe: từ người lái chịu trách nhiệm điều khiển phương tiện giao thông trở thành người sử dụng hệ thống Với điểm mạnh nêu trên, bùng nổ AV tránh khỏi dự đoán thay đổi cách nhân loại di chuyển Học tăng cường (Reinforcement Learning-RL) ba kiểu máy học bên cạnh học giám sát (Supervised Learning) học không giám sát (Unsupervised Learning) Bản chất RL trial-anderror, nghĩa thử thử lại rút kinh nghiệm sau lần thử Gần đây, RL đạt thành tựu đáng kể thuật toán DeepMind (AlphaGo, AlphaZero, AlphaStar, ) chiến thắng áp đảo tuyển thủ giới trò chơi mà người nghĩ máy móc khơng vượt mặt cờ vây hay StarCraft [3] Một hệ thống Phương Tiện Tự Hành hoàn toàn bao gồm nhiều toán phức tạp cần giải như: (1) Định vị điểm xuất phát, điểm kết thúc tìm đường tối ưu để từ điểm đầu đến điểm cuối, (2) Định vị điều hướng phương tiện di chuyển đường, tuyến đường định, tránh chướng ngại vật phương tiện khác lưu thông sử dụng hệ thống camera cảm biến, Trong cơng trình này, nhóm sinh viên nghiên cứu toán số (2) Bằng cách ứng dụng DRL chức tự hành để xây dựng mô hình tự lái Mơ hình nhận liệu đầu vào liệu chức tự hành cung cấp, đầu tín hiệu điều khiển, sau thơng qua chức tự hành để điều khiển trực tiếp phương tiện Nhóm nghiên cứu đánh giá, so sánh sử dụng môi trường mơ phù hợp Mơ hình giao tiếp với môi trường mô thông qua API điều khiển phương tiện thời gian thực Mục tiêu đề tài: Mục tiêu tổng quát đề tài nghiên cứu ứng dụng phương pháp học sâu tăng cường (Deep Reinforcement Learning) để giúp cho phương tiện tự hành đường môi trường mô cách an toàn, tuyến đường tránh va chạm với vật cản đường Mục tiêu chia thành ba mục tiêu nhỏ sau: • Nghiên cứu máy học (Machine Learning), học tăng cường (Reinforcement Learning), cách tiếp cận Deep Reinforcement Learning (DRL) • Ứng dụng PG vào việc huấn lun mơ hình tự lái mơi trường giả lập với nhiều cấu hình khác nhau, nhận xét đánh giá cấu hình dựa kết đạt • Đối với thử nghiệm chương trình, chúng tơi tiến hành tìm hiểu, so sánh đánh giá môi trường giả lập dành cho phương tiện giao thông (Carla, Unity ML-Agents Highway Simulator, AirSim,…) Dựa kết so sánh đánh giá này, chọn môi trường mô phù hợp để tiến hành cài đặt thử nghiệm Kế hoạch thực hiện: STT Công việc Thời gian thực Phân cơng Sprint 1: Phân tích đề tài Nghiên cứu, tìm hiểu u cầu tốn giải pháp liên quan - Phân tích vấn đề xảy Tuần 1, Tuần (01/10/2020 – 11/10/2020) lĩnh vực giao thơng Sprint 2: Tìm hiểu máy học, học tăng cường thuật tốn liên quan - Tìm hiểu máy học Tìm hiểu thuật tốn, cách tiếp cận phổ biến học tăng cường - Tuần – Tuần Tùng, Nguyễn Hoài 01/11/2020) dụng cách tiếp cận học tăng cường Sprint 3: Nghiên cứu, so sánh lựa chọn mơi - Tìm hiểu mơi trường giả lập xe tự hành, nghiên cứu tìm ưu nhược điểm môi trường Bá (12/10/2020 – Tìm hiểu dự án xe tự hành sử trường giả lập xe tự hành Nguyễn Tuần 6, Tuần (02/11/2020 – 15/11/2020) Thu 21.16h 0.76279 70.94346 23.432 21.71h 0.74529 70.92849 17.61 21.17h 0.73969 70.49962 23.494 21.99h 0.73749 70.67611 17.48 21.77h 0.75842 71.19511 16.716 26.16h 0.77 71.318 15.512 Bảng 5.3 Bảng so sánh đánh giá cấu hình Mục đánh giá Dữ liệu mẫu cần thiết Kết đạt Độ ổn định CH CH CH CH Bình thường Bình thường Nhiều Bình thường Ít Bình thường Tốt Bình thường Bình thường Bình thường Bình thường Tốt Tốt Rất tốt Kém Tốt Bình thường Chú thích: CH Tốt CH • Dữ liệu mẫu cần thiết: số lượng liệu mẫu lấy từ trình giả lập cần thiết để huấn luyện agent đạt kết mong muốn, lớn thời gian huấn luyên tăng phải tương tác với trình giả lập nhiều • Kết đạt được: chất lượng agent, thể vận tốc reward trung bình mà agent đạt huấn luyện đủ lâu • Độ ổn định: thể thay đổi agent trình huấn luyện, agent thay đổi nhiều có nghĩa độ ổn định 63 Hình 5.3 Biểu đồ so sánh vận tốc trung bình Hình 5.4 Biểu đồ so sánh reward trung bình 64 Hình 5.5 Biểu đồ so sánh số lần chuyển Sau 3000 episodes, tất cấu hình phần đạt tốc độ tối đa 71 kmh, xem giới hạn việc sử dụng cảm biến lidar đạt 5.3.2 Kết cấu hình Các kết chi tiết làm mượt cách lấy trung bình 20 episodes gần để có nhìn chi tiết q trình huấn luyện 3000 episodes Do khác input với cấu hình nên cấu hình từ 1-5 so sánh với Hình 5.6 Biểu đồ cấu action cấu hình 65 Hình 5.7 Biểu đồ vận tốc trung bình cấu hình Hình 5.8 Biểu đồ số lần chuyển cấu hình Hình 5.9 Biểu đồ reward trung bình cấu hình Là cấu hình cài đặt để train, với số hidden layer 1, với 64 nơ-ron, với tổng số trainnable parameters 1413 Có thể đánh giá cấu hình đạt kết tốt So sánh với kết DQN sử dụng lidar data tác giả trình giả lập vấn tốc trung bình 71.3758 kmh Tuy nhiên có hai điều cần phải lưu ý Một kết mà tác giả lấy trung bình 100K steps ~ 33 episodes Nhóm thử lấy model huấn luyện sau 3000 episodes để chạy thử 100 episodes lần, kết từ lần chênh lệch ~ 1-2 kmh, nên 100 hay số khơng đủ lớn để nêu lên xác chất lượng mà model đạt Hai số 71.3758 kmh không sử dụng lidar data, mà số thông tin khác vận tốc xe tại, cảnh bảo va chạm xung quanh, 66 tốc độ xe phía trước, khoảng cách tới xe phía trước, cấu hình sử dụng thơng tin lidar Một điểm đáng khác cấu hình học cách sử dụng action nothing để tránh reward-vi-phạm phát phương tiện xung quanh Kết cấu hình Hình 5.10 Biểu đồ cấu action cấu hình Hình 5.11 Biểu đồ vận tốc trung bình cấu hình Hình 5.12 Biểu đồ số lần chuyển cấu hình 67 Hình 5.13 Biểu đồ reward trung bình cấu hình Cấu hình với số hidden layers 2, hidden layer có 32 nơ-ron, tổng số trainnable parameters 1765 Cấu hình cài đặt nhằm đánh giá ảnh hưởng số hidden layers tới hiệu suất huấn luyện Dựa biểu đồ vận tốc reward trung bình, thấy cấu hình ổn định cấu hình Tuy nhiên kết cuối sau 3000 episodes cấu hình khơng có bật thật cấu hình cịn lại, input khơng có q phức tạp nên nhiều hidden layers không cần thiết Cấu hình học việc hạn chế chuyển không học việc sử dụng action nothing để giảm reward-vi-phạm, nên dù vận tốc trung bình ngang so với cấu hình 1, thua reward trung bình 5.3.3 Kết cấu hình Hình 5.14 Biểu đồ cấu action cấu hình 68 Hình 5.15 Biểu đồ vận tốc trung bình cấu hình Hình 5.16 Biểu đồ số lần chuyển cấu hình Hình 5.17 Biểu đồ reward trung bình cấu hình Cấu hình sử dụng mạng thần kinh giống với cấu hình 1, với episode batch size 1, cập nhật tham số weight sau episode, thường gọi REINFORCE Learning rate giảm thành 0.001 để đảm bảo ổn định thuật tốn Cấu hình cài đặt nhắm đánh giá độ ảnh hưởng episode batch size đến trình huấn luyện Dựa biểu đồ vận tốc reward trung bình, thấy cấu hình ổn định hẳn cấu hình Tuy nhiên dựa biểu đồ so sánh cấu hình speed, thấy cấu hình có tốc độ học chậm so với cấu hình cịn lại learning rate thấp Dựa kết cuối sau 3000 episodes, agent phần học cách sử dụng action nothing để giảm reward-vi-phạm, nhiên chưa hạn chế việc chuyển Điểm yếu khác cấu hình đạt mốc vận tốc trung bình 70 kmh episode 2131, so với cấu hình episode 1144 cấu hình episode 978 Điều có nghĩa cấu hình cần nhiều liệu 69 5.3.4 Kết cấu hình Hình 5.18 Biểu đồ cấu action cấu hình Hình 5.19 Biểu đồ vận tốc trung bình cấu hình Hình 5.20 Biểu đồ số lần chuyển cấu hình Hình 5.21 Biểu đồ reward trung bình cấu hình Cấu hình cài đặt giống cấu hình 3, với learning rate 0.01 nhằm đánh giá ảnh hưởng learning rate tới độ ổn định hiệu suất thuật toán Dựa biểu đồ so sánh cấu hình vận tốc reward trung bình, thấy cấu hình cải 70 thiện nhanh nhiều so với cấu hình Tuy nhiên dựa biểu đồ vận tốc, reward trung bình, cấu action config 4, dễ thấy thuật tốn khơng ổn định learning rate lớn Ở episode 950-1000 1500-1700, speed mean reward giảm nhiều tỉ lệ thực action chuyển sang trái tăng cao Kết cuối sau 3000 episodes cho thấy agent học cách tối đa vận tốc, vận tốc cao so với cấu hình khơng biết cách tránh reward-vi-phạm, reward trung bình cấu hình thua so với cấu hình 5.3.5 Kết cấu hình Hình 5.22 Biểu đồ cấu action cấu hình Hình 5.23 Biểu đồ vận tốc trung bình cấu hình Hình 5.24 Biểu đồ số lần chuyển cấu hình 71 Hình 5.25 Biểu đồ reward trung bình cấu hình Cấu hình với window length 4, số hidden layer 1, với 128 nơ-ron, tổng số trainnable parameters 8965 Cấu hình cài đặt nhằm đánh giá hiệu suất thuật toán cung cấp thêm thông tin step khứ cho agent Dựa biểu đồ vận tốc reward trung bình, thấy độ ổn định thuật tốn gần với cấu hình 3, hẳn so với cấu hình cịn lại cấu hình Dựa kết cuối sau 3000 episodes, cấu hình với speed cao số chuyển thấp nhất, nhiên cịn thua cấu hình reward trung bình chưa học cách sử dụng action nothing Có thể thấy việc cung cấp thêm thơng tin khứ cho agent làm tăng độ ổn định hiệu suất thuật toán 5.3.6 Kết cấu hình Hình 5.26 Biểu đồ cấu action cấu hình 72 Hình 5.27 Biểu đồ vận tốc trung bình cấu hình Hình 5.28 Biểu đồ số lần chuyển cấu hình Hình 5.29 Biểu đồ reward trung bình cấu hình Cấu hình cài đặt nhằm đánh giá hiệu suất thuật tốn cung cấp thêm số thơng tin hữu ích mơi trường Dựa kết cuối sau 3000 episodes, thấy cấu hình có kết đạt tốt so với cấu hình cịn lại vận tốc trung bình, số lần chuyển làn, reward trung bình 73 Chương 6.KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 6.1 Kết luận Mục tiêu đề tài ứng dụng phương pháp học tăng cường vào việc điều hướng phương tiện tự hành đường cao tốc môi trường giả lập Sau tháng thực đề tài, dựa kết đạt được, thấy mục tiêu hồn thành Bước đầu việc áp dụng học tăng cường vào đề tài chọn trình mơ phù hợp Có nhiều trình mơ với nhiều mục đích: phục vụ thương mại, nghiên cứu, giáo dục,… Sau trình so sánh 10 trình mơ phỏng, Unity ML-agent Highway Simulator chọn trình mô phù hợp với đề tài Bước cuối chọn triển khai thuật toán học tăng cường Policy Gradient thuật toán chọn triển khai cho đề tài sử dụng thư viện TensorFlow kết hợp với Keras Thuật tốn triển khai khơng Policy Gradient thuần, mà kết hợp với việc sử dụng baseline để giảm số lượng liệu mẫu cần thiết cho thuật toán, giảm thời gian huấn luyện Sau đó, q trình huấn luyện với nhiều cấu hình khác hồn thành Kết thuật tốn giúp điều hành phương tiện tình trình mơ đạt vận tốc trung bình 71 km/h 6.2 Hướng phát triển Nhóm dành thời gian nghiên cứu sâu cách thức cài đặt cấu trúc mạng thần kinh, sử dụng loại mạng thần kinh khác Long Short Term Memory để cài thiện thời gian huấn luyện chất lượng kết Ngồi ra, đầu tư thêm thời gian huấn luyện cấu hình hiệu chỉnh tham số learning rate, tỉ lệ chiết khấu,… cho kết tốt 74 Đồng thời, việc nghiên cứu cài đặt thuật toán khác phân nhánh Policy Gradient, kể đến Trust Region Policy Optimization, Actor-Critic, A3C, A2,… hướng nhiều triển vọng Ngoài ra, từ kết việc huấn luyện, nhóm tận dụng liệu khác mà chức tự hành cung cấp hình ảnh từ camera vào thuật toán, nhằm làm tăng hiệu huấn luyện 75 TÀI LIỆU THAM KHẢO [1] World Health Organization “Las 10 principales causas de defunción.” who.int https://www.who.int/es/news-room/fact-sheets/detail/the-top-10-causes-of-death [2] Santokh Singh “Critical Reasons for Crashes Investigated in the National Motor Vehicle Crash Causation Survey.” Crashstats.nhtsa.dot.gov https://crashstats.nhtsa.dot.gov/Api/Public/ViewPublication/812115 [3] The AlphaStar Team “Mastering the Real-Time Strategy Game StarCraft II.” deepmind.com https://deepmind.com/blog/article/alphastar-mastering-real-time-strategy-gamestarcraft-ii [4] United States Environmental Protection Agency “Total US gas emissions by sector in 2016” epa.gov https://www.epa.gov/ghgemissions/sources-greenhouse-gas-emissions [5] INRIX 2019 Global Traffic Scorecard, INRIX Company, December 2020 [Online] Available: http://inrix.com/scorecard/ [6] Shital Shah and Debadeepta Dey and Chris Lovett and Ashish Kapoor "AirSim: High-Fidelity Visual and Physical Simulation for Autonomous Vehicles" (2017) [Online] Available: https://github.com/Microsoft/AirSim [7] Baidu "Apollo" (2013) [Online] Available: https://github.com/apolloauto [8] Shinpei Kato "Autoware simulator" (2015) [Online] Available: https://github.com/Autoware-AI [9] Alexey Dosovitskiy and German Ros and Felipe Codevilla and Antonio Lopez and Vladlen Koltun "CARLA: An Open Urban Driving Simulator" (2017) [Online] Available: https://github.com/carla-simulator/carla [10] Lex Fridman and Jack Terwilliger and Benedikt Jenik "DeepTraffic: Crowdsourced Hyperparameter Tuning of Deep Reinforcement Learning Systems 76 for Multi-Agent Dense Traffic Navigation" (2018) [Online].Available: https://deeplearning.mit.edu/deeptraffic/ [11] Aaron Brown "Udacity's Self-Driving Car Simulator" (2017) [Online] Available: https://github.com/udacity/self-driving-car-sim [12] Mithi Sevilla "Udacity Highway-path-planning simulator" (2017) [Online] Available: https://github.com/mithi/highway-path-planning [13] Human Brain Project and Webots "Robotbenchmark simulator" (2017) [Online] Available: https://robotbenchmark.net/ [14] Thibault Neveu, “Metacar simulator” (2018).[Online] Available : https://github.com/thibo73800/metacar [15] Kyushik Min “Unity ML-agents Highway Simulator” (2018) [Online] Available: https://github.com/MLJejuCamp2017/DRL_based_SelfDrivingCarControl [16] Make a more engaging game with Unity ML-agent, Unity Technologies, San Francisco, USA https://unity3d.com/machine-learning [17] Richard S Sutton and Andrew G Barto, "Reinforcement Learning: An Introduction", The MIT Press, 2014-2015, pp.1-88, [ONLINE] Available: https://web.stanford.edu/class/psych209/Readings/SuttonBartoIPRLBook2ndEd.pd f [18] John Schulman, "Optimizing Expectations: From Deep Reinforcement Learning to Stochastic Computation Graphs", EECS Department University of California, Berkeley, 2016, pp.1-17, [ONLINE] Available: http://joschu.net/docs/thesis.pdf [19] John Schulman, Philipp Moritz, Sergey Levine, Michael I Jordan and Pieter Abbeel "HIGH-DIMENSIONAL CONTINUOUS CONTROL USING GENERALIZED ADVANTAGE ESTIMATION", ICLR 2016, 2016, [ONLINE] Available: https://arxiv.org/pdf/1506.02438.pdf 77 ... trúc khóa luận Chương TỔNG QUAN VỀ XE TỰ HÀNH (AV) 2.1 Định nghĩa 2.2 Xe tự hành góc nhìn cơng nghệ Chương 3.1 CÁC TRÌNH MƠ PHỎNG CHO HỆ THỐNG XE TỰ HÀNH... HỌC Độc Lập – Tự Do – Hạnh Phúc CÔNG NGHỆ THÔNG TIN TP HCM, ngày tháng năm 2020 NHẬN XÉT KHOÁ LUẬN TỐT NGHIỆP (CỦA CÁN BỘ HƯỚNG DẪN) Tên khoá luận: HỆ THỐNG ĐIỀU KHIỂN XE TỰ HÀNH MƠ PHỎNG Nhóm SV... NAM Độc Lập – Tự Do – Hạnh Phúc CÔNG NGHỆ THÔNG TIN TP HCM, ngày tháng năm 2020 NHẬN XÉT KHOÁ LUẬN TỐT NGHIỆP (CỦA CÁN BỘ PHẢN BIỆN) Tên khoá luận: HỆ THỐNG ĐIỀU KHIỂN XE TỰ HÀNH MƠ PHỎNG Nhóm SV