Bài viết trình bày việc giải quyết bài toán thông qua dự báo hành vi và kỹ thuật học sâu tăng cường QDN (Deep Q learning). Robot tự hành trong nghiên cứu là loại robot có 2 bánh xe chủ động điều khiển độc lập. Các kết quả thu được chứng tỏ tính hiệu quả của hướng tiếp cận, robot có thể dự đoán hành vi của vật cản dựa trên bộ nhớ hành vi trước đó mà không cần mô hình hóa robot.
Kỹ thuật Điều khiển – Tự động hóa NGHIÊN CỨU BÀI TỐN TRÁNH VẬT CẢN CHO RƠ BỐT TỰ HÀNH TRÊN CƠ SỞ ỨNG DỤNG HỌC SÂU TĂNG CƯỜNG DQN Đỗ Nam Thắng1*, Phạm Trung Dũng2, Nguyễn Quang Hùng1 Tóm tắt: Bài toán tránh vật cản động cho robot tự hành sở ứng dụng cơng cụ trí tuệ nhân tạo hướng nghiên cứu thuộc lĩnh vực điều khiển robot thông minh Trong báo này, chúng tơi giải tốn thơng qua dự báo hành vi kỹ thuật học sâu tăng cường QDN (Deep Q learning) Robot tự hành nghiên cứu loại robot có bánh xe chủ động điều khiển độc lập Các kết thu chứng tỏ tính hiệu hướng tiếp cận, robot dự đoán hành vi vật cản dựa nhớ hành vi trước mà khơng cần mơ hình hóa robot Từ khóa: Robot tự hành; Tránh va chạm chủ động; Thuật toán DQN; Turtlebot3 GIỚI THIỆU Các phương pháp tránh chướng ngại vật cục hoạt động cách tính tốn hướng cho robot vào khơng tính đến động lực học robot Ví dụ: cách tiếp cận Trường [1, 8] sử dụng tổng vectơ đặc trưng lực hút lực đẩy để tính tốn mục tiêu robot mong muốn Việc kiểm soát tốc độ thực cách chọn vận tốc tỷ lệ với độ lớn vectơ Phương pháp Biểu đồ trường Vector [2] cải thiện phương pháp cách tính tốn biểu đồ cực chiều, sau xử lý để phát khu vực mở để robot di chuyển qua Vận tốc robot, chọn sau chọn hướng, tỷ lệ thuận với khoảng cách đến chướng ngại vật phía trước Mặc dù phương pháp tạo di chuyển mượt mà xử lý khe hẹp rộng giống phương pháp Trường năng, khơng tính đến thực tế robot quay chúng thường di chuyển dọc theo cung, thay theo đường thẳng Trong mơi trường lộn xộn, động lực học robot quan trọng Trong phương pháp tính đến động lực học robot nghiên cứu bối cảnh lập kế hoạch lộ trình ngoại tuyến [4, 9], phương pháp thường tốn mặt tính toán để tránh chướng ngại vật cục nhanh Tuy nhiên, gần đây, số phương pháp tránh chướng ngại vật cục kết hợp động lực học xe, chọn lệnh lái thay hướng di chuyển Phương pháp Trường góc lái [5] sử dụng đường cong tiếp tuyến với chướng ngại vật để hạn chế không gian liên tục (trong trường hợp khơng gian chiều góc lái) Độ cong khoảng cách vòng cung liên quan sử dụng để cấm di chuyển phạm vi góc lái Phương pháp tính tốn ràng buộc cho số ngưỡng khoảng cách cố gắng di chuyển dọc theo chiều tự Một phương pháp tương tự cho điều hướng nhà tốc độ cao hoạt động không gian vận tốc phát triển sớm chút độc lập [3] Phương pháp xem xét tập hợp vòng cung riêng biệt, bị hạn chế động lực học xe chọn vòng quay gần theo hướng mục tiêu, đảm bảo robot không gặp chướng ngại vật vài giây di chuyển Phương pháp sử dụng cách tiếp cận hai bước để chọn độ cong vận tốc; Sau đó, áp dụng phương pháp bước để đồng thời chọn độ cong vận tốc [6] Một cách tiếp cận tương tự phát triển cho điều hướng trời [7] Ở đây, động lực học xe xem xét cách đầy đủ, đó, đường dẫn khơng thiết phải vòng cung tròn, phép đo khả di chuyển tính cho đường đường có giá trị tốt chọn Cả hai phương pháp có vấn đề phân tích tập hợp cung trịn rời rạc, đường dẫn tốt rơi vào vết nứt không xem xét 48 Đ N Thắng, P T Dũng, N Q Hùng, “Nghiên cứu toán … học sâu tăng cường DQN.” Nghiên cứu khoa học công nghệ Phương pháp vận tốc cong (CVM - Curvature-Velocity Method) để tránh chướng ngại vật cục coi vấn đề toán tối ưu hóa bị hạn chế khơng gian vận tốc robot [10] Ưu điểm phương pháp nghiên cứu khả kiểm soát đồng thời tốc độ hướng mục tiêu robot, dễ dàng kết hợp ràng buộc từ môi trường động lực học robot khả xử lý đánh đổi tốc độ, an tồn vơ hướng CVM đạt hiệu suất thời gian thực cách xấp xỉ khoảng cách robot di chuyển dọc theo độ cong định trước gặp chướng ngại vật Phép tính gần hàm khơng đổi, xác định đường cong tiếp tuyến với chướng ngại vật Các hạn chế vận tốc bổ sung thêm vào dựa giới hạn vật lý robot mong muốn tránh xa chướng ngại vật, di chuyển chậm vượt qua chướng ngại vật gần Trong năm gần đây, thuật toán DQN (Deep Q Learning) phát triển áp dụng vào nhiều lĩnh vực khác nhau, có tốn dẫn hướng cho robot Trong nghiên cứu này, chúng tơi ứng dụng thuật tốn DQN để điều khiển mơ hình robot tự hành tránh vật cản dạng bánh xe, với hai bánh chủ động điều khiển độc lập Bài báo trình bày theo thứ tự sau: Phần giới thiệu nghiên cứu trước đó; Phần trình bày thuật tốn DQN tốn tránh vật cản; Phần trình bày mơ đánh giá hiệu thuật toán; Cuối cùng, kết luận trình bày phần THUẬT TỐN DQN TRONG BÀI TOÁN TRÁNH VẬT CẢN 2.1 Q – Learning Để robot biết chọn hành động để đạt phần thưởng lớn nhất, người ta sử dụng giá trị Q tính sau: Q(s, a) = r (s, a) + γmax Q(s ’, a), đó: Q(s, a) Q thực hành động a trạng thái s; r(s, a) phần thưởng nhận được; s’ trạng thái kế tiếp; γ hệ số khấu hao, đảm bảo xa đích Q nhỏ Với cơng thức này, tạo ma trận trạng thái – hành động bảng tra cứu Từ đó, với trạng thái robot cần tìm hành động có giá trị Q lớn xong Tuy nhiên, học tăng cường trình ngẫu nhiên nên giá trị Q thời điểm trước sau thực hành động khác Khác biệt gọi khác biệt tạm thời: TD(a, s) = R(s, a) + γmax Q(s’, a’) + (s, a) (1) Như vậy, ma trận Q(s, a) cần phải cập nhật trọng số dựa TD: (s, a) = (s, a) + αT (a, s) (2) α hệ số học Qua lần robot thực hành động, Q(s, a) dần hội tụ Q trình Q-Learning 2.2 Thuật tốn huấn luyện mạng DQN 2.2.1 Kiến trúc mơ hình Có số cách để tham số hóa Q sử dụng mạng nơron Vì Q ánh xạ cặp lịch sửhành động tới giá trị ước lượng giá trị Q (Q-value), liệu lịch sử hành động sử dụng làm đầu vào cho mạng nơron số phương pháp cũ Hạn chế loại kiến trúc cần chạy riêng liệu vào mạng để tính giá trị Q hành động riêng lẻ, vậy, chi phí tính tốn tăng tuyến tính với số lượng hành động Thay vào đó, ta sử dụng kiến trúc có nút đầu riêng biệt cho hành động, sử dụng biểu diễn trạng thái làm đầu vào cho mạng Các đầu tương ứng với giá trị Q dự đoán hành động riêng lẻ trạng thái Ưu điểm loại kiến trúc khả tính tốn giá trị Q cho tất hành động xảy trạng thái cụ thể với lần chạy liệu qua mạng Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 49 Kỹ thuật Điều khiển – Tự động hóa Lớp Lớp Lớp L -1 Lớp L Hình Mơ hình kiến trúc học sâu Mơ hình mạng nơ ron học sâu đề xuất nghiên cứu bao gồm lớp: lớp đầu vào, hai lớp ẩn lớp đầu Lớp ẩn bao gồm 64 nơ-ron kiến trúc kết nối đầy đủ, có 28 đầu vào lấy từ Bộ cảm biến khoảng cách Laser, đó, có 1856 thơng số đào tạo Lớp ẩn thứ hai có 64 nơ-ron với 64 đầu vào từ lớp ẩn nên có 4160 tham số huấn luyện 2.2.2 Thuật toán DQN input: data X = ( ), hệ số học α, discount factor γ, epsilon-greedy policy , robot pose, safety constraints output: Q(s, a; θ), states s є S, actions a є A, weight θ begin Initialize replay memory D to capacity N Initialize Q(s, a; θ) with random weights θ Initialize Q(s, a’; θ’), with random weights θ’ = θ for episode = 1, M Randomly set the robots pose in the scenario Observe initial states of robots s for t = 1, T do: Select an action at with probability select a random action at otherwise select at arg max a Q(st , a; ) Execute action at , observe state st 1 , compute reward Store transition ( st , at , Rt , st 1 ) in replay memory D Sample random minibatch of transition ( ) from D Calculate the predicted value Q( ) Calculate target value for each minibatch transition if is terminal state the = otherwise y j R j max aj Q(sj , aj ; ) Train neural networks using ( y j Q(s j , a j ; ))2 end for end for Robot chọn thực hành động theo sách ε-tham lam (ε-greedy) dựa Q Để robot di động hoạt động tốt thời gian dài, cần phải tính đến khơng phần thưởng trước mắt mà cịn giải thưởng mà nhận 50 Đ N Thắng, P T Dũng, N Q Hùng, “Nghiên cứu toán … học sâu tăng cường DQN.” Nghiên cứu khoa học công nghệ tương lai Ngồi ra, mơi trường ngẫu nhiên, robot khơng chắn, nhận phần thưởng tương tự vào lần thực hành động tương tự Robot di chuyển tương lai, phân kỳ Vì lý đó, nghiên cứu này, chúng tơi sử dụng phần thưởng giảm giá tương lai Lợi nhuận hệ số suy giảm tương lai thời điểm t xác định sau: Rt rt rt 1 rt T t rT ,0 (3) Trong đó, rt phần thưởng trực tiếp T bước thời gian mà hành động robot kết thúc, phần thưởng tương lai nhiều, robot xem xét Khi đặt hệ số khấu hao γ = 0, việc chọn thực hành động robot bị thiển cận dựa vào phần thưởng trực tiếp Nếu muốn cân phần thưởng trực tiếp tương lai, ta nên đặt hệ số khấu hao γ = 0.9 Khi mơi trường mang tính định hành động tương tự dẫn đến phần thưởng, ta đặt hệ số khấu hao γ = Mục tiêu robot tương tác với môi trường cách chọn hành động theo cách tối đa hóa phần thưởng tương lai Ta sử dụng kỹ thuật gọi tái trải nghiệm (experience replay), đó, ta lưu lại trải nghiệm robot bước thời gian, = ( , , , ), tập liệu = { ,…, }, gộp lại qua nhiều chu kỳ học (episode) (khi kết thúc chu kỳ học) vào nhớ tái (replay memory) Trong trình đào tạo mạng nơron, mẫu ngẫu nhiên từ nhớ phát lại sử dụng thay chuyển đổi gần Điều phá vỡ giống mẫu đào tạo tiếp theo, khơng đẩy mạng vào mức tối thiểu cục Ngoài ra, kinh nghiệm phát lại làm cho nhiệm vụ đào tạo tương tự học tập có giám sát thơng thường, giúp đơn giản hóa việc gỡ lỗi kiểm tra thuật tốn Người ta thực thu thập tất kinh nghiệm từ chuyên gia người huấn luyện mạng nơron điều Để cập nhật trọng số mạng nơron, trước tiên, lấy mẫu chuyển tiếp ngẫu nhiên từ nhớ phát lại D với kích thước nhớ hữu hạn N Với lần chuyển đổi định, thuật toán thực bước sau: - Bước 1: Thực chuyển tiếp qua mạng nơron cho trạng thái s j để có giá trị dự đoán Q( ) - Bước 2: Nếu trình chuyển đổi lấy mẫu mẫu va chạm, việc đánh giá cho cặp ( đặt trực tiếp làm phần thưởng kết thúc Mặt khác, thực chuyển tiếp mạng nơron cho trạng thái s’, tính tốn đầu mạng tổng thể tối đa tính tốn mục tiêu cho hành động phương trình Bellman (r + ) Đối với tất hành động khác, đặt giá trị mục tiêu giống giá trị trả ban đầu từ bước - Bước 3: Thuật toán cập nhật Q-learning sử dụng hàm mát (loss function) sau: L( ) n ( y j Q( x j , a j ; )) N i 1 (4) Sử dụng chức hàm mát, trọng số mạng nơ ron cập nhật thông qua việc lan truyền ngược giảm độ dốc ngẫu nhiên Khi q trình đào tạo hồn thành, robot di động lưu mạng nơron đào tạo vào não sử dụng trình thử nghiệm làm việc tương lai MƠ PHỎNG ĐÁNH GIÁ HIỆU QUẢ THUẬT TỐN Trong nghiên cứu này, nhóm tác giả đề xuất phương pháp tránh vật cản sử dụng thuật toán DQN cho robot TurtleBot3 di động hai bánh sử dụng cảm biến LiDAR Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 51 Kỹ thuật Điều khiển – Tự động hóa môi trường không xác định Cảm biến LiDAR sử dụng giá trị khoảng cách làm trạng thái đầu vào phương pháp học từ hệ thống xác định hành động khoảng cách chướng ngại vật đến robot di động Trong trình này, biến động thường xuyên giá trị hành động, hành động tăng tốc/giảm tốc không tự nhiên bắt buộc, gây không tượng sốc vật lý cho robot mà hiệu lái thấp Vấn đề giải việc áp dụng nhớ tái để lưu trữ đầu mạng Nghĩa là, giá trị hành động lưu trữ nhớ nạp lại vào đầu vào lần theo thứ tự hành động mạng Thử nghiệm thực robot thực tế sau học tăng cường mô ROS-GAZEBO tính hợp lệ thuật tốn xác minh thơng qua phân tích số liệu thực nghiệm Thiết lập trạng thái: Trạng thái môi trường quan sát mơ tả vị trí robot Ở đây, kích thước trạng thái 28 có 24 giá trị cảm biến khoảng cách Laser, khoảng cách đến mục tiêu góc tới mục tiêu Thiết lập hành động: Hành động robot làm trạng thái Ở đây, turtlebot3 ln có vận tốc tuyến tính 0,15 m/s Tốc độ góc xác định hành động Trong nghiên cứu này, nhóm tác giả chọn mơ hình robot di động, thực năm hành động sau: Hành động Vận tốc góc (rad/s) -1.5 -0.75 0.75 1.5 Thiết lập phần thưởng: Khi turtlebot3 thực hành động trạng thái, nhận phần thưởng Thiết kế phần thưởng quan trọng cho việc học tập Một phần thưởng tích cực tiêu cực Khi turtlebot3 đạt mục tiêu, nhận phần thưởng tích cực lớn Khi turtlebot3 va chạm với chướng ngại vật, nhận phần thưởng tiêu cực lớn Thiết lập tham số: Tham số T γ Giá trị 6000 0.99 α 0.00025 ξ 1.0 0.99 52 batch_size 0.05 64 train_start 64 memory 1000000 Mô tả Bước thời gian chu kỳ Hệ số khấu hao Tốc độ học tập Nếu giá trị lớn, việc học không hiệu nhỏ, thời gian học lâu Xác xuất chọn hành động ngẫu nhiên Tỷ lệ giảm epsilon Khi chu kỳ kết thúc, epsilon giảm Tối thiểu epsilon Kích thước nhóm mẫu đào tạo Bắt đầu đào tạo kích thước nhớ phát lại lớn 64 Kích thước nhớ phát lại Đ N Thắng, P T Dũng, N Q Hùng, “Nghiên cứu toán … học sâu tăng cường DQN.” Nghiên cứu khoa học công nghệ Kết quả: Để thu hẹp khoảng cách môi trường mô giới thực, nhóm tác giả tạo kịch giống văn phịng mơ Gazebo (hình 2) Trong môi trường này, nhiều loại chướng ngại vật đặt bao gồm tường, người đứng, chướng ngại vật động, mục tiêu động robot di động (turtlebot3) để thử nghiệm thuật toán điều hướng đề xuất Robot di động yêu cầu bắt kịp mục tiêu động tránh chướng ngại vật tĩnh Hình Mơi trường mơ Hình Khu vực đào tạo mơi trường mơ Q trình đào tạo robot trải qua nhiều chu kỳ Mỗi chu kỳ kết thúc robot có vị trí mục tiêu, chạm vào chướng ngại vật đường di chuyển robot hết thời gian cho chu kỳ Trong môi trường này, nhiều loại chướng ngại vật đặt ngẫu nhiên bao gồm người đứng, hai nhóm người nói chuyện bên cạnh tường để kiểm tra hiệu suất thuật toán điều hướng robot di động đề xuất Nhiệm vụ robot tránh chướng ngại vật cách giữ khoảng cách an toàn định với chúng đạt vị trí mục tiêu (bảng 1), phân bổ cách khoa học hành lang rộng m minh họa hình Bảng Các vị trí mục tiêu sử dụng trình đào tạo Các vị trí mục tiêu Vị trí trục X Vị trí trục Y 4.28 11.10 -2.80 12.10 0.20 10.40 -0.30 12.08 -2.50 10.00 0.00 12.00 2.00 11.50 -1.30 11.00 1.50 12.00 Trong 100 chu kỳ huấn luyện đầu tiên, robot thường xuyên chạm vào chướng ngại vật tiếp cận vị trí mục tiêu Trong 50 chu kỳ đầu tiên, chu kỳ kết thúc vòng hai phút va vào chướng ngại vật Do đó, tổng số phần thưởng mà robot tích lũy phần thưởng nhỏ (xem hình 4) Hình có lần robot đạt vị trí mục tiêu nhận phần thưởng lớn Đặc biệt, giai đoạn này, robot thường khơng trì khoảng cách an tồn tối thiểu với người (hình 5) Robot kéo dài thời gian chu kỳ chu kỳ dựa kiến thức đạt Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 53 Kỹ thuật Điều khiển – Tự động hóa q trình đào tạo Mặc dù số lần robot đến đích bị hạn chế nhận thức robot mơi trường đáng kể Hình Tổng số phần thưởng đạt 100 chu kỳ huấn luyện Hình Khoảng cách tối thiểu robot người Trong chu kỳ (khoảng từ 100 đến 500), robot không đến đích thường xun mà cịn va chạm với chướng ngại vật Nó có nghĩa kiến thức robot tăng lên sau thời gian học Hình thể tổng số phần thưởng mà robot đạt giai đoạn Trong số trường hợp, robot liên tục đạt vị trí mục tiêu để tổng phần thưởng có giá trị tích cực lớn Tuy nhiên, kiến thức robot môi trường không đủ để giúp đồng thời tránh chướng ngại vật, người đến đích mong muốn Hình Tổng số phần thưởng từ chu kỳ thứ 700 đến 750 Hình Giá trị Q tối đa trung bình từ chu kỳ thứ 700 đến 750 Sau trình huấn luyện, robot di động có khả bắt kịp mục tiêu động tránh chướng ngại vật Hơn nữa, hình 10 cho thấy, robot di động ln giữ khoảng cách an toàn với chướng ngại vật vùng lân cận robot Nói cách khác, robot di động có khả điều hướng tự động an tồn mơi trường 54 Đ N Thắng, P T Dũng, N Q Hùng, “Nghiên cứu toán … học sâu tăng cường DQN.” Nghiên cứu khoa học công nghệ Hình Tổng số phần thưởng sau trình đào tạo hồn thành Hình Giá trị Q tối đa trung bình sau hồn thành q trình đào tạo Hình 10 Khoảng cách tối thiểu đến người sau hồn thành q trình đào tạo KẾT LUẬN Bài báo nghiên cứu giải pháp giải toán tránh vật cản động cho robot nhờ sử dụng học sâu tăng cường DQN Thuật toán cho phép robot học cách tự phát tránh vật cản động thông qua sử dụng kết hợp mạng nơron thuật toán học sâu tăng cường DQN Vì phương pháp học sâu tăng cường khơng cần dùng kỹ thuật trích chọn đặc trưng thủ cơng, chúng tương đối đơn giản để thiết kế xây dựng Ngồi ra, chúng áp dụng cho tốn quy mơ lớn u cầu tính tốn thời gian chạy không tăng theo số lượng vật cản mơi trường Tuy nhiên, thuật tốn học sâu tăng cường đòi hỏi lượng lớn liệu huấn luyện để đào tạo robot Vì vậy, nên sử dụng mơi trường mơ để tăng tốc độ đào tạo khơng làm hao mịn robot Ngồi ra, cần có thời gian để thực tối ưu hóa tham số đào tạo Trong tương lai, mở rộng nghiên cứu theo hướng tăng độ phức tạp môi trường mô phỏng, bao gồm thực kịch môi trường đa dạng TÀI LIỆU THAM KHẢO [1] R C Arkin “Motor Schema-Based Mobile Robot Navigation” International Journal of Robotics Research, August 1989, pp 92-112 [2] J Borenstein and Y Koren “The Vector Field Histogram -Fast Obstacle Avoidance for Mobile Robots” IEEE Transactions on Robotics and Automation, 7:3, 1991, pp 278-288 [3] J Buhmann, W Burgard, A B Cremers, D Fox, T Hofmann, F Schneider, J Strikos and S Thrun “The Mobile Robot Rhino” AI Magazine, 16:2, Summer 1995, pp 31-38 Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 55 Kỹ thuật Điều khiển – Tự động hóa [4] P Jacobs and J Canny “Planning Smooth Paths for Mobile Robots” In Proc IEEE Intl Conference on Robotics and Automation, Scottsdale AZ, May 1989, pp 2-7 [5] W Feiten, R Bauer and G Lawitzky “Robust Obstacle Avoidance in Unknown and Cramped Environments” In Proc IEEE Intl Conference on Robotics and Automation, San Diego, CA, May 1994, pp 2412-2417 [6] D Fox, W Burgard and S Thrun “The Dynamic Window Approach to Collision Avoidance” Tech Report IAI-TR-95-13, CS Department, University of Bonn, 1995 [7] A Kelly “An Intelligent Predictive Control Approach to the High Speed Cross Country Autonomous Navigation Problem”, Tech Report CMU-CS-TR-95-33, School of Computer Science, Carnegie Mellon University, 1995 [8] O Khatib “Real-time Obstacle Avoidance for Manipulators and Mobile Robots” In Proc IEEE Intl Conference on Robotics and Automation, St Louis, MO, March 1985, pp 500-505 [9] J C Latombe “Robot Motion Planning” Kluwer Academic Publishers, 1991 [10] R Simmons “The curvature-velocity method for local obstacle avoidance”, In Proceeding of IEEE international Conference on Robotics and Automation, August 2002 [11] Xuan Tung Truong, Yong Sheng Ou, and Trung-Dung Ngo, “Towards Culturally Aware Robot Navigation”, IEEE International Conference on Realtime Computing and Robotics, 2016 [12] Guo-Sheng Yang, Er-Kui Chen, and Cheng-Wan An, “Mobile Robot Navigation using Neural Q-learning”, Third International Conference on Machine Learning and Cybernetics, Shanghai, 2004 ABSTRACT RESEARCHING THE PROBLEM OF AVOIDING OBSTACLES FOR AUTO MOBILE ROBOTS BASED ON THE DEEP Q LEARNING The problem of avoiding obstacles for auto mobile robots based on the application of artificial intelligence tools is a researching direction in the field of the intelligent robot control In this paper, the behavioral prediction and the DQN (Deep Q learning) technique have been solved The autonomous robots in the research are under control by 2-wheels independently The results show the effectiveness of the approach, the robot can predict the next activities basing on the previous one without the robot modeling Keywords: Autonomous mobile robot; Proactive collision avoidance; DQN algorithm; Turtlebot3 Nhận ngày 03 tháng năm 2020 Hoàn thiện ngày 05 tháng 10 năm 2020 Chấp nhận đăng ngày 05 tháng 10 năm 2020 Địa chỉ: 1Viện Khoa học Công nghệ quân sự; Học viện Kỹ thuật quân * Email: thangdonam@gmail.com 56 Đ N Thắng, P T Dũng, N Q Hùng, “Nghiên cứu toán … học sâu tăng cường DQN.” ... hồn thành q trình đào tạo KẾT LUẬN Bài báo nghiên cứu giải pháp giải toán tránh vật cản động cho robot nhờ sử dụng học sâu tăng cường DQN Thuật toán cho phép robot học cách tự phát tránh vật cản. .. N Q Hùng, ? ?Nghiên cứu toán … học sâu tăng cường DQN. ” Nghiên cứu khoa học cơng nghệ Hình Tổng số phần thưởng sau q trình đào tạo hồn thành Hình Giá trị Q tối đa trung bình sau hồn thành q trình... ? ?Nghiên cứu toán … học sâu tăng cường DQN. ” Nghiên cứu khoa học công nghệ tương lai Ngồi ra, mơi trường ngẫu nhiên, robot khơng chắn, nhận phần thưởng tương tự vào lần thực hành động tương tự