Bài viết trình bày nghiên cứu về vấn đề điều khiển robot tự hành ứng dụng trong công nghiệp, trong dân dụng,v.v... để điều hướng thông minh trong môi trường không xác định trên cơ sở thuật toán Q-Learning.
TNU Journal of Science and Technology 227(08): 291 - 300 RESEARCH ON SELF-PROPELLED ROBOTS CONTROL APPLICATION FOR INTELLIGENT NAVIGATION BASED ON Q-LEARNING ALGORITHM Tran Thi Huong* University of Economics - Technology for Industries ARTICLE INFO ABSTRACT Received: 22/3/2022 This paper presents a study on controlling automotive robots applied in industry, civil, etc for intelligent navigation in unknown environment on the basis of Q-Learning algorithm The programming tool is the operating system for the robot ROS (Robot Operating System) and performs automatic intelligent navigation for the robot with the process of locating the robot in a flat environment and mapping (called SLAM-Simultaneous Localization and Mapping) Research results using ROS programming tool, in Gazebo environment The information is updated from the map, operating environment, control position of the robot, and obstacles to calculate the trajectory for the robot in the automatic navigation system The goal is to safely avoid the obstacles without encountering any obstacles along the way Revised: 12/5/2022 Published: 19/5/2022 KEYWORDS Automotive robot ROS SLAM Gazebo Intelligent navigation NGHIÊN CỨU ĐIỀU KHIỂN ROBOT TỰ HÀNH ỨNG DỤNG CHO ĐIỀU HƯỚNG THƠNG MINH TRÊN CƠ SỞ THUẬT TỐN Q-LEARNING Trần Thị Hường Trường Đại học Kinh tế - Kỹ thuật Công nghiệp THÔNG TIN BÀI BÁO Ngày nhận bài: 22/3/2022 Ngày hồn thiện: 12/5/2022 Ngày đăng: 19/5/2022 TỪ KHĨA Robot tự hành ROS SLAM Gazebo Điều hướng thơng minh TĨM TẮT Bài báo trình bày nghiên cứu vấn đề điều khiển robot tự hành ứng dụng công nghiệp, dân dụng,v.v để điều hướng thông minh môi trường khơng xác định sở thuật tốn QLearning Cơng cụ lập trình hệ điều hành cho robot ROS (Robot Operating System) thực điều hướng thông minh tự động cho robot với trình định vị robot mơi trường phẳng lập đồ hóa (gọi SLAM - Simultaneous Localization and Mapping) Các kết nghiên cứu sử dụng cơng cụ lập trình ROS, môi trường Gazebo Các thông tin cập nhật từ đồ, mơi trường hoạt động, vị trí điều khiển robot vật cản để tính tốn quỹ đạo cho robot hệ thống điều hướng tự động Mục tiêu nhằm tránh chướng ngại vật cách an tồn mà khơng gặp trở ngại đường DOI: https://doi.org/10.34238/tnu-jst.5745 Email: huongtt @uneti.edu.vn http://jst.tnu.edu.vn 291 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 227(08): 291 - 300 Mở đầu Hiện giới Việt Nam nhằm đáp ứng công nghệ 4.0 vai trị hệ thống robot thơng minh chiếm lĩnh vị trí quan trọng cơng nghiệp, dân dụng Trong đó, thuật ngữ robot điều khiển robot ngày trở nên thông dụng, bước gắn chặt với sống hàng ngày người robot phục vụ (robot hút bụi, robot lau nhà, robot đưa hàng), robot công nghiệp (các robot dây chuyền sản xuất), robot y tế, robot lĩnh vực quân sự, giao thông vận tải, Kỹ thuật robot nói chung, robot tự hành robot di động nói riêng lĩnh vực đa ngành gồm: khí, Điện - Điện tử, điều khiển tự động công nghệ thông tin Đây lĩnh vực thu hút nhiều ý cộng đồng khoa học vai trị quan trọng sống hàng ngày công việc sản xuất dây chuyền tự động nhà máy công nghiệp, nơi sản xuất Robot tự hành định nghĩa loại xe robot có khả tự di chuyển, tự vận động để thực tốt công việc giao nhà kho, nhà máy, nơi sản xuất, [1]-[5] Một yêu cầu robot tự động thực thi nhiệm vụ khả điều hướng tốt phạm vi với môi trường không xác định Bằng cách sử dụng quan sát tích hợp từ thiết bị điều khiển đến môi trường, kết hợp với đồ hóa lúc để điều hướng tự động cho robot Việc đồng thời hóa định vị đồ lúc phương pháp chung có liên quan đến việc triển khai hệ thống robot tự động môi trường không xác định cho robot tự hành đến đích cách an tồn tồn hành trình [6]-[10] Trong lĩnh vực kỹ thuật điều khiển công nghệ thông tin, học tăng cường (reinforcement learning) lĩnh vực học máy, nghiên cứu cách thức tác nhân môi trường nên chọn thực hành động để cực đại hóa khoản phần thưởng (reward) lâu dài Các thuật tốn học tăng cường cố gắng tìm chiến lược ánh xạ trạng thái môi trường tới hành động mà tác nhân nên chọn trạng thái [3], [5] Môi trường làm việc để điều khiển cho robot thường biểu diễn dạng trình định Markop trạng thái hữu hạn (Markov decision process - MDP) thuật toán học tăng cường cho ngữ cảnh có liên quan nhiều đến kỹ thuật quy hoạch động Các xác suất chuyển trạng thái xác suất thu lợi MDP thường ngẫu nhiên lại tĩnh trình tốn điều khiển robot Khác với học có giám sát, học tăng cường khơng có cặp liệu vào/kết đúng, hành động gần tối ưu không đánh giá sai cách tường minh Hơn nữa, hoạt động trực tuyến (on-line performance) quan tâm, có việc tìm kiếm cân khám phá (môi trường thiết lập đồ hóa) khai thác (tri thức có) Có hai phương pháp thường sử dụng để giải tốn định tìm kiếm khơng gian chiến lược tìm kiếm khơng gian hàm giá trị hay gọi “phép lặp chiến lược” “phép lặp giá trị” Hai phương pháp giải thuật học tăng cường đặc trưng Bên cạnh đó, nghiên cứu gần nhà khoa học đề xuất phương pháp kết hợp hai phương pháp trên, phương pháp ActorCritic learning [7], [8] Trong lĩnh vực điều khiển robot, thuật tốn Q-learning thuộc nhóm phương pháp dựa giá trị (value-based method), nghĩa chúng tìm cách tính tốn hàm giá trị, từ hàm giá trị đưa sách tối ưu Dù thuật tốn cho đơn giản Q-learning lại tảng hầu hết thuật toán học tăng cường quan trọng sau Trong số nghiên cứu gần đây, [6] nghiên cứu SLAM, ROS, dừng lại với robot Turtlebot vấn đề áp dụng thuật tốn cách máy móc cho tốn tìm đường ngắn nhất, mà chưa sâu vào xử lý tình thực tế mơi trường làm việc rộng lớn có nhiều yếu tố bất định Cơng trình [7] sử dụng thuật tốn Q - learning thơng thường đưa hạn chế để thực trình điều khiển robot, chưa đề cập đến tránh vật cản đường Cơng trình [8] thực trình điều hướng sở ROS triển khai sử dụng việc tạo đồ định vị đồng thời sở (SLAM Simultaneous Localization and Mapping) http://jst.tnu.edu.vn 292 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 227(08): 291 - 300 Bài báo nghiên cứu thuật tốn Q-learning để nhằm giải tốn tìm đường tránh vật cản (vật cản cố định, vật cản di động) cho robot môi trường làm việc không gian hành động thực tế cho robot tự hành nhằm điều hướng thông minh, thiết lập kế hoạch đường tránh chướng ngại vật an toàn mà không xảy va chạm Nội dung nghiên cứu 2.1 Xây dựng mơ hình điều khiển cho robot tự hành Cấu trúc thiết bị phần cứng sử dụng minh họa hình 1, bao gồm khối chức sau: khung robot thiết kế theo kiểu hình trịn khoảng cách hai bánh xe 0,35 m bán kính bánh xe 0,065 m Hình Mơ hình robot tự hành ba bánh Phương trình động học thiết bị dẫn động hai động (TBDĐ) viết điểm A trung điểm đoạn thẳng nối tâm hai bánh dẫn động là: (R − L )rW (R − L )rW = 2W v = vA = (1) (2) Từ (1) (2), ta có phương trình chuyển động TBDĐ viết hệ tọa độ điểm A điểm C (tâm cảm biến dò đường): x A cos y = sin v (3) A xc x A − d sin y = y + d cos c A (4) Các điều khiển bám qũy đạo đường robot theo tiêu chuẩn ổn định Lyapunov [1], [2] đáp ứng tốt mô gặp hạn chế thực tế cảm biến dị line đo độ lệch ngang (hay e2) Chính thế, báo trình bày điều khiển thiết kế theo dạng hồi tiếp tuyến tính [2], [5] Phương trình sai số dò line sau: http://jst.tnu.edu.vn 293 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 227(08): 291 - 300 e2 e1 vr cos e3 −1 e = v sin e + −d − e v (5) 3 1 2 r e3 r −1 Khi TBDĐ bám theo line, quỹ đạo TBDĐ dao động xung quanh line, đó, điểm cân hệ phi tuyến phương trình (5) X = e10 e20 e30 = 000 với đầu vào sơ T T khởi usk = vr r Tuyến tính hóa (5) xung quanh điểm cân ta được: T −r −vr e1 −1 e1 v e = − vr e2 + − d (6) 2 r e3 0 e3 −1 Trong thực tế, vận tốc TBDĐ trình hoạt động khơng đổi nên e1 , đó, (6) thành: e2 0 vr e2 −d e = 0 e + −1 u, u = 3 3 (7) Đạo hàm phương trình thứ (7) phương trình thứ hai vào ta được: e2 = − d u − vr u (8) Đặt: x1 = e2 , x2 = x1 − u với = −d , ta có: x1 0 x1 −d (9) x = 0 x + −v u 2 r 2 Phương trình (9) có dạng X = A X + BU ma trận điều khiển M = [B AB] có det( M ) vr nên hệ (9) hệ điều khiển Đặt luật điều khiển hồi tiếp u = -K.X với K = [k1 k2] Khai triển luật điều khiển ta được: u= −k1 −k2 e2 + e2 + k2 d + k2 d (10) Luật điều khiển (10) có dạng luật điều khiển PD, ta có: u = K pe2 + Kd e2 với k1 − k2 Các hệ số k1, k2 xác định dựa vào phương pháp tọa độ điểm cực , Kd = + k2 d + k2 d vị trí điều khiển tối ưu LQR Tâm vận tốc tức thời TBDĐ với robot thời điểm (i) C0(i) CA(i) Góc lệch thiết bị dẫn động robot thời điểm (i) là: (i ) = (i ) − A(i−1) (11) Kp = Vì TBDĐ robot liên kết với qua khớp lề O nên vD = v A = v0 = v , suy bán kính cua vận tốc góc robot tự hành thời điểm (i) là: L sin((i ) ) v(i ) v(i ) sin((i ) ) = = C AO(i ) L CAO(i ) = A( i ) (12) (13) 2.2 Ứng dụng thuật toán Q-learning để điều khiển robot tự hành 2.2.1 Học tăng cường với thuật toán Q-learning http://jst.tnu.edu.vn 294 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 227(08): 291 - 300 Phương pháp học tăng cường với thuật toán Q-learning nhánh học máy phát triển để phục vụ cho việc tính tốn thơng minh cho lĩnh vực khoa học kỹ thuật nói chung phương diện điều khiển học nói riêng Robot tự hành ba bánh Phần thưởng rt Trạng thái St Hành động at Mơi trường hoạt động robot Hình Sơ đồ tương tác với môi trường học tập robot tự hành Với Q-learning nói riêng học tăng cường nói chung, thứ chia thành “trạng thái - st” “hành động - at” với thời gian biểu thị chuỗi bước thời gian (t = 0, 1, 2, v.v.) Đối với môi trường làm việc liên tục điều khiển robot tự hành việc cần làm lượng tử hóa khơng gian trạng thái để có cập nhật S = S1, S2 , Sm lượng tử hóa không gian hành động thành tập A = a1, a2 , an , kết môi trường tạo phần thưởng rt = r ( st , a ) R , để hiểu rõ ta có sơ đồ tương tác mơi trường học tập hình Khi đó, cách Q-learning hoạt động tính toán lưu giữ giá trị Q hành động trạng thái cụ thể, Q(s, a) Tất thơng tin, kinh nghiệm tích lũy từ lần tính tốn trước mã hóa thành bảng đánh giá Chúng ta tính tốn tổng phần thưởng thu sau thời gian t Rt hoàn trả sau: Rt = k rt + k (14) k =0 đó, hệ số khấu trừ cho phần thưởng Giá trị γ nhỏ phần thưởng trọng thực hành động Khi đó, hàm giá trị hành động (hàm Q) xác định sau: Qn (s, a) = E Rt st = s, a = a t (15) đó, E { } đại diện cho kỳ vọng theo sách ngẫu nhiên khơng gian hành động Hàm Q n ( s, a ) đại diện cho tổng phần thưởng chiết khấu dự kiến ta chọn hành động a trạng thái s sau chọn hành động theo sách π Hàm Q mô tả dạng công thức đệ quy sau: Q ( s, a ) = Pr( s ' s,a)r ( ( s, a, s ') + (a ' s ')Q ( s ', a ') s 'S a 'A (16) đó, S A tập trạng thái tập hành động Từ cơng thức này, xác định hàm Q theo sách tối ưu π∗, tức hàm Q tối ưu, thỏa mãn phương trình sau, gọi phương trình tối ưu Bellman: Q*(s, a) = Es ' rt + maxQ*(s ', a ' a' (17) Trong thuật toán Q-learning, cách cập nhật lặp lặp lại hàm Q sử dụng biểu thức (10) http://jst.tnu.edu.vn 295 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 227(08): 291 - 300 dựa liệu thực nghiệm, hàm Q hội tụ ngẫu nhiên thành Q* ( s, a) đó, sách tối ưu xác định sách tham vọng Q* : a* = argmaxa ( s, a) Trong thực tế, tác nhân học tập robot di chuyển phải khám phá môi trường hành động hàm Q khơng đáng tin cậy cần phải lựa chọn hành động để sử dụng cách rộng rãi sách ngẫu nhiên, cho phép để chọn hành động có xác suất cho trạng thái đầu vào s Cụ thể hơn, sách μ tham gia lựa chọn hành động nhằm tối đa hóa hàm Q trạng thái s với xác suất a 1- μ, μ ∈ [0, 1] cho phép lựa chọn hành động ngẫu nhiên với xác suất lại Khi trạng thái hành động rời rạc khác nhau, cách đơn giản để biểu diễn hàm Q sử dụng bảng giá trị cho tất cặp trạng thái, hành động sau: Q ( s, a ) Q(s, a) + (r + maxQ(s ',a ')−Q(s ',a ') (18) a' Trong đó, tốc độ học tốc độ học lớn liệu cập nhật nhanh Với thuật toán này, bảng Q hội tụ đến hàm Q tối ưu điều kiện hội tụ xấp xỉ ngẫu nhiên Mặt khác, điều dựa phương pháp xấp xỉ ngẫu nhiên, nên cần có số lượng liệu thích hợp cho tất cặp (s, a) Trong phương pháp Q-learning dạng bảng, số lượng phần tử trạng thái không gian hành động lớn hay trạng thái không gian hành động liên tục, thường biểu diễn hàm Q dạng hàm tham số Q(s, a; θ) cách sử dụng tham số θ sau cập nhật thơng số theo biểu thức gradient sau: + ( targetQ −Q(s,a; ) ) Q(s,a; ) (19) Ở đây, “targetQ” giá trị mục tiêu dựa phương trình Bellman tối ưu (10) tính tốn sau: target r ( s, a; s ') + max Q(s',a'; ) (20) Q a' Hàm Q cập nhật theo trình tự qn Thuật toán Q-learning phương pháp dựa hàm giá trị từ hàm giá trị đưa sách tối ưu, giá trị xấp xỉ hàm Q hồi quy giá trị mục tiêu, giá trị phụ thuộc vào Điều ngụ ý giá trị đích thực thay đổi tự động luật học tập cập nhật Do đó, hàm phi tuyến tính, chẳng hạn mạng nơ-ron sử dụng để xấp xỉ p, trình học tập trở nên không ổn định thay đổi động học mục tiêu trường hợp xấu nhất, hàm Q phân kỳ [3], [4] 2.2.2 Điều hướng thông minh robot tự hành sử dụng thuật toán Q-learning Trong thuật toán Q-learning giá trị vị trí điều khiển điều hướng cho robot thường cập nhật theo phương pháp vi phân tức thời, sử dụng sai lệch bước lặp để ước lượng, tính tốn hàm giá trị Q theo biểu thức (18) Khi gặp toán điều hướng cho robot di chuyển với nhiều trạng thái khác hành động dịch chuyển (sang trái, sang phải), tránh chướng ngại vật (vật cản di động, vật cản cố định), v.v Khi ta chọn α = 0,1; γ = 0,95; lúc robot di chuyển với nhiều tình khác nhau, lúc trình cập nhật bảng Q thực Khi bắt đầu huấn luyện thuật toán, đối tượng hai lần sang phải, hành động sang trái chọn, hành động tiếp tục chọn lần di chuyển ln nhận phần thưởng thực thi hành động sang trái Mục tiêu mơ hình q trình điều hướng cho robot giữ cho giới hạn cho phép, tức ± độ Lúc đầu, mơ hình robot, ma trận Q, sách π khởi tạo Có số điểm quan trọng để thực điều hướng trình di chuyển, trạng thái không hữu hạn Trong phạm vi giới hạn, có hàng trăm hàng nghìn góc cao độ có http://jst.tnu.edu.vn 296 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 227(08): 291 - 300 hàng nghìn cột xảy cập nhật thuật tốn Q-learning Vì vậy, ta xếp giá trị trạng thái thành 20 góc trạng thái từ -10 độ đến 10 độ Đối với giá trị hành động, chọn mười vận tốc khác chúng [- 200, - 100, - 50, - 25, - 10, 10, 25, 50, 100, 200] ms-1 Ma trận Q có 20 cột, cột đại diện cho trạng thái mười hàng hàng đại diện cho hành động Ban đầu, giá trị Q giả định số hành động ngẫu nhiên định cho trạng thái sách π Chúng ta huấn luyện 1400 tập, tập có 2000 lần lặp lại Vào đầu tập dạy mô làm Bất trạng thái robot vượt giới hạn, bị phạt cách gán phần thưởng cho -100 Bảng Q cập nhật bước theo biểu thức (18) Từ ta có thuật tốn thiết lập quỹ đạo điều hướng tự động cho robot hiển thị hình Thuật tốn Q-learning thực tác nhân hành động cho việc điều hướng tự động thông minh cho robot tự hành nhằm thực quỹ đạo để tránh vật cản động vật cản tĩnh trình di chuyển robot, đồng thời tính quỹ đạo ngắn cho robot di chuyển đến đích với đường nhanh Hình Thuật tốn Q-learning cho robot tự hành ba bánh Kết mô Để thực q trình điều hướng thơng minh cho robot tự hành, tác giả thực sở http://jst.tnu.edu.vn 297 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 227(08): 291 - 300 thuật toán nghiên cứu đề xuất phần hai tiến hành nghiên cứu số mô dựa công cụ nghiên cứu mạnh mẽ Gazebo Phần thưởng thực Phần thưởng lọc Average Reward -2 200 400 600 800 1000 1200 1400 Training episodes Hình Kết phần thưởng trung bình trình học tập Hình trình bày kết học tập mơi trường mơ Gazebo Ta thấy, phần thưởng trung bình (phần thưởng thực) robot tập dạy khơng ngừng tăng lên q trình đào tạo tiếp tục Robot học kiến thức môi trường thông qua việc tương tác với môi trường Cuối cùng, robot điều hướng đến đích cách nhanh chóng tự chủ mơi trường đơn giản phức tạp mà khơng có va chạm với chướng ngại vật Nghiên cứu thử nghiệm cho thấy tính hiệu mơ hình mà tác giả đề xuất Trong phần này, số mô thực dựa công cụ mô mạnh mẽ môi trường Gazebo a) b) Hình a) Mơi trường đào tạo Gazebo; b) Bản đồ hóa tỷ lệ tương ứng thực Rviz a) b) Hình a) Một số hành động đào tạo môi trường Gazebo, b) Xây dựng đồ trực quan đường robot môi trường Gazebo http://jst.tnu.edu.vn 298 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 227(08): 291 - 300 Như hình cho thấy đồ hóa đồng thời xây dựng Gazebo Rviz đồ tạo với tường nghiêm ngặt robot tự hành thực điều khiển để di chuyển xung quanh chướng ngại vật cố định tạo bối cảnh cho chuyển động robot sử dụng để xây dựng đồ hành động robot tự hành điều hướng cách thơng minh Chương trình xây dựng cho q trình điều hướng thơng minh hình 6, thể số hành động thực robot từ vị trí ban đầu thực hành động đến mục tiêu sau đợt học tập Vấn đề thể mối quan hệ đặc biệt quan trọng, thực vợt chướng ngại vật tĩnh hay vật cản động đường mà không gây trở ngại nào, robot đích an tồn Trên hình 6b đường màu tím (mũi tên nét đứt) thể đường robot tránh chướng ngại vật tạo cảm biến thông minh, camera thông minh vị trí robot cập nhật (robot tự hành ký hiệu màu xanh cây) cách sử dụng kích thước đo hình học Đây cơng cụ trực quan cung cấp cập nhật trực tiếp đồ tạo từ thuật toán SLAM để điều khiển robot Hơn nữa, quỹ đạo chuyển động robot tự hành đa hướng đồ tự động điều hướng mơi trường ln tạo chướng ngại vật, hình 5; hình robot di chuyển Kết cho thấy robot lập quỹ đạo chuyển động di chuyển đến mục tiêu mong muốn cách xác an tồn Những kết mang lại lợi ích thực tiễn cao, thực hầu hết robot công nghiệp, robot di động giao thông, robot tự hành y tế robot tự hành nhà máy xí nghiệp cơng nghiệp Kết luận Nội dung báo trình bày việc điều khiển robot tự hành ba bánh ứng dụng điều hướng thông minh môi trường phẳng không xác định, sử dụng cơng cụ ROS để lập trình điều khiển Các kết mô phần mềm Gazebo chứng minh khả robot tự hành điều hướng tự động đến vị trí mục tiêu mong muốn tránh vật cản tĩnh vật cản động q trình di chuyển mơi trường đơn giản phức tạp Nghiên cứu cho thấy tính hiệu thực tế q trình điều khiển robot tự hành thực điều hướng tự động cho robot mà tác giả nghiên cứu có khả định vị robot môi trường, lập đồ 2D thực điều hướng thông minh để đến mục tiêu đồ xây dựng Kết cho thấy robot xây dựng quỹ đạo chuyển động, di chuyển đến mục tiêu tự động tránh vật cản động xuất đường Hướng phát triển vấn đề nghiên cứu mong muốn thực áp dụng số loại robot tự hành thực tế nhà máy sản xuất công nghiệp, đời sống, giao thông thông minh y học với thuật toán tối ưu học máy TÀI LIỆU THAM KHẢO/ REFERENCES [1] Q C Hoang, H V Dao, A V Nguyen, and B C Le, Electric drive systems in Robots People's Army Publishing House, (in Vietnamese), Hanoi, Vietnam, 2020 [2] D P Nguyen, Advanced Control Theory Science and Engineering Publishing House, (in Vietnamese), Hanoi, Vietnam, 2018 [3] H S Le, C D Le, and V H Nguyen, Industrial Robots Syllabus Ho Chi Minh City National University Publishing House, (in Vietnamese), Ho Chi Minh City, Vietnam, 2017 [4] T T Nguyen, Basic Deep Learning, 2nd, The Legrand Orange Book Template by Mathias Legrand, Publishing by Vietnamme, (in Vietnamese), Hanoi, Vietnam, 2020 [5] L Joseph and J Cacace, Mastering ROS for Robotics Programming Second Edition: Design, build, and simulate complex robots using the Robot Operating System, Published by Packt Publishing Ltd N0 35 Livery Street Birmingham B3 2PB, UK, 2018 [6] S P Thale et al., “ROS based SLAM implementation for Autonomous navigation using Turtlebot,” ITM Web of Conferences 32, 01011, 2020 http://jst.tnu.edu.vn 299 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 227(08): 291 - 300 [7] S Ohnishi, E Uchibe, Y Yamaguchi, K Nakanishi, Y Yasui, and S Ishii, “Constrained Deep QLearning Gradually Approaching Ordinary Q-Learning,” Frontiers in Neurorobotics Journal, vol 13, pp 7-12, 2019 [8] R K e a Megalingam, “ROS based autonomous indoor navigation simulation using SLAM algorithm,” Int J Pure Appl., vol 118, no 7, pp 199-205, March 2018 [9] H X Dong, C Y Weng, C Q Guo, H Y Yu, and I M Chen, “Real-time avoidance strategy of dynamic obstacles via half model-free detection and tracking with 2D Lidar for mobile robots,” IEEE/ASME Transactions on Mechatronics, vol 26, no 4, pp 2215-2225, Aug 2021 [10] D Kozlov, “Comparison of Reinforcement Learning Algorithms for Motion Control of an Autonomous Robot in Gazebo Simulator,” International Conference on Information Technology and Nanotechnology, IEEE Explore, vol 9, pp 1-5, 2021, doi: 10.1109/ITNT52450.2021.9649145 http://jst.tnu.edu.vn 300 Email: jst@tnu.edu.vn ... Nghiên cứu cho thấy tính hiệu thực tế trình điều khiển robot tự hành thực điều hướng tự động cho robot mà tác giả nghiên cứu có khả định vị robot môi trường, lập đồ 2D thực điều hướng thông minh. .. hết robot công nghiệp, robot di động giao thông, robot tự hành y tế robot tự hành nhà máy xí nghiệp cơng nghiệp Kết luận Nội dung báo trình bày việc điều khiển robot tự hành ba bánh ứng dụng điều. .. hàm Q phân kỳ [3], [4] 2.2.2 Điều hướng thơng minh robot tự hành sử dụng thuật tốn Q-learning Trong thuật tốn Q-learning giá trị vị trí điều khiển điều hướng cho robot thường cập nhật theo phương