Nghiên cứu thuật toán học tăng cường sâu cho bài toán tìm kiếm cứu nạn trong môi trường mô phỏng 3 d gazebo

7 2 0
Nghiên cứu thuật toán học tăng cường sâu cho bài toán tìm kiếm cứu nạn trong môi trường mô phỏng 3 d gazebo

Đang tải... (xem toàn văn)

Thông tin tài liệu

Nghiên cứu khoa học công nghệ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 2019 33 NGHIÊN CỨU THUẬT TOÁN HỌC TĂNG CƯỜNG SÂU CHO BÀI TOÁN TÌM KIẾM CỨU NẠN TRONG MÔI TRƯỜNG MÔ PHỎNG 3 D GAZEBO[.]

Nghiên cứu khoa học cơng nghệ NGHIÊN CỨU THUẬT TỐN HỌC TĂNG CƯỜNG SÂU CHO BÀI TỐN TÌM KIẾM CỨU NẠN TRONG MÔI TRƯỜNG MÔ PHỎNG 3-D GAZEBO Lê Phú Cường1,*, Nguyễn Thế Hùng2, Lê Đình Sơn3, Phạm Quang Chiến3, Lại Phú Minh3 Tóm tắt: Vấn đề tìm kiếm cứu nạn (TK-CN) yêu cầu cấp thiết ngồi Qn đội Trong mơi trường đặc thù, trận chiến hay địa hình rừng núi phức tạp nguy hiểm, đề giảm thiểu yếu tố nguy hiểm tới người cứu hộ, việc sử dụng robot xu tất yếu hoạt động TK-CN Trong báo này, nhóm tác giả đề xuất mơ hình học tăng cường sâu (DRL) để xây dựng hệ thống Trí tuệ nhân tạo (AI) cho robot di chuyển mặt đất tốn TK-CN Trong mơ hình học tăng cường sâu đề xuất sử dụng liệu ảnh từ camera tín hiệu từ sensors gắn robot Việc kết hợp liệu ảnh tín hiệu sensor cho phép robot có khả di chuyển thơng minh so với số hướng tiếp cận khác mà dùng liệu ảnh tín hiệu sensor Bên cạnh đó, chúng tơi đưa hàm giá trị mơ hình đề xuất giúp cho việc học robot nhanh đồng thời xác Môi trường thực nghiệm xây dựng môi trường mô giới thực 3-D Gazebo mã nguồn mở Các kết thu mơ hình DRL đề xuất báo có tính khả thi robot vượt qua mơi trường kiểm thử khác Từ khóa: Học tăng cường sâu (Deep reinforcement learning); Học sâu (Deep learning); Tìm kiếm cứu nạn; Thiết bị tự hành MỞ ĐẦU Học tăng cường (Reinforcement Learning hay RL) [1] lĩnh vực giới nghiên cứu phát triển từ lâu Lịch sử phát triển RL ban đầu theo hai hướng độc lập Trong đó, hướng thứ phát triển theo phương pháp học dựa trình thử-sai “trial and error”; hướng thứ hai phát triển dựa sở giải tốn điều khiển tối ưu thơng qua quy hoạch động hàm giá trị (value function) Đến cuối năm 1980, hướng kết hợp lại với hình thành ngành học mà gọi RL Trong năm gần đây, chịu ảnh hưởng từ phát triển vượt bậc AI nói chung Deep learning (DL) [2] nói riêng, RL có thành tựu mang tính chất bước ngoặt, kể đến đời hướng mới: Học tăng cường sâu (Deep Reinforcement Learning -DRL) [3] DRL nói hồn toàn tương tự RL, điểm khác biệt nằm việc ứng dụng DL RL Trước đây, để tiến hành huấn luyện mơ hình RL, đại lượng biểu diễn trạng thái môi trường (đóng vai trị mơ tả mơi trường, hồn cảnh mà tác tử gặp phải) thường xây dựng dựa vào kinh nghiệm người phát triển Rõ ràng, mơi trường có tính chất phức tạp, đa dạng, việc xây dựng đại lượng trở nên vô khó khăn khả xuất thiếu sót cao Ngày nay, tận dụng khả tự học đặc trưng DL, q trình “mơ tả” trạng thái mơi trường diễn hồn tồn tự động có độ tin cậy cao Chính ưu điểm đẩy RL nói chung lên nấc thang mới, đồng thời tạo nhiều thành tựu, sản phẩm có tính đột phá, Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 33 Công nghệ thông tin như: chương trình chơi cờ vây AlphaGo [4][5], thiết bị bay hay mặt đất không người lái (UAV) tự hành [6][7] Bài tốn tự hành tìm kiếm cứu nạn đối tượng từ lâu nhu cầu cần thiết hoạt động quân đội dân [8] Đa phần cơng việc tìm kiếm phải diễn điều kiện mơi trường phức tạp, gây nguy hiểm đến tính mạng người Do đó, việc nghiên cứu xây dựng robot có khả hoạt động độc lập điều kiện môi trường trước yêu cầu cấp thiết Trong nội dung báo, nhóm tác giả đề xuất mơ hình học tăng cường sâu (DRL) cho toán tự hành tìm kiếm cứu nạn mơi trường có chướng ngại vật Môi trường thực nghiệm xây dựng tảng mô 3D Gazebo [9] Các kết thu mơ hình đề xuất cho phép thiết bị tự hành có khả đến đích mơi trường khác Bài báo cấu trúc sau: Mục trình bày sở lý thuyết, mục đề xuất mơ hình thuật tốn học tăng cường sâu, mục thực nghiệm kết đạt được, mục kết luận hướng phát triển CƠ SỞ LÝ THUYẾT 2.1 Học tăng cường (Reinforcement learning - RL) Học tăng cường sử dụng để tính tốn chiến lược hành vi, hay cịn gọi sách (policy), để tối đa hố tiêu chí thoả mãn tốn – tổng phần thưởng dài hạn, cách tương tác với môi trường thơng qua thử nghiệm lỗi (Hình 1) Hình Giao thức tương tác tác tử môi trường Một toán học tăng cường bao gồm tác tử/đối tượng định, gọi agent, hoạt động mơi trường mơ hình hố trang thái ( st ∈ S) Agent có khả thực hành động at ∈A(st), hàm trạng thái st Sau chọn hành động thời điểm t, agent nhận giá trị thưởng rt+1 ∈ R chuyển sang trạng thái st+1 phụ thuộc vào trạng thái hành động chọn Ở thời điểm, agent theo chiến lược, gọi sách πt, ánh xạ từ trạng thái đến xác suất chọn hành động: π(s,a) ký hiệu xác suất mà a=at s=st Mục tiêu học tăng cường sử dụng tương tác agent với môi trường để suy (ước lượng) sách tối ưu (optimal policy) để tối đa hố lượng điểm thưởng nhận agent sau thời gian dài huấn luyện 34 L P Cường, …, L P Minh, “Nghiên cứu thuật tốn học … mơ 3-D Gazebo.” Nghiên cứu khoa học cơng nghệ Hình Ví dụ học tăng cường toán robot dập lửa Một quy trình định Markov (MDP) ví dụ riêng học tăng cường tập hợp trạng thái hữu hạn, tập hợp hành động hữu hạn, mơi trường thoả mãn tính Markov sau: Cơng thức Tính xác suất chuyển từ trạng thái tới trạng thái Nói cách khác, xác suất đạt trạng thái từ trạng thái cách thực hành động độc lập với hành động khác trạng thái khác khứ (trước thời điểm ) Như vậy, ta biểu diễn chuỗi hành động, trạng thái, giá trị thưởng từ MDP mạng định (decision network) (xem Hình 3) Hình Mạng định biểu diễn chu kỳ học (episode) MDP Để tối đa hố điểm thưởng tích luỹ dài hạn sau thời điểm t, trường hợp thời gian hữu hạn (finite time horizon) kết thúc thời điểm T, kết Rt bằng: Cơng thức Cơng thức tính giá trị thưởng trả theo thời gian hữu hạn Trong trường hợp thời gian vô hạn, thông thường người ta hay sử dụng kết khấu hao: Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 35 Công nghệ thông tin Công thức Công thức tính giá trị thưởng trả theo thời gian vô hạn Kết hội tụ ta giả định điểm thưởng có giới hạn γ < Ở γ số khoảng từ [0,1], gọi hệ số khấu hao (discount factor) Nói chung ta sử dụng định nghĩa khấu hao cho kết trả Để tìm sách tối ưu (optimal policy), số thuật toán dựa hàm giá trị (value functions), V(s), để biểu diễn agent hưởng lợi đạt trạng thái s cho trước Hàm cung cấp cho trạng thái giá trị ước lượng điểm thưởng tiềm đạt tương lai tính từ trạng thái đó, phụ thuộc vào sách π sử dụng thực tế agent: Công thức Tính giá trị trạng thái s Trong Eπ [.] giá trị kỳ vọng agent theo sách π, t thời điểm Tương tự, ta định nghĩa giá trị việc thực hành động a trạng thái s sách π hàm hành động-giá trị Q: Cơng thức Tính giá trị hành động trạng thái s Chính sách tối ưu π* sách đạt giá trị thưởng kỳ vọng dài hạn lớn Chính sách π định nghĩa tốt sách π' giá trị kỳ vọng lớn giá trị kỳ vọng π' cho tất trạng thái Do vậy: Cơng thức Chính sách tối ưu π* trạng thái s 2.2 Thuật toán Học tăng cường sâu (Deep Q- learning - DQL) Thuật toán DQN nguyên gốc trình bày báo [3], chúng tơi phân tích điểm thuật tốn phần Trước đây, người ta biết RL không ổn định chí có tượng phân kỳ hàm giá trị hành động ước lượng với hàm phi tuyến mạng nơron Thuật toán DQN [3] đời có giải số vấn đề quan trọng:  Ổn định việc huấn luyện phép ước lượng hàm giá trị hành động với mạng nơron sâu (CNN) sử dụng thuật tái trải nghiệm (experience replay) [10] mạng mục tiêu; 36 L P Cường, …, L P Minh, “Nghiên cứu thuật toán học … mô 3-D Gazebo.” Nghiên cứu khoa học công nghệ   Thiết kế phương pháp RL đầu cuối end-to-end, với pixel điểm số game đầu vào, cần có kiến thức tối thiểu lĩnh vực áp dụng; Huấn luyện mạng linh hoạt với thuật toán, kiến trúc mạng tham số để thực tốt nhiều tác vụ khác nhau, ví dụ: 49 trị chơi Atari [11], vượt qua thuật tốn trước chí mức tương đương với trình độ chun nghiệp người MƠ HÌNH HỌC TĂNG CƯỜNG SÂU CHO BÀI TỐN TK-CN Trong mơ hình học tăng cường sâu đề xuất phát triển dựa thuật tốn DQN [3] Kiến trúc mạng mơ hình đề xuất (Hình 4), có khối chính: khối xử lý ảnh từ camera gắn robot (chúng tơi gọi khối CNNs); khối xử lý tín hiệu từ sensors robot (khối Sensors); khối cuối mạng sâu lớp kết nối đầy đủ (khối FNNs) Hình Mơ hình học tăng cường sâu Trong q trình tương tác với mơi trường (environment), qua bước robot thu hình ảnh từ camera tín hiệu sensor, sau liệu lưu vào đệm sử dụng lại (replay buffer) Đầu vào liệu cho mơ hình mạng lấy từ đệm Với mơ hình học tăng cường sâu thiết kế trên, cho phép xử lý đầy đủ đầu vào liệu từ robot liệu ảnh, tín hiệu LIDAR,…; liệu phân chia khối riêng để xử lý, điều giúp cho việc học hiệu trước đẩy vào khối mạng sâu hành động robot Thơng tin từ tín hiệu sensor giúp đưa dẫn thêm cho robot bên cạnh ảnh từ camera Ví dụ như: robot nhìn thấy vật cản thơng qua ảnh, robot xác định khoảng cách bao xa tới vật cản, từ robot đưa định tốt để tránh vật cản Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 37 Công nghệ thơng tin Thuật tốn Thuật tốn thiết kế hàm giá trị F(r) Trong báo này, nghiên cứu đề xuất hàm giá trị F(r) (reward function) cho mơ hình học tăng cường sâu Chi tiết hàm giá trị F(r) miêu tả Thuật tốn Dữ liệu đầu vào cho mơ hình học tăng cường sâu bao gồm liệu ảnh sensors Dữ liệu ảnh xử lý qua khối mạng học sâu CNN, đầu vào mạng bao gồm ảnh 84x84x4 tạo từ ánh xạ tiền xử lý ϕ Lớp ẩn lớp tích chập (convolutional) gồm 32 lọc 8x8 với bước trượt stride = ảnh đầu vào áp dụng chỉnh lưu phi tuyến (rectifier nonlinearity) Lớp ẩn thứ hai lớp tích chập 64 lọc 4x4 với stride 2, chỉnh lưu phi tuyến Tiếp theo lớp liên kết thứ ba kết hợp 64 lọc 3x3 với stride chỉnh lưu Trong liệu sensors qua khối Sensors cho giá trị số liên tục: khoảng cách từ robot tới mục tiêu, góc robot mục tiêu, vận tốc x z robot, cuối khoảng cách góc robot vật cản gần THỰC NGHIỆM VÀ KẾT QUẢ 4.1 Thiết kế môi trường thực nghiệm Trong báo, môi trường học thiết kế tảng mô 3-D Gazebo [9] Môi trường bao gồm số vật cản đặt cố định vị trí khác nhau; mục tiêu đích khởi tạo cố định vị trí (ta gọi vị trí đích, vị trí khác với vị trí vật cản); vị trí bắt đầu agent khởi tạo cố định môi trường khác với vị trị vật cản vị trí đích Chúng tơi muốn tăng độ khó nhiệm vụ tìm kiếm, đó, vị trí vật cản đặt vị trí đích vị trí bắt đầu, agent cần phải vượt qua tất vật cản trước vươn tới mục tiêu hay đích Mơi trường sử dụng để huấn luyện agent bao gồm vật cản (là khối hình nhật màu đen), mục tiêu hình trụ màu đỏ, bao xung quanh tường có màu xám Mơi trường thử nghiệm phần mềm 3D Gazebo bao gồm phịng kín, có tường bao, phịng có 03 vật cản có kích thước tương đương với robot Mục tiêu tìm kiếm khối hình trụ, có màu đỏ 38 L P Cường, …, L P Minh, “Nghiên cứu thuật toán học … mô 3-D Gazebo.” Nghiên cứu khoa học công nghệ Vị trí vật cản, mục tiêu thay đổi nhiều vị trí khác trường hợp learning testing Hình mơ tả xác mơi trường huấn luyện báo Hình Mơi trường huấn luyện Chúng tơi sử dụng thư viện nguồn Tensorflow [12] Keras [13] để thiết kế mạng học sâu cho mơ hình thuật toán đề xuất Giao thức tương tác agent môi trường thông qua hệ điều hành dành cho robotic (Robotic operating system - ROS) [14] Tham số huấn luyện cho mơ hình học tăng cường sâu miêu tả Bảng Bảng Tham số mơ hình học tăng cường sâu Tham số Gamma Tốc độ học (Learning rate) Epsilon khởi tạo ban đầu Epsilon nhỏ (Epsilon min) Tốc độ giảm epsilon Minibatch Replay memory D Giá trị 0.9 0.0025 0.1 0.95 32 10000 Sau huấn luyện mơ hình thuật tốn thực kiểm thử môi trường khác với môi trường huấn luyện Trong báo, xây dựng 02 môi trường kiểm thử khác (được thể Hình 6, với vị trí vật cản thay đổi) Robot kiểm thử 02 môi trường trên, kết cho thấy robot vượt qua vật cản vươn tới mục tiêu đích So việc dùng liệu ảnh tín hiệu sensor mà robot khơng thể vượt vươn tới mục tiêu, Hình đường robot môi trường kiểm thử huấn luyện mơ hình đề xuất dễ dàng vươn tới mục tiêu đích, đường gần đường ngắn Hình Đường robot mơi trường kiểm thử thứ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 39 ... L P Minh, ? ?Nghiên cứu thuật toán học … mô 3- D Gazebo. ” Nghiên cứu khoa học công nghệ Hình Ví d? ?? học tăng cường tốn robot d? ??p lửa Một quy trình định Markov (MDP) ví d? ?? riêng học tăng cường tập... đương với trình độ chun nghiệp người MƠ HÌNH HỌC TĂNG CƯỜNG SÂU CHO BÀI TỐN TK-CN Trong mơ hình học tăng cường sâu đề xuất phát triển d? ??a thuật toán DQN [3] Kiến trúc mạng mơ hình đề xuất (Hình 4),... người Do đó, việc nghiên cứu xây d? ??ng robot có khả hoạt động độc lập điều kiện môi trường trước yêu cầu cấp thiết Trong nội dung báo, nhóm tác giả đề xuất mơ hình học tăng cường sâu (DRL) cho tốn

Ngày đăng: 21/11/2022, 15:03

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan