Nghiên cứu và phát triển giải thuật định vị và tạo bản đồ cho robot tự hành thông minh ứng dụng trí tuệ nhân tạo

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Nghiên cứu phát triển giải thuật định vị tạo đồ cho robot tự hành thông minh ứng dụng trí tuệ nhân tạo NGƠ THANH TÙNG tung.nt202734m@sis.hust.edu.vn Ngành Kỹ thuật Cơ điện tử Giảng viên hướng dẫn: TS Nguyễn Xuân Hạ Chữ ký GVHD Viện: Cơ khí HÀ NỘI, 08/2022 Lời cảm ơn Lời xin gửi lời biết ơn sâu sắc tới thầy TS Nguyễn Xuân Hạ hướng dẫn hỗ trợ cho tơi nhiều q trình thực luận văn Xin cảm ơn Chương trình học bổng đào tạo thạc sĩ, tiến sĩ nước Quỹ Đổi Sáng tạo Vingroup (VINIF) cấp học bổng cho thực đề tài Tôi xin cảm ơn Đại học Bách Khoa Hà Nội tạo cho môi trường học thuật để học tập nghiên cứu Tôi muốn gửi lời cảm ơn tới gia đình ln quan tâm, ủng hộ tơi suốt đường học tập Cuối xin cảm ơn đồng nghiệp giúp đỡ suốt thời gian qua, đặc biệt em Nguyễn Duy Anh Tóm tắt nội dung luận văn Tạo đồ định vị đồng thời - SLAM - hướng nghiên cứu quan trọng lĩnh vực robot, xe tự hành Trong đó, tốn trích xuất vật mốc mơi trường biến động đường dài cịn nhiều thách thức Các mạng học sâu thị giác máy tính, với khả trích xuất thơng tin ngữ nghĩa, kỳ vọng giúp việc chọn thông tin cần thiết bù sai số khép vòng tốt cách tiếp cận SLAM sử dụng cảm biến truyền thống Luận văn giới thiệu hệ thống xác định vật mốc sử dụng mơ hình học sâu nhận dạng đối tượng tính khoảng cách từ ảnh stereo Hai phương pháp nhận dạng biển báo giới thiệu để giải toán liệu Zalo AI Challenge 2020 gồm nhiều biển báo nhỏ Một phương pháp sử dụng mơ hình YOLOv5s phương pháp lại kết hợp RetinaFace MobileNetV1-SSD Cả hai cách tiếp cận sử dụng kỹ thuật Tiling để tránh thơng tin đối tượng Bài tốn nhận dạng biển báo đạt tới độ xác mAP50 64.2% Ngồi ra, mạng học sâu tính khoảng cách tiên tiến finetune liệu ApolloScape chọn mạng AANet+ phù hợp Một hệ thống trích xuất vật mốc kết hợp hai toán đề xuất Thực nghiệm chứng minh hệ thống đề xuất vừa giúp tăng độ xác, vừa giảm tài nguyên tính toán cần thiết Tất phương pháp thử nghiệm hai máy tính nhúng phổ biến Jetson Nano Developer Kit Jetson Xavier Developer Kit Các kết luận văn cho thấy tiềm lớn việc ứng dụng mạng học sâu vào tốn trích xuất vật mốc hệ thống SLAM HỌC VIÊN Mục lục TỔNG QUAN 1.1 Tổng quan toán điều hướng robot tự hành 1.1.1 Điều hướng robot tự hành 1.1.2 Định vị tạo đồ đồng thời - SLAM 1.1.3 Quy trình hoạt động chung toán SLAM 11 Dự đoán khoảng cách 13 1.2.1 Các phương pháp chủ động 13 1.2.2 Các phương pháp bị động 15 Nội dung nghiên cứu 17 1.3.1 Hướng tiếp cận đề tài 17 1.3.2 Nhiệm vụ đề tài 19 1.2 1.3 CƠ SỞ LÝ THUYẾT 21 2.1 Các thuật toán SLAM 21 2.1.1 Phân loại SLAM theo dạng đồ 21 2.1.2 SLAM trực tuyến SLAM đầy đủ 23 Học sâu - Deep Learning 28 2.2.1 Các khái niệm Trí tuệ nhân tạo 28 2.2.2 Học sâu 29 Các liệu tiêu biểu 30 2.3.1 KITTI 30 2.3.2 Cityscapes 32 2.3.3 Apolloscape 34 Nhận dạng đối tượng 36 2.4.1 36 2.2 2.3 2.4 Bài toán nhận dạng đối tượng 2.5 2.4.2 Các độ đo đánh giá 37 2.4.3 Các mạng học sâu tốn nhận dạng đối tượng 39 Tính khoảng cách qua ảnh stereo mạng học sâu 41 2.5.1 Phương pháp tính khoảng cách 41 2.5.2 Các độ đo đánh giá 43 2.5.3 Các mạng học sâu tốn tính khoảng cách qua ảnh stereo PHƯƠNG PHÁP THỰC HIỆN 49 3.1 Nhận dạng biển báo mạng học sâu 49 3.1.1 Chuẩn bị liệu 49 3.1.2 Nhận dạng biển báo YOLOv5 50 3.1.3 Kết hợp RetinaFace MobileNetV1-SSD để nhận dạng 3.2 biển báo 52 Tính khoảng cách qua stereo mạng học sâu 54 3.2.1 Chuẩn bị liệu 54 3.2.2 Huấn luyện mạng học sâu tính khoảng cách qua ảnh stereo liệu Apolloscape 57 Dự đoán khoảng cách từ ảnh chênh lệch 58 Hệ thống kết hợp hai mô đun nhận dạng định vị biển báo 58 3.3.1 Tổng quan quy trình 59 3.3.2 Các lọc 59 3.3.3 Cắt ảnh vùng quan tâm dự đoán chênh lệch 61 3.3.4 Vùng trung tâm 61 Triển khai máy tính nhúng 61 3.4.1 Nhận dạng biển báo 62 3.4.2 Kết hợp hai mô đung nhận dạng định vị biển báo 63 3.2.3 3.3 3.4 44 KẾT QUẢ THỰC NGHIỆM 65 4.1 Nhận dạng đối tượng 65 4.2 Dự đoán khoảng cách qua ảnh stereo mạng học sâu 66 4.2.1 Dự đoán chênh lệch 66 4.2.2 Tính khoảng cách 68 4.3 4.4 Hệ thống kết hợp hai mô đun nhận dạng định vị biển báo 69 4.3.1 Các vùng trung tâm với kích thước khác 69 4.3.2 Phân phối sai số 70 4.3.3 Sai số theo khoảng cách dự đoán 71 4.3.4 Đánh giá tài ngun tính tốn theo kích thước ảnh đầu vào 77 Triển khai máy tính nhúng 77 4.4.1 Nhận dạng biển báo 77 4.4.2 Hệ thống kết hợp hai mô đun nhận dạng định vị biển báo 79 KẾT LUẬN 81 Tài liệu tham khảo 83 Danh sách hình vẽ 1.1 Các toán điều hướng robot tự hành 1.2 Sai số tích lũy robot hoạt động [1] 11 1.3 Quy trình chung hệ thống SLAM [2] 12 1.4 Nguyên lý hoạt động phương pháp phép chiếu mẫu vẽ [3] 14 1.5 Nguyên lý hoạt động phương pháp Thời gian bay 14 1.6 Phương pháp dự đoán chiều sâu mắt camera - monocular 15 1.7 Thiết lập fronto-parallel thị giác stereo [3] 16 1.8 Sơ đồ đề xuất hệ thống SLAM ứng dụng mạng học sâu 18 2.1 Bản đồ lưới - Grid Map [1] 22 2.2 Bản đồ dựa vào vật mốc [4] 23 2.3 Nguyên lý hoạt động SLAM trực tuyến [1] 23 2.4 Nguyên lý hoạt động SLAM đầy đủ [1] 24 2.5 Chi tiết ma trận trạng thái kết hợp thuật toán EKF SLAM [1] 25 2.6 GraphSLAM [5] 27 2.7 Các khái niệm Trí tuệ nhân tạo 29 2.8 Bộ liệu KITTI [6] 31 2.9 Ảnh từ liệu Cityscapes [7] 32 2.10 Bộ liệu Apolloscape [8] 34 2.11 Các toán thị giác máy tính [9] 36 2.12 Kiến trúc điển hình mạng học sâu nhận dạng đối tượng đại [10] 37 2.13 Chỉ số IoU 38 2.14 Kiến trúc mạng RetinaFace [11] 40 2.15 Kiến trúc tích chập mạng MobileNet [12] 40 2.16 Phương pháp tính khoảng cách với stereo [3] 42 2.17 Kiến trúc mạng AANet [13] 45 2.18 Biểu đồ so sánh mạng LEAStereo với mạng học sâu dự đoán khoảng cách khác [14] 46 2.19 Sơ đồ nguyên lý mạng LEAStereo [14] 47 3.1 Ví dụ ảnh từ liệu Zalo AI Challenge 2020 [15] 50 3.2 Phương pháp nhận dạng biển báo đề xuất sử dụng YOLOv5s [16] 51 3.3 Quy trình hoạt động kết hợp RetinaFace MobileNetV1-SSD [16] 53 3.4 Cặp ảnh trái ảnh phải từ liệu ApolloScape [8] 54 3.5 Ảnh ground truth độ chênh lệch từ liệu ApolloScape [8] 54 3.6 Sơ đồ nguyên lý hoạt động phương pháp đề xuất 59 3.7 Vùng ảnh cần quan tâm 60 3.8 Sơ đồ triển khai mạng học sâu máy tính nhúng [16] 62 4.1 Hình minh họa kết nhận diện biển báo liệu Zalo AI Challenge 2020 66 4.2 Biểu đồ hàm mát huấn luyện mơ hình AANet+ 67 4.3 Biểu đồ kết đánh giá tập validation trình huấn luyện AANet+ 67 4.4 So sánh ảnh chênh lệch dự đoán AANet+ ground truth 68 4.5 Sai số khoảng cách dự đoán so với groundtruth 68 4.6 Biểu đồ so sánh phân phối sai số tương đối hai phương pháp 70 4.7 Biểu đồ hàm hồi quy tuyến tính sai số tuyệt đối tương ứng với khoảng cách dự đoán 4.8 Biểu đồ hàm hồi quy tuyến tính sai số tương đối ứng với khoảng cách dự đoán 4.9 72 72 Biểu đồ hàm hồi quy đa thức bậc hai sai số tuyệt đối ứng với khoảng cách dự đoán 73 4.10 Biểu đồ hàm hồi quy đa thức bậc sai số tương đối ứng với khoảng cách dự đoán 74 4.11 Biểu đồ hàm hồi quy đa thức bậc ba sai số tuyệt đối ứng với khoảng cách dự đoán 75 4.12 Biểu đồ hàm hồi quy đa thức bậc bốn sai số tuyệt đối ứng với khoảng cách dự đoán 76 Danh sách bảng 2.1 Các lớp đối tượng liệu Cityscapes 34 2.2 Bảng tổng hợp liệu cho xe tự lái 35 2.3 Kết định lượng mạng học sâu dự đoán khoảng cách với stereo [14] 3.1 Các siêu tham số huấn luyện mơ hình cho toán nhận dạng biển báo 3.2 44 51 Các siêu tham số huấn luyện mơ hình học sâu dự đoán khoảng cách stereo 57 4.1 Kết số AP50 mơ hình nhận dạng biển báo (%) 65 4.2 Kết finetune mơ hình dự đốn khoảng cách với stereo camerea ApolloScape 66 4.3 Kết đánh giá kích thước vùng trung tâm khác 69 4.4 Kết đánh giá tài ngun tính tốn tiêu thụ thay đổi kích thước ảnh đầu vào 4.5 Kết triển khai phương pháp nhận dạng biển báo Jetson Nano Developer Kit 4.6 78 Kết triển khai mơ hình nhận dạng biển báo Jetson Xavier Developer Kit 4.7 77 78 Kết đánh giá hai phương pháp máy tính nhúng phổ biến 79 Chương TỔNG QUAN 1.1 Tổng quan toán điều hướng robot tự hành Trí tuệ nhân tạo Robotics hai số công nghệ then chốt cách mạng công nghiệp lần thứ tư Một hướng ứng dụng địi hỏi kết hợp hai cơng nghệ toán tự hành như: robot tự hành, xe tự lái, robot thám hiểm, robot vận chuyển hàng hóa, robot dịch vụ, v.v Những ứng dụng yêu cầu robot phải có khả hoạt động độc lập, không cần điều khiển người thích nghi, phản ứng với biến đổi mơi trường xung quanh Từ đó, cơng nghệ định vị tạo đồ đồng thời (Simultaneous Localization and Mapping – SLAM) đời, phối hợp thuật toán điều khiển ứng dụng trí tuệ nhân tạo kiến thức tích hợp hệ thống Robotics Đây cơng nghệ cốt lõi toán điều hướng robot tự hành Các phương pháp SLAM truyền thống sử dụng cảm biến siêu âm LIDAR giải tốt tốn điều hướng nhà, với mơi trường khơng biến đổi nhiều Tuy nhiên, với môi trường ngồi trời, biến đổi khơng ngừng (ví dụ ứng dụng xe tự lái) phương pháp lại gặp nhiều thách thức Trong năm gần đây, mạng học sâu xử lý ảnh cho độ xác cao, điều mở hướng giải cho toán SLAM đường dài, môi trường đa dạng thay đổi Trong đề tài này, tác giả ứng dụng mạng học sâu xử lý ảnh để cải tiến phần xử lý liệu đầu vào (hay gọi phần Tiền xử lý, giải thích sau) toán SLAM 1.1 Tổng quan toán điều hướng robot tự hành 1.1.1 Điều hướng robot tự hành Một robot tự hành muốn hoạt động tốt mơi trường chưa biết trước cần có khả tự động điều hướng thông minh Hoạt động điều hướng robot tự hành cần phải giải đồng thời bốn tốn thể Hình 1.1 bao gồm: tạo đồ, định vị, tìm đường tránh vật cản Hình 1.1: Các tốn điều hướng robot tự hành Tạo đồ Một đồ môi trường xung quanh điều kiện bắt buộc để robot thực điều hướng mơi trường Bản đồ giúp mơ tả lại thơng tin mơi trường dạng robot hiểu Nhờ đồ robot thực chức khác định hành động phù hợp Những thông tin môi trường robot thu thập qua cảm biến gắn robot thơng tin hình ảnh qua camera, thơng tin khoảng cách tới vật thể môi trường qua loại cảm biến khoảng cách LIDAR, hồng ngoại, siêu âm, v.v Định vị Robot cần biết trạng thái thực di chuyển xác Dựa vào thơng tin trạng thái vị trí, hướng, tốc độ, robot tính tốn gửi lệnh điều khiển xuống cấu chấp hành để thực công việc giao Định vị robot cần lấy liệu từ hai nhóm cảm biến 4.3 Hệ thống kết hợp hai mô đun nhận dạng định vị biển báo pháp đề xuất Độ xác phép hồi quy tính dựa bậc hai trung bình bình phương sai số - Root Mean Square Error (RMSE) Hồi quy hàm tuyến tính Hình 4.7: Biểu đồ hàm hồi quy tuyến tính sai số tuyệt đối tương ứng với khoảng cách dự đoán Hình 4.8: Biểu đồ hàm hồi quy tuyến tính sai số tương đối ứng với khoảng cách dự đoán 72 4.3 Hệ thống kết hợp hai mô đun nhận dạng định vị biển báo Hình 4.7 biểu diễn hàm hồi quy tuyến tính liệu sai số tuyệt đối đa thức bậc Ta thấy hai phương pháp có sai số tăng dần khoảng cách dự đốn tăng Phương pháp thơng thường có sai số lớn so với phương pháp đề xuất Ta thấy tượng tương tự với sai số tương đối biểu diễn Hình 4.8 Hàm hồi quy tuyến tính sai số RMSE với sai số tuyệt đối ước tính sau: • Phương pháp cũ: y = −2.0015577498851904 + 0.1413011x (4.4) RM SE = 3.885907 • Phương pháp đề xuất: y = −0.9373126339194857 + 0.06329192x (4.5) RM SE = 2.206258 Hồi quy đa thức bậc hai Hình 4.9: Biểu đồ hàm hồi quy đa thức bậc hai sai số tuyệt đối ứng với khoảng cách dự đốn Hình 4.9 biểu diễn hàm hồi quy đa thức bậc hai tính từ liệu tập kiểm tra ApolloScape Sai số tuyệt đối phương pháp đề xuất tăng chậm theo khoảng cách sai số tuyệt đối cách tiếp cận thông thường tăng 73 4.3 Hệ thống kết hợp hai mô đun nhận dạng định vị biển báo nhanh Các hàm hồi quy sai số phép hồi quy tính sau: Hình 4.10: Biểu đồ hàm hồi quy đa thức bậc sai số tương đối ứng với khoảng cách dự đốn • Phương pháp cũ: y = −2.02580427 + 0.14257779x − 1.295741 × 10−5 x2 (4.6) RM SE = 3.885902 • Phương pháp đề xuất: y = 0.57336046 − 0.00522926x + 0.00063422x2 (4.7) RM SE = 2.184473 Hồi quy hàm đa thức bậc cao Hình 4.11 biểu diễn hàm hồi quy đa thức bậc Hàm hồi quy với đa thức bậc thể Hình 4.12 Hai đồ thị có phân phối sai số lớn vùng khoảng cách dự đốn lớn Ngồi ra, dạng đồ thị phức tạp so với điểm liệu Nhiều khả hàm sử dụng gặp phải vấn đề overfitting Các hàm hồi quy với đa thức bậc tính sau: 74 4.3 Hệ thống kết hợp hai mô đun nhận dạng định vị biển báo Hình 4.11: Biểu đồ hàm hồi quy đa thức bậc ba sai số tuyệt đối ứng với khoảng cách dự đốn • Phương pháp cũ: y = 1.26446328 − 0.13876669x + 6.4417 × 10−3 x2 − 4.2421 × 10−5 x3 (4.8) RM SE = 3.853666 • Phương pháp đề xuất: y = 2.79822300 − 0.16933382x + 4.0625 × 10−3 x2 − 2.1182 × 10−5 x3 (4.9) RM SE = 2.171686 Các hàm hồi quy với đa thức bậc tính sau: • Phương pháp cũ: y =2.37932881 − 0.27419063x + 1.157407 × 10−2 x2 − 1.174255 × 10−4 x3 + 3.688496 × 10−7 x4 RM SE =3.852318 75 (4.10) 4.3 Hệ thống kết hợp hai mô đun nhận dạng định vị biển báo Hình 4.12: Biểu đồ hàm hồi quy đa thức bậc bốn sai số tuyệt đối ứng với khoảng cách dự đốn • Phương pháp đề xuất: y =4.60514224 − 0.35630185x + 1.034381 × 10−2 x2 − 1.048281 × 10−4 x3 + 3.825411 × 10−7 x4 (4.11) RM SE =2.169439 Từ đồ thị trên, hồi quy hàm đa thức bậc hai đảm bảo đủ độ phức tạp khơng bị overfitting Ta rút quy luật sai số tuyệt đối theo khoảng cách: y = 0.57336046 − 0.00522926x + 0.00063422x2 (4.12) Hàm liên hệ sai số tương đối khoảng cách dự đoán: y = −1.66888891 + 0.25237639x − 0.000604x2 76 (4.13) 4.4 Triển khai máy tính nhúng 4.3.4 Đánh giá tài ngun tính tốn theo kích thước ảnh đầu vào Kích thước ảnh đầu vào tham số quan trọng đánh giá tài ngun tính tốn Tác giả thực huấn luyện chạy suy luận mơ hình AANet+ với kích thước căt ảnh đầu vào thay đổi phần cứng GPU NVIDIA GeForce GTX TITAN X Hệ điều hành sử dụng Ubuntu 18.04 Kết thực nghiệm tài ngun tính tốn thay đổi kích thước căt ảnh đầu vào thể Bảng 4.4 Ta thấy kể sử dụng GPU mạnh mơ hình nhẹ AANet+, ta khơng thể huấn luyện với ảnh gần đủ kích thước đầu vào 3072 × 960 bị thiếu nhớ tính tốn Với kích thước ảnh nhỏ 1920 × 576 suy luận cần gần GB RAM Ảnh với kích thước nhỏ 576 × 288 chạy máy tính nhúng bị nhiều thơng tin tốn SLAM Phương pháp đề xuất vừa đảm bảo lấy đầy đủ thông tin vật mốc cho toán SLAM, vừa giảm đáng kể khối lượng tính tốn cần thiết Thời gian tham chiếu 0.062s thời gian tham chiếu với đối tượng nhận diện Vì sau áp dụng lọc, số lượng đối tượng trung bình xuất ảnh 1.93 nên phương pháp đề xuất đảm bảo thời gian xử lý cặp ảnh Bảng 4.4: Kết đánh giá tài ngun tính tốn tiêu thụ thay đổi kích thước ảnh đầu vào Kích thước ảnh EPE (px) 3072 × 960 1920 × 576 576 × 288 Cắt theo hộp bao (ours) x 3.221 3.086 2.748 RAM huấn luyện (MB) tải 10142 1964 MB x RAM tham chiếu (MB) 7712 3102 906 511 Thời gian tham chiếu (s/pair) 0.592 0.273 0.077 0.062* *: thời gian tham chiếu đối tượng ảnh 4.4 Triển khai máy tính nhúng 4.4.1 Nhận dạng biển báo Kết thực nghiệm triển khai hai phương pháp đề xuất máy tính nhúng Jetson Nano Developer Kit thể Bảng 4.5 Từ lượng RAM chiếm giữ ta thấy phương pháp trình bày phần 3.1.3 kết hợp RetinaFace MobileNetV1-SSD tốn tài nguyên tính tốn Thời gian tham chiếu phương pháp kết hợp ngắn 9.6 lần so với phương pháp sử dụng YOLOv5s Phương pháp sử dụng YOLOv5s kỹ thuật tiling tới 1.92s để xử lý khung ảnh nên không phù hợp để triển khai máy tính nhúng yếu Jetson 77 4.4 Triển khai máy tính nhúng Nano Ngay với máy tính nhúng nhẹ mà phương pháp thứ hai đạt tới fps, cho thấy tiềm lớn để ứng dụng thực tế Bảng 4.5: Kết triển khai phương pháp nhận dạng biển báo Jetson Nano Developer Kit Phương pháp YOLOv5s RetinaFace + MobileNetV1-SSD Batch size 1 Mode FP16 FP16 Kích thước ảnh 640 × 640 1024 × 1024 Thời gian tham chiếu (s/ảnh) 1.92 0.20 mAP50 (%) 53.6 64.2 RAM (GB) 1.4 1.1 Bảng 4.6 biểu diễn kết thực nghiệm triển khai hai hướng tiếp cận máy tính nhúng Jetson Xavier Developer Kit Với máy tính nhúng tầm trung, tốc độ xử lý khung ảnh tăng lên nhiều so với sử dụng Jetson Nano Phương pháp sử dụng YOLOv5s nhanh gấp lần phương pháp thứ hai nhanh gấp 10 lần so với kết Jetson Nano Developer Kit Cũng giống chạy Jetson Nano, cách tiếp cận sử dụng kết hợp hai mơ hình có hiệu tính toán tốt hướng tiếp cận sử dụng YOLOv5s Lượng RAM chiếm dụng phương pháp thứ hai chưa nửa phương pháp thứ Cách sử dụng RetinaFace kết hợp với MobileNetV1-SSD đạt tới tốc độ xử lý 50fps chiếm 1.2 GB RAM, hứa hẹn tiềm ứng dụng lớn Bảng 4.6: Kết triển khai mơ hình nhận dạng biển báo Jetson Xavier Developer Kit Phương pháp YOLOv5s RetinaFace + MobileNetV1-SSD Batch size 1 Mode FP16 FP16 Kích thước ảnh 640 × 640 1024 × 1024 Thời gian tham chiếu (s/ảnh) 0.24 0.02 mAP50 (%) 53.6 64.2 RAM (GB) 1.2 Nhận xét • Phương pháp sử dụng kỹ thuật Tiling [25] kết hợp RetinaFace [11] MobileNetV1-SSD [12] đạt độ xác cao tiêu tốn tài ngun tính tốn Vì phương pháp lựa chọn làm phần nhận dạng vật mốc hệ thống SLAM • Cách tiếp cận sử dụng YOLOv5s [24] kỹ thuật Tiling [25] đạt độ xác cao cần tài ngun tính tốn lớn mà máy tính nhúng yếu khó đáp ứng để chạy thời gian thực • Các phương pháp nhận dạng đối tượng đánh giá triển khai hai máy tính nhúng Jetson Nano Developer Kit Jetson Xavier Developer Kit cho thấy tiềm lớn để ứng dụng thực tế Các ứng dụng yêu cầu 78 4.4 Triển khai máy tính nhúng triển khai mơ hình với khả phản hồi thời gian thực, độ xác cao, tiêu tốn lượng, chạy phần cứng hạn chế 4.4.2 Hệ thống kết hợp hai mô đun nhận dạng định vị biển báo Bảng 4.7: Kết đánh giá hai phương pháp máy tính nhúng phổ biến Kích thước batch RAM chiếm dụng (GB) Thời gian tham chiếu (s/pair) Ảnh gốc tải x Jetson Nano Phương pháp đề xuất 2.2 1.965* Ảnh gốc 8.43 1.671 Jetson Xavier Phương pháp đề xuất 3.56 0.128* *: Thời gian tham chiếu đối tượng ảnh Các kết thử nghiệm hai phương pháp máy tính nhúng trình bày Bảng 4.7 Phương pháp sử dụng mạng độc lập khơng thể chạy máy tính nhúng yếu Jetson Nano Developer kit thiếu tài nguyên tính tốn Trong đó, phương pháp đề xuất chạy thành công với lượng RAM tiêu thụ vừa phải Thời gian tham chiếu hệ thống chưa đủ nhanh sử dụng trường hợp cần thiết kết hợp thêm thủ thuật lọc bỏ frame khác Đối với máy tính nhúng tầm trung Jetson Nano Developer kit, hai phương pháp chạy bình thường Tuy nhiên lượng RAM tiêu thụ phương pháp thông thường gần gấp đơi lượng RAM tiêu thụ trung bình phương pháp đề xuất Bên cạnh đó, thời gian tham chiếu trung bình phương pháp đề xuất khoảng lần so với cách tiếp cận thơng thường (vì trung bình ảnh có 1.93 đối tượng) 79 KẾT LUẬN Kết luận chung Qua phần trình bày trên, tác giả có số kết luận đề tài thực sau: • Đề tài nghiên cứu phát triển thành công hai phương pháp nhận dạng biển báo sử dụng mạng học sâu mơi trường khó liệu Zalo AI Challenge Hướng tiếp cận sử dụng mơ hình RetinaFace kết hợp MobileNetV1-SSD nên sử dụng tiêu tốn tài ngun tính tốn độ xác cao AP50 64.2% (top thi AP50 60.53%) Trái lại, cách tiếp cận sử dụng mơ hình YOLOv5s khơng khả thi khơng đạt tốc độ realtime triển khai máy tính nhúng; • Dựa vào thực nghiệm đánh giá mạng học sâu tính khoảng cách qua ảnh stereo liệu ApolloScape, mơ hình mạng AANet+ mơ hình phù hợp với ứng dụng xe tự hành cân tốt độ xác tài ngun tính tốn tiêu tốn; • Hệ thống kết hợp hai mơ hình đề xuất tính khoảng cách cho pixel thuộc vùng quan tâm nên giúp tăng độ xác giảm khối lượng tính tốn so với cách sử dụng mạng học sâu độc lập Hệ thống đề xuất triển khai máy tính nhúng yếu Jetson Nano cách sử dụng độc lập khơng làm được; • Các mơ hình hệ thống kể triển khai thành cơng máy tính nhúng yếu Jetson Nano Developer Kit máy tính nhúng tầm trung Jetson Xavier Developer Kit chứng tỏ tính khả thi ứng dụng hệ thống xe tự hành thực tế Các kết đề tài sở quan trọng để mở rộng nghiên cứu phát triển ứng dụng mạng học sâu thị giác máy tính cho toán SLAM xe tự hành 81 4.4 Triển khai máy tính nhúng Hướng phát triển đề tài tương lai Việc ứng dụng trí tuệ nhân tạo vào xe tự lái, robot tự hành hướng nghiên cứu nhiều dư địa Từ kết luận văn, tác giả dự kiến phát triển thêm theo hướng sau: • Tích hợp hệ thống trích xuất vật mốc phát triển vào hệ thống back-end nguồn mở để có hệ thống SLAM hồn chỉnh; • Nghiên cứu tốn bù sai số khép vịng dựa thơng tin thu thập từ hệ thống; • Thử nghiệm, chỉnh sửa mơ hình mạng học sâu để cải thiện hệ thống; • Kết hợp liệu nhiều loại cảm biến để khắc phục nhược điểm loại cảm biến khác nhau; • Thử nghiệm hệ thống nhiều liệu khác để kiếm tra tính tổng qt hệ thống; • Áp dụng cơng nghệ Học tăng cường (Reinforcement learning) để tăng khả ứng biến hệ thống môi trường phức tạp biến đổi không ngừng 82 Tài liệu tham khảo [1] W Burgard, “Lecture notes in introduction to mobile robotics,” 2018 [2] C Cadena, L Carlone, H Carrillo, Y Latif, D Scaramuzza, J Neira, I Reid, and J J Leonard, “Past, present, and future of simultaneous localization and mapping: Toward the robust-perception age,” IEEE Transactions on Robotics, vol 32, p 1309–1332, Dec 2016 [3] “Basics of computational stereo vision.” https://www.cs.auckland ac.nz/courses/compsci773s1t/lectures/773-GG/ topCS773.htm Accessed: 12/10/2021 [4] X.-H Nguyen, V.-H Nguyen, and T.-T Ngo, “A New Landmark Detection Approach for Slam Algorithm Applied in Mobile Robot,” Journal of Science and Technology - Technical Universities, vol 30.7, pp 31–36, nov 2020 [5] S Thrun, W Burgard, and D Fox, Probabilistic Robotics The MIT Press, 2005 [6] A Geiger, P Lenz, C Stiller, and R Urtasun, “Vision meets robotics: The KITTI dataset,” The International Journal of Robotics Research, no October, pp 1–6, 2013 [7] M Cordts, M Omran, S Ramos, T Rehfeld, M Enzweiler, R Benenson, U Franke, S Roth, and B Schiele, “The cityscapes dataset for semantic urban scene understanding,” in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp 3213–3223, 2016 [8] X Huang, X Cheng, Q Geng, B Cao, D Zhou, P Wang, Y Lin, and R Yang, “The apolloscape dataset for autonomous driving,” in 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 83 pp 1067–10676, 2018 [9] S Y Fei-Fei Li, Justin Johnson, “Convolutional neural networks for visual recognition,” 2019 [10] A Bochkovskiy, C.-Y Wang, and H.-Y M Liao, “Yolov4: Optimal speed and accuracy of object detection,” arXiv preprint arXiv:2004.10934, 2020 [11] J Deng, J Guo, Y Zhou, J Yu, I Kotsia, and S Zafeiriou, “RetinaFace: Single-stage Dense Face Localisation in the Wild,” arXiv, may 2019 [12] A G Howard, M Zhu, B Chen, D Kalenichenko, W Wang, T Weyand, M Andreetto, and H Adam, “MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications,” 2017 [13] H Xu and J Zhang, “AANET: Adaptive aggregation network for efficient stereo matching,” in Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp 1956–1965, 2020 [14] X Cheng, Y Zhong, M Harandi, Y Dai, X Chang, T Drummond, H Li, and Z Ge, “Hierarchical Neural Architecture Search for Deep Stereo Matching,” in 34th Conference on Neural Information Processing Systems, (Vancouver, Canada), 2020 [15] P H Hoang https://www.kaggle.com/datasets/ phhasian0710/za-traffic-2020 Accessed: 26/06/2022 [16] X.-H Nguyen, T.-T Ngo, and D.-A Nguyen, “Development of Real-Time Traffic-Object and Traffic-Sign Detection Models Applied for Autonomous Intelligent Vehicles,” JST: Smart Systems and Devices, vol 32, no 1, pp 17– 24, 2022 [17] R Kăummerle, G Grisetti, H Strasdat, K Konolige, and W Burgard, “G2o: A general framework for graph optimization,” in Proceedings - IEEE International Conference on Robotics and Automation, pp 3607–3613, 2011 [18] T M Mitchell, Machine Learning McGraw-Hill series in computer science, McGraw-Hill, 1997 [19] J Deng, W Dong, R Socher, L Li, Kai Li, and Li Fei-Fei, “Imagenet: A large-scale hierarchical image database,” in 2009 IEEE Conference on Com84 puter Vision and Pattern Recognition, pp 248–255, 2009 [20] T Y Lin, M Maire, S Belongie, J Hays, P Perona, D Ramanan, P Dollár, and C L Zitnick, “Microsoft COCO: Common objects in context,” Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), vol 8693 LNCS, no PART 5, pp 740–755, 2014 [21] J Redmon, S Divvala, R Girshick, and A Farhadi, “You only look once: Unified, real-time object detection,” 2015 [22] J Redmon and A Farhadi, “Yolo9000: Better, faster, stronger,” 2016 [23] J Redmon and A Farhadi, “YOLOv3: An Incremental Improvement,” 2018 [24] https://github.com/ultralytics/yolov5 Accessed: 28/06/2022 [25] F O Unel, B O Ozkalayci, and C Cigla, “The power of tiling for small object detection,” in IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops, vol 2019-June, pp 582–591, 2019 [26] “Retinaface in pytorch.” https://github.com/biubug6/Pytorch_ Retinaface Accessed: 28/03/2021 [27] W Liu, D Anguelov, D Erhan, C Szegedy, S Reed, C.-Y Fu, and A C Berg, “Ssd: Single shot multibox detector,” in Computer Vision – ECCV 2016 (B Leibe, J Matas, N Sebe, and M Welling, eds.), (Cham), pp 21–37, Springer International Publishing, 2016 [28] “Single shot multibox detector implementation in pytorch.” https:// github.com/qfgaohao/pytorch-ssd Accessed: 28/06/2022 [29] F Zhang, V Prisacariu, R Yang, and P H Torr, “GA-net: Guided aggregation net for end-to-end stereo matching,” in Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, vol 2019June, pp 185–194, apr 2019 [30] J R Chang and Y S Chen, “Pyramid Stereo Matching Network,” in Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp 5410–5418, 2018 85 [31] “Jetson nano developer kit.” https://developer.nvidia.com/ embedded/jetson-nano-developer-kit Accessed: 30/06/2022 [32] “Jetson xavier developer kit.” https://developer.nvidia.com/ embedded/jetson-agx-xavier-developer-kit 30/06/2022 86 Accessed: ... niệm Trí tuệ nhân tạo Trí tuệ nhân tạo (Artificial Intelligence - AI) trí tuệ thể máy móc, khác với trí tuệ tự nhiên người lồi động vật Trí tuệ nhân tạo lĩnh vực rộng lớn bao gồm nhiều lĩnh vực nghiên. .. hướng robot tự hành Trí tuệ nhân tạo Robotics hai số công nghệ then chốt cách mạng công nghiệp lần thứ tư Một hướng ứng dụng đòi hỏi kết hợp hai công nghệ toán tự hành như: robot tự hành, xe tự. .. Dữ liệu đồ địa phương thông tin trích xuất sử dụng để tạo đồ định vị tác nhân đồ Một đồ thị mô tả mối liên hệ vật mốc với thời điểm tác nhân di chuyển tạo Các thuật tốn bù sai số khép vịng tối

Định dạng
Số trang	88
Dung lượng	18,29 MB