Nghiên cứu và phát triển giải thuật định vị và tạo bản đồ cho robot tự hành thông minh ứng dụng trí tuệ nhân tạo

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề	Nghiên Cứu Và Phát Triển Giải Thuật Định Vị Và Tạo Bản Đồ Cho Robot Tự Hành Thông Minh Ứng Dụng Trí Tuệ Nhân Tạo
Tác giả	Ngô Thanh Tùng
Người hướng dẫn	TS. Nguyễn Xuân Hạ
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Kỹ thuật Cơ điện tử
Thể loại	luận văn thạc sĩ
Năm xuất bản	2022
Thành phố	Hà Nội

Định dạng
Số trang	92
Dung lượng	3,65 MB

Nội dung

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Nghiên cứu phát triển giải thuật định vị tạo đồ cho robot tự hành thông minh ứng dụng trí tuệ nhân tạo NGƠ THANH TÙNG tung.nt202734m@sis.hust.edu.vn Ngành Kỹ thuật Cơ điện tử Giảng viên hướng dẫn: TS Nguyễn Xuân Hạ Viện: Cơ khí HÀ NỘI, 08/2022 Chữ ký GVHD Lời cảm ơn Lời xin gửi lời biết ơn sâu sắc tới thầy TS Nguyễn Xuân Hạ hướng dẫn hỗ trợ cho tơi nhiều q trình thực luận văn Xin cảm ơn Chương trình học bổng đào tạo thạc sĩ, tiến sĩ nước Quỹ Đổi Sáng tạo Vingroup (VINIF) cấp học bổng cho thực đề tài Tôi xin cảm ơn Đại học Bách Khoa Hà Nội tạo cho môi trường học thuật để học tập nghiên cứu Tôi muốn gửi lời cảm ơn tới gia đình ln quan tâm, ủng hộ tơi suốt đường học tập Cuối xin cảm ơn đồng nghiệp giúp đỡ suốt thời gian qua, đặc biệt em Nguyễn Duy Anh Tóm tắt nội dung luận văn Tạo đồ định vị đồng thời - SLAM - hướng nghiên cứu quan trọng lĩnh vực robot, xe tự hành Trong đó, tốn trích xuất vật mốc mơi trường biến động đường dài cịn nhiều thách thức Các mạng học sâu thị giác máy tính, với khả trích xuất thơng tin ngữ nghĩa, kỳ vọng giúp việc chọn thông tin cần thiết bù sai số khép vòng tốt cách tiếp cận SLAM sử dụng cảm biến truyền thống Luận văn giới thiệu hệ thống xác định vật mốc sử dụng mơ hình học sâu nhận dạng đối tượng tính khoảng cách từ ảnh stereo Hai phương pháp nhận dạng biển báo giới thiệu để giải toán liệu Zalo AI Challenge 2020 gồm nhiều biển báo nhỏ Một phương pháp sử dụng mơ hình YOLOv5s phương pháp lại kết hợp RetinaFace MobileNetV1-SSD Cả hai cách tiếp cận sử dụng kỹ thuật Tiling để tránh thơng tin đối tượng Bài tốn nhận dạng biển báo đạt tới độ xác 64.2% Ngồi ra, mạng học sâu tính khoảng mAP50 cách tiên tiến finetune liệu ApolloScape chọn mạng AANet+ phù hợp Một hệ thống trích xuất vật mốc kết hợp hai toán đề xuất Thực nghiệm chứng minh hệ thống đề xuất vừa giúp tăng độ xác, vừa giảm tài nguyên tính toán cần thiết Tất phương pháp thử nghiệm hai máy tính nhúng phổ biến Jetson Nano Developer Kit Jetson Xavier Developer Kit Các kết luận văn cho thấy tiềm lớn việc ứng dụng mạng học sâu vào tốn trích xuất vật mốc hệ thống SLAM HỌC VIÊN Mục lục TỔNG QUAN 1.1 Tổng quan toán điều hướng robot tự hành 7 1.1.1 Điều hướng robot tự hành 1.1.2 Định vị tạo đồ đồng thời - SLAM 1.1.3 Quy trình hoạt động chung toán SLAM 11 1.2 Dự đoán khoảng cách 13 1.2.1 Các phương pháp chủ động 13 1.2.2 Các phương pháp bị động 15 1.3 Nội dung nghiên cứu 17 1.3.1 Hướng tiếp cận đề tài 17 1.3.2 Nhiệm vụ đề tài 19 CƠ SỞ LÝ THUYẾT 2.1 Các thuật toán SLAM 21 21 2.1.1 Phân loại SLAM theo dạng đồ 21 2.1.2 SLAM trực tuyến SLAM đầy đủ 23 2.2 Học sâu - Deep Learning 28 2.2.1 Các khái niệm Trí tuệ nhân tạo 28 2.2.2 Học sâu 2.3 Các liệu tiêu biểu 29 30 2.3.1 KITTI 30 2.3.2 Cityscapes 32 2.3.3 Apolloscape 34 2.4 Nhận dạng đối tượng 2.4.1 Bài toán nhận dạng đối tượng 36 36 2.4.2 2.4.3 Các độ đo đánh giá 37 Các mạng học sâu toán nhận dạng đối tượng 39 2.5 Tính khoảng cách qua ảnh stereo mạng học sâu 41 2.5.1 Phương pháp tính khoảng cách 41 2.5.2 Các độ đo đánh giá 43 2.5.3 Các mạng học sâu toán tính khoảng cách qua ảnh stereo PHƯƠNG PHÁP THỰC HIỆN 3.1 Nhận dạng biển báo mạng học sâu 44 49 49 3.1.1 Chuẩn bị liệu 49 3.1.2 Nhận dạng biển báo YOLOv5 50 3.1.3 Kết hợp RetinaFace MobileNetV1-SSD để nhận dạng biển báo 52 3.2 Tính khoảng cách qua stereo mạng học sâu 54 3.2.1 Chuẩn bị liệu 3.2.2 Huấn luyện mạng học sâu tính khoảng cách qua ảnh stereo liệu Apolloscape 3.2.3 54 57 Dự đoán khoảng cách từ ảnh chênh lệch 58 3.3 Hệ thống kết hợp hai mô đun nhận dạng định vị biển báo 58 3.3.1 Tổng quan quy trình 59 3.3.2 Các lọc 59 3.3.3 Cắt ảnh vùng quan tâm dự đoán chênh lệch 61 3.3.4 Vùng trung tâm 3.4 Triển khai máy tính nhúng 61 61 3.4.1 Nhận dạng biển báo 3.4.2 Kết hợp hai mô đung nhận dạng định vị biển báo 63 KẾT QUẢ THỰC NGHIỆM 62 65 4.1 Nhận dạng đối tượng 65 4.2 Dự đoán khoảng cách qua ảnh stereo mạng học sâu 66 4.2.1 Dự đoán chênh lệch 66 4.2.2 Tính khoảng cách 68 4.3 Hệ thống kết hợp hai mô đun nhận dạng định vị biển báo 69 4.3.1 Các vùng trung tâm với kích thước khác 69 4.3.2 Phân phối sai số 70 4.3.3 Sai số theo khoảng cách dự đoán 71 4.3.4 Đánh giá tài ngun tính tốn theo kích thước ảnh đầu vào 77 4.4 Triển khai máy tính nhúng 77 4.4.1 Nhận dạng biển báo 77 4.4.2 Hệ thống kết hợp hai mô đun nhận dạng định vị biển báo 79 KẾT LUẬN 81 Tài liệu tham khảo 83 Danh sách hình vẽ 1.1 Các tốn điều hướng robot tự hành 1.2 Sai số tích lũy robot hoạt động [1] 11 1.3 Quy trình chung hệ thống SLAM [2] 12 1.4 Nguyên lý hoạt động phương pháp phép chiếu mẫu vẽ [3] 14 1.5 Nguyên lý hoạt động phương pháp Thời gian bay 14 1.6 Phương pháp dự đoán chiều sâu mắt camera - monocular 15 1.7 Thiết lập fronto-parallel thị giác stereo [3] 16 1.8 Sơ đồ đề xuất hệ thống SLAM ứng dụng mạng học sâu 18 2.1 Bản đồ lưới - Grid Map [1] 22 2.2 Bản đồ dựa vào vật mốc [4] 23 2.3 Nguyên lý hoạt động SLAM trực tuyến [1] 23 2.4 Nguyên lý hoạt động SLAM đầy đủ [1] 24 2.5 Chi tiết ma trận trạng thái kết hợp thuật toán EKF SLAM [1] 25 2.6 GraphSLAM [5] 27 2.7 Các khái niệm Trí tuệ nhân tạo 29 2.8 Bộ liệu KITTI [6] 31 2.9 Ảnh từ liệu Cityscapes [7] 32 2.10 Bộ liệu Apolloscape [8] 34 2.11 Các toán thị giác máy tính [9] 36 2.12 Kiến trúc điển hình mạng học sâu nhận dạng đối tượng đại [10] 37 2.13 Chỉ số IoU 38 2.14 Kiến trúc mạng RetinaFace [11] 40 2.15 Kiến trúc tích chập mạng MobileNet [12] 40 2.16 Phương pháp tính khoảng cách với stereo [3] 42 2.17 Kiến trúc mạng AANet [13] 45 2.18 Biểu đồ so sánh mạng LEAStereo với mạng học sâu dự đoán khoảng cách khác [14] 46 2.19 Sơ đồ nguyên lý mạng LEAStereo [14] 47 3.1 Ví dụ ảnh từ liệu Zalo AI Challenge 2020 [15] 50 3.2 Phương pháp nhận dạng biển báo đề xuất sử dụng YOLOv5s [16] 51 3.3 Quy trình hoạt động kết hợp RetinaFace MobileNetV1-SSD [16] 53 3.4 Cặp ảnh trái ảnh phải từ liệu ApolloScape [8] 54 3.5 Ảnh ground truth độ chênh lệch từ liệu ApolloScape [8] 54 3.6 Sơ đồ nguyên lý hoạt động phương pháp đề xuất 59 3.7 Vùng ảnh cần quan tâm 60 3.8 Sơ đồ triển khai mạng học sâu máy tính nhúng [16] 62 4.1 Hình minh họa kết nhận diện biển báo liệu Zalo AI Challenge 2020 66 4.2 Biểu đồ hàm mát huấn luyện mô hình AANet+ 67 4.3 Biểu đồ kết đánh giá tập validation trình huấn luyện AANet+ 67 4.4 So sánh ảnh chênh lệch dự đoán AANet+ ground truth 68 4.5 Sai số khoảng cách dự đoán so với groundtruth 68 4.6 Biểu đồ so sánh phân phối sai số tương đối hai phương pháp 70 4.7 Biểu đồ hàm hồi quy tuyến tính sai số tuyệt đối tương ứng với khoảng cách dự đoán 72 4.8 Biểu đồ hàm hồi quy tuyến tính sai số tương đối ứng với khoảng cách dự đoán 72 4.9 Biểu đồ hàm hồi quy đa thức bậc hai sai số tuyệt đối ứng với khoảng cách dự đoán 73 4.10 Biểu đồ hàm hồi quy đa thức bậc sai số tương đối ứng với khoảng cách dự đoán 74 4.11 Biểu đồ hàm hồi quy đa thức bậc ba sai số tuyệt đối ứng với khoảng cách dự đoán 75 4.12 Biểu đồ hàm hồi quy đa thức bậc bốn sai số tuyệt đối ứng với khoảng cách dự đoán 76 Danh sách bảng 2.1 Các lớp đối tượng liệu Cityscapes 2.2 Bảng tổng hợp liệu cho xe tự lái 34 35 2.3 Kết định lượng mạng học sâu dự đoán khoảng cách với stereo [14] 44 3.1 Các siêu tham số huấn luyện mơ hình cho tốn nhận dạng biển báo 51 3.2 Các siêu tham số huấn luyện mơ hình học sâu dự đốn khoảng cách stereo 57 4.1 Kết số AP50 mơ hình nhận dạng biển báo (%) 65 4.2 Kết finetune mơ hình dự đốn khoảng cách với stereo camerea ApolloScape 66 4.3 Kết đánh giá kích thước vùng trung tâm khác 69 4.4 Kết đánh giá tài nguyên tính tốn tiêu thụ thay đổi kích thước ảnh đầu vào 77 4.5 Kết triển khai phương pháp nhận dạng biển báo Jetson Nano Developer Kit 78 4.6 Kết triển khai mơ hình nhận dạng biển báo Jetson Xavier Developer Kit 78 4.7 Kết đánh giá hai phương pháp máy tính nhúng phổ biến 79 Chương TỔNG QUAN 1.1 Tổng quan tốn điều hướng robot tự hành Trí tuệ nhân tạo Robotics hai số công nghệ then chốt cách mạng công nghiệp lần thứ tư Một hướng ứng dụng đòi hỏi kết hợp hai cơng nghệ tốn tự hành như: robot tự hành, xe tự lái, robot thám hiểm, robot vận chuyển hàng hóa, robot dịch vụ, v.v Những ứng dụng yêu cầu robot phải có khả hoạt động độc lập, khơng cần điều khiển người thích nghi, phản ứng với biến đổi môi trường xung quanh Từ đó, cơng nghệ định vị tạo đồ đồng thời (Simultaneous Localization and Mapping – SLAM) đời, phối hợp thuật tốn điều khiển ứng dụng trí tuệ nhân tạo kiến thức tích hợp hệ thống Robotics Đây công nghệ cốt lõi toán điều hướng robot tự hành Các phương pháp SLAM truyền thống sử dụng cảm biến siêu âm LIDAR giải tốt toán điều hướng nhà, với môi trường không biến đổi nhiều Tuy nhiên, với mơi trường ngồi trời, biến đổi khơng ngừng (ví dụ ứng dụng xe tự lái) phương pháp lại gặp nhiều thách thức Trong năm gần đây, mạng học sâu xử lý ảnh cho độ xác cao, điều mở hướng giải cho tốn SLAM đường dài, mơi trường đa dạng thay đổi Trong đề tài này, tác giả ứng dụng mạng học sâu xử lý ảnh để cải tiến phần xử lý liệu đầu vào (hay gọi phần Tiền xử lý, giải thích sau) tốn SLAM 1.1 Tổng quan toán điều hướng robot tự hành 1.1.1 Điều hướng robot tự hành Một robot tự hành muốn hoạt động tốt môi trường chưa biết trước cần có khả tự động điều hướng thông minh Hoạt động điều hướng robot tự hành cần phải giải đồng thời bốn toán thể Hình 1.1 bao gồm: tạo đồ, định vị, tìm đường tránh vật cản Hình 1.1: Các toán điều hướng robot tự hành Tạo đồ Một đồ môi trường xung quanh điều kiện bắt buộc để robot thực điều hướng mơi trường Bản đồ giúp mô tả lại thông tin môi trường dạng robot hiểu Nhờ đồ robot thực chức khác định hành động phù hợp Những thông tin môi trường robot thu thập qua cảm biến gắn robot thơng tin hình ảnh qua camera, thông tin khoảng cách tới vật thể môi trường qua loại cảm biến khoảng cách LIDAR, hồng ngoại, siêu âm, v.v Định vị Robot cần biết trạng thái thực di chuyển xác Dựa vào thơng tin trạng thái vị trí, hướng, tốc độ, robot tính tốn gửi lệnh điều khiển xuống cấu chấp hành để thực công việc giao Định vị robot cần lấy liệu từ hai nhóm cảm biến

Ngày đăng: 04/06/2023, 11:09

Nguồn tham khảo

Tài liệu tham khảo

Loại

Chi tiết

[2] C. Cadena, L. Carlone, H. Carrillo, Y. Latif, D. Scaramuzza, J. Neira, I. Reid, and J. J. Leonard, “Past, present, and future of simultaneous localization and mapping: Toward the robust-perception age,” IEEE Transactions on Robotics, vol. 32, p. 1309–1332, Dec 2016

Sách, tạp chí

Tiêu đề:	Past, present, and future of simultaneouslocalization and mapping: Toward the robust-perception age,” "IEEETransactions on Robotics

[3] “Basics of computational stereo vision.” https://www.cs.auckland. ac.nz/courses/compsci773s1t/lectures/773-GG/ topCS773.htm.Accessed: 12/10/2021

Sách, tạp chí

Tiêu đề:	Basics of computational stereo vision

[4] X.-H. Nguyen, V.-H. Nguyen, and T.-T. Ngo, “A New Landmark Detection Approach for Slam Algorithm Applied in Mobile Robot,” Journal of Science and Technology - Technical Universities, vol. 30.7, pp. 31–36, nov 2020

Sách, tạp chí

Tiêu đề:	A New Landmark DetectionApproach for Slam Algorithm Applied in Mobile Robot,” "Journal of Scienceand Technology - Technical Universities

[5] S. Thrun, W. Burgard, and D. Fox, Probabilistic Robotics. The MIT Press, 2005

Sách, tạp chí

Tiêu đề:	Probabilistic Robotics

[6] A. Geiger, P. Lenz, C. Stiller, and R. Urtasun, “Vision meets robotics:The KITTI dataset,” The International Journal of Robotics Research, no. October, pp. 1–6, 2013

Sách, tạp chí

Tiêu đề:	Vision meets robotics:The KITTI dataset,” "The International Journal of Robotics Research

[7] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele, “The cityscapes dataset for semantic ur-ban scene understanding,” in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 3213–3223, 2016

Sách, tạp chí

Tiêu đề:	The cityscapes dataset for semanticur-ban scene understanding,” in "2016 IEEE Conference on ComputerVision and Pattern Recognition (CVPR)

[8] X. Huang, X. Cheng, Q. Geng, B. Cao, D. Zhou, P. Wang, Y. Lin, and R. Yang,“The apolloscape dataset for autonomous driving,” in 2018 IEEE/CVF Con- ference on Computer Vision and Pattern Recognition Workshops (CVPRW)

Sách, tạp chí

Tiêu đề:	The apolloscape dataset for autonomous driving,” in "2018 IEEE/CVF Con-

[9] S. Y. Fei-Fei Li, Justin Johnson, “Convolutional neural networks for visual recognition,” 2019

Sách, tạp chí

Tiêu đề:	Convolutional neural networks for visual recognition

[10] A. Bochkovskiy, C.-Y. Wang, and H.-Y. M. Liao, “Yolov4: Optimal speed and accuracy of object detection,” arXiv preprint arXiv:2004.10934, 2020

Sách, tạp chí

Tiêu đề:	Yolov4: Optimal speed and accuracy of object detection,” "arXiv preprint arXiv:2004.10934

[11] J. Deng, J. Guo, Y. Zhou, J. Yu, I. Kotsia, and S. Zafeiriou, “RetinaFace:Single-stage Dense Face Localisation in the Wild,” arXiv, may 2019

Sách, tạp chí

Tiêu đề:	RetinaFace:Single-stage Dense Face Localisation in the Wild,” "arXiv

[12] A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T.Weyand, M. Andreetto, and H. Adam, “MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications,” 2017

Sách, tạp chí

Tiêu đề:	MobileNets: EfficientConvolutional Neural Networks for Mobile Vision Applications

[13] H. Xu and J. Zhang, “AANET: Adaptive aggregation network for efficient stereo matching,” in Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp. 1956–1965, 2020

Sách, tạp chí

Tiêu đề:	AANET: Adaptive aggregation network for efficientstereo matching,” in "Proceedings of the IEEE Computer Society Conferenceon Computer Vision and Pattern Recognition

[14] X. Cheng, Y. Zhong, M. Harandi, Y. Dai, X. Chang, T. Drummond, H.Li, and Z. Ge, “Hierarchical Neural Architecture Search for Deep Stereo Matching,” in 34th Conference on Neural Information Processing Systems, (Vancouver, Canada), 2020

Sách, tạp chí

Tiêu đề:	Hierarchical Neural Architecture Search for DeepStereo Matching,” in "34th Conference on Neural InformationProcessing Systems

[16] X.-H. Nguyen, T.-T. Ngo, and D.-A. Nguyen, “Development of Real- Time Traffic-Object and Traffic-Sign Detection Models Applied for Autonomous Intelligent Vehicles,” JST: Smart Systems and Devices, vol. 32, no. 1, pp. 17– 24, 2022

Sách, tạp chí

Tiêu đề:	Development of Real-Time Traffic-Object and Traffic-Sign Detection Models Applied forAutonomous Intelligent Vehicles,” "JST: Smart Systems and Devices

[17] R. Kummerle,¨ G. Grisetti, H. Strasdat, K. Konolige, and W. Burgard, “G2o:A general framework for graph optimization,” in Proceedings - IEEE Inter- national Conference on Robotics and Automation, pp. 3607–3613, 2011

Sách, tạp chí

Tiêu đề:	G2o:A general framework for graph optimization,” in "Proceedings - IEEE Inter-national Conference on Robotics and Automation

[18] T. M. Mitchell, Machine Learning. McGraw-Hill series in computer science, McGraw-Hill, 1997

Sách, tạp chí

Tiêu đề:	Machine Learning

[19] J. Deng, W. Dong, R. Socher, L. Li, Kai Li, and Li Fei-Fei, “Imagenet: A large- scale hierarchical image database,” in 2009 IEEE Conference on Com-84

Sách, tạp chí

Tiêu đề:	Imagenet: A large-scale hierarchical image database,” in "2009 IEEE Conference on Com-

[20] T. Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P.Dollár, and C. L. Zitnick, “Microsoft COCO: Common objects in context,” Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), vol. 8693 LNCS, no. PART 5, pp. 740–755, 2014

Sách, tạp chí

Tiêu đề:	Microsoft COCO: Common objects incontext,” "Lecture Notes in Computer Science (including subseriesLecture Notes in Artificial Intelligence and Lecture Notes inBioinformatics)

[21] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You only look once: Unified, real-time object detection,” 2015

Sách, tạp chí

Tiêu đề:	You only look once: Unified, real-time object detection

[15] P. H. Hoang. https://www.kaggle.com/datasets/ phhasian0710/za- traffic-2020. Accessed: 26/06/2022

Link