Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 63 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
63
Dung lượng
1,79 MB
Nội dung
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Nghiên cứu ứng dụng trí tuệ nhân tạo nhận dạng định vị cho thiết bị bay không người lái NGUYỄN THỊ HOÀI THƯƠNG thuong.nth202715M@sis.hust.edu.vn Ngành Kỹ thuật viễn thông Giảng viên hướng dẫn: TS Nguyễn Anh Quang Chữ ký GVHD Trường: Điện - Điện tử HÀ NỘI, 10/2022 TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Nghiên cứu ứng dụng trí tuệ nhân tạo nhận dạng định vị cho thiết bị bay khơng người lái NGUYỄN THỊ HỒI THƯƠNG thuong.nth202715M@sis.hust.edu.vn Ngành Kỹ thuật viễn thông Giảng viên hướng dẫn: TS Nguyễn Anh Quang Chữ ký GVHD Trường: Điện - Điện tử HÀ NỘI, 10/2022 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn: Nguyễn Thị Hoài Thương Đề tài luận văn: Nghiên cứu ứng dụng trí tuệ nhân tạo nhận dạng định vị cho thiết bị bay không người lái Chuyên ngành: Kỹ thuật viễn thông Mã số SV: 20202715M Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 18 tháng 10 năm 2022 với nội dung sau: - Sửa lỗi tả - Chuyển đổi số thuật ngữ tiếng Anh sang tiếng Việt Thêm kết luận cuối chương Thêm danh mục từ viết tắt Ngày 02 tháng 11 năm 2022 Giáo viên hướng dẫn Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG Lời cảm ơn Trải qua năm tháng học tập nghiên cứu trường Đại học Bách Khoa em cảm thấy học hỏi nhiều điều Lời em xin gửi lời cảm ơn đến trường Đại học Bách Khoa nói chung thầy trường Điện – Điện tử nói riêng tạo điều kiện thuận lợi để em học tập nghiên cứu để hồn thành luận văn Thạc sĩ Và đặc biệt em xin cảm ơn thầy TS Nguyễn Anh Quang tập thể phòng nghiên cứu IVSR hướng dẫn em nghiên cứu, cung cấp tài liệu, trao đổi để em hoàn thành tốt nghiên cứu Và cuối em xin chân thành cảm ơn gia đình, người thân, bạn bè bên cạnh động viên, tiếp sức cho em Em xin chân thành cảm ơn Tóm tắt nội dung luận văn Với dịng chảy cách mạng cơng nghiệp 4.0, trí tuệ nhân tạo bước tạo nên dấu ấn mặt sống tính ứng dụng thực tiễn thời đại ngành cơng nghệ vô phát triển Với việc phát triển thiết bị thơng minh hoạt động suy nghĩ người ví dụ: robot, xe tự hành, thiết bị bay khơng người lái, … Trí tuệ nhân tạo khơng giúp cho người có trải nghiệm khác biệt, mà cịn mang đến tiện ích mang tính cá nhân hóa cao Luận văn nghiên cứu dựa tảng Học sâu (Deep Learning) Thị giác máy tính (Computer Vision) – nhóm nhỏ trí tuệ nhân tạo để xây dựng mơ hình máy học nhận biết đối tượng, triển khai thiết bị bay Bên cạnh vấn đề nhận dạng, việc nghiên cứu định vị vị trí cho thiết bị bay vơ quan trọng Nghiên cứu sử dụng phương pháp định vị thị giác kết hợp với trí tuệ nhân tạo để giải vấn đề Những nghiên cứu, thực nghiệm thực thiết bị bay không người lái đạt mục tiêu đề áp dụng thực tiễn Luận văn tiền đề sở nghiên cứu phát triển ứng dụng nâng cao thiết bị bay không người lái tương lai HỌC VIÊN Ký ghi rõ họ tên MỤC LỤC CHƯƠNG GIỚI THIỆU CHUNG 1.1 Đặt vấn đề 1.2 Tổng quan thiết bị bay không người lái 1.3 Giới thiệu trí tuệ nhân tạo thi giác máy tính 1.4 1.5 1.6 1.3.1 Khái niệm trí tuệ nhân tạo 1.3.2 Ứng dụng trí tuệ nhân tạo 1.3.3 Khái niệm thị giác máy tính 1.3.4 Ứng dụng thị giác máy tính Hệ thống định vị cho thiết bị bay 10 1.4.1 Hệ thống định vị theo quán tính 11 1.4.2 Hệ thống định vị theo vệ tinh 12 1.4.3 Hệ thống định vị theo thị giác 13 Định vị thị giác cho thiết bị bay 14 1.5.1 Định vị thị giác 15 1.5.2 Định vị thị giác kết hợp cảm biến quán tính 16 Kết luận chương 16 CHƯƠNG BÀI TOÁN NHẬN DẠNG ĐÁM CHÁY 17 2.1 Định nghĩa toán nhận dạng 17 2.2 Phân loại thuật toán nhận dạng đối tượng 18 2.3 2.4 2.2.1 Nhận dạng đối tượng hai bước 18 2.2.2 Bài toán nhận dạng bước 20 Giới thiệu SSD 22 2.3.1 Kiến trúc SSD 23 2.3.2 Huấn luyện mơ hình SSD 24 2.3.3 Đánh giá mơ hình SSD 26 Áp dụng vào toán phát đám cháy 28 2.5 2.4.1 Chuẩn bị liệu 28 2.4.2 Chuẩn bị mơ hình 29 2.4.3 Kết thực nghiệm 31 Kết luận chương 34 CHƯƠNG BÀI TOÁN ĐỊNH VỊ CHO THIẾT BỊ BAY 35 3.1 3.2 3.3 3.4 3.5 3.6 Định vị thị giác với camera đơn mắt (monocular camera) 35 3.1.1 Tổng quan định vị với camera đơn mắt 35 3.1.2 ORB-SLAM3 36 Tự học giám sát cho định vị thị giác với camera đơn mắt 37 3.2.1 Sử dụng tổng hợp Novel View làm giám sát 37 3.2.2 SC-SfM Learner 38 Thực thử nghiệm mô bay 40 3.3.1 Thu thập liệu flightmare 41 3.3.2 Huấn luyện mơ hình Sc-SfmLearner 43 Triển khai ROS (Robot Operating System) 44 3.4.1 ROS 44 3.4.2 Triển khai thuật toán ORB-SLAM3 ROS 46 3.4.3 SC-SfM Learner ROS 46 Đánh giá kết 47 3.5.1 Đánh giá tiến trình 47 3.5.2 Kết 48 Kết luận chương 49 CHƯƠNG KẾT LUẬN 50 4.1 Kết luận 50 4.2 Hướng phát triển luận văn tương lai 50 TÀI LIỆU THAM KHẢO 51 DANH MỤC HÌNH VẼ Hình 1 Các trục thiết bị bay Hình Thiết bị bay không người lái ứng dụng AI giao hàng Google Hình Tổng quan thị giác máy tính Hình 1.4 Ứng dụng Thị giác máy tính [2] Hình 1.5 Ví dụ phân loại hình ảnh liệu CIFAR 10 [3] Hình 1.6 Bài tốn xác định vị trí đối tượng Hình 1.7 Ví dụ tốn nhận dạng với thuật toán RCNN liệu MS COCO [4] Hình 1.8 Tái tạo tơ màu hình ảnh nguồn NVIDIA [5] 10 Hình Các loại camera 13 Hình 10 Cấu trúc định vị thị giác 14 Hình Bài tốn nhận dạng sử dụng hộp bao quanh [13] 17 Hình 2 Bài tốn nhận dạng sử dụng phân vùng đối tượng [14] 18 Hình Bài tốn nhận dạng hai bước với R-CNN [15] 19 Hình Cấu tạo hộp bao quanh 19 Hình Cấu trúc anchor 20 Hình Bài tốn nhận dạng bước [16] 21 Hình Cách hoạt động SSD 22 Hình Kiến trúc SSD [17] 23 Hình Intersection over Union 24 Hình 10 Precision Recall toán nhận dạng vật thể 26 Hình 11 Mối quan hệ Precision Recall [19] 27 Hình 12 Sử dụng LabelImg chuẩn bị liệu 28 Hình 13 Một số hình ảnh tập liệu huấn luyện 29 Hình 14 Mơ hình SSD với backbone MobileNet-V2 30 Hình 15 Kết precision trình đào tạo liệu 31 Hình 16 Kết recall trình đào tạo liệu 32 Hình 17 Tổng giá trị loss mơ hình SSD 32 Hình 18 Hình ảnh dự đốn q trình đào tạo SSD 33 Hình 19 Kết nhận dạng từ hình ảnh thiết bị bay 34 Hình Định vị thi giác sử dụng camera đơn mắt thơng thường 36 Hình Chuyến tiếp quy trình Inverse warp 39 Hình 3 Mơ hình hệ thống ORB-SLAM3 40 Hình Mơi trường flightmare 41 Hình Groundtruth Interpolation 43 Hình Sai số Photometric sai số Geometry Consistency Mơ hình đào tạo SC-SfMLeaner với liệu flightmare 44 Hình Các thành phần ROS [31] 45 Hình Chuyển đổi chuyển động từ PoseNet sang ROS Odometry 46 Hình Biểu diễn quỹ đạo ước tính quỹ đạo thật 48 DANH MỤC BẢNG BIỂU Bảng Kết số thuật toán tập liệu Pascal VOC 2007 [17] 21 Bảng 2 So sánh giá trị VGG MobileNet [21] 30 Bảng So sánh độ xác giá trị phép tính mơ hình SSD [21] 30 Bảng Kết kiểm thử thực tế JetsonNano 34 DANH MỤC TỪ VIẾT TẮT Từ viết tắt AI Từ giải thích Nghĩa tiếng việt Artificial Intelligence Trí tuệ nhân tạo Unmanned Aerial Vehicle Thiết bị bay không người lái CV Computer Vision Thị giác máy tính GPS Global Positioning System Hệ thống định vị tồn cầu IMU Inertial Measurement Unit Thiết bị đo lường quán tính VO Visual Odometry Định vị thị giác VIO Visual-Inertial Odometry Định vị thị giác – quán tính IoU Intersection over Union Tỉ lệ bao phủ AP Average Precision Độ xác trung bình INS Inertial Navigation Systems Hệ thống định vị quán tính ROS Robot Operating System Hệ điều hành rô-bốt DoF Degrees of Freedom bậc tự RGB Red, Green, Blue Ảnh màu UAV SLAM Simultaneous localization and Công nghệ định vị xây dựng đồ đồng thời mapping Phương pháp SC-SfMLearner [29] dựa việc tổng hợp chế độ xem lạ, đồ độ sâu đầu tư tương đối học thơng qua việc tối ưu hóa mát tái tạo trắc quang hình ảnh tổng hợp mục tiêu ban đầu Tồn q trình SC-SfMLearner hiển thị Hình Hình Chuyến tiếp quy trình Inverse warp Mặc dù xây dựng lý thuyết SfM Learner, có nhiều khác biệt kiến trúc thần kinh cho mạng DeepNet mạng PoseNet Đối với mẫu đào tạo chuỗi hình ảnh con, khung chọn làm chế độ xem đích khung khác chế độ xem nguồn Mạng độ sâu lấy khung mục tiêu dãy xuất hình ảnh độ sâu đa tỷ lệ Mạng Tư lấy chế độ xem mục tiêu nối với tất chế độ xem nguồn chuỗi làm đầu vào, trả tư máy ảnh DoF tương đối khung hình đích khung hình nguồn Sau đó, độ sâu dự đốn tư máy ảnh sử dụng để đảo ngược chiều dọc để thu hình ảnh bị cong vênh 𝐼𝐼� 𝑤𝑤𝑤𝑤𝑤𝑤𝑤𝑤 Để cải thiện hiệu suất, tác giả thêm mạng mặt nạ giải thích, mạng tham gia đào tạo với mạng Độ sâu Tư thế, đó, mục tiêu tổng hợp chế độ xem sửa đổi: Trong đó: �𝑠𝑠 �𝐼𝐼𝑡𝑡 (𝑝𝑝) − 𝐼𝐼� 𝐿𝐿 = ∑𝑠𝑠 ∑𝑝𝑝 𝐸𝐸 𝑤𝑤𝑤𝑤𝑤𝑤𝑤𝑤 (𝑝𝑝)� (3.8) 𝐼𝐼𝑡𝑡 ảnh đích 𝐼𝐼�𝑠𝑠 ảnh biến đối p số tọa độ pixel �𝑠𝑠 mặt nạ giải thích 𝐸𝐸 39 Đầu mạng học sâu SC-SfMLearner độ sâu dự đoán (𝐷𝐷𝑡𝑡 , 𝐷𝐷𝑡𝑡+1 ) hai ảnh liên tiếp dãy Bên cạnh sử dụng đồ độ sâu tỉ lệ đơn thay đa tỉ lệ SfMLearner (4 scales) Để ước tính tư thế, Mạng tư khơng có mặt nạ giải thích lấy hai hình ảnh liên tiếp ghép nối xuất tư tương đối chúng 𝑇𝑇𝑡𝑡→𝑡𝑡+1 Để xử lý thay đổi độ chiếu sáng, SC-SfMLearner thêm chức suy hao SSIM [30], tổn thất trắc quang tính sau: 1−𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆(𝑝𝑝) � (3.9) L = |𝑉𝑉| ∑𝑝𝑝∈𝑉𝑉 �𝜆𝜆𝑖𝑖 �𝐼𝐼𝑡𝑡 (𝑝𝑝) − 𝐼𝐼� 𝑤𝑤𝑤𝑤𝑤𝑤𝑤𝑤 (𝑝𝑝)� + 𝜆𝜆𝑠𝑠 Trong V số lượng điểm hợp lệ hình chiếu từ 𝐼𝐼𝑡𝑡 tới mặt phẳng 𝐼𝐼𝑡𝑡+1 Để giải khơng qn hình học độ sâu dự đoán tư thế, 𝑡𝑡 tác giả đề xuất quán hình học, với độ sâu cong vênh 𝐷𝐷𝑡𝑡+1 ′ từ 𝐷𝐷𝑡𝑡+1 , xây dựng tạo từ 𝐷𝐷𝑡𝑡 sử dụng từ thư 𝑇𝑇𝑡𝑡→𝑡𝑡+1 độ sâu nội suy 𝐷𝐷𝑡𝑡+1 sau: 𝐷𝐷𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 (𝑝𝑝) = 𝑡𝑡 (𝑝𝑝)−𝐷𝐷 ′ (𝑝𝑝)� �𝐷𝐷𝑡𝑡+1 𝑡𝑡+1 𝑡𝑡 (𝑝𝑝)+𝐷𝐷 ′ (𝑝𝑝) 𝐷𝐷𝑡𝑡+1 𝑡𝑡+1 𝑡𝑡 ( ) ′ ( )| 𝑡𝑡 ( ) ′ ( ) 𝐿𝐿𝐺𝐺𝐺𝐺 = |𝑉𝑉| ∑𝑝𝑝∈𝑉𝑉|𝐷𝐷𝑡𝑡+1 𝑝𝑝 − 𝐷𝐷𝑡𝑡+1 𝑝𝑝 𝐷𝐷𝑡𝑡+1 𝑝𝑝 + 𝐷𝐷𝑡𝑡+1 𝑝𝑝 (3.10) (3.11) SC-SfMLearner tối ưu hóa lặp lặp lại hai chức mục tiêu thông qua cộng hưởng ngược tạo đầu phù hợp với quy mô 3.3 Thực thử nghiệm mơ bay Hình 3 Mơ hình hệ thống ORB-SLAM3 40 Trong phần trình bày so sánh phép đo định vị thị giác đơn mắt dựa tính thơng thường dựa học tập sâu Em chọn thuật toán đại hai phương pháp để so sánh: ORB-SLAM3 cho phương pháp dựa tính thơng thường SC-SfM Learner cho phương pháp dựa học sâu Để đánh giá so sánh phương pháp trên, trình mơ thiết bị bay ảnh thực tế tiếng có tên Flightmare sử dụng Flightmare khơng nhanh chóng việc thu thập tính tốn số lượng lớn hình ảnh mà cịn tích hợp với động thiết bị bay xác ETH Zurich phát triển Với chức hình ảnh thực tế Flightmare, mơi trường mơ tạo dựa hình ảnh thực cách sử dụng Công cụ kết xuất (Unity) Do đó, giảm thiểu khác biệt chế độ xem máy ảnh mô giới thực Do đó, thuật tốn đánh giá mơi trường an tồn rẻ tiền gần thực tế Tổng quan công việc em mơ tả Hình 3 Ước tính tư 6-Dof ước tính theo thời gian thực ORB-SLAM3 Sc-SfM Learner hình ảnh camera đơn mắt đầu vào từ trình mơ Những tư sau đánh giá dựa ground truth trình mơ cung cấp để đánh giá kết chúng Dựa kết đánh giá mô phỏng, thông số tốt thuật tốn lựa chọn để phù hợp với loại môi trường Hơn nữa, trường hợp hạn chế lỗi thuật toán tìm thấy giúp cải thiện thuật tốn tìm điều kiện điều khiển thích hợp để tránh thất bại thí nghiệm thực tế 3.3.1 Thu thập liệu flightmare Hình Môi trường flightmare 41 Đầu tiên em khắp đồ Rừng cách sử dụng thiết bị bay mô phỏng, thu thập tổng cộng quỹ đạo với hình dạng độ dài khác Các cảnh RGB từ mơi trường chứa nguồn tính đa dạng phong phú, làm cho trở thành nguồn tài liệu đào tạo lý tưởng Đối với môi trường Công nghiệp, em muốn tạo xác thực phù hợp đánh giá độ mạnh mẽ ORBSLAM đơn mắt khả tổng quát hóa mơ hình học sâu bối cảnh hồn tồn khác Máy bay khơng người lái điều khiển thủ cơng cần điều khiển USB, em muốn quỹ đạo ghi lại kết hợp chuyển động khơng thể đốn trước, buộc lưới thần kinh phải học loạt chuyển động Em sử dụng điều khiển tốc độ thể sơ đồ trộn lực đẩy phát triển để bay thiết bị bay dọc theo quỹ đạo hình chữ nhật quỹ đạo hình lục giác Flightmare cung cấp cho khơng nguồn liệu hình ảnh thực tế phong phú để đào tạo mạng nơ-ron học sâu mà sưu tập luồng xác liên tục tư ground truth sử dụng để xác thực hiệu suất thuật toán định vị thị giác Em thu thập tổng cộng quỹ đạo môi trường mơ Flightmare: Forest Industry Một số hình ảnh mẫu từ mơi trường nói nhìn thấy Hình Có thể thấy rõ khác biệt môi trường từ số lượng tính trích xuất mơi trường Đối với quỹ đạo, em sử dụng Flightmare ROS Wrapper để trích xuất chủ đề ROS tư RGB, Hình ảnh Độ sâu thật, lưu chúng thành định dạng ROSBAG Ma trận máy ảnh nội K tính trực tiếp từ góc FoV độ phân giải hình ảnh đào tạo, sử dụng công thức sau: 𝑓𝑓𝑥𝑥 = 𝑓𝑓𝑦𝑦 = ℎ tan cx = 𝑐𝑐𝑦𝑦 = 𝐹𝐹𝐹𝐹𝐹𝐹 (3.12) w ℎ Trong fx, fy tiêu cự cx, cy tọa độ pixel tâm camera chiếu lên mặt phẳng ảnh 42 3.3.2 Huấn luyện mơ hình Sc-SfmLearner 3.3.2.1 Chuẩn bị liệu Hình Groundtruth Interpolation Với mô phỏng, em chuyển đổi luồng hình ảnh màu thành 15926 hình ảnh riêng lẻ đưa vào DataLoader sở mã SC-SfmLearner Pytorch Vì mơ hình ResNet18 SC-SfmLearner nhận đầu vào chia hết cho 32, em phải sửa đổi chiều rộng ban đầu hình ảnh đào tạo, cách cắt hàng pixel từ hình ảnh Tỷ lệ xuất poses thật cao nhiều so với tốc độ khung hình chủ đề RGB, có nghĩa khoảng thời gian cụ thể, số lượng tư ghi lại nhiều so với hình ảnh RGB Để xác thực kết đầu SC-SfMLearner giá trị thật, cần xác định vị trí thật xác thời điểm ảnh chụp Do đó, em thực đồng hóa thời gian chủ đề hình ảnh chủ đề thật bản, định thông điệp hình ảnh với tư dấu thời gian với phép nội suy hai tư hàng xóm hai dấu thời gian gần hiển thị Hình 3.3.2.2 Đào tạo mơ hình Tồn q trình đào tạo thực sở mã gốc Sc-SfmLearner viết PyTorch Mỗi mẫu tải vào mạng tạo dáng chuỗi hình ảnh liên tiếp xếp chồng lên nhau, với hình ảnh trung tâm đóng vai trị khung đích hình cịn lại làm khung nguồn Trình tối ưu hóa Adam sử dụng với tỷ lệ học tập 0.0001 để đào tạo mạng độ sâu mạng đặt tổng số 100 vòng Do dung lượng kiến trúc lớn Sc-SfMLearner, em giảm kích thước lô xuống để tránh lỗi hết nhớ CUDA Cả hai mơ hình đào tạo đánh giá GPU Nvidia GTX 1080Ti (11GB DDR5X Vram, 3584 CUDA cores) sử dụng Ubuntu 20.04 43 Hình Sai số Photometric sai số Geometry Consistency Mô hình đào tạo SC-SfMLeaner với liệu flightmare 3.4 Triển khai ROS (Robot Operating System) 3.4.1 ROS Việc tạo phần mềm cho robot đáp ứng độ ổn định, xác qn khó Với nhận thức robot, vấn đề tưởng chừng đơn giản với người lại trở thành toán đa đối tượng, đa tác vụ để xử lý nhân tố môi trường Với tốn này, có cá nhân, phịng nghiên cứu hay tổ chức phải tốn nhiều thời gian cơng sức để tự giải vấn đề Từ đó, ROS xây dựng để trở thành framework linh hoạt, quán cho ứng dụng cho robot Robot Operating System (ROS) hệ thống phần mềm có tính linh hoạt chuyên dụng cao dùng để lập trình điều khiển robot ROS bao gồm thư viện, công cụ hỗ trợ lập trình, cơng cụ đồ họa, cơng cụ hỗ trợ truyền thông với phần cứng thư viện xử lý cảm biến thuật toán phổ biến lập trình điều khiển robot Framework xây dựng ý tưởng khuyến khích việc hợp tác để xây dựng hệ thống Ví dụ, với phịng nghiên cứu, ta cần có phận đảm nhiệm xây dựng đồ, đội khác sử dụng đồ để định vị robot, đội khác làm tác vụ phát vật thể nhóm vật… ROS xây dựng phù hợp cho nhóm hợp tác, phát triển kết ROS cấu thành thành phần Hình 44 Hình Các thành phần ROS [31] Nodes: đơn vị nhằm hỗ trợ giao tiếp với thành phần cấu thành nên robot Các nodes giao tiếp tương tác với qua Master Master: đóng vai trị kết nối node với Do đó, master ln khởi động đầu tiên, sau ta gọi node hệ thống Sau gọi xong, node kết nối tương tác với Parameter Server: Là cấu trúc nhiều tham số truy cập lúc chạy ROS Các node sử dụng cấu trúc nhằm lưu trữ truy xuất thông số thời gian chạy, thường kiểu liệu tĩnh, chẳng hạn thông số cấu hình, thời gian hệ thống Message: Đây cấu trúc liệu node sử dụng để trao đổi với Các node tương tác với cách gửi nhận ROS message Topics: là phương pháp giao tiếp trao đổi liệu hai node, bao gồm nhiều cấp bậc thơng tin mà chúng giao tiếp thông qua ROS message Hai phương thức topic bao gồm publish subscribe Services: Là phương thức trao đổi liệu/thông tin hai node thông qua phương thức request response Thường áp dụng trường hợp việc thực lệnh cần nhiều thời gian xử lý nên liệu tính tốn lưu server dùng cần xử lý Bags: là định dạng tệp ROS dùng để lưu trữ liệu message có vai trị quan trọng xử lý, phân tích cơng cụ mơ ROS Rviz 45 Ngồi ra, ROS cịn tích hợp thêm số thư viện khác Gazebo, OpenCV, … Gazebo trình giả lập mơi trường nhà/ngoài trời với nhiều robot lúc, với hệ vật lý động học hoàn chỉnh Việc kết hợp ROS Gazebo tạo công cụ hỗ trợ nhiều mơ hình robot cảm biến có Nhờ hỗ trợ giao tiếp dựa messages tương tự ROS, Gazebo, ta hồn tồn viết nodes ROS vừa phù hợp với mô thực tế Ta phát triển ứng dụng mơ phỏng, sau triển khai thực tế với chút thay đổi mã nguồn OpenCV thư viện đồ sộ lĩnh vực Thị giác Máy tính, sử dụng nghiên cứu thực tế OpenCV cung cấp nhiều thuật toán phổ biến liên quan đến Thị giác Máy tính ROS tích hợp chặt chẽ với OpenCV, cho phép người dùng dễ dàng xử lý liệu hình ảnh Với đặc điểm này, ROS framework thích hợp để nghiên cứu thuật toán ứng dụng robotics thị giác máy tính 3.4.2 Triển khai thuật tốn ORB-SLAM3 ROS Đối với ORB-SLAM3, em kiểm tra tư ước tính cách sử dụng mơ-đun theo dõi sở mã gốc Em xây dựng mơ hình định vị thị giác riêng thiết bị theo dõi đơn mắt ban đầu Cũng cần nhắc lại đầu từ trình theo dõi đại diện cho tư khung máy ảnh; đó, em nhân với ma trận chuyển đổi T thân thiết bị bay máy ảnh, trước thêm thành phần dịch để chuyển tư dự đốn vào khung hình giới Tồn phép tính thực thơng qua Sophus, kết cuối sau chuyển thành định dạng tin nhắn PoseStamped ROS 3.4.3 SC-SfM Learner ROS Hình Chuyển đổi chuyển động từ PoseNet sang ROS Odometry Vì SC-SfMLearner lấy hình ảnh cho lần lặp lại suy luận, cấu trúc hàng đợi triển khai để đẩy lùi liệu nhận thơng báo hình ảnh bật lên phía trước hình ảnh từ dấu thời gian trước sau thơng báo 46 tư xuất Mô-đun PyTorch thực chuyển tiếp độ dài hàng đợi 2, xuất tensor chuyển động tư 6-DoF hai đầu vào RGB xếp hàng Chuyển động tư ước tính sau nhân với tư máy ảnh từ lần thực cuối để trở thành phép đo mùi, trước chuyển đổi thành tư thế giới xuất dạng thông báo PoseStamped Hình Em sử dụng GPU để tăng tốc độ suy luận mô-đun mạng thần kinh 3.5 Đánh giá kết 3.5.1 Đánh giá tiến trình Cơng cụ đánh giá RPG [32] sử dụng để so sánh hiệu suất hai công cụ ước lượng tư từ nút ROS tự viết Em đánh giá ORB-SLAM3 SC-SfMLearner quỹ đạo nói ghi lại từ Flightmare Q trình đánh giá cho quỹ đạo trình bày chi tiết theo bước sau: • Chạy tệp ghi có chứa quỹ đạo mục tiêu • Khởi động trình mơ phỏng, áp dụng điều khiển lập kế hoạch thích hợp cho quỹ đạo • Khởi chạy nút ROS trình ước lượng tư đăng ký chủ đề rgb từ trình mơ • Ghi lại thông báo PoseStamped xuất từ cơng cụ ước lượng tư • Lưu tư ước tính ghi với dấu thời gian chúng thành định dạng văn để đưa vào cơng cụ đánh giá RPG • Cơng cụ đánh giá RPG thực đồng hóa thời gian chỉnh tỷ lệ tư ước tính thật, đồng thời hình dung chúng Hệ số tỷ lệ tính phương pháp Umeyama 47 3.5.2 Kết Hình Biểu diễn quỹ đạo ước tính quỹ đạo thật Như thấy Hình 9, ORB-SLAM3 nói chung hoạt động tốt ScSfMLearner Đối với ba quỹ đạo ghi lại từ môi trường Rừng, ORB-SLAM3 đạt kết vượt trội, với quỹ đạo dự đoán trơn tru bám sát vào quỹ đạo chân thực Sc-SfM Learner xuất quỹ đạo thô hơn; nhiên, tư ước tính bám sát chân lý bản, hình dạng hướng Mặt khác, SC-SfM Learner chịu ảnh hưởng nhiều lỗi quy mô thử nghiệm môi trường Công nghiệp Xu hướng xuất phát từ thực tế liệu hình ảnh ghi lại từ mơi trường chứa điểm đặc trưng so với cảnh Rừng Ngồi ra, nhận thấy rõ ràng SC-SfM Learner nhạy cảm nhiều với chuyển động quay góc Khơng cần quay theo chiều ngang (bay thẳng), Sc-SfM Learner theo dõi xác ground truth Tuy nhiên, số lần quay ngang máy bay không người lái cao góc nghiêng lớn, thuật tốn có nhiều khả khơng dự đốn kết ý Hạn chế SC-Sfm Learner bắt nguồn từ việc thiếu tính xoay yaw liệu sử dụng để huấn luyện mạng tư Đối với ORB-SLAM3, trình theo dõi mắt thuật tốn thực ước tính độ xác cao, với đường dự đốn có hình dạng chữ nhật với quỹ đạo thật Kết khẳng định sức mạnh ORB-SLAM3 cơng cụ ước tính tư linh hoạt 48 xác Mặt khác, cần thêm nhiều liệu đào tạo thuật toán nâng cao vào phương pháp học để tránh sai lệch Các điều kiện kiểm sốt thích hợp đề xuất, ví dụ, dựa phép quay yaw chậm, để tối ưu hóa hiệu suất phương pháp học định vị thị giác sử dụng thực tế 3.6 Kết luận chương Chương trình bày nghiên cứu thử nghiệm việc áp dụng phương pháp học sâu trí tuệ nhân tạo để thay phương pháp định vị truyền thống sử dụng camera đơn mắt Mặc dù phương pháp ứng dụng học sâu mang lại kết không tốt phương pháp truyền thống hạn chế sử dụng camera đơn mắt việc học đặc trưng ảnh nghiên cứu liên quan đến phương pháp học sâu bám sat toán định vị tương đối xác đường thiết bị bay Đây tiền đề cho toán định vị ứng dụng học sâu tương lai 49 CHƯƠNG KẾT LUẬN 4.1 Kết luận Luận văn trình nghiên cứu, thử nghiệm nhiều lần ứng dụng trí tuệ nhân tạo cho tốn nhận dạng định vị cho thiết bị bay không người lái Luận văn thu kết tốt q trình nghiên cứu với tốn nhận dạng tạo mơ hình nhận dạng đám cháy từ thiết bị bay không người lái Bài toán định vị, nghiên cứu thu đựợc kết cao định vị đựợc vị trí thiết bị bay với camera đơn mắt sử dụng mô hình học sâu trí tuệ nhân tạo Các nghiên cứu luận văn xuất hội nghị khoa học nghiên cứu quốc tế [33] 4.2 Hướng phát triển luận văn tương lai Các nghiên cứu luận văn tiền đề nghiên cứu phát triển cho tốn tương lai khơng ứng dụng cho toán liên quan đến máy bay khơng người lái mà ứng dụng cho nhiều tốn liên quan đến trí tuệ nhân tạo Các nghiên cứu luận văn tiếp tục nghiên cứu phát triển thử nghiệm thực tế thiết bị bay không người lái, đưa đánh giá để điều chỉnh Thử nghiệm kết hợp sử dụng thiết bị bay không người lái thu thập liệu trình bay sử dụng camera đơn mắt làm cảm biến thu hình ảnh để nhận dạng khơng đám cháy mà cịn nhiều đối tượng khác với toán định vị để gửi định vị trung tâm giám sát Từ giúp thiết bị bay khơng người lái tự hành giống người 50 TÀI LIỆU THAM KHẢO [1] T Phương, "quochoi," [Online] Available: https://quochoi.vn/UserControls/Publishing/News/BinhLuan/pFormPrint.as px?UrlListProcess=/content/tintuc/Lists/News&ItemID=42875 [2] [Online] Available: https://longvan.net/thi-giac-may-tinh-la-gi-ung-dungthi-giac-may-tinh.html [Accessed 18 Aug 2022] [3] [Online] Available: https://www.cs.toronto.edu/~kriz/cifar.html [Accessed 17 Jul 2022] [4] [Online] Available: https://machinelearningmastery.com/appluggest-ofdeep-learning-for-computer-vision/ [Accessed 17 Jul 2022] [5] [Online] Available: https://www.thegioimaychu.vn/blog/ai-deeplearning/5-ung-dung-cua-thi-giac-may-tinh-cho-deep-learning-p3205/ [Accessed 17 Jul 2022] [6] Z X G.-S X a L Z A survey on vision-based UAV navigation, Geospatial Information Science, 2018 [7] [Online] Available: https://spacecraft.ssl.umd.edu/ [Accessed 16 Jul 2022] [8] [Online] Available: https://en.wikipedia.org/ [Accessed 16 Jul 2022] [9] [Online] Available: https://www.roboelements.com/ [Accessed 19 Jul 2022] [10] [Online] Available: https://www.mybotshop.de/ [Accessed 19 Jul 2022] [11] [Online] Available: https://www.bhphotovideo.com/ [12] [Online] Available: https://www.hbvcamera.com/ [Accessed 18 Jul 2022] [13] [Online] Available: https://www.miai.vn/2020/06/01/yolo-series-thu-nhandien-lua-bang-yolov4-tren-gpu-voi-keras/ [Accessed 18 Jul 2022] [14] [Online] Available: https://medium.com/swlh/object-detection-andinstance-segmentation-a-detailed-overview-94ca109274f2 [Accessed 18 Jul 2022] [15] [Online] Available: https://medium.com/swlh/object-detection-andinstance-segmentation-a-detailed-overview-94ca109274f2 [Accessed 17 Jul 2022] [16] [Online] Available: https://towardsdatascience.com/object-detectionsimplified-e07aa3830954 [Accessed 18 Jul 2022] 51 [17] W e a Liu, "SSD: Single Shot MultiBox Detector," Lecture Notes in Computer Science, vol 9905, 2016 [18] [Online] Available: https://medium.com/@jonathan_hui/map-meanaverage-precision-for-object-detection-45c121a31173 [Accessed 17 Jul 2022] [19] [Online] Available: https://sanchom.wordpress.com/tag/average- precision/ [Accessed 19 Jul 2022] [20] [Online] Available: https://manalelaidouni.github.io/manalelaidouni.github.io/EvaluatingObject-Detection-Models-Guide-to-Performance-Metrics.html [Accessed 19 Jul 2022] [21] A G H a M Z a B C a D K a W W a T W a M A a H Adam, "MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications," CoRR, vol abs/1704.04861, 2017 [22] Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2004 CVPR 2004, Washington, DC, USA: IEEE, 2004 [23] J a K V a C D Engel, "Direct Sparse Odometry," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 40, no 3, pp 611-625, 2018 [24] T T & L V G Herbert Bay, "SURF: Speeded Up Robust Features," in Computer Vision – ECCV 2006 ECCV 2006, Berlin, 2006 [25] E a R V a K K a B G Rublee, "ORB: An efficient alternative to SIFT or SURF," in 2011 International Conference on Computer Vision, Barcelona, Spain, IEEE, 2011, pp 2564-2571 [26] M Z C H Q e a He, " A review of monocular visual odometry," The Visual Computer: International Journal of Computer Graphics, vol 36, no 5, pp 1053-1065, 2020 [27] C a E R a R J J G a M M J M a D T J Campos, "ORB-SLAM3: An Accurate Open-Source Library for Visual, Visual–Inertial, and Multimap SLAM," IEEE Transactions on Robotics, vol 37, no 6, pp 18741890, 2021 [28] T a B M a S N a L D G Zhou, "Unsupervised Learning of Depth and Ego-Motion from Video," in 2017 IEEE Conference on Computer Vision 52 and Pattern Recognition (CVPR), Honolulu, HI, USA, IEEE, 2017, pp 6612-6619 [29] W B a Z L a N W a H Z a C S a M C a I D Reid, "Unsupervised Scale-consistent Depth and Ego-motion Learning from Monocular Video," CoRR, 2019 [30] A a S H a S E Zhou Wang and Bovik, "Image quality assessment: from error visibility to structural similarity," IEEE Transactions on Image Processing, vol 13, no 4, pp 600-612, 2004 [31] [Online] Available: https://ledinhviet.name.vn/ [Accessed 21 Jul 2022] [32] Z a S D Zhang, "A Tutorial on Quantitative Trajectory Evaluation for Visual(-Inertial) Odometry," in 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Madrid, Spain, IEEE, 2018, pp 7244-7251 [33] A Q a N H T a T V C a P H X a P J Nguyen, "A Visual Real-time Fire Detection using Single Shot MultiBox Detector for UAV-based Fire Surveillance," in 2020 IEEE Eighth International Conference on Communications and Electronics (ICCE), 2021, pp 338-343 53 ... học tập sâu Em chọn thuật toán đại hai phương pháp để so sánh: ORB-SLAM3 cho phương pháp dựa tính thông thường SC-SfM Learner cho phương pháp dựa học sâu Để đánh giá so sánh phương pháp trên, trình... định vị trí phân loại đối tượng Việc làm cho tốc độ xử lý nhanh đáng kể Một số thuật toán sử dụng phương pháp là: YOLOv1, v2, v3, SSD, RestinaNet, … Hình mơ tả cách hoạt động phương pháp bước sử... dạng bước có kết cao tốc độ chậm hơn, cịn tốn nhận dạng hai bước tốc độ xử lý nhanh độ lại Một số thuật tốn tốn bước có xác su? ??t cao SSD (Single Shot multibox Detection) tốc độ xử lý nhanh Trong