Real time semidense semi direct SLAM

DỰ ÁN DỰ THI KỲ THI KHOA HỌC KỸ THUẬT QUỐC GIA – TRƯỜNG PTNK ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH TRƯỜNG PHỔ THƠNG NĂNG KHIẾU  DỰ ÁN DỰ THI KHKT 2018-2019 ĐỀ CƯƠNG NGHIÊN CỨU Đề tài: HỆ THỐNG PHẦN MỀM TÁI TẠO KHÔNG GIAN BA CHIỀU TRONG THỜI GIAN THỰC VỚI CAMERA THƠNG DỤNG TP HỒ CHÍ MINH – 2018 DỰ ÁN DỰ THI KỲ THI KHOA HỌC KỸ THUẬT QUỐC GIA – TRƯỜNG PTNK LỜI CẢM ƠN! Để hồn thành dự án này, chúng em gửi lời cảm ơn đến thầy cô, người thân gia đình, nhà trường bạn bè hỗ trợ để giúp đỡ chúng em suốt chặng đường nghiên cứu vừa qua Trong đó, đặc biệt xin gửi lời tri ân chân thành đến: - Thầy Đào Duy Nam, người thầy đáng kính hướng dẫn chúng em vượt qua khó khăn lúc nghiên cứu, giải vấn đề nan giải suốt gần tháng qua - Các bậc cha mẹ, người góp cơng lớn lao việc hỗ trợ tinh thần, đưa lời khuyên lúc khó khăn để chúng em có đủ sức bước tiếp đến cuối đường nghiên cứu chọn - Nhà trường tạo điều kiện cho chúng em tham gia sân chơi bổ ích mang tên “Khoa học Kỹ thuật”, giúp cho chúng em có hội khám phá điều lạ, chân trời vô tận khoa học ứng dụng chúng để giúp cho sống tương lai loài người trở nên tốt đẹp - Những người bạn giúp cho chúng em có khoảng thời gian vui vẻ sau làm việc căng thẳng, giúp đỡ chúng em việc đảm bảo kiến thức lớp suốt quãng thời gian nghiên cứu - Và cuối cùng, đặc biệt không kém, xin cảm ơn người cộng cịn lại nhóm, người bạn đồng hành em qua vấn đề, mặc cho khó khăn thử thách ln vững bước tiến tới để chúng em đạt thành ngày hơm Trân trọng cảm ơn, Nhóm tác giả: Huỳnh Lâm Hải Đăng, 12 Tin, Trường Phổ Thông Năng Khiếu; Bùi Quang Minh, 12 Tin, Trường Phổ Thông Năng Khiếu DỰ ÁN DỰ THI KỲ THI KHOA HỌC KỸ THUẬT QUỐC GIA – TRƯỜNG PTNK MỤC LỤC LỜI MỞ ĐẦU PHẦN I TỔNG QUAN Cơ sở khoa học 1.1 1.2 Lý thuyết Tối ưu Hình học khơng gian Mục tiêu dự án Ý nghĩa khoa học Ý nghĩa thực tiễn PHẦN II THỰC HIỆN DỰ ÁN Phương pháp thực 1.1 1.2 1.3 Phương pháp nghiên cứu Thiết kế phần mềm 11 Kiểm thử, so sánh phần mềm 14 Tiến hành nghiên cứu 15 2.1 Ký hiệu 17 2.2 Tracker 17 2.2.1 Đặt toán 18 2.2.2 Lựa chọn 𝓕 19 2.2.2.1 Khởi tạo pose frame 20 2.2.2.2 Chọn Keyframe 20 2.2.2.3 Loại bỏ keyframe 21 2.2.3 Lựa chọn p 22 2.2.3.1 Chọn pixel ảnh 23 2.2.3.2 Track candidate points 24 2.2.3.3 Thêm bớt active points 24 2.3 Mapper 25 2.3.1 Feature Database 27 2.3.2 Loop detection 28 2.3.3 Tối ưu poses toàn cục 29 2.4 Thuật toán tối ưu (Optimizer) 31 Kết nghiên cứu 34 Phương pháp thử nghiệm 34 3.1.1 Thước đo sai số 34 3.1.2 Khái quát datasets 35 3.2 Kết thử nghiệm 36 3.2.1 Trajectory 36 3.2.2 3D map 39 3.1 PHẦN III KẾT LUẬN VÀ TIỀM NĂNG PHÁT TRIỂN 42 Kết luận 42 Hướng phát triển 43 TÀI LIỆU THAM KHẢO 45 Ấn phẩm khoa học 45 Websites tham khảo 50 DỰ ÁN DỰ THI KỲ THI KHOA HỌC KỸ THUẬT QUỐC GIA – TRƯỜNG PTNK LỜI MỞ ĐẦU Chúng ta thời kỳ phát triển rực rỡ công nghệ thông tin, mà tăng trưởng ngành công nghệ thơng tin nước ta lên nhanh chóng, nhờ sản phẩm cơng nghệ thị trường có tính cạnh tranh gay gắt với địi hỏi chất lượng cao mà giá thành lại rẻ Do cịn cách đầu tư cho nghiên cứu khoa học kỹ thuật, ngành công nghệ thơng tin khoa học máy tính, để tồn phát triển Với tính ứng dụng ngày mở rộng, hệ thống tự động hóa, cơng nghệ thơng minh đề tài quen thuộc không với công ty lĩnh vực liên quan đến cơng nghệ mà cịn đón nhận rộng rãi người có hiểu biết cơng nghệ chí người dùng cuối (end-users) bình thường Do việc tăng cường sức mạnh trí tuệ nhân tạo mở rộng khả làm việc hệ máy tính điều kiện tiên để tăng suất hoạt động chúng đảm bảo trải nghiệm tốt cho người sử dụng, mà nhu cầu họ ngày tăng cao Các công nghệ, hệ thống tự động, robot tự hành (như xe tự lái, máy bay tự hành, cánh tay robot nhà máy, …) dần thay người nhiều lĩnh vực khác đời sống Từ công xưởng khổng lồ bệnh viện tới nhà hàng Tuy nhiên công nghệ nước ta chưa ứng dụng rộng rãi phát huy hết khả chúng Lý cơng nghệ địi hỏi sử dụng công cụ cảm biến tinh vi, hệ thống xử lý mạnh nguồn lượng dồi dào, giá thành đắt Ngồi công nghệ thực tế tăng cường (Augmented Reality - AR) với công việc tạo không gian ba chiều ảo từ không gian thực cần tới hệ thống quét laser đắt tiền Phần mềm nhóm phát triển dựa ý tưởng tái tạo mơ hình không gian ba chiều với camera thông dụng smartphone Phần mềm đặt móng cho việc nghiên cứu, chế tạo hệ robot có khả tự hành cao, nhận biết môi trường xung quanh làm công việc đa dạng ngẫu nhiên đòi hỏi linh hoạt cao người DỰ ÁN DỰ THI KỲ THI KHOA HỌC KỸ THUẬT QUỐC GIA – TRƯỜNG PTNK PHẦN I TỔNG QUAN Cơ sở khoa học Dự án thực dựa hai sở khoa học gồm Lý thuyết Tối ưu hóa Hình học Không gian Các tảng khoa học phát triển từ nhiều thập kỷ trước, nhờ cơng cụ mà nhóm sử dụng kiểm chứng độ xác tính tối ưu, đảm bảo tính khả thi độ tin cậy phần mềm, đưa trở nên gần gũi với thực tiễn 1.1 Lý thuyết Tối ưu Trong thực tiễn, có nhiều tốn tối ưu đặt như: nén liệu nhằm làm giảm tiêu tốn khơng gian lưu trữ, tìm cách phân phối nguồn tài nhằm đảm bảo vận hành ổn định cơng ty hay xác định cách nhanh tiêu tốn lượng để vận hành robot, … Khác với tốn tối ưu hồn hảo đặt lý thuyết (như tìm đường ngắn nhất, tìm ghép cực đại, …), tốn thực tiễn hầu hết khơng có phương pháp xác để tìm lời giải Hơn nữa, nguồn lực để giải chúng hạn chế, người ta chọn chấp nhận lời giải xấp xỉ tối ưu thay cho đáp án hồn chỉnh Những thuật tốn thuộc lý thuyết chủ yếu dựa phương thức tổng quát gọi “Gradient Descent”, mục tiêu chung đạt kết tốt với khởi tạo Trên thực tế, chúng cực tiểu hóa hàm đích với biến số bị giới hạn đẳng thức hay bất đẳng thức khác Tùy vào mục đích sử dụng dạng hàm mục tiêu mà đến có nhiều biến thể thuật toán phục vụ mục tiêu Chưa phải vài thập kỷ trở lại người ta biết tầm quan trọng tốn tối ưu khơng hồn tồn vơ phức tạp Điển hình từ đầu kỷ XIX, nhà toán học Carl F Gauss đề xuất thuật toán tối ưu bậc hai theo phương pháp xấp xỉ mang tên “Thuật toán tối ưu GaussNewton” nhằm giải hàm mục tiêu có dạng tổng bình phương Gần gũi với học sinh, sinh viên có lẽ phương pháp “Tối ưu lồi” (Convex DỰ ÁN DỰ THI KỲ THI KHOA HỌC KỸ THUẬT QUỐC GIA – TRƯỜNG PTNK Optimization) mà điển hình thuật tốn Đơn hình (Simplex), nhằm giải tốn gồm điều kiện giới hạn với mục tiêu tối ưu hàm đích, cịn biết đến Lập trình tuyến tính (Linear Programming) Các phương pháp đến tận ngày sử dụng rộng rãi, phần mềm mà hay sử dụng Google Mail, Microsoft Windows, Facebook hay Adobe Photoshop Trong nghiên cứu này, nhóm sử dụng thuật tốn Gauss-Newton dạng tổng qt cịn biết đến phương pháp tối ưu LevenbergMarquardt nhằm giải vấn đề xác định vị trí tương đối ảnh với 1.2 Hình học khơng gian Ngồi việc sử dụng phương pháp tối ưu trên, nhóm cịn vận dụng kiến thức hình học khơng gian nhằm giải vấn đề cấp độ thấp liên quan đến xử lý ảnh xử lý điểm khơng gian Bằng cách mơ hình hóa phép tính khơng gian dạng tốn tuyến tính (Ma trận Vector), tốc độ thực thi phần mềm hỗ trợ nhờ vào hệ thống công cụ tối ưu nhúng sẵn vào vi xử lý máy tính Một cách ngắn gọn, việc tuyến tính hóa hình học giúp tăng tốc độ xử lý phần mềm Ngoài ra, việc sử dụng khơng gian tuyến tính trên, việc thực thao tác tính tốn, phép chiếu, thay biến số thực ngắn gọn nhờ vào súc tích phép tốn ma trận Thêm vào đó, biến đổi ma trận giúp cho việc luân chuyển liệu module phần mềm thuận lợi đồng Vì sở phép tối ưu Levenberg-Marquardt dựa nhân ma trận nên sử dụng khơng gian tuyến tính cịn giúp cho việc xử lý thơng tin thuật tốn tiện lợi Mục tiêu dự án Mục tiêu nhóm thiết kế phần mềm hệ thống đạt hiệu cao việc tái tạo mơ hình khơng gian ba chiều môi trường thời gian thực sử dụng camera thông dụng mà không cần loại cảm biến khác DỰ ÁN DỰ THI KỲ THI KHOA HỌC KỸ THUẬT QUỐC GIA – TRƯỜNG PTNK Ngoài ra, để thể tính vượt trội so với cơng trình nghiên cứu khác, mơ hình 3D mà nhóm muốn hướng đến phải trực quan trùng khớp, vị trí khơng gian camera dự đốn xác giảm thiểu độ tiêu tốn tài nguyên tăng tốc độ tính tốn cho phần mềm Có thể đưa phần mềm vào thiết bị nhỏ gọn smartphone xử lý thời gian thực để tăng linh hoạt mở rộng ứng dụng cho người sử dụng Các ứng dụng phổ biến đề cập đến chia sẻ mơ hình 3D với người qua Facebook gửi cho người khác phương tiện truyền thông Messenger, Zalo, Viber, … Ý nghĩa khoa học Nhóm phát triển hệ thống phần mềm dựa thuật toán kiểm chứng tối ưu qua thời gian dài xây dựng nên phương pháp tốt để giải vấn đề đặt ra: tái tạo mơ hình khơng gian 3D thời gian thực với camera chuyển động Đây vấn đề trọng tâm thuộc mảng Tốn học lĩnh vực Thị giác máy tính (Computer Vision), ngồi vấn đề thiên Trí tuệ nhân tạo (như Nhận diện vật thể, Phân loại vật thể, …) Bài toán tiếp tục phát triển suốt 20 năm qua, không dừng lại với thuật toán đề xuất nhằm giải tốt vấn đề cốt lõi Phần lớn cơng trình nghiên cứu trước dựa vào bước tính tốn mang tính kinh điển, tập trung giải vấn đề mang tính Tốn học từ ban đầu mà đưa đến kết mang tính “Tốn học” thế, thiếu khả ứng dụng thực tiễn sống Do đó, với cách tiếp cận trực quan dựa chế thơng thường nhất, nhóm đến biến đổi cách thức trực quan thành thuật toán mà kết thu đủ để công nhận tính ứng dụng mà đem lại tương lai gần Ý nghĩa thực tiễn Hãy tưởng tượng tương lai khơng xa, mà thay dùng ảnh để lưu giữ chia sẻ khoảnh khắc, người tạo khơng gian ảo riêng cho bên cạnh dịng thời gian mạng xã hội, nơi DỰ ÁN DỰ THI KỲ THI KHOA HỌC KỸ THUẬT QUỐC GIA – TRƯỜNG PTNK lưu trữ khoảnh khắc mà bạn lại tương tác với chúng, làm sống lại ký ức thân Việc phát triển phần mềm giúp cho việc tái tạo mơ hình 3D môi trường hay vật thể trở nên thực tiễn, đơn giản gần gũi mà người ta khơng cịn cần phải bỏ chi phí để sở hữu loại cảm biến đắt tiền để tạo mơ hình 3D Do đó, với nhà thiết kế mơ hình khơng gian, nhà làm game 3D, bước tiến lớn việc giảm thiểu chi phí, nhân cơng để tạo mơ hình Từ đó, ngành cơng nghiệp 3D phát triển nhanh nữa, mang lại thành tựu mà có mơ Hơn phần mềm không đặt tảng cho việc tạo cơng cụ tốt mà cịn giúp cho việc chế tạo loại robot có nhiều tính mà thời chưa làm Nhờ vào khả làm việc thiết bị có tài ngun tính tốn giới hạn, phần mềm có khả tích hợp thiết bị để hoạt động điều kiện mà công cụ thông thường khơng thể làm Có thể kể đến ứng dụng như: thăm dò hầm mỏ, thám hiểm hang động, xây dựng đồ địa hình hay xa hỗ trợ giải cứu thiên tai; phần mềm phục cho việc tự động xây dựng đồ môi trường định hướng di chuyển robot, tạo nên hệ thống tự hành làm việc điều kiện khắc nghiệt để giảm thiểu rủi ro gây cho người hay chí cứu sống tính mạng người Có lẽ cịn xa để chứng kiến giới ảo nhanh chóng xây dựng dựa cấu trúc giới thực hay với chi phí bỏ để phục vụ robot thông minh tự tay làm việc nhà Nhưng điều khơng phải khơng thể DỰ ÁN DỰ THI KỲ THI KHOA HỌC KỸ THUẬT QUỐC GIA – TRƯỜNG PTNK PHẦN II THỰC HIỆN DỰ ÁN Phương pháp thực 1.1 Phương pháp nghiên cứu Để thiết kế hồn thiện phần mềm, nhóm sử dụng phương pháp xây dựng theo kiểu tiến hóa, mơ hình sử dụng phổ biến để tạo nên phần mềm liên quan đến thuật tốn địi hỏi u cầu hiệu cao Hình Mơ hình tiến hóa Qua đó, nhóm trước hết thực xác định mục tiêu rõ ràng cho phần mềm, nhằm tạo mốc cụ thể để dần hoàn thiện qua thời gian nghiên cứu Thơng qua thảo luận, nhóm cuối đến mục tiêu cụ thể mà phần mềm cần phải thực sau: - Nhập liệu - Xác định vị trí 3D camera không gian thông qua liệu nhập vào hiển thị thời gian thực (real-time) giao diện đồ họa cho người dùng (Graphical User Interface – GUI) - Tạo dựng đồ 3D phần không gian quay lại liệu nhập vào hiển thị real-time giao đồ họa người dùng (GUI) - Cho người dùng tương tác giao diện đồ họa xoay, di chuyển, thu/phóng kích thước để có nhìn chi tiết kết thu DỰ ÁN DỰ THI KỲ THI KHOA HỌC KỸ THUẬT QUỐC GIA – TRƯỜNG PTNK Từ đây, nhóm nhìn nhận cách tổng quan phần mềm có sở cần thiết để thiết kế nên cấu trúc phần mềm tạo điều kiện để kiểm tra phần mềm cách triệt để hồn tất Việc sử dụng mơ hình thiết kế phần mềm kiểu tiến hóa cho phép nhóm tiếp tục tối ưu thành phần cách riêng lẻ theo thời gian mà không phá vỡ cấu trúc tổng quát phần mềm, quy trình hồn thiện phần mềm theo vòng lặp: xác định mục tiêu – tiến hành thực – kiểm tra kết Do đó, phần mềm sau hoàn tất giai đoạn tiếp tục phát triển giai đoạn cách tích hợp thêm thuật tốn vào cấu trúc có sẵn Hình Giao diện đồ họa người dùng sản phẩm sau hoàn thiện Lý mà nhóm chọn mơ hình nhược điểm bao gồm cấu trúc phần mềm dễ bị phá vỡ yêu cầu theo dõi sát tiến độ để nắm bắt tình hình phát triển phần mềm đặc thù nhóm Vì nhóm có thành viên nên việc thảo luận chặt chẽ để thống phương án cấu trúc phần mềm giám sát tiến độ thực dễ dàng, nhóm lên kế hoạch kỹ cho cấu trúc phần mềm từ trước định không thực 10 DỰ ÁN DỰ THI KỲ THI KHOA HỌC KỸ THUẬT QUỐC GIA – TRƯỜNG PTNK 3.2 Kết thử nghiệm 3.2.1 Trajectory Sử dụng cách thức xếp chồng frame từ video với xác định vị trị tốt cho pixel frame khớp với Đây cốt lõi cho thành cơng phần mềm nhóm đóng góp lớn nhóm cho phát triển phần mềm lĩnh vực Bằng việc vận dụng kỹ thuật tối ưu phi tuyến Gauss – Newton hay Levenberge – Marquardt mà nhóm tạo mơ hình dày đặc, trực quan xác định vị trí camera tương đối xác Hình 10 Độ dày depth map cho frame: Tỉ lệ pixel xác định depth tổng số pixel frame, tỉ lệ lớn độ dày đặc mơ hình khơng gian nhiều đưa đến mơ hình trực quan Như hình 10 mô tả, tập liệu KITTI – Odometry, kiến trúc thành phố có nhiều feature cho ORB-SLAM2 phần mềm failed tracking 2/11 videos Hơn nữa, độ dày đồ Depth mà tạo khơng vượt q 15% DSO đạt 22% phần mềm nhóm cịn đạt đến 50% Qua videos tập liệu này, thấy phần mềm nhóm đạt hiệu cao hẳn ORB-SLAM2 – đỉnh cao phương pháp truyền thống DSO – phần mềm ứng dụng phương pháp tối ưu tương tự nhóm Một cách xác, nhóm đạt độ dày cao ORB-SLAM2 từ đến 25 lần DSO từ 1.1 đến 4.5 lần 36 DỰ ÁN DỰ THI KỲ THI KHOA HỌC KỸ THUẬT QUỐC GIA – TRƯỜNG PTNK Theo hình 11, tập liệu TUM – Mono, có thủ tục đóng loop mà ORB-SLAM2 phần mềm nhóm tối ưu vị trí camera gần kết thúc video Tuy nhiên, sai số mà phần mềm nhóm gặp phải ln ln nhỏ sai số tương ứng ORB-SLAM2, điều tập liệu chủ yếu chứa liệu nhà có chứa nhiều chuyển động thẳng liên tiếp tường khơng có feature, ngun nhân gây sai lệch lớn cho hệ thống dựa feature Trong đó, tối ưu vị trí cho phép nhóm vượt qua chuyển động khơng gặp khó khăn tối ưu vùng khơng có feature Hình 11 Sai số RMSE phần mềm, từ trái qua ORB-SLAM2, DSO phần mềm nhóm Các diễn giải màu tương tự quy ước trước Qua thấy, phần mềm nhóm gây sai lệch nhỏ, phù hợp cho ứng dụng thực tiễn hẳn ORB-SLAM2 DSO Hơn nữa, việc DSO cho kết thấp dự đoán trước, phần mềm thử nghiệm phương pháp tối ưu vị trí Mặc dù mức việc vận dụng phương pháp vào thực tế cịn mang tính khai phá để giải vấn đề tính khả thi thuật tốn Tuy vậy, nhờ vào khai phá tảng mà nhóm có đủ sở để xây dựng nên phần mềm Qua đó, nhóm xác nhận lợi phương pháp trực tiếp DSO hay phần mềm nhóm hoạt động bình thường frame với thơng tin feature 37 DỰ ÁN DỰ THI KỲ THI KHOA HỌC KỸ THUẬT QUỐC GIA – TRƯỜNG PTNK DÃY DSO PHẦN MỀM ORB-SLAM2 CỦA NHÓM 00 126.7 9.322 8.27 01 165.03 11.68 X 02 138.7 31.98 26.86 03 4.77 2.85 1.21 04 1.08 0.77 1.22 05 49.85 5.1 7.91 06 113.57 13.55 12.54 07 27.99 2.96 X 08 120.17 46.81 129.02 09 74.29 21.64 76.54 10 16.32 17.36 6.61 Bảng Kết so sánh 11 video thuộc KITTI Odometry, kết tốt tương ứng với video đậm X cho biết phần mềm failed tracking video Và theo bảng phần mềm nhóm đạt độ xác cao hẳn bậc so với DSO việc sử dụng kết hợp corner đóng loop, vài video nhóm có chất lượng trajectory thấp ORB-SLAM2 nhiễu loạn (ánh sáng mặt trời, đổ bóng, …) Đây vấn đề mà nhóm chưa giải xác định hướng giải Nhưng dù vậy, kết mà nhóm đạt KITTI Odometry tương đối so với ORB-SLAM2 Hình 12 So sánh kết DSO (bên trái) với phần mềm nhóm (bên phải), qua thể độ xác phần mềm sau đóng loop Ở hình bên phải, sai lệch rõ ràng tạo DSO 38 DỰ ÁN DỰ THI KỲ THI KHOA HỌC KỸ THUẬT QUỐC GIA – TRƯỜNG PTNK Cần lưu ý thêm ORB-SLAM2 hệ thống hồn chỉnh có kết hợp tồn kỹ thuật tối ưu phương pháp feature, đời hai dấu mốc quan trọng lĩnh vực nghiên cứu SLAM suốt thập kỷ vừa qua, với dấu mốc lại CNN-SLAM, kết hợp kỹ thuật học sâu với SLAM mở hướng ngành Phương thức kết hợp CNN-SLAM định hướng tương lai nhóm Hình 13 Một mơ tả cho trajectory camera không gian video EuRoCMAV datasets 3.2.2 3D map Dưới số hình ảnh kết phần mềm nhóm, dạng 3D map dày đặc Có thể thấy, hệ thống phần mềm tạo mơ hình dễ dàng nhận thấy trực quan, cho phép người dùng thao tác trực tiếp Khơng vậy, nhóm cho biết vị trí camera không gian, bao 39 DỰ ÁN DỰ THI KỲ THI KHOA HỌC KỸ THUẬT QUỐC GIA – TRƯỜNG PTNK gồm vị trí camera thời keyframe trước Đồng thời đóng loop, người dùng chứng kiến trực tiếp q trình tối ưu tồn đồ Hình 14 Kết tái tạo nhà máy video EuRoC-MAV datasets Đây số mơ hình mà nhóm tạo Hình 15 Kết nhóm thu từ video thứ 34 TUM-Mono datasets Có thể thấy, xe đạp tái tạo lại chi tiết, tòa nhà với cửa số lưu giữ với độ lớn phù hợp thuật tốn Monocular SLAM nhóm khơng thể xác định xác khoảng cách tuyệt đối 40 DỰ ÁN DỰ THI KỲ THI KHOA HỌC KỸ THUẬT QUỐC GIA – TRƯỜNG PTNK Ngồi nhóm cịn tính tốn tốc độ xử lý trung bình phần mềm chạy TUM-Mono, kết cho thấy với frame, nhóm 0.068s số tương ứng cho DSO ORB-SLAM2 0.052s 0.065s, lý cho chậm trễ nhóm sử dụng luồng cho chạy thuật tốn (khơng kể GUI) gồm tối ưu sliding window tối ưu poses tồn cục , ORBSLAM2 sử dụng tồn luồng cho thao tác tìm ghép cặp feature, tối ưu pose cục feature, thêm vào loại bỏ voxel, tối ưu poses toàn cục Hệ thống phần mềm kiểm tra tảng CPU Intel i5-4200H (2.8GHz) 8GB RAM Figure 16 Các mơ hình mà phần mềm nhóm tạo chạy với chế độ cực dày đặc, kết đo đạc cho thấy độ dày depth map mà nhóm đạt lên đến 60 - 85% mơ hình khơng gian đạt dày mô tả cấu trúc thực tế môi trường Qua kết khả quan đó, nhóm định tiếp tục triển khai tăng cường độ dày depth map cách sử dụng phương pháp suy luận Bayes, từ tạo mơ hình khơng gian có mật độ điểm mức độ trực quan cịn tốt kết mà nhóm thu trước Khơng mà điểm điểm xác, chọn lọc lần tối ưu Bayes với hỗ trợ thuật tốn tối ưu trình bày Đây xem phần mở rộng cho thành phần Mapper hệ thống phần mềm nhóm 41 DỰ ÁN DỰ THI KỲ THI KHOA HỌC KỸ THUẬT QUỐC GIA – TRƯỜNG PTNK PHẦN III KẾT LUẬN VÀ TIỀM NĂNG PHÁT TRIỂN Kết luận Trong đề tài này, nhóm đề xuất phương pháp hồn thiện để giải toán Monocular SLAM làm hệ thống phần mềm dựa lý thuyết Đây tảng cho nghiên cứu tương lai đưa tiến gần với mục tiêu lĩnh vực Thị giác Máy tính: “Giúp cho máy móc nhìn thấy giới chúng ta” Sau 11 tuần thực hiện, nhóm đạt mục đích ban đầu dự án tạo hệ thống phần mềm cho phép người dùng tái tạo không gian ba chiều thời gian thực với video hay camera Để giải hồn tồn vấn đề vịng 11 tuần, nhóm tận dụng thời gian rảnh thành viên động lực chung để thúc đẩy hoàn thiện phần mềm nhanh tốt Mơ hình xây dựng phần mềm kiểu tiến hóa giúp cho hệ thống phần mềm hoàn thiện qua mốc cụ thể giai đoạn, đảm bảo mục tiêu chung giữ vững thời gian khơng bị trì trệ Ngồi ra, cịn phụ thuộc nhiều vào khả thành viên nhóm Trải qua thử nghiệm, nhóm nhận thấy phần mềm cịn điểm yếu quan trọng sau: - Tốc độ thực thi tổng quát chưa lớn tiêu thụ tài nguyên tính tốn cịn bất ổn Ảnh hưởng khơng đến trải nghiệm người dùng sử dụng phần mềm - Chưa có khả chống lại trường hợp nhiễu loạn rung lắc mạnh camera nên dễ failed tracking trường hợp người dùng thực thao tác nhanh - Chưa tái tạo vật thể chuyển động Đây rào cản việc ứng dụng thực tiễn phần mềm bị vật thể gây nhiễu dẫn đến sai lệch, thời trình tối ưu theo sliding window nên phần mềm loại bỏ vật thể khỏi 3D map - 3D map xây dựng chưa hoàn hảo, density chưa đủ cao để tạo mơ hình 3D hồn chỉnh giống y thật (mesh) Do đó, người dùng chưa thể thực 42 DỰ ÁN DỰ THI KỲ THI KHOA HỌC KỸ THUẬT QUỐC GIA – TRƯỜNG PTNK thao tác chỉnh sửa, thêm bớt, … phần mềm chỉnh sửa 3D chuyển dụng (chẳng hạn AutoCAD) - Không xác định xác kích thước vật thể, rào cản giải với phần mềm Monocular SLAM dựa mơ hình Tốn học Đó khơng phải vấn đề kỹ thuật mà đơn giản chất lý thuyết, camera di chuyển không xác định mức độ scale mơ hình, cơng trình rộng lớn có mơ hình nhà thu nhỏ chẳng hạn Mặc dù thành mà nhóm đạt tương đối tốt so với phần mềm Monocular SLAM thời nhược điểm đáng quan ngại Do nhóm phải tìm cách khắc phục để phát triển hoàn thiện Hướng phát triển Về mặt lý thuyết, để tăng độ xác khả hoạt động, nhóm thảo luận để định hướng phát triển tương lai phần mềm Sau phân tích mặt hạn chế lợi phần mềm, với kỹ thuật có nhóm đến kết luận: đường để phần mềm tiếp tục hoàn thiện tích hợp trí tuệ nhân tạo mà sở mạng neuron sâu (deep neural network) Mặc dù việc phát triển hệ thống thành phần mềm SLAM hoàn chỉnh cách kết hợp kỹ thuật tối ưu khác có khiến cho phần mềm chạy nhanh độ xác cao kết 3D map có density Nhóm nhận định: để đột phá density 3D map, cần phải sử dụng neural network phần mềm Hình 17 Kết thử nghiệm bước đầu Neural Network nhóm cho thấy chúng có khả dự đốn depth map đầy đủ xác (lên đến 100% số pixel), điều mang lại nhiều hứa hẹn cho ứng dụng xác trực quan tương lai chúng tiếp tục tối ưu phát triển Điều dẫn đến đột phá cơng nghệ xa mà chưa nghĩ đến 43 DỰ ÁN DỰ THI KỲ THI KHOA HỌC KỸ THUẬT QUỐC GIA – TRƯỜNG PTNK Đối với phần mềm, neural network thực nhiệm vụ phân lập vật thể di chuyển, xác định độ sâu cho pixel khơng đặc trưng hay chí trực tiếp xác định poses frame Thực sự, deep neural network làm cơng việc tối ưu phần mềm nhóm khuyết điểm chúng đòi hỏi khả tính tốn lớn khối lượng phép toán cần thực lên đến hàng tỉ giây Về thực tiễn, nhóm đưa hướng thương mại hóa phần mềm sau: - Tích hợp vào phương tiện giao thông robot tự hành để dò đường tránh vật cản, áp dụng cho việc chuyên chở người từ nơi sang nơi khác vận chuyển hàng hóa - Làm việc sản phẩm dị đường tích hợp phương tiện người khuyết tật để hổ trợ họ lại - Robot tự hành biết nhìn nhận mơi trường để lại hỗ trợ/thay người việc ngày - Mơ hình hóa môi trường thực tế cho công nghệ AR - Hỗ trợ cho công việc điều kiện địa hình khó khăn việc tích hợp robot thực khảo sát địa hình thay cho người (để xác định mỏ khống sản, để phục vụ cơng tác cứu hộ, …) - Giúp bác sĩ tạo mơ hình 3D thể người để giúp cho họ có nhìn chi tiết, trực quan cơng tác phẫu thuật, nhằm giảm thiểu rủi ro liên quan đến tính mạng người Công nghệ không ngừng phát triển, phần mềm không tăng cường chất lượng khơng tồn Và phần mềm có nhiều hướng ứng dụng đẩy mạnh phát triển mong muốn người làm “toàn năng, hoàn hảo” Đây động lực thúc đẩy phát triển kỹ thuật ngành công nghệ nay, ngồi mục đích hướng tới mục tiêu lợi nhuận cịn tương lai khoa học 44 DỰ ÁN DỰ THI KỲ THI KHOA HỌC KỸ THUẬT QUỐC GIA – TRƯỜNG PTNK TÀI LIỆU THAM KHẢO Ấn phẩm khoa học (1) J Engel, V Koltun, and D Cremers, “Direct Sparse Odometry”, IEEE Transactions on Pattern Analysis and Machine Intelligence, 40, số 3, trang 611–625, 2018 (2) C Cadena, L Carlone, H Carrillo, Y Latif, D Scaramuzza, J Neira, I Reid, and J J Leonard, “Past, Present, and Future of Simultaneous Localization and Mapping: Toward the Robust-Perception Age”, IEEE Transactions on Robotics, 32, số 6, trang 1309–1332, 2016 (3) G Klein and D Murray, “Parallel Tracking and Mapping for Small AR Workspaces”, 6th International Symposium on Mixed and Augmented Reality (ISMAR 2007), trang 225–234, IEEE, 2007 (4) R Mur-Artal, J Montiel, and J D Tardos, “ORB-SLAM: a Versatile ´ and Accurate Monocular SLAM System”, IEEE Transactions on Robotics, 31, số 5, trang 1147–1163, 2015 (5) C Kerl, J Sturm, and D Cremers, “Dense Visual SLAM for RGB-D Cameras”, Interantional Conference on Intelligent Robot Systems (IROS), 2013 (6) J Engel, T Schops, and D Cremers, LSD-SLAM: Large-Scale Direct ă Monocular SLAM, Computer VisionECCV 2014, trang 834–849, Springer, 2014 (7) S Lynen, T Sattler, M Bosse, J A Hesch, M Pollefeys, and R Siegwart, “Get Out of My Lab: Large-scale, Real-Time Visual Inertial Localization”, Robotics: Science and Systems, 2015 (8) T Schneider, M T Dymczyk, M Fehr, K Egger, S Lynen, I Gilitschenski, and R Siegwart, “MAPLAB: An Open Framework for Research in Visual-inertial Mapping and Localization”, IEEE Robotics and Automation Letters, 2018 45 DỰ ÁN DỰ THI KỲ THI KHOA HỌC KỸ THUẬT QUỐC GIA – TRƯỜNG PTNK (9) T Botterill, S Mills, and R Green, “Bag-of-Words-Driven, Single Camera Simultaneous Localization and Mapping”, Journal of Field Robotics, 28, số 2, trang 204–226, 2011 (10) D Filliat, “A Visual Bag of Words Method for Interactive Qualitative Localization and Mapping”, 2007 IEEE International Conference on Robotics and Automation (ICRA), trang 3921–3926, IEEE, 2007 (11) D Galvez-Lopez and J D Tardos, “Bags of Binary Words for Fast Place Recognition in Image Sequences”, IEEE Transactions on Robotics, 28, số 5, trang 1188–1197, 2012 (12) M Cummins and P Newman, “FAB-MAP: Probabilistic Localization and Mapping in the Space of Appearance”, The International Journal of Robotics Research, 27, số 6, trang 647–665, 2008 (13) H Strasdat, A J Davison, J M Montiel, and K Konolige, “Double Window Optimisation for Constant Time Visual SLAM”, IEEE International Conference on Computer Vision (ICCV), trang 2352–2359, IEEE, 2011 (14) S Leutenegger, S Lynen, M Bosse, R Siegwart, and P Furgale, “Keyframe-based Visual-Inertial Odometry using Nonlinear Optimization”, International Journal of Robotics Research, 34, trang 314– 334, MAR 2015 (15) R Mur-Artal and J D Tardos, “ORB-SLAM2: An Open-Source ´ SLAM System for Monocular, Stereo, and RGB-D Cameras”, IEEE Transactions on Robotics, 33, số 5, trang 1255–1262, 2017 (16) J Shi et al., “Good Features to Track”, Computer Vision and Pattern Recognition, 1994 Proceedings CVPR’94., 1994 IEEE Computer Society Conference on, trang 593–600, IEEE, 1994 (17) E Rublee, V Rabaud, K Konolige, and G Bradski, “ORB: An Efficient Alternative to SIFT or SURF”, 2011 IEEE International Conference on Computer Vision (ICCV), trang 2564–2571, IEEE, 2011 46 DỰ ÁN DỰ THI KỲ THI KHOA HỌC KỸ THUẬT QUỐC GIA – TRƯỜNG PTNK (18) G Sibley, L Matthies, and G Sukhatme, “A Sliding Window Filter for Incremental SLAM”, Unifying Perspectives Computational and Robot Vision, trang 103–112, Springer, 2008 (19) B Triggs, P F McLauchlan, R I Hartley, and A W Fitzgibbon, “Bundle Adjustment: A Modern Synthesis”, Vision Algorithms: Theory and Practice, trang 298–372, Springer, 2000 (20) R Kummerle, G Grisetti, H Strasdat, K Konolige, and W Burgard, “G2O: A General Framework for Graph Optimization”, IEEE International Conference on Robotics and Automation (ICRA), trang 3607– 3613, IEEE, 2011 (21) M Burri, J Nikolic, P Gohl, T Schneider, J Rehder, S Omari, M W Achtelik, and R Siegwart, “The EuRoC Micro Aerial Vehicle Datasets”, The International Journal of Robotics Research, 2016 (22) R Hartley and A Zisserman, Multiple View Geometry Computer Vision, 2nd ed Cambridge University Press, 2004 (23) E Mouragnon, M Lhuillier, M Dhome, F Dekeyser, and P Sayd, “Real time localization and 3D reconstruction”, Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on, 1, 2006, trang 363–370 (24) H Strasdat, J M M Montiel, and A J Davison, “Scale drift-aware large scale monocular SLAM.” Robotics: Science and Systems (RSS), Zaragoza, Spain, June 2010 (25) C Mei, G Sibley, and P Newman, “Closing loops without places”, IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Taipei, Taiwan, October 2010, trang 3738–3744 (26) B Williams, M Cummins, J Neira, P Newman, I Reid, and J D Tardos, “A comparison of loop closing techniques in monocular SLAM”, Robotics and Autonomous Systems, 57, số 12, trang 1188–1197, 2009 (27) D Nister and H Stewenius, “Scalable recognition with a vocabulary tree”, IEEE Computer Society Conference on Computer Vision and 47 DỰ ÁN DỰ THI KỲ THI KHOA HỌC KỸ THUẬT QUỐC GIA – TRƯỜNG PTNK Pattern Recognition (CVPR), 2, New York City, USA, June 2006, trang 2161–2168 (28) M Cummins and P Newman, “Appearance-only SLAM at large scale with FAB-MAP 2.0”, The International Journal of Robotics Research, 30, số 9, trang 1100–1123, 2011 (29) E Rosten and T Drummond, “Machine learning for high-speed corner detection”, European Conference on Computer Vision (ECCV), Graz, Austria, May 2006, trang 430–443 (30) D G Lowe, “Distinctive image features from scale-invariant keypoints”, International Journal of Computer Vision, 60, số 2, trang 91–110, 2004 (31) A J Davison, I D Reid, N D Molton, and O Stasse, “MonoSLAM: Real-time single camera SLAM”, IEEE Transactions on Pattern Analysis and Machine Intelligence, 29, số 6, trang 1052–1067, 2007 (32) J Civera, A J Davison, and J M M Montiel, “Inverse depth parametrization for monocular SLAM”, IEEE Transactions on Robotics, 24, số 5, trang 932–945, 2008 (33) C Forster, M Pizzoli, and D Scaramuzza, “SVO: Fast semi-direct monocular visual odometry”, Proc IEEE Intl Conf on Robotics and Automation, Hong Kong, China, June 2014, trang 15–22 (34) O D Faugeras and F Lustman, “Motion and structure from motion in a piecewise planar environment”, International Journal of Pattern Recognition and Artificial Intelligence, 2, số 03, trang 485–508, 1988 (35) W Tan, H Liu, Z Dong, G Zhang, and H Bao, “Robust monocular SLAM in dynamic environments”, IEEE International Symposium on Mixed and Augmented Reality (ISMAR), Adelaide, Australia, October 2013, trang 209–218 (36) H Lim, J Lim, and H J Kim, “Real-time 6-DOF monocular visual SLAM in a large-scale environment”, IEEE International Conference 48 DỰ ÁN DỰ THI KỲ THI KHOA HỌC KỸ THUẬT QUỐC GIA – TRƯỜNG PTNK on Robotics and Automation (ICRA), Hong Kong, China, June 2014, pp 1532–1539 (37) D Nister, “An efficient solution to the five-point relative pose prob- ´ lem”, IEEE Transactions on Pattern Analysis and Machine Intelligence, 26, số 6, trang 756–770, 2004 (38) A Chiuso, P Favaro, H Jin, and S Soatto, “Structure from motion causally integrated over time”, IEEE Transactions on Pattern Analysis and Machine Intelligence, 24, số 4, trang 523–535, 2002 (39) E Eade and T Drummond, “Scalable monocular SLAM”, IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 1, New York City, USA, June 2006, trang 469–476 (40) G Klein and D Murray, “Improving the agility of keyframe-based slam”, European Conference on Computer Vision (ECCV), Marseille, France, October 2008, trang 802–815 (41) K Pirker, M Ruther, and H Bischof, “CD SLAM-continuous localization and mapping in a dynamic world”, IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), San Francisco, USA, September 2011, trang 3990–3997 (42) S Song, M Chandraker, and C C Guest, “Parallel, real-time monocular visual odometry”, IEEE International Conference on Robotics and Automation (ICRA), 2013, trang 4698–4705 (43) P F Alcantarilla, J Nuevo, and A Bartoli, “Fast explicit diffusion for accelerated features in nonlinear scale spaces”, British Machine Vision Conference (BMVC), Bristol, UK, 2013 (44) X Yang and K.-T Cheng, “LDB: An ultra-fast feature for scalable augmented reality on mobile devices”, IEEE International Symposium on Mixed and Augmented Reality (ISMAR), 2012, trang 49–57 (45) M Smith, I Baldwin, W Churchill, R Paul, and P Newman, “The new college vision and laser data set”, The International Journal of Robotics Research, 28, số 5, trang 595–599, 2009 49 DỰ ÁN DỰ THI KỲ THI KHOA HỌC KỸ THUẬT QUỐC GIA – TRƯỜNG PTNK (46) A Geiger, P Lenz, C Stiller, and R Urtasun, “Vision meets robotics: The KITTI dataset”, The International Journal of Robotics Research, 32, số 11, trang 1231–1237, 2013 (47) V Lepetit, F Moreno-Noguer, and P Fua, “EPnP: An accurate O(n) solution to the PnP problem”, International Journal of Computer Vision, 81, số 2, trang 155–166, 2009 (48) P H Torr and A Zisserman, “Feature based methods for structure and motion estimation”, Vision Algorithms: Theory and Practice Springer, 2000, trang 278–294 (49) H Strasdat, “Local Accuracy and Global Consistency for Efficient Visual SLAM”, Ph.D dissertation, Imperial College, London, October 2012 Websites tham khảo (50) https://en.wikipedia.org/wiki/Epipolar_geometry (51) https://en.wikipedia.org/wiki/Levenberg%E2%80%93Marquardt_algorith m (52) http://www.computervisionblog.com/2016/01/why-slam-matters-future-ofreal-time.html (53) http://webdiis.unizar.es/~raulmur/orbslam/ (54) https://developers.facebook.com/docs/sharing/3d-posts/ (55) https://en.wikipedia.org/wiki/Simultaneous_localization_and_mapping (56) https://www.nature.com/subjects/3d-reconstruction (57) http://web.stanford.edu/class/cs231a/ (58) https://www.doc.ic.ac.uk/~ab9515/directvsfeature.html (59) http://wiki.ros.org/vn (60) https://opencv.org/ (61) http://eigen.tuxfamily.org/index.php?title=Main_Page (62) http://faculty.cse.tamu.edu/davis/suitesparse.html (63) https://github.com/strasdat/Sophus 50

Tiêu đề	Hệ Thống Phần Mềm Tái Tạo Không Gian Ba Chiều Trong Thời Gian Thực Với Camera Thông Dụng
Tác giả	Huỳnh Lâm Hải Đăng, Bùi Quang Minh
Người hướng dẫn	Thầy Đào Duy Nam
Trường học	Trường Phổ Thông Năng Khiếu
Thể loại	dự án
Năm xuất bản	2018-2019
Thành phố	TP Hồ Chí Minh

Định dạng
Số trang	50
Dung lượng	3,04 MB