Robot gắp vật dựa trên công nghệ học sâu và xử lí ảnh rgb d

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI TRƯỜNG CƠ KHÍ LUẬN VĂN THẠC SĨ Robot gắp vật dựa công nghệ học sâu xử lí ảnh RGB-D TRẦN BẢO LONG Baolong17111997@gmail.com Ngành Kỹ thuật Cơ điện tử Giảng viên hướng dẫn: TS Hoàng Hồng Hải Khoa: Cơ điện tử HÀ NỘI, 05/2022 i Chữ ký GVHD TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI TRƯỜNG CƠ KHÍ KHOA CƠ ĐIỆN TỬ NHIỆM VỤ LUẬN VĂN Họ tên sinh viên: Trần Bảo Long Lớp: Khóa: MSHV: 20202658M Chuyên ngành: Kỹ thuật Cơ điện tử Hệ: Thạc sĩ Tên đề tài Robot gắp vật dựa công nghệ học sâu xử lí ảnh RGB-D Nội dung thuyết minh Chương Tổng quan nghiên cứu Chương Sự hiểu biết phân đoạn vật thể Chương Thuật tốn đề xuất đánh giá Chương Thí nghiệm Chương Kết luận Hà Nội, ngày tháng năm 2022 Giáo viên hướng dẫn TS Hoàng Hồng Hải ii LỜI CẢM ƠN Tác giả xin chân thành cảm ơn TS Hoàng Hồng Hải, người hướng dẫn giúp đỡ tận tình từ định hướng đề tài, tổ chức thực đến q trình viết hồn chỉnh luận văn Tác giả bày tỏ lịng biết ơn thầy, mơn Cơ điện tử - Viện Cơ khí trường Đại Học Bách Khoa Hà Nội Xin cảm ơn Ban lãnh đạo Viện đào tạo Sau đại học, Viện khí trường Đại Học Bách Khoa Hà Nội tạo điều kiện thuận lợi để tác giả hoàn thành luận văn Cuối cùng, tác giả xin xin chân thành cảm ơn gia đình, bạn bè đồng nghiệp tạo điều kiện, quan tâm, giúp đỡ, động viên suốt trình học tập hồn thành luận văn Do lực thân cịn nhiều hạn chế nên luận văn tránh khỏi sai sót, tác giả mong đóng góp ý kiến thầy, cô, nhà khoa học bạn đồng nghiệp Tác giả xin chân thành cảm ơn! Tác giả Trần Bảo Long iii TÓM TẮT LUẬN VĂN Để giúp robot hoạt động cách an tồn hiệu mơi trường thực tế, nơi mà mơi trường xung quanh khơng biết trước, robot cần có nhận thức đầy đủ Để giải vấn đề này, chủ đề nghiên cứu tái tạo bối cảnh, phát vật thể 3D, ước lượng hình dáng vật thể trở nên ngày quan tâm Chúng đóng vai trị quan trọng việc cung cấp nhận thức giới cho robot hay tránh va chạm không mong muốn với môi trường Trên tất cả, phân đoạn vật thể nhiệm vụ quan trọng để đạt mục đích Những phương pháp có nhiều cải thiện lớn so với khứ Tuy nhiên phương pháp phụ thuộc nặng nề liệu 2D dựa vào liệu 3D không đủ khả để cung cấp giải pháp tồn diện cho việc phân đoạn xác Chính thế, nghiên cứu này, tơi đề xuất cách tiếp cận sử dụng thuật toán 3D tích hợp với Mask R-CNN để khắc phục yếu thể Mask R-CNN việc phân đoạn vùng biên Phương pháp đề xuất kiểm chứng thơng qua thí nghiệm với bối cảnh hỗn độn che khuất Chúng cho thấy đề xuất tơi có độ xác cao ổn định so với mơ hình gốc Bên cạnh đóng góp mà nghiên cứu tơi phần nghiên cứu, thực nghiệm tìm hiểu sâu sắc thuật toán 3D Những thành nghiên cứu nguyên liệu tốt cho công việc tương lai tốn xác định vật thể 3D ước lượng hình dáng vật thể iv MỤC LỤC LỜI CẢM ƠN iii TÓM TẮT LUẬN VĂN iv MỤC LỤC v DANH SÁCH HÌNH ẢNH vii DANH SÁCH BẢNG x Chương TỔNG QUAN NGHIÊN CỨU 1.1 Tổng quan 1.2 Đặt vấn đề 1.3 Đóng góp nghiên cứu 1.4 Outline Chương SỰ HIỂU BIẾT VỀ PHÂN ĐOẠN VẬT THỂ 2.1 Sự phát triển thuật toán phân đoạn vật thể sử dụng liệu 2D 2.1.1 Bài toán phát đối tượng 2.1.2 Đánh giá Mask R-CNN 10 2.1.3 Những nghiên cứu cải thiện Mask R-CNN 14 2.2 Phân đoạn vật thể dựa vào liệu 3D 18 2.2.1 PointNet 18 2.2.2 PointNet++ 19 Chương THUẬT TOÁN ĐỀ XUẤT VÀ ĐÁNH GIÁ 21 3.1 3.1.1 Những thuật toán phân đoạn truyền thống sử dụng giữ liệu 3D 21 Random Sample Consensus .21 v 3.1.2 Difference of Normals xác định vecto pháp tuyến 26 3.1.3 Euclidean Cluster Extraction 28 3.2 Phương pháp đề xuất 29 3.3 Kết đánh giá 37 3.3.1 Chuẩn bị thí nghiệm 37 3.3.2 Kết đánh giá 39 3.3.3 Thảo luận 45 Chương THÍ NGHIỆM 47 4.1 Mơ hình thực nghiệm 47 4.2 Kết luận chương 50 Chương KẾT LUẬN 53 5.1 Kết luận nghiên cứu 53 5.2 Nghiên cứu tương lai 55 DANH MỤC THAM KHẢO 57 vi DANH SÁCH HÌNH ẢNH Hình 1 Thị giác máy tính hệ thông robot Hình Ví dụ phân đoạn vật thể ước lượng hình dáng vật [5] Hình Mask R-CNN – thuật toán tối ưu phân đoạn vật thể đạt kết bối cảnh vật chồng chất Hình Sơ đồ tổng quan hệ thống phương pháp xác định vật thể R-CNN [14] Hình 2 Sơ đồ tổng quan Fast R-CNN [18] Hình Một ví dụ RoI pooling, vùng RoI có kích thước 7x5 cần chuyển kích thước cố định 2x2 để đưa vào lớp tích chập Lưu ý rằng, kích thước vùng ROI khơng bắt buộc phải chia hết kích thước phần pooling (a) Ảnh vùng ROI (b) Vùng ROI (c) Vùng ROI vùng pooling (d) Kết Max pooling Hình Sơ đồ tổng quan Faster R-CNN 10 Hình Kiến trúc Mask R-CNN 11 Hình Ví dụ cách hoạt động RoI Align (a) Bản đồ đặc trưng đầu vào (b) Bản đồ đặc trưng bị chia vào lưới với giá trị tọa độ số phức (c) ROI Align đưa giá trị xác định ô điểm sử dụng nội suy song tuyến tính (d) Một ví dụ việc tính tốn giá trị điểm nội suy (e) Sau tính tốn giá trị điểm, giá trị trung bình lớn thường lựa chọn 12 Hình giải thích kết Mask Scoring Trong bla blo khơng phản ánh xác chất lượng mask bolobalo 15 Hình Kiến trúc MR-RCNN 17 Hình Ví dụ kết PointNet, phương pháp giải trực tiếp nhiệm vụ phân đoạn phần, phân đoạn vật thể với dạng liệu mesh, đám mây điểm 19 Hình 10 Học đặc điểm tập hợp điểm theo cấp bậc PointNet++ [39] 20 vii Hình Giải thích cho sai sót phương pháp bình phương tối thiểu kết hợp với loại bỏ điểm Cụ thể, cho trước tập điểm hình, tìm đường thẳng tốt u cầu khơng có liệu sai lệch khỏi đường thẳng 0.8 đơn vị Đồ thị cho thấy kết phương pháp hoàn toàn khác biệt với đường thẳng mơ hình lí tưởng 22 Hình Giải thích q trình lặp phương pháp sai số bình phương tối thiểu kết hợp với loại bỏ điểm Sau vòng lặp, q trình loại bỏ điểm có sai số cộng dồn so với đồng tình model (những điểm có dấu sao) lớn 0.8 đơn vị bị loại bỏ khơng cịn điểm có độ sai lệch lớn 0.8 đơn vị 23 Hình 3 Giải thích chế hoạt động RANSAC diễn giải vịng lặp ví dụ (a) Lấy điểm mẫu (b) Tính tốn model từ điểm lấy mẫu (c) Tìm tất điểm tồn liệu ủng hộ mơ hình với độ dung sai  24 Hình Giải thích việc tính số lần lấy mẫu cần thiết cho RANSAC Trong vịng trịn ví dụ cho việc tìm mơ hình đường thẳng ( s = ) cho tập liệu biết trước với yêu cầu e = 30% Số lần lấy mẫu cần thiết 25 Hình Một ví dụ sử dụng RANSAC để loại bỏ mặt phẳng (a) đám mây điểm (b) đám mây điểm sau loại bỏ mặt phẳng 25 Hình Minh họa khác vecto pháp tuyến vùng nhỏ vùng lớn p điểm chọn, rs bán kính bé, rl bán kính lớn, T vecto pháp tuyến, n vecto pháp tuyến 26 Hình Các phương pháp xác đinh vecto pháp tuyến (a) Một mặt phẳng đặt vào điểm p điểm hàng xóm (b) Góc vecto pháp tuyến vecto tiếp tuyến cực đại hóa (c) Trung bình các vecto pháp tuyến hình tam giác với cặp hàng xóm 27 Hình Ví dụ tính tốn vecto pháp tuyến (a) Đám mây điểm (b) Vecto pháp tuyến 28 Hình Ví dụ sử dụng Euclidean Cluster Extraction cho phân đoạn vật thể đám mây điểm (a) Đám mây điểm (b) Kết phân đoạn 29 Hình 10 Í tưởng việc sử dụng thuật toán phân đoạn 3D kết hợp Mask R-CNN 30 viii Hình 11 Chi tiết thuật tốn tơi đề xuất 31 Hình 12 Mask R-CNN kết 32 Hình 13 So sánh kết nỗ lực bảo vệ vùng bị phân loại nhầm Mask R-CNN DoN Grabcut (a) Ảnh màu (b) Grabcut (c) DoN 34 Hình 14 Mơ tả của việc phân tách vùng biên vật thể (a) Kết phân đoạn Mask R-CNN nguyên (b) Kết phân đoạn DoN (c) Vùng biên vật thể tách biệt 35 Hình 15 Mơ tả q trình phân đoạn phần biên vật thể Euclidean Cluster Extraction (a) Phần mặt nạ nguyên Mask R-CNN (b) Phần biên vật thể tách biệt (c) Kết phân đoạn tơi 37 Hình 16 Huấn luyện mạng ban đầu với Resnet 101 Resnet 50 38 Hình 17 Sự so sánh (a) ảnh gốc, (b) kết Mask R-CNN (c) phương pháp Phương pháp tơi tìm thấy tất vùng biên vật thể, trình bày vịng trịn trắng 40 Hình 18 Sự so sánh Mask R-CNN phương pháp đề xuất cho bốn vật thể (a) Cup IoU (b) Blue box IoU (c) Cylinder IoU (d) White box IoU 43 Hình Thí nghiệm chuẩn bị trường Đại học Bách khoa Hà Nội 48 Hình Thí nghiệm robot mơ hệ điều hành ROS 49 Hình Sơ đồ chu trình hoạt động hệ thống 49 Hình 4 Hình ảnh minh họa việc gắp thả vật thể 50 Hình Kết phân đoạn hệ thống robot gắp vật thực Trường Đại học Bách khoa Hà Nội (a) Ảnh màu (b) Kết Mask R-CNN nguyên (c) Kết phương pháp 51 Hình Kết thí nghiệm độ thành cơng gắp vật hệ thống áp dụng phương pháp đề xuất Mask R-CNN nguyên 52 ix DANH SÁCH BẢNG Bảng Bảng so sách số IoU phương pháp Mask R-CNN nguyên thuật toán phân đoạn 3D truyền thống 41 Bảng Độ xác trung bình phương pháp so sánh với Mask R-CNN nguyên 44 x Chương 4: THÍ NGHIỆM Chương THÍ NGHIỆM Chương trình bày việc áp dụng thuật toán đề xuất cho hệ thống robot gắp vật khn viên phịng thí nghiệm trường Đại học Bách khoa Hà Nội Thí nghiệm khả áp dụng thuật toán đề xuất vào hệ thống thực tế Bằng cách đánh giá hệ thống gắp vật áp dụng Mask R-CNN nguyên phương pháp đề xuất 4.1 Mơ hình thực nghiệm Thí nghiệm tơi thực phịng thí nghiệm trường Đại học Bách khoa Hà Nội Thí nghiệm trang bị với hệ thống camera Kinect V1, cánh tay robot thiết kế chế tạo phương pháp in 3D đồng nghiệp trường Đại học Bách khoa Hà Nội Thí nghiệm mục tiêu gắp vật thể xếp vật thể vào vị trí mong muốn Thí nghiệm bố trí nhằm áp dụng thuật toán đề xuất vào hệ thống robot để gắp vật từ vị trí đến vị trí khác Để đơn giản hóa bỏ qua phức tạp vật lí q trình gắp vật, tơi bố trí thí nghiệm với vật thể có biên dạng đơn giản, đối xứng Hệ thống thiết lập hình 4.1 Ý tưởng thí nghiệm sử dụng camera Kinect V1 để thu thập ảnh Ảnh thu thập bao gồm ảnh màu ảnh độ sâu xử lí thuật tốn đề xuất thơng qua máy tính, từ phân đoạn xác định trọng tâm vật Từ trọng tâm mặt nạ vật thể, robot tiến hành gắp vật điểm tâm di chuyển vật đến vị trí Đây cách đơn giản mà áp dụng để đánh giá khả áp dụng thuật toán đề xuất Trên thực tế, từ mặt nạ phân đoạn đưa phương thức gắp vật cho robot cần trình xử lí phức tạp để xuất chu trình kẹp tốt [51, 52] Cụ thể, để có chu trình gắp vật tốt, kết phân đoạn vật thể nên trải qua hai toán lớn ước lượng vật thể khơng gian 6D tốn ước lượng chu trình gắp cho vật Tuy nhiên, hai toán hai tốn lớn khơng nằm phạm vi nghiên cứu luận văn, tơi bố trí thí nghiệm đơn giản cách để kiểm chứng lại tính khả thi thuật tốn đề xuất 47 Chương 4: THÍ NGHIỆM Hình Thí nghiệm chuẩn bị trường Đại học Bách khoa Hà Nội Việc vận hành robot thiết lập hệ điều hành ROS mơ hình mơ ROS minh họa hình 4.2 Việc thực trình điều khiển qua ROS giúp giảm thiểu việc trực tiếp thiết kế hệ thống nhúng mà đảm bảo tính xác ổn định hệ thống Chu trình hoạt động hệ thống minh họa hình 4.3 Cụ thể, sau hệ thống khởi động, thông số ban đầu hệ thống bao gồm camera, thông số ban đầu robot thiết lập Trong đó, camera 3D thu thập ảnh màu ảnh độ sâu Dữ liệu trả máy tính áp dụng thuật tốn đề xuất để phân đoạn ảnh Sử dụng thuật toán cung cấp từ thư viện OpenCV, máy tính tính tốn vị trí tâm vật hệ trục tọa độ Oxyz gửi môi trường ROS Tại đây, mơi trường ROS hỗ trợ tính tốn tốn động học ngược môi trường mô gửi lệnh xuống phần cứng robot thực thi gắp vật Nhiệm vụ robot gắp vào tâm vật di chuyển vật đến vị trí Thí nghiệm áp dụng phương pháp Mask R-CNN gốc phương pháp đề xuất để chứng minh phương pháp tơi có tiềm nâng cao khả thi gắp vật robot 48 Chương 4: THÍ NGHIỆM Hình Thí nghiệm robot mơ hệ điều hành ROS Hình Sơ đồ chu trình hoạt động hệ thống 49 Chương 4: THÍ NGHIỆM (a) (b) Hình 4 Hình ảnh minh họa việc gắp thả vật thể 4.2 Kết luận chương Trong thí nghiệm thực tế này, tơi triển khai hệ thống đánh giá khả gắp đặt vật thành cơng Dù khơng thể hồn thiện đánh giá việc gắp đặt vật thành công thông qua việc định chu trình gắp vật mặt nạ vật thể Tuy nhiên phần khẳng định việc xác phân đoạn vật thể đóng góp vào việc thành cơng vận hành robot Việc phân đoạn xác vật thể có nghĩa xác định trọng tâm, điểm gắp thí nghiệm tơi, xác Và thế, robot thành công việc thao tác (a) 50 Chương 4: THÍ NGHIỆM (b) (c) Hình Kết phân đoạn hệ thống robot gắp vật thực Trường Đại học Bách khoa Hà Nội (a) Ảnh màu (b) Kết Mask R-CNN nguyên (c) Kết phương pháp tơi Kết q trình phân đoạn thí nghiệm rõ ràng nhận thấy Mask RCNN cho kết so với phương pháp tơi hình 4.5 Sự nghèo nàn kết phân đoạn dẫn hình 4.5.b đến khơng hiểu biết tồn diện hệ thống vật thể Phần trọng tâm bị xác định sai phương pháp xác định chế gắp vật đơn giản thí nghiệm, dễ dẫn đến chu trình gắp thành cơng So sánh với nó, lớp mặt nạ hình 4.5.c đầy đủ cung cấp đủ thông tin cho robot vận hành thành cơng Tơi thực 100 thí nghiệm để kiểm chứng ảnh hưởng độ xác phân đoạn hệ thống gắp vật Kết cho thấy với độ xác 51 Chương 4: THÍ NGHIỆM phân đoạn tốt mà phương pháp cung cấp cho tỉ lệ thành công cao vượt trội so với Mask R-CNN nguyên Qua phần cho thấy nỗ lực việc cải thiện độ xác phân đoạn vật thể mà nghiên cứu đề xuất, đóng góp phần khơng nhỏ vào việc vận hành hệ thống cánh tay robot Experimental results 100 90 80 70 60 50 40 30 20 10 Our Mask R-CNN Hình Kết thí nghiệm độ thành công gắp vật hệ thống áp dụng phương pháp đề xuất Mask R-CNN nguyên 52 Chương 5: KẾT LUẬN Chương KẾT LUẬN 5.1 Kết luận nghiên cứu Những công nghệ cung cấp nhận thức giới xung quanh cho robot bao gồm xác định vật thể 3D, ước lượng kiểu dáng vật thể trở thành hướng nghiên cứu ưa thích nhà nghiên cứu Những nhiệm vụ cần yếu tố tiên xác việc phân đoạn vật thể Bởi màu sắc RGB đám mây điểm tương ứng với lớp mặt nạ mã hóa học để dự đốn hình dáng vật Vì thế, độ xác phân đoạn vật thể, đặc biệt bối cảnh lộn xộn che khuất, băn khoăn lâu dài nghiên cứu Những nghiên cứu thông thường dựa vào liệu ảnh màu RGB dựa vào liệu 3D Dựa theo khảo sát phương pháp tồn nhắc đến phía trên, nhiều nghiên cứu trước khơng có đủ khả để cung cấp giải pháp triển vọng để giải vấn đề cho phân đoạn xác vật thể cách hiệu Điều phần điều tóm tắt đây: • Những phương pháp học đặc điểm 2D có bất lợi rõ ràng đối mặt với bối cảnh khắc nghiệt Việc xem xét đặc điểm màu sắc khiến cho bối cảnh thiếu độ phân giải, thiếu ánh sáng ảnh màu chồng chất tạo kết Mặc dù với mạnh mẽ mơ hình phức tạp, giúp cho kết phân đoạn nhìn chung tốt, vùng nhạy cảm bao gồm vùng biên viền vật, xem xét đơn liệu 2D chưa đủ Vì thế, việc đồng thời quan tâm đặc tính 3D vecto pháp tuyến hay mối quan hệ khoảng cách Euclidean không gian cho phép việc cải thiện độ xác phân đoạn vật thể trở nên xác • Việc cải thiện độ xác phân đoạn vật thể giải mở rộng thêm tập liệu Các tập liệu khổng lồ công bố thúc đẩy mơ hình trở nên mạnh mẽ hiệu nhiều nhiều ứng 53 Chương 5: KẾT LUẬN dụng Tuy nhiên, chúng bao phủ toàn ứng dụng thực tế cần làm việc với vật thể cụ thể Lúc này, tập liệu lớn chuẩn bị tay điều cần thiết cho kết phân đoạn tốt Tuy nhiên, công việc tiêu tốn nhiều thời gian nhiều sức lao động khó để hồn thiện • Những phương pháp dựa vào liệu 3D không bị ảnh hưởng yếu tố môi trường, định dạng liệu không dễ dàng để khai thác Nó khơng khơng phổ biến dạng liệu đó, mà cịn u cầu tính tốn lớn Điều làm cho phương pháp phân đoạn dựa vào mạng nơ-ron xử lí liệu dạng 3D khó triển khai Chính thế, việc thực đề tài nghiên cưu này, thực để cung cấp cách tiếp cận sáng tạo tích hợp thuật tốn 3D truyền thống với thuật toán Mask R-CNN để ức chế yếu điểm cách tiếp cận nhắc Phương pháp không cần tập liệu tự chuẩn bị lớn đạt kết tốt điều kiện thử nghiệm vật thể lộn xộn chồng chất Cụ thể, phương pháp tơi nhìn chung có độ xác mAP cao số IoU cao ổn định so sánh với Mask R-CNN nguyên Kết đạt nhờ đóng góp nghiên cứu: • Bổ sung nhánh xử lí 3D vào Mask R-CNN để tận dụng ảnh độ sâu sẵn có giải pháp để sửa chữa thiếu phân loại Mask R-CNN Đây điều mà phương pháp dựa vào ảnh màu khó xử lí • Một phươn pháp phân đoạn vùng nhạy cảm biên cạnh vật thể sau phân loại chúng vào phân lớp đề xuất Các lớp mặt nạ bao phủ tồn vật thể thu thay mặt nạ nghèo nàn mà Mask R-CNN cung cấp Kết cải thiện độ xác đáng kể cho thấy khả thi việc áp dụng vào ứng dụng nghiên cứu xa • Những thí nghiệm tiến hành phịng thí nghiệm trường Đại học Bách khoa Hà Nội áp dụng phương pháp đề xuất kiểm chứng tính ứng dụng 54 Chương 5: KẾT LUẬN phương pháp thực Những thí nghiệm chưa áp dụng phương pháp cung cấp chiến thuật gắp vật tốt cho robot mà dựa kết phân đoạn thông tin không gian cách để xác định vật thể khơng gian Tuy nhiên, cho thấy ảnh hưởng việc phân đoạn xác quan trọng robot gắp vật Nói tóm lại, nghiên cứu thành công việc phát triển thuật toán phân đoạn 3D truyền thống việc kết hợp với Mask R-CNN cho việc cải thiện độ xác phân đoạn vật thể Nghiên cứu cung cấp cách tiếp cận việc thu hồi vùng vật thể bị bỏ qua phân loại chúng vào phân lớp thuật toán 3D truyền thống Kết là, vấn đề phân đoạn xác bối cảnh vật thể lộn xộn che khuất giải cách hiệu 5.2 Nghiên cứu tương lai Mục tiêu luận văn để phát triển thuật toán hiệu để khắc chế yếu điểm Mask R-CNN Cách tiếp cận sáng tạo phác thảo kiểm chứng thơng qua kiểm tra thí nghiệm Các lĩnh vực mà phương pháp tiếp tục cải thiện mở rộng liệt kê đây: • Cải thiện hiệu q trình xử lí tính tốn, kĩ thuật tính tốn song song khai thác Quá trình phân đoạn Mask R-CNN việc xử lí đám mây điểm bao gồm phân đoạn mặt phẳng, tính tốn vecto pháp tuyến phân đoạn thơ tính tốn đồng thời việc sử dụng khối xử lí đồ họa (GPU) lúc với khối xử lí trung tâm (CPU) Thêm vào đó, khối tăng tốc tính tốn GPU sử dụng để tăng tốc q trình phân tách vùng biên phân loại chúng vào phần mặt nạ tương ứng • Trong nỗ lực tăng độ xác thuật tốn phân đoạn, việc xậy dựng liệu đủ lớn cách triển vọng Để giải vấn đề tiêu tốn thời gian công sức lao động, liệu tổng hợp (synthetic data) lên hướng nghiên cứu ưa thích nhiều nhà nghiên 55 Chương 5: KẾT LUẬN cứu Trong nghiên cứu xa hơn, muốn khai thác liệu tổng hợp cách để làm giàu thêm liệu huấn luyện giúp độ xác thuật tốn bối cảnh khó khăn cho việc phân đoạn • Nghiên cứu xa việc xác định vật thể 3D 6D ước lượng hình dáng vật: Như đề cập phía trên, phân đoạn vật thể nguyên liệu quan trọng cho nhiều phương pháp xác định vật thể ước lượng hình dáng vật thể Vì thế, nghiên cứu nên xem xét để kết hợp xa với mơ hình học đặc điểm màu sắc đặc điểm cục để dự đoán vecto xoay vecto tịnh tiến Với việc cải thiện việc bao phủ toàn mặt nạ vật thể, cung cấp đủ liệu cho mơ hình hoạt động cách hiệu Trong khi, nghiên cứu phát triển thuật toán sáng tạo cho việc cải thiện độ xác phân đoạn, khuyến khích thực hiện, giải pháp hoàn thiện cho việc đối diện với bối cảnh vật thể hỗn độn Hơn nữa, chúng chứng minh tính ứng dụng phương pháp nghiên cứu nhằm nỗ lực cung cấp nhận thức giới xung quanh cho robot 56 DANH MỤC THAM KHẢO DANH MỤC THAM KHẢO [1] C R Qi, O Litany, K He and L J Guibas, "Deep Hough Voting for 3D Object Detection in Point Clouds," Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pp 9277-9286, 2019 [2] Y Hu, J Hugonot, P Fua and M Salzmann, "Segmentation-driven 6D Object Pose Estimation," Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp 3385-3394, 2019 [3] Y Konishi, Y Hanzawa and M Kawade, "Fast 6D Pose Estimation from a Monocular Image Using Hierarchical Pose Trees," European Conference on Computer Vision, pp 398-413, 2016 [4] M Zhu, K G Derpanis, Y Yang, S Brahmbhatt, M Zhang, C Phillips, M Lecce and K Daniilidis, "Single Image 3D Object Detection and Pose Estimation for Grasping," International Conference on Robotics and Automation (ICRA), 2014 [5] Y Xiang, T Schmidt, V Narayanan and D Fox, "PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes," Computer Vision and Pattern Recognition, 2018 [6] T.-Y Lin, M Maire, S Belongie, J Hays, P Perona, D Ramanan, P Dollár and C L Zitnick, "Microsoft COCO: Common Objects in Context," European Conference on Computer Vision, pp 740-755, 2014 [7] B Calli, A Singh, J Bruce, A Walsman, K Konolige, S Srinivasa, P Abbeel and A M Dollar, "Yale-CMU-Berkeley dataset for robotic manipulation research," The International Journal of Robotics Research, vol 36, no 3, 2017 [8] T Nguyen, E.-A Park, J Han, D.-C Park and S.-Y Min, "Object Detection Using Scale Invariant Feature Transform," Genetic and Evolutionary Computing, pp 6572, 2014 [9] J.-Y Choi, K.-S Sung and Y.-K Yang, "Multiple Vehicles Detection and Tracking based on Scale-Invariant Feature Transform," Intelligent Transportation Systems Conference, 2007 [10] D G Lowe, "Distinctive Image Features from Scale-Invariant Keypoints," International Journal of Computer Vision, p 91–110, 2004 57 DANH MỤC THAM KHẢO [11] H Bay, T Tuytelaars and L V Gool, "SURF: Speeded Up Robust Features," European Conference on Computer Vision, pp 404-417, 2006 [12] J Li and Y Zhang, "Learning SURF Cascade for Fast and Accurate Object Detection," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp 3468-3475, 2013 [13] R Girshick, J Donahue, T Darrell and J Malik, "Region-Based Convolutional Networks for Accurate Object Detection and Segmentation," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 38, no 1, pp 142-158, 2016 [14] R Girshick, J Donahue, T Darrell and J Malik, "Region-Based Convolutional Networks for Accurate Object Detection and Segmentation," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 38, no 1, pp 142-158, 2016 [15] P Sermanet, D Eigen, X Zhang, M Mathieu, R Fergus and Y LeCun, "OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks," Computer Vision and Pattern Recognition, 2013 [16] J R R Uijlings, K E A v d Sande, T Gevers and A W M Smeulders, "Selective Search for Object Recognition," International Journal of Computer Vision, vol 104, p 154–171, 2013 [17] N Dalal and B Triggs, "Histograms of oriented gradients for human detection," IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2005 [18] R Girshick, "Fast R-CNN," Proceedings of the IEEE International Conference on Computer Vision, pp 1440-1448, 2015 [19] S Ren, K He, R Girshick and J Sun, "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 39, no 6, pp 1137 - 1149, 2017 [20] J Redmon, S Divvala, R Girshick and A Farhadi, "You Only Look Once: Unified, Real-Time Object Detection," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp 779-788, 2016 [21] W Liu, D Anguelov, D Erhan, C Szegedy, S Reed, C.-Y Fu and A C Berg, "SSD: Single Shot MultiBox Detector," European Conference on Computer Vision, pp 21-37, 2016 58 DANH MỤC THAM KHẢO [22] K He and G Gkioxari, "Mask R-CNN," Proceedings of the IEEE International Conference on Computer Vision (ICCV), pp 2961-2969, 2017 [23] J Dai, K He and J Sun, "Instance-Aware Semantic Segmentation via Multi-Task Network Cascades," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp 3150-3158, 2016 [24] P O Pinheiro, R Collobert and P Dollar, "Learning to Segment Object Candidates," Computer Vision and Pattern Recognition, 2015 [25] P O Pinheiro, T.-Y Lin, R Collobert and P Dollár, "Learning to Refine Object Segments," European Conference on Computer Vision, 2016 [26] J Redmon and A Angelova, "Real-time grasp detection using convolutional neural networks," IEEE International Conference on Robotics and Automation (ICRA), 2015 [27] D Rao, Q V Le, T Phoka, M Quigley, A Sudsang and A Y Ng, "Grasping novel objects with depth segmentation," International Conference on Intelligent Robots and Systems, 2010 [28] A Ückermann, C Elbrechter, R Haschke and H Ritter, "3D scene segmentation for autonomous robot grasping," International Conference on Intelligent Robots and Systems, 2012 [29] O Ronneberger, P Fischer and T Brox, "U-Net: Convolutional Networks for Biomedical Image Segmentation," International Conference on Medical Image Computing and Computer-Assisted Intervention, pp 234-241, 2015 [30] X Wu, S Wen and Y.-a Xie, "Improvement of Mask-RCNN Object Segmentation Algorithm," International Conference on Intelligent Robotics and Applications, 2019 [31] C Rother, V Kolmogorov and A Blake, "GrabCut: Interactive Foreground Extraction Using Iterated Graph Cuts," ACM transactions on graphics, vol 23, no 3, p 309–314, 2004 [32] C Xu, G Wang, S Yan, J Yu, B Zhang, S Dai, Y Li and L Xu, "Fast Vehicle and Pedestrian Detection Using Improved Mask R-CNN" 59 DANH MỤC THAM KHẢO [33] T.-Y Lin, P Dollar, R Girshick, K He, B Hariharan and S Belongie, "Feature Pyramid Networks for Object Detection," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp 2117-2125, 2017 [34] Z Huang, L Huang, Y Gong, C Huang and X Wang, "Mask Scoring R-CNN," Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp 6409-6418, 2019 [35] Y Zhang, J Chu, L Leng and J Miao, "Mask-Refined R-CNN: A Network for Refining Object Details in Instance Segmentation," sensors, 2020 [36] S Liu, L Qi, H Qin, J Shi and J Jia, "Path Aggregation Network for Instance Segmentation," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp 8759-8768, 2018 [37] Y Li, H Qi, J Dai, X Ji and Y Wei, "Fully Convolutional Instance-Aware Semantic Segmentation," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp 2359-2367, 2017 [38] C R Qi, H Su, K Mo and L J Guibas, "PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp 652-660, 2017 [39] C R Qi, L Yi, H Su and L J Guibas, "PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space," Computer Vision and Pattern Recognition, 2017 [40] R Kurban, F Skuka and H Bozpolat, "Plane Segmentation of Kinect Point Clouds using RANSAC," International Conference on Information Technology, pp 1315, 2015 [41] Y Ioannou, B Taati, R Harrap and M Greenspan, "Difference of Normals as a Multi-scale Operator in Unorganized Point Clouds," Second International Conference on 3D Imaging, Modeling, Processing, Visualization & Transmission, pp 13-15, October 2012 [42] "pcl.readthedocs.io Available online: https://pcl.readthedocs.io/en/latest/cluster_extraction.html (accessed on March 2021)." 60 DANH MỤC THAM KHẢO [43] M A Fischler and R C Bolles, "Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography," Communications of the ACM, vol 24, no 6, p 381–395, 1981 [44] R B Rusu and S Cousins, "3D is here: Point Cloud Library (PCL)," IEEE International Conference on Robotics and Automation, 2011 [45] "pcl.readthedocs.io Available online: https://pcl.readthedocs.io/projects/tutorials/en/latest/don_segmentation.html (accessed on March 2021)." [46] K Klasing, D Althoff, D Wollherr and M Buss, "Comparison of surface normal estimation methods for range sensing applications," IEEE International Conference on Robotics and Automation, 2009 [47] H Sarbolandi, D Lefloch and A Kolb, "Kinect range sensing: Structured-light versus Time-of-Flight Kinect," Computer Vision and Image Understanding, vol 139, pp 1-20, 2015 [48] M A Rahman and Y Wang, "Optimizing Intersection-Over-Union in Deep Neural Networks for Image Segmentation," International Symposium on Visual Computing, pp 234-244 , 2016 [49] J Lundell, F Verdoja and V Kyrki, "Beyond Top-Grasps Through Scene Completion," IEEE International Conference on Robotics and Automation (ICRA), 2020 [50] M Gualtieri, A t Pas, K Saenko and R Platt, "High precision grasp pose detection in dense clutter," International Conference on Intelligent Robots and Systems (IROS), 2016 [51] J Redmon and A Angelova, "Real-Time Grasp Detection Using Convolutional Neural Networks," IEEE International Conference on Robotics and Automation (ICRA), 2015 [52] S Kumra and C Kanan, "Robotic Grasp Detection using Deep Convolutional Neural Networks," International Conference on Intelligent Robots and Systems (IROS), 2017 61 ... điện tử Hệ: Thạc sĩ Tên đề tài Robot gắp vật d? ??a công nghệ học sâu xử lí ảnh RGB- D Nội dung thuyết minh Chương Tổng quan nghiên cứu Chương Sự hiểu biết phân đoạn vật thể Chương Thuật toán đề xuất... động nghiêm trọng sử d? ??ng kết cho việc d? ?? đốn hình d? ?nh vật ( 6D pose estimation) (a) (b) Hình 12 Mask R-CNN kết Sau đó, nhánh xử lí 3D, ảnh độ sâu chuyển thành đám mây điểm D? ??a vào thông tin khoảng... phương pháp phân đoạn vật thể d? ??a vào liệu 2D, tơi trình bày phát triển mạng nơron từ giải toán phát vật thể toán phân đoạn vật thể Các phương pháp phân đoạn vật thể d? ??a vào liệu 3D trình bày từ phương

Định dạng
Số trang	71
Dung lượng	2,36 MB