1. Trang chủ
  2. » Công Nghệ Thông Tin

Nhận dạng và truy vấn đối tượng ba chiều với Ring View và Neural Embedding

5 2 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 5
Dung lượng 908,33 KB

Nội dung

Bài toán nhận dạng và truy vấn vật thể ba chiều (3D) dành được sự quan tâm. Trong công trình này, tác giả đề xuất phương pháp nhận dạng vật thể 3D bằng cách khai thác các hình chiếu 2D của vật thể 3D từ nhiều góc nhìn khác nhau. Tác giả khai thác tính thứ tự giữa các hình chiếu 2D trong một ring, trong khi không ép buộc tính thứ tự giữa tất cả các hình chiếu.

Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học NHẬN DẠNG VÀ TRUY VẤN ĐỐI TƯỢNG BA CHIỀU VỚI RING VIEW VÀ NEURAL EMBEDDING Bùi Ngọc Minh*, Đỗ Trọng Lễ, Nguyễn Vinh Tiệp, Trần Minh Triết Trường Đại học Khoa học Tự nhiên – Đại học Quốc gia TP Hồ Chí Minh *Tác giả liên lạc: bnminh@selab.hcmus.edu.vn TĨM TẮT Bài tóa n nhận dạng truy vấn vật thể ba chiều (3D) dành quan tâm Trong cơng trình này, tác giả đề xuất phương pháp nhận dạng vật thể 3D cách khai thác hình chiếu 2D vật thể 3D từ nhiều góc nhìn khác Tác giả khai thác tính thứ tự hình chiếu 2D ring, khơng ép buộc tính thứ tự tất hình chiếu Với cấu trúc Ring View định nghĩa, đề xuất mạng neural network để phân lớp vật thể 3D Phương pháp đề xuất không giới hạn cho đối tượng 3D tồn vẹn, mà phân lớp đối tượng khơng tồn vẹn, thường bắt gặp từ liệu thu thập robot Tác giả thí nghiệm với tập liệu từ thi SHREC 2017 2018, phần “RGB-D to CAD retrieval”, với tập liệu ModelNet40 Phương pháp đề xuất đạt độ xác truy vấn mAP 85.5% tập liệu từ SHREC 2017, 85.4% tập liệu từ SHREC 2018 91.13% tập liệu ModelNet40, tương đương với cơng trình liên quan lĩnh vực Từ khóa: Máy học, thị giác máy tính 3D, nhận dạng đối tượng, truy vấn đối tượng 3D OBJECT CLASSIFICATION AND RETRIEVAL WITH RING VIEW AND NEURAL EMBEDDING Bui Ngoc Minh*, Do Trong Le, Nguyen Vinh Tiep, Tran Minh Triet University of Science – VNU Ho Chi Minh City *Corresponding Author: bnminh@selab.hcmus.edu.vn ABSTRACT The problem of 3D object classification and retrieval has attracted lot of attention In this work, we propose a method to recognize 3D object by exploiting the 2D projections of the 3D objects from different viewpoints We based on the topological combination between views in a ring, which has several views, while we not enforce the topological relationship between of all views With the predefined structure of view-rings, we propose a neural network to classify the 3D objects The proposed method is not limited to recognize complete 3D objects, but has the ability to classify even incomplete objects, which are commonly captured by moving robots We experiment our method with datasets from the SHREC2017 and SHREC2018 competition, track RGB-D to CAD retrieval, also with the ModelNet40 dataset We achieve the mAP retrieval score of 85.5% on the dataset from SHREC2017, 85.4% on the dataset from SHREC2018 and 91.13% on the ModelNet40 dataset, which are comparable with another works in the field Keywords: Machine learning, 3D vision, object classification, object retrieval 185 Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 TỔNG QUAN Lĩnh vực thị giác máy tính ba chiều chủ đề quan tâm nhiều xuất thiết bị, cảm biến thu thập liệu thông tin ba chiều nhu cầu thực tế yêu cầu máy tính hiểu sử dụng liệu ba chiều thực tăng cường, thực ảo, xe tự lái, robot giao hàng, siêu thị tự động, chứng thực khuôn mặt ba chiều,v.v… Yêu cầu tóa n nhận dạng đối tượng ba chiều là, đầu vào thông tin vật thể ba chiều, phân lớp gán nhãn phù hợp cho vật thể Mục tiêu hệ thống truy vấn thơng tin tìm kiếm mẫu thơng tin có liên quan tương tự với thơng tin mà người dùng cần tìm kiếm Trong đề tài này, nhóm tác giả tiếp cận lĩnh vực truy vấn thông tin ba chiều cross-domain dựa kết việc nhận dạng đối tượng 3D Nhóm tác giả đề xuất phương pháp biểu diễn đối tượng 3D cách biểu diễn multiview Tuy nhiên, thay sử dụng thơng tin view cách riêng lẻ, sử dụng thông tin view cách tồn cục, nhóm tác giả đề xuất cách biểu diễn đối tượng 3D ring view, đó, thứ tự ring khơng bắt buộc, tính thứ tự topology view ring sử dụng Sau có cách biểu diễn đối tượng 3D hệ thống ring-view Nhóm tác giả đề xuất phương pháp nhận dạng đối tượng RV-Net kết hợp với chế attention, phương pháp Neural Embedding sử dụng kĩ thuật có lĩnh vực xử lý văn để áp dụng qua việc nhận dạng đối tượng 3D CÁC CƠNG TRÌNH LIÊN QUAN Biểu diễn đối tượng 3D đặc trưng trích xuất thủ cơng Kỷ yếu khoa học Phương pháp truyền thống việc mô tả đối tượng ảnh ba chiều sử dụng đặc trưng truyền thống thiết kế người Phân loại đối tượng 3D dựa nhóm phương pháp bao gồm thao tác chính: phát keypoint, trích xuất đặc trưng phân lớp dựa đặc trưng trích xuất Các phương pháp thuộc nhóm có ưu điểm thực thi nhanh, khơng cần nhiều liệu mẫu, nhiên khơng đủ tổng quát tốt để nhận dạng liệu Các phương pháp áp dụng thành công Point Feature Histograms, Fast Point Feature Histograms, RoPS Các phương pháp tiếp cận sử dụng mạng Neural network - Deep Learning Dựa liệu voxel 3D ShapeNets VoxNet (Maturana et al., 2015), Volumetric and Multi-View CNNs nghiên cứu cho hướng tiếp cận Trong VoxNet, tác giả cộng chuyển đổi liệu point cloud thành liệu dạng voxel, sau thực học sâu mạng 3D CNN Các phương pháp tiếp cận sử dụng cách biểu diễn liệu ba chiều volumetric nhìn chung biểu diễn tính khơng gian liệu có nhiều mặt hạn chế như: liệu volumetric encode thưa, không mang nhiều thơng tin liệu ảnh; tóa n tử 3D convolution có chi phí tính tóa n lớn; đối tượng 3D biểu diễn độ phân giải thấp không đủ để thể chi tiết đặc trưng đối tượng Dựa liệu pointcloud Deep Kdnetwork (Klokov et al., 2017) sử dụng cấu trúc liệu K chiều (kd-tree) học liệu point cloud trực tiếp mà không cần thiết phải chuyển sang định dạng voxel PointNet sử dụng mạng MLP share weight để encode đặc trưng 186 Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học point riêng lẻ Tác giả Pointnet++ đề set abstraction layer, với tư tưởng KẾT QUẢ THÍ NGHIỆM chọn điểm đại diện cho Các độ đo sử dụng vùng cục thao tác convolutional Độ đo cho tóa n nhận dạng mạng neural phân lớp đối tượng 3D nhóm sử Dựa liệu view ảnh 2D Trong dụng độ đo accuracy tính cơng cơng trình Multi-view CNN (Hang Su thức: el al., 2015), tác giả đề xuất phương accuracy pháp đưa descriptor cho vật thể số mẫu dự đóa n xác = ba chiều cách dựa tập hợp tổng số mẫu ảnh 2D hình chiếu đối tượng Độ đo cho tóa n truy vấn sử 3D mặt phẳng Sau sử dụng dụng precision, recall, mean average mạng CNN ảnh 2D để tạo đặc precision (mAP), normalized trưng biểu diễn đối tượng 3D thông discounted cumulative gain (NDCG) qua tập ảnh 2D RotationNet sử dụng cuộcthi SHREC17 (Kanezaki et al., 2016) mơ hình cải SHREC18 tiến dựa Multi-view CNN Các tập liệu sử dụng cách giữ thứ tự view cần theo Tập liệu nhóm sử dụng để chiều định thay khơng giữ thứ tiến hành thí nghiệm tập liệu tự view ObjectNN sử dụng thi Biểu diễn đối tượng ring view SHREC 2017: RGB-D Object-to-CAD Nhóm đề xuất hai cách thiết lập hệ Retrieval Tập liệu thứ hai nhóm sử thống camera ảo khác để chụp dụng tập liệu sử dụng nhiều view góc độ khác đối track thi SHREC 2018: RGB-D tượng Đồng thời, cách xếp Object-to-CAD Retrieval view ring thực nhiều chiến lược khác Bảng Các tập liệu sử dụng Số Tên tập Tập Tập lượng Tính chất liệu query target lớp 1667 3308 Khơng tồn vẹn, SHREC2017 20 RGB-D CAD khơng hướng 2101 3308 Khơng tồn vẹn, SHREC2018 20 RGB-D CAD khơng hướng ModelNet40 9843 Train, 2468 Test 40 CAD, không hướng Hai tập liệu kể có đặc điểm chung đối tượng quen thuộc thường gặp nhà, liệu biểu diễn dạng mesh, có thơng tin màu sắc đối tượng cắt từ cảnh thật reconstruct lại camera 3D Do vậy, đối tượng không không chỉnh hướng khơng tồn vẹn 187 Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học Hình Tổng quan kiến trúc mạng RV-Net Thí nghiệm phương pháp Ring View lượng view ring, số lượng nhóm để gom cụm cho cho tự điển, Vector Trong mơ hình Ring View Vector kích thước cửa sổ context, phương đề xuất có nhiều siêu tham số có pháp xếp hạng cho tóa n truy vấn thể tùy chỉnh để tìm mơ hình tốt tìm phân lớp cho phương pháp đề xuất: số Bảng Accuracy ring tổ hợp ring tập SHREC2017 với ring gồm view Ring Số view Tập Validation Tập Test 59.02% 54.57% 62.44% 55.04% 1+2 16 70.00% 66.04% All views 26 71.95% 68.62% Dựa quan sát ảnh hình tốt liệu cung cấp nhiều render từ view khác view hơn, có nhiều thơng tin danh sách view đề xuất, đối tượng nhóm tác giả nhận thấy có view Thí nghiệm phương pháp RVNet thể đối tượng rõ ràng giúp Phương pháp phân lớp sử dụng RVcho việc nhận dạng phân lớp Net có hai tham số cần chọn Thứ đối tượng tốt view khác Do tham số phương pháp fusion nhóm tác giả định thí view ring Thứ hai nghiệm mơ hình Ring View hiệu circular ring square Vector cho ring tổ hợp ring ring khác Kết cho thấy mô Bảng Accuracy tập validation SHREC2017 với cách tổ hợp view ring khác Mean fusion FC fusion LSTM fusion Circular ring 79.30% 79.34% 79.86% Square ring 81.01% 83.02% 80.30% Cấu hình Square Ring tốt kết cấu hình sử dụng Circular Ring Đặc điểm đối tượng tập SHREC17 SHREC18 thường bị khơng tồn vẹn phía, thiết lập Square Ring cho ring bao gồm view tốt so với Circular Ring ring gồm view xung quanh đối tượng Phương pháp kết hợp view sử dụng tầng Fully Connected cho kết cao (83.02%) tập validation, cho thấy việc sử dụng tính thứ tự view ring mang lại hiệu Do đó, nhóm chọn cấu hình sử dụng cách thiết lập Square ring sử dụng tầng fully connected để phối hợp view để tiếp tục thí nghiệm Để đánh giá phương pháp RV-Net, nhóm tác giả tiến hành thí nghiệm so sánh với kết tập liệu SHREC2017, SHREC2018 188 Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học Bảng So sánh kết với nhóm khác SHREC18 Run Precision Recall mAP NDCG Tran View-ring-1 0.800 0.800 0.800 0.760 Tran View-ring-2 0.820 0.820 0.820 0.779 Tran View-ring-bow1 0.800 0.800 0.800 0.781 Tran View-ring-bow2 0.820 0.820 0.820 0.801 Li No-cross-domain 0.638 0.638 0.638 0.616 Li Cross-domain-lambda-1 0.657 0.657 0.657 0.631 Li Cross-domain-lambda-10 0.641 0.641 0.626 0.617 Khoi Pointwise-cnn 0.652 0.652 0.652 0.613 Khoi Pointnet 0.706 0.706 0.706 0.665 Nhóm SR-FC-Majority Vote 0.851 0.850 0.850 0.808 SV Nhóm SR-FC-WeightedVote 0.854 0.853 0.853 0.811 SV Kết thí nghiệm tập SHREC17 SHREC18 cho thấy phương pháp nhóm tác giả đề xuất đạt độ xác cao so với phương pháp lại với khoảng cách lớn (khoảng 3%) Điều chứng tỏ tính hiệu phương pháp liệu khơng tồn vẹn liệu SHREC17 SHREC18 KẾT LUẬN Trong đề tài này, nhóm tác giả đề xuất cách biểu diễn đối tượng 3D cách sử dụng việc kết hợp tính thứ tự bán phần view - hình chiếu 2D đối tượng 3D đề xuất khái niệm Ring View Nhóm tác giả đề xuất hai phương pháp phân loại đối tượng 3D, đặc biệt đối tượng 3D khơng tồn vẹn hiệu RV-Net Neural embedding Kết thí nghiệm cấc tập liệu SHREC2017, SHREC2018 ModelNet40 chứng tỏ khả hoạt động tốt phuơng pháp nhóm tác giả đề xuất Ngồi ra, việc áp dụng phuơng pháp lĩnh vực xử lý văn lĩnh vực nhận dạng đối tượng 3D ý tưởng nghiên cứu cần phát triển TÀI LIỆU THAM KHẢO A KANEZAKI Rotationnet: Learning object classification using unsupervised viewpoint estimation CoRR, vol abs/1603.06208, 2016 C R QI, H SU, K MO, AND L J GUIBAS Pointnet: Deep learning on point sets for 3d classification and segmentation CoRR, vol abs/1612.00593, 2016 D MATURANA AND S SCHERER VoxNet: A 3D Convolutional Neural Network for Real-Time Object Recognition In IROS, 2015 R KLOKOV AND V S LEMPITSKY Escape from cells: Deep kd-networks for the recognition of 3d point cloud models CoRR, vol abs/1704.01222, 2017 189 ... chứng thực khn mặt ba chiều, v.v… u cầu tóa n nhận dạng đối tượng ba chiều là, đầu vào thông tin vật thể ba chiều, phân lớp gán nhãn phù hợp cho vật thể Mục tiêu hệ thống truy vấn thơng tin tìm... thứ tự ring khơng bắt buộc, tính thứ tự topology view ring sử dụng Sau có cách biểu diễn đối tượng 3D hệ thống ring- view Nhóm tác giả đề xuất phương pháp nhận dạng đối tượng RV-Net kết hợp với chế... thường bị khơng tồn vẹn phía, thiết lập Square Ring cho ring bao gồm view tốt so với Circular Ring ring gồm view xung quanh đối tượng Phương pháp kết hợp view sử dụng tầng Fully Connected cho kết

Ngày đăng: 19/02/2022, 09:55

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w