Mạng phân loại lấy n điểm làm đầu vào, áp dụng các phép biến đổi đầu vào và tính năng, sau đó tổng hợp các tính năng của điểm bằng cách tổng hợp tối đa. Đầu ra là điểm phân loại cho k lớp. Mạng phân đoạn là một phần mở rộng cho lưới phân loại. Nó kết hợp các tính năng toàn cầu và cục bộ và kết quả đầu ra cho mỗi điểm. “Mlp” là viết tắt của perceptron nhiều lớp, số trong ngoặc là kích thước lớp. Batchnorm được sử dụng cho tất cả các lớp với ReLU. Các lớp bỏ học được sử dụng cho mlp cuối cùng trong lưới phân loại.
Kiến trúc PointNet khá trực quan. Mạng phân loại sử dụng perceptron nhiều lớp được chia sẻ để ánh xạ từng điểm trong số n điểm từ 3 chiều đến 64 chiều. Điều quan trọng là một perceptron nhiều lớp duy nhất được chia sẻ cho mỗi điểm trong số n điểm. Tương tự, trong lớp tiếp theo, mỗi điểm n được ánh xạ từ 64 chiều đến 1024 chiều. Cuối cùng, mạng ba lớp được kết nối đầy đủ (FCN) được sử dụng để ánh xạ vector đặc trưng toàn cục với k điểm phân loại đầu ra.
- Tổng hợp tối đa lớp như một chức năng đối xứng để tổng hợp thông tin từ tất cả các điểm,
- Sự kết hợp thông tin địa phương và toàn cầu cấu trúc và hai mạng liên kết chung giúp sắp xếp cả hai điểm đầu vào
- Đặc trưng điểm.
Hai mối quan tâm lớn khi xử lý các điểm 3D là xử lý thứ tự của các điểm đầu vào và khung tọa độ không giống nhau cho tất cả các đối tượng. PointNet giải quyết những vấn đề đó bằng cách thêm các mơ-đun chuyển đổi và bằng cách sử dụng một đối xứng hàm số. Mô-đun chuyển đổi hoạt động như một mạng liên kết chung. Nó tính tốn một ma trận 3 × 3 (tương ứng với một liên kết chuyển đổi) và nhân nó với đám mây điểm đầu vào. Hệ số ma trận được tính tốn bởi một mạng nhỏ kiến trúc tương tự như mạng chính. Ý tưởng là sắp xếp tất cả các đám mây đầu vào thành một không gian chuẩn trước đối tượng địa lý khai thác. Sau khi chuyển đổi, đám mây điểm đi vào một loạt các lớp MLP để trích xuất các tính năng từ mỗi điểm. Những tính năng này sau đó được tổng hợp thành các tính năng tồn cầu bằng một lớp tổng hợp tối đa. Sự kết hợp của hai chức năng đó, các MLP theo sau bằng cách gộp tối đa, tạo thành một hàm đối xứng không nhạy cảm với thứ tự điểm bên trong đám mây đầu vào.
Để xử lý với những tập đầu vào khơng có thứ tự, chìa khóa cho cách tiếp cận là sử dụng một hàm đối xứng duy nhất, tổng hợp tối đa. Một cách hiệu quả, mạng tìm hiểu một tập hợp các chức năng / tiêu chí tối ưu hóa để chọn các điểm thú vị hoặc nhiều thơng tin của đám mây điểm và mã hóa lý do lựa chọn của chúng. Các lớp được kết nối đầy đủ cuối cùng của mạng tổng hợp các giá trị tối ưu đã học này thành bộ mơ tả tồn cục cho tồn bộ hình dạng như đã đề cập ở trên (phân loại hình dạng) hoặc được sử dụng để dự đốn trên mỗi nhãn điểm (phân đoạn hình dạng). Định dạng đầu vào của chúng tôi dễ dàng áp dụng các phép biến đổi cứng nhắc hoặc liên kết, vì mỗi điểm biến đổi độc lập. Do đó, có thể thêm một mạng biến áp không gian phụ thuộc vào dữ liệu cố gắng chuẩn hóa dữ liệu trước khi PointNet xử lý chúng, để cải thiện hơn nữa kết quả.