Trong bài toán phân loại dữ liệu, thuật toán K-means được triển khai theo các bước:
Bước 1: Chọn K cụm trọng tâm khởi tạo, z1, z2, z3, …, zn, với 0 < K ≤ n
Bước 2: Phân phối mẫu trong K-means. Mẫu thường được gán với cụm trung tâm gần nhất theo công thức: x € Si(n) nếu |x – zi(n)| ≤ |x – zj(n)| với j = 1, 2, 3, …, k; i ≠ j; Si(n) là bộ mẫu của trọng tâm zi(n), trong đó n chỉ số bước lặp của bài toán.
Bước 3: Tính toán trọng tâm cụm mới từ mỗi cụm Si(n). Tìm giá trị mới cho mỗi zi. Trọng tâm cụm mới, zi(n+1) sẽ là giá trị trung bình của các điểm trong Si(n) như:
Trong đó ci là tập điểm thuộc về cụm thứ i
Bước 4: So sánh zi(n) và zi(n+1) với mọi i.
Tính toán khoảng cách giữa mỗi cặp điểm trong mỗi lần lặp liên tiếp:
b. Nếu không thì tiếp tục lặp các lần lặp tiếp theo từ bước 2.
Trong thuật toán K-means việc chọn được giá trị k sẽ có thể giúp tăng tốc được thuật toán, tối ưu và cải tiến thuật toán tốt hơn. Có nhiều phương pháp để có thể lựa chọn được giá trị k như sử dụng ý kiến của chuyên gia, thử mô hình với các giá trị của k và từ đó chọn k tốt nhất hay sử dụng kỹ thuật CV (Cross - Validation), ….
2.1.2 Phương pháp học sâu
A. Phương pháp học sâu trong bài toán phân lớp đám mây điểm LiDAR
Hiện tại, trong các phương pháp phân loại dữ liệu đám mây điểm LiDAR chủ yếu bao gồm trích xuất đặc trưng và sử dụng máy học. Phương pháp dựa trên trích xuất đặc trưng chủ yếu sử dụng độ cao, cường độ, thời gian lặp lại và thông tin ngữ cảnh không gian khác của đám mây điểm để trích xuất các đặc trưng và thiết kế phân loại để phân loại. Trong các phương pháp hiện có, các phương pháp dựa trên trích xuất đối tượng địa lý được sử dụng rộng rãi đã sử dụng. Tuy nhiên, các phương pháp như vậy yêu cầu một số kiến thức trước và cần xác minh tính hợp lệ của các đặc trưng được trích xuất.
Phương pháp học máy đã đạt được những thành tựu đáng kể trong việc xử lý ảnh. Tuy vậy, do sự phức tạp, không có cấu trúc và kích thước rất lớn của dữ liệu đám mây điểm, học máy cần thêm nghiên cứu xử lý dữ liệu đám mây điểm. Hầu hết các nghiên cứu hiện có chuyển đổi dữ liệu đám mây điểm thành hình ảnh hoặc lưới voxel hình thành trước khi học đặc trưng để sử dụng trong mạng nơ- ron. Dữ liệu đám mây điểm thường được chuyển đổi thành lưới voxel và mạng nơ-ron ba chiều được áp dụng cho lưới voxel để phân loại và phân đoạn đám mây điểm. Tuy nhiên, biểu diễn lưới voxel sẽ gây mất thông tin và ảnh hưởng đến độ chính xác của phân loại do dữ liệu nhiều khu vực của đám mây điểm quá thưa
thành hình ảnh 2D và sử dụng mạng nơ-ron tích hợp 2D để phân loại, nhưng nó bị giới hạn bởi phân loại cảnh quy mô lớn và hiểu ngữ nghĩa.
Lưới Voxel có thể được hiểu là tổng thể của các pixel hai chiều trong không gian ba chiều, là một tập hợp các phần tử hình khối được phân bố ở tâm của các lưới trực giao. Quá trình của Việc chuyển đổi một mô hình hình học (vectơ) thành một mô hình voxel được gọi là voxelization. Tạo voxel ba chiều từ dữ liệu LiDAR là một phương pháp phổ biến để khai thác đặc trưng của khu vực khảo sát. Phương pháp này giúp làm giảm sự dư thừa của dữ liệu đám mây điểm, tăng tốc độ tính toán và giải quyết vấn đề dữ liệu đám mây điểm không có cấu trúc và không có cấu trúc được áp dụng cho các mạng nơ ron. Tuy nhiên, hầu hết các các phương pháp tạo voxel hiện tại chỉ xem xét mối quan hệ với các điểm lân cận trong không gian, không xem xét sự đồng nhất của các điểm trong voxel. Điều này dễ dàng tạo ra các voxel hỗn hợp. Không giống như chia lưới đầy đủ của đám mây điểm, thuật toán chọn vùng lân cận cho mỗi điểm trong đám mây điểm và voxel vùng lân cận của điểm thành một lưới voxel có kích thước n * n * n. Lưới voxel cho mỗi điểm đóng vai trò là đầu vào cho 3D-CNN.
Trong luận văn, tác giả có nghiên cứu và sử dụng PointNet, một mạng học sâu được sử dụng trong phân lớp và phân đoạn đám mây điểm LiDAR. PointNet dựa trên đặc trưng của đám mây điểm đó là tập hợp các điểm và do đó bất biến đối với các hoán vị của nó các thành viên, yêu cầu một số đối xứng nhất định trong mạng tính toán. PointNet có kiến trúc thống nhất trực tiếp lấy các đám mây điểm làm đầu vào và đầu ra các nhãn lớp cho toàn bộ đầu vào hoặc mỗi phân đoạn điểm / nhãn bộ phận cho mỗi điểm của đầu vào. Kiến trúc cơ bản của mạng đơn giản một cách đáng ngạc nhiên vì trong giai đoạn đầu, mỗi điểm được xử lý giống nhau và độc lập, bên trong cài đặt cơ bản mỗi điểm chỉ được biểu thị bằng ba tọa độ (x, y, z). Hiệu quả của PointNet đó là tối ưu hóa lựa chọn đặc trưng hoặc các điểm thông tin của đám mây điểm và mã hóa lý do lựa chọn của họ. Các lớp được kết nối đầy đủ cuối cùng của mạng tổng hợp các giá trị tối ưu đã học này vào bộ
mô tả toàn cục cho toàn bộ hình dạng như đã đề cập ở trên (phân loại hình dạng) hoặc được sử dụng để dự đoán mỗi nhãn điểm (phân đoạn hình dạng).
B. Cấu trúc của PointNet
Cấu trúc tổng quát của PointNet được sử dụng để phân loại đám mây điểm LiDAR được thể hiện trong hình sau [12]: