2. Những nội dung nghiên cứu chính
2.5 Đánh giá các thuật toán và lựa chọn thuật toán để thực nghiệm
Trong 04 thuật toán phân cụm được đề cập ở trên, có 03 thuật toán phân cụm không giám sát: là thuật toán MCC, EM và K-Means; 01 thuật toán phân cụm nửa giám sát là H-Kmeans. Ngoài ra, thuật toán K-Means có thể xem là thuật toán EM với tập dữ liệu hỗn hợp có phân bố chuẩn nhiều chiều. Thuật toán H-Kmeans là thuật toán được cải tiến từ thuật toán K-Means. Các thuật toán này đều có ưu và nhược điểm riêng, cụ thể:
*Thuật toán MCC:
- Ưu điểm: Với những nơi có độ dốc thay đổi liên tục MCC sẽ có độ
chính xác cao hơn. Thuật toán có độ tin cậy cao, giúp cực tiểu sai số trong khi vẫn còn giữ lại được tỉ lệ cao điểm mặt đất.
- Nhược điểm: Dữ liệu LiDAR được phân loại với MCC chỉ dừng lại ở
phân thành hai lớp mặt đất và không mặt đất. Độ chính xác của thuật toán phụ thuộc rất nhiều vào giá trị độ phân giải, mỗi độ phân giải khác nhau sẽ cho ngưỡng sai số là khác nhau.
*Thuật toán EM:
- Ưu điểm: Thuật toán EM có khả năng khám phá ra nhiều hình dạng cụm
khác nhau.
- Nhược điểm: Do thời gian lặp của thuật toán nên chi phí tính toán của
thuật toán là cao.
*Thuật toán K-Means:
- Ưu điểm: K-Means [7] là có độ phức tạp tính toán nhỏ O(NKt).
- Nhược điểm: K-Means không có khả năng tìm ra các cụm không lồi
hoặc các cụm có hình dạng phức tạp. K-Means không khắc phục được nhiễu và giá trị K được xác định bởi người dùng.
*Thuật toán H- Kmeans:
- Ưu điểm: Là giải pháp phân cụm tối ưu, chất lượng phân cụm nổi trội
50
liệu, khả năng kháng nhiễu. Khả năng dự đoán số cụm K tốt, đặc biệt khi K ban đầu càng lớn thì thuật toán dự đoán số cụm càng tốt.
- Nhược điểm: Chất lượng phân cụm bị ảnh hưởng bởi tập giống, số
lượng cụm K được xác định nhờ quan sát tập giống có thể ít hơn số cụm thực tế và khi đó chất lượng phân cụm sẽ thấp.
Khu vực học viên sử dụng để khảo sát thực nghiệm là một phần của Thành phố Bắc Giang. Đây là khu vực có đặc điểm kết cấu phức tạp (có cả rừng và các công trình xây dựng), độ dốc thay đổi (có cả đồi núi và đồng bằng); lớp phủ mặt đất đa dạng đối tượng (các lớp thực vật và công trình xây dựng khác nhau). Sau khi đánh giá các thuật toán đã nghiên cứu, học viên lựa chọn thuật toán MCC và K-Means để đi sâu nghiên cứu hiệu quả phân cụm dữ liệu LiDAR. Từ đó có hướng vận dụng kết hợp để phân cụm dữ liệu LiDAR hiệu quả hơn trong chương 3.