2. Những nội dung nghiên cứu chính
2.6 Đánh giá kết quả phân cụm dữ liệu LiDAR của MCC và K-Means
2.6.1 Thuật toán MCC
Để đánh giá thuật toán, các tác giả đã sử dụng bộ dữ liệu thu được từ phía Bắc của Idaho. Đây là khu vực rừng phức tạp với diện tích 88ha, với các loại rừng khác nhau như rừng trồng, rừng tư nhân, ….
51
Thuật toán MCC khi áp dụng vào phân loại tín hiệu phản hồi LiDAR được thực hiện một cách tự động, kết quả tín hiệu phản hồi LiDAR được phân thành hai loại mặt đất và không mặt đất. Lỗi khi phân loại điểm mặt đất được đánh giá qua 204 điểm trong đó có 165 điểm GPS, 39 điểm của NOAA, và sử dụng sai số trung bình để đánh giá số điểm bị mất trong quá trình phân loại. Công thức tính toán sai số trung bình được thể hiện [9]:
𝑅𝑀𝑆𝐸 = √∑𝑛𝑖=1(𝑠̂ − 𝑧𝑖 𝑖)2
𝑛−1 (2.13)
Với các tham số được lựa chọn lần lượt là = 1.5, t = 0.3, với ba miền tỉ lệ để phân loại điểm, kết quả được các tác giả thực nghiệm:
Hình 2.13: Tỉ lệ các điểm thuộc hai lớp sau phân loại
Trong đó, sai số trung bình RMSE với hai khu vực thực nghiệm là 0.306 và 0.166. Kết quả chỉ ra rằng, MCC giúp cực tiểu sai số, trong khi vẫn còn tồn tại tỉ lệ cao của điểm mặt đất và độ tin cậy cao của các điểm được cung cấp.
Trong khi đó nhóm tác giả Wade T.Tinkham và Hongyu Huang đã có nghiên cứu so sánh về mức độ hiệu quả của hai thuật toán MCC và BCAL (Boise Center Aerospace Laboratory LiDAR) trong phân loại dữ liệu LiDAR để thành lập DTM. Độ chính xác của hai thuật toán được đánh giá qua hơn 7000 điểm đo có độ chính xác cao với 6 kiểu dữ liệu khác nhau. Khu vực nghiên cứu được tác giả sử dụng trong quá trình đánh giá là lưu vực RME, là một phần của Reynold. Khi đánh giá hiệu suất tổng thể của MCC và BCAL với mỗi độ phân giải khác nhau sẽ cho ngưỡng sai số là khác nhau. Tại độ phân giải là 1m, trị số ANOVA cho thấy không có sự khác biệt đáng kể giữa MCC và BCAL. Tại độ phân giải 0,5m, với các loại độ phủ khác nhau BCAL trội hơn hẳn MCC. Sau đó các tác giả tiến hành so sánh tạo DTM của hai thuật toán là không khác biệt. Nhưng khi kết hợp hai thuật toán MCC và
52
BCAL thì việc tạo DTM có độ chính xác cao hơn. Sau quá trình thử nghiệm, các tác giả chỉ ra rằng thuật toán BCAL thích hợp với khu vực có mật độ điểm dày đặc, thảm thực vật liên tục. Ở những nơi có độ dốc thay đổi liên tục MCC sẽ có độ chính xác cao hơn [16].
Với thuật toán MCC được các tác giả giới thiệu trong nghiên cứu sử dụng phép lặp TPS trong phân chia các tín hiệu phản xạ LiDAR. Tác giả đã chỉ ra rằng, thuật toán MCC hoạt động tốt nhất ở tỉ lệ 1.0 và giá trị độ cong 0.05.
2.6.2 Thuật toán K-Means
Để có thể đánh giá được khả năng phân cụm đám mây điểm LiDAR của thuật toán, nhóm tác giả đã thử nghiệm phân cụm với bộ dữ liệu được đo tại Nghệ An, với 485 điểm thử nghiệm, mỗi điểm được thể hiện với 3 thuộc tính (x, y, z), trong đó thuộc tính được sử dụng để phân loại là z (giá trị độ cao của điểm). Thuật toán được chạy với phần mềm SPSS 20 của IBM.
Thuật toán K-Means có nhiệm vụ dự đoán một giá trị số lượng cụm K hợp lý nhất trong khoảng [Kmin, Kmax]. Các các bộ dữ liệu LiDAR khác nhau, thuật toán đã đưa ra các giá trị K hợp lý nhất tương ứng. Với giá trị K = 5, kết quả phân loại được thể hiện như sau:
53
Với K = 5, qua 10 lần lặp thuật toán đã phân chia được 332 điểm vào 5 cụm, có 153 giá trị lỗi (điểm không được phân về cụm nào). Với trọng tâm của 5 cụm được khởi tạo như trong bảng số cụm khởi tạo (hình 2.15), với 10 lần lặp, trọng tâm của 5 cụm được tính toán lại như trong bảng số lần lặp của thuật toán. Kết quả trong tổng số 332 điểm có 2 điểm thuộc về cụm 1, 2 điểm cụm 2, 208 điểm cụm 3, 110 điểm cụm 4 và 10 điểm cụm 5.
Với K = 7, kết quả phân loại được thể hiện như sau:
a) Tâm khởi tạo của các cụm
b) Lịch sử lặp của thuật toán
c) Tâm mới của cụm
d) Số lượng điểm được phân vào mỗi nhóm sau phân loại
Hình 2.15: Kết quả phân loại với K=7
Khi tăng số cụm lên là 7, giá trị điểm không được gán vào cụm nào không thay đổi là 153 điểm, trọng tâm của cụm được lựa chọn như trong hình 7.a, qua số lần lặp là 10, trọng tâm của cụm được tính toán lại như trong hình 7.c. Kết quả có 12 điểm được gán vào cụm 1, 8 điểm được gán vào cụm 2, 179 điểm cụm 3, 99 điểm cụm 4, 2 điểm cụm 5, 30 điểm cụm 6 và 2 điểm cụm 7.
54
Sau khi thử nghiệm với các bộ dữ liệu trên thuật toán, nhận thấy đây là thuật toán phân loại dựa hoàn toàn vào khoảng cách. Các điểm được gán vào cụm (lớp) phụ thuộc vào khoảng cách của nó tới tâm cụm.
Tuy nhiên, với cả 2 giá trị k số lượng điểm lỗi chiếm tỉ lệ khá lớn 153/485 điểm (31.5%). Do vậy, thuật toán K-means là thuật toán có độ chính xác phụ thuộc vào quá trình tính toán trọng tâm của cụm qua mỗi lần lặp.
55
2.7. Kết chương
Từ các nghiên cứu của các nhóm tác giả trên thế giới về thuật toán MCC và K-Means trong phân cụm dữ liệu LiDAR có thể thấy rằng:
- Dữ liệu LiDAR được phân loại với MCC chỉ dừng lại ở phân thành hai lớp mặt đất và không mặt đất. Khu vực thử nghiệm trong nghiên cứu chủ yếu là rừng hoặc khu vực có mật độ thực vật cao.
- Thuật toán K-Means có độ phức tạp tính toán nhỏ, cần xác định được số lượng cụm tối ưu. Vì vậy thuật toán K-Means sẽ có khả năng phân cụm hợp lý hơn đặc biệt là những điểm không mặt đất.
- Dữ liệu sau phân loại được sử dụng để thành lập DTM hoặc DEM. Với các tài liệu trong và ngoài nước về phương pháp, thuật toán được sử dụng trong quá trình phân cụm điểm LiDAR, học viên nhận thấy:
Khi kết hợp thuật toán MCC và thuật toán K-Means để giải quyết bài toán phân cụm các đối tượng trong một khu vực địa lí nhất định sẽ có thể cực tiểu hóa sai số và có kết quả phân cụm dữ liệu LiDAR hợp lý, chính xác hơn.
56
CHƯƠNG 3:
XÂY DỰNG CHƯƠNG TRÌNH PHÂN CỤM DỮ LIỆU LIDAR 3.1 Giới thiệu bài toán thử nghiệm
Việc xây dựng các mô hình số địa hình (DEM – Digital Elavation Model), mô hình số bề mặt (DSM – Digital Surface Model) và mô hình địa hình kỹ thuật số (DTM) đối với một Thành phố đang phát triển có ý nghĩa rất quan trọng trong quản lý, định hướng quy hoạch và phát triển. Với dữ liệu điểm có giá trị tọa độ ba chiều (x, y, z) được tạo bởi công nghệ LiDAR có mật độ dày đặc (tới hàng triệu điểm, bao hàm cả những điểm nhiễu), chứa những thông tin cực kỳ hữu ích về bề mặt địa hình của một khu vực địa lý. Để xác định được nhãn lớp mà mỗi điểm thuộc về cần phải tiến hành bài toán phân cụm đám mây điểm. Việc phân cụm dữ liệu tự động đám mây điểm phải tách được đám mây dữ liệu thành các lớp khác nhau: tòa nhà, mặt đất, thực vật,… từ đó xây dựng được các mô hình DEM/DSM/DTM một cách chính xác.
Như vậy, bài toán đặt ra ở đây là: Từ dữ liệu điểm có giá trị tọa độ ba chiều (x, y, z) được tạo bởi công nghệ LiDAR của khu vực thử nghiệm, đưa ra các điểm mặt đất và không mặt đất, các điểm không mặt đất được phân thành K cụm dữ liệu khác nhau.
*Input: Tệp *.las có chứa toạ độ (x, y, z) của các điểm;
*Output: Các điểm được gán nhãn 2 (điểm mặt đất), 1(điểm không mặt đất); Các điểm mặt đất được phân thành K cụm (gán nhãn từ 0 → K-1).
3.2 Lựa chọn thuật toán phân cụm và dữ liệu thử nghiệm
Sau khi nghiên cứu các thuật toán trong Chương 2, học viên nhận thấy: Thuật toán MCC có ưu điểm là với những địa hình có độ dốc thay đổi liên tục, MCC sẽ có độ chính xác cao hơn. Thuật toán này có độ tin cậy cao, giúp cực tiểu sai số trong khi vẫn còn giữa lại được tỉ lệ cao điểm mặt đất. Còn thuật toán K- Means có ưu điểm là độ phức tạp tính toán nhỏ. Bên cạnh đó, tính chất dữ liệu địa hình ở khu vực thử nghiệm qua hình 3.2, 3.3 (địa hình có độ dốc thay đổi, đa