Thuật toán K-Means

2. Những nội dung nghiên cứu chính

2.3 Thuật toán K-Means

DSM là mô hình mô tả cho độ cao của bề mặt vật lý Trái đất, nó được thành lập từ tín hiệu phản xạ đầu tiên của đám xung phản xạ LiDAR. DSM ngoài bao gồm các yếu địa hình còn bao gồm các yếu tố địa vật như cây cối, đường dây điện và toàn nhà. DSM khác với DEM ở chỗ DEM cung cấp thông tin về độ cao trên bề mặt thật của Trái đất không bao gồm các địa vật, trong khi đó DSM bao gồm các đối tượng tự nhiên. DSM sau khi được thành lập có thể được sử dụng để mô hình hóa bề mặt cảnh quan, mô hình hóa đô thị và các ứng dụng trực quan, kiểm tra lớp phủ và một số ứng dụng thông thường khác như đo khoảng cách,….

Từ đám mây điểm LiDAR để tạo được DSM ta tiến hành chọn những điểm có độ cao cao nhất từ các điểm, để thực hiện điều này cần tiến hành phân loại đám mây điểm thành hai lớp tia phản hồi đầu tiên (First Pulse - FP) và tia phản hồi cuối cùng (Last Pulse - LP), các điểm còn lại không thuộc hai lớp này đều bị loại bỏ.

Ta có thể sử dụng phương pháp phân nhóm các đối tượng sử dụng thuật toán phân cụm K-means. K-means là thuật toán phân cụm dựa trên khoảng cách phổ biến, với nghiên cứu trong tài liệu [15], tác giả Kun Zhang và nnk

đã sử dụng thuật toán K-means để phân loại đám mây điểm. Với thuật toán này, tác giả nhận thấy rằng thời gian để thực hiện thuật toán nhanh hơn, nhưng độ chính xác vẫn còn phụ thuộc nhiều vào số cụm khởi tạo [4].

Thuật toán phân hoạch K-Means do MacQueen đề xuất trong lĩnh vực thống kê năm 1967. Thuật toán dựa trên độ đo khoảng cách của các đối tượng dữ liệu trong cụm. Nó cần khởi tạo một tập trung tâm các trung tâm cụm ban đầu và lặp lại các bước gồm gán mỗi đối tượng tới cụm mà trung tâm gần và tính toán lại trung tâm của mỗi cụm trên cơ sở gán mới cho các đối tượng. Quá trình lặp này dừng khi các trung tâm cụm hội tụ.

Thuật toán K-means là tìm phương pháp phân nhóm các đối tượng (objects) đã cho vào K cụm (K là số các cụm được xác định trước, K > 0) sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm nhóm là nhỏ nhất. Thuật toán K-means được mô tả trên hình 2.4 và hình 2.5 [2].

Hình 2.5: Mô tả thuật toán K-Means

Khi trọng tâm không đổi

Đ S

Hình 2.6: Ví dụ phân loại với K-Means

Trong phương pháp K-Means, chọn một giá trị K và sau đó chọn ngẫu nhiên K trung tâm của các đối tượng dữ liệu. Tính toán khoảng cách giữa các đối tượng dữ liệu trung bình mỗi cụm để tìm kiếm phần tử nào là tương tự và thêm vào cụm đó. Từ khoảng cách này có thể tính toán trung bình mới của cụm và lặp lại quá trình cho đến khi mỗi các đối tượng dữ liệu là một bộ phận của các cụm K.

K-Means lặp lại nhiều lần quá trình bố trí lại vị trí của đối tượng dữ liệu để phân hoạch một tập dữ liệu thành K cụm {C1, C2, …, Ck} từ một tập dữ liệu chứa n đối tượng trong không gian d chiều Xi = {xi1, xi2, …, xid}, 𝑖 = 1, 𝑛̅̅̅̅̅ và cực tiểu địa phương giá trị bình phương trung bình khoảng cách giữa các các đối tượng tới tâm cụm của nó. Cụ thể hơn, với tập dữ liệu  N1

i i

X = x = , xid

thuật toán K-Means tạo ra K phân hoạch  K1

h h

X = của X sao cho nếu  K1

h h

 =

đại diện cho K tâm thì hàm mục tiêu sau:

𝐸𝐾−𝑀𝑒𝑎𝑛𝑠 = ∑ ∑ ‖(𝑥𝑖 − 𝜇ℎ)‖2 (2.11)

𝑥𝑖∈𝑋ℎ 𝐾

ℎ=1

Thuật toán được thể hiện bằng Pseudo code qua hình 2.7:

Hình 2.7: Pseudo code của thuật toán K-means

Phân cụm dữ liệu LiDAR