Bài báo đề cập đến việc phân loại dữ liệu LiDAR sử dụng thuật toán K-means, một bước tương đối quan trọng trong xử lý dữ liệu LiDAR, nhằm giúp phân chia các điểm về các lớp của nó, từ [r]
(1)Khoa học Tự nhiên
Đặt vấn đề
LiDAR công nghệ viễn thám mới, chủ động, sử dụng loại tia laser để khảo sát đối tượng từ xa Dữ liệu thu hệ thống tập hợp đám mây điểm phản xạ chiều tia laser từ đối tượng khảo sát Hiện nay, công nghệ LiDAR ứng dụng rộng
rãi việc khảo sát địa hình lập đồ, đánh giá sản lượng gỗ lâm nghiệp, lập đồ ngập úng, địa hình đáy biển, tuyến truyền tải, đồ giao thông, mạng điện thoại di động, mơ mơ hình thị có tiềm nhiều ứng dụng khác mơ tác động bão, tạo mơ hình chiều thành phố ảo, mô thiệt hại động đất, khai khống, mơi trường…
Hệ thống LiDAR hệ thống tích hợp từ thành phần chính: Hệ thống thiết bị laser, hệ thống định vị vệ tinh GNSS hệ thống đạo hàng quán tính INS Ở thời điểm phát xung laser, hệ thống định vị vệ tinh GNSS xác định vị trí khơng gian điểm phát, hệ thống đạo hàng quán tính xác định góc định hướng khơng gian tia qt Một tín hiệu phát có hay nhiều tín hiệu phản xạ Kết cuối có đám mây điểm Để sử dụng đám mây điểm cho mục đích thành lập mơ hình số độ cao (Digital elevation model - DEM), mơ hình số địa hình (Digital terrain model - DTM) hay mơ hình số bề mặt (Digital surface models - DSM), phải tiến hành phân loại điểm đám mây điểm Hiện nay, có nhiều thuật tốn lọc điểm sử dụng; với thuật toán, hãng cung cấp thiết bị xây dựng phần mềm kèm theo chu trình sử dụng bảo mật Để phát huy hiệu cơng nghệ LiDAR công tác trắc địa - đồ, việc hiểu biết sâu sắc công nghệ phát triển thuật tốn phân loại điểm liệu LiDAR đóng vai trò quan trọng [1]
Trên giới, việc phân loại liệu LiDAR để từ trích xuất đối tượng phục vụ công tác Sử dụng thuật toán K-means
trong toán phân loại đám mây điểm LiDAR
Nguyễn Thị Hữu Phương1*, Nguyễn Trường Xuân1, Đặng Văn Đức2
1Trường Đại học Mỏ - Địa chất
2Viện Công nghệ thông tin, Viện Hàn lâm Khoa học Công nghệ Việt Nam
Ngày nhận 7/3/2017; ngày chuyển phản biện 10/3/2017; ngày nhận phản biện 7/4/2017; ngày chấp nhận đăng 17/4/2017
Tóm tắt:
Hiện nay, LiDAR (Light detecting and ranging) công nghệ viễn thám ứng dụng rộng rãi nhiều ngành, nhiều lĩnh vực Xử lý liệu LiDAR tốn khơng dễ dàng, phần mềm xử lý liệu LiDAR thường phần mềm đóng có chi phí cao Bài báo đề cập đến việc phân loại liệu LiDAR sử dụng thuật toán K-means, bước tương đối quan trọng xử lý liệu LiDAR, nhằm giúp phân chia điểm lớp nó, từ ứng dụng vào tốn khác thực tế.
Từ khóa: Đám mây điểm LiDAR, K-means, LiDAR, phân loại. Chỉ số phân loại: 1.2
*Tác giả liên hệ: nguyenphuong85.nb@gmail.com
Using K-means algorithms for LiDAR point cloud classification Thi Huu Phuong Nguyen1*, Truong Xuan Nguyen1,
Van Duc Dang2
1Hanoi University of Mining and Geology
2Institute of Information Technology, Vietnam Academy of Science and Technology
Received March 2017; accepted 17 April 2017
Abstract:
Nowadays, LiDAR is a technology applied widely for many fields and sectors LiDAR data processing is not an easy issue, while LiDAR data processing software is usually closed and quite expensive This paper deals with the classification of LiDAR data using K-means, an important step in LiDAR data processing, to divide the points to its classes so that they can be applied to different problems.
Keywords: Classification, K-means, LiDAR, LiDAR point cloud.
(2)Khoa học Tự nhiên
xây dựng đồ nhiều lĩnh vực khác đời sống xã hội phổ biến Trong nghiên cứu [2-4] sử dụng thuật toán phân loại để tiến hành phân loại đám mây điểm LiDAR, từ thành lập DTM, DSM, DEM có thành cơng định
Tại Việt Nam, việc phân loại liệu LiDAR chủ yếu tiến hành thủ công, chưa có cơng trình nghiên cứu cụ thể đề cập đến toán phân loại đám mây điểm LiDAR Nghiên cứu Trần Đình Luật [5] có số kết thực nghiệm ban đầu, với địa hình khu vực đảo Hịn Dấu, khu vực Vũng Tàu, Cần Giờ khu vực cửa sông Đồng sông Cửu Long, kết quét LiDAR thành lập DEM khả quan Nghiên cứu tác giả Lương Chính Kế [6] Trần Đức Phú [7] đề cập đến việc sử dụng liệu LiDAR để phục vụ cho nhiều lĩnh vực khác Tuy nhiên, nghiên cứu sử dụng liệu LiDAR sau phân loại, sử dụng mơ hình DEM có sẵn Chúng tơi tiến hành nghiên cứu sử dụng thuật toán K-means toán phân loại đám mây điểm LiDAR nhằm tìm phương pháp phát huy hiệu công nghệ LiDAR công tác trắc địa - đồ
Nội dung nghiên cứu
Bài toán phân loại liệu
Phân loại liệu trình tổ chức liệu theo thể loại có liên quan để sử dụng bảo vệ liệu hiệu Phân loại liệu đặc biệt quan trọng nói đến quản lý rủi ro, tuân thủ bảo mật liệu [8] Hướng tiếp cận thường sử dụng số kỹ thuật học máy định, mạng nơ ron nhân tạo, học sâu
Quá trình phân loại dựa thành phần bản: - Bản ghi (Record)
- Lớp (Class)
- Dự đoán (Predictors)
- Tập liệu huấn luyện (Training dataset) - Tập liệu kiểm tra (Testing dataset)
Đặc trưng tiến trình phân loại gồm điểm sau:
- Đầu vào: Tập liệu đào tạo chứa đối tượng với thuộc tính nó, với số thuộc tính gán nhãn
- Đầu ra: Mơ hình phân lớp (Classifier) gán nhãn cụ thể cho đối tượng (phân lớp đối tượng theo thư mục), dựa thuộc tính
mỗi đối tượng
- Mơ hình sử dụng để dự đốn lớp mới, đối tượng chưa biết Tập liệu kiểm thử dùng để xác định độ xác mơ hình
K-means tốn phân loại
Thuật tốn K-means tìm phương pháp phân nhóm đối tượng (Objects) cho vào K cụm (K số cụm xác định trước, K > 0) cho tổng bình phương khoảng cách đối tượng đến tâm nhóm nhỏ Thuật tốn K-means mơ tả hình
Hình Mơ tả thuật tốn K-means.
Hình Ví dụ thuật toán K-means.
Thuật toán K-means toán phân loại liệu Trong toán phân loại liệu, thuật toán K-means triển khai theo bước sau [9-11]:
(3)Khoa học Tự nhiên
Bước 2: Phân phối mẫu K-means Mẫu thường gán với cụm trung tâm gần theo công thức: x ∈ Si(n) |x – zi(n)| ≤ |x – zj(n)| với j = 1, 2, 3, …, k; i ≠ j; Si(n) mẫu trọng tâm zi(n), n số bước lặp tốn
Bước 3: Tính tốn trọng tâm cụm từ cụm Si(n) Tìm giá trị cho zi Trọng tâm cụm mới, zi(n+1) giá trị trung bình điểm Si(n) như:
zi(n+1) = (1/ci) ∑x∈Si(n) x
Trong đó, ci tập điểm thuộc cụm thứ i Bước 4: So sánh zi(n) zi(n+1) với i
Tính tốn khoảng cách cặp điểm lần lặp liên tiếp:
a Nếu khơng có thay đổi đáng kể, kết thúc phương pháp, vài tiêu chí cho kết thúc như:
+ Nếu |zi(n+1) – zi(n)| < T với i
+ Nếu ∑ | ( +1)– ( ) | < với i
b Nếu khơng tiếp tục lặp lần lặp từ bước
K-means phân loại đám mây điểm LiDAR
Đặc điểm đám mây điểm LiDAR: Kết thu
sau xử lý liệu không gian LiDAR gọi đám mây điểm Đám mây điểm tập hợp điểm độ cao, với tọa độ x, y với bổ sung thuộc tính thời gian GPS Các đặc trưng bề mặt tia laser thu nhận sau q trình xử lý, ví dụ độ cao mặt đất, tòa nhà, tán cây, cầu vượt, đối tượng khác suốt q trình qt tín hiệu laser thu nhận tạo thành đám mây điểm [1]
Một số thông số đặc trưng đám mây điểm LIDAR: - Tọa độ X, Y độ cao Z: Được thu nhận dựa theo hệ thống định vị GPS, độ cao máy bay, thời gian di chuyển phản xạ trở lại tia laser…
- Số lần phản xạ (Return): Các chùm tia laser sau chạm vào đối tượng tòa nhà, mặt đất, cột điện phản xạ (Return) ngược trở lại thu nhận tín hiệu laser thu lại
- Cường độ xung phản xạ (Intensity): Khi tia laser phản xạ trở lại mang theo lượng với cường độ định Thông thường, cường độ xung phản xạ lớn tia laser tiếp xúc với mặt đất
Ngồi cịn có thuộc tính đám mây điểm
LIDAR như: Số phản hồi, góc máy bay, thời gian GPS góc quét, hướng quét
Phân loại đám mây điểm LiDAR sử dụng K-means:
Mỗi điểm LiDAR trình phân loại gán vào lớp định nghĩa trình phân loại Các điểm phân vào số lớp như: Đất trống, đường giao thông, mặt nước, rừng Thông thường, mã phân loại đại diện cho kiểu đối tượng thu nhận tín hiệu phản hồi Phân loại đám mây điểm bước quan trọng q trình trích xuất thơng tin lớp tòa nhà, thực vật, giao thơng mặt nước Thuật tốn phân loại sử dụng K-means lựa chọn điểm mẫu mẫu ngẫu nhiên từ toàn đám mây điểm Phương pháp phân loại thể qua sơ đồ hình
Hình Quy trình phân loại đám mây điểm LiDAR sử dụng K-means.
Sử dụng thuật toán K-means phân loại đám mây điểm LiDAR thực sau:
Để thử nghiệm thuật toán K-means phân loại đám mây điểm, tiến hành thực nghiệm với liệu đo thành phố Vinh, tỉnh Nghệ An với
Input: Dữ liệu LiDAR
Output: Bộ liệu sau phân loại Procedure
1 Initial: Chọn số cụm khởi tạo, số lớp cần phân loại n If (k > n), thuật tốn kết thúc
Else If (k ≤ n), chọn k ngẫu nhiên, tính tốn trọng tâm cụm vừa tạo While(1)
Tính tốn khoảng cách điểm đến trọng tâm cụm d0(xi,k) Tìm nhóm điểm thỏa mãn di = dmin(xi,k), G
If (di+1 ≠ di)
Cập nhật cụm
Tính tốn lại tâm cụm Else If (k = n) di+1 = di
Kết thúc lặp
(4)Khoa học Tự nhiên
số điểm demo 538 điểm, điểm gồm giá trị (x, y, z), giá trị z lấy thuộc tính để tiến hành phân loại
Với số cụm lựa chọn ngẫu nhiên, qua lần thử nghiệm kết cho khác Đầu tiên, với k = 2, qua lần lặp phân chia hai cụm với kết hình
Khi số cụm khởi tạo với giá trị k = 10, kết thể hình 5,
Hình Tâm cụm khởi tạo.
Hình Sự thay đổi tâm cụm phân loại.
Hình Các điểm nhóm sau phân loại với k =
10.
Khi số cụm khởi tạo tăng lên 20, số lần lặp 6, trọng tâm cụm tạo số điểm gán vào cụm thay đổi, kết thể hình
Hình Số điểm gán vào cụm số cụm khởi tạo thay đổi.
Và k tăng lên 30 kết thuật tốn với số cụm tính tốn lại trọng tâm thể hình
Hình Kết phân cụm với k = 30.
Qua thử nghiệm với lựa chọn số cụm khởi tạo khác nhau, thấy thuật tốn K-means hoạt động ổn
Cụm khởi tạo Kết phân cụm
(5)Khoa học Tự nhiên
định giá trị missing thuật tốn khơng thay đổi k tăng dần Do đó, kết phân loại đáng tin cậy ứng dụng toán phân loại đám mây điểm LiDAR
Kết luận
Thuật tốn K-means thuật tốn điển hình toán phân cụm liệu, giải thuật dễ hiểu dễ cài đặt Với liệu thử nghiệm, số cụm tăng dần, giá trị missing thuật tốn khơng thay đổi, thuật tốn K-means hồn tồn phù hợp với tốn phân loại liệu đám mây điểm LiDAR Tuy nhiên, thử nghiệm sử dụng thuộc tính (độ cao liệu điểm) phân cụm, việc giải tốn có nhiều thuộc tính hướng phát triển nghiên cứu
TÀI LIỆU THAM KHẢO
[1] Trần Đình Trí (2013), Cơng nghệ LiDAR, Đại học Mỏ - Địa chất [2] D Albashish (2011), “Detection and classification of leaf diseases using K-means-based segmentation and Neural Network-based classification”, Information Technology Journal, 10, pp.267-275
[3] Balasubramanian (2012), “Image classification through
intergrated K-means algorithms”, International Journal of Computer Science Issues, 9(2), pp.518-524
[4] Kun Zhang, Weihong Bi, Xiaoming Zhang, Xinghu Fu (2015), “A new K-means clustering algorithm for point cloud”, International Journal of Hybrid Information Technology, 8, pp.157-170
[5] Trần Đình Luật (2015), “Khả ứng dụng công nghệ LiDAR xây dựng mô hình số địa hình vùng bãi bồi cửa sơng ven biển điều kiện Việt Nam”, Tạp chí Tài nguyên Mơi trường, 5, tr.830-833
[6] Lương Chính Kế (2010), Thành lập DEM/DTM công nghệ, Viện Đo ảnh đồ, Đại học Bách khoa Vacsava
[7] Trần Đức Phú (2010), Ứng dụng công nghệ LiDAR mơ hình hóa lũ, Trường Đại học Hàng hải
[8] K Kosi (2012), “Methods of data center classification”, Acta Polytechnica Hungarica, 9(5), pp.127-137
[9] CEE6150 (2015), Unsupervised Classification (Cluster analysis), US: s.n
[10] E Sigova (2015), A semi supervised approach to dialogue act classification using K-means +HMM, KTH of Computer Science and communication