Trong phạm vi bài viết này, nhóm nghiên tiến hành thử nghiệm một thuật toán của phương pháp học máy (Machine Learning) trong phân loại rừng ngập mặn trên ảnh vệ tinh SPOT6 với khu vực thử nghiệm tại Tỉnh Cà Mau.
Trang 1VỚI KHU VỰC THỰC NGHIỆM TẠI TỈNH CÀ MAU
Phạm Minh Hải 1 , Đỗ Thị Hoài 1 , Bùi Quang Thành 2 , Nguyễn Ngọc Quang 3
1 Viện Khoa học Đo đạc và Bản đồ, Bộ Tài Nguyên và Môi trường
Email: pmhai@monre.gov.vn, haialas@yahoo.com
2 Trường Đại học Khoa học Tự nhiên, ĐHQG Hà Nội
Email: qthanh.bui@gmail.com
3 Cục Viễn thám Quốc gia, Bộ Tài Nguyên và Môi trường
Email: quangavril@yahoo.com
TÓM TẮT
Random forest (RF) là một phương pháp học máy (machine learning statistic) dùng để phục
vụ các mục đích phân loại, tính hồi quy và các nhiệm vụ khác bằng cách xây dựng nhiều cây quyết
định (Decision tree) Trong phạm vi bài báo này, nhóm nghiên tiến hành thử nghiệm một thuật toán
của phương pháp học máy (Machine Learning) trong phân loại rừng ngập mặn trên ảnh vệ tinh
SPOT6 với khu vực thử nghiệm tại Tỉnh Cà Mau Kết quả thực hiện của nghiên cứu đã đạt được 2
điểm mới đó là: ứng dụng thành công phương pháp học máy (RF) trong phân loại ảnh viễn thám;
khả năng của phương pháp phân loại được chi tiết theo loài thực vật của rừng ngập mặn tại khu vực
thực nghiệm
Từ khóa: Viễn thám, rừng ngập mặn, random forest
1 GIỚI THIỆU
Từ trước đến nay, để chiết tách các thông tin ảnh viễn thám, việc ứng dụng các thuật toán có
kiểm định như K-Nearest Neighbors (KNN) đã trở nên phổ biến K-Nearest Neighbors phương
pháp để phân lớp các đối tượng dựa vào khoảng cách gần nhất giữa đối tượng cần xếp lớp (Query
point) và tất cả các đối tượng trong các bộ mẫu (Training Data) Tuy nhiên hiện nay, các nhà nghiên
cứu đã và đang phát triển nhiều thuật toán mới, phức tạp, mạnh mẽ và hiệu quả hơn Một trong số
đó là Random Forest Thuật toán này cho phép con người xác định chính xác các thông tin phân
loại và thống kê dựa vào các tập dữ liệu khổng lồ Trong phạm vi bài báo này, nhóm nghiên cứu
tiến hành thử nghiệm một thuật toán của phương pháp học máy (Machine Learning) - RF trong
phân loại rừng ngập mặn trên ảnh viễn thám SPOT6 với khu vực thử nghiệm tại Tỉnh Cà Mau
2 PHƯƠNG PHÁP LUẬN CỦA NGHIÊN CỨU
Random forest là một phương pháp thống kê mô hình hóa bằng máy (machine learning
statistic) dùng để phục vụ các mục đích phân loại, tính hồi quy và các nhiệm vụ khác bằng cách xây
dựng nhiều cây quyết định (Decision tree) [1] Mỗi Node của cây sẽ là các thuộc tính, và các nhánh
là giá trị lựa chọn của thuộc tính đó
Từ hình 1 chúng ta thấy rằng Random Forest được cấu thành bởi một số cây quyết định
Thuật toán lấy mẫu cho phương pháp random forest ứng dụng cho các phương pháp sử dụng thuật
toán mô tả thống kê để ước lượng số lượng từ một mẫu dữ liệu (bagging)
Một tập mẫu X = x1, , xn với các câu trả lời Y = y1, , yn, lấy giá trị trung bình (B lần), chọn
một mẫu ngẫu nhiên từ bộ mẫu phù hợp với cây quyết định:
Lặp b = 1,…, B; n mẫu từ giá trị tọa độ (X, Y); gọi là (Xb, Yb); lớp dữ liệu hay kết quả hồi
quy fb của biến Xb, Yb;
Trang 2Hình 1 Sơ đồ biểu diễn các cây quyết định trong phương pháp random forest [1]
Sau khi lấy mẫu, các phép tính toán cho các mẫu là ẩn số x’ có thể được thực hiện bằng cách lấy trung bình các giá trị nội suy từ tất cả các cây hồi quy riêng lẻ của biến x' hoặc lấy giá trị từ đa
số của các mẫu trong cây quyết định:
∑ Random forest có thể sắp xếp sự quan trọng của các biến trong các bài toán phân loại hay hồi quy, được mô tả trong các nghiên cứu của Breiman, xác định các biến quan trọng trong 1 tập dữ liệu
là làm phù hợp phương pháp random forest với tập dữ liệu:
Để xác định được tính quan trọng của đối tượng thứ i sau khi lấy mẫu, các giá trị của mẫu i được hoán vị trong tập mẫu và các lỗi dự báo được tính toán lại trong tập dữ liệu Độ quan trọng của đối tượng được tính bằng điểm, các điểm được tính toán bằng cách lấy trung bình của độ chênh lệch giữa các lỗi dự báo trước và sau khi hoán vị Các đối tượng có giá trị lớn được xếp quan trọng hơn các điểm có giá trị nhỏ
3 KẾT QUẢ VÀ THẢO LUẬN
3.1 Dữ liệu đầu vào và khu vực thực nghiệm
a Khu vực thực nghiệm
Khu vực thử nghiệm của nghiên cứu thuộc huyện Đầm Dơi và Ngọc Hiển của Tỉnh Cà Mau
Hình 2 Phạm vi khu vực thực nghiệm (Ảnh SPOT6 band
3,2,1)
b Dữ liệu đầu vào và công tác tiền xử lý ảnh
Bài báo thực hiện với dữ liệu ảnh vệ tinh SPOT6 được chụp tại thời điểm năm 2015 Dữ liệu
Tổng hợp để phân lớp hay chia trung bình để tính hồi quy
Trang 33.2 Kết quả thực hiện
Nhóm thực hiện đề tiến hành để thu thập mẫu giải đoán ảnh tại khu vực nghiên cứu Công tác thu thập mẫu được tiến hành cả bằng phương pháp thực địa và trên phần mềm Google Earth Hệ thống chú giải được xây dựng thê hiện trên bảng 1
Bảng 1 Hệ thống chú giải được xây dựng
Trong đó, tập dữ liệu sau khi giải đoán được chia thành 2 phần với số lượng điểm và bố trí các điểm thể hiện trên hình dưới Trong đó, 70% mẫu được sử dụng mẫu huấn luyện để phân loại (training data), 30 % mẫu còn lại được sử dụng mẫu kiểm chứng kết quả phân loại (testing data)
Sử dụng thuật toán Random Forest và dữ liệu ảnh SPOT6, nhóm thực hiện nghiên cứu đã xây dựng được hiện trạng rừng ngập mặn khu vực thực nghiệm với các đối tượng cây ngậm mặn được chia ra thành các loại như: mắm, đước, hỗn giao.v.v Nhóm thực hiện đã xây dựng được hiện trạng trữ lượng rừng ngập mặn theo loài tại khu vực thực nghiệm
Nhằm đánh giá độ chính xác của kết quả phân loại ảnh, nhóm thực hiện đề tài tiến hành so sánh bằng mắt thường về ranh giới khu vực rừng ngập mặn giữa kết quả phân loại ảnh và bản đồ kiểm kê rừng cùng thời kỳ Kết quả cho thấy, kết quả phân loại ảnh cho độ chính xác cao hơn với mức độ chi tiết về các đường ranh giới khu vực rừng ngập mặn cao Ngược lại, nhiều khu vực có các đường ranh giới khu vực rừng ngập mặn trên bản đồ kiểm kê rừng cùng thời kỳ đã bị khái quát hóa cao khi thành lập do đó phản ánh không chính xác vị trí ranh giới khu vực rừng ngập mặn Kết quả đánh giá độ chính xác khi kiểm chứng với 109 điểm kiểm chứng như sau: Độ chính xác tổng thể đạt 83%, trong đó kết quả phân loại rừng đước cho độ chính xác cao cả độ chính xác pixel và độ chính xác tổng thể, rừng hỗn giao đước, mắm có độ chính xác tổng thể chỉ đạt 74%, trong khi đó mắm có độ chính xác pixel đạt 68 % do vẫn chưa tách được các lớp khác bị lẫn vào trong 1 điểm ảnh
Hình 3 Kết quả phân loại ảnh sử dụng thuật toán Random Forest
Trang 4Bản đồ kiểm kê rừng 2015 Kết quả phân loại ảnh SPOT6 2015
Hình 4 Minh họa so sánh đánh giá độ chính xác giữa kết quả phân loại ảnh và bản đồ kiểm kê
rừng cùng thời kỳ
4 KẾT LUẬN
Qua công tác nghiên cứu khảo sát cho thấy, việc nghiên cứu ứng dụng phương pháp Randon Forest trong phân loại ảnh viễn thám có cơ sở khoa học và thực tiễn, mang lại độ chính xác cao với chi phí thấp hơn với các phương pháp phân loại có kiểm định truyền thống Kết quả thực hiện của nghiên cứu đã đạt được 2 điểm mới đó là: ứng dụng thành công phương pháp học máy (RF) trong phân loại ảnh viễn thám, và khả năng của phương pháp phân loại được chi tiết theo loài thực vật của rừng ngập mặn tại khu vực thực nghiệm Nghiên cứu được thực hiện và đã đạt được những kết quả nhất định, tuy nhiên nhóm nghiên cứu có một số kiến nghị cần nghiên cứu tiếp để có những kết quả
có độ chính xác cao hơn Đó là: 1) Sử dụng ảnh RADAR để có thể phản ảnh cấu trúc đứng của rừng ngập mặn; 2) Sử dụng các yếu tố kiến trúc ảnh (image texture) và các chỉ số hình dạng (shape index) trong phân loại kiểu rừng; 3) Thiết kế các điểu khảo sát, OTC để xác định loài, cấu trúc rừng, trữ lượng rừng để phân loại, kiểm chứng từ ảnh vệ tinh
TÀI LIỆU THAM KHẢO
[1] Sesnie, S.E.; Gessler, P.E.; Finegan, B.; Thessler, S Integrating Landsat TM and SRTM-DEM derived variables with decision trees for habitat classification and change detection in complex neotropical
environments (2018) Remote Sens Environ, 112, 2145–2159
[2] Rodriguez-Galiano, V.F.; Ghimire, B.; Rogan, J.; Chica-Olmo, M.; Rigol-Sanchez, J.P (2012) An
assessment of the effectiveness of a random forest classifier for land-cover classification ISPRS J Photogramm Remote Sens, 67, 93–104
[3] Hai., P.M (2016) “Nghiên cứu đề xuất giải pháp nâng cao độ chính xác của công tác phân loại ảnh khu
vực có lớp phủ hỗn hợp-Cơ sở khoa học”, Tạp chí Khoa học Đo đạc và Bản đồ, Số 29(9)/2016
Trang 5WITH THE CASE IN CAMAU PROVINCE
Pham Minh Hai 1 , Do Thi Hoai 1 , Bui Quang Thanh 2 , Nguyen Ngoc Quang 3
1
Vietnam Institute of Geodesy and Cartography, Ministry of Natural Resources and Environment,
Emails: pmhai@monre.gov.vn, haialas@yahoo.com 2
VNU Univeristy Science, Email: qthanh.bui@gmail.com 3
Department of National Remote Sensing, Email: quangavril@yahoo.com
ABSTRACT
Random forest (RF) is a machine learning algorith, which used for the purposes of classification and regression by constructing the decision trees The objective of this research was to investigate the ability of an algorithm of Machine Learning method (RF) in classifying SPOT6 satellite image with the study area in Ca Mau Province The results of the study have achieved two new points: the successful application of machine learning (RF) in remote sensing image classification, and the ability of the classification method to magrove species in the study area
Key words: Remote sensing, mangrove, random forest