Nghiên cứu cơ sở khoa học ứng dụng thuật toán random forest trong phân loại ảnh vệ tinh SPOT6 với khu vực thực nghiệm tại tỉnh Cà Mau

Trong phạm vi bài viết này, nhóm nghiên tiến hành thử nghiệm một thuật toán của phương pháp học máy (Machine Learning) trong phân loại rừng ngập mặn trên ảnh vệ tinh SPOT6 với khu vực thử nghiệm tại Tỉnh Cà Mau.

Trang 1

VỚI KHU VỰC THỰC NGHIỆM TẠI TỈNH CÀ MAU

Phạm Minh Hải 1 , Đỗ Thị Hoài 1 , Bùi Quang Thành 2 , Nguyễn Ngọc Quang 3

1 Viện Khoa học Đo đạc và Bản đồ, Bộ Tài Nguyên và Môi trường

Email: pmhai@monre.gov.vn, haialas@yahoo.com

2 Trường Đại học Khoa học Tự nhiên, ĐHQG Hà Nội

Email: qthanh.bui@gmail.com

3 Cục Viễn thám Quốc gia, Bộ Tài Nguyên và Môi trường

Email: quangavril@yahoo.com

TÓM TẮT

Random forest (RF) là một phương pháp học máy (machine learning statistic) dùng để phục

vụ các mục đích phân loại, tính hồi quy và các nhiệm vụ khác bằng cách xây dựng nhiều cây quyết

định (Decision tree) Trong phạm vi bài báo này, nhóm nghiên tiến hành thử nghiệm một thuật toán

của phương pháp học máy (Machine Learning) trong phân loại rừng ngập mặn trên ảnh vệ tinh

SPOT6 với khu vực thử nghiệm tại Tỉnh Cà Mau Kết quả thực hiện của nghiên cứu đã đạt được 2

điểm mới đó là: ứng dụng thành công phương pháp học máy (RF) trong phân loại ảnh viễn thám;

khả năng của phương pháp phân loại được chi tiết theo loài thực vật của rừng ngập mặn tại khu vực

thực nghiệm

Từ khóa: Viễn thám, rừng ngập mặn, random forest

1 GIỚI THIỆU

Từ trước đến nay, để chiết tách các thông tin ảnh viễn thám, việc ứng dụng các thuật toán có

kiểm định như K-Nearest Neighbors (KNN) đã trở nên phổ biến K-Nearest Neighbors phương

pháp để phân lớp các đối tượng dựa vào khoảng cách gần nhất giữa đối tượng cần xếp lớp (Query

point) và tất cả các đối tượng trong các bộ mẫu (Training Data) Tuy nhiên hiện nay, các nhà nghiên

cứu đã và đang phát triển nhiều thuật toán mới, phức tạp, mạnh mẽ và hiệu quả hơn Một trong số

đó là Random Forest Thuật toán này cho phép con người xác định chính xác các thông tin phân

loại và thống kê dựa vào các tập dữ liệu khổng lồ Trong phạm vi bài báo này, nhóm nghiên cứu

tiến hành thử nghiệm một thuật toán của phương pháp học máy (Machine Learning) - RF trong

phân loại rừng ngập mặn trên ảnh viễn thám SPOT6 với khu vực thử nghiệm tại Tỉnh Cà Mau

2 PHƯƠNG PHÁP LUẬN CỦA NGHIÊN CỨU

Random forest là một phương pháp thống kê mô hình hóa bằng máy (machine learning

statistic) dùng để phục vụ các mục đích phân loại, tính hồi quy và các nhiệm vụ khác bằng cách xây

dựng nhiều cây quyết định (Decision tree) [1] Mỗi Node của cây sẽ là các thuộc tính, và các nhánh

là giá trị lựa chọn của thuộc tính đó

Từ hình 1 chúng ta thấy rằng Random Forest được cấu thành bởi một số cây quyết định

Thuật toán lấy mẫu cho phương pháp random forest ứng dụng cho các phương pháp sử dụng thuật

toán mô tả thống kê để ước lượng số lượng từ một mẫu dữ liệu (bagging)

Một tập mẫu X = x1, , xn với các câu trả lời Y = y1, , yn, lấy giá trị trung bình (B lần), chọn

một mẫu ngẫu nhiên từ bộ mẫu phù hợp với cây quyết định:

Lặp b = 1,…, B; n mẫu từ giá trị tọa độ (X, Y); gọi là (Xb, Yb); lớp dữ liệu hay kết quả hồi

quy fb của biến Xb, Yb;

Trang 2

Hình 1 Sơ đồ biểu diễn các cây quyết định trong phương pháp random forest [1]

Sau khi lấy mẫu, các phép tính toán cho các mẫu là ẩn số x’ có thể được thực hiện bằng cách lấy trung bình các giá trị nội suy từ tất cả các cây hồi quy riêng lẻ của biến x' hoặc lấy giá trị từ đa

số của các mẫu trong cây quyết định:

∑ Random forest có thể sắp xếp sự quan trọng của các biến trong các bài toán phân loại hay hồi quy, được mô tả trong các nghiên cứu của Breiman, xác định các biến quan trọng trong 1 tập dữ liệu

là làm phù hợp phương pháp random forest với tập dữ liệu:

Để xác định được tính quan trọng của đối tượng thứ i sau khi lấy mẫu, các giá trị của mẫu i được hoán vị trong tập mẫu và các lỗi dự báo được tính toán lại trong tập dữ liệu Độ quan trọng của đối tượng được tính bằng điểm, các điểm được tính toán bằng cách lấy trung bình của độ chênh lệch giữa các lỗi dự báo trước và sau khi hoán vị Các đối tượng có giá trị lớn được xếp quan trọng hơn các điểm có giá trị nhỏ

3 KẾT QUẢ VÀ THẢO LUẬN

3.1 Dữ liệu đầu vào và khu vực thực nghiệm

a Khu vực thực nghiệm

Khu vực thử nghiệm của nghiên cứu thuộc huyện Đầm Dơi và Ngọc Hiển của Tỉnh Cà Mau

Hình 2 Phạm vi khu vực thực nghiệm (Ảnh SPOT6 band

3,2,1)

b Dữ liệu đầu vào và công tác tiền xử lý ảnh

Bài báo thực hiện với dữ liệu ảnh vệ tinh SPOT6 được chụp tại thời điểm năm 2015 Dữ liệu

Tổng hợp để phân lớp hay chia trung bình để tính hồi quy

Trang 3

3.2 Kết quả thực hiện

Nhóm thực hiện đề tiến hành để thu thập mẫu giải đoán ảnh tại khu vực nghiên cứu Công tác thu thập mẫu được tiến hành cả bằng phương pháp thực địa và trên phần mềm Google Earth Hệ thống chú giải được xây dựng thê hiện trên bảng 1

Bảng 1 Hệ thống chú giải được xây dựng

Trong đó, tập dữ liệu sau khi giải đoán được chia thành 2 phần với số lượng điểm và bố trí các điểm thể hiện trên hình dưới Trong đó, 70% mẫu được sử dụng mẫu huấn luyện để phân loại (training data), 30 % mẫu còn lại được sử dụng mẫu kiểm chứng kết quả phân loại (testing data)

Sử dụng thuật toán Random Forest và dữ liệu ảnh SPOT6, nhóm thực hiện nghiên cứu đã xây dựng được hiện trạng rừng ngập mặn khu vực thực nghiệm với các đối tượng cây ngậm mặn được chia ra thành các loại như: mắm, đước, hỗn giao.v.v Nhóm thực hiện đã xây dựng được hiện trạng trữ lượng rừng ngập mặn theo loài tại khu vực thực nghiệm

Nhằm đánh giá độ chính xác của kết quả phân loại ảnh, nhóm thực hiện đề tài tiến hành so sánh bằng mắt thường về ranh giới khu vực rừng ngập mặn giữa kết quả phân loại ảnh và bản đồ kiểm kê rừng cùng thời kỳ Kết quả cho thấy, kết quả phân loại ảnh cho độ chính xác cao hơn với mức độ chi tiết về các đường ranh giới khu vực rừng ngập mặn cao Ngược lại, nhiều khu vực có các đường ranh giới khu vực rừng ngập mặn trên bản đồ kiểm kê rừng cùng thời kỳ đã bị khái quát hóa cao khi thành lập do đó phản ánh không chính xác vị trí ranh giới khu vực rừng ngập mặn Kết quả đánh giá độ chính xác khi kiểm chứng với 109 điểm kiểm chứng như sau: Độ chính xác tổng thể đạt 83%, trong đó kết quả phân loại rừng đước cho độ chính xác cao cả độ chính xác pixel và độ chính xác tổng thể, rừng hỗn giao đước, mắm có độ chính xác tổng thể chỉ đạt 74%, trong khi đó mắm có độ chính xác pixel đạt 68 % do vẫn chưa tách được các lớp khác bị lẫn vào trong 1 điểm ảnh

Hình 3 Kết quả phân loại ảnh sử dụng thuật toán Random Forest

Trang 4

Bản đồ kiểm kê rừng 2015 Kết quả phân loại ảnh SPOT6 2015

Hình 4 Minh họa so sánh đánh giá độ chính xác giữa kết quả phân loại ảnh và bản đồ kiểm kê

rừng cùng thời kỳ

4 KẾT LUẬN

Qua công tác nghiên cứu khảo sát cho thấy, việc nghiên cứu ứng dụng phương pháp Randon Forest trong phân loại ảnh viễn thám có cơ sở khoa học và thực tiễn, mang lại độ chính xác cao với chi phí thấp hơn với các phương pháp phân loại có kiểm định truyền thống Kết quả thực hiện của nghiên cứu đã đạt được 2 điểm mới đó là: ứng dụng thành công phương pháp học máy (RF) trong phân loại ảnh viễn thám, và khả năng của phương pháp phân loại được chi tiết theo loài thực vật của rừng ngập mặn tại khu vực thực nghiệm Nghiên cứu được thực hiện và đã đạt được những kết quả nhất định, tuy nhiên nhóm nghiên cứu có một số kiến nghị cần nghiên cứu tiếp để có những kết quả

có độ chính xác cao hơn Đó là: 1) Sử dụng ảnh RADAR để có thể phản ảnh cấu trúc đứng của rừng ngập mặn; 2) Sử dụng các yếu tố kiến trúc ảnh (image texture) và các chỉ số hình dạng (shape index) trong phân loại kiểu rừng; 3) Thiết kế các điểu khảo sát, OTC để xác định loài, cấu trúc rừng, trữ lượng rừng để phân loại, kiểm chứng từ ảnh vệ tinh

TÀI LIỆU THAM KHẢO

[1] Sesnie, S.E.; Gessler, P.E.; Finegan, B.; Thessler, S Integrating Landsat TM and SRTM-DEM derived variables with decision trees for habitat classification and change detection in complex neotropical

environments (2018) Remote Sens Environ, 112, 2145–2159

[2] Rodriguez-Galiano, V.F.; Ghimire, B.; Rogan, J.; Chica-Olmo, M.; Rigol-Sanchez, J.P (2012) An

assessment of the effectiveness of a random forest classifier for land-cover classification ISPRS J Photogramm Remote Sens, 67, 93–104

[3] Hai., P.M (2016) “Nghiên cứu đề xuất giải pháp nâng cao độ chính xác của công tác phân loại ảnh khu

vực có lớp phủ hỗn hợp-Cơ sở khoa học”, Tạp chí Khoa học Đo đạc và Bản đồ, Số 29(9)/2016

Trang 5

WITH THE CASE IN CAMAU PROVINCE

Pham Minh Hai 1 , Do Thi Hoai 1 , Bui Quang Thanh 2 , Nguyen Ngoc Quang 3

1

Vietnam Institute of Geodesy and Cartography, Ministry of Natural Resources and Environment,

Emails: pmhai@monre.gov.vn, haialas@yahoo.com 2

VNU Univeristy Science, Email: qthanh.bui@gmail.com 3

Department of National Remote Sensing, Email: quangavril@yahoo.com

ABSTRACT

Random forest (RF) is a machine learning algorith, which used for the purposes of classification and regression by constructing the decision trees The objective of this research was to investigate the ability of an algorithm of Machine Learning method (RF) in classifying SPOT6 satellite image with the study area in Ca Mau Province The results of the study have achieved two new points: the successful application of machine learning (RF) in remote sensing image classification, and the ability of the classification method to magrove species in the study area

Key words: Remote sensing, mangrove, random forest

Tiêu đề	Nghiên cứu cơ sở khoa học ứng dụng thuật toán random forest trong phân loại ảnh vệ tinh SPOT6 với khu vực thực nghiệm tại tỉnh Cà Mau
Tác giả	Phạm Minh Hải, Đỗ Thị Hoài, Bùi Quang Thành, Nguyễn Ngọc Quang
Trường học	Viện Khoa học Đo đạc và Bản đồ
Chuyên ngành	Khoa học Trái đất và Môi trường
Thể loại	Bài báo
Năm xuất bản	2019
Thành phố	Hồ Chí Minh

Định dạng
Số trang	5
Dung lượng	561,75 KB