Rừng ngập mặn cũng đƣợc tái sinh tự nhiên nhờ sự xâm nhập của một số lồi Sú, Ơ rơ, Ráng dại. Trên các dải cát ven biển chịu ảnh hƣởng của triều xuất hiện quần xã Muống biển và Sam biển, phía trong bờ nơi ít chịu ảnh hƣởng của triều, cĩ thể xuất hiện rải rác của lồi Vạng hơi, Tra, dứa dại, na xiêm, dừa và những diện tích trồng Phi lao chắn cát.
Từ năm 1996 đến năm 2009, Trung tâm nghiên cứu hệ sinh thái rừng ngập mặn cùng với tổ chức Actmang của Nhật Bản đã hỗ trợ trồng 1.309,5 ha cây bần chua tại Hải Phịng mà đa số là trồng ở 3 xã ven biển huyện Tiên Lãng.
2.3 Ứng dụng nền tảng Google Earth Engine trong phân loại ảnh vệ tinh
2.3.1Cơ sở dữ liệu và cơng cụ nghiên cứu
Nhƣ ở đã trình bày ở trên, việc nghiên cứu tác động của nuơi trồng thủy sản đến rừng ngập mặn cĩ thể đƣợc phân chia thành hai quá trình chính. Quá trình thứ nhất là phát hiện và phân loại rừng ngập mặn và diện tích nuơi trồng thủy sản dựa trên chuỗi dữ liệu ảnh viễn thám đa thời gian. Cĩ thể hiểu nhiệm vụ của quá trình này là giám sát rừng ngập mặn về mặt khơng gian, bởi vì dựa vào kết quả của quá trình này ta sẽ đánh giá đƣợc sự biến động diện tích của các rừng ngập mặn do ảnh hƣởng của việc phát triển nuơi trồng thủy. Quá trình thứ hai là đánh giá tính phân mảnh của rừng ngập mặn dựa vào các chỉ số cảnh quan. Cơ sở dữ liệu cho cả hai quá trình đĩ đƣợc trình bày chi tiết theo các phần dƣới đây.
2.3.1.1 Dữ liệu ảnh Sentinel-2
Liên minh châu Âu / ESA / Copernicus. Dữ liệu Sentinel-2 đƣợc sử dụng cho nghiên cứu này là những dữ liệu đƣợc cung cấp bởi vệ tinh quang học Sentinel-2A, với độ phân giải thời gian là 10 ngày.
Bảng 2.3. Các thơng số của ảnh vệ tinh Sentinel-2
Kênh ảnh Mục đích sử dụng Bƣớc sĩng Độ phân giải
B1 Aerosols 443nm 60m B2 Blue 490nm 10m B3 Green 560nm 10m B4 Red 665nm 10m B5 Red Edge 1 705nm 20m B6 Red Edge 2 740nm 20m B7 Red Edge 3 783nm 20m B8 NIR 842nm 10m
B8a Red Edge 4 865nm 20m
B9 Water vapor 940nm 60m
B10 Cirrus 1375nm 60m
B11 SWIR 1 1610nm 20m
B12 SWIR 2 2190nm 20m
Nguồn: https://scihub.copernicus.eu/
Ngồi những kênh ảnh trên, Sentinel-2 cịn cung cấp 3 kênh ảnh QA10, QA20 QA60 dùng cho mục đích lọc mây.
2.3.1.2 Dữ liệu ảnh Landsat
Các đặc điểm đặc trƣng của ảnh Landsat TM, ETM đƣợc thể hiện trong bảng sau:
Bảng 2.4. Đặc điểm ảnh vệ tinh Landsat
Đặc điểm ảnh vệ tinh Landsat TM
Bƣớc sĩng Kênh 1 0,45-0,52 Kênh 2 0,52 - 0,60 Kênh 3 0,63 - 0,67 Kênh 4 0,76 - 0,90 Kênh 5 1,55 - 1,75 Kênh 6 10,4 - 12,5 Kênh 7 2,08 - 2,35 Độ rộng cảnh 185 km
Độ phân giải khơng gian
30 m x30 m (trừ kênh 6: 120 m x 120 m)
Thời gian thu ảnh 10h30‟ Đặc điểm ảnh vệ tinh Landsat ETM
Kênh 2 0,525 -0,605 Kênh 3 0,63.0,69 Kênh 4 0,775-0,9 Kênh 5 1,55-1,75 Kênh 6 10,4-12,5 Kênh 7 2,09-2,35 Kênh 8 0,52.0,9 Độ rộng cảnh 185 km
Độ phân giải khơng gian
30m x 30m (trừ kênh 6: 60m x 60m, kênh 8: 15m x 15 m)
Thời gian thu ảnh 10h30‟
Nguồn: USGS 2.3.1.3 SRTM Digital Elevation Data 30m
Dữ liệu mơ hình số độ cao (SRTM) với độ phân giải 1 giây (khoảng 30m) đƣợc cung cấp bởi NASA / USGS / JPL-Caltech. Giá trị của pixel đƣợc tham chiếu theo chiều cao của hệ tọa độ WGS84.
2.3.2Phân loại đa thời gian và thành lập bản đồ rừng ngập mặn
2.3.2.1 Thuật tốn Random Forest và phương pháp xác định rừng ngập mặn
Random Forest đƣợc đề xuất bởi Breiman vào năm 2001. Đây là thuật tốn phân loại cĩ kiểm định dựa trên cây quyết định và kỹ thuật bagging and bootstrapping đã đƣợc cải tiến. Bootstrapping là một phƣơng pháp rất nổi tiếng trong thống kê đƣợc giới thiệu bởi Efron vào năm 1979 [18]. Phƣơng pháp này đƣợc thực hiện nhƣ sau: từ một quần thể ban đầu lấy ra một mẫu L = (x1, x2, .., xn) gồm n thành phần để tính tốn các tham số mong muốn. Trong các bƣớc tiếp theo lặp lại b lần tạo ra mẫu Lb cũng gồm n phần từ L bằng cách lấy lại mẫu với sự thay thế các thành phần trong mẫu ban đầu sau đĩ tính tốn các tham số mong muốn [2]. Phƣơng pháp Bagging đƣợc xem nhƣ là một phƣơng pháp tổng hợp kết quả cĩ đƣợc từ các bootstraping sau đĩ huấn luyện mơ hình từ các mẫu ngâu nhiên này và cuối cùng đƣa ra dự đốn phân loại dựa vào số phiếu bầu cao nhất của lớp phân loại [2]. Cây quyết định là một sơ đồ phát triển cĩ cấu trúc dạng cây phân nhánh đi từ gốc cho đến lá, giá trị các lớp phân loại của mẫu đƣợc đƣa vào kiểm tra trên cây quyết
là các kết quả phân loại dự đốn đầu ra, biểu diễn dự đốn giá trị phân lớp mẫu đĩ. Mỗi sơ đồ cây trong tập mẫu đƣợc tạo thành từ tập hợp các điểm ảnh huấn luyện đƣợc lựa chọn ngẫu nhiên để huấn luyện mơ hình phân loại RF (mỗi tập mẫu bootstrap sẽ cho ra một tree va n tree tƣơng ứng với n bootstrap). Khi một tập mẫu đƣợc rút ra từ tập huấn luyện (bootstrap) với sự thay thế cĩ hồn lại, thì theo ƣớc tính cĩ khoảng 1/3 các phần tử khơng nằm trong mẫu này và vì thế chúng khơng tham gia vào quá trình huấn luyện [15]. Điều này cĩ nghĩa là chỉ cĩ khoảng 2/3 các phần tử trong tập huấn luyện tham gia vào trong các tính tốn để phân loại (in of bag), và 1/3 các phần tử này dùng để kiểm tra sai số đƣợc gọi là dữ liệu out-of-bag (OOB). Dữ liệu out-of-bag đƣợc sử dụng để ƣớc lƣợng sai số tạo ra từ việc kết hợp các kết quả phân loại riêng lẻ sau đĩ đƣợc tổng hợp trong mơ hình RF cũng nhƣ dùng để ƣớc tính các biến quan trọng (variable important) bằng chức năng Importance.
Việc ƣớc tính các biến quan trọng đƣợc xem xét theo hai chỉ số lá: i) độ chính xác giảm bình quân cho mỗi biến (MDA - Mean Decrease Accuracy) và ii) sự giảm bình quân hệ số Gini đối với mỗi biến (MDG - Mean Decrease Gini). MDA là độ chính xác của mỗi biến độc lập phân loại dựa trên đánh giá tỉ lệ sai số OOB. Hệ số Gini cho phép đo độ đồng nhất của mỗi lớp. Hệ số Gini (1909) [20] càng giảm khi một lớp cụ thể nào đĩ cĩ các phần tử đƣợc gán sai nhãn trong kết quả phân loại càng ít.
Phân loại RF chứa một lƣợng lớn các cây. Mỗi cây đƣợc phát triển từ các pixel huấn luyện (training pixels) đƣợc lựa chọn ngâu nhiên. Hai tham số cần đƣợc xác đinh trong thuật tốn phân loại này là ntree (số lƣợng cây đƣợc phát triển) và mtry (số lƣợng biến để phân chia tại mỗi node). Số ntree đƣợc lựa chọn phụ thuộc vào khoảng thời gian xử lý ngắn nhất để kết quả đạt đƣợc độ sai số thấp nhất, ntree chạy từ 1 đến 500 cây và mtry biến động từ số biến độc lập tối thiểu (bằng 1) đến số biến độc lập tối đa đƣợc sử dụng trong phân loại.