THỊ TẠI KHU VỰC TỪ LIÊM, HÀ NỘI GIAI ĐOẠN 2013 - 2021
2. Dữ liệu và khu vực nghiên cứu
Khu vực huyện Từ Liêm trước đây có diện tích khoảng 76 km², dân số là 553.308 người, mật độ dân số đạt 7.316 người/km², từ cuối năm 2013 đã được chia tách thành hai đơn vị hành chính cấp quận là Nam Từ Liêm và Bắc Từ Liêm [7]. Từ khi khu vực huyện Từ Liêm trở thành 2 quận Nam Từ Liêm và Bắc Từ Liêm cho đến nay, với nhiều nguồn kinh phí đầu tư phát triển cơ sở hạ tầng,... đã có những biến động rõ rệt về các loại hình sử dụng đất, góp phần vào sự phát triển kinh tế, xã hội của khu vực. Hình 1 minh họa vị trí khu vực nghiên cứu.
Hình 1: Hình ảnh, vị trí khu vực nghiên cứu
Trong nghiên cứu này, tác giả sử dụng tư liệu ảnh vệ tinh Landsat 8 và Sentinel - 2 được khai thác trực tuyến trên nền tảng GEE. Các dữ liệu ảnh vệ tinh được lựa chọn đảm bảo có chất lượng rõ ràng, độ phủ mây thấp nhất. Kết quả đã lựa chọn ảnh Landsat 8 và Sentinel - 2 trong giai đoạn 2013 đến nay. Trong đó ảnh Landsat 8 mức 1T có độ phân giải không gian là 30 m, ảnh Sentinel - 2A 1T có độ phân giải không gian 10 m. Các loại ảnh vệ tinh trong khu vực nghiên cứu tại thời điểm từ đầu năm 2022 đến hiện nay (tháng 8 năm 2022) hầu hết có lượng mây che phủ rất lớn trung bình
trên 70 %, có những thời điểm lượng mây che phủ đến 100 %, do đó dữ liệu ảnh vệ tinh được khai thác và sử dụng được hiện tại chỉ có đến năm 2021. Các thông tin cơ bản về dữ liệu ảnh vệ tinh được trinh bày tại Bảng 1 dưới đây:
Bảng 1. Thông tin cơ bản về dữ liệu ảnh vệ tinh trong khu vực nghiên cứu
Thời gian thu nhận ảnh Loại ảnh Độ phủ mây
02-12-2013 LandSat 8 0,05 %
07-10-2016 LandSat 8 0,12 %
30-09-2019 LandSat 8 1,53 %
03-01-2021 Sentinel - 2 0,73 %
3. Phương pháp nghiên cứu
Sử dụng các thuật toán Cart, để tính toán, phân loại lớp phủ bề mặt cho dữ liệu đầu vào là ảnh vệ tinh Landsat 8, Sentinel - 2. Việc phân loại ảnh theo được thực hiện bằng ngôn ngữ lập trình JavaScript trên nền tảng dữ liệu điện toán đám mây GEE. Trong nghiên cứu tại khu vực này, tác giả lựa chọn 4 lớp cơ phủ cơ bản để phân loại lần lượt bao gồm: 1) Lớp phủ Đất trống, 2) Lớp phủ Mặt nước, 3) Lớp phủ Thực vật, 4) Lớp phủ Công trình xây dựng. Các lớp phủ được lựa chọn để phân loại là hiện trạng tại thời điểm thu nhận ảnh, trong đó với lớp Đất trống các điểm lấy mẫu phân loại được chọn là các khu vực như bãi đất, cát, bãi bồi, khu vực đang san lấp, các khu vực đất trống mới san lấp chuẩn bị xây dựng. Lớp phủ Mặt nước gồm các khu vực ao hồ, sông suối, kênh mương. Lớp phủ Thực vật bao gồm những khu vực có cây cối, bãi cỏ, ruộng vườn tại thời điểm thu nhận ảnh đang có cây trồng. Lớp phủ Công trình xây dựng gồm nhà cửa, công trình xây dựng độc lập và các khu vực nhà cửa, công trình xây dựng tại làng mạc, khu chung cư, các tòa nhà cao tầng. Tổng số lượng điểm lấy mẫu là 350 điểm cho 4 lớp phủ của toàn bộ khu vực nghiên cứu.
Hình 2: Kết quả thực hiện chương trình trên GEE
Sau khi lấy các mẫu cụ thể cho từng loại lớp phủ, tiến hành việc huấn luyện để cho chương trình học và ghi nhận các thông tin về các mẫu cho từng loại lớp phủ. Trong ngôn ngữ JavaScript, sử dụng các lệnh lựa chọn các kênh ảnh như là image.select(bands) và các hàm lấy mẫu sampleRegions để thực hiện việc huấn luyện mẫu. Kết thúc quá trình huấn luyện, sử dụng hàm ee.Classifier.
smileCart để tiến hành phân loại các lớp phủ theo thuật toán Cart trong khu vực nghiên cứu.
Hình 2 thể hiện kết quả của chương trình trên GEE. Các bước phân loại được tiến hành theo như hình minh họa (Hình 3). Trong đó bao gồm: Thu thập dữ liệu ảnh Landsat 8, Sentinel - 2 dựa trên nền tảng dữ liệu điện toán đám mây GEE; Lọc và lựa chọn ảnh có độ phủ mây là thấp nhất; Lấy mẫu theo các vị trí để phục vụ phân loại; Tạo mẫu và huấn luyện máy học. Phân loại các lớp phủ trên ảnh vệ tinh theo các thuật toán Cart; Thu nhận kết quả ảnh phân loại theo thuật toán Cart;
Đánh giá độ chính xác của kết quả phân loại ảnh. Sau khi có kết quả phân loại ảnh, tiến hành các bước phân tích, theo dõi biến động các lớp phủ sử dụng đất và phân tích các mối tương quan giữa các lớp phủ sử dụng đất trong giai đoạn 2013 - 2021 tại khu vực nghiên cứu. Hình 2 thể hiện sơ đồ tổng quan của quy trình nghiên cứu.
Hình 3: Sơ đồ quy trình phân loại ảnh 3.1. Thuật toán Cart
Thuật toán Cart là một thuật toán học máy có giám sát trong hệ thống phân loại dựa trên cây quyết định (Decision tree) và sử dụng các mẫu huấn luyện để xác định, nhận dạng, phân loại đối tượng trên ảnh viễn thám Cart được sử dụng rộng rãi để phân loại viễn thám, nó còn được gọi là cây phân loại và hồi quy [8]. Thuật toán Cart chia không gian n chiều thành các hình chữ nhật không chồng lên nhau bằng phép đệ quy. Đầu tiên, một biến độc lập Xi được chọn, và sau đó xác định một giá trị Ui tương ứng. Không gian n chiều được chia thành hai phần. Một số điểm thỏa mãn Xi ≤ Ui, và những điểm khác thỏa mãn Xi > Ui. Đối với một biến không liên tục, chỉ có hai giá trị là bằng hoặc không bằng nhau. Trong quá trình xử lý đệ quy, hai phần này dựa vào bước đầu tiên để chọn lại một thuộc tính và tiếp tục phân vùng cho đến khi chia hết không gian n chiều. Các thuộc tính có giá trị hệ số GINI tối thiểu được sử dụng làm chỉ mục phân vùng. Đối với tập dữ liệu D, hệ số GINI được xác định như sau:
GINI∗(D)=∑i=1kPi∗(1−Pi)=1−∑i=1kP2i (1)
Trong đó, k là số loại mẫu và Pi biểu thị xác suất một mẫu được xếp vào loại i. Giá trị GINI càng nhỏ có nghĩa là chất lượng của mẫu càng cao và hiệu ứng phân loại càng tốt.
Cây quyết định bao gồm các nút nhiều cấp và nhiều lá. Các nút tối đa đề cập đến số lượng lá tối đa trên mỗi cây và quần thể lá tối thiểu là số lượng nút tối thiểu chỉ được tạo cho tập huấn luyện. Để xây dựng một cây phù hợp, phải tạo đủ các nút và nhánh. Giá trị nút tối đa là không giới hạn nếu nó không được chỉ định.
3.2. Phương pháp đánh giá độ chính xác
Sau khi có kết quả phân loại, cần thiết phải đánh giá độ chính xác, tại nghiên cứu này việc đánh giá tiến hành thông qua ma trận nhầm lẫn (Confusion Matrix). Ma trận nhầm lẫn là phương pháp quan trọng và phổ biến được sử dụng để đánh giá độ chính xác, có thể mô tả độ chính xác của phân loại và chỉ ra sự nhầm lẫn giữa các lớp đối tượng. Các thống kê cơ bản cho ma trận nhầm lẫn trong đó có đánh giá về độ chính xác tổng thể (Overall Accuracy - OA) và hệ số Kappa. Trong đó hệ số Kappa có giá trị từ 0,4 đến 0,6 được đánh giá là đạt kết quả trung bình, giá trị từ lớn hơn 0,6 đến 0,8 là tốt và hơn 0,8 đến 1,0 là rất tốt [9]. Thực hiện đánh giá trên GEE bằng vệc sử dụng hàm errorMatrix, trong đó sử dụng 70 % số lượng mẫu dùng để phân loại ảnh và 30 % số lượng mẫu dùng để kiểm tra đánh giá.