3.3. Tạo ảnh Composite
Mục đích chính của bƣớc này là tạo ra một chuỗi ảnh ít bị ảnh hƣởng bởi mây nhất để có thể lấy đƣợc các thay đổi quang phổ cho phân loại lớp phủ đô thị Viêng Chăn trong năm 2018.
Ảnh mục tiêu cho việc kết hợp là 6 ảnh L8SR ít mây nhất, chọn các ngày mục tiêu là: DOY 15, DOY 75, DOY 135, DOY 195, DOY 255, DOY 315. Các ngày mục tiêu này đƣợc chọn dải đều trong các khoảng trong năm, với mục đích để ghi nhận đƣợc đầy đủ các thay đổi về lớp phủ của khu vực cần nghiên cứu theo các mùa trong năm. Những ngày này là những ngày mục tiêu cho quá trình kết hợp, trong quá trình này những điểm ảnh của ảnh kết hợp sẽ là những điểm ảnh cùng tọa độ và có chất lƣợng tốt nhất từ những ảnh ứng viên dựa trên phƣơng pháp tính chỉ số đƣợc mô tả nhƣ sau.
Với mỗi điểm ảnh của ảnh mục tiêu, giá trị của điểm này sẽ đƣợc lựa chọn giữa các điểm ảnh ở cùng vị trí giữa các ảnh ứng viên. Điểm ảnh tốt nhất sẽ đƣợc lựa chọn dựa vào các quy tắc dựa trên 5 chỉ số phụ sau: year score, DOY score, opacity score và Distance from cloud/cloud shadow và chỉ số NDVI. Những chỉ số này đƣợc chia làm 2 loại là: chỉ số cấp độ ảnh và chỉ số cấp độ điểm ảnh. Year và DOY là những chỉ số cấp độ ảnh. Điều đó có nghĩa rằng mỗi điểm ảnh trong cùng một ảnh ứng viên đều có chung chỉ số này. Opacity, Distance to cloud/cloud shadow và NDVI là các chỉ số ở cấp độ điểm ảnh. Mỗi điểm ảnh có chỉ số riêng dựa vào chiến lƣợc xếp hạng chỉ số.
Đối với chỉ số Year, do sự biến đổi của địa hình theo thời gian thì những ảnh cùng năm hoặc càng gần so với năm cần xây dựng bản đồ, sẽ đƣợc ghi nhận là những ảnh có chỉ số Year càng cao và ngƣợc lại, càng xa thì chỉ số Year này càng thấp. Nhƣ vậy thì ảnh ở năm càng xa năm 2018 thì chỉ số Year của ảnh càng giảm.
Chỉ số DOY đƣợc tính với hàm phân phối Gaussian [17]. DOY Score đƣợc tính toán nhƣ sau:
ScoreDOY
( ) (20)
Trong đó là độ lệch tiêu chuẩn, là DOY mục tiêu và xi là DOY của ảnh ứng viên. DOY score chỉ xác định số thứ tự của ngày trong năm, không liên quan đến số năm. DOY của ứng viên càng gần với DOY mục tiêu thì chỉ số DOY càng
lớn, nghĩa là ta coi ảnh hƣởng của các yếu tố bên ngoài lên cùng 1 điểm ảnh trong cùng 1 ngày giữa các năm sẽ gần nhƣ là tƣơng đồng.
Bên cạnh đó, đối với mỗi ngày mục tiêu (DOY) thì ta xem xét các ảnh ứng viên có imgDOY trong đoạn targetDOY 30, tức là xem xét các ảnh trong đoạn 30 ngày trƣớc và sau TargetDOY. Do 1 năm có 365 hoặc 366 ngày, nên để tránh việc bỏ sót các ảnh ứng viên, thì các ảnh có imgDOY trong khoảng (345, 350) sẽ đƣợc xem xét trong cùng tập các ảnh có TargetDOY = 315, các ảnh có imgDOY >=350 sẽ đƣợc xem xét trong cùng cập các ảnh có TargetDOY=15.
Distance to cloud/cloud shadow [17] đƣợc tính toán bởi một hàm Sigmoid để tính khoảng cách tới điểm mây hoặc bóng mây, giá trị có thể lấy đƣợc từ tệp sr_cfmask, trong bán kính 50 điểm ảnh. Chỉ số này đƣợc tính toán nhƣ sau:
ScoreCloud/Shadow_Distance =
( ( * + (
)))
(21) Trong đó Di là khoảng cách tới mây hoặc bóng mây, tính bằng điểm ảnh, Dreq đƣợc xác định trƣớc khoảng cách tối thiểu yêu cầu (50 điểm ảnh), Dmin là khoảng cách tối thiểu của điểm ảnh đƣợc xem xét. Dmin sẽ là 0 trong nghiên cứu này. Điểm ảnh ứng viên càng gần mây và bóng mây thì chất lƣợng càng kém và chỉ số này sẽ càng thấp.
Opacity score yêu cầu đầu vào là một ảnh có phân cấp độ mờ của các điểm ảnh [17], nhƣng ảnh L8SR cung cấp thông tin độ mờ (4 cấp độ) trong tệp sr_cloud. Do đó, chỉ số opacity đƣợc gán cho cấp độ mờ này, sử dụng hàm Sigmoid.
Year DOY Opacity Distance to cloud/cloud shadow Score Mô tả Score Mô tả 1.00 2018 Rằng buộc là trong khoảng 30 ngày so với ngày mục tiêu. Chỉ số đƣợc tính bởi hàm Gaussian.
0.023 Giá trị độ mờ cao Ràng buộc là bán kính 50 điểm ảnh từ điểm ảnh đƣợc xem xét. Chỉ số đƣợc tính bởi hàm Sigmoid. 0.68 2017 0.223 Độ mờ trung bình 0.42 2016 0.777 Độ mờ thấp 0.977 Độ mờ gần nhƣ không có
Bảng 3.3. Tổng hợp về các chỉ số Year score, DOY score, Opacity score, Distance to cloud/cloud shadow trong quá trình kết hợp ảnh L8SR.
Hình Error! No text of specified style in document..14 Sơ đồ tính NDVI Score. Chỉ số NDVI là ý tƣởng của Compton Tucker, một nhà khoa học của NASA, vào năm 1977. Chỉ số NDVI đƣợc xác định dựa trên sự phản xạ khác nhau của thực vật thể hiện giữa kênh phổ đỏ thấy đƣợc (RED) và kênh phổ cận hồng ngoại (NIR), dùng để biểu thị mức độ tập trung của thực vật trên mặt đất.
Chỉ số khác biệt thực vật NDVI đƣợc tính toán theo công thức:
(22) Giá trị NDVI nằm trong khoảng từ -1 đến +1. Sự khác biệt giữa độ phản xạ của quang phổ đỏ và NIR càng cao, tức là càng nhiều chất diệp lục đƣợc tìm thấy ở các thảm thực vật [30]. Điểm ảnh đƣợc bao phủ bởi thực vật sẽ có giá trị NDVI lớn hơn 0.3, NDVI gần giá trị 0, có nghĩa là không có lá xanh và có thể là khu vực đô thị. Giá trị NDVI mà âm, thì điểm ảnh đó thƣờng là bị bao phủ bởi nƣớc. Giá trị trung bình NDVI cho phép tách khu vực xây dựng ra khỏi khu vực đất khô [31].
Trong nghiên cứu này, để xây dựng thêm một chỉ số mới dựa trên giá trị NDVI, có tính tƣơng đồng với các chỉ số DOY, Year, Opacity và Distance to Cloud/Cloud Shadow sẵn có, thì NDVI Score sẽ đƣợc tính theo công thức sau:
( )
(23) Trong đó,
-ScoreNDVI có giá trị trong khoảng [-1, 1]
-NDVI Value là giá trị NDVI của điểm ảnh cần xem xét
-Max(NDVIValue) là giá trị NDVI lớn nhất của tập các điểm ảnh cùng khu vực ảnh và DOY của ảnh nằm trong khoảng 30 ngày so với ngày mục tiêu.
Ngoài ra, giá trị Max(NDVIValue) đƣợc tính toán dựa trên tập ảnh ứng viên, tập ảnh này đƣợc xây dựng dựa trên 2 yếu tố: khu vực ảnh (dựa trên thông tin file ảnh) và DOY của ảnh đƣợc lấy theo quy tắc xây dựng chỉ số DOY đã nói ở trên.
Cuối cùng, mỗi điểm ảnh ứng viên sẽ có một chỉ số cuối cùng bằng tổng các chỉ số đã đƣợc nêu trên, tại mỗi tọa độ đƣợc xem xét, điểm ảnh nào có tổng chỉ số cao nhất sẽ đƣợc lựa chọn để tạo thành ảnh kết hợp cuối cùng đặc trƣng theo ngày mục tiêu của khu vực Viêng Chăn.
3.4. Dữ liệu huấn luyện và dữ liệu kiểm thử
Lớp phủ (Land cover) trên bề mặt trái đất có rất nhiều loại, có thể là thực vật, hạ tầng đô thị, nƣớc, đất trồng hay các loại khác. Trong luận văn này sẽ tập trung nghiên cứu về phân loại lớp phủ đô thị Urban và các lớp khác sẽ đƣợc gom chung thành lớp Others.
Training Testing
Urban 1059 49
Others 5265 498
Tổng cộng 6324 547
Tập dữ liệu điểm mẫu này đƣợc lựa chọn ngẫu nhiên các điểm trên toàn bộ khu vực thủ đô Viêng Chăn - Lào và dựa trên quá trình thực địa tại đây đồng thời kiểm tra trên các ảnh có độ phân giải cao của Google Earth, tập điểm mẫu này đƣợc gán nhãn và phân chia vào 02 lớp tƣơng ứng nhƣ Bảng 3.4. Tổng số lƣợng các điểm trong dữ liệu huấn luyện và dữ liệu kiểm thử lần lƣợt là 6324 và 547 điểm, do tỉ lệ thực tế của lớp phủ đô thị so với toàn bộ diện tích thủ đô Viêng Chăn là khá nhỏ nên số lƣợng điểm đƣợc gán nhãn lớp Urban so với tổng số lƣợng điểm mẫu cũng chiếm tỉ lệ tƣơng đƣơng.
Dựa trên tọa độ của các tập dữ liệu điểm mẫu, giá trị các kênh ảnh của điểm ảnh trong các ảnh kết hợp (kết quả của phần 4 đã nêu ở trên) sẽ đƣợc ghi thành các file với định dạng CSV. Trong nghiên cứu này, mỗi ảnh đại diện sẽ cho 1 file CSV với định dạng cột và dòng, các cột tƣơng ứng với số kênh ảnh (bao gồm 7 kênh ảnh đƣợc sử dụng), mỗi dòng tƣơng ứng với một điểm ảnh, mỗi ô chứa dữ liệu các giá trị tại kênh tƣơng ứng của một điểm trong tập điểm mẫu. Các file này sẽ là tập dữ liệu huấn luyện và dữ liệu kiểm thử dùng trong quá trình phân loại lớp phủ sau đó.
3.5. Phân loại lớp phủ đô thị
Scikit-learn [32] là một thƣ viện học máy viết trên ngôn ngữ Python với các công cụ mạnh mẽ và giao diện dễ sử dụng, do đó nó rất hữu dụng trong việc xử lý các ảnh vệ tinh và nó có thể kết hợp với các thƣ viện xử lý ảnh khác nhƣ Numpy và GDAL. Thƣ viện này bao gồm các bộ phân lớp trong đó có cả XGBoost, ở phần thực nghiệm này, thƣ viện này đã đƣợc sử dụng lại (https://scikit-learn.org/) và thuật toán XGBoost đƣợc lựa chọn để phân loại các điểm ảnh thuộc lớp Urban và lớp Others và kết quả này đƣợc ghi ra file ảnh là bản đồ lớp phủ đô thị cho Viêng Chăn - Lào năm 2018.
3.6. Kết quả
3.6.1. Kết quả của quá trình kết hợp ảnh
Hình 3.5 Ảnh đại diện cho DOY 15 với tổ hợp màu giả đô thị (Kênh 7-6-4)
Hình 3.7 Ảnh đại diện cho DOY 135 với tổ hợp màu giả đô thị (Kênh 7-6-4)
Hình 3.9 Ảnh đại diện cho DOY 255 với tổ hợp màu giả đô thị (Kênh 7-6-4)
3.6.2. Kết quả của quá trình phân lớp
Hình 3.11 Bản đồ lớp phủ đô thị Viêng Chăn, năm 2018.
3.7. Đánh giá kết quả
Các ảnh kết hợp đƣợc giả màu đô thị đƣợc thể hiện nhƣ các hình 3.5, hình 3.6, hình 3.7, hình 3.8, hình 3.9 và hình 3.10). Có thể dễ dàng quan sát đƣợc rằng các ảnh này đã còn rất ít hoặc gần nhƣ không còn ảnh hƣởng bởi các đám mây. Các hình ảnh đƣợc hiển thị với tổ hợp màu giả đô thị làm nổi bật các khu vực đô thị, khu đông dân cƣ với các tông màu vàng sẫm hoặc có gam màu ánh hồng. Các yếu tố thủy văn đƣợc nhận biết rõ với màu đen hoặc xanh nƣớc biển (Blue). Các yếu tố có màu xanh lá (Green) là các khu vực rừng hoặc các vùng thực vật khác.
Hơn thế nữa, mỗi ảnh này hiển thị các thay đổi của khu vực Viêng Chăn qua các thời điểm trong năm. Riêng với các khu vực liên quan đến lớp đô thị (Urban) chiếm tỉ lệ khá nhỏ và có sự ổn định hơn các khu vực liên quan đến nông nghiệp và thực vật vì các khu vực này hầu nhƣ không bị ảnh hƣởng bởi yếu tố mùa vụ.
Sau quá trình phân lớp, kết quả phân lớp đƣợc thể hiện ở Ma trận nhầm lẫn nhƣ sau:
Dự đoán lớp Others Dự đoán lớp Urban Tổng số Đúng là lớp Others 486 12 498
Đúng là lớp Urban 5 44 49
Tổng số 491 56 547
Bảng 3.5. Kết quả phân loại lớp phủ đô thị Viêng Chăn năm 2018. - Xét lớp Urban recision ecall - Xét lớp Others recision ecall - Hệ số Kappa - Độ chính xác tổng thể
Kết quả phân loại lớp phủ dùng ảnh vệ tinh Landsat 8 cho khu vực Viêng Chăn cho kết quả hệ số Kappa và độ chính xác tổng thể . Dựa vào bản đồ lớp phủ đô thị Viêng Chăn 2018, diện tích lớp phủ đô thị là khoảng: 213.6km2, chiếm khoảng 5.5% diện tích toàn bộ khu vực, một tỉ lệ khá ít ỏi so với nhiều thành phố khác trên thế giới.
Trƣớc khi thực nghiệm theo phƣơng pháp kể trên, phƣơng pháp mà nhóm tác giả Mẫn Đức Chức, Nguyễn Thanh Thủy, Bùi Quang Hƣng, Kristofer Lasko và Nguyễn Thị Nhật Thanh đã thực hiện cho khu vực Hà Nội [17] đã đƣợc thực nghiệm lại. Tập ảnh Landsat 8 SR của khu vực Viêng Chăn đƣợc sử dụng là nguồn dữ liệu đầu vào, kết hợp với các chỉ số DOY, Year, Opacity, Distance to Cloud/Cloud Shadow Score để tạo các ảnh kết hợp đại diện cho TargetDOY. Sau đó, từ các tập điểm mẫu, tập dữ liệu huấn luyện và tập dữ liệu kiểm thử đƣợc xây dựng và thực hiện quá trình phân lớp sử dụng XGBoost. Ngoài ra, trong quá trình thực nghiệm, thuật toán SVM cũng đƣợc sử dụng thay thế XGBoost để đánh giá kết quả. Kết quả cuối cùng đƣợc tổng hợp nhƣ bảng 3.6:
PP
Urban Others
Kappa OA
Precision Recall F1
Score Precision Recall
F1 Score (1) 62% 67% 0.65 97% 96% 0.96 0.61 93.41% (2) 61% 69% 0.65 97% 96% 0.96 0.61 93.23% (3) 75% 88% 0.81 99% 97% 0.98 0.79 96.34% (4) 79% 90% 0.84 99% 98% 0.98 0.82 96.89% (1) Là phƣơng pháp kết hợp ảnh với các chỉ số DOY, Year, Opacity, Distance to
Cloud/Cloud Shadow Score và thuật toán phân lớp SVM
(2) Là phƣơng pháp kết hợp ảnh với các chỉ số DOY, Year, Opacity, Distance to Cloud/Cloud Shadow Score, NDVI Score và thuật toán phân lớp SVM
(3) Là phƣơng pháp kết hợp ảnh với các chỉ số DOY, Year, Opacity, Distance to Cloud/Cloud Shadow Score và thuật toán phân lớp XGBoost
(4) Là phƣơng pháp kết hợp ảnh với các chỉ số DOY, Year, Opacity, Distance to Cloud/Cloud Shadow Score, NDVI Score và thuật toán phân lớp XGBoost
Theo bảng tổng hợp 3.6, thuật toán phân lớp XGBoost cho kết quả vƣợt trội hơn so với thuật toán phân lớp SVM. Phƣơng pháp kết hợp ảnh với các chỉ số DOY, Year, Opacity, Distance to Cloud/Cloud Shadow Score, NDVI Score và thuật toán phân lớp XGBoost cũng cho kết quả cao hơn Phƣơng pháp kết hợp ảnh với các chỉ số DOY, Year, Opacity, Distance to Cloud/Cloud Shadow Score và thuật toán phân lớp XGBoost. Ngoài ra, thời gian xử lý của thuật toán phân lớp XGBoost cũng tỏ ra nhanh vƣợt trội so với thuật toán phân lớp SVM, trong quá trình thực nghiệm nay, với cùng máy tính xử lý, cùng tập dữ liệu, khoảng thời gian thuật toán SVM xử lý lâu hơn thời gian xử lý của XGBoost gần 6 lần. Chính vì vậy, thuật toán phân lớp XGBoost đƣợc lựa chọn cho việc xây dựng bản đồ lớp phủ đô thị cho thủ đô Viêng Chăn trong nghiên cứu này.
Dựa trên các phƣơng pháp đánh giá mức độ chính xác, các kết quả này cũng đã đảm bảo đƣợc độ tin cậy trong thống kê và có thể sử dụng kết quả việc phân loại lớp phủ đô thị cho Viêng Chăn - Lào năm 2018 và trong các phân tích biến động lớp phủ đô thị cho khu vực nghiên cứu này. Ngoài ra, so với phƣơng pháp ban đầu của nhóm tác giả, phƣơng pháp phân loại lớp phủ đô mới có kết hợp chỉ số NDVI đã có cải thiện kết quả phân lớp ở lớp đối tƣợng cần tập trung nghiên cứu là lớp phủ đô thị.
Hình 3.12. Bản đồ lớp phủ Viêng Chăn 1995
Hình 3.13. Bản đồ lớp phủ Viêng Chăn 2005
Nguồn ảnh: JAPAN INTERNATIONAL COOPERATION AGENCY (JICA) Dựa trên bản đồ phân loại lớp phủ Viêng Chăn các năm 1995, 2005 (hình 3.12 và hình 3.13) và bản đồ phân loại lớp phủ đô thị 2018 (hình 3.11), dễ dàng nhận thấy phần diện tích đô thị của Viêng Chăn tập trung chủ yếu ở 4 quận trung tâm của thành phố, nơi tập trung dân cƣ đông đúc nhất. Theo từng năm, phần lớp phủ đô thị cũng phát triển tăng thêm ở các quận trung tâm cũng nhƣ dọc theo các con sông lớn của thành phố, điều này phù hợp với tập tính sinh hoạt tự nhiên của ngƣời dân nơi đây, nơi chƣa có quá nhiều khu công nghiệp cũng nhƣ thành phố