Giả sử với n: số mẫu quan sát; t: mẫu quan sát thứ t trong số n mẫu; xt là giá trị của AOD từ vệ tinh tại mẫu quan sát thứ t; yt là giá trị AOD từ trạm quan trắc AERONET tại mẫu quan sát thứ t. Một số thông số được sử dụng trong việc đánh giá AOD như trung bình số học, phương sai, độ lệch chuẩn, hệ số xác định, hệ số tương quan, … Trung bình số học của một bộ dữ liệu được tìm thấy bằng cách lấy tổng của dữ liệu, và sau đó chia tổng cho tổng số các giá trị trong tập hợp. Phương sai được hiểu là trung bình của bình phương sự khác biệt giữa hai giá trị. Độ lệch chuẩn là thước đo sự lây lan của các con số. Độ lệch chuẩn được tính bằng căn bậc hai của phương sai. Hệ số xác định mô hình hồi quy tuyến tính là tỷ số của chênh lệch của các giá trị phù hợp và các giá trị quan sát được của biến phụ thuộc.
Trung bình (Mean): bằng tổng của tất cả các giá trị của dữ liệu trong mẫu chia cho kích thước mẫu. Các loại trung bình khác bao gồm "mode" và "median". Mode là giá trị xuất hiện thường xuyên nhất trong tập hợp. Median là giá trị giữa trong một tập hợp các phần tử. Những trung bình này thường sẽ tạo ra các kết quả khác so với giá trị trung bình của cùng tập hợp số đó. Tuy nhiên, luận văn chỉ sử dụng trung bình Mean để đánh giá chung AOD. Công thức tính trung bình như (4).
𝑥̅ = 1
𝑛∑𝑛 𝑥𝑡
𝑡=1 (4)
Độ lệch chuẩn (Standard Deviation). Đây là một giá trị thể hiện mức độ hội tụ hay sức phân tán (Spread) của một tập dữ liệu. Nếu một tập dữ liệu có độ lệch chuẩn nhỏ điều đó chứng tỏ các phần tử dữ liệu nhìn trên phương diện tổng quát có sự tương đồng cao, ngược lại thì dữ liệu có vùng phân tán lớn, rời rạc, rải rác trong không gian giá trị của chúng. Có hai cách tính độ lệch chuẩn histogram và cumulative histogram. Sự khác nhau giữa chúng là trong khi histogram là mô hình thống kê số lần xuất hiện của các giá trị thì cumulative histogram cũng thực hiện công việc tương tự tuy nhiên có áp dụng thêm việc tính toán dồn giá trị thống kê được theo khoảng. Công thức tính toán độ lệch chuẩn như (5).
𝑠 = √𝑛1∑𝑛 (𝑥𝑡− 𝑥̅)2
𝑡=1 (5)
Hệ số xác định (coefficient of determination ). Giá trị R2 càng cao là một dấu hiệu cho thấy mối liên hệ giữa biến độc lập và biến phụ thuộc càng chặt chẽ và cho thấy mô hình sử dụng để phân tích có khả năng giải thích càng tốt khác biệt về biến phụ thuộc giữa các quan sát. R2 có giá trị từ 0 đến 1. Giả sử R2 có giá trị là 0.88. Điều này có nghĩa là mô hình hồi quy tuyến tính y = a + bx có thể giải thích khoảng 88% các khác biệt của tập giá trị. Công thức tính toán như (6).
𝑅2 = (∑𝑛𝑡=1(𝑥𝑡−𝑥̅)(𝑦𝑡−𝑦̅))2 ∑𝑛 (𝑥𝑡−𝑥̅)2
𝑡=1 ∑𝑛 (𝑦𝑡−𝑦̅)2
𝑡=1 (6)
Hệ số tương quan (correlation coefficient). Hệ số tương quan đo lường mức độ quan hệ tuyến tính giữa hai biến; chính xác hơn là quan hệ tuyến tính giữa hai biến, không phân biệt biến này phụ thuộc vào biến kia. Gọi (x1, y1), (x2, y2), ..., (xn, yn) là n cặp quan sát của một mẫu ngẫu nhiên của hai biến ngẫu nhiên X & Y. Hệ số tương quan tính từ mẫu n cặp giá trị quan sát của hai biến X và Y được thể hiện trong công thức (7). Hệ số tương quan (r) không có đơn vị, có thể tính từ giá trị mã hóa bằng phép biến đổi tuyến tính của X và Y. (r) luôn luôn biến động trong khoảng (1 ,-1). Nếu hệ số tương quan (r) dương cho biết X và Y biến động cùng chiều và âm thì ngược lại. Nếu r = 1 thì mối liên hệ giữa các biến hoàn toàn chặt chẽ. Nếu r = 0 thì giữa các biến không có mối liên hệ. 𝑟 = 1 𝑛∑𝑛𝑡=1(𝑥𝑡−𝑥̅)(𝑦𝑡−𝑦̅) √𝑛1∑𝑛 (𝑥𝑡−𝑥̅)2 𝑡=1 √𝑛1∑𝑛 (𝑦𝑡−𝑦̅)2 𝑡=1 (7)
Sai số tuyệt đối trung bình - MAE (Mean Absolute Error), sai số trung bình - MBE (Mean Bias Error). MAE được sử dụng khi tồn tại một số sai số lớn. MBE là một phép đo các sai số tổng thể. MBE mô tả hướng sai lệch sai số. Tuy nhiên, giá trị của nó liên quan đến mức độ của các giá trị được điều tra. Một MBE âm xảy ra khi có giá trị nhỏ hơn so với giá trị quan sát.
𝑀𝐴𝐸 = 1
𝑛∑𝑛 |𝑥𝑡 − 𝑦𝑡 |
𝑡=1 (8) 𝑀𝐵𝐸 = 1
𝑛∑𝑛 (𝑥𝑡 − 𝑦𝑡 )
𝑡=1 (9)
MSE (Mean Squared Error), RMSE (Root Mean Squared Error). RMSE cho biết mức độ phân tán các giá trị dự đoán từ các giá trị thực tế, công thức (10). RMSE là một đánh giá tốt cho các sai số, nhưng rất dễ bị ảnh hưởng bởi phạm vi của biến phụ thuộc. Nếu biến phụ thuộc có dải biến thiên hẹp, RMSE sẽ thấp và nếu biến phụ thuộc có phạm vi rộng RMSE sẽ cao. Do đó, RMSE là một số liệu tốt để so sánh giữa các lần lặp lại khác nhau của mô hình. Sai số bình phương trung bình (Mean Squared Error-MSE) được sử dụng để kiểm tra mức độ lỗi của một mô hình. Đây là một trong các phương pháp để đo trung bình của một tập của sai số. Về cơ bản, nó sẽ kiểm tra sự khác biệt giữa giá trị thực tế và giá trị dự đoán. Khi các sai số tương đương nhau, ta sử dụng MSE. MAE, MSE, RMSE khi được tính cùng nhau nên sử dụng để đánh giá theo công thức có giá trị nhỏ nhất.
𝑅𝑀𝑆𝐸 = √∑𝑛 (𝑥𝑡−𝑦𝑡)2 𝑡=1
𝑛 (10) 𝑀𝑆𝐸 = ∑𝑛𝑡=1(𝑥𝑡−𝑦𝑡)2
4. CHƯƠNG 4: THỰC NGHIỆM VÀ KẾT QUẢ
4.1. Khu vực nghiên cứu
Đông Nam Á là một khu vực của châu Á, bao gồm 11 quốc gia: Việt Nam, Lào, Campuchia, Đông Timor, Indonesia, Malaysia, Myanmar, Philippines, Singapore, Thái Lan và Brunei (Hình 4.1). Đông Nam Á nằm ở phía Đông của Tiểu Lục địa Ấn Độ, phía Nam Trung Quốc và phía bắc của Úc, giữa Ấn Độ Dương (phía tây) và Thái Bình Dương (ở phía đông). Các nước Đông Nam Á được chia ra theo đại lục và biển. Các nước Đông Nam Á đại lục, còn được gọi là các nước Đông Dương, bao gồm Việt Nam, Lào, Campuchia, Thái Lan, Myanmar, và (Tây) Malaysia. Các nước Đông Nam Á biển, còn được gọi là các nước Đông Ấn gồm Indonesia, (Đông) Malaysia, Singapore, Philippines, Đông Timor, Brunei. Phía bắc của khu vực Đông Nam Á sát với Trung Quốc, trong đó có hai vùng kính tế đặc thù là Hồng Kông và Đài Loan.
Hình 4.1: Các nước trong khu vực Đông Nam Á. [9]
Nghiên cứu được thực hiện trên 7 quốc gia trong khu vực Đông Nam Á và 2 khu vực lân cận bao gồm: Indonesia, Thái Lan, Việt Nam, Malaysia, Philippines, Lào, Singapore, Hồng Kông, Đài Loan. Trong đó có 4 quốc gia trong 11 quốc gia thuộc khu vực Đông Nam Á không thực hiện đánh giá do không có trạm AERONET hoặc không
có dữ liệu phù hợp thời gian nghiên cứu. Thời gian thực hiện nghiên cứu tính từ năm 2012 đến năm 2016.
Đông Nam Á có nguồn tài nguyên thiên nhiên phong phú. Sự phát triển kinh tế, tăng trưởng dân số và di cư đô thị như là nguyên nhân dẫn đến nhu cầu năng lượng tăng cao rất nhiều. Trong đó nguồn tài nguyên chủ yếu được dùng là than đá mà không phải các nguồn tài nguyên tái tạo. Hàng năm, các nhà máy nhiệt điện đốt hàng ngàn tấn than để tạo ra điện và thải vào không khí lượng khói bụi vô cùng lớn. Là vùng đất sở hữu đa dạng sinh học song tốc độ phá rừng ở Đông Nam Á cũng cao nhất trong các khu vực nhiệt đới. Trong khi tại một số vùng hiện tượng cháy rừng có thể xuất phát từ những nguyên nhân tự nhiên như sấm sét hay đốt rừng làm nương rẫy, thì tại đây phần lớn những thảm họa cháy rừng xuất phát từ con người như việc đốt các đồn điền cây cọ dầu quy mô lớn với mục đích thương mại ở Indonesia, chặt phá rừng đầu nguồn và buôn bán gỗ tại Malaysia… Cháy rừng được xem là một trong những nguyên nhân gây suy thoái đa dạng sinh học, ô nhiễm không khí nghiêm trọng ở Đông Nam Á. Do vậy, thực nghiệm tập trung vào nghiên cứu tình hình của các nước Đông Nam Á và các khu vực xung quanh nhằm đưa ra cái nhìn tổng thể về tình hình ô nhiễm không khí tại khu vực.
Hình 4.2: bản đồ các nước đông nam á [7]
Đông Nam Á là nơi giao nhau của nhiều mảng địa chất, thường xuyên xảy ra núi lửa phun trào và động đất trong khu vực hải đảo. Đây là một trong những khu vực có
hoạt động núi lửa mạnh nhất thế giới. Đông Nam Á chịu ảnh hưởng chủ yếu của gió mùa, tạo nên hai mùa tương đối rõ rệt: mùa khô lạnh, mát và mùa mưa tương đối nóng và ẩm. Các dải núi của bán đảo Trung Ấn là những dải núi nối tiếp dãy Himalaya chạy dài theo hướng Bắc - Nam và Tây Bắc - Đông Nam, bao quanh những khối cao nguyên thấp. Các thung lũng sông cắt xẻ sâu làm cho địa hình của khu vực bị chia cắt mạnh. Khu vực không có các đồng bằng rộng lớn như vùng đồng bằng sông Ấn Hằng. Đồng bằng chủ yếu tập trung ờ ven biển và hạ lưu các sông. Phần lớn diện tích là núi và cao nguyên. Núi lửa tập trung tại khu vực quần đảo Malaysia và Indonesia. Các đặc điểm này thể hiện rõ trên Hình 4.2 bản đồ địa hình các nước khu vực Đông Nam Á. Gió mùa hạ xuất phát từ vùng áp cao của nửa cầu Nam thổi theo hướng Đông Nam, vượt qua Xích đạo và đổi hướng thành gió Tây Nam nóng, ẩm mang lại nhiều mưa cho khu vực. Gió mùa đông xuất phát từ vùng áp cao Xi-bia thổi về vùng áp thấp Xích đạo, với đặc tính khô và lạnh. Nhờ có gió mùa nên khí hậu Đông Nam Á không bị khô hạn như những vùng cùng vĩ độ ở Châu Phi và Tây Nam Á. Song khu vực này lại bị ảnh hưởng của các cơn bão nhiệt đới hình thành từ các áp thấp trên biển.
Nhằm giám sát và nghiên cứu về khí hậu, tại các quốc gia Đông Nam Á đã được thiết lập các trạm quan trắc sol khí trên mặt đất nằm trong chương trình AERONET. Theo số liệu thống kê trên AERONET thời điểm tháng 9 năm 2017, có 65 trạm trong toàn bộ khu vực nghiên cứu. Tuy nhiên chỉ có 49 trạm có dữ liệu cấp 2.0 từ năm 2012 đến 2016. Thực hiện chọn trong mỗi khu vực của quốc gia một trạm đại diện với mục tiêu loại bỏ các trạm có ít dữ liệu và dữ liệu không đều theo các tháng. Sau khi thực hiện chọn các trạm AERONET, có 28 trạm có dữ liệu tương đối ổn định được đưa ra để đánh giá (bản đồ các trạm quan trắc Hình 4.3).