Dự đoán mức độ bụi PM2.5 bằng phương pháp khai phá dữ liệu

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	7
Dung lượng	679,29 KB

Nội dung

Thuật toán XGBoost được áp dụng để dự đoán mức độ ô nhiễm của bụi PM2.5 và thử nghiệm đã cho thấy độ chính xác của thuật toán này cao hơn với so với các thuật toán khai phá dữ liệu khác trong khi thời gian huấn luyện lại thấp hơn đáng kể.

Nguyễn Quỳnh Chi DỰ ĐOÁN MỨC ĐỘ BỤI PM2.5 BẰNG PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU Nguyễn Quỳnh Chi* * Học Viện Cơng Nghệ Bưu Chính Viễn Thơng Tóm tắt—Tình trạng nhiễm khơng khí tồn cầu khơng ngừng gia tăng gây tác động tiêu cực tới sức khỏe người như: bệnh đường hô hấp, tim mạch ung thư Tại Hà Nội, thời gian gần đây, tình hình nhiễm trở nên xấu hơn, đặc biệt mật độ bụi PM2.5 ln mức cao Vì vậy, việc dự đốn mức độ ô nhiễm số PM2.5 trở nên cần thiết nhằm thực cảnh báo sớm Với liệu khơng khí gồm số khí tượng nhiễm khơng khí thu thập Hà Nội, thực phương pháp trích rút đặc trưng cho kết tốt chạy thuật toán so với phương pháp cũ Thuật toán XGBoost áp dụng để dự đoán mức độ ô nhiễm bụi PM 2.5 thử nghiệm cho thấy độ xác thuật tốn cao với so với thuật toán khai phá liệu khác thời gian huấn luyện lại thấp đáng kể Từ khóa— dự đốn chất lượng khơng khí, khai phá liệu, dự đốn bụi PM2.5, XGBoost I GIỚI THIỆU Tình trạng nhiễm khơng khí gia tăng làm phát sinh nhiều vấn đề tới sức khỏe người Theo thông tin đăng tải Tổ chức Y tế giới (WHO), vấn đề nhiễm khơng khí ảnh hưởng tới tất người quốc gia [1] Điều gây 4,2 triệu người chết sớm phạm vi tồn cầu năm 2016 Trong đó, nước khu vực Đơng Nam Á Tây Thái Bình Dương chiếm 91% Nguyên nhân chủ yếu đến từ hạt bụi mịn có kích thước 2,5 µm nhỏ có nhiễm khơng khí, tác nhân gây bệnh tim mạch, hô hấp ung thư Vấn đề nhiễm khơng khí xảy nghiêm trọng thành phố lớn mật độ dân cư cao khiến lượng phát thải khí tăng lên Bên cạnh đó, việc thi cơng cơng trình xây dựng, đường khiến làm tăng lượng bụi khơng khí thành phố lớn Thành phố Hà Nội phải đối mặt với tình trạng gia tăng nhiễm khơng khí Trong ngày tháng 09/2019, Hà Nội xếp vào thành phố nhiễm khơng khí cao giới Nguyên nhân chủ yếu tới từ mật độ bụi PM2.5 tăng mức cao không khí Loại bụi tác động tiêu cực tới sức khỏe người, vậy, dự đốn mức độ ô nhiễm bụi PM2.5 trở nên cần thiết Trong nhiều năm qua, quốc gia phát triển, có nhiều phương pháp dự đốn nhiễm bụi PM2.5 nghiên cứu Các thuật toán áp dụng hệ lai kết hợp với suy diễn mờ, rừng ngẫu nhiên (Random Forest-RF), máy vectơ hỗ trợ (Support Vector Machine-SVM) mạng nơ-ron Những thuật toán cho kết khả quan độ xác dự đốn Tuy nhiên, phương pháp lại thực tập liệu thu thập thời điểm địa điểm khác nên khó chọn phương pháp dự đoán từ nghiên cứu phù hợp với liệu khơng khí thu thập thành phố Hà Nội Vì vậy, chúng tơi thực khảo sát nghiên cứu khác liên quan tới dự đốn mức độ nhiễm số PM2.5 nhằm có nhìn tổng quan phương pháp dự đoán phần Trên sở đó, phần chúng tơi thực phân tích liệu thu thập được, đề xuất cách trích rút đặc trưng lựa chọn phương pháp huấn luyện mơ hình phù hợp để dự đốn mức độ ô nhiễm số PM2.5 thành phố Hà Nội tiếng sau Các số khí tượng cần thiết cho việc dự đốn, bên cạnh số nhiễm khác (bụi mịn có đường kính cỡ 10 µm – PM10, nồng độ khí CO2, tổng vật chất hữu lơ lửng – TVOC) yếu tố thời gian xem xét ảnh hưởng tới kết dự đốn Với cách trích rút này, thực việc so sánh với phương pháp trích rút cũ thử nghiệm với mơ hình dự đoán khác nhau: SVM, RF, Perceptron đa lớp (Multi-layer Perceptron-MLP) XGBoost (Extreme Gradient Boosting) phần Cuối cùng, kết luận thảo luận hướng phát triển tương lai phần II KHẢO SÁT Trong phần này, thực khảo sát nghiên cứu liên quan Trước hết, số nghiên cứu áp dụng hệ nơ-ron suy diễn mờ thích (Adaptive Neuro Fuzzy Inference System – ANFIS) để dự đốn Việc sử dụng ANFIS cho thấy có cải thiện sử dụng phương pháp suy diễn mờ quy nạp (Fuzzy Inductive Reasoning – FIR), nhiên, khác biệt không nhiều Điều nghiên cứu dự đoán mật độ bụi PM 2.5 khu vực trung tâm thành phố Mexico [2] Tuy nhiên, nghiên cứu không khai thác nhiều yếu tố khí tượng Tác giả liên lạc: Nguyễn Quỳnh Chi, Email: chinq@ptit.edu.vn Đến tòa soạn: 24/10/2020, chỉnh sửa: 24/11/2020, chấp nhận đăng: 04/12/2020 SỐ 04A (CS.01) 2020 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 99 DỰ ĐOÁN MỨC ĐỘ BỤI PM2.5 BẰNG PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU vào việc dự đoán mật độ bụi PM2.5 Một nghiên cứu khác thực dự đoán bụi PM10 thành phố Konya [3] sử dụng ANFIS, họ dùng yếu tố khí tượng gồm: nhiệt độ, độ ẩm, áp suất tốc độ gió việc dự đoán Đặc biệt việc xử lý liệu, họ có đề xuất phương pháp tỷ lệ liệu phụ thuộc đầu (Output-dependent data scaling-ODDS) Điều cho kết hứa hẹn Tuy nhiên họ không kết hợp thêm giá trị lịch sử mật độ bụi PM10 để dự đoán Với toán dự đoán theo thời gian, việc lựa chọn phương pháp suy diễn mờ không phù hợp, kết dự đốn cho độ xác khơng cao (35% 62%) Bên cạnh đó, việc khơng xét đến yếu tố thời gian khiến việc dự đốn trở nên xác Ngồi ra, có nghiên cứu áp dụng thuật toán khác SVM, RF việc dự đoán chất lượng khơng khí Những nghiên cứu sử dụng yếu tố khí tượng giá trị lịch sử chất ô nhiễm làm đầu vào cho thuật tốn Với nghiên cứu sử dụng phương pháp SVM [4] [5], kết tốt với chất ô nhiễm lại phù hợp với hàm nhân (kernel) định Theo kết thử nghiệm với số SO2, hàm nhân RBF cho kết tốt với số NO2 sử dụng hàm tuyến tính lại cho kết tốt [4] Bên cạnh SVM, RF thuật toán số nghiên cứu áp dụng việc xây dựng phương pháp dự đốn chất lượng khơng khí Một nghiên cứu thực thành phố Thẩm Dương (Trung Quốc) [6] xây dựng thuật toán RAQ dựa RF để dự đốn chất lượng khơng khí thành phố Họ xây dựng thử nghiệm tập liệu thu thập từ 10 trạm quan trắc bao gồm nhiều yếu tố: liệu khí tượng, liệu số nhiễm khơng khí, liệu giao thơng địa lý Phương pháp dự đoán với thuật toán RAQ cho kết vượt trội, độ xác lên tới 81.5%, với mạng nơ-ron nhân tạo (Artificial Neural Network – ANN) đạt 71.8% định (Decision Tree) đạt 77.4% Một nghiên cứu khác áp dụng RF phương pháp dự đoán họ thực với tập liệu thu thập thành phố Warsaw để dự đốn trung bình mức độ ô nhiễm chất ngày [7] Phương pháp họ thực gồm giai đoạn gồm: lựa chọn đặc trưng áp dụng phương pháp dự đoán Với giai đoạn lựa chọn đặc trưng, họ thực phương pháp sử dụng giải thuật di truyền (Genetic Algorithm – GA) thử khớp bước (Stepwise fit-SF) để loại bỏ bớt đặc trưng từ tập đặc trưng ban đầu Với giai đoạn dự đốn, họ xây dựng mơ hình, mơ hình có đặc trưng qua mạng nơ-ron thuật toán học máy khác (MLP, RBF, SVM) tới RF để tổng hợp kết dự đoán mạng trên, mơ hình cịn lại có đặc trưng đầu vào trực tiếp cho RF Các số ô nhiễm thử nghiệm để dự đoán nghiên cứu gồm: PM10, SO2, NO2, O3 Kết họ thực cho thấy việc lựa chọn đặc trưng có ảnh hưởng tới kết dự đoán, phương pháp SF thường cho kết cao GA lên tới 2.88% So với phương pháp sử dụng suy diễn mờ, SVM RF tỏ hiệu việc dự đoán, cho kết dự đốn xác Cách trích rút đặc trưng nghiên cứu sử dụng SVM RF xét tới nhiều yếu tố khí tượng, số nhiễm, thời gian địa lý Điều giúp kết dự đoán trở nên xác phù hợp với liệu thu thập Ngoài SVM RF, mạng nơ-ron áp dụng việc dự đoán bụi PM2.5 Nghiên cứu tập liệu thu thập Hợp Phì (Trung Quốc) cho độ SỐ 04A (CS.01) 2020 xác cao dự đoán mật độ bụi PM2.5 ngày sử dụng mạng nơ-ron nhân tạo (ANN) [8] Dữ liệu họ bao gồm mật độ bụi PM2.5 liệu khí tượng Mơ hình thiết kế có vector input gồm: mật độ PM2.5 yếu tố khí tượng (nhiệt độ, tốc độ gió, hướng gió, độ ẩm) Kết nghiên cứu cho dự đốn có độ xác cao với độ đo sau: Trung bình tuyệt đối lỗi (Mean Absolute Error – MAE) [μg/m3]: 0.92472; Căn trung bình bình phương lỗi (Root-mean-square Error – RMSE) [μg/m3]: 1.2756; Hệ số xác định (Coefficient of Determination – R2score): 0.9188; R: 0.9315 Tuy nhiên, với nghiên cứu sử dụng SVM RF đề cập trước ANN lại tỏ hiệu Dù vậy, cân nhắc thử nghiệm với thuật toán để giải tốn chúng tơi Trong năm gần đây, thuật toán Extreme Gradient Boosting (XGBoost) lên việc giải toán Một số nghiên cứu áp dụng thuật tốn cho độ xác vượt trội so với RF, MLP với thời gian huấn luyện ngắn [9] [10] Chính ưu điểm mà thuật toán XGBoost áp dụng ngày nhiều toán dự đoán bên cạnh thuật toán học sâu III PHƯƠNG PHÁP THỰC HIỆN Trong phần này, chúng tơi trình bày phương pháp thực gồm bước: phân tích tập liệu thu thập được, đề xuất lựa chọn đặc trưng xây dựng mơ hình dự đốn A Mơ tả liệu Tập liệu thu thập trạm quan trắc thành phố Hà Nội khoảng thời gian từ 17/08/2018 tới 22/07/2019 Mỗi ghi tập liệu chứa cột: thời gian, SO2, NH3, O3, PM2.5, PM10, CO2, PM0.1, TVOC, CO, nhiệt độ, độ ẩm, ánh sáng Thời gian lấy mẫu cách trung bình khoảng 40 giây Tuy nhiên, tập liệu tồn số ghi có giá trị rỗng bị nhiễu Biểu đồ phân bố giá trị thuộc tính (các cột) mơ tả Hình Sự tồn ghi nhiễu khiến biểu đồ phân bố giá trị hầu hết số bị lệch trái nhiều Tiếp theo thực lọc bỏ ghi nhiễu trích rút đặc trưng Đầu tiên, chúng tơi thực loại bỏ ghi nhiễu, bị khuyết, mang giá trị nằm ngồi miền cho phép (ví dụ số PM0.1 tồn giá trị âm nhiệt độ đo lớn 50 độ C) Qua khảo sát nhiều nghiên cứu [7] [11], yếu tố khí tượng: nhiệt độ, độ ẩm, ánh sáng giữ lại, số phản ánh điều kiện thời tiết môi trường Chúng nhân tố quan trọng mô hình dự đốn mức độ nhiễm bụi PM2.5 Tiếp theo, loại bỏ số khác không cần thiết cách đánh giá mức độ tương quang với số PM2.5 giá trị chị số Dựa Bảng II, thấy số CO khơng có ý nghĩa việc dự đoán, giá trị số Bên cạnh số TVOC, SO2, NH3, O3 lược chúng tương quan với số PM2.5 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THOÂNG 100 Nguyễn Quỳnh Chi 25% 4.6 17.6 15.7 50% 18.5 25 75% 5.3 18.5 41.7 Giá trị lớn 99.6 104.5 86.6 Hình Hình – Biểu đồ tương quan số ô nhiễm với số PM2.5 Bảng II – Mô tả giá trị số PM0.1, TVOC, SO2 PM0.1 TVOC SO2 Số ghi 329455 329455 329455 Trung bình 17.927 3.535 14.405 Độ lệch chuẩn 8.972 1.605 4.604 Giá trị nhỏ 25% 11 12.9 50% 17 14.3 75% 24 14.3 Giá trị lớn 306 137.9 Hình – Phân bố liệu số tập liệu Có thể thấy số PM10 PM2.5 có quan hệ chặt số số nên số giữ lại Cuối số cần thiết để dự đoán: nhiệt độ, độ ẩm, ánh sáng, CO2, PM10 giá trị phân bố mơ tả Hình Trong phần chúng tơi trình bày phương pháp trích rút đặc trưng từ số lại sau trình tiền xử lý liệu Bảng I – Mô tả giá trị số CO, NH3, O3, PM10 Số ghi Trung bình Độ lệch chuẩn Giá trị nhỏ CO NH3 O3 PM10 329455 329455 329455 329455 0.000 5.052 17.991 28.401 0.000 2.374 2.456 15.641 0.5 6.5 SỐ 04A (CS.01) 2020 B Trích rút đặc trưng Các đặc trưng chúng tơi trích dựa cách lựa chọn đặc trưng nghiên cứu chúng tơi khảo sát trước [7] [8] Trong đó, phương pháp SF GA áp dụng để tìm tập đặc trưng tốt từ tập hợp đặc trưng ban đầu Đối với toán dự đốn nhiễm số PM2.5 Hà Nội, thực lấy đặc trưng tiềm chọn lọc theo kết nghiên cứu thành phố Warsaw [7] Cụ thể hơn, đặc trưng đề xuất gồm: • Các đặc trưng thời điểm tại: f1 – giá trị số PM2.5 tại; f2 – giá trị số PM10 tại; f3 – giá trị nhiệt độ tại; f4 – giá trị độ ẩm tại; f5 – giá trị ánh sáng tại; f6 – giá trị số CO2 Đây giá trị mô tả khơng khí thời điểm nhằm hỗ trợ dự đốn TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 101 DỰ ĐOÁN MỨC ĐỘ BỤI PM2.5 BẰNG PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU • • • Các đặc trưng dựa thời gian: f7 – – mùa (biểu diễn bit: 00 – mùa xuân, 01 – mùa hạ, 10 – mùa thu, 11 – mùa đông); f9 – ngày nghỉ (1 – ngày nghỉ, – ngày làm); f10 – Đặc trưng mùa cần thiết khí hậu Hà Nội nhiệt đới gió mùa, nên nằm khu vực nhiệt đới lại có mùa thay đổi năm Bên cạnh đó, đặc trưng ngày nghỉ tuần thời gian ngày xem xét nhiễm khơng khí chủ yếu hoạt động người Các đặc trưng 24 tiếng trước đó: f11 – 35 – giá trị số PM2.5 tới 24 trước Đặc trưng phục vụ theo dõi biến đổi theo để dự đoán Các đặc trưng khí tượng 24 tiếng trước đó: f36 – 38 – giá trị lớn nhất, nhỏ nhất, trung bình số PM2.5 24 trước đó; f39 – 41 – giá trị lớn nhất, nhỏ nhất, trung bình nhiệt độ 24 trước đó; f42 – 44 – giá trị lớn nhất, nhỏ nhất, trung bình độ ẩm 24 trước Những đặc trưng nhằm cho thấy mức độ biến động môi trường vòng 24 tiếng, điều ảnh hưởng tới thay đổi số PM2.5 So với nghiên cứu trước [7][8], chúng tơi có bổ sung giá trị số PM10 quan sát thấy tương quan số giá trị cần dự đốn Bên cạnh đó, với việc dự đoán theo tiếp theo, việc lấy thêm giá trị lịch sử 24 trước số PM2.5 đưa vào Giá trị dự đốn giá trị trung bình số PM2.5 Sau trích chọn đặc trưng, chúng tơi thực chuẩn hóa liệu chuẩn hóa z – score có cơng thức (1): 𝑥−𝜇 (1) 𝑧= 𝜎 Trong 𝜇 trung bình phần tử, 𝜎 độ lệch chuẩn, 𝑥 giá trị cần chuẩn hóa C Mơ tả mơ hình dự đốn Mơ hình dự đốn chúng tơi đề xuất gồm q trình huấn luyện q trình dự đốn trình bày tổng quát Hình Với trình huấn luyện, từ liệu đầu vào số khí tượng số nhiễm, chúng tơi thực trích rút vector đặc trưng 44 chiều trình bày phần trước Vector chuẩn hóa thuật tốn chúng tơi áp dụng XGBoost xây dựng dựa Gradient Boost [12] Khác với RF [13], thuật toán sử dụng phương pháp boosting để giải Cụ thể hơn, sinh với mục đích giảm thiểu lỗi từ trước việc học lại phần lỗi từ trước đó, cập nhật lỗi để có tốt Từ đó, bước trước, điểm bị phân sai có hội phân nhiều xtương lai Tập liệu gồm cặp (𝒙𝑖 , 𝑦𝑖 ) 𝒙𝑖 vector đặc trưng 44 chiều 𝑦𝑖 giá trị dự đốn tương ứng Mơ hình học mơ tả sau: SỐ 04A (CS.01) 2020 𝐾 (2) 𝑦̂𝑖 = 𝜙(𝒙𝑖 ) = ∑ 𝑓𝑘 (𝒙𝑖 ) , 𝑓𝑘 ∈ ℱ 𝑘=1 Hình – Mơ hình dự đốn Trong đó, ℱ = {𝑓(𝒙) = 𝑤𝑞(𝒙) }(𝑞: ℝ𝑚 ) → 𝑇, 𝑤 ∈ ℝ𝑇 , với 𝑞 để ánh xạ vector vào giá trị dự đoán nút lá, 𝑇 số lượng nút cây, 𝐾 số lượng cây, 𝑓𝑘 thứ 𝑘 độc lập mơ hình, 𝑤𝑖 trọng số nút thứ 𝑖 𝑦̂𝑖 giá trị dự đoán với Hàm mục tiêu: 𝑛 𝐾 (3) ℒ(𝜙) = ∑ 𝑙(𝑦𝑖 , 𝑦̂𝑖 ) + ∑ Ω(𝑓𝑘 ) 𝑖=1 𝑘 Trong đó, 𝑛 số điểm liệu, Ω(𝑓) = 𝛾𝑇 + 𝜆‖𝑤‖2 hàm qui chuẩn (regularization) Bởi hàm mục tiêu tối ưu phương pháp Stochastic Gradient Descent (SGD) nên trình học thực sau: (𝑡) (𝑡−1) (0) (𝑡) Với 𝑦̂𝑖 = 𝑦̂𝑖 + 𝑓𝑡 (𝒙𝑖 ) bắt đầu 𝑦̂𝑖 = 0, 𝑦̂𝑖 giá trị dự đốn instance thứ 𝑖 vịng lặp thứ 𝑡 Hàm mục tiêu trở thành: 𝑛 ℒ (𝑡) (𝑡−1) = ∑ 𝑙(𝑦𝑖 , 𝑦̂𝑖 + 𝑓𝑡 (𝒙𝑖 )) + Ω(𝑓𝑡 ) (4) 𝑖=1 Và có cơng thức tính xấp xỉ sau: 𝑛 ℒ (𝑡) ≃ ∑ [𝑙(𝑦𝑖 , 𝑦̂ (𝑡−1) ) + 𝑔𝑖 𝑓𝑡 (𝒙𝑖 ) (5) (𝒙 )] + ℎ𝑖 𝑓𝑡 𝑖 + Ω(𝑓𝑡 ) Với 𝑔𝑖 = 𝜕𝑦̂ (𝑡−1) 𝑙(𝑦𝑖 , 𝑦̂ (𝑡−1) ), ℎ𝑖 = 𝜕𝑦2̂ (𝑡−1) 𝑙(𝑦𝑖 , 𝑦̂ (𝑡−1) ) Nếu bỏ phần số, hàm mục tiêu viết đơn giản sau: 𝑛 (𝑡) ̃ ℒ = ∑ [𝑔𝑖 𝑓𝑡 (𝒙𝑖 ) + ℎ𝑖 𝑓𝑡2 (𝒙𝑖 )] + Ω(𝑓𝑡 ) (6) 𝑖=1 𝑖=1 Đặt 𝐺𝑗 = ∑𝑖∈𝐼𝑗 𝑔𝑖 , 𝐻𝑗 = ∑𝑖∈𝐼𝑗 ℎ𝑖 , với 𝐼𝑗 = {𝑖|𝑞(𝒙𝑖 ) = 𝑗} tập giá trị nút 𝑗 Trọng số tối ưu nút lá: 𝐺𝑗 𝑤𝑗∗ = − (7) 𝐻𝑗 + 𝜆 Hàm tính lỗi tồn cây: TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 102 Nguyễn Quỳnh Chi 𝑇 𝐺𝑗 ℒ̃ (𝑡) = − ∑ + 𝛾𝑇 𝐻𝑗 + 𝜆 giá trị dự đoán áp dụng phương pháp (8) 𝑗=1 Quá trình huấn luyện kết thúc sau số lần lặp giá trị hàm mục tiêu nhỏ ngưỡng Mơ hình sau huấn luyện sử dụng để dự đốn giá trị trung bình số PM2.5 Với đầu vào liệu số khí tượng nhiễm vịng 24 tiếng, liệu trích rút thành vector 44 chiều sau chuẩn hóa Vector đưa vào mơ hình huấn luyện để đưa giá trị dự đoán Trong phần tiếp theo, chúng tơi thực thử nghiệm phương pháp trích rút mơ hình dự đốn trình bày Bảng III – Kết so sánh phương pháp R2 – score MAE RMSE Phương pháp 0.9508 0.1387 0.2266 Phương pháp 0.9368 0.1515 0.2521 IV THỬ NGHIỆM Bởi liệu thu thập lấy mẫu cách khoảng 40 giây, nên để thực thử nghiệm, chúng lấy trung bình ghi theo Kết thu 6433 ghi số khơng khí theo Tiếp theo, chúng tơi thực tiền xử lý, trích rút chuẩn hóa liệu Để thực trình huấn luyện đánh giá, ghi lấy ngẫu nhiên chia thành tập: tập huấn luyện (training set) chiếm 75% liệu ban đầu 25% liệu lại tập kiểm tra (test set) Các độ đo sử dụng để đánh giá gồm R2 – score công thức (9), MAE công thức (10) RMSE công thức (11) sau: ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂𝑖 )2 (9) 𝑅2 = − 𝑛 ∑𝑖=1(𝑦𝑖 − 𝑦̅)2 𝑛 𝑀𝐴𝐸 = ∑|𝑦𝑖 − 𝑦̂𝑖 | 𝑛 (10) Hình – Kết dự đốn phương pháp Có thể thấy rằng, phương pháp trích rút chúng tơi cho kết cao ~2% so với phương pháp cũ thử nghiệm mơ hình Điều khẳng định yếu tố thời gian số PM10 có tác động tới kết dự đoán số PM2.5 bên cạnh yếu tố khí tượng như: nhiệt độ, độ ẩm, ánh sáng Tiếp theo chúng tơi thực so sánh mơ hình dự đốn với mơ hình khác: SVM, Random Forest, MLP XGBoost Siêu tham số (Hyper-parameter) thuật toán đặt Bảng IV Bảng IV – Siêu tham số cho thuật toán 𝑖=1 Hyper-parameter 𝑛 𝑅𝑀𝑆𝐸 = √ ∑(𝑦𝑖 − 𝑦̂𝑖 )2 𝑛 (11) SVM gamma='auto' kernel='rbf' C=100 epsilon=0.0001 Random Forest n_estimators=150 max_features='auto' MLP hidden_layer_sizes=(192,128,96) max_iter=1000 learning_rate_init=0.01 tol=1e-6 batch_size=192 XGBoost n_estimators=200 max_depth=8 gamma=0.7 objective='reg:squarederror' 𝑖=1 Trong đó, 𝑛 số phần tử, 𝑦𝑖 giá trị thực tế, 𝑦̂𝑖 giá trị dự đoán, 𝑦̅ giá trị trung bình số phần tử Các độ đo sử dụng chúng thể rõ mức độ chênh lệch giá trị thực tế giá trị dự đoán Điều phù hợp với toán hồi quy (regression) giá trị dự đốn nằm miền liên tục thay nhãn toán phân loại Đối với R2 – score, giá trị cao mơ hình mạnh (thể mức độ phù hợp với tập liệu) tốt 1.00, với MAE RMSE giá trị nhỏ tốt (2 độ đo thể sai khác giá trị dự đoán giá trị thực tế) Tiếp theo, thực so sánh kết phương pháp trích rút chúng tơi trình bày phần (Phương pháp 1) phương pháp trích rút khác gồm đặc trưng trích từ yếu tố khí tượng (Phương pháp 2) [8] Cụ thể, phương pháp chúng tơi có xét đến yếu tố thời gian ngày năm, kèm theo số PM10 số liệu đầu vào số 24 trước đó, cịn với phương pháp 2, họ quan tâm tới yếu tố khí tượng phạm vi So sánh kết thực với độ đo trình bày Bảng III kết dự đoán phương pháp Hình với bên trái so sánh giá trị thực tế với giá trị dự đoán áp dụng phương pháp 1, bên phải so sánh giá trị thực tế với SOÁ 04A (CS.01) 2020 Các tiêu chí để so sánh tượng tự, gồm độ đo: R2 – score, MAE, RMSE thời gian huấn luyện tính giây Kết trình bày Bảng V Bảng V – So sánh kết thuật toán SVM R2 – score MAE RMSE Thời gian 0.9553 0.1154 0.2101 27.0608 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 103 DỰ ĐOÁN MỨC ĐỘ BỤI PM2.5 BẰNG PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU Random Forest 0.9587 0.1115 0.2020 35.5577 MLP 0.9562 0.1276 0.2078 8.2011 XGBoost 0.9595 0.1126 0.1999 4.8872 Thông qua độ đo R2 – score, thấy thuật toán XGBoost cho tỷ lệ phù hợp với tập liệu cao (95,95%) Với kết RMSE, chênh lệch giá trị dự đoán giá trị thực tế nhỏ nhất, tức độ xác dự đoán cao so với giá trị cịn lại So sánh với thuật tốn cịn lại, tư tưởng XGBoost xây dựng mô hình dự đốn yếu kết hợp chúng mơ hình dự đốn cuối có độ xác cao Kết hợp với việc cập nhật lại trọng số phương pháp hạ đạo hàm (gradient descent), thuật tốn XGBoost cho mơ hình dự đốn khớp với tập liệu nhiều Tuy khác biệt độ xác thuật tốn không nhiều so sánh thời gian huấn luyện XGBoost có thời gian huấn luyện ngắn Điều cho thấy tiềm mơ hình việc huấn luyện độ xác dự đốn theo thời gian V KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Với liệu thu thập Hà Nội gồm yếu tố khí tượng số ô nhiễm, nhận thấy số PM10 Hà Nội có tương quan với số PM2.5 Từ đó, với khảo sát khác chúng tơi thực phương pháp trích rút đặc trưng Phương pháp trích rút bao gồm khơng yếu tố khí tượng nhiễm thời điểm mà khứ (nhiều trước đó) Điều giúp dự đốn tốt giá trị lịch sử giúp thể xu hướng biến đổi số PM2.5 Ngồi ra, yếu tố thời gian đóng vai trị tác động lên kết dự đốn biến đổi khí hậu, mơi trường theo mùa năm Hà Nội hoạt động khác người khung thời gian khác ngày tuần Thử nghiệm chứng minh phương pháp trích rút chúng tơi cho kết dự đoán mức độ bụi PM2.5 Hà Nội tốt so với phương pháp cũ (chỉ quan tâm tới yếu tố khí tượng) Nghiên cứu cho thấy thuật toán XGBoost thuật toán tốt cho độ xác cao với thời gian huấn luyện thấp so sánh với thuật toán học máy khác Đối với tốn chúng tơi, thuật tốn phù hợp khả dự đốn xác chi phí huấn luyện mơ hình thấp Tuy nhiên, tính chất cố gắng khớp với liệu tốt thuật toán khiến thuật toán dễ bị mức phù hợp (overfitting) Vì vậy, tương lai xem xét đến số phương pháp để hạn chế việc bị overfitting thử nghiệm với thuật toán học sâu (deep learning) khác để dự đoán cho toán liệu chuỗi thời gian (time-series) Về mặt liệu thiếu số yếu tố khí tượng hướng gió, tốc độ gió Đây yếu tố ảnh hưởng tới việc dự đốn nhiễm khơng khí gió khuếch tán làm tập trung mật độ bụi khu vực Với khí hậu Hà Nội, gió cịn có đặc trưng khác thay đổi theo mùa như: hướng gió, tốc độ, độ ẩm Ngồi ra, liệu giao thông cần quan tâm lượng phương tiện cá nhân SOÁ 04A (CS.01) 2020 Hà Nội nhiều Trong tương lai, thu thập thêm liệu để quan sát tương quan chúng với mức độ ô nhiễm khơng khí Hà Nội cải tiến thử nghiệm với mơ hình khác nhằm cải thiện độ xác, phạm vi dự đốn theo khơng gian theo thời gian TÀI LIỆU THAM KHẢO [1] WHO, "Air pollution," May 2018 [Online] Available: https://www.who.int/en/news-room/factsheets/detail/ambient-(outdoor)-air-quality-and-health [2] À Nebot and F Mugica, "Small-particle pollution modeling using fuzzy approaches," Advances in Intelligent Systems and Computing, pp 239-252, 2014 [3] K Polat and S S Durduran, "Usage of output-dependent data scaling in modeling and prediction of air pollution daily concentration values (PM10) in the city of Konya," Neural Computing and Applications, p 21, 2011 [4] C.-M Vong, W.-F Ip, P.-k Wong and J.-y Yang, "ShortTerm Prediction of Air Pollution in Macau Using Support Vector Machines," Journal of Control Science and Engineering, vol 2012, 2012 [5] W.-F Ip, C.-M Vong, J Y Yang and P K Wong, "Least squares support vector prediction for daily atmospheric pollutant level," Proc 2010 IEEE/ACIS 9th International Conference on Computer and Information Science (ICIS), pp 23-28, August 2010 [6] R Yu, Y Yang, L Yang and G Han, "RAQ–A Random Forest Approach for Predicting Air Quality in Urban Sensing Systems," Sensors, vol 16, p 86, 11 January 2016 [7] K Siwek and S Osowski, "DATA MINING METHODS FOR PREDICTION OF AIR POLLUTION," Int J Appl Math Comput Sci, vol 26, 2016 [8] A Li X Xu, “A New PM2.5 Air Pollution Forecasting Model Based on Data Mining and BP Neural Network Model,” Advances in Computer Science Rese, tập 65, 2018 [9] NandigalaVenkatAnurag, YagnavalkBurra and S.Sharanya, "Air Quality Index Prediction with Meteorological Data Using Feature Based Weighted Xgboost," International Journal of Recent Technology and Engineering (IJRTE), vol 8, no 1, pp 1355-1358, May 2019 [10] M Z Joharestani, C Cao, X Ni, B Bashir and S Talebiesfandarani, "PM2.5 Prediction Based on Random Forest, XGBoost, and Deep Learning Using Multisource Remote Sensing Data," Atmosphere, 2019 [11] X Yi, J Zhang, Z Wang, T Li and Y Zheng, "Deep Distributed Fusion Network for Air Quality Prediction," in The 24th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, London, 2018 [12] T Chen and C Guestrin, "XGBoost: A Scalable Tree Boosting System," 2016 [13] L Breiman, "Random Forests," Machine Learning, vol 45, pp 5-32, 2001 PM2.5 CONCENTRATION PREDICTION BY DATA MINING METHOD Abstract: The global air pollution is constantly increasing and causing negative effects on human health such as respiratory, cardiovascular diseases and cancers Recently, pollution in Hanoi has become increasingly worse, TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 104 Nguyễn Quỳnh Chi especially when PM2.5 concentration is always at high level Thus, PM2.5 prediction is of more urgency to issue early forecasts Depending on air data including meteorological indicators and air pollution indicators collected in Hanoi, we have proposed a new characteristic extraction method that gave better results when uing the same algorithm compared to those of old methods XGBoost algorithm was applied to predict the concentration of PM2.5 and the test showed that the accuracy of this algorithm is higher than that of other data mining algorithms while the training time is significantly lower Keyword: air quality forecasting, data mining, PM2.5 prediction, XGBoost Nguyễn Quỳnh Chi tốt nghiệp đại học chuyên ngành Công nghệ thông tin loại giỏi đại học Bách Khoa, Hà nội, Việt nam năm 1999, nhận Thạc Sỹ chuyên ngành Khoa học máy tính Đại học California, Hoa Kỳ năm 2004 nghiên cứu sinh Tiến sỹ Khoa học máy tính từ năm 2004 đến 2008, Đại học California, Hoa Kỳ Lĩnh vực nghiên cứu liên quan tới kho liệu ứng dựng phương pháp học máy khai phá liệu để giải tốn thực tế SỐ 04A (CS.01) 2020 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 105 ...DỰ ĐOÁN MỨC ĐỘ BỤI PM2.5 BẰNG PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU vào việc dự đoán mật độ bụi PM2.5 Một nghiên cứu khác thực dự đoán bụi PM10 thành phố Konya [3] sử dụng... phương pháp dự đoán họ thực với tập liệu thu thập thành phố Warsaw để dự đốn trung bình mức độ ô nhiễm chất ngày [7] Phương pháp họ thực gồm giai đoạn gồm: lựa chọn đặc trưng áp dụng phương pháp. .. TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 101 DỰ ĐOÁN MỨC ĐỘ BỤI PM2.5 BẰNG PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU • • • Các đặc trưng dựa thời gian: f7 – – mùa (biểu diễn bit: 00 – mùa xuân,

Ngày đăng: 04/08/2021, 15:29