Chương 5 Thí nghiệm và đánh giá
1.17 Kết quả thí nghiệm
Thí nghiệm được thực hiện trên cả hai bộ dữ liệu cho hai trường hợp dự đoán: dự đoán chỉ số PM2.5 và dự đoán đồng thời hai chỉ số PM10 và PM2.5. Kết quả cho thấy khi áp dụng Feature Engineering thì có cải thiện, đặc biệt khi áp dụng XGBoost. Mô hình được thử nghiệm khi không dùng Feature Engineering, dùng Feature Engineering với phương pháp tương quan và dùng với XGBoost để xem liệu có thực sự hiệu quả. Kết quả được thể hiện từ Hình 11 đến Hình 14.
Hình 11 MAE cho chỉ số PM10 và PM2.5 sử dụng bộ dữ liệu Hà Nội.
Hình 12 MAE cho chỉ số PM10 và PM2.5 sử dụng bộ dữ liệu vùng đảo Đài
Hình 13 MAE cho chỉ số PM2.5 sử dụng bộ dữ liệu Hà Nội.
Hình 14 MAE cho chỉ số PM2.5 sử dụng bộ dữ liệu vùng đảo Đài Loan.
Từ Hình 11 đến Hình 14 cho thấy việc sử dụng Feature Engineering bằng phương pháp hệ số tương quan cho ra kết quả không ổn định, khi cùng sử dụng một ngưỡng để lấy các thuộc tính có ảnh hưởng đối với chỉ số bụi mịn. Đối với bộ dữ liệu Hà Nội khi dùng phương pháp hệ số tương quan Spearsman thì MAE cao hơn khi không dùng Feature Engineering, còn với bộ dữ liệu vùng đảo Đài Loan thì lại cho kết quả tốt hơn (MAE thấp hơn). Khi chỉ dự đoán chỉ số PM2.5 thì kết quả MAE ngược lại, ở bộ dữ liệu Hà Nội thì kết quả tốt hơn và bộ dữ liệu vùng đảo Đài Loan thì MAE cao hơn.
Khi sử dụng Feature Engineering với XGBoost, kết quả từ các biểu đồ cho thấy mọi trường hợp XGBoost đều hoạt động hiệu quả, MAE luôn thấp hơn so với việc không dùng Feature Engineering.
thể hiện chi tiết hơn MAE khi sử dụng Feature Selection đối với hai bộ dữ liệu được sử dụng là Hà Nội và vùng đảo Đài Loan.
Bảng 4 MAE cho hai bộ dữ liệu được sử dụng
Chú thích: l là độ dài của chuỗi đầu vào, h là độ dài của chuỗi đầu ra, xem mục 1.16 và Error: Reference source not found
Method l = 24 , h = 1
Hanoi Taiwan Island PM2.5 PM2.5 &
PM10
PM2.5 PM2.5 & PM10
No Feature Engineering
4.169 4.647 2.574 3.166
With Correlation 4.000 4.967 2.581 3.100
With XGBoost 3.757 4.306 2.540 3.137
Như vậy, đối với độ dài chuỗi đầu vào là 24 giờ và đầu ra dự đoán cho 1 giờ thì kết quả cho thấy sử dụng hệ số tương quan Spearsman hầu hết tốt hơn khi không áp dụng Feature Engineering, duy chỉ có duy nhất trường hợp sử dụng bộ dữ liệu Hà Nội dự đoán đồng thời hai chỉ số PM10 và PM2.5. Còn khi sử dụng XGBoost, với bộ dữ liệu Hà Nội thì kết quả cho thấy MAE cải thiện từ 7% đến 10%, còn sử dụng bộ dữ liệu vùng đảo Đài Loan, MAE cải thiện từ 1% đến 1,3%.
Trong Hình 15 và Hình 16 dưới đây thể hiện đồ thị biểu diễn kết quả giữa hai tập giá trị là giá trị dự đoán bởi mô hình đề xuất và tập giá trị thực tế lấy trong bộ dữ liệu để kiểm thử. Đồ thị cho thấy kết quả của 1000 giờ tương ứng với 1000 giá trị trong mỗi tập dự đoán hay tập giá trị thực.
Hình 15 Đồ thị biểu diễn kết quả dự đoán và thực tế của PM10 sử dụng dữ liệu vùng đảo Đài Loan.
Hình 16 Đồ thị biểu diễn kết quả dự đoán và thực tế của PM2.5 sử dụng dữ liệu vùng đảo Đài Loan.
Kết quả Hình 15 và Hình 16 cho thấy kết quả dự đoán và dự đoán thực tế tương đối sát nhau, cho thấy mô hình hoạt động hiệu quả.
Bảng 5 phía dưới cho thấy kết quả kết quả khi dự đoán chỉ số PM2.5 sử dụng dữ liệu vùng đảo Đài Loan. Kết quả là tốt hơn trong mọi trường hợp so với mô hình ST-DNN. Mặc dù từ Bảng 4 cho thấy kết quả sử dụng XGBoost tốt hơn trong mọi trường hợp kiểm thử với cả hai bộ dữ liệu Hà Nội và vùng đảo Đài Loan, tuy nhiên việc áp dụng XGBoost hay hệ số tương quan cho ra kết quả không ổn định việc khi xét trường hợp l = 48 và h trong khoảng từ 1 đến 6 giờ. Lý do và giải pháp sẽ được trình bày cụ thể hơn trong mục 1.22.
Bảng 5 MAE sử dụng dữ liệu vùng đảo Đài Loan dự đoán PM2.5
Chú thích: l là độ dài của chuỗi đầu vào, h là độ dài của chuỗi đầu ra, xem mục 1.16 và Error: Reference source not found
Test Cases No Feature Engineering With Correlation With XGBoost ST-DNN Improvement (%)
l = 48, h = 1 2.560 2.531 2.511 2.881 l = 48, h = 2 4.043 4.263 4.441 5.362 l = 48, h = 3 3.979 3.888 3.955 6.524 l = 48, h = 4 4.082 4.670 5.000 7.364 l = 48, h = 5 4.753 4.723 4.691 7.923 l = 48, h = 6 5.545 5.371 5.659 8.821
Bảng 6 dưới đây cho thấy kết quả khi dự đoán đồng thời hai chỉ số PM10 và PM2.5 với l = 48 và h = [1,6] cho thấy kết quả khi áp dụng Feature Engineering không ổn định, có trường hợp tốt hơn và có trường hợp không tốt, tuy nhiên kết quả không chênh lệch nhau nhiều. Kết quả này tương đối
Lý do là do áp dụng Feature Selection sử dụng XGBoost thì phải chỉ ra một biến mục tiêu duy nhất. Ở đây em chọn biến PM2.5 làm biến mục tiêu, do đó áp dụng các thuộc tính lấy ra được để dự đoán cả chỉ số PM10 có thể sẽ không đúng nữa.
Bảng 6 MAE sử dụng dữ liệu vùng đảo Đài Loan dự đoán PM10 và PM2.5 Chú thích: l là độ dài của chuỗi đầu vào, h là độ dài của chuỗi đầu ra, xem mục 1.16 và
Error: Reference source not found
Test Cases No Feature Engineering With Correlation With XGBoost l = 48, h = 1 3.131 3.146 3.148 l = 48, h = 2 4.193 4.123 4.151 l = 48, h = 3 4.848 4.792 4.770 l = 48, h = 4 5.544 5.278 5.193 l = 48, h = 5 5.869 5.917 5.935
l = 48, h = 6 6.233 6.325 6.243
1.18 Kết chương
Qua những kết quả được trình bày ở Error: Reference source not found, cho thấy mô hình được đề xuất hiệu quả đối với mọi trường hợp, xét trên hai bộ dữ liệu của Hà Nội và vùng đảo Đài Loan. Feature Engineering sử dụng phương pháp hệ số tương quan cho thấy kết quả không ổn định, còn sử dụng XGBoost tốt đối với các trường hợp. Khi kiểm thử với các trường hợp dự đoán từ 1 giờ đến 6 giờ sau đó để so sánh với bài báo [2], kết quả là tốt hơn. Như vậy mô hình đề xuất hoạt động hiệu quả cho dù dữ liệu bị nhiễu.
Trong Error: Reference source not found và Error: Reference source not found, mô hình đề xuất cho bài toán chất lượng môi trường đã được nêu lên và được kiểm nghiệm dựa trên hai bộ dữ liệu Hà Nội và vùng đảo Đài Loan. Kết quả được thực hiện trên nhiều kịch bản kiểm thử khác nhau. Mặc dù độ chính xác của mô hình đề xuất có độ chính xác cao hơn mô hình do Soh et al. [2] đề xuất, tuy nhiên khi áp dụng Feature Engineering, một số trường hợp mô hình cho ra kết quả không như mong muốn. Lý do và hướng khắc phục sẽ được trình bày dưới đây.
Bên cạnh đó các khó khăn trong quá trình làm đồ án, lý do chọn mô hình, cách xử lý chi tiết sẽ được trình bày trong Error: Reference source not found này. Trong chương này sẽ nêu lên các giải pháp và đóng góp nổi bật nhất của đồ án này.