Áp dụng Feature Engineering vào mô hình

Một phần của tài liệu Đồ án tốt nghiệp kĩ sư đại học Bách Khoa Hà Nội (Trang 42 - 45)

Chương 6 Các giải pháp và đóng góp nổi bật

1.22 Áp dụng Feature Engineering vào mô hình

Bộ dữ liệu quan trắc môi trường luôn chứa nhiều các thông số, thuộc tính. Mỗi vùng địa lý, lãnh thổ lại có những điều kiện thời tiết khác nhau gây ảnh hưởng đến chất lượng chỉ số môi trường. Ví dụ như khi so sánh một quốc gia bao quanh nước biển và một quốc gia không có biển, chỉ số độ ẩm sẽ ảnh hưởng khác nhau. Để thử nghiệm việc xét các biến nào ảnh hưởng tới chỉ số bụi mịn PM2.5 và PM10, dữ liệu trống cần được điền, em chọn phương pháp giá trị trung bình để thử nghiệm bài toán kia trước. Giải quyết bài toán, áp dụng kĩ thuật Feature Selection, có hai phương pháp là: hệ số tương quan và sử dụng XGBoost (xem mục 1.12).

Đối với phương pháp hệ số tương quan, một ma trận hệ số sẽ được sinh ra thể hiện mối quan giữa các biến. Càng tương quan với nhau càng bị loại bỏ, nhưng để quyết định xem với hệ số thế nào thì sẽ được giữ lại đưa vào dữ liệu huấn luyện, cần phải đặt ra một ngưỡng. Việc này gây chi phí thời gian lớn, yêu cầu thực nghiệm nhiều. Sau khi thực nghiệm cho trường hợp đầu vào là 24 giờ và đầu ra là 1 giờ với bộ dữ liệu Hà Nội, em chọn ra ngưỡng từ -0.2 đến -1 đối với thuật toán Spearsman để lấy các thuộc tính đưa vào huấn luyện. Tuy nhiên kết quả khi áp dụng với các trường hợp khác không cải thiện như mong muốn, không lệch nhau quá nhiều nhưng kết quả không ổn định. Do đó em thử sử dụng XGBoost

XGBoost ngoài một đặc điểm là có thể cho biết mức độ quan trọng của thuộc tính sau khi cho huấn luyện, nó còn là một mô hình học máy, có thể huấn luyện và dự đoán kết quả. Nhờ vào ưu điểm, em áp dụng phương pháp trial and trror (thử và sai) để xem với những bộ thuộc tính con nào sẽ cho kết quả chính xác hơn khi sử dụng XGBoost dự đoán.

Sau khi có được một ma trận thể hiện độ quan trọng của các thuộc tính là những con số, em sắp xếp nó theo thứ tự tăng dần.

Time 0.03301 RH 0.02900 AMB_TEMP 0.05836 SO2 0.24513 CO 0.34042 WD_HR 0.01341 NO 0.01449 WIND_DIREC 0.00723 NO2 0.03950 WIND_SPEED 0.02330 NOx 0.01067 WS_HR 0.04354 O3 0.14195

Duyệt vòng lặp ma trận, lấy một giá trị đang xét làm ngưỡng, chọn các thuộc tính có độ quan trọng từ ngưỡng đó trở lên, sau đó đưa vào mô hình dự đoán để có chỉ số MAE. Sau khi kết thúc vòng lặp, em có các trường hợp thử khác nhau với các bộ thuộc tính con khác nhau. Giá trị MAE nào thấp nhất thì sẽ lấy trường hợp đó để đưa vào mô hình đề xuất BiLSTM Encoder – LSTM Decoder. Một nhược điểm của phương pháp này là không kết hợp tổ hợp của nhiều thuộc tính với nhau, sau mỗi vòng lặp thì một thuộc tính sẽ bị loại ra không xét, mặc dù thuộc tính đó có thể làm mô hình dự đoán chính xác hơn. Kết quả được minh họa ở Bảng 10 dưới đây.

Bảng 10 Áp dụng XGBoost thử nghiệm mức độ ảnh hưởng thuộc tính

Chú thích: Threshhold là ngưỡng để chọn các thuộc tính, trong trường hợp này là độ quan trọng của thuộc tính. N là số lượng thuộc tính có được

Threshhold N MAE

0.00723 13 10.72

0.01067 12 10.75

0.01341 11 10.36

0.02900 8 10.600.03301 7 10.58 0.03301 7 10.58 0.03950 6 6.99 0.04354 5 6.97 0.05836 4 7.07 0.14195 3 7.28 0.24513 2 7.43 0.34042 1 8.05

Với kết quả MAE = 6.97 và ngưỡng là 0.04354, em có thể xác định được những thuộc tính nào có ảnh hưởng tới chỉ số bụi mịn PM2.5 và PM10.

Tuy nhiên, khi áp dụng cho trường hợp đầu vào là 24 giờ, đầu ra là 1 giờ, kết quả rất khả quan. Nhưng khi áp dụng cho trường hợp đầu vào là 48 giờ thì kết quả đi chệch khỏi kết quả mong muốn, MAE tăng giảm không ổn định, kết quả như đã trình bày ở mục 1.17. Sau khi tìm hiểu sâu hơn về XGBoost, có hai nguyên nhân theo em làm độ chính xác không ổn định:

• XGBoost chỉ có thể nhận một thuộc tính duy nhất là thuộc tính đích. Nếu chỉ xét chỉ số PM2.5, ta có được một bộ thuộc tính ảnh hưởng tới sự chính xác của kết quả dự đoán PM2.5, nhưng có thể bộ thuộc tính đó chưa chắc có tác động tới chỉ số PM10. Vì vậy mà khi dự đoán đồng thời hai chỉ số PM2.5 và PM10 sử dụng bộ thuộc tính tác động tới PM2.5, kết quả có thể không tốt như ý muốn. Giải pháp đề ra: tìm độc lập hai bộ thuộc tính cải thiện kết quả dự đoán hai chỉ số PM2.5 và PM10, sau đó thử với hai trường hợp, một là lấy giao hai tập hợp thuộc tính và hai là lấy hợp hai tập hợp thuộc tính rồi thử kết quả nào tốt hơn.

• Cách xử lý data của XGBoost là sử dụng cây quyết định, dữ liệu đầu vào và đầu ra phài cùng có số chiều giống nhau và phải là mảng hai chiều, không phù hợp với bài toán lập lịch trình yêu cầu đầu vào và đầu ra linh hoạt. Do đó, bộ thuộc tính khi sử dụng XGBoost khi áp dụng cho từng trường hợp độ dài đầu vào khác nhau (24 giờ

và 48 giờ), cho kết quả mong muốn khác nhau. Giải pháp: thử tinh chỉnh các tham số khi sử dụng mô hình XGBoost.

Cho đến nay, sử dụng Feature Engineering chưa thực sự ổn định cho mô hình đề xuất. Trong tương lai, em sẽ giải quyết các vấn đề còn tồn đọng và thử nghiệm các phương pháp mơi.

1.23 Kết chương

Qua Error: Reference source not found, những khó khăn khi làm đồ án và những đóng góp, giải pháp nổi bật đã được nêu lên. Bắt đầu từ việc lựa chọn bài toán, đề xuất mô hình, sau đó đi so sánh mô hình là những bước tốn thời gian và khó khăn nhất. Tuy nhiên trong, mỗi vấn đề tồn tại trong từng bước đi chính là những hướng phát triển mới giúp cho mô hình cho nên hoàn thiện và có tính thực tiễn cao. Tiền xử lý liệu cho bài toán chất lượng môi trường là điều cần thiết vì tính chất địa lý, khí hậu, yếu tố con người của mỗi khu vực là khác nhau. Các vấn đề đã được đề ra giải pháp và đề xuất hướng giải quyết, và là hướng phát triển tiếp theo cho bài toán này.

Error: Reference source not found đã chỉ ra những khó khăn em đã gặp phải trong suốt quá trình làm đồ án. Trong từng bước hoàn thiện mô hình đề xuất, những vấn đề cũng chính là hướng đi mới để cải thiện cho mô hình trở nên hoàn thiện hơn. Error: Reference source not found cũng đã nêu lên những giải pháp cho vấn đề đó, làm nổi bật những đóng góp nổi bật nhất của đồ án này. Và Error: Reference source not found là chương cuối cùng của đồ án, em sẽ tổng hợp ngắn gọn và kết luận về toàn bộ đồ án và đề xuất hướng phát triển.

1.24 Kết luận

Từ các phân tích ưu và nhược điểm của các mô hình đề xuất trước đây liên quan đến bài toán quan trắc môi trường này, trong đồ án này em đã đề xuất mô hình sử dụng Feature Engineering kết hợp với mô hình Sequence to Sequence mà trong đó sử dụng BiLSTM cho bộ Encoder, LSTM cho bộ Decoder. Kết quả thí nghiệm khi sử dụng bộ dữ liệu Hà Nội và vùng đảo Đài Loan [2] cho thấy:

Một phần của tài liệu Đồ án tốt nghiệp kĩ sư đại học Bách Khoa Hà Nội (Trang 42 - 45)

Tải bản đầy đủ (DOCX)

(55 trang)
w