Chương 4 Mô hình đề xuất

Ở Error: Reference source not found đã mô tả chi tiết các công nghệ và cơ sở lý thuyết để tạo nên mô hình này. Error: Reference source not found sẽ mô tả tổng quan kiến trúc của mô hình và mô tả chi tiết hơn cấu trúc và cách thức hoạt động của mô hình.

1.12 Feature Selection sử dụng model XGBoost

1.12.1 Phương pháp hệ số tương quan

Mô hình đề xuất có thử nghiệm phương pháp hệ số tương quan với ba công thức Spearsman, Kendall, Pearsons. Phương pháp này nhận dữ liệu đầu vào và cho ra một ma trận trọng số trong đoạn [-1, 1] thể hiện mối tương quan giữa các biến. Nếu giá trị gần 1 tức là các thuộc tính có mối tương quan cao với nhau, gần -1 các thuộc tính không tương quan với nhau. Nếu các biến tương quan với nhau chặt chẽ thì mô hình dự đoán có thể sẽ không hiệu quả, vì các biến độc nên là độc lập, mới có ảnh hưởng tới kết quả dự đoán. Kết quả thực nghiệm cho thấy với các thuộc tính có hệ số tương quan với chỉ số bụi mịn từ -0.2 đến -1 với phương pháp Spearmans đều cho kết quả tốt hơn so với kết quả mà nhận tất cả thuộc tính làm dữ liệu đầu vào, nhưng không phải với các bộ dữ liệu. Kết quả thực nghiệm sẽ được thể hiện rõ hơn ở Error: Reference source not found.

1.12.2 Mô hình XGBoost

XGBoost là mô hình sử dụng kĩ thuật Boosting-based Ensemble learning như đã đề cập ở mục 1.9. Sau khi áp dụng phương pháp sai và thử đối với từng bộ thuộc tính con, dựa trên kết quả thu được để lấy ra bộ thuộc tính làm giảm sai số của kết quả dự đoán. Từ đó đưa vào model BiLSTM Encoder – LSTM decoder để huấn luyện. Kết quả thực nghiệm cho thấy sau khi sử dụng XGBoost, kết quả tốt hơn so với các phương pháp khác trong mọi trường hợp.

1.13 Mô hình học và dự đoán sử dụng BiLSTM Encoder –LSTM Decoder LSTM Decoder

Mô hình Encoder Decoder như đề cập ở mục 1.7, thay vì sử dụng một lớp LSTM hay một dạng nào khác của RNN thì ở đây, em đề xuất mô hình sử dụng BiLSTM cho bộ Encoder và Decoder sử dụng một lớp LSTM. Hình 9 dưới đây thể hiện cấu trúc của mô hình. Trong đó là dữ liệu đầu vào tại các thời điểm t, t+1, t+2, t+3. là dữ liệu đầu vào tại các thời điểm t, t+1, t+2. Encoder State là trạng thái ẩn được hợp thành từ hai trạng thái ẩn của lớp LSTM nhận dữ liệu truyền vào theo thời gian từ quá khứ và lớp LSTM nhận dữ liệu truyền vào theo thời gian từ tương lai.

Hình 9 Mô hình BiLSTM Encoder – LSTM Decoder.

Ban đầu, dữ liệu đầu vào sẽ được đưa vào hai lớp LSTM, mỗi lớp sẽ cho ra trạng thái ẩn riêng của từng lớp đó. Sau khi kết hợp hai trạng thái ẩn đó ta có trạng thái ẩn cho bộ Encoder là Encoder State. Encoder State sẽ được dùng làm trạng thái ẩn khởi tạo để đưa vào bộ Decoder.

Bộ Decoder được sử dụng bởi một lớp LSTM. Sau khi nhận Encoder State làm trạng thái khởi tạo, Decoder nhận thêm một đầu vào gọi là <GO> - là một giá trị đầu vào khởi tạo đại diện cho kết quả dự đoán của một giờ, khởi tạo bằng 0. Với hai đầu vào đó, Decoder dự đoán được một giờ tiếp theo, kết quả dự đoán một giờ tiếp theo sẽ nhận trạng thái ẩn và kết quả dự đoán trước đó làm đầu vào

Với cách hoạt động của Decoder, ta có thể có một chuỗi đầu ra với số giờ dự đoán tùy ý. Ví dụ, là kết quả dự đoán của giờ t, sau đó đồng thời cũng được đưa vào làm đầu vào cho bộ Decodẻ để dự đoán giờ tiếp theo là và cứ như thế ta có được một chuỗi đầu ra với độ dài tùy theo người cài đặt.

1.14 Mô hình đề xuất

Hình 10 dưới đây chỉ ra kiến trúc của mô hình đề xuất cho bài toán dự đoán chỉ số bụi PM10 và PM2.5. Tuy nhiên, mô hình đề xuất này có thể dự đoán được các chỉ số môi trường khác.

Hình 10 Mô hình đề xuất Feature Selection + BiLSTM Encoder – LSTM Decoder.

Mô hình đề xuất gồm hai phần chính. Phần một là sử dụng Feature Selection và phần hai là mô hình Encoder – Decoder trong đó bộ Encoder sử dụng BiLSTM và bộ Decoder sử dụng LSTM. Lý do tại sao XGBoost và BiLSTM Encoder – LSTM Decoder được sử dụng sẽ được trình bày chi tiết tại Error: Reference source not found.

Trước hết, dữ liệu thô ban đầu sau khi được xử lý sao cho phù hợp với mô hình đề xuất, được đưa toàn bộ vào quá trình Feature Selection sử dụng mô hình XGBoost. Vì XGBoost là một model có khả năng học và dự đoán kết quả nên đầu ra là một bảng gồm số lượng các thuộc tính đưa vào và độ sai số sau khi sử dụng các thuộc tính đó. Sau đó ta chọn ra được tập thuộc tính có độ sai số nhỏ nhất, nghĩa là ảnh hưởng nhất tới việc dự đoán chính xác chỉ số PM2.5.

Tiếp đến là việc xử lý bộ dữ liệu chứa những thuộc tính đã chọn từ quá trình Feature Selection bằng XGBoost để có được ma trận đưa vào mô hình Encoder – Decoder. Đầu vào để huấn luyện gồm hai ma trận, đầu ra gồm một ma trận. Model sẽ học với mỗi một phần từ trong từng ma trận đầu vào, sẽ cho ra một đầu ra tương ứng ở trong ma trận đầu ra. Công thức được trình bày dưới đây:

Công thức 2 Dữ liệu để huấn luyện mô hình Encoder – Decoder. Trong đó:

• i là biến chạy từ 0 cho đến độ dài của bộ dữ liệu huấn luyện. • l là độ dài chuỗi đầu vào.

• h là độ dài chuỗi đầu ra.

• là dữ liệu đầu vào cho encoder.

• là dữ liệu đầu vào cho decoder. Đây chính là kết quả dự đoán của giờ trước, được sử dụng làm đầu vào để dự đoán kết quả của giờ sau.

• là kết quả cuối.

Ở công thức trên, mỗi phần tử sẽ có dạng là (l, input_dim), mỗi phần từ có dạng là (h, output_dim), trong đó input_dim là số thuộc tính đưa vào huấn luyện, output_dim là số thuộc tính cần dự đoán.

Như vậy, với ưu điểm của Encoder Decoder, có thể điều chinh độ dài chuỗi thời gian đầu vào và đầu ra linh hoạt. Vì đây bài toán giúp lập lịch trình cho các nhà chức trách, cơ quan chức năng, đặc biệt các nhà hoạch định chính sách về môi trường để có các biện pháp cho việc phòng tránh và ngăn ngừa tình trạng ô nhiễm môi trường, mô hình này phù hợp với bài toán này nhờ đầu vào đầu ra linh hoạt cùng khả năng cho ra nhiều chỉ số cùng lúc. Giả dụ đầu vào có độ dài là l = 72 giờ, dự đoán chỉ số trong 80 giờ giờ tiếp theo sẽ là h = 80 giờ, l và h có thể tùy biến theo ý của người dùng.

1.15 Kết chương

Trong Error: Reference source not found, các kĩ thuật đã được mô tả kĩ hơn. Kiến trúc và cách hoạt động của mô hình cũng đã được nêu rõ. Mô hình gồm hai phần chính là bộ lọc dữ liệu sử dụng kĩ thuật Feature Selection nhờ mô hình XGBoost để tinh gọn dữ liệu và chọn ra những thuộc tính có ảnh hưởng tới chỉ số bụi mịn mà làm tăng độ chính xác. Phần thứ hai là bộ Encoder sử dụng BiLSTM, Decoder sử dụng LSTM dùng để huấn luyện dữ liệu và dự đoán chỉ số PM10 và PM2.5. Để kiểm nghiệm tính hiệu quả của mô hình, nhiều kịch bản đã được nêu ra và thực nghiệm trên hai bộ dữ liệu Hà Nội và vùng đảo Đài Loan [7]. Kịch bản thí nghiệm và kết quả sẽ được trình bày chi tiết ở Error: Reference source not found. Đồng thời, kết quả sẽ được so sánh với mô hình do Soh et al. [2] đề xuất.

Xử lý dữ liệu bị thiếu

Áp dụng Feature Engineering vào mô hình