Sinh viên đã thực hiện tốt các nội dung sau để thực hiện các mục tiêu đã đặt ra của đề tài: - Tìm hiểu các yếu tố trong đánh giá chất lượng không khí như PM2.5, TSP, CO,… - Tìm hiểu các
Trang 1KHOA KHOA HỌC & KỸ THUẬT MÁY TÍNH
LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC
XÂY DỰNG MÔ HÌNH DỰ BÁO CHẤT LƯỢNG KHÔNG KHÍ
Ngành: KHOA HỌC MÁY TÍNH
HỘI ĐỒNG: Khoa học máy tính 11
GVHD: Ts Lê Thanh Vân GVPB: Ts Lê Trọng Nhân SVTH: Lê Hiếu Thiện - 1613318
TP HỒ CHÍ MINH, THÁNG 12/2022
Trang 2- Tìm hiểu các nghiên cứu và mô hình dự báo chất lượng không khí đã được thực hiện
- Nghiên cứu và đề xuất một số mô hình dự báo chất lượng không khí
- Thu thập dữ liệu, huấn luyện và đánh giá mô hình
- Xây dựng một ứng dụng theo dõi và quản lý chất lượng không khí
3 Ngày giao nhiệm vụ luận án: 03/08/2022
4 Ngày hoàn thành nhiệm vụ: 11/12/2022
5 Họ tên giảng viên hướng dẫn: Phần hướng dẫn: 100%
1) TS Lê Thanh Vân
Nội dung và yêu cầu LVTN đã được thông qua Bộ môn
Ngày tháng năm
(Ký và ghi rõ họ tên) (Ký và ghi rõ họ tên)
PHẦN DÀNH CHO KHOA, BỘ MÔN:
Người duyệt (chấm sơ bộ):
Trang 3Ngày 26 tháng 12 năm 2022
PHIẾU CHẤM BẢO VỆ LVTN
(Dành cho người hướng dẫn)
1 Họ và tên SV: Lê Hiếu Thiện
2 Đề tài: Xây dựng mô hình dự báo chất lượng không khí
3 Họ tên người phản biện: Lê Thanh Vân
4 Tổng quát về bản thuyết minh:
6 Những ưu điểm chính của LVTN:
Luận văn hướng tới việc đề xuất các mô hình dự báo chất lượng không khí trong khoảng thời gian ngắn hạn Sinh viên đã thực hiện tốt các nội dung sau để thực hiện các mục tiêu đã đặt ra của đề tài:
- Tìm hiểu các yếu tố trong đánh giá chất lượng không khí như PM2.5, TSP, CO,…
- Tìm hiểu các công trình nghiên cứu liên quan, các phương pháp được sử dụng có hiệu quả trong bài toán dự báo chất lượng không khí
- Tập dữ liệu được sử dụng trong đề tài được thu thập thực tế tại 6 trạm quan trắc đặt tại các khu vực có tính chất khác nhau tại TP Hồ Chí Minh: khu vực dân sinh, khu vực công nghiệp, khu vực có mật độ cao về giao thông Sinh viên đánh giá dữ liệu sơ bộ bằng thống
kê để tìm hiểu các vấn đề về tương quan giữa các biến, nhiễu, histogram phân bố của dữ liệu
- Xây dựng các mô hình dự báo ANN, RNN, ESN, CFNN, LSTM, CNN-LSTM, 2LSTM và
mô hình hybrid Thực hiện các thực nghiệm với các kịch bản khác nhau trên 6 trạm nhằm đánh giá các mô hình và thu được mô hình cho kết quả dự báo tốt nhất phù hợp với các đặt trưng dữ liệu hiện có
- Xây dựng ứng dụng mobile để dự báo chất lượng không khí lần lượt trong khoảng thời gian
4 giờ kế tiếp
7 Những thiếu sót chính của LVTN:
- Cần cung cấp đầy đủ thông tin của các tài liệu tham khảo
8 Đề nghị: Được bảo vệ Bổ sung thêm để bảo vệ Không được bảo vệ
9 3 câu hỏi SV phải trả lời trước Hội đồng:
10 Đánh giá chung (bằng chữ: giỏi, khá, TB): Giỏi Điểm : 9.5/10
Ký tên (ghi rõ họ tên)
Trang 4
Số tài liệu tham khảo: Phần mềm tính toán:
Hiện vật (sản phẩm)
5 Tổng quát về các bản vẽ:
6 Những ưu điểm chính của LVTN:
• Sinh viên xây dựng được mô hình dự báo chất lượng không khí hợp lý
• Sinh viên thử nghiệm trên nhiều mô hình dự báo không khí khác nhau
• Sinh viên phân tích dữ liệu và đề xuất hướng tiếp cận mới trong việc dự báo Trong đề tài luận văn là việc sử dụng dữ liệu của trạm 5 và 6 để dự báo qua lại
7 Những thiếu sót chính của LVTN:
• Việc trình bày các kết quả thực nghiệm là chưa ấn tượng, khi đa phần là kết quả dưới dạng
số Kết quả nên được biểu diễn dưới dạng đồ thị sẽ ấn tượng hơn
• Chưa làm nổi bật được những đặc trung của từng mô hình dự đoán
8 Đề nghị: Được bảo vệ Bổ sung thêm để bảo vệ Không được bảo vệ
9 3 câu hỏi SV phải trả lời trước Hội đồng:
a Sinh viên hãy sử dụng 1 bảng liệu, chẳng hạn như bảng 4.16 trong báo cáo (sai số của các mô hình cho chỉ số PM2.5 của trạm 6) để giải thích tại sao B-LSTM lại có sai số tốt nhất
b Sinh viên hãy trình bày một vài đặc điểm thống kê của dữ liệu O3, nó có tính chất tuần hoàn hay không, O3 sẽ thường cao nhất vào lúc nào và thấp nhất vào lúc nào?
10 Đánh giá chung (bằng chữ: giỏi, khá, TB): Giỏi Điểm : 9/10
Ký tên (ghi rõ họ tên)
TS Lê Trọng Nhân
Trang 5Em xin cam kết luận văn "Xây dựng mô hình dự báo chất lượng không khí" này là dochính bản thân em thực hiện, dưới sự hướng dẫn của cô Lê Thanh Vân Tất cả các nguồn
dữ liệu thu thập, tài liệu tham khảo đều được ghi rõ trong phần tài liệu tham khảo Cáccông việc, kết quả đã được thực hiện trong luận văn này đều do em tự thực hiện Nếu cóbất cứ sự gian lận nào bị phát hiện, em xin chịu mọi hình phạt từ Ban chủ nhiệm Khoa
và Ban giám hiệu nhà trường
Trang 7Ô nhiễm không khí là mối đe dọa lớn đối với môi trường, xã hội và sức khỏe con người.Theo thống kê của Tổ chức Y tế thế giới (WHO), mỗi năm, trên thế giới có khoảng 7 triệungười tử vong do các bệnh liên quan tới ô nhiễm không khí Ở Việt Nam, trong nhữngnăm gần đây, tình trạng môi trường không khí bị ô nhiễm đang ngày càng trở nên nghiêmtrọng Trước thực trạng các chỉ số chất lượng không khí ngày càng đáng lo ngại, việc xâydựng một hệ thống thông tin về việc thống kê và dự báo các chỉ số chất lượng không khí
là một yêu cầu cấp thiết Thông qua đó giúp người dân và doanh nghiệp nắm bắt đượcthông tin về chất lượng không khí, từ đó chủ động trong việc lên kế hoạch cho các hoạtđộng sinh hoạt và sản xuất, đồng thời có các biện pháp bảo vệ khi ra ngoài trong điềukiện chất lượng không khí xấu
Các mô hình dự báo sẽ được thực hiện trên các mô hình mạng neural như CFNN,ESN, ANN, RNN, LSTM, CNN-LSTM, LSTM-LSTM, Hybrid Với mỗi chỉ số chất lượngkhông khí, ta sẽ phân tích đặc tính dữ liệu, hệ số tương quan giữa các chỉ số và lựa chọncác input features khác nhau để huấn luyện mô hình Kết quả cho thấy hai mô hình mạngLSTM-LSTM và ESN cho ra sai số thấp nhất ở hầu hết các thí nghiệm Mô hình hybridkết hợp kết quả từ các mô hình mạng neural khác cũng cho ra kết quả tương đối tốt, giúpcải thiện sai số so với một số mô hình mạng Bên cạnh đó, ta cũng phát triển được mộtứng dụng giúp quản lý và theo dõi các chỉ số ô nhiễm không khí Các mô hình dự báo tốtnhất được sử dụng để xây dựng một api server cho dự báo phục vụ cho ứng dụng
Trang 82.3 Xây dựng mô hình dự báo chất lượng không khí bằng học sâu 12
3 CÁC NGHIÊN CỨU LIÊN QUAN 21 3.1 Xây dựng mô hình dự báo chất lượng không khí bằng học sâu 21
3.2 Xây dựng mô hình dự báo chất lượng không khí bằng học máy 26
4 XÂY DỰNG MÔ HÌNH DỰ BÁO CHẤT LƯỢNG KHÔNG KHÍ 29 4.1 Lược đồ nghiên cứu 29
4.2 Thu thập dữ liệu 31
4.3 Tiền xử lý và chuẩn hóa dữ liệu 31
4.4 Xây dựng các mô hình dự báo 34
4.5 Tạo tập huấn luyện và đánh giá mô hình 39
4.6 Các thí nghiệm 39
4.7 Kết quả thực nghiệm và thảo luận 42
5 ỨNG DỤNG QUẢN LÝ VÀ THEO DÕI CHẤT LƯỢNG KHÔNG KHÍ 66 5.1 Xây dựng api server 66
5.2 Ứng dụng quản lý và theo dõi chất lượng không khí 67
6 TỔNG KẾT 69 6.1 Đánh giá kết quả đạt được 69
6.2 Các hạn chế 70
Trang 96.3 Hướng phát triển tương lai 70
Trang 104.9 Mô hình mạng LSTM-LSTM 37
4.10 Mô hình mạng CNN-LSTM 38
4.11 Mô hình mạng hybrid 38
4.12 Số lượng dữ liệu huấn luyện và đánh giá mô hình 39
4.13 Kích thước tập train và tập test của các mạng neural 39
4.14 Bảng các input features cho mỗi chỉ số ở mỗi trạm 40
4.15 Bảng các input features cho các chỉ số ô nhiễm không khí ở trạm 6 kết hợp với các chỉ số khí tượng 41
4.16 Sai số dự báo của các mô hình cho chỉ số PM2.5 của trạm 6 43
4.17 Sai số dự báo của các mô hình cho chỉ số O3 của trạm 6 44
4.18 Sai số dự báo của các mô hình cho chỉ số NO2 của trạm 6 45
4.19 Sai số dự báo của các mô hình cho chỉ số TSP của trạm 6 46
4.20 Sai số dự báo của các mô hình cho chỉ số PM2.5 của trạm 5 47
4.21 Sai số dự báo của các mô hình cho chỉ số TSP của trạm 5 48
4.22 Sai số dự báo của các mô hình cho chỉ số NO2 của trạm 5 48
4.23 Sai số dự báo của các mô hình cho chỉ số CO của trạm 5 49
4.24 Sai số dự báo của các mô hình cho chỉ số PM2.5 của trạm 4 50
4.25 Sai số dự báo của các mô hình cho chỉ số TSP của trạm 4 50
4.26 Sai số dự báo của các mô hình cho chỉ số O3 của trạm 5 51
4.27 Sai số dự báo của các mô hình cho chỉ số NO2 của trạm 4 52
4.28 Sai số dự báo của các mô hình cho chỉ số PM2.5 của trạm 3 53
Trang 114.32 Sai số dự báo của các mô hình cho chỉ số NO2 của trạm 4 56
4.33 Sai số dự báo của các mô hình cho chỉ số O3 của trạm 3 57
4.34 Sai số dự báo của các mô hình cho chỉ số TSP của trạm 5 57
4.35 Sai số dự báo của các mô hình cho chỉ số PM2.5 của trạm 3 58
4.36 Sai số dự báo của các mô hình cho chỉ số TSP của trạm 5 59
4.37 Sai số dự báo của các mô hình cho chỉ số CO của trạm 4 59
4.38 Sai số dự báo của các mô hình cho chỉ số PM2.5 của trạm 6 61
4.39 Sai số dự báo của các mô hình cho chỉ số PM2.5 của trạm 5 61
4.40 Sai số dự báo của các mô hình cho chỉ số NO2 của trạm 6 62
4.41 Sai số dự báo của các mô hình cho chỉ số NO2 của trạm 5 62
4.42 Sai số dự báo của các mô hình cho chỉ số TSP của trạm 6 62
4.43 Sai số dự báo của các mô hình cho chỉ số TSP của trạm 5 63
4.44 Sai số dự báo của các mô hình cho chỉ số PM2.5 của trạm 6 63
4.45 Sai số dự báo của các mô hình cho chỉ số TSP của trạm 6 64
4.46 Sai số dự báo của các mô hình cho chỉ số NO2 của trạm 6 64
4.47 Sai số dự báo của các mô hình cho chỉ số O3 của trạm 6 65
5.1 Các mô hình mạng được chọn cho các chỉ số 66
Trang 122.6 Bảng mô tả một số hàm kích hoạt phi tuyến 14
2.7 Mô hình mạng RNN 14
2.8 Mô hình mạng Bidirectional RNN 15
2.9 Mô hình mạng Deep Bidirectional RNN 16
2.10 Mô hình mạng LSTM 16
2.11 Mạng CFNN 3 lớp 18
2.12 Mạng ESN 18
2.13 Mạng LSTM-LSTM 19
2.14 Mạng CNN-LSTM 20
3.1 Kiến trúc mạng ANN sử dụng cho mô hình 22
3.2 Giải thuật sliding window 23
3.3 Hybrid model phase 1 24
3.4 Hybrid model phase 2 24
3.5 Sai số MAPE của chỉ số PM 2.5 với các window size khác nhau 25
3.6 Lưu đồ thực hiện mô hình SVM 27
3.7 Mô hình dự báo AQI kết hợp giữa ANN và SVM 28
4.1 Lược đồ nghiên cứu 30
4.2 Hệ số tương quan giữa các chỉ số của trạm 5 và trạm 6 33
4.3 Biểu đồ Box plot các giá trị chỉ số chất lượng không khí ở trạm 6 34 4.4 Biểu đồ Box plot giá trị các chỉ số chất lượng không khí sau khi chuẩn hóa 34
Trang 134.5 Hệ số tương quan giữa các chỉ số ở trạm 6 404.6 Hệ số tương quan của các chỉ số giữa trạm 5 và trạm 6 414.7 Hệ số tương quan giữa các chỉ số ở trạm 6 424.8 Biểu đồ giá trị dự đoán và thực tế của mạng LSTM-LSTM của chỉ số PM2.5
ở trạm 6 (time step = 4) 434.9 Biểu đồ giá trị dự đoán và thực tế của mạng ESN của chỉ số PM2.5 ở trạm
6 (time step = 4) 444.10 Biểu đồ giá trị dự đoán và thực tế của mạng LSTM-LSTM của chỉ số O3(time step = 4) 444.11 Biểu đồ giá trị dự đoán và thực tế của mạng ANN của chỉ số NO2 (timestep = 4) 454.12 Biểu đồ giá trị dự đoán và thực tế của mạng LSTM-LSTM của chỉ số TSP(time step = 4) 464.13 Biểu đồ giá trị dự đoán và thực tế của mạng LSTM-LSTM của chỉ số PM2.5
ở trạm 5 (time step = 4) 474.14 Biểu đồ giá trị dự đoán và thực tế của mạng ESN của chỉ số TSP ở trạm
5 (time step = 4) 484.15 Biểu đồ giá trị dự đoán và thực tế của mạng LSTM-LSTM của chỉ số CO
ở trạm 5 (time step = 4) 494.16 Biểu đồ giá trị dự đoán và thực tế của mạng LSTM-LSTM của chỉ số PM2.5
ở trạm 4 (time step = 4) 494.17 Biểu đồ giá trị dự đoán và thực tế của mạng ESN của chỉ số TSP ở trạm
4 (time step = 4) 514.18 Biểu đồ giá trị dự đoán và thực tế của mạng CNN-LSTM của chỉ số O3 ởtrạm 4 (time step = 4) 514.19 Biểu đồ giá trị dự đoán và thực tế của mạng LSTM-LSTM của chỉ số NO2(time step = 4) 524.20 Biểu đồ giá trị dự đoán và thực tế của mạng ESN của chỉ số PM2.5 ở trạm
3 (time step = 4) 534.21 Biểu đồ giá trị dự đoán và thực tế của mạng LSTM-LSTM của chỉ số O3
ở trạm 3 (time step = 4) 544.22 Biểu đồ giá trị dự đoán và thực tế của mạng ESN của chỉ số NO2 ở trạm
3 (time step = 4) 544.23 Biểu đồ giá trị dự đoán và thực tế của mạng ESN của chỉ số PM2.5 ở trạm
2 (time step = 4) 554.24 Biểu đồ giá trị dự đoán và thực tế của mạng LSTM-LSTM của chỉ số PM2.5
ở trạm 2 (time step = 4) 55
Trang 145.1 Thiết kế của ứng dựng quản lý và theo dõi chất lượng không khí 68
Trang 15em, phụ nữ, phụ nữ mang thai, người già, người có thể trạng yếu, người đang mang bệnh
là những người phải chịu ảnh hưởng nặng nề nhất từ ô nhiễm không khí
Ở Việt Nam, trong những năm gần đây, tình trạng môi trường không khí bị ô nhiễmđang ngày càng trở nên nghiêm trọng Theo thống kê của Tổ chức Thông tin về Chất lượngKhông khí Toàn cầu IQAir AirVisual dựa trên mức đo về lượng bụi siêu mịn PM2.5/m3.Việt Nam đứng thứ 17 trong đó riêng Hà Nội và TP.HCM nằm trong top 10 thành phố ônhiễm không khí nhất thế giới Ở nước ta, trong 10 bệnh có tỷ lệ tử vong cao nhất thì có
6 bệnh liên quan đến đường hô hấp có nguyên nhân từ ô nhiễm không khí và chất lượngkhông khí [1] Trong cơ cấu bệnh tật, các bệnh về đường hô hấp cũng là 1 trong 5 nhómbệnh bị mắc phải cao nhất Theo số liệu từ các trạm quan trắc chất lượng không khí ởmột số khu vực trong 2 tháng đầu năm 2021 [2] (Hình 1.1), dữ liệu cho thấy phần lớn cáctrạm có chỉ số bụi mịn (PM 2.5) cao hơn quy chuẩn an toàn cho phép ở mỗi ngày Nhìnchung, các tỉnh khu vực phía Bắc có chất lượng không khí xấu hơn các khu vực còn lại.Theo báo cáo của Ngân hàng Thế giới (WB), thiệt hại kinh tế toàn cầu do ô nhiễmkhông khí là khoảng 225 tỷ USD Đối với Việt Nam, ô nhiễm không khí gây thiệt hại vềkinh tế khoảng 10 tỷ đô la mỗi năm (chiếm từ 5 – 7% GDP)
Trang 16Hình 1.1: Giá trị trung bình PM2.5 trong 24 giờ tại một số đô thị 2 tháng đầu năm 2021Tại Việt Nam, tình trạng ô nhiễm không khí chủ yếu do các nguyên nhân [3] sau:
• Phát triển công nghiệp và sức ép lên môi trường: Nước ta đang trong giai đoạn côngnghiệp hóa Tính đến cuối năm 2020 trên phạm vi toàn quốc có 369 KCN, với tổngdiện tích chiếm khoảng 114 nghìn ha, trong đó có 284 KCN đã đi vào hoạt động,tăng 72 KCN so với năm 2015; Có 698 cụm công nghiệp (CCN) đã đi vào hoạt độngvới tổng diện tích chiếm khoảng 22 nghìn ha Việc số lượng các khu công nghiệp,cụm công nghiệp ngày càng gia tăng đã tác động không nhỏ đến chất lượng môitrường không khí
• Ô nhiễm môi trường làng nghề: Theo báo cáo công tác BVMT năm 2020 của BộNN&PTNT, cả nước hiện có 4.575 làng nghề, trong đó có 1.951 làng nghề đượccông nhận Có tới 47 làng nghề bị ô nhiễm môi trường rất nghiêm trọng, trong đó ởmiền Bắc có 34 làng nghề, miền trung có 11 làng nghề và miền Nam có 2 làng nghề
bị ô nhiễm môi trường nghiêm trọng
• Tình trạng đô thị hóa nhanh: Năm 1990, nước ta mới có 500 đô thị lớn nhỏ; năm
2000 đã có 649 đô thị, đến năm 2016 có 802 đô thị và đến năm 2020 đã tăng lên là
862 đô thị, trong đó có 2 đô thị loại đặc biệt (Hà Nội và TP Hồ Chí Minh), 22 đôthị loại 1, 31 đô thị loại II, 48 đô thị III, 87 đô thị loại IV (thị xã) và trên 672 đô thịloại V (thị trấn) Việc gia tăng nhanh chóng tốc độ đô thị hóa nhanh chóng nhưngchưa đánh giá đúng mức đến tác động với môi trường, dẫn đến các hoạt động nhưchặt phá cây xanh, phá rừng, vứt rác bừa bãi gây tác động không nhỏ đến chấtlượng môi trường không khí
• Phát triển giao thông vận tải: Cùng với công nghiệp hóa và đô thị hóa, ngành giaothông vận tải ở nước cũng đã phát triển rất nhanh chóng, gây ra nguồn thải ô nhiễmnhiễm không khí rất lớn, đặc biệt là ô nhiễm môi trường không khí đô thị Đến cuốinăm 2020 toàn quốc có tới 4.180.478 xe ô tô các loại và hơn 30 triệu xe mô tô, xe
Trang 17máy đang lưu hành Công tác kiểm soát nguồn thải ô nhiễm từ GTVT còn rất hạnchế Cho đến nay chỉ mới kiểm định khí thải đối với 1.736.188 xe ôtô động cơ xăng
và 1.749.387 xe ôtô động cơ diesel đang lưu hành
Trước thực trạng các chỉ số chất lượng không khí ngày càng đáng lo ngại, việc xâydựng một hệ thống thông tin về việc thống kê và dự báo các chỉ số chất lượng không khí
là một yêu cầu cấp thiết Thông qua đó giúp người dân và doanh nghiệp nắm bắt đượcthông tin về chất lượng không khí, từ đó chủ động trong việc lên kế hoạch cho các hoạtđộng sinh hoạt và sản xuất, đồng thời có các biện pháp bảo vệ khi ra ngoài trong điềukiện chất lượng không khí xấu
1.2.1 Mục tiêu đề tài
Mục tiêu của đề tài là xây dựng thành công các mô hình dự báo chất lượng khôngkhí dựa trên các phương pháp học sâu Mô hình phải hoạt động tốt cho dựa trên dữ liệuđược thu thập, có khả năng thích ứng tốt với sự biến động của dữ liệu trong tương lai.Bên cạnh đó, mô hình được xây dựng phải có khả năng mở rộng, phát triển thêm khilượng dữ liệu yêu cầu cho dự báo tăng cao
1.2.2 Đối tượng và phạm vi nghiên cứu
Các chỉ số chất lượng không khí như bụi mịn PM2.5, bụi TSP, CO, O3, NO2 là cácchỉ số chính được dự báo trong luận văn này
Đề tài sẽ tập trung nghiên cứu chính là xây dựng mô hình dự báo các chỉ số chất lượngkhông khí cho các trạm trên địa bản Hồ Chí Minh, do đây là thành phố có mật độ dân
cư cao, nhiều phương tiện giao thông và tập trung nhiều khu công nghiệp nhất cả nướcnên chất lượng không khí thường xuyên đáng báo động Nghiên cứu ở hai khu vực này sẽgiúp góp phần vào việc cải thiện chất lượng môi trường không khí, nâng cao chất lượngcuộc sống
Trang 18• Chương 3 Nêu các nghiên cứu liên quan về dự báo chất lượng không khí.
• Chương 4 Xây dựng mô hình dự báo chất lượng không khí, thực nghiệm các môhình dự báo chất lượng không khí, đánh giá kết quả và thảo luận
• Chương 5 Ứng dụng quản lý và theo dõi chất lượng không khí
• Chương 6 Đánh giá các kết quả đã đạt được và hướng phát triển trong tương lai
Trang 19Chương 2
CƠ SỞ LÝ THUYẾT
Bài toán dự báo chất lượng không khí là một lớp bài toán dự báo, dùng dữ liệu trongquá khứ để xây dựng mô hình dự báo các giá trị trong tương lai Mục tiêu mô hình là tối
ưu giá trị sai số dự đoán từ mô hình và giá trị thực tế Tập dữ liệu thường dùng là cácchỉ số chất lượng không khí như AQI, PM2.5, O3, TSP, CO, SO2, NO2 dữ liệu sẽ đượcthu thập trong một khoảng thời gian liên tục trong quá khứ, càng có nhiều dữ liệu thì
mô hình sẽ có hiệu quả cao hơn Các phương pháp tiếp cận thường được dùng trong việcxây dựng mô hình dự báo chất lượng không khí là các phương pháp sử dụng thống kê,các phương pháp học máy và học sâu:
• Sử dụng các phương pháp thống kê truyền thống: Sử dụng các phân tíchthông kê để tìm ra các đặc trưng của dữ liệu như tính xu hướng, tính mùa, tínhchu kì, tính ổn định của dữ liệu Sau đó dựa vào đặc tính của dữ liệu mà sử dụngcác phương pháp phù hợp để xây dựng mô hình dự báo Ví dụ như mô hìn trungbình trượt (Moving average) và mô hình làm mượt lũy thừa (Exponential smoothingmethod) thích hợp cho dữ liệu không có tính mùa và xu hướng Mô hình tự hồi quy(Autoregressive model) phù hợp cho các chuỗi dữ liệu có tự tương quan giữa cácđiểm thời gian Đặc biệt mô hình ARIMA có thể áp dụng với mọi loại dữ liệu
• Sử dụng các phương pháp học máy (Machine learning), học sâu (Deeplearning): Trong những năm gần đây, với sự phát triển tốc độ tính toán và lưu trữcủa máy tính thì việc xử lý các tập dữ liệu lớn trở nên nhanh chóng và dễ dàng hơn
Vì vậy các phương pháp học máy và học sâu đã được nghiên cứu áp dụng rất nhiềutrong việc xây dựng mô hình dự báo chất lượng không khí Các mô hình này thườngkhông đòi hỏi các đặc tính cụ thể của dữ liệu, thích hợp cho việc xử lý các loại dữ
Trang 20Tại Việt Nam, căn cứ vào quy chuẩn quốc gia hiện đang có hiệu lực (QCVN05:2013/BTNMT), các thông số được quy định để đánh giá chất lượng không khí xungquanh bao gồm:
• Sulfur dioxide (SO2): Sulfur dioxide là một loại khí độc hại phát sinh chủ yếu
do tiêu thụ nhiên liệu hóa thạch hoặc bởi các hoạt động công nghiệp Bệnh nhânvới các vấn đề về phổi, người già và trẻ nhỏ có nguy cơ bị tổn thương cao hơn khitiếp xúc với loại khí này Các tác hại về sức khỏe khi tiếp xúc có thể kể đến baogồm viêm phổi, gây kích ứng đường hô hấp, tăng tiết dịch nhầy, co thắt phế quản.Ngoài ra các trường hợp bỏng rát da, tổn thương mắt cũng được ghi nhận Các hiệntượng thiên nhiên bất lợi như mưa axít, giảm độ pH của đất cũng có mối liên hệvới loại khí này
• Carbon monoxide (CO): Carbon monoxide là loại khí không màu, không vị phátsinh do sự đốt cháy không hoàn toàn các nhiên liệu hóa thạch Các triệu chứngkhi bị nhiễm độc do hít phải carbon monoxide thường gặp là đau đầu, chóng mặt,buồn nôn và nặng hơn là mất ý thức, hôn mê Ái lực của hemoglobin trong máu vớicarbon monoxide cao hơn so với ái lực với oxygen, dẫn đến việc thiếu oxygen trongmáu Tình trạng nhiễm độc có thể diễn tiến nặng khi tiếp xúc với khí này ở nồng
độ cao trong thời gian dài Carbon monoxide cũng là loại khí góp phần gây hiệuứng nhà kính, hiện tượng nóng lên của trái đất và biến đổi khí hậu
• Nitrogen dioxide (NO2): Nitrogen oxide là loại khí phát sinh do việc đốt cháycác nhiên liệu hóa thạch và thường có mối liên hệ với các hoạt động giao thông.Chúng gây kích ứng đường hô hấp, ho, khó thở và đau rát mắt Nitrogen oxide cũnggây ảnh hưởng đến khướu giác và và thậm chí gây các bệnh lý cấp tính ở phổi nếutiếp xúc ở thời gian dài Năng suất và sản lượng cây trồng cũng được ghi nhận giảmsút khi nitrogen oxide hiện diện ờ nồng độ cao trong không khí
• Ozone (O3): Khí ozone được tạo thành từ các khí oxygen dưới xúc tác của sựphóng điện trong bầu khí quyển trái đất Nó là một chất oxy hóa cực mạnh và do
Trang 21đó có khả năng kích thích quá trình oxy hóa gây tổn thương tế bào Tiếp xúc vớikhí ozone có thể gây khó thở, viêm đường hô hấp, làm tình trạng của bệnh nhânhen suyễn thêm trầm trọng Vì ozone ít tan trong nước nên chúng có thể đi sâuvào trong phổi và gây hại cho sức khỏe Khí ozone cũng là một trong những khí gâyhiệu ứng nhà kính và góp phần vào sự ấm lên toàn cầu của trái đất.
• Tổng bụi lơ lửng TSP, bụi PM 10, bụi PM 2.5:, Bụi lơ lửng là hỗn hợp cáchạt lỏng hoặc rắn có kích thước nhỏ có nguồn phát sinh tự nhiên (cháy rừng, núilửa, ) hoặc các hoạt động của con người (tiêu thụ nguyên liệu hóa thạch, cáchoạt động công nghiệp và nông nghiệp ) Chúng cũng có thể hình thành do cácphản ứng hóa học của các chất ô nhiễm dạng khí Một số loại bụi lơ lửng có thể kểđến như: khói nhà máy, khói thuốc, bụi xi măng, bụi đường, vi khuẩn, bào tử nấmmốc, Các hạt có đường kính 10 µm hoặc nhỏ hơn được gọi là PM 10, trong khicác hạt có đường kính 5 µm hoặc nhỏ hơn được gọi là PM 5 Các hạt bụi lơ lửng
có kích thước càng nhỏ càng dễ đi sâu vào đường hô hấp thậm chí hệ tuần hoàn vàgây các ảnh hưởng lâu dài đến sức khỏe
• Chì (Pb) – Không dùng để tính AQI trong 1459/QĐ-TCMT: Chì là mộtloại kim loại nặng có sẵn trong tự nhiên Chúng được sử dụng trong pin, xăng động
cơ, mỹ phẩm hay trong nhiều vật dụng khác như bột màu, sơn, men gốm Nguồngây ô nhiễm chì trong không khí chủ yếu đến từ sử dụng các nhiên liệu đốt cháy cópha chì Phơi nhiễm với chì có thể xảy ra do hít, nuốt phải hoặc hấp thu qua da,với trẻ em là đối tượng rất dễ bị tổn thương sức khỏe bởi chất này Ngộ độc chì gâyảnh hưởng đến hệ thần kinh, giảm thông minh, trí nhớ giảm sút, thậm chí gây hôn
mê, co giật
Trang 22Hình 2.1: Bảng giá trị giới hạn các thông số cơ bản trong không khí (µg/m3)
2.2.2 Tiêu chí đánh giá chất lượng không khí
Chỉ số chất lượng không khí Việt Nam (VN_AQI – Vietnam Air quality index) là chỉ
số được tính toán từ các thông số quan trắc các chất ô nhiễm trong không khí ở ViệtNam Chúng cho biết tình trạng chất lượng không khí, mức độ ảnh hưởng dến sức khỏecon người và được tính theo thang điểm tương ứng dựa theo Quyết định 1459 của Tổngcục môi trường Việt Nam [4] Chỉ số VN_AQI được biểu diễn với các màu sắc để cảnhbáo chất lượng không khí như trình bày ở Hình 2.2
Hình 2.2: Bảng các khoảng giá trị VN AQI và đánh giá chất lượng không khí
2.2.2.1 Giá trị AQIh - với thông số PM 2.5 và PM 10
AQIh là giá trị AQI đại diện cho chất lượng không khí trong 1 giờ Giá trị Nowcast
là giá trị trung bình có trọng số được tính toán từ 12 giá trị trung bình 1 giờ gần nhất so
Trang 23với thời điểm tính toán, dùng cho thông số PM 2.5 và PM 10.
Gọi ci là giá trị quan trắc trung bình một giờ tại thời điểm cách i - 1 giờ so với hiệntại, cmin = min(c1, c2, , c12) và cmax = max(c1, c2, , c12)
Với w > 12 thì N owcast = (P12
i=1wi−1ci)/(P12
i=1wi−1)Nếu chỉ có một trong ba giá trị (c1, c2, c3)) có dữ liệu thì xem như không có dữ liệu
và không tính được giá trị Nowcast Nếu ci không có giá trị thì lấy wi−1 = 0
2.2.2.2 Giá trị AQIxh - với các thông số quan trắc khác
Với các thông số SO2, CO, NO2, O3 thì được tính như sau:
AQIh = max(AQIxh)Trong đó:
• AQIh
x: Giá trị AQI đại diện cho chất lượng không khí của thông số x trong 1 giờ
• BPi: Nồng độ giới hạn dưới của giá trị thông số quan trắc được quy định tại Hình2.3 tương ứng với mức i
• Ii: Giá trị AQI ở mức i đã cho trong bảng tương ứng với giá trị BPi
• Ii+1: Giá trị AQI ở mức i đã cho trong bảng tương ứng với giá trị BPi+1
• Cx: Giá trị quan trắc trung bình 1 giờ của thông số x
• Nowcastx: Giá trị Nowcast
Trang 24Hình 2.3: Bảng các giá trị BPi và Ii của các thông số2.2.2.3 Giá trị AQId ngày
1 Một số khái niệm:
AQId là giá trị AQI đại diện cho chất lượng không khí trong 1 ngày Giá trị AQIlớn nhất của các thông số được sử dụng làm giá trị AQI ngày tổng hợp Giá trị AQIngày được tính toán dựa trên các giá trị như sau:
• Thông số PM 2.5 và PM 10: giá trị trung bình 24 giờ
• Thông số SO2, NO2 và CO: giá trị trung bình 1 giờ lớn nhất trong ngày
• Thông số O3: giá trị trung bình 1 giờ lớn nhất trong ngày và giá trị trung bình
8 giờ lớn nhất trong ngày
Trong đó:
• Giá trị trung bình 1 giờ lớn nhất trong ngày: là giá trị lớn nhất trong số cácgiá trị quan trắc trung bình 1 giờ
• Giá trị quan trắc trung bình 8 giờ lớn nhất trong ngày: là giá trị lớn nhất trong
số các giá trị trung bình 8 giờ
• Giá trị trung bình 8 giờ là trung bình cộng các giá trị trung bình 1 giờ trong
8 giờ liên tiếp
• Giá trị trung bình 24 giờ: trung bình cộng các giá trị quan trắc trung bình 1giờ trong 1 ngày (từ 01:00 giờ đến 00:00 hôm sau)
Trang 25Với giá trị AQId tổng hợp (là giá trị lớn nhất của các AQI trung bình theo ngàycủa các thông số, được làm tròn thành số nguyên) thì được tính như sau:
AQId = max(AQIxd)Trong đó:
• AQId
x: Giá trị AQI đại diện cho chất lượng không khí của thông số x theo ngày
• BPi: Nồng độ giới hạn dưới của giá trị thông số quan trắc được quy định tạiHình 4 tương ứng với mức i
• BPi+1: Nồng độ giới hạn trên của giá trị thông số quan trắc được quy định tạiHình 4 tương ứng với mức i+1
• Ii: Giá trị AQI ở mức i đã cho trong bảng tương ứng với giá trị BPi
• Cx Được quy định theo từng loại thông số quan trắc như sau:
– PM 2.5, PM 10 : Cx là giá trị trung bình 24 giờ
– SO2, NO2, CO : Cx là giá trị trung bình 1 giờ lớn nhất trong ngày.– O3: Cx là giá trị lớn nhất trong giá trị trung bình 1 giờ lớn nhất trongngày và giá trị trung bình 8 giờ lớn nhất trong ngày
Ghi chú: : Không tính toán AQI thông số O3 khi giá trị trung bình 8 giờ lớn nhấttrong ngày cao hơn 400 µg/m3 (lúc này chỉ tính toán AQI đối với trung bình 1 giờlớn nhất trong ngày)
bằng học sâu
2.3.1 Mạng neural truyền thẳng (Feedforward Neural Network)
Mạng neural truyền thẳng là một lớp mạng nơ ron nhân tạo, trong đó các perceptron
ở mỗi lớp sẽ kết nối với nhau mà không tạo thành một chu kỳ Giá trị của các perceptron
ở mỗi lớp sẽ được tính toán trực tiếp từ các perceptron ở các lớp trước đó Hình 2.4 mô
tả mộ mạng neural truyền thẳng 3 lớp, lớp input nhận dữ liệu đầu vào với kích thước là(3,), lớp hidden có 4 perceptrons và lớp output có kích thước là (2,)
Trang 26Hình 2.4: Mạng neural truyền thẳng 3 lớpMột percetron sẽ nhận đầu vào là các perceptron được liên kết ở các tầng trước nó,giá trị của nó được tính bằng:
• Wji: giá trị trọng số liên kết giữa perceptron j ở tầng l và perceptron i ở tầng l-1
• θj: giá trị bias của perceptron j
Hình 2.5: Tính toán giá trị các perceptronHàm f là một hàm kích hoạt phi tuyến, mục đích là để khử lan truyền tuyến tính trongmạng Một số hàm kích hoạt thường dùng là Tanh, ReLu, Sigmoid, Linear Hình 2.6 mô
tả chi tiết công thức, biểu đồ và khoảng giá trị của một số hàm kích hoạt phi tuyến phổbiến [5]
Trang 27Hình 2.6: Bảng mô tả một số hàm kích hoạt phi tuyến
2.3.2 Mạng neural hồi qui (Recurrent neural network - RNN)
Ý tưởng chính của RNN (Recurrent Neural Network [6]) là sử dụng chuỗi các thôngtin Trong các mạng nơ-ron truyền thống tất cả các đầu vào và cả đầu ra là độc lập vớinhau Tức là chúng không liên kết thành chuỗi với nhau Nhưng các mô hình này khôngphù hợp trong rất nhiều bài toán RNN được gọi là hồi quy (Recurrent) bởi lẽ chúng thựchiện cùng một tác vụ cho tất cả các phần tử của một chuỗi với đầu ra phụ thuộc vào cảcác phép tính trước đó Nói cách khác, RNN có khả năng nhớ các thông tin được tínhtoán trước đó
Hình 2.7: Mô hình mạng RNNHình 2.7 minh hoạt cơ chế hoạt động của mạng RNN Cụ thể:
• xt là đầu vào tại bước t
Trang 28RNN và Deep Bidirectional RNN:
• Bidirectional RNN: Ở mô hình RNN 2 chiều (Bidirectional RNN), đầu ra tại bước
t không những phụ thuộc vào các phần tử phía trước mà còn phụ thuộc cả vào cácphần tử phía sau.Vì vậy, ta có thể coi mô hình là việc chồng 2 mạng RNN ngượchướng nhau lên nhau Lúc này đầu ra được tính toán dựa vào cả 2 trạng thái ẩncủa 2 mạng RNN ngược hướng này
Hình 2.8: Mô hình mạng Bidirectional RNN
• Deep Bidirectional RNN: RNN sâu (Deep (Bidirectional) RNN) cũng tương tự nhưRNN 2 chiều, nhưng khác nhau ở chỗ chúng chứa nhiều tầng ẩn ở mỗi bước Trongthực tế, chúng giúp cho việc học ở mức độ cao hơn, tuy nhiên ta cũng cần phải cónhiều dữ liệu huấn luyện hơn
Trang 29Hình 2.9: Mô hình mạng Deep Bidirectional RNN
2.3.3 Mạng neural LSTM (Long Short Term Memory)
Việc nhớ kết quả trong RNN có đặc điểm: giá trị nhớ bị “pha loãng” qua các lần lặptiếp theo Để khắc phục việc này, một biến thể của RNN là Mạng nơ ron hồi quy có bộnhớ dài – ngắn hạn ra đời Trong mạng LSTM , các perceptron có khả năng nhớ thôngtin trong suốt thời gian dài, giúp chúng là kỹ thuật hữu ích để áp dụng tính toán cho cáctập mẫu mà giá trị của các dữ liệu đầu tiên có ảnh hưởng lớn đến giá trị các dữ liệu sau
nó Hình 2.10 mô tả kiến trúc mạng LSTM, ở state thứ t của mô hình LSTM:
Hình 2.10: Mô hình mạng LSTM
• Output: ct, ht, ta gọi c là cell state, h là hidden state
• Input: ct−1, ht−1, xt Trong đó xt là input state thứ t của model ct−1, ht−1 là output
Trang 30ct = f t ∗ ct−1+ it∗ c∗
t, forget gate quyết định xem cần lấy bao nhiêu từ cell state trước
và input gate sẽ quyết định lấy bao nhiêu từ input của state và hidden layer của layertrước
ht = ot∗ tanh(ct), output gate quyết định xem cần lấy bao nhiêu từ cell state để trởthành output của hidden state Ngoài ra, ht cũng được dùng để tính ra output yt chostate t
2.3.4 Cascade-forward neural network - CFNN
Cascade-forward neural network [7] là một lớp mạng neural nhân tạo, ở đó tương tựmạng neural truyền thẳng, dữ liệu được lan truyền từ lớp input đến lớp output mà khôngtạo thành chu kì Thêm vào đó, mỗi perceptron ở các lớp trừ lớp input sẽ được kết nốivới tất cả các perceptrons ở các lớp trước đó Hình 2.10 mô tả một mạng CFNN 3 lớp,
ta có thể thấy lớp output được kết nối với lớp input
2.3.5 Echo state neural network - ESN
Echo state neural network [8] là một lớp mạng RNN, ở đó bộ nhớ được lưu trữ thôngqua kết cấu hồi quy của mạng Khác với các mạng neural nhiều lớp thông thường, các lớp
ẩn (hidden layer) của mạng ESN được thể hiện thông qua một vùng chứa động (dynamicalreservoir), sự kết nối giữa các perceptrons trong vùng chứa là ngẫu nhiên, được thể hiệnthông qua một ma trận thưa W Các trọng số Win giữa input và vùng chứa cũng đượcchọn một cách ngẫu nhiên Mô hình mạng ESN chỉ huấn luyện tập trọng số Wout và cácbias giữa vùng chứa và lớp output, việc huấn luyện dựa vào sự kết hợp tuyến tính vàkhông sử dụng thuật toán lan truyền ngược như các mạng neural khác giúp việc huấnluyện mạng ESN nhanh hơn rất nhiều
Hình 2.11 mô tả mạng ESN với Nu dữ liệu đầu vào và Nr perceptrons trong vùngchứa Trạng thái của vùng chứa ở thời điểm t được cập nhật thông qua hàm:
x(t) = (1 − α)x(t − 1) + αtanh(Winu(t) + W x(t − 1))
Trang 31Hình 2.11: Mạng CFNN 3 lớp
Hình 2.12: Mạng ESNTrong đó: Win là các trọng số của dữ liệu đầu vào, W là ma trận trọng số thưa củavùng chứa, θ là các bias, α có giá trị trong khoảng [0,1] Các giá trị trọng số thườngđược chọn thông qua phân bố đều trong khoảng [−scalein, scalein], với scalein là tham
số chuẩn hóa giá trị đầu vào
Tham số đầu ra của mạng ESN, kí hiệu là y(t), được tính bằng:
y(t) = Woutx(t) + θout
Trang 32• Vector trung gian - Context Vector: Vector này có chức năng gói gọn toàn bộ ýnghĩa của chuỗi đầu vào và giúp bộ giải mã đưa ra được quyết định chính xác Đây
là trạng thái ẩn nằm cuối chuỗi và được tính bởi bộ mã hóa, vector này sau đó cũnghoạt động như trạng thái ẩn đầu tiên của bộ giải mã
• Bộ giải mã - Decoder: Bộ giả mã sử dụng Vector trung gian và cố gắng dự đoánchuỗi đích
Ở luận văn này, ta sẽ sử dụng lần lượt hai lớp LSTM và CNN cho phần encoder vàmột lớp LSTM cho phần decoder
Hình 2.13: Mạng LSTM-LSTM
Hình 2.23 mô tả kiến trúc mạng LSTM-LSTM Ở phần Encoder, lớp mạng LSTM đọcchuỗi dữ liệu đầu vào và tổng hợp thông tin vào một vector trung gian (Encoder vector).Thông tin được rút trích từ các trạng thái ẩn (hidden state) và trạng thái tế bào (cellstate) ở mỗi bước đọc chuỗi dữ liệu đầu vào Giả sử chuối dữ liệu đầu vào có độ dài k, ta
có h1, c1, x1, , hk, ck, xk lần lượt là các trạng thái ẩn, trạng thái tế bào, dữ liệu đầu vào
Trang 33ở mỗi bước Thông tin tổng hợp được ở bước thứ k sẽ được chuyển thành vector trunggian vk với độ dài cố định, làm input cho phần Decoder.
Ở phần Decoder, mạng LSTM sẽ tạo ra từng kết quả của chuỗi đầu ra Ở bước đầutiên, vector trung gian vk kết hợp với dữ liệu đầu vào y0 để cho ra kết quả đầu ra y1 vàcác trạng thái h1, c1, y1, h1, c1 tiếp tục kết hợp để tạo ra đầu ra y2, thực hiện tiếp tục đếnkhi được chuối đầu ra hoàn chỉnh Quá trình huấn luyện được lặp lại cho đến khi thỏađiều kiện dừng
Hình 2.14: Mạng CNN-LSTM
Phần Encoder của mô hình CNN-LSTM sử dụng lớp CNN thay vì LSTM, ở bước này
dữ liệu đầu vào sẽ được trích xuất đặc trưng thông qua lớp các lớp convolutional, filter,pooling Và được truyền vào một vector trung gian (encoder vector) Phần Decoder hoạtđộng tương tự như ở mạng LSTM-LSTM
Trang 343.1 Xây dựng mô hình dự báo chất lượng không khí
bằng học sâu
Air Quality Prediction Using Artificial Neural Network [ 9 ]
Các tác giả sử dụng mạng nơ ron nhân tạo để dự báo các chỉ số chất lượng không khíbao gồm sulphur dioxide (SO2), carbon monoxide (CO), nitrogen dioxide (NO2), nitricoxide (NO), nhiệt độ, độ ẩm và vận tốc không khí Tập dữ liệu đầu vào là các chỉ số dựbáo được thu thập trong quá khứ từ năm 2001 đến năm 2004 ở thành phố Patu Phat,Malaysia Kết quả mô hình được đánh giá dựa trên giá trị Mean square error (MSE) vàgiá trị R2
Bài báo sử dụng mạng nơ ron nhân tạo 3 lớp gồm input layer, hiden layer, outputlayer (Hình 3.1) Mô hình được thực hiện với 2 kiến trúc mạng ANN Cả 2 kiến trúc đềugiống nhau ở lớp input và output, chỉ khác ở số perceptrons sử dụng ở lớp hidden layer.Input layer gồm 7 giá trị đầu vào, tương ứng với các chỉ số chất lượng không khí, hiddenlayer sử dụng 10 perceptrons ở mô hình 1 và 20 perceptrons ở mô hình 2 Output layer
có 4 giá trị là kết quả đầu ra của mạng tương ứng với các chỉ số SO2, NO2, NO, CO.Matlab sẽ được sử dụng để hiện thực các thông số của hai mạng ANN đã đề xuất Vớicác tham số training (Learning rate = 0.1, Momentum = 0.6, Epochs = 1000) Cả hai môhình cho kết quả không có sự khác biệt lớn Nhìn chung, mô hình mạng ANN 7-20-4 cócác chỉ số MSE (0.062 < 0.0626), R2 (0.57 > 0.562) tốt hơn so với mô hình mạng ANN7-10-4
Trang 35Hình 3.1: Kiến trúc mạng ANN sử dụng cho mô hình
Combining forward with recurrent neural networks for hourly air quality prediction in Northwest of China [ 10 ]
Bài báo xây dựng bốn mô hình mạng nơ ron bao gồm: Cascade-forward neural work (CFNN), Echo state network (ESN), Recurrent neural network (RNN), Recurrentnetworks using previous outputs Dùng để dự báo các chỉ số chất lượng không khí gồm
net-có AQI, PM 2.5, PM 10, CO, SO2, NO2, O3 Tập dữ liệu đầu vào được thu thập từ năm
2014 đến năm 2019 ở hai thành phố Xi’an và Lanzhou ở phía Tây Bắc Trung Quốc Dữliệu được chia thành 2 tập training và validation, lần lượt bốn mô hình sẽ được huấnluyện từ tập training Sau đó, các giá trị dự báo cho ra từ bốn mô hình đã được huấnluyện kết hợp với các giá trị của tập dữ liệu gốc, tạo thành một mô hình hybrid để cho
ra kết quả dự báo cuối cùng
Các tác giả sử dụng kỹ thuật sliding window để phân chia tập dữ liệu gốc vào thànhcác nhóm, tương ứng với tập các giá trị đầu vào Mỗi nhóm là một mảng các giá trị, có
độ dài tương ứng với giá trị biến window_size được định nghĩa Mỗi nhóm sẽ được gánnhãn là một mảng các giá trị, có độ dài tương ứng giá trị biến step_length Giải thuậtđược mô tả chi tiết bằng đoạn mã giả trong hình 3.2, giải thuật nhận vào các thông số
là tập dữ liệu gốc, giá trị các biến window_size và step_length Kết quả đầu ra của giảithuật là tập dữ liệu X và Y, tương ứng với các dữ liệu ở lớp input và output dùng để huấnluyệt mạng neral Ví dụ như ta có tập dữ liệu s = (s1, s2, s3, , s100), với window_size
= 3 và step_length = 1, thì X = ([s1, s2, s3], [s2, s3, s4], , [s97, s98, s99]) và Y = (s3,s5, , s100) Nếu window_size = 5 và step_length = 2 thì X = ([s1, s2, s3, s4, s5], [s2,s3, s4, s5, s6], , [s94, s95, s96, s97, s98]) và Y = ([s6, s7], [s7, s8], , [s99, s100])
Trang 36Hình 3.2: Giải thuật sliding window
Dữ liệu sau khi được thu thập sẽ được xử lý qua các bước:
• Xử lý các giá trị bị mất: Sử dụng nội suy tuyến tính để xử lý các giá trị bị mấttrong chuối thời gian theo công thức:
• Chuẩn hóa dữ liệu: Dữ liệu được chuẩn hóa trong khoảng [0.001, 1] thông quahàm Mapminmax của Matlab:
M apminmax(X, ymin, ymax) = (ymax− ymin) ∗ (x − xmin)
xmax− xmin + yminVới X là ma trận cần chuẩn hóa, ymin và ymax lần lượt các giá trị kì vọng nhỏ nhất
và lớn nhất ở mỗi hàng của ma trận X, xmin và xmax lần lượt là giá trị nhỏ nhất vàlớn nhất ở mỗi hàng của ma trận X
Trang 37Mô hình hybrid được thực hiện qua hai giai đoạn Ở giai đoạn đầu tiên (Hình 3.3),bốn mô hình mạng neural CFNN, RNN, ESN, RNN using previous ouput sẽ được huấnluyện để cho ra các tham số tối ưu nhất với từng mô hình Sau đó, với từng mô hình
ta sẽ dùng để dự báo các giá trị từ tập training set, kí hiệu là train_Y1’, train_Y2’,train_Y3’, train_Y4’ Tương tự, ta dùng các mô hình đó để dự báo các giá trị từ tậptesting set, kí hiệu là test_Y1’, test_Y2’, test_Y3’, test_Y4’ Ở giai đoạn thứ 2 (Hình3.4), bước hybrid, ta xây dựng mô hình mạng neural nhân tạo ba lớp, tập huấn luyện môhình với input là tập giá trị [train_Y1’, train_Y2’, train_Y3’, train_Y4’], output là tập[train_Y] ban đầu Tập input và output dùng để đánh giá mô hình lần lượt là [test_Y1’,test_Y2’, test_Y3’, test_Y4’] và [test_Y]
Hình 3.3: Hybrid model phase 1
Hình 3.4: Hybrid model phase 2Lần lượt bốn mô hình mạng neural và mô hình hybrid sẽ được áp dụng để dự báo cácchỉ số chất lượng không khí với các step length khác nhau trong tương lai, các giá trị steplength được chọn là 1, 3, 5, 8 Ở mỗi step length, bốn mô hình mạng neural sẽ được ápdụng với các window size khác nhau để tìm ra window size tối ưu nhất để dự báo, sau đó
Trang 38Hình 3.5: Sai số MAPE của chỉ số PM 2.5 với các window size khác nhau
Với chỉ số PM 2.5, ở mỗi step length, các mô hình mạng neural sẽ sử dụng các windowsize khác nhau, trong khoảng giá trị từ [1, 12] để dự báo Giá trị window size được chọn
là giá trị cho ra sai số MAPE nhỏ nhất Ví dụ với step length = 3, giá trị window size =
10 sẽ cho gia giá trị sai số MAPE tối ưu nhất cho các mô hình mạng neural (Hình 3.5).Tóm lại, với các giá trị step length 1, 3, 5, 8 thì các giá trị window size tối ưu nhất lầnlượt là 5, 10, 10, 8 Sau khi đã xác định được các giá trị window size tối ưu Lần lượt các
mô hình sẽ được áp dụng để dự báo các chỉ số không khí ở hai thành phố Lanzhou vàXi’an Kết quả cho thấy mô hình hybrid luôn cho ra kết quả tốt nhất ở các step length
dự báo cho thấy việc kết hợp các kết quả từ các mạng neural đơn lẻ sẽ cải thiện được sai
số của mô hình dự báo Mô hình mạng RNN using previous output cho kết quả kém nhất
ở tất cả các thí nghiệm, ba mô hình mạng neural còn lại ESN, RNN, CFNN nhìn chungcho kết quả sai số khá tương đồng nhau
Trang 393.2 Xây dựng mô hình dự báo chất lượng không khí
1 Tính toán giá trị IQR = Q3 - Q1
2 Tính giá trị giới hạn cận dưới LB = Q1 - 1.5*IQR, giá trị giới hạn cận trên UB =Q3 + 1.5*IQR
3 Các điểm giá trị mà nhỏ hơn LB và lớn hơn UB sẽ được xem là các điểm ngoại lại
và sẽ bị loại bỏ
Dữ liệu sau khi được xử lý sẽ được chia thành 3 tập: tập huấn luyện, tập đánh giá,tập kiểm tra với số lượng phần trăm so với tập dữ liệu gốc lần lượt là 75, 15, 15 Đánhgiá mô hình, bài báo sử dụng các chỉ số là sum square error (SSE), mean square error(MSE) và hệ thống tương quan (R2) Hình 3.6 mô tả chi tiết các bước thực hiện mô hìnhSVM, mô hình sẽ được huấn luyện và áp dụng lần lượt với 3 kernel là linear, polynomial
và RBF Mỗi mô hình sẽ được đánh giá là đạt nếu có chỉ số R2 > 0.7, sau đó sẽ lựa chọn
ra RBF tối ưu nhất
Kết quả thực nghiệm cho thấy cả hai mô hình hồi quy và regression đều cho kết quảcác chỉ số SSE, MSE, R2 tốt hơn khi xác định và loại bỏ các điểm dữ liệu ngoại lại Đốivới mô hình SVM, RBF kernel cho ra kết quả các chỉ số SSE, MSE, R2 tốt hơn so với 2kernel còn lại là linear, polynomial
Trang 40Hình 3.6: Lưu đồ thực hiện mô hình SVM
A Machine Learning Model for Air Quality Prediction for Smart Cities [ 12 ]
Usha Mahalingam và cộng sự đã xây dựng mô hình mạng ANN kết hợp với SVM đểxây dựng mô hình dự báo chất lượng không khí ở New Delhi, Ấn Độ Dữ liệu được thuthập Delhi, từ ngày 1 đến ngày 31 tháng 12 ở 37 trạm quan trắc, trong một ngày mỗitrạm sẽ có 37 records được thu thập Các tác giả xây dựng mô hình mạng ANN để dựbáo giá trị chất lượng không khí (AQI), sau đó các giá trị dự báo sẽ được đưa vào môhình SVM để thực hiện phân loại cho các giá trị dự báo (Hình 3.7), có 6 lớp để phân loại