Luận văn thạc sĩ Khoa học máy tính: Xây dựng mô hình dự báo chất lượng không khí

Tại Việt Nam, việc tiếp cận các chỉ số đánh giá chất lượng không khí còn nhiều hạn chế nên việc sử dụng các dữ liệu hiện có để đánh giá tác động đến sức khỏe trong tương lai gần luôn là

GIỚI THIỆU ĐỀ TÀI

Đặt vấn đề

Ô nhiễm không khí hiện nay không chỉ là vấn đề của một quốc gia riêng lẻ mà là vấn đề đáng báo động toàn cầu Dữ liệu của Tổ chức Y tế thế giới (WHO – World Health Organization) cho thấy cứ mỗi 10 người thì có 9 người đang hít phải không khí bị ô nhiễm nặng Theo ƣớc tính, mỗi năm ô nhiễm không khí lấy đi tính mạng của gần bảy triệu người Các chất ô nhiễm trong không khí có thể xâm nhập sâu vào phổi, hệ thống tim mạch và gây ra nhiều căn bệnh từ nhẹ nhƣ ho, kích ứng hô hấp đến những căn bệnh thậm chí rất nặng nhƣ đột quỵ, ung thƣ phổi [1]

Quá trình phát triển đô thị và công nghiệp hóa ở các quốc gia đều kéo theo các vấn đề về ô nhiễm môi trường, trong đó có ô nhiễm không khí Theo kết quả báo cáo năm

2019 của Cơ quan năng lƣợng quốc tế (IEA - International Energy Agency), lƣợng khí

CO 2 phát thải từ các hoạt động sản xuất công nghiệp và hoạt động giao thông vận tải chiếm lần lượt 39.3% và 27.0% tổng lượng khí CO 2 phát thải toàn cầu [2] Các phương tiện giao thông cơ giới sử dụng nhiên liệu hóa thạch nhƣ xăng, dầu diesel sản sinh nhiều loại khí thải SO 2 , NO 2 , CO, PM 10 /PM 2.5 trong quá trình đốt nhiên liệu, thậm chí rò rỉ nhiên liệu trong khi vận hành gây phát sinh Benzen, Toluen và các hợp chất dễ bay hơi khác nhƣ ethylbenzene, xylenes [3]

Tại Việt Nam, ô nhiễm không khí tại các đô thị lớn ngày càng gia tăng do chịu nhiều ảnh hưởng từ các hoạt động giao thông vận tải cũng như các hoạt động phát triển kinh tế xã hội Khí thải từ các phương tiện giao thông đường bộ như xe ô tô và xe gắn máy luôn chiếm tỷ trọng lớn trong tổng lƣợng khí thải gây ô nhiễm Tính đến đầu năm

2020, toàn quốc có khoảng 45 triệu xe máy và gần 4 triệu xe ô tô đang lưu hành Trong đó, Hà Nội có 6 triệu xe máy, thành phố Hồ Chí Minh có 8 triệu xe máy [4] Trong số các phương tiện giao thông đang lưu hành, nhiều phương tiện đã cũ, quá hạn sử dụng và không đƣợc bảo dƣỡng định kỳ nên hiệu suất đốt cháy nhiên liệu thấp gây phát thải các chất ô nhiễm không khí ngày càng nhiều Trong khoảng thời gian thực hiện cách ly xã hội để phòng dịch bệnh COVID-19, giá trị các thông số PM2.5 và CO giảm rõ rệt so với khoảng thời gian cùng kỳ các năm trước càng cho thấy sự ảnh hưởng của các nguồn phát thải từ giao thông có ảnh hưởng lớn đến chất lượng chung của khu vực [4]

Theo thống kê của Bộ Tài nguyên và Môi trường Việt Nam, giai đoạn từ năm 2018 đến năm 2019 nhìn chung có nồng độ bụi PM 2.5 cao hơn so với giai đoạn từ 2010-2017 Chỉ số chất lượng không khí tại hai thành phố lớn nhất cả nước là Hà Nội và Thành phố

Hồ Chí Minh có nhiều địa điểm nằm ở mức xấu, với chỉ số AQI nằm trong khoảng 150-

200, thậm chí đôi lúc cao hơn 200 (mức rất xấu) [4] Các hạt bụi mịn kích thước nhỏ như

PM 2.5 lơ lửng trong không khí nếu thẩm thấu vào đường hô hấp sẽ gây ảnh hưởng xấu đến sức khỏe con người [5]

Trong một nghiên cứu kết hợp giữa Viện Phân tích Hệ thống Ứng dụng Quốc tế (Cộng hòa Áo) và Viện Hàn lâm Khoa học và Công nghệ (Việt Nam) về quản lý chất lượng không khí tại miền Bắc Việt Nam (năm 2015) cho thấy: giao thông đường bộ là nguồn phát thải PM 2.5 lớn tại khu vực Hà Nội khi đóng góp đến gần 25% lƣợng khí ô nhiễm Nồng độ PM 2.5 cao nhất (lên đến 55 μg/m 3 ) tập trung tại khu vực đô thị Hà Nội và giảm dần ở các khu vực lân cận Nghiên cứu trên cũng cho thấy có đến 20 triệu người tiếp xúc với nồng độ PM 2.5 cao hơn tiêu chuẩn ban hành, đặc biệt là ở thành phố Hà Nội, tỉnh Bắc Ninh và tỉnh Hƣng Yên (Hình 1.1) [6]

Hình 1.1 Phân bố dân cƣ tiếp xúc với PM 2.5 khu vực miền Bắc Việt Nam (2015)

Trước thực trạng chất lượng không khí luôn ở ngưỡng đáng lo ngại, nhu cầu thông tin về chỉ tiêu chất lượng không khí luôn là vấn đề đáng quan tâm với người dân, đặc biệt với những người có thể trạng yếu Nắm bắt được thông tin chất lượng không khí sẽ giúp chủ động hơn cho các hoạt động ngoài trời và các sinh hoạt nói chung khác Các nguồn thông tin chất lƣợng không khí hiện nay đang ở mức ghi nhận kết quả hiện tại Để giúp chủ động hơn nữa trong việc lên kế hoạch cho các hoạt động và sinh hoạt hằng ngày, thông tin dự báo chất lượng không khí cho tương lai là rất cần thiết

Trước nhu cầu cấp thiết như trên, đề tài “Xây dựng mô hình dự báo chất lượng không khí” được tiến hành, với mục đích bước đầu xây dựng mô hình đánh giá chất lƣợng không khí ở mức chấp nhận đƣợc, tiến tới xây dựng hệ thống dự báo thông tin chất lượng không khí hoàn chỉnh trong tương lai

Mục tiêu, đối tƣợng và phạm vi nghiên cứu

Mục tiêu nghiên cứu của đề tài là tìm hiểu về bài toán dự báo chất lƣợng không khí, xây dựng và đánh giá khả năng dự báo chất lƣợng không khí sử dụng các mô hình toán học truyền thống cũng nhƣ các mô hình dự báo sử dụng mạng nơ ron nhân tạo Từ đó chọn lựa mô hình phù hợp để dự báo chất lượng không khí trong tương lai gần Ngoài ra, nghiên cứu cũng thực hiện cải tiến mô hình hiện có để có thể sử dụng nhiều loại dữ liệu đầu vào khác nhau phục vụ cho nhu cầu dự báo chất lƣợng không khí Để đạt đƣợc mục tiêu trên, luận văn thu thập dữ liệu từ nguồn thông tin khách quan, tiến hành các bước làm sạch dữ liệu (loại bỏ dữ liệu dư thừa, xử lý dữ liệu thiếu ) và thực hiện các kiểm định cần thiết Các mô hình dự đoán khác nhau đƣợc tìm hiểu và đề xuất bao gồm mô hình tự hồi quy, ARIMA, Holt-Winters cùng nhiều mô hình học máy khác nhau (mạng nhân tạo nhiều lớp ANN, mạng hồi quy RNN và mạng LSTM) Từ đó đề xuất mô hình phù hợp nhất trong dự báo chất lƣợng không khí

1.2.2 Đối tƣợng và phạm vi nghiên cứu

Chỉ số AQI chính theo giờ (main AQI) là đối tƣợng đƣợc tập trung khảo sát trong luận văn này Đây là chỉ số cơ bản và chủ yếu của toàn bộ các đánh giá chất lƣợng không khí tại Việt Nam và tại nhiều quốc gia khác Chỉ số này có cách tính toán khác biệt tùy thuộc vào quy chuẩn của từng quốc gia, nên để phù hợp với thực tiễn đề tài, toàn bộ các chỉ số AQI xem xét trong luận văn đều sử dụng chung theo quy chuẩn của Việt Nam (theo quyết định 1459/QĐ-TCMT)

Nghiên cứu đƣợc thực hiện với tập dữ liệu đầu vào thu thập tại các trạm quan trắc có phân bố vị trí địa lý tại khu vực Hà Nội, trong khoảng thời gian khảo sát từ ngày 19/11/2021 đến ngày 19/12/2021 Đây là một trong hai thành phố có mật độ dân số cao nhất cả nước với lưu lượng xe cộ dày đặc, thích hợp cho việc đánh giá các mô hình chất lƣợng không khí thuộc khu vực đô thị.

Ý nghĩa thực tiễn của đề tài

Trong quá trình thực hiện nghiên cứu, đề tài sẽ thu thập và tổng hợp một bộ dữ liệu về nồng độ chất gây ô nhiễm tại địa phương Đây là nguồn tham khảo hữu ích cho các nghiên cứu sau này trong lĩnh vực môi trường cũng như các đề tài xây dựng mô hình toán học khác

12 Với nguồn dữ liệu đầu vào thu thập từ thực tiễn và đáng tin cậy, các mô hình có đƣợc từ đề tài sẽ cho kết quả khách quan và góp phần hỗ trợ cho các công tác quản lý môi trường tại khu vực nghiên cứu, cung cấp phương pháp tính toán chỉ số chất lượng không khí có độ chính xác tốt, góp phần hỗ trợ việc đánh giá chất lƣợng không khí cho hiện tại và tương lai gần

Góp phần cung cấp thêm thông tin về hiện trạng chất lƣợng không khí tại Việt Nam, phục vụ cho các nhà quản lý đưa ra các định hướng hạn chế tác động của ô nhiễm không khí đến sức khỏe con người

Cấu trúc luận văn

Cấu trúc luận văn được chia thành 5 chương, bao gồm:

1 Giới thiệu tổng quan về đề tài, mục tiêu và phạm vi nghiên cứu

3 Lược đồ nghiên cứu, phương pháp thực hiện và xây dựng mô hình

4 Kết quả, nhận xét kết quả trên tập huấn luyện – tập kiểm tra và kết luận

5 Đánh giá kết quả đạt được và hướng phát triển tương lai

CƠ SỞ LÝ THUYẾT

Các chỉ tiêu chất lượng không khí và phương thức tính

2.1.1 Các chỉ tiêu chất lƣợng không khí

Tại Việt Nam, căn cứ vào quy chuẩn quốc gia hiện đang có hiệu lực (QCVN 05:2013/BTNMT) [7], các thông số đƣợc quy định để đánh giá chất lƣợng không khí xung quanh bao gồm:

 Tổng bụi lơ lửng (TSP - total suspended particulates - tổng các hạt bụi có đường kính khí động học nhỏ hơn hoặc bằng 100 μm),

 Bụi PM 10 (particulate matter – tổng các hạt bụi lơ lửng có đường kính khí động học nhỏ hơn hoặc bằng 10 μm),

 Bụi PM 2,5 (tổng các hạt bụi lơ lửng có đường kính khí động học nhỏ hơn hoặc bằng 2,5 μm),

 Chì (Pb) – Không dùng để tính AQI trong 1459/QĐ-TCMT

Bảng 2.1 Giá trị giới hạn các thông số cơ bản trong không khí (μg/m3)

STT Thông số Trung bình 1 giờ

5 Tổng bụi lơ lửng (TSP)

Trung bình x giờ: giá trị trung bình của các giá trị đo đƣợc trong khoảng thời gian x giờ liên tục

Sulfur dioxide là một loại khí độc hại phát sinh chủ yếu do tiêu thụ nhiên liệu hóa thạch hoặc bởi các hoạt động công nghiệp Bệnh nhân với các vấn đề về phổi, người già và trẻ nhỏ có nguy cơ bị tổn thương cao hơn khi tiếp xúc với loại khí này Các tác hại về

14 sức khỏe khi tiếp xúc có thể kể đến bao gồm viêm phổi , gây kích ứng đường hô hấp, tăng tiết dịch nhầy, co thắt phế quản Ngoài ra các trường hợp bỏng rát da, tổn thương mắt cũng đƣợc ghi nhận [8] Các hiện tƣợng thiên nhiên bất lợi nhƣ mƣa axit, giảm độ pH của đất cũng có mối liên hệ với loại khí này [9]

Carbon monoxide là loại khí không màu, không vị phát sinh do sự đốt cháy không hoàn toàn các nhiên liệu hóa thạch Các triệu chứng khi bị nhiễm độc do hít phải carbon monoxide thường gặp là đau đầu, chóng mặt, buồn nôn và nặng hơn là mất ý thức, hôn mê Ái lực của hemoglobin trong máu với carbon monoxide cao hơn so với ái lực với oxygen, dẫn đến việc thiếu oxygen trong máu Tình trạng nhiễm độc có thể diễn tiến nặng khi tiếp xúc với khí này ở nồng độ cao trong thời gian dài [10] Carbon monoxide cũng là loại khí góp phần gây hiệu ứng nhà kính, hiện tƣợng nóng lên của trái đất và biến đổi khí hậu [9]

Nitrogen oxide là loại khí phát sinh do việc đốt cháy các nhiên liệu hóa thạch và thường có mối liên hệ với các hoạt động giao thông [11] Chúng gây kích ứng đường hô hấp, ho, khó thở và đau rát mắt Nitrogen oxide cũng gây ảnh hưởng đến khứu giác và thậm chí gây các bệnh lý cấp tính ở phổi nếu tiếp xúc ở thời gian dài Năng suất và sản lƣợng cây trồng cũng đƣợc ghi nhận giảm sút khi nitrogen oxide hiện diện ở nồng độ cao trong không khí [8]

Khí ozone được tạo thành từ các khí oxygen dưới xúc tác của sự phóng điện trong bầu khí quyển trái đất Nó là một chất oxy hóa cực mạnh và do đó có khả năng kích thích quá trình oxy hóa gây tổn thương tế bào Tiếp xúc với khí ozone có thể gây khó thở, viêm đường hô hấp, làm tình trạng của bệnh nhân hen suyễn thêm trầm trọng Vì ozone ít tan trong nước nên chúng có thể đi sâu vào trong phổi và gây hại cho sức khỏe Khí ozone cũng là một trong những khí gây hiệu ứng nhà kính và góp phần vào sự ấm lên toàn cầu của trái đất [12]

Bụi lơ lửng là hỗn hợp các hạt lỏng hoặc rắn có kích thước nhỏ có nguồn phát sinh tự nhiên (cháy rừng, núi lửa, ) hoặc các hoạt động của con người (tiêu thụ nguyên liệu hóa thạch, các hoạt động công nghiệp và nông nghiệp ) Chúng cũng có thể hình thành do các phản ứng hóa học của các chất ô nhiễm dạng khí Một số loại bụi lơ lửng có thể kể đến như: khói nhà máy, khói thuốc, bụi xi măng, bụi đường, vi khuẩn, bào tử nấm mốc, Các hạt có đường kính 10 μm hoặc nhỏ hơn được gọi là PM 10 , trong khi các hạt có đường kính 5 μm hoặc nhỏ hơn được gọi là PM 5 Các hạt bụi lơ lửng có kích thước càng nhỏ

15 càng dễ đi sâu vào đường hô hấp thậm chí hệ tuần hoàn và gây các ảnh hưởng lâu dài đến sức khỏe [5]

Chì là một loại kim loại nặng có sẵn trong tự nhiên Chúng đƣợc sử dụng trong pin, xăng động cơ, mỹ phẩm hay trong nhiều vật dụng khác nhƣ bột màu, sơn, men gốm Nguồn gây ô nhiễm chì trong không khí chủ yếu đến từ sử dụng các nhiên liệu đốt cháy có pha chì Phơi nhiễm với chì có thể xảy ra do hít, nuốt phải hoặc hấp thu qua da, với trẻ em là đối tượng rất dễ bị tổn thương sức khỏe bởi chất này Ngộ độc chì gây ảnh hưởng đến hệ thần kinh, giảm thông minh, trí nhớ giảm sút, thậm chí gây hôn mê, co giật [13]

2.1.2 Tiêu chí đánh giá chất lƣợng không khí

Chỉ số chất lƣợng không khí Việt Nam (VN_AQI – Vietnam Air quality index) là chỉ số đƣợc tính toán từ các thông số quan trắc các chất ô nhiễm trong không khí ở Việt Nam Chúng cho biết tình trạng chất lượng không khí, mức độ ảnh hưởng đến sức khỏe con người và được tính theo thang điểm tương ứng dựa theo Quyết định 1459 của Tổng cục môi trường Việt Nam [14] Chỉ số VN_AQI được biểu diễn với các màu sắc để cảnh báo chất lượng không khí như trình bày ở Bảng 1.2 Mức độ ảnh hưởng tới sức khỏe con người và các khuyến nghị tương ứng được trình bày ở Bảng 1.3

Bảng 2.2 Khoảng giá trị VN_AQI và đánh giá chất lƣợng không khí

Khoảng giá trị AQI Chất lƣợng không khí Màu sắc Mã màu RBG

Bảng 2.3 Các mức VN_AQI tương ứng ảnh hưởng đến sức khỏe và khuyến nghị

AQI Ảnh hưởng và khuyến nghị Người bình thường Người nhạy cảm

0 – 50 - Không ảnh hưởng sức khỏe

- Tự do thực hiện hoạt động ngoài trời

- Không ảnh hưởng sức khỏe

- Chất lƣợng không khí chấp nhận đƣợc

- Chịu tác động nhất định

- Có thể hoạt động ngoài trời nhƣng nên theo dõi các triệu chứng ho, khó thở

- Cân nhắc giảm hoạt động ngoài trời nếu có dấu hiệu đau mắt, ho, đau họng

- Gặp phải vấn đề về sức khỏe

- Nên giảm các hoạt động mạnh và giảm thời gian hoạt động ngoài trời

- Bắt đầu có ảnh hưởng đến sức khỏe

- Nên giảm các hoạt động mạnh khi ở ngoài trời

- Gặp phải vấn đề về sức khỏe nghiêm trọng hơn

- Nên ở trong nhà và giảm hoạt động mạnh

- Ảnh hưởng đến sức khỏe nghiêm trọng hơn

-Hạn chế tối đa các hoạt động ngoài trời

- Ảnh hưởng đến sức khỏe nghiêm trọng hơn

- Nên ở trong nhà và giảm hoạt động mạnh

- Cảnh báo khẩn cấp, ảnh hưởng sức khỏe nghiêm trọng

- Nên ở trong nhà, đóng cửa ra vào và cửa sổ

- Cảnh báo khẩn cấp, ảnh hưởng sức khỏe nghiêm trọng

- Nên ở trong nhà, đóng cửa ra vào và cửa sổ

2.1.2.1 Giá trị - với thông số PM 2,5 và PM 10

AQI h là giá trị AQI đại diện cho chất lƣợng không khí trong 1 giờ Giá trị Nowcast là giá trị trung bình có trọng số đƣợc tính toán từ 12 giá trị trung bình 1 giờ gần nhất so với thời điểm tính toán, dùng cho thông số PM 2,5 và PM 10

Gọi c i là giá trị quan trắc trung bình một giờ tại thời điểm cách i-1 giờ so với hiện tại, và

Ta tính giá trị trọng số:

Nếu chỉ có một trong ba giá trị (c 1 , c 2 , c 3 ) có dữ liệu thì xem nhƣ không có dữ liệu và không tính đƣợc giá trị Nowcast Nếu ci không có giá trị thì lấy w i-1 = 0

2.1.2.2 Giá trị – với thông số quan trắc khác

Với các thông số SO 2 , CO, NO 2 , O 3 thì đƣợc tính nhƣ sau:

Với các thông số PM 2,5 , PM 10 thì đƣợc tính nhƣ sau:

Với giá trị tổng hợp (là giá trị lớn nhất của các AQI trung bình theo giờ của các thông số, đƣợc làm tròn thành số nguyên) thì đƣợc tính nhƣ sau:

: Giá trị AQI đại diện cho chất lƣợng không khí của thông số x trong

BP i : Nồng độ giới hạn dưới của giá trị thông số quan trắc được quy định tại Bảng 2.4 tương ứng với mức i

BP i+1 : Nồng độ giới hạn trên của giá trị thông số quan trắc đƣợc quy định tại Bảng 2.4 tương ứng với mức i+1

I i : Giá trị AQI ở mức i đã cho trong bảng tương ứng với giá trị BP i

I i+1 : Giá trị AQI ở mức i đã cho trong bảng tương ứng với giá trị BP i+1

C x : Giá trị quan trắc trung bình 1 giờ của thông số x

Bảng 2.4 Các giá trị BP i và I i của các chất ô nhiễm không khí i I i

Giá trị BPi quy định đối với từng thông số (μg/m 3 )

O 3 (1h) O 3 (8h) CO SO 2 NO 2 PM 10 PM 2,5

8 500 ≥1.200 - ≥150.000 ≥2.630 ≥3.850 ≥600 ≥500 Ghi chú: Tính toán AQI h của O 3 sử dụng giá trị BP i cho O 3 (1h) Tính toán AQI d của O 3 sử dụng giá trị BPi cho O 3 (1h) và O 3 (8h)

2.1.2.3 Giá trị ngày a) Một số khái niệm:

AQI d là giá trị AQI đại diện cho chất lƣợng không khí trong 1 ngày Giá trị AQI lớn nhất của các thông số đƣợc sử dụng làm giá trị AQI ngày tổng hợp Giá trị AQI ngày đƣợc tính toán dựa trên các giá trị nhƣ sau:

 Thông số PM2.5 và PM10: giá trị trung bình 24 giờ

 Thông số SO2, NO2 và CO: giá trị trung bình 1 giờ lớn nhất trong ngày

 Thông số O3: giá trị trung bình 1 giờ lớn nhất trong ngày và giá trị trung bình 8 giờ lớn nhất trong ngày

 Giá trị trung bình 1 giờ lớn nhất trong ngày: là giá trị lớn nhất trong số các giá trị quan trắc trung bình 1 giờ

 Giá trị quan trắc trung bình 8 giờ lớn nhất trong ngày: là giá trị lớn nhất trong số các giá trị trung bình 8 giờ

 Giá trị trung bình 8 giờ là trung bình cộng các giá trị trung bình 1 giờ trong 8 giờ liên tiếp

 Giá trị trung bình 24 giờ: trung bình cộng các giá trị quan trắc trung bình 1 giờ trong 1 ngày (từ 01:00 giờ đến 00:00 hôm sau) b) Tính giá trị (giá trị AQI theo ngày cho từng thông số quan trắc):

Với các thông số SO 2 , CO, NO 2 , O 3 , PM 10 , PM 2,5 thì đƣợc tính nhƣ sau:

Với giá trị tổng hợp (là giá trị lớn nhất của các AQI trung bình theo ngày của các thông số, đƣợc làm tròn thành số nguyên) thì đƣợc tính nhƣ sau:

: Giá trị AQI đại diện cho chất lƣợng không khí của thông số x theo ngày

BP i : Nồng độ giới hạn dưới của giá trị thông số quan trắc được quy định tại

Bảng 2.4 tương ứng với mức i

BP i+1 : Nồng độ giới hạn trên của giá trị thông số quan trắc đƣợc quy định tại

Bảng 2.4 tương ứng với mức i+1

I i : Giá trị AQI ở mức i đã cho trong bảng tương ứng với giá trị BP i

I i+1 : Giá trị AQI ở mức i đã cho trong bảng tương ứng với giá trị BP i+1

C x : Đƣợc quy định theo từng loại thông số quan trắc nhƣ sau:

PM 2.5 , PM 10 : C x là giá trị trung bình 24 giờ,

SO 2 , NO 2 , CO : C x là giá trị trung bình 1 giờ lớn nhất trong ngày

O 3 : C x là giá trị lớn nhất trong giá trị trung bình 1 giờ lớn nhất trong ngày và giá trị trung bình 8 giờ lớn nhất trong ngày

Chuỗi thời gian và một số tính chất của chuỗi thời gian

Chuỗi thời gian là chuỗi các điểm dữ liệu đƣợc đo theo từng khoảng thời gian liền nhau và có khoảng cách điều nhau giữa những quan sát liên tiếp Nhiều dữ liệu là dạng chuỗi thời gian thường bắt gặp trong cuộc sống như giá chứng khoán hàng ngày, tiền điện phải trả hàng tháng, mực nước thủy triều theo phút, giá trị chỉ số chất lượng không khí theo giờ

Chuỗi thời gian có ưu điểm lớn khi có thể lưu trữ được giá trị của các quan sát theo thời gian Thế giới xung quanh luôn vận động, các sự vật, hiện tượng thường không ở trạng thái tĩnh mà thường xuyên thay đổi theo thời gian, vì vậy dữ liệu chuỗi thời gian có thể được áp dụng trong rất nhiều lĩnh vực Một số lĩnh vực dùng chuỗi thời gian để lưu trữ và xử lý có thể kể đến nhƣ: lĩnh vực thống kê, kinh tế lƣợng, dự báo động đất, dự báo tài chính, kỹ thuật điều khiển, kỹ thuật truyền thông, xử lý tín hiệu Chính vì vậy, phân tích và tìm hiểu đƣợc các đặc tính của dữ liệu chuỗi thời gian đóng một vai trò rất quan trọng trong cuộc sống

2.2.2 Tính chất của chuỗi thời gian

Giống nhƣ nhiều loại dữ liệu khác, dữ liệu chuỗi thời gian cũng có những tính chất đặc trƣng riêng biệt Một số khái niệm liên quan đến chuỗi thời gian có thể kể đến đƣợc liệt kê lần lượt bên dưới

- Lag: lag-n của chuỗi thời gian là chuỗi thời gian quá khứ cách thời điểm đang xét n đơn vị thời gian hay nói cách khác, lag-n thu đƣợc bằng cách dịch chuyển n đơn vị thời gian về quá khứ

- Tính xu hướng: là yếu tố thể hiện xu hướng thay đổi của dữ liệu theo thời gian, đó có thể là xu hướng tăng dần hay giảm dần Xu hướng của chuỗi dữ liệu có thể là tuyến tính hay phi tuyến Đây là đặc điểm thường thấy trong rất nhiều dữ liệu chuỗi thời gian Tính xu hướng ảnh hưởng đáng kể tới việc đưa ra nhận định về mối quan hệ tương quan giữa các chuỗi số Do đó khi xây dựng các mô hình chuỗi thời gian chúng ta cần xem xét yếu tố xu hướng ở các giá trị để có được các dự báo hợp lý

- Tính chu kỳ: là quy luật có tính chất lặp lại của dữ liệu theo thời gian Giá trị chu kỳ luôn là một giá trị cố định Sự thay đổi của nhiệt độ theo giờ trong ngày, sự thay đổi của mực nước thủy triều theo ngày trong tháng là các ví dụ cho tính chu kỳ của chuỗi dữ liệu Việc tìm ra đƣợc tính chu kỳ trong là một công việc quan trọng và cho phép dự báo các giá trị tương lai chính xác hơn

Một chuỗi thời gian dừng là chuỗi thời gian có trung bình và phương sai của nó không đổi qua thời gian, giá trị hiệp phương sai (covariance) giữa hai giai đoạn chỉ phụ thuộc vào khoảng cách giữa hai giai đoạn ấy chứ không phụ thuộc vào thời gian thực sự tại đó hiệp phương sai được tính

Do vậy, chuỗi thời gian dừng không bao gồm các yếu tố xu thế và có các giá trị xoay quanh giá trị trung bình của chuỗi Có 2 cách để kiểm tra tính dừng của chuỗi là lấy sai phân (bậc 1 hoặc bậc 2) hoặc kiểm định nghiệm đơn vị (unit root test) Việc xác định chuỗi đang xét có là chuỗi dừng hay không khá quan trọng Phân tích với dữ liệu là chuỗi dừng giúp khái quát hóa kết quả phân tích cho các giai đoạn khác

Chuỗi thời gian không dừng là chuỗi dữ liệu thời gian vi phạm một hoặc một số các nguyên tắc trên Trong thực tế, có rất nhiều chuỗi thời gian là chuỗi không dừng Để chuyển đổi chuỗi không dừng thành chuỗi dừng, ta có thể lấy sai phân một hoặc nhiều lần giá trị chuỗi thời gian gốc

2.2.4 Tự tương quan và tự tương quan bán phần

Tự tương quan là sự tương quan giữa các thành phần của chuỗi các quan sát được sắp xếp theo thứ tự thời gian (trong các số liệu chuỗi thời gian) hoặc không gian (trong số liệu chéo) Hay nói cách khác, sự tự tương quan xảy ra khi giá trị tại thời điểm y t có sự tương quan với giá trị tại các lag trước đó của chính nó

Hiện tượng tự tương quan thường xảy ra ở các chuỗi thời gian Để xác định bậc tự tương quan, ta có thể sử dụng biểu đồ ACF (autocorrelation function)

Tự tương quan bán phần giống như tự tương quan nhưng chỉ xét hai biến số (y t và y lag ) trong khi ảnh hưởng của các biến số khác không thay đổi (không xét mức độ ảnh hưởng của các biến số nằm giữa y t và y lag ): y t ~ y lag

2.2.5 Nhiễu trắng và bước ngẫu nhiên

Một chuỗi thời gian Y đƣợc gọi là nhiễu trắng nếu nó thỏa mãn: trung bình bằng 0, các giá trị với các độ trễ khác nhau không có hiện tượng tự tương quan và có sai số phương sai không đổi Do trung bình và phương sai không đổi nên chúng ta gọi phân phối của nhiễu trắng là phân phối xác định và có dạng:

21 Nhiễu trắng là một thành phần ngẫu nhiên thể hiện cho yếu tố không thể dự báo của mô hình do nó không có tính quy luật

Bước ngẫu nhiên là chuỗi thời gian có giá trị phía sau bằng chính giá trị phía trước cộng với nhiễu trắng hay nói cách khác, chuỗi bước ngẫu nhiên là chuỗi thỏa mãn công thức: y t = y t-1 + noise

Nếu chuỗi thời gian đang xét là chuỗi bước ngẫu nhiên, chúng ta cũng không thể xây dựng đƣợc mô hình dự đoán [15].

Đánh giá chất lượng không khí bằng phương pháp thống kê

2.3.1 Mô hình tự hồi quy

Mô hình tự hồi quy AR(p) (autoregressive): là một mô hình dự báo giá trị bằng cách hồi quy trên chính số liệu ở những chu kỳ trước Mô hình được biểu diễn qua công thức:

Trong đó: y(t): quan sát dừng hiện tại y(t-1), y(t-2), , y(t-p): quan sát dừng tại các thời điểm (t-1), (t-2), , (t-p) a 0 , a 1 , , a p : các tham số phân tích hồi quy e(t): sai số dự báo ngẫu nhiên của giai đoạn hiện tại, với giá trị trung bình đƣợc mong đợi bằng 0

Hình 2.1 Mô hình tự hồi quy 2.3.2 Mô hình ARIMA

Mô hình ARIMA (Tự hồi quy tích hợp trung bình trƣợt - Autoregressive Integrated Moving Average) đƣợc 2 hai nhà thống kê Box và Jenkins giới thiệu vào năm 1974 Đây là mô hình tích hợp các quá trình: quá trình tự hồi quy bậc p – AR(p) và quá trình trung bình trƣợt bậc q – MA(q), thể hiện trên chuỗi dữ liệu không dừng, đã đƣợc lấy sai phân (với d chỉ mức độ sai phân)

Giá trị thực Giá trị dự đoán

Mô hình trung bình trƣợt MA(q) (Moving average): là mô hình dự báo giá trị hiện tại bằng giá trị trung bình có trọng số của những sai số gần nhất Mô hình đƣợc biểu diễn qua công thức:

Trong đó: y(t): quan sát dừng hiện tại e(t): sai số dự báo ngẫu nhiên, với giá trị trung bình đƣợc mong đợi bằng 0 e(t-1), e(t-2), , e(t-q): sai số dự báo quá khứ tại các thời điểm (t-1), (t-2), , (t-q) b 0 , b 1 , , b q : giá trị trung bình của y và các hệ số bình quân di động

Chuỗi dừng: chuỗi thời gian được xem là dừng nếu trung bình và phương sai của nó không đổi theo thời gian Sai phân chỉ sự khác biệt giữa giá trị hiện tại và giá trị trước đó Phân tích sai phân nhằm ổn định giá trị trung bình của chuỗi dữ liệu, giúp chuyển đổi chuỗi thành chuỗi dừng

Ta có: sai phân lần 1: z(t) = y(t) – y(t-1), sai phân lần 2: h(t)=z(t)-z(t-1)

Các bước phát triển mô hình ARIMA gồm các bước chung: xác định mô hình, ước lƣợng tham số, kiểm tra độ chính xác và dự báo

ARIMA là một phương pháp mạnh để xây dựng các dự báo chính xác , tuy nhiên mô hình này cần số lượng dữ liệu ban đầu đủ lớn, quá trình tính toán thường mất nhiều thời gian và chi phí

Vì ARIMA là một mô hình dự báo khá phổ biến, việc áp dụng mô hình này trên các tập dữ liệu thời gian khá thường xuyên Trong các nghiên cứu xây dựng mô hình dự báo chất lượng không khí, phương pháp này cũng thường được sử dụng đến [16, 17]

2.3.3 Mô hình làm mƣợt lũy thừa

Mô hình đơn giản nhất khi dự báo chuỗi thời gian là mô hình sử dụng giá trị phía trước để dự báo các giá trị phía sau: y t+1 = y t

Vì sử dụng giá trị gần nhất làm giá trị dự báo nên kết quả từ mô hình đơn giản không sử dụng được giá trị tại các lag trước đó Mô hình trung bình cho phép khắc phục vấn đề này khi các giá trị quan sát phía trước lẫn hiện tại đều được sử dụng:

Tuy vậy, trong mô hình trung bình, các giá trị trước đều có cùng trọng số, do vậy không phù hợp với thực tiễn Mô hình làm mƣợt đơn giản (SES - Simple exponential smoothing) cân bằng vấn đề trên khi đánh trọng số khác nhau cho các giá trị trước đó:

Hoặc có thể biểu diễn lại mô hình SES ở dạng thành phần nhƣ sau: y t+1 = ℓ t

Mô hình SES chỉ thích hợp để dự báo dữ liệu không có tính xu hướng hoặc tính chu kỳ vì giá trị dự báo là một đường tuyến tính Do đó nhà khoa học Holt phát triển phương pháp cho phép mô hình có thể dự báo cho chuỗi có xu hướng, mô hình Holt có dạng: y t+h =ℓ t +hb t

Hai thành phần cần xác định trong mô hình Holt là chỉ số α và chỉ số β, trong đó chỉ số α thể hiện mức độ ảnh hưởng của các giá trị trước, chỉ số β thể hiện mức độ ảnh hưởng của xu hướng Để mô hình có thể dự đoán các giá trị có cả tính xu hướng và chu kỳ, nhà khoa học Winters đã cải tiến mô hình Holt bằng cách bổ sung thêm mức độ ảnh hưởng của chu kỳ vào mô hình bằng chỉ số γ Mô hình Holt-Winters theo cấp cộng có dạng: y t+h = ℓ t +hb t +s t+h−m(k+1)

ℓt = α(y t −st−m)+(1−α)(ℓt−1+b t−1 ) b t = β(ℓ t −ℓt−1)+(1−β)bt−1 s t = γ(y t −ℓt−1−bt−1)+(1−γ)st−m trong đó, m biểu thị tính chu kỳ và k là phần nguyên trong phép chia (h-1)/m

Mô hình Holt-Winters theo cấp số nhân có dạng: y t+h = (ℓ t +hb t )st+h−m(k+1)

Đánh giá chất lƣợng không khí bằng học máy

2.4.1 Mạng nơ ron nhân tạo (Artificial Neural Network - ANN):

Mạng nơ ron nhân tạo là một mô hình lấy ý tưởng từ sự hoạt động của mạng nơ ron thần kinh Một mạng nơ ron thường có 3 lớp: Lớp vào, lớp ẩn và lớp ra Mỗi lớp có thể có 1 hoặc nhiều nơ ron đơn lẻ gọi là các perceptron

Mỗi perceptron nhận một hoặc nhiều thông tin đầu vào và cho ra một kết quả duy nhất Các thông tin đầu vào của perceptron phía sau nhận tín hiệu từ perceptron phía trước với các trọng số tương ứng Thông tin đầu ra của perceptron sẽ được tính thông qua một hàm kích hoạt (thường là các hàm phi tuyến)

Bảng 2.5 Một số hàm kích hoạt phi tuyến thường dùng

Tên hàm Công thức Đồ thị

25 a) Phân loại: hiện nay có nhiều mô hình mạng nơ ron phục vụ cho nhiều mục tiêu khác nhau

Dựa theo số lớp trong mạng:

- Mạng một lớp: mạng nơ ron chỉ có một lớp, các perceptron nhận tín hiệu đầu vào và cho ra kết quả cuối mà không thông qua các lớp perceptron nào khác

- Mạng nhiều lớp: có lớp đầu vào và lớp đầu ra riêng biệt Nhiều mô hình còn có các lớp perceptron nằm giữa 2 lớp đầu vào và lớp đầu ra, hay còn gọi là lớp ẩn

Dựa theo đường truyền tín hiệu:

Mạng truyền thẳng: là mạng nơ ron nhiều lớp có đường truyền tín hiệu từ lớp này sang lớp khác diễn ra theo 1 hướng

Hình 2.3 Mạng nơ ron truyền thẳng nhiều lớp

- Mạng có phản hồi: là mạng nơ ron nhiều lớp có đường truyền tín hiệu từ lớp này sang lớp khác diễn ra theo 2 hướng, đầu ra của phần tử lớp sau có thể lan truyền ngược tới đầu vào của phần tử ở lớp trước nó b) Luật học: hai vấn đề cần học với mỗi mạng nơ ron là học tham số (parameter learning) và học cấu trúc (structure learning)

- Học tham số: thay đổi hay cập nhật trọng số trong các liên kết giữa các perceptron

- Học cấu trúc: thay đổi cấu trúc mạng nơ ron bao gồm số lớp, số phần tử perceptron trong mỗi lớp, cách liên kết giữa các perceptron

Phương pháp học của mạng nơ ron có thể chia ra làm 3 loại:

- Học có giám sát (supervised learning): Các cặp dữ liệu đầu vào và đầu ra đƣợc cho sẵn và cung cấp cho mô hình Kết quả sai khác giữa dữ liệu đầu ra của mô hình và dữ liệu đầu ra cho sẵn đƣợc tính toán để thay đổi giá trị của các trong số trong mạng, sao cho sự sai khác này là nhỏ nhất

- Học không giám sát (unsupervised learning): Chỉ có dữ liệu đầu vào nhƣng không có dữ liệu đầu ra để so sánh với kết quả sau khi học Mô hình phải tự khám phá, phân tích và thể hiện những cấu trúc có ích ẩn bên trong bộ dữ liệu đƣợc nạp vào X1

Lớp vào Lớp ẩn Lớp ra

- Học củng cố (reinforcement learning): Dữ liệu đầu vào và một số tính chất giới hạn của đầu ra đƣợc cung cấp cho mô hình Các tính chất giới hạn này không cho biết cụ thể giá trị đầu ra mà chỉ mang tính đánh giá khi so với kết quả từ mô hình, ví dụ: giá trị cho ra từ mô hình quá cao, giá trị cho ra từ mô hình chỉ chính xác 50%

2.4.2 Mạng nơ ron hồi quy (Recurrent Neural Network - RNN)

Mạng RNN là một lớp của mạng ANN, trong đó các perceptron có khả năng “nhớ” các thông tin đã tính toán trước đó để làm đầu vào cho các lần tính toán sau Việc ghi nhớ các thông tin này giúp mạng RNN có khả năng cho kết quả tốt hơn ANN truyền thống với các tập dữ liệu mà giá trị sau phụ thuộc vào kết quả của giá trị trước, ví dụ như giá cổ phiếu, ngữ cảnh văn bản

2.4.3 Mạng nơ ron LSTM (Long Short Term Memory)

Việc nhớ kết quả trong RNN có đặc điểm: giá trị nhớ bị “pha loãng” qua các lần lặp tiếp theo Để khắc phục việc này, một biến thể của RNN là Mạng nơ ron hồi quy có bộ nhớ dài – ngắn hạn ra đời Trong mạng LSTM , các perceptron có khả năng nhớ thông tin trong suốt thời gian dài, giúp chúng là kỹ thuật hữu ích để áp dụng tính toán cho các tập mẫu mà giá trị của các dữ liệu đầu tiên có ảnh hưởng lớn đến giá trị các dữ liệu sau nó LSTM đƣợc áp dụng trên nhiều lĩnh vực, trong đó nhiều nghiên cứu khác nhau đã sử dụng LSTM cho việc đánh giá chất lƣợng không khí [18, 19]

Hình 2.4 Mạng RNN và mạng LSTM một lớp

Có 4 cổng tại các perceptron trong mô hình LSTM nhằm kiểm soát các dữ liệu đã nhớ trước đó:

- Cổng cập nhật: xác định tầm quan trọng của dữ liệu cũ so với hiện tại

- Cổng liên quan: xác định có bỏ qua thông tin trước hay không

- Cổng quên: xác định có xóa dữ liệu trước hay không

- Cổng ra: xác định trọng số cho dữ liệu trước

LSTM có nhiều ƣu điểm nhƣ: cho phép tính toán với các thông tin cũ, trọng số đƣợc chia sẻ trong suốt thời gian tính toán Tuy nhiên LSTM cũng có nhiều hạn chế nhƣ tính toán chậm, khó duy trì các thông tin với khoảng thời gian quá dài, khó xem xét dữ liệu đầu vào

2.4.4 Một số hàm tối ƣu trong học máy

Thuật toán tối ƣu là cơ sở để xây dựng mô hình neural network với mục đích học đƣợc các đặc tính của dữ liệu đầu vào, từ đó có thể tìm các giá trị trọng số (weight) và sai lệch (bias) phù hợp để tối ƣu hóa mô hình Việc tìm các giá trị này cần đƣợc thực hiện một cách có hệ thống Do vậy, các thuật toán tối ƣu đƣợc nghiên cứu để phục vụ mục đích trên Một số thuật toán phổ biến được trình bày như bên dưới:

Các bài toán tối ưu thường tìm giá trị nhỏ nhất của một hàm số nào đó, mà hàm số đạt giá trị nhỏ nhất khi đạo hàm bằng 0 Tuy nhiên, không phải lúc nào cũng lấy đạo hàm hàm số đƣợc Đối với các hàm số nhiều biến thì đạo hàm rất phức tạp, thậm chí là bất khả thi Nên thay vào đó người ta tìm điểm gần với điểm cực tiểu nhất và xem đó là nghiệm bài toán Thuật toán Gradient Descent (hay giảm dần độ dốc) ra đời, với hướng tiếp cận là chọn một nghiệm ngẫu nhiên và cứ sau mỗi vòng lặp (hay epoch) thì cho nó tiến dần đến điểm cần tìm: x new = x old – learningRate * gradient(x) Trong đó: x new : tọa độ mới x old : tọa độ cũ learningRate: tốc độ học gradient: đạo hàm của hàm f Thuật toán Gradient Descent cơ bản, dễ hiểu Thuật toán đã giải quyết đƣợc vấn đề tối ƣu mô hình mạng nơ ron bằng cách cập nhật trọng số sau mỗi vòng lặp Tuy nhiên, thuật toán Gradient Descent còn nhiều hạn chế nhƣ phụ thuộc vào nghiệm khởi tạo ban đầu và learning rate; tốc độ học quá lớn sẽ khiến cho thuật toán không hội tụ, quanh quẩn bên đích vì bước nhảy quá lớn; hoặc tốc độ học nhỏ ảnh hưởng đến tốc độ training

Stochastic là một biến thể của Gradient Descent Thay vì sau mỗi epoch chúng ta sẽ cập nhật trọng số một lần thì trong mỗi epoch có N điểm dữ liệu chúng ta sẽ cập nhật trọng số N lần Nhìn vào một mặt, SGD sẽ làm giảm đi tốc độ của một epoch Tuy nhiên nhìn theo một hướng khác, SGD sẽ hội tụ rất nhanh chỉ sau vài epoch Công thức SGD cũng tương tự như GD nhưng thực hiện trên từng điểm dữ liệu

Thuật toán giải quyết đƣợc đối với cơ sở dữ liệu lớn mà GD không làm đƣợc (không phải tính lại đạo hàm trên toàn bộ dữ liệu) Thuật toán tối ƣu này hiện nay vẫn hay đƣợc sử dụng Tuy nhiên, thuật toán vẫn chƣa giải quyết đƣợc 2 nhƣợc điểm lớn của gradient descent là learning rate và điểm dữ liệu ban đầu

Các công trình liên quan

Để đánh giá chất lƣợng không khí, các trạm quan trắc đƣợc xây dựng để thu thập dữ liệu thô và dùng cho các hoạt động nghiên cứu Theo cách quan sát thông thường, dữ liệu của mốc quan sát trước có thể làm tham chiếu để dự báo cho mốc quan sát sau Với các cách tiếp cận toán học, việc này có thể mở rộng ra nhiều mốc dự báo tương lai xa hơn (thay vì chỉ một mốc điểm thời gian) Ngày nay, để dự báo chất lượng không khí thường có 3 nhóm phương pháp chính: Dựa vào mô hình khuếch tán vật chất, dựa vào thống kê và dựa vào học máy

Hình 2.5 Các phương pháp đánh giá chất lượng không khí

Dựa vào khuếch tán của vật chất

Dựa vào học máy Định tính Định lượng

 Dựa vào khuếch tán của vật chất: Đây là phương pháp được xây dựng dựa trên các quá trình chuyển động, khuếch tán, luồng dịch chuyển và tương tác của các chất gây ô nhiễm không khí trong bầu khí quyển Có nhiều thông số khác nhau đƣợc tính toán trong mô hình, có thể kể đến nhƣ: các thông số về nhiệt độ (nhiệt độ mặt đất và nhiệt độ không khí), các thông số về gió (vận tốc và hướng gió), độ ẩm không khí, áp suất khí quyển, mây, lượng mưa, sự chuyển động của dòng khí (xáo trộn theo phương ngang, dọc), các thông số về nồng độ của các chất trong không khí [20] Đặc điểm chung của mô hình này là chia bầu khí quyển thành các ô lưới nhỏ, sau đó tính giá trị dự báo trung bình tại từng ô lưới này bằng cách giải tập hợp các phương trình vi phân từng phần, dựa trên ba định luật cơ bản: định luật bảo toàn khối lƣợng, định luật bảo toàn động lƣợng và định luật bảo toàn năng lƣợng nhiệt [20] Để kết quả thêm chính xác, mỗi ô lưới được chia thành nhiều lớp nhỏ hơn (theo chiều dọc lẫn chiều ngang) và tính toán các giá trị riêng cho mỗi lớp này

- Saide và cộng sự sử dụng mô hình WRF-Chem (Weather Research and Forecasting model coupled with Chemistry) để dự báo chất lƣợng không khí theo giờ tại Santiago (Chile) vào mùa đông năm 2008 [21] Trong mô hình này, tác giả sử dụng đầu vào là chỉ số nồng độ carbon monoxide, kết quả dự báo đƣợc chuyển đổi sang chỉ số PM 10 và PM 2.5 bằng biến đổi hồi quy tuyến tính (với độ tương quan giữa CO và PM 10 /PM 2.5 lớn hơn 0.95) Mô hình sử dụng trong nghiên cứu có điều chỉnh một số tham số để cho kết quả tốt nhất như: không giới hạn ngưỡng khuếch tán theo lưới dọc và giả định không có sự khuếch tán theo chiều ngang trong mỗi lớp của lưới Kết quả cho thấy mô hình sử dụng chỉ số cacbon monoxit để dự báo cho kết quả chính xác cao và ổn định

- Tại Việt Nam, một trong những nghiên cứu chất lƣợng không khí áp dụng mô hình WRF-Chem đầu tiên có thể kể đến là nghiên cứu của Do Thi Nhu Ngoc và cộng sự xuất bản vào năm 2021 [22] Trong nghiên cứu này, nhóm tác giả đã xây dựng thành công mô hình khí tƣợng vùng Bắc Bộ Việt Nam với các chỉ số nhƣ nhiệt độ, nồng độ

PM 10 /PM 2.5 theo giờ phù hợp với kết quả khảo sát thực tế, cho 2 khoảng thời gian vào tháng 01/2014 và tháng 07/2014 Kết quả cho thấy mô hình ghi nhận sự khác biệt về các chỉ số trên giữa 2 khoảng thời gian khảo sát Ngoài ra, nhóm tác giả cũng chỉ ra rằng có thể kết hợp thêm dữ liệu khí phát thải khi đốt nương rẫy (bên cạnh khí phát thải từ hoạt động giao thông) giúp cải thiện độ chính xác của mô hình (Hình 2.6)

Hình 2.6 Phân bố không gian nồng độ chất ô nhiễmxây dựng từ mô hình WRF a PM 10 ; b PM 2.5 tại Bắc Bộ Việt Nam, tháng 6/2014 [22]

Mô hình dựa vào sự khuếch tán của vật chất cho phép quan sát cặn kẽ quá trình động lực học và sự lan truyền các chất gây ô nhiễm Tuy nhiên, chúng cần khá nhiều dữ liệu thực tế để có thể xây dựng, tốn kém chi phí tính toán và cần các hiểu biết chuyên sâu về đặc tính của từng vật chất gây ô nhiễm Do vậy, việc áp dụng các mô hình theo phương pháp này còn gặp hạn chế nhất định và không đƣợc hiện thực trong phạm vi luận văn này

 Dựa vào thống kê: Đây là phương pháp sử dụng một cách tiếp cận khác để dự báo chất lượng không khí Trong cách tiếp cận này, số lƣợng lớn các quan sát của cùng một chỉ tiêu đƣợc thu thập để tổng hợp và thực hiện các phân tích thống kê Mô hình ARIMA là một đại diện phổ biến trong số những mô hình thuộc nhóm này Nhiều nghiên cứu trước đây đã áp dụng mô hình ARIMA trong dự báo chất lƣợng không khí và cho kết quả tốt [23] Nghiên cứu xuất bản năm 2006 của El Raey và cộng sự cho thấy các chỉ số p, d, q của mô hình ARIMA nằm trong khoảng 0 – 2 cho kết quả phù hợp nhất [24]

Năm 2018, Claudio Guarnaccia và cộng sự xuất bản nghiên cứu thực nghiệm tối ƣu 2 mô hình Seasonal ARIMA dựa theo giá trị AIC, cho chỉ tiêu nồng độ CO đo đạc tại Monterrey (Mexico) vào năm 2012 Trong nghiên cứu này, khoảng thời gian cho một chu kỳ được ấn định là 24 điểm mốc thời gian, tương ứng với số giờ trong một ngày Kết quả cho thấy: dữ liệu thu thập theo giờ có thể cho kết quả dự báo tin cậy cho 24 giờ tiếp theo, tuy nhiên các kết quả dự báo xa hơn có thể giảm đi độ chính xác [25] a b

32 Jasleen Kaur Sethi và cộng sự sử dụng mô hình Vector ARIMA (ARIMA đa biến) để dự báo tập hợp các chỉ số chất lƣợng không khí theo ngày (AQI, SO 2 , NO 2 , PM 2.5 , ) tại Gurugram (Ấn Độ) năm 2017 và so sánh với mô hình ARIMA truyền thống Kết quả cho thấy mô hình Vector ARIMA dự báo có kết quả sai lệch hơn nhiều so với phương pháp áp dụng dự báo bằng mô hình ARIMA cho từng chỉ tiêu riêng lẻ trên cả 2 tiêu chí đo độ sai lệch RMSE và MAE [26]

Ngoài ARIMA, mô hình Holt–Winters (thuộc họ mô hình làm mƣợt lũy thừa) cũng đƣợc sử dụng trong các dự báo chất lƣợng không khí, tuy có phần ít phổ biến hơn [27] Các đề tài sử dụng mô hình có thể kể đến nhƣ nghiên cứu của Luciana và cộng sự tiến hành tại Rio de Janeiro (Brasil) sử dụng dữ liệu PM 2.5 theo ngày [28], nghiên cứu của Lifeng Wu và cộng sự tiến hành tại Trung Quốc sử dụng chỉ số AQI theo tháng [29]

Có hai nhánh lớn khi áp dụng học máy trong dự báo chất lƣợng không khí: định tính và định lượng Với các phương pháp định tính, kết quả được phân loại thành các nhóm đã gắn nhãn khác nhau Một số nghiên cứu dự báo chất lƣợng không khí sử dụng mô hình định tính nhƣ nghiên cứu của Rubal và cộng sự sử dụng mô hình Random Forest dự báo PM 10 /PM 2.5 [30], nghiên cứu của Bingchun Liu và cộng sự sử dụng mô hình Support Vector Machine dự báo chỉ số AQI [31]

Với các phương pháp định lượng, kết quả trả về là giá trị số có thể so sánh được, trong đó các mô hình học máy sử dụng mạng nhân tạo là phổ biến nhất [23] Kết quả dự báo dựa trên các mô hình này có thể là một điểm hoặc nhiều điểm dữ liệu khác nhau Phạm vi luận văn này tập trung vào các phương pháp định lượng bằng học máy

Mạng nơ ron nhiều lớp đơn giản đƣợc sử khá nhiều trong các mô hình dự báo chất lƣợng không khí Năm 2019, Sheen và cộng sự tiến hành một phân tích tổng hợp (systematic review) các bài báo có chủ đề sử dụng mạng nơ ron nhân tạo trong dự báo chất lƣợng không khí ngoài trời, kết quả đã thu thập đƣợc 139 nghiên cứu khác nhau nói về chủ này đƣợc xuất bản từ tháng 01/2001 đến tháng 02/2019 từ các tạp chí khoa học có uy tín [32]

Kết quả bài phân tích có nhiều đặc điểm đáng chú ý: số lƣợng các nghiên cứu xuất bản sử dụng mạng nhân tạo để dự báo chất lƣợng không khí tăng dần sang các năm, với gần 50% số nghiên cứu xuất bản từ 2015 trở đi Khoảng thời gian lấy mẫu (time step) chủ yếu là theo giờ (49.6% số nghiên cứu), tiếp đến là theo ngày (36.0%) Khoảng thời gian dự báo của đa số các các nghiên cứu là 1 điểm thời gian (48.9% số nghiên cứu), tiếp theo là 24 điểm thời gian (18.0%) và 48 điểm thời gian (5.0%) Bài phân tích cũng cho thấy

33 mạng nơ ron nhiều lớp truyền thẳng là mạng đƣợc sử dụng nhiều nhất trong các bài báo, chiếm đến 56.1% các nghiên cứu (Hình 2.7) [32]

Hình 2.7 Tần suất các mạng nơ ron sử dụng trong dự báo chất lƣợng không khí

Dựa vào các công trình nghiên cứu đề cập ở trên, luận văn đề xuất một số tham số ban đầu trong việc xây dựng các mô hình: sử dụng bước chu kỳ là 24 điểm thời gian, tiến hành dự báo cho 24 và 48 điểm thời gian tiếp theo Mô hình nơ ron khởi đầu đƣợc sử dụng để đối chiếu là mạng nhân tạo nhiều lớp truyền thẳng

MÔ HÌNH DỰ BÁO CHẤT LƯỢNG KHÔNG KHÍ

Lƣợc đồ nghiên cứu

Hình 3.1 Lƣợc đồ nghiên cứu

Một server cá nhân (hiện thực trong luận văn) sẽ hoạt động liên tục để thu thập dữ liệu từ trang web cung cấp thông tin chất lƣợng không khí Dữ liệu này sau đó đƣợc trích xuất ra các tập tin để tiến hành bước làm sạch và kiểm định mức độ phù hợp của dữ liệu , bao gồm kiểm định chuỗi trắng và bước ngẫu nhiên (Hình 3.1) Dữ liệu gốc được phân chia thành hai tập hợp: tập huấn luyện và tập kiểm định khi thỏa các điều kiện cần thiết

Các mô hình dự báo đƣợc hiện thực bao gồm: Tự hồi quy, ARIMA, Holt-Winters, mạng ANN, mạng RNN và mạng LSTM Các mô hình đƣợc huấn luyện với tập dữ liệu train và kiểm định lại mức độ chính xác của mô hình bằng tập dữ liệu test Mô hình cho kết quả dự báo tốt nhất sẽ đƣợc cải tiến để sử dụng trên nhiều loại dữ liệu đầu vào Đ ạt Không đạt

Dữ liệu từ cảm biến hiển thị trên trang chủ

Thu thập dữ liệu và xuất thông tin dạng file CSV

Thực hiện các kiểm định

Train mô hình Ƣớc lƣợng mô hình Đánh giá kết quả

Mở rộng mô hình Phân chia dữ liệu

Thu thập dữ liệu

Dữ liệu sử dụng trong đề tài là các dữ liệu khách quan, đƣợc thu thập trực tiếp từ trang https://airnet.vn/ AirNet là mạng lưới quan trắc chất lượng không khí được phát triển bởi Trung tâm Công nghệ tích hợp liên ngành giám sát hiện trường, thuộc Trường Đại Học Công Nghệ, Đại học Quốc Gia Hà Nội AirNet sử dụng cảm biến chi phí thấp với mục tiêu chính nhằm nghiên cứu giải pháp sử dụng cảm biến chi phí thấp để cung cấp nguồn dữ liệu phụ trợ cho các nghiên cứu trong lĩnh vực môi trường, ngoài ra AirNet còn cung cấp thông tin về chất lƣợng không khí và ô nhiễm không khí cho cộng đồng nghiên cứu và người quan tâm

Tại trang chủ AirNet, có khoảng 26 trạm quan trắc khác nhau đặt rải rác thành phố

Hà Nội Tuy số trạm trên lý thuyết khá nhiều, nhƣng trên thực tế số trạm cho kết quả liên tục theo giờ khá thấp (Hình 3.2) Để dữ liệu thu thập đƣợc có độ phân giải tốt phục vụ cho việc xây dựng mô hình ở các bước sau, 5 trạm có kết quả tốt nhất được chọn Các trạm này đƣợc mã hóa lần lƣợt là s1037, s1046, s1081, s1090 và s1091 Khoảng thời gian thu thập bắt đầu vào lúc 05:00 ngày 19/11/2021 đến 04:00 ngày 19/12/2021, mật độ thu thập dữ liệu: một giờ cho mỗi record Các dữ liệu thu thập bao gồm: AQI ngày, giá trị CO thô (μg/m 3 ), giá trị PM10 thô (μg/m 3 ) và giá trị thô PM 2.5 thô (μg/m 3 ), với tổng cộng (tối đa) là 720 record cho mỗi trạm

Hình 3.2 Các trạm quan trắc trong hệ thống AirNet a) Tất cả các trạm; b) Các trạm có thu thập dữ liệu

Dữ liệu của AirNet đƣợc trình bày khá rõ ràng, tuy nhiên tại trang chủ không có tùy chọn xuất dữ liệu hoặc cung cấp API để người dùng cuối có thể sử dụng Dữ liệu chỉ khả dụng khi người dùng ấn chuột chọn vào một trạm trong hệ thống Tìm hiểu sâu hơn về giao thức sử dụng bên dưới cho thấy: các dữ liệu được gửi nhận thông qua giao thức socket (Hình 3.3) Trong giao thức truyền dữ liệu này, phía client cần truyền một số tham số như mã trạm, điều kiện truy vấn để server trả về kết quả tương ứng và phải duy trì kết a b

36 nối với socket server thông qua các packet thông tin dạng “ping - pong” Để đơn giản và tự động hóa quá trình thu thập dữ liệu, đề tài xây dựng một server hoạt động liên tục sử dụng NodeJS để định kỳ gửi và nhận các gói tin với server của AirNet Dữ liệu thu thập được lưu tại server riêng (sử dụng MySQL) và xuất thông tin ra file với định dạng comma-separated values (CSV)

Hình 3.3 Truy vấn thu thập dữ liệu với socket server

Chuẩn bị dữ liệu đầu vào

Dữ liệu thu được từ các trạm được chọn tương đối ổn định qua thời gian Tuy nhiên, vẫn có trường hợp một số record bị mất mát do server AirNet không có dữ liệu hoặc gửi trùng thông tin Để làm sạch dữ liệu, các record đƣợc gắn chỉ mục (index) theo thời gian và sắp xếp theo thứ tự thời gian tăng dần Các record có giá trị trùng lắp ở cùng một điểm thời gian sẽ đƣợc loại bỏ

Với các dữ liệu bị mất mát (nhỏ hơn 0.5%) hoặc không phù hợp, dữ liệu mới đƣợc tạo ra thay thế bằng cách sử dụng một hàm suy diễn sử dụng kết quả từ các giá trị lân cận để bổ sung cho thông tin bị mất mát Trong đó, dữ liệu đƣợc xác định là dữ liệu không phù hợp khi giá trị AQI t tại thời điểm t mang giá trị bằng 0, nhƣng liền kề hai giá trị AQI t-

1 và AQI t+1 ở thời điểm t-1 và t+1 mang giá trị khác 0

Có nhiều hàm suy diễn khác nhau: hàm điền tới (sử dụng giá trị khả dụng phía sau để điền cho giá trị bị mất mát phía trước), hàm điền ngược (sử dụng giá trị khả dụng phía trước để điền và giá trị bị mất mát phía sau) và hàm nội suy tuyến tính (sử dụng giá trị khả dụng tại 2 biên và nội suy tuyến tính cho các giá trị bị mất mát ở giữa) Trong phạm vi đề tài, sau khi loại bỏ dữ liệu trùng lắp, các dữ liệu bị mất mát hoặc không phù hợp đƣợc suy diễn bằng hàm nội suy tuyến tính

Các giá trị chỉ đƣợc nội suy khi tỷ lệ mất mát dữ liệu bằng hoặc nhỏ hơn 0.5% (tương đương mất mát không quá 1 điểm dữ liệu / 24 giờ) Trung bình và độ lệch chuẩn của tập dữ liệu mới phải không quá sai khác với tập dữ liệu cũ (dùng kiểm định t-test) Ở bước sau cùng của việc chuẩn bị, các dữ liệu ở từng thông số khác nhau sẽ được vẽ biểu đồ tổng hợp chung để có cái nhìn khái quát về đặc tính của từng trường dữ liệu

Kiểm định dữ liệu

Các dữ liệu sau khi đƣợc làm sạch, sẽ đƣợc tiến hành kiểm tra để xác định chuỗi đang xem xét:

- Có phải là chuỗi nhiễu trắng hay không (nếu thỏa, ngừng xây dựng mô hình)

- Có phải là bước ngẫu nhiên hay không (nếu thỏa, ngừng xây dựng mô hình) Để xác định chuỗi đang xét có phải là chuỗi nhiễu trắng hay không, cần xem xét trung bình và độ lệch chuẩn từng phần của tập dữ liệu, cũng như xem xét sự tương quan của dữ liệu với các lag thời gian của nó Trong đề tài này, các biểu đồ đƣợc xây dựng để đánh giá dữ liệu bằng cảm quan mắt thường

Nếu là chuỗi nhiễu trắng, trung bình (từng phần và tổng hợp) của chuỗi có giá trị bằng 0, độ lệch chuẩn (từng phần và tổng hợp) không thay đổi và không có tương quan với các các lag thời gian của nó Biểu đồ của chuỗi trắng sẽ có dạng nhƣ ở Hình 3.4 Nếu chuỗi đang xét là chuỗi nhiễu trắng thì dừng xây dựng mô hình vì chuỗi nhiễu trắng là chuỗi dữ liệu thời gian không có tính quy luật mà chỉ là các nhiễu động trong quan sát

Hình 3.4 Biểu đồ của nhiễu trắng a) Biểu đồ theo thời gian; b) Biểu đồ trung bình và độ lệch chuẩn; c) Biểu đồ tự tương quan Để xác định chuỗi đang xét có phải là chuỗi bước ngẫu nhiên hay không, cần xem xét sai phân của chuỗi đang xét có phải là bước ngẫu nhiên hay không Sai phân được tính toán đơn giản bằng cách dùng giá trị phía sau trừ giá trị liền kề trước nó Nếu sai phân bậc một của chuỗi đang xét là chuỗi trắng thì chuỗi đang xét là chuỗi bước ngẫu nhiên Giống a b c

38 như chuỗi trắng, nếu dữ liệu là chuỗi bước ngẫu nhiên thì không thể xây dựng mô hình dự báo cho chuỗi đang xét, điều này đƣợc đề cập và chứng minh bởi nhà khoa học Burton Malkiel viết trong sách “A Random Walk Down Wall Street” [15].

Tạo tập huấn luyện

Dữ liệu thu thập đƣợc chƣa thích hợp để đánh giá mức độ chính xác của mô hình, do vậy cần phải biến đổi tập dữ liệu đầu vào thành dạng thích hợp hơn Đầu tiên, tập dữ liệu đƣợc phân cắt thành 2 phần: tập huấn luyện (tập train) và tập kiểm tra (tập test) Trong đề tài này, điểm phân chia 2 tập hợp (cutoff) nằm ở record có vị trí nằm ở 75% tập dữ liệu gốc Tập huấn luyện bao gồm các record kéo dài liên tục từ vị trí đầu tiên đến điểm phân chia, tập kiểm tra bao gồm các record liên tục còn lại Đặc thù của dữ liệu các mô hình mạng nhân tạo chuỗi thời gian là phải có giá trị đầu vào và giá trị đầu ra, từ đó so sánh độ chênh lệch giữa giá trị dự báo và giá trị thực tế

Do vậy để đánh giá đƣợc độ chính xác của các mô hình mạng nhân tạo, các tập dữ liệu ở trên đƣợc cắt thành các tập nhỏ hơn, một tập con chứa X giá trị đầu vào và một tập con chứa Y giá trị đầu ra Để có đƣợc số tập con nhiều nhất, mỗi tập con sẽ so le nhau một vị trí trên tập gốc Hình 3.5 minh họa quá trình tạo các tập con với X = 3 và Y = 2 (3 giá trị đầu vào, 2 giá trị đầu ra), sau khi chia cắt, ta đƣợc bốn tập hợp: Ở bước huấn luyện mạng nhân tạo (train):

- Tập trainX (xanh lá): chứa các tập con làm đầu vào

- Tập trainY (xanh dương): chứa các tập con làm dữ liệu so sánh với tập dự đoán (thu đƣợc khi chạy mạng nơ ron) Ở đánh giá mạng nhân tạo (validate):

- Tập testX (màu đỏ): chứa các tập con làm đầu vào

- Tập testY (màu vàng): chứa các tập con làm dữ liệu so sánh với tập dự đoán (thu đƣợc khi chạy mạng nơ ron)

Tập train Mạng nhân tạo cutoff Tập test

Hình 3.5 Minh họa quá trình tạo tập huấn luyện cho mạng nhân tạo

Xanh lá: tập trainX, xanh dương: tập trainY ; đỏ: tập testX, vàng: tập testY

Dữ liệu sau khi chia cắt thành các tập con đƣợc tổng hợp lại sẽ có dạng 2 chiều:

< số dữ liệu > * < số quan sát > (1)

39 Nhƣ vậy, đối với các mô hình nhân tạo, dữ liệu huấn luyện là hai tập trainX và trainY, dữ liệu kiểm tra là hai tập testX và testY Riêng đối mạng RNN và LSTM, tập trainX và testY đƣợc biến đổi về dạng 3 chiều để phù hợp với đặc thù API của phần mềm:

< số dữ liệu > * < 1 > * < số quan sát > (2) Đối với các mô hình thống kê truyền thống, dữ liệu huấn luyện là toàn bộ các giá trị nằm trong tập huấn luyện (từ record đầu tiên đến record tại vị trí cutoff), dữ liệu kiểm tra là tập hợp testX và testY.

Xây dựng mô hình

Đề tài sử dụng nhiều mô hình khác nhau để dự báo chỉ số chất lƣợng không khí theo giờ Các mô hình này bao gồm:

- Mô hình tự hồi quy – Autoregressive

- Mô hình tự hồi quy tích hợp trung bình trƣợt - ARIMA

- Mô hình làm mƣợt lũy thừa - Holt-Winters

- Mô hình Mạng nhân tạo nhiều lớp - ANN

- Mô hình Mạng nhân tạo hồi quy - RNN

- Mô hình Mạng nhân tạo có bộ nhớ ngắn-dài hạn - LSTM

3.6.1 Mô hình tự hồi quy

Theo thông thường, để xây dựng mô hình tự hồi quy, biểu đồ tự tương quan của chuỗi dữ liệu cần đƣợc xác định Từ biểu đồ này, các điểm lag nằm ngoài khoảng tin cậy (95% confidence interval) đƣợc sử dụng để xác định chỉ số lag của mô hình, sau đó thử tất cả các lag này để xác định chỉ số sau cùng cho phù hợp Ngoài ra cũng có thể sử dụng thƣ viện hỗ trợ của python để tìm chỉ số lag Trong quá trình chạy thử nghiệm mô hình, nhiều chỉ số lag khác nhau đã đƣợc sử dụng và cho thấy chỉ số lag = 24 cho kết quả phù hợp nhất nên giá trị này đƣợc dùng cho các thí nghiệm đánh giá mô hình về sau Để xác định độ sai lệch với tập dữ liệu, ta cần đánh giá mô hình với nhiều tập dữ liệu đầu vào (có thể ở thời điểm cách xa, sau thời điểm trong tập huấn luyện) Nhƣ vậy cần nạp dữ liệu mới cho mô hình Thƣ viện python hiện tại không có sẵn hàm hỗ trợ phục vụ cho mục đích này, vì vậy đề tài viết riêng thủ tục phụ trợ cho quá trình này, dựa theo công thức nguyên thủy của mô hình tự hồi quy:

Các giá trị mới sinh ra đƣợc cộng dồn vào tập giá trị đầu vào theo kỹ thuật “cửa sổ trƣợt” (rolling window) cho đến khi đủ số lƣợng kết quả đầu ra Quá trình tính toán này đƣợc minh họa qua Hình 3.6 , ứng với mô hình tự hồi quy sử dụng 3 giá trị đầu vào và có

Hình 3.6 Kỹ thuật tính toán sử dụng cửa sổ trƣợt

Các ô mang màu đỏ đại diện giá trị đầu vào; ô mang màu vàng đại diện giá trị đầu ra của mô hình

Mô hình ARIMA là mô hình gồm 3 quá trình đơn: quá trình tự hồi quy (AR), quá trình lấy sai phân (I) và quá trình trung bình trƣợt (MA) Các quá trình này đƣợc xác định qua các chỉ số lần lƣợt là p, d và q Các chỉ số này có thể xác định thủ công nhƣ sau:

- Với chỉ số p: Vẽ biểu đồ tự tương quan toàn phần ACF và xác định các chỉ số vƣợt ngoài biên khoảng tin cậy (95% confidence interval)

- Với chỉ số d: Thực hiện kiểm định Augmented Dickey–Fuller (một dạng unit root test) Trong kiểm định Augmented Dickey–Fuller có giả thiết H 0 là chuỗi đang xét là chuỗi không dừng Từ đó nếu sau khi kiểm định, chỉ số p-value > 0.05 thì cần tiến hành lấy sai phân, tiếp tục nhƣ vậy cho đến khi chuỗi sau cùng là chuỗi dừng

- Với chỉ số q: Vẽ biểu đồ tự tương quan bán phần PACF và xác định các chỉ số vƣợt ngoài biên khoảng tin cậy (95% confidence interval)

Từ các chỉ số có đƣợc, lần lƣợt thử các tổ hợp khác nhau để tìm ra mô hình tốt nhất Ngoài ra, dạng mở rộng của ARIMA là SARIMA (Seasonal ARIMA) cho phép dự báo dữ liệu có tính biến thiên theo chu kỳ Để sử dụng mô hình SARIMA, cần xác định thêm các thông số P, D, Q và m tương ứng cho các tiến trình AR, I và MA theo chu kỳ m Trong phạm vi luận văn này, việc xác định các chỉ số trên đƣợc thực hiện tự động với giá trị chu kỳ m đƣợc chọn là m = 24

Khi có các dữ liệu mới cần đƣợc đánh giá, mô hình ARIMA đã đƣợc tập huấn trước đó sẽ được nạp lại với bộ dữ liệu mới này để tạo ra bộ kết quả dự báo mới Hình 3.7 miêu tả quá trình này Theo đó, mô hình ARIMA đã được tập huấn (fit model) trước đó sẽ được tái sử dụng cho các bộ giá trị tương lai mà không thực hiện huấn luyện lại Lý do cho việc này là vì: khi tái huấn luyện sẽ làm thay đổi các thông số của mô hình, giúp mô hình có bộ dữ liệu huấn luyện nhiều hơn, do đó làm mô hình “có lợi” thế khi so sánh với các mô hình sử dụng mạng nhân tạo và làm sai lệch kết quả khi so sánh

Hình 3.7 Quá trình tái sử dụng mô hình ARIMA trong thực nghiệm

Các ô mang màu đỏ đại diện giá trị đầu vào; ô mang màu vàng đại diện giá trị đầu ra của mô hình.

Mô hình Holt-Winters là một trong số các mô hình làm mƣợt lũy thừa có khả năng dự báo chuỗi dữ liệu có xu hướng và có tính chu kỳ Trong mô hình này cần xác định các thông số α, β và γ tương ứng với hệ số cho tỷ lệ đóng góp của dữ liệu quá khứ, tính xu hướng và tính chu kỳ Trong luận văn này các thông số trên được xác định tự động, với giá trị chu kỳ quan sát đƣợc điều chỉnh cố định là 24

3.6.4 Mô hình Mạng nhân tạo

Trong luận văn này, các mạng nhân tạo khác nhau đƣợc sử dụng để đánh giá khả năng dự báo của mô hình, bao gồm: mạng nhân tạo nhiều lớp (ANN), mạng nhân tạo hồi quy (RNN) và mạng nhân tạo sử dụng bộ nhớ ngắn-dài hạn (LSTM)

Thông số ban đầu cho các mô hình đƣợc trình bày nhƣ ở Bảng 3.1

Bảng 3.1 Các tham số cho mô hình mạng nhân tạo

Tham số Mạng ANN Mạng RNN Mạng LSTM

Lớp đầu vào Lớp Dense,

Lớp fully connected Lớp Dense, 24 đơn vị

Lớp đầu ra Lớp Dense, số đơn vị bằng số giá trị đầu ra

Hàm kích hoạt ReLU (Rectified Linear Unit)

Hàm mất mát MSE (Mean Squared Error)

Tỷ lệ huấn luyện / đánh giá 75/25

Framework Keras phiên bản 2.5.0, Tensorflow phiên bản 2.5.0

42 Tập huấn luyện sử dụng 2 tập con: trainX và trainY Tập đánh giá sử dụng 2 tập con: testX và testY Để đánh giá mang tính khách quan nhất, kết quả của nhiều lần chạy khác nhau sẽ đƣợc thu thập và tính giá trị trung bình

Xây dựng thí nghiệm và đánh giá mô hình

Từ các mô hình xây dựng ở trên, tiến hành thực hiện các thí nghiệm với dữ liệu thực tế khách quan Dữ liệu tại trạm s1090 đƣợc sử dụng cho các thí nghiệm này Với tổng cộng 720 record, giá trị cutoff đƣợc xác định là 540 Nhƣ vậy ta có 540 record đầu tiên của chuỗi dữ liệu thời gian dùng để tập huấn cho các mô hình, phần còn lại dùng để đánh giá mô hình đã xây dựng Tập giá trị main AQI (chỉ số AQI theo giờ) đƣợc dùng làm giá trị đầu vào và giá trị dự báo

Các mô hình đƣợc so sánh lần lƣợt trên 3 thí nghiệm khác nhau:

- Thí nghiệm 1: Dùng 24 giá trị main AQI đầu vào để dự báo giá trị của 12 giá trị main AQI phía sau

- Thí nghiệm 2: Dùng 24 giá trị main AQI đầu vào để dự báo giá trị của 24 giá trị main AQI phía sau

- Thí nghiệm 3: Dùng 24 giá trị main AQI đầu vào để dự báo giá trị của 48 giá trị main AQI phía sau Các giá trị phía sau này đều nằm trong tập dữ liệu kiểm tra để có cơ sở so sánh

Tóm tắt thông số thí nghiệm:

* Tập dữ liệu đầu vào: main AQI, trạm s1090, cutoff 540

* Lƣợng giá trị dự báo:

- 24 điểm thời gian trước dự báo cho 12 giá trị sau (Thí nghiệm 1)

* Giá trị dự báo: main AQI, trạm s1090

Kết quả dự báo sau cùng của các mô hình là một tập hợp của tập hợp các giá trị đầu ra, ở dạng : (số tập hợp các dự báo) * (các giá trị dự báo tương ứng) Ví dụ ở Thí nghiệm 1, nếu tập đầu vào “input” có 100 tập con và mỗi tập con chứa 24 giá trị đầu vào, ta mong đợi tập dự báo “predicted” có 100 tập con và mỗi tập con chứa 12 giá trị dự báo Khi đó, tập dự báo “predicted” có dạng: (100 tập con) * (12 phần tử) = 1200 phần tử Do vậy để so sánh với tập dự báo “predicted”, tập kiểm tra “test” cũng cần ở dạng tương tự: (100 tập con) * (12 phần tử).

Tối ƣu và mở rộng mô hình

Có nhiều chỉ số khác nhau để đánh giá mô hình, trong phạm vi các thí nghiệm này, các chỉ số RMSE thô, RMSE 50 , RMSE điều chỉnh và chỉ số MAE thô, MAE 50 , MAE điều chỉnh đƣợc sử dụng Mô hình có các giá trị trên càng nhỏ càng tốt

* Chỉ số RMSE thô và MAE thô đƣợc xác định qua công thức:

Trong đó: n là số lƣợng phần tử con, t là giá trị dự báo cho phần tử thứ t, y t là giá trị thực tế cho phần tử thứ t

* Chỉ số RMSE 50 và MAE 50 đƣợc xác định qua công thức:

Trong đó: n là số lƣợng phần tử con, t là giá trị dự báo cho phần tử thứ t, y t là giá trị thực tế cho phần tử thứ t Giá trị RMSE 50 và MAE 50 cho phép nhận biết đƣợc sự sai lệch khi chỉ sử dụng 50% giá trị đầu tiên trong các kết quả dự báo, thay vì toàn bộ các giá trị dự báo nhƣ chỉ số RMSE thô và MAE thô

* Chỉ số RMSE điều chỉnh và MAE điều chỉnh đƣợc xác định qua công thức:

- m là số lƣợng mảng các giá trị dự báo, mỗi mảng có thể có thể bao gồm nhiều giá trị con,

- t là trung bình các giá trị dự báo của các phần tử có trong mảng thứ t,

- Y t là trung bình các giá trị thực tế của các phần tử có trong mảng thứ t

3.8 Tối ƣu và mở rộng mô hình

3.8.1 Xác định các thông số tối ƣu

Trong thí nghiệm so sánh với các mô hình dự báo chuỗi thời gian truyền thống, các mạng nhân tạo sử dụng kiến trúc tối giản nhất Để xác định đây có phải là các thông số tốt nhất hay không, Thí nghiệm 4 xây dựng ba mô hình kiến trúc mạng nơ ron khác nhau, dựa trên các thông số của thí nghiệm 1:

* Tập dữ liệu đầu vào: main AQI, trạm s1090, cutoff 540

* Lượng giá trị dự báo:24 điểm thời gian trước dự báo cho 12 giá trị sau

Ba kiến trúc mô hình xây dựng có thiết kế nhƣ sau:

- Kiến trúc mô hình 1: Các thông số ban đầu đƣợc giữa nguyên

- Kiến trúc mô hình 2: Số đơn vị tại lớp fully connected đƣợc tăng gấp đôi (2 * 24

- Kiến trúc mô hình 3: Giữ nguyên lớp fully connected ban đầu, nhƣng chèn thêm một lớp fully connected tương tự ngay phía sau Chi tiết các lớp sau khi được thay đổi đƣợc thể hiện ở Bảng 3.2

Các mô hình ANN, RNN và LSTM đƣợc áp dụng lần lƣợt trên kiến trúc mới, mỗi kiến trúc đƣợc chạy 100 lần, sau đó sử dụng các chỉ số RMSE thô, RMSE điều chỉnh, MAE thô, MAE điều chỉnh và tổng thời gian chạy để đánh giá Mô hình cho kết quả trung bình tốt nhất sẽ đƣợc sử dụng để thực hiện cho việc đánh giá mở rộng

Bảng 3.2 Các tham số mô hình trong thí nghiệm tối ƣu Tham số Kiến trúc 1 Kiến trúc 2 Kiến trúc 3

Lớp đầu vào 24 đơn vị 24 đơn vị 24 đơn vị

Lớp fully connected 1 Lớp Dense,

Lớp fully connected 2 Không có Không có Lớp Dense,

Lớp đầu ra Lớp Dense,

Các thông số khác Không thay đổi

3.8.2 Mở rộng mô hình với tập đầu vào là dữ liệu thô

Trong các thí nghiệm trước, tập dữ liệu đầu vào và đầu ra được sử dụng là chỉ số main AQI của cùng một trạm quan trắc Trong thí nghiệm này, tập chỉ số đầu vào là các thông số thô của môi trường (CO, PM 10 , PM 2.5 ) để dự báo chỉ số main AQI của chính trạm đó Tập giá trị đƣợc sử dụng là dữ liệu tại trạm s1090, với cutoff là 540 Chi tiết thiết kế Thí nghiệm 5 đƣợc trình bày nhƣ sau:

* Các tập dữ liệu đầu vào:

- Giá trị CO đơn lẻ, trạm s1090

- Giá trị PM 10 đơn lẻ, trạm s1090

- Giá trị PM 2.5 đơn lẻ, trạm s1090

- Tổ hợp cả 3 giá trị (CO, PM 10 , PM 2.5 )

- 24 điểm thời gian trước dự báo cho 12 giá trị sau

3.8.3 Mở rộng mô hình với tập đầu vào là dữ liệu trạm lân cận

Trong Thí nghiệm 6 này, giá trị main AQI của một trạm sẽ đƣợc sử dụng để dự báo cho các trạm lân cận Cụ thể trong đề tài này, tập dữ liệu đầu vào là giá trị main AQI của trạm s1046 sẽ đƣợc dự báo cho giá trị main AQI của trạm s1037, trạm s1081 và trạm s1090 Khoảng cách của các trạm đo đạc đƣợc trình bày nhƣ ở Bảng 3.3

Bảng 3.3 Ma trận khoảng cách của các trạm trong đề tài s1037 s1046 s1081 s1090 s1091* s1037 - 3 4 15 9 s1046 3 - 2 18 10 s1081 4 2 - 19 13 s1090 15 18 19 - 14 s1091* 9 10 13 14 - Đơn vị sử dụng: Km; *: Trạm không thỏa số record yêu cầu

Các thông số cho thí nghiệm đƣợc tóm tắt nhƣ sau:

* Tập dữ liệu đầu vào:

- Giá trị main AQI, trạm s1046

* Các giá trị dự báo:

TỔNG KẾT

Đánh giá kết quả đạt đƣợc

Luận văn đã hiện thực các bước để xây dựng mô hình dự báo chất lượng không khí Dữ liệu đầu vào sử dụng trong đề tài là chuỗi dữ liệu thời gian thu thập theo giờ từ các trạm quan trắc khu vực Hà Nội Các dữ liệu đƣợc đánh giá dựa trên biểu đồ, phân tích thống kê nhằm tìm hiểu các đặc trƣng cơ bản Các mô hình dự báo khác nhau đƣợc tìm hiểu và hiện thực trong đề tài bao gồm: mô hình Tự hồi quy, mô hình ARIMA, mô hình Holt-Winters, mô hình mạng nơ ron ANN, mô hình mạng nơ ron RNN và mô hình mạng nơ ron LSTM

Dữ liệu sử dụng trong đề tài có tính chu kỳ, lặp lại sau mỗi 24 điểm thời gian và có mức độ dao động giữa giá trị các biên lớn nhất và biên nhỏ nhất khá lớn Dữ liệu sau khi thực hiện các kiểm định để đảm bảo có khả năng xây dựng mô hình dự báo (dữ liệu không là chuỗi trắng và không là chuỗi bước ngẫu nhiên), sẽ được phân tách thành các tập huấn luyện và tập kiểm tra dùng làm tập đầu vào và tập so sánh đầu ra cho các mô hình

Các thí nghiệm khác nhau đƣợc hiện thực trong đề tài để xác định mức độ dự báo sai khác của các mô hình nhƣ: 24 giá trị đầu vào cho 12 giá trị đầu ra, 24 giá trị đầu vào cho 24 giá trị đầu ra, 24 giá trị đầu vào cho 48 giá trị đầu ra Kết quả cho thấy, nhìn chung các mô hình dự đoán càng nhiều giá trị sẽ làm tăng độ sai lệch so với tập giá trị kiểm tra Tuy nhiên, các mô hình mạng nhân tạo cho kết quả sai lệch này không quá lớn, và cho kết quả tốt hơn so với các mô hình thống kê truyền thống (mô hình tự tương quan, mô hình ARIMA và mô hình Holt-Winters)

Ngoài ra, các mô hình sử dụng mạng nhân tạo cũng cho thấy tiềm năng mở rộng khi mà các mô hình truyền thống không thực hiện đƣợc: sử dụng giá trị đầu vào khác với giá trị đầu ra cần dự báo (sử dụng giá trị thô để dự báo main aqi, hay sử dụng giá trị tại một trạm để dự báo cho một trạm khác), sử dụng nhiều tập dữ liệu đầu vào khác nhau để tăng mức độ chính xác của mô hình dự báo

Nhƣ vậy luận văn đã đạt đƣợc các kết quả sau đây:

- Đề xuất đƣợc chiến lƣợc thu thập và xử lý tập dữ liệu chuỗi thời gốc thành các tập thử nghiệm và tập kiểm tra để phù hợp cho việc so sánh giữa các mô hình truyền thống lẫn mô hình sử dụng mạng nhân tạo

- Hoàn thiện và đề xuất kiến trúc mô hình dự báo chất lƣợng không khí có thời gian tính toán tối ƣu

- Xây dựng thành công các mô hình dự báo chất lƣợng không khí sử dụng mạng nhân tạo có khả năng sử dụng nhiều dữ liệu đầu vào khác nhau, với độ sai lệch dự báo chấp nhận đƣợc.

Hướng phát triển tương lai

Trong luận văn này, do giới hạn về số lƣợng các trạm quan trắc nên chƣa đủ điều kiện để xây dựng bản đồ dự báo chất lƣợng không khí ở một khu vực rộng lớn Trong tương lai, luận văn có thể mở rộng để xây dựng bản đồ dự báo dựa trên vị trí của các trạm đã hiện diện, khi mật độ các trạm quan trắc phù hợp và đủ nhiều Đồng thời dự báo luồng dịch chuyển của các tác nhân ô nhiễm không khí, từ đó cung cấp cái nhìn toàn cảnh về thực trạng ô nhiễm không khí cho một khu vực rộng lớn

Các mạng nhân tạo có khả năng cải tiến để sử dụng linh hoạt các giá trị đầu vào và giá trị đầu ra Các mô hình trong luận văn có thể kết hợp thêm các dữ liệu khác nhƣ hướng gió, nhiệt độ, độ ẩm, lượng mưa để cho kết quả dự báo bám sát với giá trị thực tế Trong tương lai, khi nguồn dữ liệu mở ngày càng nhiều, việc sử dụng các mô hình nhân tạo để dự báo sẽ là hướng phát triển mạnh góp phục phục vụ các lợi ích con người

Tiêu đề	Xây dựng mô hình dự báo chất lượng không khí
Tác giả	Nguyễn Hữu Nghĩa
Người hướng dẫn	TS. Lê Thanh Vân, TS. Lê Trọng Nhân
Trường học	Đại học Quốc gia TP.HCM
Chuyên ngành	Khoa học máy tính
Thể loại	Luận văn tốt nghiệp đại học
Năm xuất bản	2022
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	66
Dung lượng	5,21 MB