Ứng dụng học máy dự đoán chất lượng không khí Ứng dụng học máy dự đoán chất lượng không khí Ứng dụng học máy dự đoán chất lượng không khí Ứng dụng học máy dự đoán chất lượng không khí Ứng dụng học máy dự đoán chất lượng không khí
MỤC LỤC DANH MỤC CHỮ VIẾT TẮT Tiếng Anh Tiếng Việt AI Artificial Intelligent Trí tuệ nhân tạo ANN Artificial neural netwwork Mạng nơron nhân tạo AQI Air quality index Chỉ số chất lượng khơng khí AR Autoregressive Mơ hình tự hồi quy ARIMA Autoregressive integrated moving average Mơ hình tự hồi quy tích hợp trung bình trượt CLKK Chất lượng khơng khí CNN Convolution neural network Mạng nơron tích chập FFNN Feed-forward neural network Mạng nơron truyền thuận FL Fuzzy – logic Logic mờ FN Fully connected network Mạng nơron kết nối đầy đủ GA Genetic algorithm Thuật giải di truyền IQR Inter quartile range Khoảng phân vị KF Kalman filter Bộ lọc Kalman LR Linear regression Hồi quy tuyến tính LSTM Long – short term memory Khối nhớ dài – ngắn MA Moving average MAE Mean absolute error Mơ hình trung bình trượt Trị trung bình sai tuyệt đối MLP Multi-layer perceptron Mạng nơron đa lớp Q1 Quartile 25th Phân vị 25% Q3 Quartile 75th Phân vị 75% RM Regression model Mơ hình hồi quy RMSE Root mean square error Sai số quân phương SVM Support vector machine Máy véc tơ hỗ trợ LỜI MỞ ĐẦU Cũng giống thời tiết, chất lượng khơng khí ảnh hưởng trực tiếp đến sức khỏe người Khi nồng độ chất ô nhiễm vượt ngưỡng cho phép, tiếp xúc với thời gian ngắn gây phản ứng cấp tính giảm tầm nhìn, khó thở, cay mắt…, tiếp xúc với thời gian dài gây bệnh mạn tính hơ hấp, tim mạch ung thư Ngồi ra, nhiễm khơng khí cịn gây ảnh hưởng xấu đến hệ sinh thái tự nhiên Do đó, bên cạnh cơng tác quan trắc dự báo nồng độ chất nhiễm khơng khí, diễn biến chúng có ý nghĩa vơ quan trọng việc đánh giá mối nguy tiềm tàng nhiễm khơng khí Chính vậy, thập kỷ trở lại đây, nghiên cứu ứng dụng mơ hình dự báo chất lượng khơng khí Việt Nam tăng lên đáng kể đạt nhiều thành tựu Trong thập kỷ vừa qua, mơ hình dự báo thống kê CLKK sử dụng mạng nơron nhân tạo nghiên cứu ứng dụng thành công nhiều quốc gia Thế giới, kể đến dự báo nồng độ bụi PM10, dự báo nồng độ ôzôn, số chất ô nhiễm khác SO2, NOx, VOC… sử dụng kiến trúc mạng nơron kết nối đầy đủ FN với cấu trúc truyền thuận (FFNN) đặc biệt MLP hay số mơ hình ứng dụng mạng nơron hồi quy thông thường (RNN) mạng tự hồi quy phi tuyến với biến ngoại sinh (NARX) Vanilla RNN Trong năm gần đây, kỹ thuật học sâu phát triển mạnh giúp giảm thời gian huấn luyện, giảm tiêu tốn tài nguyên máy tăng độ xác đặc biệt kể đến mạng nơron tích chập (CNN), mạng nhớ dài – ngắn (LSTM)… Tuy nhiên, dự báo thống kê CLKK Việt Nam nói chung đặc biệt dự báo thống kê ứng dụng kỹ thuật trí tuệ nhân tạo cịn mẻ theo hiểu biết tác giả có nghiên cứu liên quan đến lĩnh vực Xuất phát từ thực tế đó, đề tài “Ứng dụng kỹ thuật học máy dự báo số chất lượng khơng khí.” lựa chọn nhằm khởi động thúc đẩy hướng nghiên cứu Việt Nam, góp phần vào cơng tác quản lý bảo vệ mơi trường khơng khí nước ta CHƯƠNG 1: TỔNG QUAN 1.1 Chất lượng khơng khí 1.1.1 Chất lượng khơng khí ảnh hưởng đến sức khỏe Chất lượng khơng khí đề quan tâm quốc gia giới, có Việt Nam, mức độ rủi ro tiềm ẩn đến sức khỏe người dân hệ sinh thái Theo tổ chức Y tế Thế giới – WHO, ước tính năm 2012, ô nhiễm không khí nguyên nhân gây gần triệu ca tử vong, chiếm 10% số ca tử vong tất nguyên nhân Trong đó, theo ước tính có khoảng 9% ngun nhân ung thư phổi, 17% bệnh phổi mạn tính, 30% nguyên nhân bệnh tim, thiếu máu cục đột quỵ liên quan đến ô nhiễm khơng khí, 9% nhiễm trùng đường hơ hấp Chất lượng khơng khí, thuật ngữ liên quan đến thành phần hóa học khí Trong đó, bụi (PM), ôzôn (O3), NO2, hợp chất hữu dễ bay (VOC), CO SO2 thông số quan tâm mức độ nguy hiểm chúng đến sức khỏe Nhiều nghiên cứu dịch tễ học Hồng Kông Đài Loan gia tăng nồng độ O3, NO2, SO2 PM2.5 có liên quan đến gia tăng số ca nhập viện nguyên nhân hen viêm phổi Một kết đáng lưu ý báo cáo Di cộng nghiên cứu 60 triệu người thụ hưởng bảo hiểm y tế (Medicare) Mỹ giai đoạn từ 2000 đến 2012 phát rằng, nồng độ PM 2.5 tăng lên 10 μg/m3 , tỷ lệ tử vong nguyên nhân tăng lên 7,3%, nồng độ O tăng lên 10 ppb tỷ lệ tử vong tăng lên 1,1% Ngồi ra, phân tích tổng hợp nghiên cứu nhiều thành phố Trung Quốc, nhiều gian đoạn khác quan sát nồng độ PM2.5 tăng lên 10 μg/m3 tỷ lệ tử vong nguyên nhân tăng lên 0,38%; tăng 0,51% tỷ lệ tử vong bệnh liên quan đến hô hấp tăng 0,44% tỷ lệ tử vong bệnh tim mạch Tương tự, ứng với gia tăng SO2, NO2 O3 lên10 μg/m3 tỷ lệ gia tăng tỷ lệ tử vong tương ứng gồm tỷ lệ tử vong tổng số 0,81%; 1,30% 0,48%; tỷ lệ tử vong bệnh hô hấp 1,18%; 1,62% 0,73%; tỷ lệ tử vong bệnh tim mạch 0,85%, 1,46% 0,45% Còn với CO, nghiên cứu quan sát nồng độ CO tăng lên 1mg/m3 (1000 μg/m3 ) tỷ lệ tử vong tất nguyên nhân tăng lên 3,7% bệnh tim mạch tăng lên 4,77% Tại Việt Nam, nghiên cứu thành phố Hồ Chí Minh từ 2004 đến hết 2007 cho thấy có mối liên quan chặt chẽ diễn biến nồng độ chất ô nhiễm số ca nhập viện bệnh liên quan đến hô hấp, cụ thể: ứng với gia tăng nồng độ chất PM10, NO2 SO2 lên 10 μg/m3 tỷ lệ gia tăng ca nhập viện hô hấp tăng lên tương ứng 0,7%, 8% 2%, khi, O không gây tác động đáng kể Trong báo cáo này, theo ghi nhận số chất ô nhiễm nghiên cứu gồm PM 10, NO2, SO2 O3 nồng độ PM10 có đến 1126 ngày vượt quy chuẩn theo thang đo WHO (chiếm 79% thời gian nghiên cứu) Đối tượng nhạy cảm với CLKK nhóm người già trẻ em, 75 nghìn bệnh nhi từ – tuổi nhập viện bệnh liên quan đến hô hấp Hà Nội thời gian từ 2004 đến 2016 (trong có 2462/3351 ngày có nồng độ PM10 vượt quy chuẩn WHO) cho thấy khoảng cách phân vị (IQR – interquartile range) nồng độ O3 tăng lên 86 μg/m3 tỷ lệ viện bệnh nhi mắc bệnh hô hấp giảm 5%, tương ứng với PM 10 61,5 μg/m3 tỷ lệ viện giảm 6% Điều cho thấy, công tác dự báo CLKK thực tốt dự báo khí tượng giúp người dân chủ động với hoạt động giảm thiểu mức độ ảnh hưởng tiêu cực ô nhiễm khơng khí đến sức khỏe, nâng cao hiểu biết ý thức bảo vệ môi trường, đặc biệt không khí Ngồi ra, dựa vào đó, quan có sách chiến lược quản lý CLKK kịp thời 1.2 Ứng dụng trí tuệ nhân tạo dự báo chất lượng khơng khí 1.2.1 Trên giới Từ thập niên 90 kỷ XX đến nay, với phát triển vượt bậc công nghệ thông tin bước đột phá nghiên cứu ứng dụng AI khoa học thống kê, cơng tác phân tích dự báo thống kê theo chuỗi thời gian thực phát triển mạnh ứng dụng nhiều ngành, có dự báo CLKK Do tính linh hoạt khả “học tập” từ liệu cách mạnh mẽ mà công cụ AI, đặc biệt ANN ứng dụng từ sớm công tác dự báo CLKK Ngay từ năm 1990, mơ hình dự báo nồng độ đỉnh ôzôn ngày ứng dụng ANN Junsub Yi cộng xây dựng phát triển thành công cho thành phố Dallas, bang Texas, Mỹ Mặc dù thời điểm tác giả sử dụng kiến trúc mạng nơron truyền thuận (FFNN) đơn giản gồm 01 lớp đầu vào, 01 lớp ẩn 01 lớp đầu Tuy nhiên, kết báo cáo nghiên cứu khả quan Trong năm gần đây, kỹ thuật AI thường thiết kế ứng dụng cho mục đích khai thác liệu lớn (bigdata), liệu CLKK số Để làm việc với liệu lớn địi hỏi kiến trúc mạng ANN phải nhiều lớp (sâu hơn) – gọi mạng nơron sâu (DNN) Tuy nhiên, kiến trúc kết nối đầy đủ ANN thông thường khơng cịn phù hợp lượng tham số sử dụng mơ hình q lớn, chúng tiêu tốn q nhiều tài nguyên máy tính Từ thực tế trên, để giảm số lượng tham số mạng, cách tiếp cận khả thi sử dụng thành công cố gắng giảm chiều liệu qua lớp mạng Một kiến trúc mạng nơron đặc biệt gọi mạng nơron tích chập – CNN hồn chỉnh lần giới thiệu ứng dụng Yann LeCunn cộng năm 1998 dựa cách tiếp cận để nhận diện ký tự Nhờ ưu điểm này, CNN trở thành ANN ứng dụng nhiều cho toán khai thác liệu lớn, theo thống kê từ hệ thống Google Scholar nghiên cứu trích dẫn 28.998 lần (truy cập lúc 16 15’ ngày 17 tháng năm 2020) Trong lĩnh vực dự báo CLKK, CNN ứng dụng thành công Tuy nhiên, giống ANN thông thường, hạn chế CNN khai thác liệu theo chuỗi thời gian liệu CLKK, đầu vào mơ hình mẫu liệu rời rạc, trình huấn luyện mẫu đưa vào huấn luyện cách ngẫu nhiên khơng theo trình tự thời gian Điều làm thơng tin chu kỳ diễn biến nồng độ chất ô nhiễm theo thời gian (ngày, tuần, mùa, …) Mặt khác, mô hình lai kết hợp CNN-LSTM nghiên cứu ứng dụng mơ hình dự báo CLKK đặc biệt phát triển mơ hình dự báo CLKK cho đô thị thông minh cho kết khả quan Điều cho thấy tiềm ứng dụng AI nói chung, ANN nói riêng đặc biệt mạng ANN học sâu để xây dựng mơ hình dự báo thống kê CLKK lớn 1.2.2 Ở Việt Nam Trong 15 năm trở lại đây, ý thức tầm quan trọng công tác quản lý bảo vệ CLKK đặc biệt công tác dự báo Chính vậy, mơ hình dự báo CLKK nghiên cứu ứng dụng mơ hình phát thải giao thơng SMOKE, mơ hình CMAQ để dự báo CLKK cho số tỉnh phía Bắc thành phố Hồ Chí Minh, mơ hình DPSIR mơ hình TAPOM với kết khả quan Tuy nhiên, tựu chung lại mơ hình nghiên cứu ứng dụng Việt Nam hầu hết mô hình phát thải (như SMOKE, MOBILE), mơ hình quang hóa (CMAQ, TAPOM) mơ hình động lực học (DPSIR) Như phân tích phần trên, loại mơ hình có ưu điểm độ xác cao, đánh giá sâu sắc vấn đề liên quan đến biến động nồng độ chất nhiễm khơng khí q trình khí tượng, q trình biến đổi hóa học…áp dụng với quy mơ rộng lớn kết hợp với mơ hình khí tượng ứng dụng Việt Nam MM5, FVM… Tuy nhiên, nhược điểm chung mơ hình khối lượng tính tốn lớn, phức tạp đòi hỏi hệ thống sở hạ tầng công nghệ thông tin đủ mạnh Thêm nữa, việc vận hành mơ hình loại địi hỏi có chuyên môn tương đối cao, sai sót thiết lập (setup) mơ hình gây sai số khơng mong muốn Nhìn vào trạng thấy mơ hình ứng dụng trí tuệ nhân tạo dự báo khai thác liệu mơi trường khơng khí Việt Nam hạn chế Cùng với phát triển chung Thế giới, kỹ thuật trí tuệ nhân tạo nghiên cứu áp dụng nhiều lĩnh vực Việt Nam Theo liệu học liệu mở cổng thông tin quốc gia (www.vista.gov.vn) từ năm 1985 kể đến ứng dụng công nghệ thông tin, điều khiển kiểm sốt q trình cơng nghệ, lĩnh vực dự báo nhu cầu lượng, dự báo lũ, xây dựng đặc biệt ứng dụng dự báo kinh tế… Trong lĩnh vực quản lý bảo vệ môi trường việc ứng dụng kỹ thuật trí tuệ nhân tạo bước đầu có kết tương đối khả quan Điều cho thấy, tiềm ứng dụng kỹ thuật trí tuệ nhân tạo thực tế quản lý sản xuất lớn Đối với quản lý dự báo CLKK việc ứng dụng trí tuệ nhân tạo chưa có nghiên cứu nào, nhiên vấn đề thử nghiệm sử dụng ANN để bổ khuyết số liệu quan trắc CLKK trạm Láng, Hà Nội, thử nghiệm, kết thu tương đối khả quan, cho thấy việc ứng dụng ANN nói riêng kỹ thuật trí tuệ nhân tạo nói chung Việt Nam có tiềm 1.3 Mơ hình trí tuệ nhân tạo 1.3.1 Mơ hình ARIMA Mơ hình ARIMA Box Jenkins đề xuất năm 1970, mơ hình phân tích liệu theo chuỗi thời gian kết hợp hai thành phần (mơ hình con) gồm mơ hình tự hồi quy (Autoregressive - AR) mơ hình trung bình trượt (Moving average – MA), mơ tả tóm tắt đây: + Mơ hình tự hồi quy (Autoregressive – AR): + Mơ hình trung bình trượt (Moving average – MA Kết hợp hai mơ hình thành mơ hình có tham số (p, q) gọi ARMA, p tham số mơ hình AR q tham số mơ hình MA, trình bày phương trình đây: 1.3.2 Mạng nơron nhân tạo (ANN) Mạng nơron nhân tạo (ANN) giới thiệu lần đầu McCulloch Pitt (1943), cấu trúc tốn học mơ tả lại hệ thần kinh sinh học Chúng tạo thành từ phần tử xử lý thông tin gọi nơron (tế bào thần kinh) Mỗi nơron nhận tín hiệu từ nơron khác từ bên ngồi thơng qua synape Tại đây, thông tin xử lý thông qua hàm truyền (transfer function) để tạo thành tín hiệu truyền đến nơron khác dựa kinh nghiệm học tập trước Mơ hình tốn ANN thể Hình 1.1 Hình 1 Mơ hình tốn nơron Hình Kiến trúc ANN 1.3.3 Máy hỗ trợ véc tơ (SVM) Thuật toán SVMs phát triển Vapnik (1995) dựa lý thuyết thống kê, ban đầu sử dụng toán phân lớp liệu Thuật toán SVMs sử dụng mơ hình tuyến tính để phân chia ranh giới lớp phi tuyến cách mô tả liệu đầu vào ánh xạ phi tuyến, nói cách khác biến đổi không gian ban đầu thành không gian SVMs thuật tốn sở mơ hình tuyến tính đặc biệt: Lề tối đa siêu phẳng Trong đó, lề siêu phẳng ranh giới phân chia lớp liệu Mục tiêu tốn hồi quy gần hàm g(x) từ mẫu 1.3.4 Mạng nơron tích chập (CNN) Mạng nơron tích chập (convolutional neural network) loại mạng nơron nhân tạo chứng minh tính hiệu nhiều lĩnh vực phức tạp xe tự hành, nhận dạng sinh trắc học, dự báo kinh tế, điều khiển rô bốt Được giới thiệu phát triển thập niên 90 kỷ XX, kiến trúc LeNet đề xuất Yann LeCun coi mạng nơron tích chập thiết kế mơ hình nhận dạng chữ in viết tay gọi LeNet5 giúp thúc đẩy phát triển mạnh mẽ lĩnh vực học sâu (deeplearning) Một số kiến trúc mạng tích chập đề xuất năm gần đây, nhiên tất chúng sử dụng khái niệm phương pháp tiếp cận từ LeNet 1.3.5 Khối nhớ dài – ngắn (LSTM) Khối nhớ dài – ngắn (long-short term memory – LSTM) đề xuất Sepp Hochreiter Jürgen Schmidhuber năm 1997, ban đầu LSTM bao gồm tế bào hai cổng đầu vào đầu ra, sau cấu trúc LSTM hoàn thiện Gers Felix thêm cổng quên (foget gate) kết nối giám sát (peephole conections) LSTM chứa cổng vào (input gate), cổng đầu (output gate) cổng quên (foget gate), tương tác qua lại ba cổng giúp LSTM có đủ khả phân tích phụ thuộc liệu thời gian dài, điều mà RNN thơng thường khơng thể giải Ngồi ra, vấn đề gặp phải phổ biến mạng nơron sâu (nhiều lớp) gọi độ dốc (gradient descent), tức là, tốc độ học lớp ẩn phía trước chậm lớp ẩn sâu Hiện tượng thường làm giảm độ xác số lớp ẩn tăng lên Tuy nhiên, với cấu trúc ô nhớ LSTM giải hiệu vấn đề suy giảm độ dốc trình lan truyền ngược (backpropagation) phân tích chuỗi liệu đầu vào với bước thời gian dài Do đó, LSTM thường sử dụng để giải vấn đề phân tích liệu theo chuỗi thời gian CHƯƠNG PHƯƠNG PHÁP NGHIÊN CỨU 2.1 Quy trình nghiên cứu Để đạt mục tiêu đề ra, nghiên cứu thực theo bước tóm tắt đây: Bước Thu thập liệu từ trạm quan trắc CLKK Bước Làm chuẩn bị liệu: - Xử lý liệu ngoại vi - Bổ khuyết liệu - Kiểm tra độ tin cậy liệu bổ khuyết Bước Xây dựng đánh giá mơ hình nghiên cứu - Xây dựng kiến trúc mơ hình - Huấn luyện mơ hình - Đánh giá độ tin cậy mơ hình - Cải thiện hiệu suất mơ hình Bước Thực mơ hình 2.2 Thu thập liệu 2.2.1 Địa điểm thời gian thu thập liệu a Địa điểm thu thập liệu Bộ liệu quan trắc CLKK sử dụng nghiên cứu nồng độ trung bình thơng số CLKK đo trạm quan trắc CLKK tự động thuộc quyền quản lý Trung tâm quan trắc Môi trường Miền Bắc (CEM), Tổng cục Môi trường đặt số 556, Nguyễn Văn Cừ, Gia Lâm, Hà Nội, tương ứng với tọa độ 21°02'55.6"N 105°52'57.4"E b Thời gian thu thập liệu Bộ liệu thu thập quan trắc đặt số 556, Nguyễn Văn Cừ, Gia Lâm, Hà Nội từ tháng năm 2018 đến tháng năm 2019 (một năm) ghi lại phản ứng thiết bị cảm biến hóa học chất lượng khơng khí triển khai trường 2.2.2 Thông số kỹ thuật phương pháp đo đạc trạm quan trắc Chúng ta sử dụng Bộ liệu chất lượng khơng khí UCI ML để chứng minh ảnh hưởng hướng kime việc phân tích liệu theo chiều dọc Các liệu chất lượng khơng khí bao gồm 9358 phản hồi trung bình hàng từ loạt cảm biến nhúng Thiết bị đa cảm biến hóa học chất lượng khơng khí Các phép đo thực khu vực ô nhiễm đáng kể khoảng thời gian năm (tháng năm 2018 đến tháng năm 2019) Các tính bao gồm Nồng độ cho CO, Hydrocacbon khơng Metan, Benzen, Tổng Nitơ Oxit (NOx) Nitrogen Dioxit (NO2) Các thuộc tính tệp CSV bao gồm: • Ngày (DD / MM / YYYY) • Thời gian (HH.MM.SS) • Nồng độ trung bình hàng thực CO tính mg/m (máy phân tích tham chiếu) • PT08.S1 (thiếc oxit) phản hồi cảm biến trung bình hàng (nhắm mục tiêu CO danh nghĩa) • Nồng độ tổng thể Hydro-cacbon khơng Metan trung bình thực theo tính microg/m3 (máy phân tích tham chiếu) • Nồng độ Benzen trung bình thực theo tính microg/m (máy phân tích tham chiếu) • PT08.S2 (Titania) phản hồi cảm biến trung bình hàng (được nhắm mục tiêu NMHC danh nghĩa) • Nồng độ NOx trung bình hàng thực tính ppb (máy phân tích tham chiếu) • PT08.S3 (oxit vonfram) phản hồi cảm biến trung bình hàng (nhắm mục tiêu NOx danh nghĩa) • Nồng độ NO2 trung bình hàng thực tính microg/m3 (máy phân tích tham chiếu) • PT08.S4 (oxit vonfram) phản hồi cảm biến trung bình hàng (nhắm mục tiêu NO2 danh nghĩa) • PT08.S5 (indium oxide) phản hồi cảm biến trung bình hàng (được nhắm mục tiêu O3 danh nghĩa) 2.3 Ngôn ngữ, cơng cụ sử dụng 2.3.1 Ngơn ngữ lập trình R R công cụ mạnh cho học máy, thống kê phân tích liệu Nó ngơn ngữ lập trình Ngơn ngữ R platform-independent sử dụng cho hệ điều hành Việc cài đặt R miễn phì sử dụng mà khơng cần phải mua quyền R có chứa nhiều loại kỹ thuật thống kê (mơ hình hóa tuyến tính phi tuyến, kiểm thử thống kê cổ điển, phân tích chuỗi thời gian, phân loại, phân nhóm ) đồ họa R, giống S, thiết kế xoay quanh ngôn ngữ máy thực thụ, cho phép người dùng thêm tính bổ sung cách định nghĩa hàm Cũng có số khác biệt quan trọng S, nhiều mã viết S chạy mà không cần thay đổi Nhiều hệ thống R viết ngơn ngữ nó, giúp cho người dùng dễ theo dõi giải thuật Để thực công việc chun tính tốn, R liên kết với ngơn ngữ C, C++ Fortran để gọi chạy Người dùng thông thạo viết mã C để xử lý trực tiếp đối tượng R R có tính mở rộng cao cách sử dụng gói cho người dùng đưa lên cho số chức lĩnh vực nghiên cứu cụ thể Do thừa hưởng từ S, R có tảng lập trình hướng đối tượng mạnh đa số ngơn ngữ tính tốn thống kê khác Việc mở rộng R dễ dàng nhờ luật đóng khối từ vựng Một điểm mạnh khác R tảng đồ họa nó, tạo đồ thị chất lượng cao biểu tượng tốn học R có đinh dạng văn riêng tương tự LaTeX, dùng để cung cấp tài liệu hướng dẫn tồn diện, có trực tuyến định dạng khác in Dù R dùng chủ yếu nhà thống kê người sử dụng khác đòi hỏi mơi trường tính tốn thống kê phát triển phần mềm, dùng làm cơng cụ tính tốn ma trận tổng qt với kết đo đạc cạnh tranh so với GNU Octave đối thủ thương mại nó, MATLAB Giao diện RWeka thêm vào phần mềm khai phá liệu phổ biến Weka, cho phép đọc/ghi định dạng arff cho phép sử dụng tính khai phá liệu Weka thống kê R 2.3.2 Công cụ sử dụng RStudio mơi trường phát triển tích hợp (IDE) cho R, ngơn ngữ lập trình cho tính tốn thống kê đồ họa Nó có sẵn hai định dạng: RStudio Desktop ứng dụng máy tính để bàn thơng thường RStudio Server chạy máy chủ từ xa cho phép truy cập RStudio trình duyệt web RStudio IDE có sẵn với Giấy phép Công cộng GNU Affero phiên AGPL v3 giấy phép nguồn mở đảm bảo quyền tự chia sẻ mã RStudio Desktop RStudio Server có sẵn phiên miễn phí tính phí (thương mại) Hỗ trợ hệ điều hành phụ thuộc vào định dạng / phiên IDE Các phân phối đóng gói sẵn RStudio Desktop có sẵn cho Windows, macOS Linux RStudio Server Server Pro chạy Debian, Ubuntu, Red Hat Linux, CentOS, openSUSE SLES CHƯƠNG KẾT QUẢ VÀ THẢO LUẬN 3.1 Kết phân tích xử lý liệu đầu vào 3.1.1 Tình trạng liệu thu thập Kết từ Hình 3.1 cho thấy, lượng liệu trống (không đo đạc được) lớn (từ 6,7% đến 83,2%) Trong đó, có thơng số có lượng liệu trống lên đến 50% tổng số quan trắc tập trung vào nhóm thông số hydrocarbon, cụ thể CH 4, NMHC, THC, benzene, toluen, ethyl-benzen, mp-xylen o-xylen có tỷ lệ liệu trống tương ứng 81,9%; 82,1%; 83,2%; 49,2%; 56,8%; 49,1% 53% tổng số 78.888 quan trắc Trong bước xử lý liệu tiếp theo, giá trị xác định ngoại vi coi liệu trống (dữ liệu trống – missing values), vậy, lượng liệu trống sau bước xử lý ngoại vi cịn tăng lên đáng kể Điều làm ảnh hưởng lớn đến việc lựa chọn độ tin cậy phương pháp bổ khuyết liệu, ví dụ làm sai lệch chất phân bố liệu, tính chu kỳ diễn biến nồng độ chất ô nhiễm… Chính vậy, khơng phải tồn thông số quan trắc nồng độ hydrocacbon tất vượt 50% benzen (49,2%) MP-xylen (49,1%), nhiên, qua quan sát bước đầu cho thấy, chất lượng liệu cịn lại thơng số không cao, tồn nhiều lỗi phần lớn liệu cịn lại có giá trị Do vậy, Báo cáo không nghiên cứu tiếp thông số quan trắc nồng độ hydrocacbon gồm CH4, NMHC, THC, benzene, toluene, ethyl-benzen, mp-xylen o-xylen bước Hình Tỷ lệ liệu trống thông số quan trắc liệu nguồn 3.1.2 Kết xử lý liệu hỏng liệu ngoại vi Như trình bày trên, biểu đồ hộp sử dụng để phát giá trị ngoại vi (dị thường) liệu Trong đó, đó, điểm liệu có giá trị lớn Q3 + 1,5*IQR nhỏ Q1 - 1,5*IQR (trong đó, Q1 Q3 phân vị 25% phân vị 75%, IQR = Q3-Q1) tạm nghi ngờ liệu ngoại vi, kết phân tích trình bày Hình 3.2 Hình Biểu đồ hộp xác định liệu ngoại vi Hình 3.2 cho thấy, số lượng điểm liệu xác định ngoại vi phát không nhỏ Tuy nhiên, số liệu cịn chứa liệu đột biến bất thường mà lỗi Do đó, dựa nguyên lý, xảy kiện làm nồng độ thời gian cao bất thường dù thời gian ngắn hay dài diễn biến nồng độ chất ô nhiễm phát sinh cố ảnh hưởng yếu tố khí tượng yếu tố hóa học có xu hướng giảm cố kết thúc Xu diễn thời gian ngắn (vài phút) hay dài (nhiều giờ) phụ thuộc vào thời gian xảy cố điều kiện khí tượng thời điểm Chính vậy, để xác cơng tác làm liệu Báo cáo tất liệu phát ngoại vi biểu đồ hộp đối chiếu với liệu gốc (dữ liệu trung bình phút) Sau đối chiếu, số liệu nghi ngờ liệu ngoại vi phát biểu đồ hộp, có phần liệu dị thường nguyên nhân khác mà lỗi đo đạc Điều thể rõ biểu đồ hộp thống kê thông số CLKK sau loại bỏ liệu ngoại vi Hình 3.3 Có thể thấy, tồn số lượng giá trị phương pháp nghi ngờ liệu ngoại vi, giá trị nồng độ “dị thường” chất ô nhiễm lỗi đo đạc Các liệu xác định ngoại vi (bất thường lỗi đo đạc máy móc) coi liệu trống Hình 3 Biểu đồ hộp thông số sau xử lý liệu ngoại vi Kết thống kê tỷ lệ liệu trống trước sau xử lý liệu ngoại vi trình bày Bảng 3.2 cho thấy, tỷ lệ liệu trống thông số quan trắc CLKK trạm quan trắc Nguyễn Văn Cừ, Long Biên, Hà Nội tăng lên đáng kể sau bước xử lý liệu ngoại vi (trung bình tăng lên khoảng 3.94 % tổng lượng liệu quan trắc) Trong đó, cá biệt có thơng số có tỷ lệ liệu ngoại vi phát xử lý lên đến 5%, cụ thể thông số: O3, SO2 CO 6,49%; 6,95% 5,12%, tương ứng với 4000 điểm liệu bị loại bỏ 3.2 Phản hồi trung bình hàng Năm cảm biến ghi lại nồng độ thực tế mặt đất carbon monoxide (CO), Hydrocacbon không metan (NMHC), Benzen (C6H6), nitơ oxit (NOx) nitơ đioxit (NO2) Ngoài ra, năm cảm biến ghi lại phép đo hạt bổ sung; đó, ta xem xét mối quan hệ hạt hạt thứ cấp đo cảm biến Cảm biến 1, nhắm mục tiêu CO ghi lại phép đo oxit thiếc S nO2 Cột liệu có nhãn PT08.S1 Khi vẽ biểu đồ CO so với S nO2, nhận thấy có mối quan hệ tuyến tính cao chúng, chúng có hệ số tương quan khoảng 0,94 Điều ngụ ý việc biết dự đốn kia, có hai làm yếu tố dự đốn nhiệt độ khơng cần thiết Tương tự, cảm biến chủ yếu thực phép đo NMHC sử dụng vật liệu mà nhà nghiên cứu gọi titania, titan điơxít TiO Mối quan hệ NMHC TiO2 dường theo cấp số nhân, xác nhận cách vẽ biểu đồ (NMHC) so với TiO2, cho mối tương quan khoảng 0,93 Một lần nữa, TiO hóa học thứ cấp có liên quan nhiều đến NMHC hóa học chính, ta xem xét NMHC Cảm biến thực phép đo chủ yếu tổng số ơxít nitơ NO x, mà cịn ơxít vonfram WO3 Giống NMHC, có mối quan hệ theo cấp số nhân NO x WO3, mà nhận thấy cách vẽ biểu đồ (NO x) so với WO3, cho hệ số tương quan khoảng -0,90 Vì vậy, ta xem xét NOx cho hồi quy Cảm biến chủ yếu ghi nhận NO 2, ghi nhận oxit vonfram thứ hai Mối tương quan tuyến tính, với hệ số tương quan khoảng 0,81 Không thấy mối quan hệ theo cấp số nhân hai, khơng lấy log (NO2) Cuối cùng, cảm biến ghi lại phép đo oxit indium In 2O3, danh nghĩa nhắm mục tiêu vào ozone, O Nhưng liệu không chứa cột cho O 3, nên không cần phải xem xét mối quan hệ với oxit indium Do đó, khơng xem xét hạt thứ cấp tạo mơ hình cho Nhiệt độ, hạt đủ nhằm tránh tác động chéo Một yếu tố khác cần lưu ý cột liệu ghi lượng nitơ điơxít, NO2, cột khác ghi lượng ơxít nitơ tổng, NOx; NO2 dạng oxit nitơ, điều ngụ ý hai biến liên quan với Để kiểm tra điều này, vẽ biểu đồ chúng nhận thấy hệ số tương quan chúng khoảng 0,86 Vì có mối quan hệ tuyến tính mạnh mẽ, tơi định loại bỏ NO để phân tích xem xét NOx Tương tự, kiểm tra mối quan hệ độ ẩm tương đối (RH) độ ẩm tuyệt đối (AH) Thấy chúng tương quan tuyến tính yếu, với hệ số khoảng 0,48, tơi muốn loại trừ RH khỏi mơ hình hồi quy, có tác động chéo yếu RH AH 3.3 Dự đoán với hồi quy tuyến tính Đầu tiên, thử mơ hình hồi quy tuyến tính, hạt với Độ ẩm tuyệt đối sử dụng làm yếu tố dự báo tìm cách giữ lại hạt có ý nghĩa thống kê Khi xem xét giá trị p tính tốn hóa chất, coi giá trị p nhỏ 0,05 có ý nghĩa Nhận thấy NMHC, In2O3 AH có giá trị p = lớn hơn, loại bỏ chúng lần lặp Đưa mơ hình có biến giải thích CO, C6H6, NOx Mơ hình dường cơng cụ dự đốn xác nhiệt độ trung bình, hình đây: Tuy nhiên, muốn kiểm tra tác động chéo hạt Độ ẩm Tuyệt đối, AH ta thêm vào thuật ngữ cho biến từ mơ hình đa điểm với AH, với AH Một lần nữa, kiểm tra mức ý nghĩa nhận thấy độ ẩm tuyệt đối số hạng chéo khơng có ý nghĩa hồi quy, hiển thị bên dưới, tất giá trị p chúng lớn 0,05 Tiếp tục sử dụng phiên thứ hai mơ hình hồi quy, mơ hình có số lượng dự báo có ý nghĩa thống kê Sử dụng mơ hình này, đưa dự đốn nhiệt độ tính tốn phần trăm sai số cho giá trị thực Sử dụng hệ số đưa hồi quy, ta có phương trình: T = 15,31 - 3,37c + 1,33b - 0,04n Trong đó: T nhiệt độ tính C c lượng cacbon monoxit (CO) b lượng benzen (C6H6) n tổng lượng nitơ oxit (NO