CHƯƠNG 1 TỔNG QUAN VỀ Ô NHIỄM KHÔNG KHÍ
2.3 Phương pháp đề xuất
Theo các nghiên cứu hiện tại ở Việt Nam chứa có một qui trình chính thống nào được sử dụng với những dữ liệu quan trắc môi trường. Các quy trình hiện tại được sử dụng chủ yếu dựa trên những kinh nghiệm cá nhân của nhà phân tích mà chưa có một tài liệu củ thể nào được đưa ra đối với dữ liệu quan trắc môi trường. Dựa trên những đặc điểm dữ liệu, hiện trạng dữ liệu kết hợp với kinh nghiệm bản thân thu được trong quá trình hỗ trợ xử lý dữ liệu quan trắc môi trường cho CEM cũng như thông qua việc tổng hợp các nghiên cứu, tập hợp tài liệu [24, 25, 26] tôi đề xuất quy trình chuẩn hóa dữ liệu quan trắc môi trường theo 5 bước. Từ cơ sở đó xây dựng công cụ tự động hóa hỗ trợ công tác xử lý dữ liệu quan trắc môi trường ở Việt Nam.
Phương pháp chuẩn hóa dữ liệu quan trắc môi trường được đề xuất bao gồm 5 bước như sau (Hình 2.3):
1. Thu thập dữ liệu.
2. Đánh giá dữ liệu tổng quan (dựa trên thống kê). 3. Xử lý dữ liệu nhiễu.
4. Xử lý dữ liệu thiếu.
5. Đánh giá dữ liệu sau mỗi bước.
Các bước con trong quy trình được mô tả chi tiết như Bảng 2.2. Các qui trình con có thể chạy đôc lập và có thể xoay vòng thông qua công tác đánh giá dữ liệu sau mỗi bước xử lý. Với những kết quả đánh giá cụ thể nhà phân tích sẽ đưa ra những hướng xử lý khác nhau để sinh ra bộ dữ liệu cuối cùng đạt kết quả tốt nhất.
Phương pháp đề xuất trên sẽ được mô tả, trình bày chi tiết với dữ liệu quan trắc thực tế tại Chương 3.
Bảng 2.2 Thông tin chi tiết từng quy trình con trong quy trình chuẩn hóa dữ liệu quan trắc môi trường được đề xuất
TT Tên quy trình Nội dung Người thực hiện Điều kiện áp dụng Công cụ xử lý
1 Thu thập dữ liệu
Thu thập dữ liệu quan trắc ô nhiễm không khí và thông số khí tượng. Sau đó tập hợp, xây dựng bộ dữ liệu chung theo qui ước đã định. Mục đích là xây dựng một bộ dữ liệu chuẩn về cấu trúc sao cho đơn giản hóa quá trình quản lý và phân tích dữ liệu.
-Nhân viên quản lý trạm quan trắc -Nhà phân tích dữ liệu Áp dụng hàng ngày/tuần định kỳ khi có dữ liệu mới -Excel -EnvPro 2 Đánh giá dữ liệu tổng quan Sử dụng các phương pháp thống kê dữ liệu đưa ra những đánh giá, đặc trưng nhất của dữ liệu. Với những phân tích sơ bộ ta có thể thấy và so sánh được nhưng xu hướng (Trend) của dữ liệu và so sánh với thực tế từ đó kết luận độ tin cậy của dữ liệu
Nhà phân tích dữ liệu Áp dụng hàng ngày/tuần/tháng/năm định kỳ. EnvPro 3 Xử lý dữ liệu nhiễu
-Loại bỏ dữ liệu theo khoảng dữ liệu tin cậy.
-Xác định và đánh giá dữ liệu
bất thường: Sử dụng phương pháp phân tích tương quan phát hiện những ngày có dữ liệu quan trắc bất thường. Từ đó đưa ra những phương pháp để xử lý.
4 Xử lý dữ liệu thiếu
Sử dụng thuật toán hồi quy tuyến tính và phân tích tương quan giữa những chỉ tiêu quan trắc... để điền giá trị quan trắc cho những bản ghi thiếu dữ liệu.
Nhà phân tích dữ liệu Áp dụng hàng tháng EnvPro
5
Đánh giá dữ liệu sau mỗi bước
Đánh giá kết quả sau mỗi qui trình con. Tùy vào kết quả đạt được, nhà phân tích tiến hành chạy lại quy trình đang thực hiện hoặc thực hiện quy trình kế tiếp.
Nhà phân tích dữ liệu Sau mỗi qui trình từ 2-4
Kinh nghiệm phân tích dữ liệu quan trắc môi trường
Thu thập dữ liệu
Tập hợp dữ liệu, chuyển đổi đơn vị đo, cấu trúc vị trí các cột, tên cột…
Đánh giá dữ liệu
Thống kê dữ liệu thiếu
Sử dụng các chỉ số thống kê Mean, Median,
Mode… Các biểu đồ thống kê Line, Boxplot… Đưa ra đánh giá về dữ liệu
Xác định các xu hướng biến đổi của bộ dữ liệu, so sánh với thực tế.
Xử lý dữ liệu nhiễu
Phát hiện, xử lý dữ liệu bất thường: Sử dụng phép phân tích tương quan
Xác định khoảng tin cậy dữ liệu: Loại bỏ những giá trị ngoài khoảng tin cậy
Xử lý dữ liệu thiếu
Sử dụng thuật toán hồi quy tuyến tính và mối tương quan giữa những chỉ tiêu quan trắc để điền dữ liệu thiếu.
Đánh giá kết quả
Hình 2.3. Sơ đồ tổng quan quy trình đề xuất chuẩn hóa dữ liệu quan trắc môi trường tại Việt Nam
CHƯƠNG 3. ĐÁNH GIÁ QUY TRÌNH CHUẨN HÓA DỮ LIỆU QUAN TRẮC PM10 TẠI TRẠM NGUYỄN VĂN CỪ, HÀ NỘI