Thu thập bộ dữ liệu

Một phần của tài liệu Phát triển ứng dụng quan trắc và dự báo môi trường trên mobile (Trang 53 - 55)

Từ những báo cáo quan trắc môi trường nước NTTS của Trung tâm Giống, Viện

III, Sở Tài nguyên môi trường tỉnh Phú Yên tại đầm Cù Mông, vịnh Xuân Đài,

50 mạng. Bộ dữ liệu lấy từ06:00 05/02/2019 đến 12:00 16/12/2019 (Hình 3.1). Dữ liệu này chỉ mang tính chất tham khảo vì dữ liệu được bổ sung, làm mịn từnăm 2018 đến 2020.

Hình 3.1: Bộ dữ liệu đo đạc thực tế

Bộ dữ liệu gồm 1887 dòng, tương ứng với 1887 khoảng thời gian đo đạc, mỗi khoảng thời gian cách nhau 3 giờ. 13 cột của bộ dữ liệu tương ứng với 08

thông số môi trường nước (Nhiệt độ, độ mặn, PH, NH3, H2S, TSS, DO, COD)

và các cột năm, tháng, ngày, thời gian, timestamp.

Dữ liệu được tổng hợp từ 00h00 ngày 05/02/2019 đến 00h00 ngày 09/10/2019 là dữ liệu được lấy để thực hiện đào tạọ Từ 06h00 ngày 09/10/2019 đến 12h00 ngày 16/12/2019 là dữ liệu được lấy để thực hiện kiểm trạ Dữ liệu tổng hợp từcác báo cáo định kỳ của các trung tâm và được xử lý thủ công bằng tay và lưu vào file excel. Dữ liệu ở cột nhiệt độ được chuyển về dạng số, sau đó loại bỏ các cột dữ liệu không cần thiết đểđưa vào đào tạọ

Tuy nhiên việc định kỳđo kiểm tra các tham số của các trung tâm không có quy luật, có những tham số không có trong báo cáọ Vì vậy, cần có bước tiền xử lý dữ liệu trước khi thực hiện các bước tiếp theọ Trước hết là việc việc xác định các điểm dữ liệu thiếu và sai khác có sai khác.

Time = pandas.read_csv('2019/1.csv', usecols=['Daté, 'Hour', 'Temperature Number']) % 2019 is example

hour_test = pandas.to_datetime(Time['Hour']) Time_1 = Timedeltắ0 days 00:30:00')

Time_2 = Timedeltắ-1 days +00:30:00') for i in range(0,len(hour_test)-1):

51

hour_test[i+1]-hour_test[i]==Time_2): continue

else: print(i+2)

Với hàm trên sẽ in ra những điểm bị thiếu trong bộ dữ liệu để có thể bổ sung. Việc bổ sung điểm dữ liệu hoàn toàn thủ công. Với những nơi bị thiếu 1-2 điểm dữ liệu, dữ liệu sẽđược bổ sung bằng cách quy ước nhiệt độ tại các điểm đó bằng với nhiệt độ của các ngày lân cận. Với những vùng thiếu nhiều điểm dữ liệu, dữ liệu được bổ sung dựa vào những năm liền kề cùng ngày và có nhiệt độ tại các thời điểm trong ngày tương đương với nhiệt độ tại ngày đó.

Một phần của tài liệu Phát triển ứng dụng quan trắc và dự báo môi trường trên mobile (Trang 53 - 55)