Bài viết trên cơ sở hiện trạng của tập dữ liệu này, sẽ tiến hành thực nghiệm các phương pháp làm sạch dữ liệu để loại bỏ ngoại lai, thay thế giá trị thiếu bằng phương pháp nội suy và chuẩn hóa dữ liệu về dạng chuỗi thời gian với khoảng thời gian cách đều nhau 3h. Dữ liệu sau khi đã được chuẩn hóa, làm sạch, đảm bảo tính đầy đủ và độ tin cậy sẽ là yếu tố quyết định tới độ chính xác của các mô hình dự đoán, dự báo.
DOI: 10.36335/VNJHM.2020(714).18-29 BÀI BÁO KHOA HỌC CÁC PHƯƠNG PHÁP CHUẨN HÓA DỮ LIỆU THỦY VĂN ÁP DỤNG CHO TRẠM 74129 - N BÁI Đặng Văn Nam1, Hồng Q Nhân2, Ngơ Văn Mạnh3, Nguyễn Thị Hiền4 Tóm tắt: Dữ liệu mực nước (water level) trạm sông chủ yếu thu thập phương pháp quan trắc thủ công với tần suất thu thập khác tùy thuộc vào thời điểm năm Các liệu cần phải làm để loại bỏ điểm bất thường (Outliers), giá trị thiếu (Missing values), chuẩn hóa dạng chuỗi thời gian (Time series)… Trong nội dung báo này, nhóm tác giả trạng liệu mực nước thu thập trạm 74129 - Yên Bái giai đoạn năm từ 01/01/2011 đến 31/12/2019; Đây liệu thực tế, cung cấp Trung tâm thơng tin Dữ liệu khí tượng thủy văn Trên sở trạng tập liệu này, tiến hành thực nghiệm phương pháp làm liệu để loại bỏ ngoại lai, thay giá trị thiếu phương pháp nội suy chuẩn hóa liệu dạng chuỗi thời gian với khoảng thời gian cách 3h Dữ liệu sau chuẩn hóa, làm sạch, đảm bảo tính đầy đủ độ tin cậy yếu tố định tới độ xác mơ hình dự đốn, dự báo Từ khóa: Mực nước, ngoại lai, liệu thiếu, chuỗi thời gian Ban Biên tập nhận bài: 12/04/2020 18 Ngày phản biện xong: 20/06/2020 Đặt vấn đề Dữ liệu mực nước thu thập từ trạm quan trắc sơng thực thơng qua quan trắc thủ công (ghi nhận trực tiếp giá trị yếu tố đo thiết bị quan trắc) quan trắc tự động (ghi nhận giá trị yếu tố đo thiết bị tự động truyền người sử dụng theo nhu cầu) [1] Hiện nay, việc quan trắc mực nước hệ thống sông chủ yếu sử dụng phương pháp quan trắc thủ công, người quan trắc ghi nhận giá trị thước đo mực nước sau gửi liệu trung tâm để lưu trữ, xử lý Do nhiều yếu tố chủ quan khách quan, dẫn đến trình ghi nhận giá trị gửi số liệu quan trắc trung tâm bị sai sót, nhầm lẫn, mát so với giá trị thực tế Hơn nữa, tùy vào thời điểm, mùa vụ năm mà chế độ quan trắc mực nước khác lần/ngày (7h, 19h), lần/ngày (1h, 7h, 13h, 19h) lần/ngày (1h, 4h, 7h, 10h, 13h, 16h, 19h, 21h) Đại học Mỏ-Địa Chất, Đại học Nông lâm Thái Nguyên, Trung tâm Thông tin Dữ liệu khí tượng thủy văn, Học viện Kỹ thuật quân Email: dangvannam@humg.edu.vn TẠP CHÍ KHÍ TƯỢNG THỦY VĂN Số tháng 06 - 2020 Ngày đăng bài: 25/06/2020 vào thời điểm mùa cạn, thời kỳ đầu mùa lũ biên độ mực nước ngày nhỏ; tăng lên 12 lần/ngày (1h, 3h, 5h, 7h, 9h, 11h, 13h, 15h, 17h, 19h, 21h, 23h), 24 lần/ngày (0h, 1h, 2h,…., 22h, 23h)… áp dụng mùa lũ mực nước biến đổi ngày lớn [1] Vì vậy, liệu thu thập bị ngắt quãng không liên tục, thời điểm lấy liệu khác tùy thuộc vào mùa năm, đặc điểm lưu vực, đặc điểm trận mưa, thời gian lũ…Đây liệu ghi nhận lưu trữ theo thời gian, lại liệu chuỗi thời gian (Time series data) Do khơng thể áp dụng mơ hình dự báo chuỗi thời gian như: MA, ARMA, ARIMA, PARMA, GARMA…hay mơ hình học máy, học sâu khác việc xây dựng mơ hình dự báo mực nước trạm quan trắc, phục vụ việc cảnh báo lũ toán liên quan khác [2-4] Có thể thấy, liệu quan trắc mực nước thu thập lưu trữ liệu thô (Raw data), liệu cần phải chuẩn hóa làm (Data preparation) trước sử dụng cho mục đích gì, công đoạn bắt buộc thiếu [5,6] Kết nhiều nghiên cứu rằng, 80% thời gian, BÀI BÁO KHOA HỌC công sức nguồn lực dự án khoa học liệu nằm khâu chuẩn bị liệu Trong phần báo, nhóm tác giả tìm hiểu phương pháp thu thập trạng liệu thủy văn trạm 74129 - Yên Bái giai đoạn năm từ ngày 01/01/2011 đến hết ngày 31/12/2019, từ xác định phương pháp chuẩn hóa liệu cần thiết, phù hợp với tập liệu Nhóm tác giả sử dụng thư viện, kỹ thuật lập trình để xây dựng module thực việc loại bỏ điểm ngoại lai, điểm thiếu liệu chuẩn hóa liệu mực nước dạng chuỗi thời gian Các phương pháp tiền xử lý liệu áp dụng cho trạm 74129 làm sở áp dụng với trạm quan trắc thủy văn khác hệ thống sơng Hồng nói chung Hình Vị trí trạm 74129 bảng đồ Google Maps Phương pháp thu thập trạng liệu thủy văn trạm 74129 - Yên Bái 2.1 Phương pháp thu thập liệu mực nước Dữ liệu mực nước trạm quan trắc thủy văn sơng Hồng nói chung trạm 74129 nói riêng thu thập phương pháp quan trắc thủ công Hàng ngày, vào thời gian quy định người quan trắc ghi nhận trực tiếp giá trị mực nước thiết bị quan trắc sau gửi giá trị Trung tâm Thơng tin Khí tượng thủy văn để lưu trữ xử lý, phục vụ cho mục đích cụ thể Hình thể vị trí số trạm hệ thống sông Hồng có trạm 74129 - Yên Bái Chế độ quan trắc mực nước phải đảm bảo phản ánh trình diễn biễn mực nước cách đầy đủ, khách quan phải có tính khả thi [1] Theo TCVN 12636-2:2019 với quan trắc thủ cơng có chế độ: • Chế độ 1: Mỗi ngày quan trắc lần vào thời điểm: 7h, 19h; áp dụng mùa cạn sông vùng không ảnh hưởng thủy triều, thời kỳ biên độ mực nước ngày nhỏ 5cm (∆H ≤ 5cm) • Chế độ 2: Mỗi ngày quan trắc lần vào thời điểm: 1h, 7h, 13h, 19h; áp dụng thời kỳ biên độ mực nước ngày lớn cm nhỏ 10cm (5 < ∆H ≤ 10cm), đầu cuối mùa cạn sơng thuộc vùng khơng ảnh hưởng thủy triều • Chế độ 3: Mỗi ngày quan trắc lần vào thời điểm: 1h, 4h, 7h, 10h, 13h, 16h, 19h, 22h; áp dụng thời kỳ mực nước biến đổi rõ rệt ngày, thời kỳ đầu mùa lũ sông vừa lớn thuộc vùng không ảnh hưởng thủy triều • Chế độ 4: Mỗi ngày quan trắc 12 lần vào thời điểm: 1h, 3h, 5h, 7h, 9h, 11h, 13h, 15h, 17h, TẠP CHÍ KHÍ TƯỢNG THỦY VĂN Số tháng 06 - 2020 19 BÀI BÁO KHOA HỌC 20 19h, 21h, 23h; áp dụng thời kỳ mực nước biến đổi lớn ngày, mùa lũ sông vừa lớn, nơi chịu ảnh hưởng nhật triều có biên độ nhỏ 1m • Chế độ 5: Mỗi ngày quan trắc vào thời điểm: 1h, 3h, 5h, 7h, 9h, 11h, 13h, 15h, 17h, 19h, 21h, 23h Ngoài trước, sau chân, đỉnh (triều lũ) quan trắc lần, áp dụng trạm chịu ảnh hưởng nhật triều có biên độ triều lớn (∆H ≥ 1m) ngày có lũ lớn sơng vừa lớn • Chế độ 6: Mỗi ngày quan trắc 24 lần vào thời điểm: 0h, 1h, 2h …, 22h, 23h; áp dụng thời kỳ lũ sông, tuyến quan trắc chịu ảnh hưởng nhật triều ảnh hưởng lớn bán nhật triều • Chế độ 7: Mỗi ngày quan trắc 24 lần vào thời điểm: 0h, 1h, 2h, …, 22h, 23h Ngoài chân, đỉnh (triều lũ) cách 5, 10, 15 30 phút quan trắc thêm lần Khoảng thời gian quan trắc xác định theo biến đổi mực nước, nhằm quan trắc xác trị số mực nước thời gian xuất mực nước thời gian xuất mực nước chân, đỉnh áp dụng nơi mực nước chịu ảnh hưởng triều mạnh sông, suối nhỏ thời kỳ lũ • Chế độ 8: Cách phút, 10 phút, 15 phút 20 phút quan trắc lần, từ lũ lên đến hết trận lũ Tại chân, đỉnh lũ quan trắc dày hơn, sườn lũ lên quan trắc dày sườn lũ xuống Khoảng cách thời gian quan trắc xác định theo biến đổi cường suất mực nước thời gian kéo dài trận lũ Cường suất mực nước biến đổi lớn, thời gian lũ ngắn, để đảm bảo quan trắc xác trị số mực nước chân, đỉnh lũ điểm chuyển tiếp trận lũ Cần nắm vững đặc điểm lưu vực, đặc điểm trận mưa (cường độ mưa, trung tâm mưa…) để bố trí thời gian quan trắc [1] Với trạm 74129 thực theo chế độ quan trắc từ đến tùy thuộc vào điều kiện cụ thể theo mùa, theo trận lũ… Dữ liệu sau ghi nhận gửi lưu trữ sở liệu Trung tâm Thơng tin Dữ liệu khí tượng thủy văn Để thuận lợi cho việc phân TẠP CHÍ KHÍ TƯỢNG THỦY VĂN Số tháng 06 - 2020 tích truy xuất liệu thủy văn lưu trữ MongoDB tách để lấy số liệu giai đoạn năm gần (2011 2019); Dữ liệu sau lưu trữ file theo định dạng CSV (Comma Separated Values) có tên Data_waterlevel_74129, bao gồm thuộc tính TimeVN: Cho biết thời điểm quan trắc mực nước định dạng YYYY-MM-DD hh:mm; thuộc tính 74129: Giá trị quan trắc mực nước (Water level) trạm 74129 tương ứng với thời điểm quan trắc, đơn vị cm Hình minh họa 12 dịng liệu tập liệu Hình Cấu trúc file Data_waterlevel_74129.csv 2.2 Khám phá liệu mực nước trạm 74129 Trước đưa phương pháp xử lý chuẩn hóa liệu thủy văn cho trạm 74129, ta cần phải khám phá hiểu chi tiết trạng số liệu Bảng cho biết thông số tổng quan tập liệu quan trắc Bảng Thống kê thông số quan trắc trạm 74129 Thông số Giá trị Thời điểm bắt đầu (starttime) 2011-01-01 7:00 Thời điểm kết thúc (endtime) 2019-12-31 19:00 Tổng số điểm quan trắc (number) 26 586 điểm Mực nước trung bình (mean) 2668.25 cm Độ lệch chuẩn (std) 176.04 cm Mực nước thấp (min) 1.0 cm Mực nước cao (max) 3312.0 cm BÀI BÁO KHOA HỌC Hình thể biểu đồ thống kê số điểm quan trắc theo năm, qua ta thấy số thời điểm quan trắc thay đổi theo năm cao năm 2017 với 3635 thời điểm quan trắc, thấp năm 2011 với 2002 thời điểm Mức chênh lệch lên tới 1633 điểm liệu quan trắc Hình thể số liệu thống kê số điểm quan trắc theo tháng, nhận thấy tần suất quan trắc liệu mực nước thay đổi theo tháng năm, tần suất cao giai đoạn từ tháng đến tháng 10 hàng năm, cao tập trung vào tháng 8; Nó phản ánh thời tiết chung khu vực giai đoạn vào mùa lũ cao điểm mưa lũ chủ yếu rơi vào tháng 7, Hình Biểu đồ thống kê số điểm quan trắc theo năm Hình Biểu đồ thống kê số điểm quan trắc theo tháng Hình thể số liệu thống kê số điểm quan trắc mực nước theo ngày Dễ dàng nhận thấy tần suất lấy số liệu chủ yếu tập trung vào thời điểm 1h, 4h, 7h, 10h, 13h, 16h, 19h, 22h; Các thời điểm 0h, 2h, 6h, 8h, 12h, 14h, 18h, 20h số liệu quan trắc Số liệu có ý nghĩa quan trọng phần thực chuẩn hóa dạng chuỗi thời gian trình bày phần báo Hình Biểu đồ thống kê số điểm quan trắc theo Chuẩn hóa liệu thủy văn trạm 74129 3.1 Phát xử lý điểm liệu bất thường Như trình bày nội dung 2.1, liệu mực nước trạm 74129 thu thập theo phương pháp quan trắc thủ cơng, q trình ghi nhận liệu truyền trung tâm lưu trữ nguyên nhân chủ quan khách quan xảy sai sót làm cho số liệu bị sai lệch, bất thường Các điểm liệu gọi ngoại lai (Outliers) Một điểm ngoại lai điểm liệu khác biệt đáng kể so với phần lại tập liệu Các liệu ngoại lai thường xem mẫu liệu đặc biệt, cách xa khỏi phần lớn liệu khác tập liệu [7] Có nhiều phương pháp để phát điểm ngoại lai như: Phân tích giá trị cực trị (Extreme Value Analysis); Các mơ hình xác suất thống kê (Probabilistic and Statistical Models); Các mô hình tuyến tính (Linear Models); Các mơ hình dựa lân cận (Proximity - based Models); Các mơ hình dựa lý thuyết thơng tin (Information Theoretic Models) [7,8,9] Hình đồ thị biểu diễn giá trị mực nước quan trắc từ năm 2011 đến năm 2019, trực quan mắt dễ dàng nhận thấy có nhiều điểm liệu ngoại lai trái (Left outliers) - điểm đánh dấu hình trịn màu đỏ Đây giá trị xem xét kiểm tra ngoại lai tập liệu TẠP CHÍ KHÍ TƯỢNG THỦY VĂN Số tháng 06 - 2020 21 BÀI BÁO KHOA HỌC Hình Đồ thị thể số liệu mực nước quan trắc trạm 74129 gian đoạn từ 2011-2019 22 Dữ liệu mực nước thu thập liệu chiều, nên phương pháp đơn giản hiệu để phát điểm liệu ngoại lai sử dụng phân tích giá trị cự trị Hai phương pháp hiệu để phát giá trị cực trị bao gồm Z-Scores đồ thị Box-plot [10] Trong nội dung thực nghiệm cho trạm 74129, nhóm tác giả sử dụng ngơn ngữ lập trình Python, kết hợp với số thư viện mã nguồn mở hỗ trợ việc phân tích, xử lý trực quan hóa bao gồm: Pandas, Numpy Matplotlib, toàn mã nguồn viết hệ thống Google Colab Để phát ngoại lai cho tập liệu mực nước quan trắc, nhóm tác giả sử dụng biểu đồ Box-plot Biểu đồ Box-plot sử dụng để đo khuynh hướng phân tán xác định ngoại lai tập liệu [10] Hình 7(a) biểu đồ Box-plot tập liệu Các điểm liệu nằm vạch ngang thấp biểu đồ Box-plot xem xét điểm ngoại lai trái Hình 7(b) liệt kê danh sách điểm quan trắc có giá trị nhỏ tập liệu cách xa khỏi phần lớn điểm khác Để khẳng định có phải điểm liệu ngoại lai không? Cũng đưa phương án xử lý phù hợp với điểm này, cần phải thực kiểm chứng Trong phần nhóm tác giả thực kiểm chứng cho điểm liệu xem xét ngoại lai ghi nhận vào 19h ngày 21/03/2011 7h ngày 23/03/2011, kiểm chứng ngoại lai cho điểm khác thực tương tự TẠP CHÍ KHÍ TƯỢNG THỦY VĂN Số tháng 06 - 2020 Hình Biểu đồ box-plot tập liệu (a); Danh sách điểm quan trắc xem xét ngoại lại trái (b) Theo hình 8(a) thấy mực nước trạm Yên Bái giai đoạn tháng 03/2011 có điểm quan trắc có giá trị biến thiên đột ngột Hình 8b thể mức độ thay đổi mực nước điểm quan trắc so với điểm quan trắc lân cận chênh lớn; Thời điểm 19h ngày 21/03/2011 liệu mực nước ghi nhận 1598cm thời điểm quan trắc liền trước lúc 13h ngày 21/03/2011 2602cm (mức độ chênh lệch giảm hai thời điểm quan trắc -1004cm) thời điểm liền sau lúc 1h ngày 22/03/2011 2595cm (mức độ chênh lệch tăng hai thời điểm quan trắc +997 cm) Mức độ thay đổi đột ngột xảy tương tự với thời điểm lúc 7h ngày 23/03/2011 Tháng giai đoạn mùa khô, theo liệu cho thấy chế độ quan trắc thực theo chế độ (6 tiếng lần vào thời điểm 1h, 7h, 13h, 19h), Do khẳng định điểm ngoại lai, liệu ghi nhận lưu trữ bị sai lệch hoàn toàn so với liệu thực tế Các điểm liệu ngoại lai có ảnh hưởng lớn đến độ xác mơ hình dự đốn, dự báo Do đó, u cầu bắt buộc cần phải phát xử lý chúng Phần cách để phát điểm này, câu hỏi đặt xử lý điểm ngoại lai nào? Có phương pháp sử dụng để xử lý liệu ngoại lai bao gồm: Loại bỏ dòng chứa điểm ngoại lai khỏi tập liệu; Thay giá trị ngoại lai giá trị khác phù hợp hơn; Thay giá trị ngoại lai giá trị NULL (empty), xem xét điểm liệu thiếu (missing value) [11] Khơng có phương pháp xử lý liệu ngoại lai chung áp dụng cho tất toán [12], để lựa chọn phương pháp phù hợp cần có hiểu biết sâu sắc tập liệu, tốn giải quyết, sử dụng phương pháp và/hoặc kết hợp nhóm phương pháp Và thực tế với liệu thủy văn trạm 74129, để xử lý liệu ngoại lai nhóm tác giả BÀI BÁO KHOA HỌC sử dụng phương pháp trường hợp cụ thể Trong trường hợp điểm ngoại lai ghi nhận lúc 19h ngày 21/03/2011 lúc 7h ngày 23/03/2011 thấy điểm ngoại lai gây yếu tố chủ quan người ghi nhận gửi liệu trung tâm lưu trữ Đây tháng mùa khơ, mực nước có xu hướng giảm cường độ thay đổi thấp Giá trị thực tế trường hợp 2598cm 2571cm bị sai lệch thành 1598cm 1571cm Do đó, với trường hợp sử dụng phương pháp xử lý thay giá trị ngoại lai giá trị phù hợp Hình minh họa phương pháp thay kết sau xử lý điểm ngoại lai Trên sở phương pháp cách thức trình bày trên, thực việc kiểm chứng xử lý ngoại lai cho toàn tập liệu Sau bước điểm ngoại lai tập liệu thủy văn trạm 74129 xử lý Hình 10 đồ thị thể liệu mực nước sau xử lý giá trị ngoại lai Hình Biểu đồ thể giá trị mực nước quan trắc trạm 74129 thời gian tháng 03/2011 (a); Danh sách thời điểm quan trắc giá trị mực nước ghi nhận thời gian từ 21/03 đến 24/03/2011 (b) Hình Xử lý ngoại lai theo phương pháp thay giá trị (a); Đồ thị biểu diễn liệu mực nước tháng 03/2011 sau xử lý điểm ngoại lai (b) TẠP CHÍ KHÍ TƯỢNG THỦY VĂN Số tháng 06 - 2020 23 BÀI BÁO KHOA HỌC Hình 10 Dữ liệu mực nước thủy văn trạm 74129 sau xử lý ngoại lai Hình 11 Các chế độ quan trắc mực nước trạm 74129 24 3.2 Chuẩn hóa liệu dạng chuỗi thời gian Dữ liệu chuỗi thời gian (time series data) chuỗi điểm liệu đo theo khoảng thời gian liền nhau, khoảng cách lần đo [2] Dữ liệu mực nước trạm 74129 thu thập khoảng thời gian từ 1h ngày 01/01/2011 đến 23h ngày 31/12/2019 Tuy nhiên, trình bày phần đặt vấn đề tần suất thu thập liệu mực nước khác tùy thuộc vào khoảng thời gian năm, phụ thuộc vào cường độ mức độ lũ, đợt lũ Với trạm 74129, thực thu thập liệu theo chế độ khác từ chế độ đến chế độ Hình 11 thể liệu thu thập số thời gian tương ứng với chế độ quan trắc khác Qua biểu đồ hình cho thấy tháng tháng hàng năm hai tháng có số lượng điểm quan trắc nhiều Đây tháng cao điểm mùa lũ, chế độ quan trắc chủ yếu theo chế độ 5, TẠP CHÍ KHÍ TƯỢNG THỦY VĂN Số tháng 06 - 2020 Như vậy, thấy liệu quan trắc thủy văn thu thập theo mốc thời gian cụ thể theo giờ, liệu dạng chuỗi thời gian khoảng cách lần quan trắc không cách nhau, tùy vào điều kiện cụ thể (mùa khô khoảng cách thưa mùa lũ nhiều) Do liệu chuỗi thời gian nên sử dụng mơ hình dự báo chuỗi thời gian như: MA, ARMA, ARIMA…[4] Vì vậy, cần chuẩn hóa liệu dạng chuỗi thời gian để áp dụng mơ hình dự đốn, dự báo Nhóm tác giả đưa phương án chuẩn hóa tập liệu dạng chuỗi thời gian sau: - Bước 1: Xác định khoảng thời gian t cách lần quan trắc Tham số t sử dụng làm sở để chuẩn hóa liệu dạng chuỗi thời gian với thời điểm quan trắc cách khoảng t Với liệu thủy văn trạm 74129, tham số t lựa chọn theo giờ, 1h, 2h, 3h…Theo số liệu thống kê thể BÀI BÁO KHOA HỌC biểu đồ Hình 5, thấy giai đoạn thời gian từ năm 2011 đến 2019, thời điểm quan trắc tập trung chủ yếu vào mốc thời gian 1h, 4h, 7h, 10h, 13h, 16h, 19h, 22h ngày (> 2000 quan trắc), thời điểm quan trắc khác lại ngày 0h, 2h, 3h, 5h, 6h, 8h, 9h, 11h, 12h, 14h, 15h, 17h, 18h, 20h, 21h, 23h có số lượng điểm (