Trong luận văn này, em đã chọn bộ dữ liệu về hiện tượng phú dưỡng và tảo nở hoa trên sông Hàn (Hàn Quốc) làm bài toán phân tích cụ thể. Bài toán đang được chính phủ Hàn Quốc quan tâm và được thu thập dữ liệu tại các trạm một cách tự động, từ đó có được một bộ dữ liệu hoàn chỉnh trong vòng 10 năm. Có rất nhiều nghiên cứu khác nhau đã được thực hiện trên bộ dữ liệu này [32][28][13].
Sông Hàn là con sông dài thứ hai tại Hàn Quốc, với chiều dài khoảng hơn 500 km. Sông Hàn nằm tại chính giữa bán đảo Hàn Quốc, có vai trò quan trọng trong việc cấp nước cho nông nghiệp, công nghiệp hằng hải. Đồng thời cung cấp nước sinh hoạt cho gần một nửa cư dân Hàn Quốc (24 triệu người).
Sông Hàn bao gồm hai nhánh chính được chia làm hướng Bắc và Nam, Với dòng chảy bắt đầu từ hồ chứa Palang và kết thúc tại thủ đô Seoul [13]. Dữ liệu về các chỉ số trên sống Hàn được thu thập từ nhiều trạm khác nhau bao gồm 8 trạm chính Amsa (M1), Guui (M2), Jamsil (M3), Ttukdo (M4), Bogwang (M5), Norangjin (M6), Yeongdungpo (M7), và Gayang (M8), mỗi trạm cách nhau khoảng 55 km, song song với đó là 46 trạm nhỏ khác. Dữ liệu được lấy trực tiếp tự bộ môi trường Hàn Quốc (http://water.nier.go.kr/)). Các thông số tồn tài trong bộ dữ liệu bao gồm:
• Nhu cầu oxy hóa học (Chemical oxygen demand - COD) • Nhu cầu oxy sinh học (Biological oxygen demand - BOD) • Tổng carbon hữu cơ (Total organic carbon - TOC)
• Tổng chất rắn lơ lửng (Total suspended solids - TSI) • Tổng phốt pho (Total phosphorus - TP)
• Tổng phốt pho hòa tan (Dissolved total phosphorus - DTP) • Phốt phát (Phosphate - PO4-P)
• Tổng nitơ (Total nitrogen -TN)
• Tổng nitơ hòa tan (Dissolved total nitrogen - DTN) • Nitrat (NO3-N) • Amoniac (NH3 -N) • Chất diệp lục (Chla) • Nhiệt độ • Lượng mưa • Lưu lượng
• Oxy hòa tan (Dissolved oxygen) • Chỉ số pH
• Độ dẫn điện (Electroconductivity - EC)
• Tổng số Coliform(TColi) và chỉ số Coliforms trong phân (Fecal Col- iforms - Fcoli)
Chỉ số dinh dưỡng Carlson (Carlson’s trophic state index – TSI) đại diện cho độ dinh dưỡng xuất hiện trong nước, thang đo từ 1 tới 199 [9]. Độ nở hoa của tảo (Chl-a (mg/m3)) được quy đổi về chỉ số đánh giá TSI-chla. Chỉ số được phân thành 4 lớp với các khoảng <30, 30-50,60-70 và >50. Các khoảng được gán với các nhãn tương ứng bao gồm it dinh dưỡng (oligotrophic), trung bình (mesotrophic), dinh dưỡng cao (eutrophic) và siêu dinh dưỡng (hypertrophic), công thức quy đổi tương ứng các chỉ số như sau:
T SI−Chla=9.82∗lnChla+30.6 (2.1) Từ việc phân tích ý nghĩa bài toán cũng như đặc tả chi tiết, có thể thấy các phương pháp học máy, học sâu là hoàn toàn phù hợp để giải quyết bài toán phân tích quá trình phú dưỡng và dự đoán nở hoa ở tảo. Trong các phần tiếp theo, em sẽ tiến hành xây dựng mô hình theo nhiều cách tiếp cận khác nhau, đồng thời so sánh để tìm phương pháp tối ưu nhất cho bài toán đặt ra