Chương 2: Mô hình giải quyết bài toán bài toán đánh giá địa hóa môi trường biển Việt nam dựa trên các phương pháp phân lớp
2.2 Mô hình đánh giá địa hóa môi trường biển Việt nam dựa trên các phương pháp phân lớp
2.2.2. Mô hình giải quyết bài toán đánh giá địa hóa môi trường biển Việt Nam
Hình 4. Mô hình phân lớp đề xuất Như vậy trong mô hình đề xuất gồm có 3 pha:
a) Pha 1: Tiền xử lý dữ liệu
Đầu vào: tập các số liệu quan trắc môi trường nói chung.
Đầu ra: tập các số liệu quan trắc trầm tích biển.
Xử lý:
(1) Tách bỏ các dữ liệu thừa: trong pha này, do dữ liệu các thông số quan trắc lưu trữ dưới dạng file .xsl nên việc xử lý các dữ liệu về thông số quan trắc bằng các hàm và công cụ có sẵn trong excel. Dùng chế độ lọc bỏ các dữ liệu thừa chỉ tập trung vào các thông số có giá trị liên quan đến việc đánh giá chất lượng trầm tích.
Ví dụ:
Cho tập dữ liệu quan trắc như sau:
Mẫu
Thông số Đơn vị 1 2 3 4 5 6 7 8
Thời gian lấy mẫu
Mô tả trầm tích
Cấp hạt
Mầu sắc
Mùi
Mẫu
Thông số Đơn vị 1 2 3 4 5 6 7 8
Vỏ sinh vật
Các tạp chất
Nhiệt độ oC
Độ ẩm %
pH
Eh mV
COD mg/kg
Tổng N mg/kg
Tổng P mg/kg
Dầu trong trầm tích mg/l 69 1128.33 522 458 1222 1195.67 266.67 74.67
CN- mg/l 0.1 0.01 0.06 0.09 0.04 0.08 0.02 0.02
Kim loại nặng
Pb mg/l 40.67 111 34.67 91 140 117.33 129.67 222
Zn mg/l 125.67 172 244.67 139.67 217.67 349.33 341.67 538.33
Hg mg/l 0.8 0.17 0.5 0.4 0.43 0.18 0.7 0.72
Cd mg/l 1.17 3.9 1 1.93 0.38 0.13 2.17 3.57
As mg/l 70 21 31.67 177.67 35.67 125 41 97.67
Sau khi lọc bỏ các dữ liệu thừa sẽ thu được bảng dữ liệu như sau:
Dầu trong trầm tích 69 1128.33 522 458 1222 1195.67 266.67 74.67
CN- 0.1 0.01 0.06 0.09 0.04 0.08 0.02 0.02
Pb 40.67 111 34.67 91 140 117.33 129.67 222
Zn 125.67 172 244.67 139.67 217.67 349.33 341.67 538.33
Hg 0.8 0.17 0.5 0.4 0.43 0.18 0.7 0.72
Cd 1.17 3.9 1 1.93 0.38 0.13 2.17 3.57
As 70 21 31.67 177.67 35.67 125 41 97.67
(2) Chuyển phương thức hiện thị: dùng chế độ chuyển bảng dữ liệu vừa thu được từ hàng sang cột cho phù hợp với yêu cầu về dữ liệu đầu vào để tiến hành bước tiếp theo.
Dầu trong trầm tích CN- Cu Pb Zn Hg Cd As
69 0.1 40.67 125.67 0.8 1.17 70 69
1128.33 0.01 111 172 0.17 3.9 21 1128.33
522 0.06 34.67 244.67 0.5 1 31.67 522
458 0.09 91 139.67 0.4 1.93 177.67 458
1222 0.04 140 217.67 0.43 0.38 35.67 1222
1195.67 0.08 117.33 349.33 0.18 0.13 125 1195.67
266.67 0.02 129.67 341.67 0.7 2.17 41 266.67
74.67 0.02 222 538.33 0.72 3.57 97.67 74.67
b) Pha 2: Xây dựng tập dữ liệu học
Đầu vào: tập các vectơ đặc trưng (tập các thông số quan trắc trầm tích biển) Đầu ra: tập dữ liệu học
Xử lý:
Từ tập các thông số quan trắc trầm tích đã được chọn, tiến hành lọc từ các Báo cáo hiện trạng môi trường, các báo cáo chuyên đề từ năm 1995 đến nay để lọc ra các phân tích để đưa ra kết quả để gán nhãn. Có thể hiểu rằng mỗi mỗi kết quả của một lần đo tương ứng với một vectơ đặc trưng tương ứng. Các vectơ đặc trưng này gán nhãn bằng tay. Do tính chất và phương thức phân tích, đánh giá các kết quả nên ở đây có thể đưa 2 tập vectơ đặc trưng.Việc đưa ra 2 tập vectơ đặc trưng sẽ góp phần nâng cao hiệu quả của đánh giá trong phần thực nghiệm
(1) Tập vectơ đặc trưng thứ nhất:
Giữ nguyên các dữ liệu đầu vào là dữ liệu số về các thông số quan trắc trầm tích sau đó gán lần lượt các nhãn theo đúng kết quả của các báo cáo. Dựa vào các báo cáo đánh giá chất lượng trầm tích biển, … và tiêu chuẩn tham khảo của Trung Quốc thì các nhãn sẽ được gán theo từng giới hạn là Loại 1, Loại 2, Loại 3 với mỗi loại này sẽ tương ứng với loại qui định trong tiêu chuẩn.
Ví dụ:
STT Hàm lượng dầu CN- Pb Zn Hg Cd As Class
1 69 0.1 40.67 125.67 0.8 1.17 70 Loại 1
2 1128.33 0.01 111 172 0.17 3.9 21 Loại 1
3 522 0.06 34.67 244.67 0.5 1 31.67 Loại 2
4 458 0.09 91 139.67 0.4 1.93 177.67 Loại 3
5 1222 0.04 140 217.67 0.43 0.38 35.67 Loại 2
6 1195.67 0.08 117.33 349.33 0.18 0.13 125 Loại 3
7 266.67 0.02 129.67 341.67 0.7 2.17 41 Loại 2
8 74.67 0.02 222 538.33 0.72 3.57 97.67 Loại 3
Như vậy với các thông số đầu vào này và tập các báo cáo có thể đưa ra được thông số đo quan trắc này cho thấy:
Điểm thứ tự thứ 1 thuộc vùng nuôi trồng thuỷ sản; vùng đánh bắt cá trên biển; khu vực bảo vệ môi trường tự nhiên, bảo tồn thiên nhiên; khu vực giữ gìn sinh vật tự nhiên, các hoạt động tiếp xúc trực tiếp của con người với trầm tích.
Điểm đo thứ tự thứ 3 thuộc vùng kho khu công nghiệp, cảnh quan và khu du lịch ven biển.
Điểm đo thứ tự thứ 4 thuộc vùng cảng, khu phát triển kinh tế, đặc biệt là vùng khai thác công nghiệp trên biển được dùng để đánh giá chất trầm tích.
(2) Tập vectơ đặc trưng thứ hai:
Thay các giá trị của từng loại thông số theo giá trị của từng thông số theo tiêu chuẩn tham khảo của Trung Quốc. Như vậy với mỗi thông số cho từng lần đo cũng được áp dụng để gán nhãn như trên. Ở đây, việc gán các giá trị A, B, C được ứng với loại 1, loại 2 và loại 3. Và việc gán nhãn này hoàn toàn áp dụng tiêu chuẩn tham khảo của Trung Quốc.
STT Hàm lượng dầu CN- Pb Zn Hg Cd As Class
1 A C A A C B B Loại 1
2 C A B B A C A Loại 1
3 B C A B B B A Loại 2
4 A C B A B C C Loại 3
5 C B C B B A B Loại 2
6 C C B B A A C Loại 3
7 A A B B C C B Loại 2
8 A A C C C C B Loại 3
Cuối cùng, với từng tập vectơ đặc trưng đã gán nhãn, cho vào huấn luyện để xây dựng bộ phân lớp.
c) Pha 3: Xác định nhãn
Đầu vào: Tập dữ liệu chưa được gán nhãn (tập thông số quan trắc trầm tích biển chưa gãn nhãn).
Đầu ra: Tập dữ liệu được gán nhãn (tập thông số quan trắc trầm tích biển đã được gán nhãn
Xử lý:
Tập dữ liệu chưa được gán nhãn (tập số liệu quan trắc trầm tích biển chưa gãn nhãn) sẽ được cho vào huấn luyện thông qua bộ dữ liệu học ở Pha 2 để đưa ra kết quả tập dữ liệu được gán nhãn.
Ví dụ:
STT Hàm lượng dầu CN- Pb Zn Hg Cd As Class
1 1137.67 0.01 129.33 321 0.1 1.2 136.33 ?
2 37 0.07 32.67 173 0.8 0.3 173 ?
3 598.67 0.07 240.67 145.33 0.37 0.27 14 ?
Kết quả là:
STT Hàm lượng dầu CN- Pb Zn Hg Cd As Class
1 1137.67 0.01 129.33 321 0.1 1.2 136.33 Loại 2
2 37 0.07 32.67 173 0.8 0.3 173 Loại 3
3 598.67 0.07 240.67 145.33 0.37 0.27 14 Loại 1
hoặc
STT Hàm lượng dầu CN- Pb Zn Hg Cd As Class
1 C B C A B A B ?
2 A A C B C B A ?
3 A C C A C B C ?
Kết quả là:
STT Hàm lượng dầu CN- Pb Zn Hg Cd As Class
1 C B C A B A B Loại 2
2 A A C B C B A Loại 1
3 A C C A C B C Loại 3