Khái quát về địa hóa môi trường biển Việt Nam và giải pháp phân lớp
Địa hóa môi trường biển
1.1.1 Một số khái niệm cơ bản trong môi trường biển [3, 4, 5] a) Khái niệm về môi trường biển
Môi trường tự nhiên có thể đươ ̣c định nghĩa như là tổ hợp của các yếu tố khí hậu, sinh thái học, hoá học và thổ nhưỡng tác động lên con người và các cơ thể sống khác và xác định các hình thức sinh tồn của chúng Vì thế, môi trường bao gồm tất cả các yếu tố mà có thể có ảnh hưởng trực tiếp đến sự trao đổi chất hay các hành vi của con người và các cơ thể sống hay các loài, bao gồm ánh sáng, không khí, nước, đất và các cơ thể sống khác
Môi trường biển có thể đươ ̣c định nghĩa như là tổ hợp của các yếu tố vật lý, hóa học và sinh học đặc trưng cho nước biển, đất ven biển, trầm tích dưới biển, không khí trên mặt biển và các hệ sinh thái biển tồn tại một cách khách quan, ảnh hưởng đến con người và sinh vật
Hay nói một cách cụ thể hơn, môi trường biển bao gồm tất cả yếu tố mà có thể có ảnh hưởng trực tiếp đến sự trao đổi chất hay các hành vi của con người và các sinh vật sống trong biển, bao gồm ánh sáng, không khí trên biển, nước biển, đất ven biển, đất tại đáy biển (trầm tích biển) và các cơ thể sống trong biển
Thành phần môi trường biển là các yếu tố vật chất tạo thành môi trường biển như nước biển, đất ven biển, trầm tích dưới đáy biển, không khí, âm thanh, ánh sáng, sinh vật biển, các hệ sinh thái biển và các hình thái vật chất khác b) Các yếu tố đặc trưng của nước biển ven bờ
Hàm lượng TSS trong nước (TSS - Total Suspended Solid) là tổng chất rắn lơ lửng trong nước được tính bằng cách cân trọng lượng những chất còn lại trên giấy lọc khi lọc nước phân tích chất rắn hoà tan TSS biểu thị lượng vật chất không hòa tan lơ lửng trong nước và được biểu thị (đo) bằng miligam trên lít (mg/l)
Nhu cầu ôxy hoá học (COD - Chemical Oxygen Demand) là lượng oxy có trong Kali bicromat (K 2 Cr 2 O 7 ) được sử dụng để oxy hoá chất hữu cơ trong nước
Chỉ số COD được sử dụng rộng rãi để đo gián tiếp khối lượng các hợp chất hữu cơ có trong nước Phần lớn các ứng dụng của COD xác định khối lượng của các chất ô nhiễm hữu cơ tìm thấy trong nước bề mặt (ví dụ trong các con sông hay hồ), làm cho COD là một phép đo hữu ích về chất lượng nước Nó được biểu diễn theo đơn vị đo là mg/l, chỉ ra khối lượng ôxy cần tiêu hao trên một lít dung dịch
Nhu cầu ôxy sinh học (BOD - Biochemical /Biological Oxygen Demand) là lượng oxy cần cung cấp để oxy hoá các chất hữu cơ trong nước bởi vi sinh vật
BOD là một chỉ số và đồng thời là một thủ tục được sử dụng để xác định xem các sinh vật sử dụng hết ôxy trong nước nhanh hay chậm ra sao BOD được sử dụng trong quản lý và khảo sát chất lượng nước cũng như trong sinh thái học hay khoa học môi trường
Chỉ tiêu BOD phản ánh mức độ ô nhiễm hữu cơ của nước thải hoă ̣c nước nguồn, BOD càng lớn thì nước thải/nước nguồn bị ô nhiễm càng cao và ngược lại
Hàm lượng Amôni (N-NH4) là hàm lượng nitơ amoni, đơn vị tính là mg/l
Tổng coliform (ngắn go ̣n là Coliforms) là số lượng coliform được biểu diễn bằng số khả hữu MPN (Most Probable Number)
Tổng c oliform là số vi khuẩn dạng coli trong 100ml nước thải có khả năng lên men sinh hơi đường lactose ở nhiệt độ 370C/24-48 giờ ở điều kiện hiếu khí, được tính bằng MPN/100ml Coliforms gồm 4 giống E.coli, Citrobacter, Enterobacter, Klebsiela Coliforms được xem như một chỉ điểm vi sinh vật thích hợp về chất lượng nước
Hàm lượng Xyanua: là lượng số miligram (mg) xyanua có trong một mili lít (ml) nước; xyanua là CN, ở đây chỉ tính các nhóm CN của các hợp chất có chứa các ion xyanua hoặc axit hidroxyanic không tính đến các nitril đơn (R-CN), xyanat (muối của CN) và các ion thioxyanat và xyan clorua.
Hàm lượng các kim loại nặng: số mg ion kim loại trong 1 ml nước c) Ô nhiễm môi trường biển
(1) Tổng quan về ô nhiễm môi trường biển Ô nhiễm môi trường biển là quá trình biến đổi các thành phần môi trường nước, trầm tích biển không phù hợp với Quy chuẩn kỹ thuật quốc gia về Môi trường, gây ảnh hưởng xấu đến sức khỏe con người, các sinh vật [5]
Hội nghị của Liên hợp quốc về các vấn đề môi trường tại Stockholm, Thụy Điển (năm 1972) thống nhất định nghĩa về ô nhiễm môi trường biển: ―Tất cả các chất hoặc năng lượng do con người trực tiếp hay gián tiếp đưa vào môi trường biển (kể cả các vùng cửa sông) kéo theo những hậu quả tai hại, như gây thiệt hại tài nguyên sinh vật, nguy hiểm với sức khỏe con người, khó khăn cho hoạt động trên biển (kể cả đánh bắt cá), làm suy thoái chất lượng và giảm các tính chất hữu ích của nước biển‖
(2) Các nguyên nhân chính dẫn đến ô nhiễm môi trường biển
Trong thực tế, môi trường biển có thể bị ô nhiễm do nhiều nguyên nhân khác nhau Nguyên nhân đầu tiên và phổ biến nhất là do sự gia tăng nồng độ chất dinh dưỡng trong biển Các chất dinh dưỡng này có thể có nguồn gốc từ lục địa, là chất thải sinh hoạt và các hoạt động sản xuất công nghiệp, nông nghiệp được sông tải ra biển, hoặc có thể có nguồn gốc trên biển, thải ra biển do các hoạt động của con người Đặc biệt, hầu hết nước thải sinh hoạt từ các khu dân cư và đô thị, các làng nghề và các tàu du lịch hoạt động trên biển chưa qua xử lý
Hiện nay, môi trường biển nước ta đang có dấu hiệu bị ô nhiễm và suy thoái
Báo cáo hiện trạng môi trường năm 2003 (đã trình Quốc hội) và Báo cáo hiện trạng môi trường năm 2010 do Bộ Tài nguyên và Môi trường xây dựng đã chỉ ra rằng:
Chất lượng môi trường biển và vùng ven bờ tiếp tục suy giảm theo chiều hướng xấu Môi trường vùng nước ven bờ đã bị ô nhiễm dầu, kẽm và chất thải sinh hoạt
Tầm quan trọng của việc phân lớp địa hóa môi trường biển
Hiện nay, môi trường, đặc biệt là môi trường biển, là vấn đề nhận được sự quan tâm rất lớn của cộng đồng Các hoạt động của con người cũng như sự thay đổi về mặt tự nhiên đã làm cho môi trường bị ảnh hưởng nghiêm trọng Và cũng chính từ sự ảnh hưởng nghiêm trọng này đã dẫn đến một loạt các khó khăn lớn mà con người đang phải đối mặt Sự nguy hại về mặt ô nhiễm của trầm tích biển nếu không được đánh giá kịp thời sẽ là mối nguy hiểm lớn và lâu dài cho chất lượng môi trường biển Chính vì vậy việc đánh giá và phân loại chất lượng trầm tích biển là một công việc quan trọng và thiết thực nhằm góp phần đưa ra các chiến lược, biện pháp nhằm bảo vệ và giảm thiểu các tác hại gây ô nhiễm môi trường
Chất lượng môi trường biển thay đổi, các nơi cư trú tự nhiên của loài bị phá hủy cũng đã gây ra tổn thất lớn về đa dạng sinh học vùng bờ; giảm số lượng loài, một số loài bị tiêu diệt, dẫn đến giảm năng suất khai thác tự nhiên ở vùng biển Ðã có khoảng 85 loài hải sản có mức độ nguy cấp khác nhau, trong đó có nhiều loại vẫn đang là đối tượng bị tập trung khai thác và trên 70 loài đã được đưa vào sách đỏ Việt Nam Do đó việc đánh giá và phân loại chất lượng trầm tích biển còn góp phần tạo ra các hoạch định chiến lược cho các tổ chức, cơ quan và người dân có những định hướng phát triển kinh tế trên biển cho phù hợp, mang lại hiệu quả cao
Bên cạnh đó, nó còn đảm bảo phát triển bền vững Kể từ khi khái niệm phát triển bền vững của Ủy ban môi trường và phát triển thế giới (WCED) ra đời năm
1987, đã có nhiều cách phát biểu khác nhau về phát triển bền vững Tuy có nhiều cách hiểu khác nhau nhưng hầu hết đều công nhận phát triển bền vững là sự phát triển hài hòa giữa các mục tiêu tăng trưởng kinh tế với các mục tiêu xã hội và bảo vệ môi trường; phát triển bền vững còn bao hàm cả khía cạnh phát triển hài hoà, phát triển trong sự quản lý tốt các mâu thuẫn lợi ích nảy sinh trong quá trình phát triển đó
Hình 2.Mô hình bảo đảm phát triển bền vững
Việc phân loại địa hóa môi trường ko nằm ngoài mục tiêu bảo vệ môi trường bằng cách đưa ra những đánh giá, dự báo và cảnh báo về chất lượng môi trường biển để có những điều chỉnh hợp lý, kịp thời và đúng hướng trong phát triển kinh tế
- xã hội một cách hài hoà với bảo vệ môi trường nhằm phát triển bền vững.
Bài toán đánh giá địa hóa môi trường biển
1.3.1 Các đặc trưng của địa hóa môi trường biển Để đánh giá địa hóa môi trường biển cần dựa trên các thông số liên quan đến việc đánh giá các thông số về trầm tích biển hay nói cách khác là các đặc trưng của địa hóa môi trường biển
Trong khuôn khổ của đề tài luâ ̣n văn , chỉ quan tâm đến các đặc trưng sau: hàm lượng dầu trong trầm tích, CN-, hàm lượng kim loại nặng trong trầm tích biển ven bờ: Pb, Zn, As, Cd, Hg, …
Việc đánh giá các đặc trưng của địa hóa môi trường biển dựa trên tiêu chuẩn tham khảo của Trung Quốc Đối với từng thông số riêng, tiêu chuẩn tham khảo của Trung Quốc có những qui định riêng về tiêu chuẩn chất lượng trầm tích biển do vậy đối với từng thông số đặc trưng của địa hóa môi trường biển có thể phân ra từng nhóm riêng
1.3.2 Quan trắc địa hóa môi trường biển [4]
Việc xác định được các thông số liên quan đến chất lượng trầm tích biển như hàm lượng dầu trong trầm tích; CN-; hàm lượng kim loại nặng trong trầm tích biển ven bờ: Cu, Pb, Zn, As, … được lấy thông qua các kết quả đo được từ các trạm quan trắc môi trường biển Việt Nam a) Hiện trạng hệ thống quan trắc môi trường Việt nam Đến giữa năm 2010, có 42 địa phương trong cả nước đã thành lập Trung tâm quan trắc môi trường
Trung tâm thực hiện các chương trình quan trắc các thành phần môi trường (nước mặt lục địa, nước mưa, nước biển, không khí và tiếng ồn, phóng xạ, đất, chất thải rắn, ) với hàng nghìn điểm quan trắc, trong đó tập trung vào các điểm nóng về môi trường và các khu vực, các vùng sinh thái đặc biệt nhạy cảm ở hầu hết các địa phương trong cả nước b) Hệ thống quan trắc môi trường biển
Mạng lưới quan trắc môi trường biển do Tổng cục Bảo vệ Môi trường (Bộ Tài nguyên và Môi trường) điều hành Mạng lưới này đã thực hiện quan trắc chất lượng nước và trầm tích ở ven bờ từ năm 1995 đến nay tại 7 điểm đo miền Bắc (Trà Cổ, Cửa Lục, Đồ Sơn, Ba Lạt, Sầm Sơn, Cửa Lò và Bạch Long Vĩ), 8 điểm miền Trung (Đèo Ngang, Cồn Cỏ, Đồng Hới, Thuận An, Đà Nẵng, Dung Quất, Sa Huỳnh và Quy Nhơn), 7 điểm miền Nam (Nha Trang, Phan Thiết, Phú Quý, Vũng Tàu, Định An, Cà Mau và Rạch Giá), 87 điểm biển khơi Đông Nam (khu vực khai thác dầu khí, vùng dầu khí tiềm tàng (DK), đến tuyến dọc phía Tây quần đảo Trường Sa) và 17 điểm biển khơi Tây Nam Bộ và Côn Sơn
Các trạm ven bờ được quan trắc 4 lần/năm, ngoài khơi 2 lần/năm với các thông số, phương pháp lấy và phân tích mẫu thống nhất (trong đó có thực hiện chương trình đảm bảo và kiểm soát chất lượng)
Bảng 1 Thông số quan trắc và đơn vị đo
STT Thông số quan trắc Đơn vị đo
Khí tượng thủy văn Đặc điểm thủy văn
Tốc độ Cm/s Đặc điểm thời tiết
STT Thông số quan trắc Đơn vị đo
5 Trạng thái mặt biển Cấp
Nước biển Thủy lý – Thủy hóa
Hàm lượng muối dinh dưỡng
STT Thông số quan trắc Đơn vị đo
Sinh vật biển Thực vật phù du
28 Mật độ cá thể tế bào/m 3
29 Khối lượng mg/l Động vật phù du
32 Mật độ cá thể con/m 3
Trong khuôn khổ của luận văn, chỉ quan tâm đến các thông số sau: hàm lượng dầu trong trầm tích, CN-, các thông số về kim loại nặng (Pb, Zn, As, Hg, …) c) Dữ liệu địa hóa từ quan trắc môi trường biển
Dưới đây là một bảng đo kết quả trầm tích của một vùng biển miền Trung
Bảng 2 Bảng mẫu kết quả đo chất lượng trầm tích của một vùng biển miền Trung
BIỂU GHI KẾT QUẢ PHÂN TÍCH CHẤT LƯỢNG TRẦM TÍCH
Trạm QT&PTMT: vùng ven biển 2 - Miền Trung
Vị trí quan trắc Biển ven bờ Miền Trung
Vĩ độ Đặc điểm nơi quan trắc Biển ven bờ Miền Trung Độ sâu 10 - 20m
Người quan trắc Nguyễn Quang Hưng
Ngày hoàn thành phân tích
Người kiểm tra Nguyễn Vũ Tưởng
BIỂU GHI KẾT QUẢ PHÂN TÍCH CHẤT LƯỢNG TRẦM TÍCH
Nhiệt độ 0 C Độ ẩm % pH
Dầu trong trầm tích mg/l 69 1128.33 522 458 1222 1195.67 266.67 74.67
Dư lượng thuốc BVTV trong trầm tích Tổng dư lượng thuốc
1: Đèo Ngang 3: Cồn Cỏ 5: Đà Nẵng 7: Sa Huỳnh
Trên đây là kết quả đo tại 8 điểm thuộc vùng biển ven bờ miền Trung Các kết quả này được đo thông qua các thiết bị dùng cho đo đạc tại hiện trường đã nêu ở phần trên.
Mô hình giải quyết bài toán bài toán đánh giá địa hóa môi trường biển Việt nam dựa trên các phương pháp phân lớp
Nghiên cứu giải pháp phân lớp địa hóa môi trường biển Việt nam
2.1.1 Giới thiệu bài toán phân lớp và một số phương pháp điển hình
Phân lớp là một trong những mối quan tâm nhiều nhất của con người trong quá trình làm việc với một tập hợp đối tượng Điều này giúp con người có thể tiến hành việc sắp xếp, tìm kiếm các đối tượng một cách thuận lợi Khi biểu diễn đối tượng vào các hệ thống thông tin, tính chất lớp vốn có của đối tượng trong thực tế thường được biểu diễn tương ứng bằng một thuộc tính ―lớp‖ riêng biệt [1]
Phân lớp dữ liệu là kĩ thuật sử dụng tập huấn luyện bao gồm dữ liê ̣u với nhãn lớp trong một thuộc tính phân lớp trong việc phân lớp dữ liệu mới
Một số thuật toán được sử dụng trong phân lớp như:
- K người láng giềng gần nhất (K – Nearst neighbours);
- Cây quyết định (Decision Tree);
Trong khuôn khổ đề tài, chỉ tập trung tìm hiểu và cài đặt 2 thuật toán dùng trong phân lớp là: Naive Bayes và SVM
Việc lựa chọn thuật toán phân lớp Naive Bayes là do thuật toán này được đánh giá là cài đặt đơn giản, tốc độ thực hiện thuật toán nhanh, dễ dàng cập nhật dữ liệu huấn luyện mới và có tính độc lập cao đối với tập huấn luyện Ngoài ra, thuật toán phân lớp Bayes cũng là một trong những thuật toán phân lớp điển hình nhất trong học máy và khai phá dữ liệu Trong học máy, Bayes thường được coi như thuật toán học máy chuẩn để so sánh với các thuật toán khác
Thuật toán SVM được lựa chọn là do thuật toán này có một nền tảng lý thuyết vững chắc bên cạnh đó có nhiều nghiên cứu chứng minh thuật toán này có hiệu suất cao
Việc phân lớp địa hóa môi trường biển sẽ góp phần giúp cho công tác đánh giá, bảo vệ và ngăn chặn các hoạt động nhằm gia tăng ô nhiễm môi trường biển
Như đã trình bày ở phần trên, Việt Nam chưa có quy chuẩn kỹ thuật quốc gia về chất lượng trầm tích biển nên việc đánh giá địa hóa môi trường biển Hiện nay, việc đánh giá chất lượng trầm tích biển thường được dựa trên các tiêu chuẩn tham khảo của Trung Quốc và tiêu chuẩn của Canada Trong khuôn khổ của luận văn, các dữ liệu về quan trắc được thu về sau đợt đo đa ̣c sẽ được đánh giá dựa vào tiêu chuẩn tham khảo của Trung Quốc cho kim loại nặng và hóa chất bảo vệ thực vật Tiêu chuẩn này chia ra 3 mức độ như được giới thiệu ở trên
Việc phân lớp cho địa hóa môi trường cũng dựa trên ba mức độ của tiêu chuẩn này Qua đó, có thể phân lớp địa hóa môi trường thành ba lớp Việc đưa một điểm hoặc một vùng nào đó vào lớp nào là dựa vào các thông số liên quan như: hàm lượng dầu, hàm lượng xyanua trong trầm tích biển, hàm lượng kim loại nặng trong trầm tích biển ven bờ: Pb, Zn, As, …
2.1.2 Thuật toán phân lớp Bayes
Thuật toán phân lớp Bayes là một trong những thuật toán phân lớp điển hình nhất trong học máy và khai phá dữ liệu, đây cũng là thuật toán được sử dụng rộng rãi nhất trong phân lớp văn bản Học máy Bayes thường được coi như thuật toán học máy chuẩn để so sánh với các thuật toán khác a) Công thức xác suất có điều kiện
Xác suất điều kiện của biến cố A với điều kiện biến cố B đã xảy ra là một số không âm
Ký hiệu là P(A/B) biểu thị khả năng xảy ra biến cố A trong tình huống biến cố B đã xảy ra Ký hiệu là P(B/A) nó biểu thị khả năng xảy ra biến cố B trong tình huống biến A đã xảy ra
Công thức xác suất có điều kiê ̣n Bayes :
P(A/B) P(B) = P(B/A) P(A) = P(AB) b) Công thức xác suất đầy đủ
Giả sử B1, B2, … Bn là mô ̣t nhóm đầy đủ các biến cố Khi đó:
P(A) = ∑ P(B i )*P(A/B i ) c) Công thức xác suất Bayes
Từ các công thức ở trên ta có công thức xác suất Bayes:
P(B k /A) = (P(AB k ))/(P(A)) = (P(B k )*P(A/B k ) )/(ΣP(B i )*P(A/Bi i ) d) Phân lớp Naive Bayes
Phân lớp Naive Bayes là phương pháp phân loại sử dụng tri thức các xác suất đã qua huấn luyện Phương pháp này thích hợp với những lớp bài toán đòi hỏi phải dự đoán chính xác lớp của mẫu cần kiểm tra dựa trên những thông tin từ tập huấn luyện ban đầu Ý tưởng chính của thuật toán là tính xác suất hậu nghiệm của sự kiện c xuất hiện khi sự kiện x đã có trong không gian ngữ cảnh 𝜏 thông qua tổng hợp các xác suất tiên nghiệm của sự kiện c xuất hiện khi sự kiện x đã có trong tất cả các điều kiện riêng T thuộc không gian 𝜏:
𝑝 𝑐 𝑥, 𝜏 = 𝑇 𝑖𝑛 𝜏 𝑝 𝑐 𝑥, 𝑇 𝑝(𝑇|𝑥 ) Cho một lớp c và một kết quả X đo chất lượng trầm tích gồm nhiều thông số, nếu xác suất p(X|a) tính được lớn hơn hoặc bằng giá trị ngưỡng CTshc của lớp c thì kết luận chất lượng trầm tích đó thuộc lớp c
Kết quả X đo chất lượng trầm tích được biểu diễn như một vectơ có kích thước bằng số thông số của trầm tích Mỗi thành phần này chứa một thông số trong kết quả đo X và tần suất xuất hiện của thông số đó trong kết quả đo X, tính toán p(c|X) và quyết định xem kết quả X sẽ thuộc lớp nào
Xác suất p(c|X) được tính theo công thức sau:
𝑛 𝑖=1 ∗ 𝐹 1 ∈𝑉 (𝑝(𝐹 1 |𝑐)) 𝑇𝐹(𝐹 1 ,𝑋) TF(F i |c) sử dụng phép ước lượng Laplace:
|V|: số lượng tham số có trong tập tham số đưa vào;
F j : tham số thứ j trong tập tham số V;
TF(Fj|X): tần suất xuất hiện của Fj trong kết quả đo X;
TF(F j |c): tần suất xuất hiện của F j trong lớp c; p(Fj|c: xác suất có điều kiện để Fj xuất hiện trong kết quả đo X của lớp c Để giảm sự phức tạp và thời gian tính toán, công thức trên được viết lại như sau:
Như vậy, trong quá trình phân lớp không dựa vào toàn bộ tập tham số đưa vào mà chỉ dựa vào các tham số xuất hiện trong kết quả đo X e) Ví dụ minh họa
Bảng 3 Thông số quan trắc trầm tích
STT Hàm lượng dầu CN- Pb Zn Hg Cd As Class
STT Hàm lượng dầu CN- Pb Zn Hg Cd As Class
Bảng Thông số quan trắc trầm tích dựa vào tiêu chuẩn tham khảo của Trung Quốc được biểu diễn như sau:
STT Hàm lượng dầu CN- Pb Zn Hg Cd As Class
STT Hàm lượng dầu CN- Pb Zn Hg Cd As Class
Bảng 4.Đánh giá thông số quan trắc trầm tích qua tiêu chuẩn tham khảo Trung Quốc
Gọi tắt lớp Loại 1 là: x, Loại 2 là y, Loại 3 là z
Ta xét các mẫu chưa được tìm thấy sau:
X tính theo tiêu chuẩn tham khảo của Trung Quốc
Ta tính xác suất của các thuộc tính sau: x y X
P(X | x) = 3/5*2/5*2/5*2/5*1/5*2/5*1/5*5/20 ≈ 0.000154 P(X | y) = 2/7*1/7*3/7*2/7*2/7*2/7*1/7*7/20 ≈ 0.00002 P(X | z) = 3/8*4/8*4/8*3/8*4/8*1/8*6/8*8/20 ≈ 0.000659 Theo kết quả thu được thì P(X | z) là lớn nhất nên X thuộc nhóm lớp Loại 3
2.1.3 Thuật toán phân lớp SVM a) Phân lớp dựa trên SVM
Thuật toán máy vectơ hỗ trợ (Support Vector Machine - SVM) được áp dụng cho phân lớp nhị phân Cơ sở của thuật toán là dựa trên phương pháp tiếp cận thống kê được Vapnik đề xuất SVM rất có hiệu quả để giải quyết các bài toán với dữ liệu có số chiều lớn và được coi là một trong 10 thuật toán khai phá dữ liệu điển hình nhất [1]
Mô hình đánh giá địa hóa môi trường biển Việt nam dựa trên các phương pháp phân lớp
2.2.1 Phát biểu bài toán đánh giá địa hóa môi trường biển Ý tưởng chính của bài toán là dựa vào các thông số quan trắc một vùng biển được lấy từ các trạm quan trắc và các báo cáo chuyên đề, … để đánh giá chất lượng trầm tích của vùng biển đó thuộc nhóm lớp nào, có ô nhiễm hay không dựa trên mô hình phân lớp và các tiêu chuẩn tham khảo
Như vậy, bài toán đánh giá địa hóa môi trường biển được phát biểu như sau:
- Đầu vào : các số liệu về quan trắc trầm tích biển đã được gán nhãn;
- Đầu ra : bộ dữ liệu học (mô hình phân lớp)
2.2.2 Mô hình giải quyết bài toán đánh giá địa hóa môi trường biển Việt Nam
Hình 4 Mô hình phân lớp đề xuất
Như vậy trong mô hình đề xuất gồm có 3 pha: a) Pha 1: Tiền xử lý dữ liệu Đầu vào : tập các số liệu quan trắc môi trường nói chung Đầu ra : tập các số liệu quan trắc trầm tích biển
(1) Tách bỏ các dữ liệu thừa : trong pha này, do dữ liệu các thông số quan trắc lưu trữ dưới dạng file xsl nên việc xử lý các dữ liệu về thông số quan trắc bằng các hàm và công cụ có sẵn trong excel Dùng chế độ lọc bỏ các dữ liệu thừa chỉ tập trung vào các thông số có giá trị liên quan đến việc đánh giá chất lượng trầm tích
Cho tập dữ liệu quan trắc như sau:
Nhiệt độ oC Độ ẩm % pH
Dầu trong trầm tích mg/l 69 1128.33 522 458 1222 1195.67 266.67 74.67
Sau khi lọc bỏ các dữ liệu thừa sẽ thu được bảng dữ liệu như sau:
(2) Chuyển phương thức hiện thị : dùng chế độ chuyển bảng dữ liệu vừa thu được từ hàng sang cột cho phù hợp với yêu cầu về dữ liệu đầu vào để tiến hành bước tiếp theo
Dầu trong trầm tích CN- Cu Pb Zn Hg Cd As
74.67 0.02 222 538.33 0.72 3.57 97.67 74.67 b) Pha 2: Xây dựng tập dữ liệu học Đầu vào : tập các vectơ đặc trưng (tập các thông số quan trắc trầm tích biển) Đầu ra : tập dữ liệu học
Từ tập các thông số quan trắc trầm tích đã được chọn, tiến hành lọc từ các Báo cáo hiện trạng môi trường, các báo cáo chuyên đề từ năm 1995 đến nay để lọc ra các phân tích để đưa ra kết quả để gán nhãn Có thể hiểu rằng mỗi mỗi kết quả của một lần đo tương ứng với một vectơ đặc trưng tương ứng Các vectơ đặc trưng này gán nhãn bằng tay Do tính chất và phương thức phân tích, đánh giá các kết quả nên ở đây có thể đưa 2 tập vectơ đặc trưng.Việc đưa ra 2 tập vectơ đặc trưng sẽ góp phần nâng cao hiệu quả của đánh giá trong phần thực nghiệm
(1) Tập vectơ đặc trưng thứ nhất:
Giữ nguyên các dữ liệu đầu vào là dữ liệu số về các thông số quan trắc trầm tích sau đó gán lần lượt các nhãn theo đúng kết quả của các báo cáo Dựa vào các báo cáo đánh giá chất lượng trầm tích biển, … và tiêu chuẩn tham khảo của Trung Quốc thì các nhãn sẽ được gán theo từng giới hạn là Loại 1, Loại 2, Loại 3 với mỗi loại này sẽ tương ứng với loại qui định trong tiêu chuẩn
STT Hàm lượng dầu CN- Pb Zn Hg Cd As Class
Như vậy với các thông số đầu vào này và tập các báo cáo có thể đưa ra được thông số đo quan trắc này cho thấy: Điểm thứ tự thứ 1 thuộc vùng nuôi trồng thuỷ sản; vùng đánh bắt cá trên biển; khu vực bảo vệ môi trường tự nhiên, bảo tồn thiên nhiên; khu vực giữ gìn sinh vật tự nhiên, các hoạt động tiếp xúc trực tiếp của con người với trầm tích Điểm đo thứ tự thứ 3 thuộc vùng kho khu công nghiệp, cảnh quan và khu du lịch ven biển Điểm đo thứ tự thứ 4 thuộc vùng cảng, khu phát triển kinh tế, đặc biệt là vùng khai thác công nghiệp trên biển được dùng để đánh giá chất trầm tích
(2) Tập vectơ đặc trưng thứ hai:
Thay các giá trị của từng loại thông số theo giá trị của từng thông số theo tiêu chuẩn tham khảo của Trung Quốc Như vậy với mỗi thông số cho từng lần đo cũng được áp dụng để gán nhãn như trên Ở đây, việc gán các giá trị A, B, C được ứng với loại 1, loại 2 và loại 3 Và việc gán nhãn này hoàn toàn áp dụng tiêu chuẩn tham khảo của Trung Quốc
STT Hàm lượng dầu CN- Pb Zn Hg Cd As Class
Cuối cùng, với từng tập vectơ đặc trưng đã gán nhãn, cho vào huấn luyện để xây dựng bộ phân lớp c) Pha 3: Xác định nhãn Đầu vào : Tập dữ liệu chưa được gán nhãn (tập thông số quan trắc trầm tích biển chưa gãn nhãn) Đầu ra : Tập dữ liệu được gán nhãn (tập thông số quan trắc trầm tích biển đã được gán nhãn
Tập dữ liệu chưa được gán nhãn (tập số liệu quan trắc trầm tích biển chưa gãn nhãn) sẽ được cho vào huấn luyện thông qua bộ dữ liệu học ở Pha 2 để đưa ra kết quả tập dữ liệu được gán nhãn
STT Hàm lượng dầu CN- Pb Zn Hg Cd As Class
STT Hàm lượng dầu CN- Pb Zn Hg Cd As Class
STT Hàm lượng dầu CN- Pb Zn Hg Cd As Class
STT Hàm lượng dầu CN- Pb Zn Hg Cd As Class
Thực nghiệm và đánh giá
Môi trường thực nghiệm
Bảng 5 Cấu hình phần cứng
Trong luận văn đã sử dụng các công cụ sau trong quá trình xây dựng hệ thống như liệt kê trong Bảng 6:
Bảng 6 Danh sách các phần mềm sử dụng
1 libSVM http://www.csie.ntu.edu.tw/~cjlin/libsvm/
2 Weka 3.6.1 http://www.cs.waikato.ac.nz/~ml/weka/index.html
Dữ liệu thực nghiệm
Dữ liệu thực nghiệm gồm trên 1000 báo cáo, trong đó có các báo cáo về hiện trạng môi trường, báo cáo hiện trạng môi trường biển, các báo cáo chuyên đề liên quan đến môi trường, báo cáo đề tài khoa học công nghệ, …
3.2.1 Mô tả cài đặt chương trình
Trong khuôn khổ của luận văn, tiến hành thực nghiệm dữ liệu trên Weka
Weka là phần mềm mã nguồn mở tích hợp các thuật toán máy học phục vụ các tác vụ khai thác dữ liệu
Weka gồm các công cụ thực hiện: tiền xử lý dữ liệu (data pre-processing), phân lớp (classification), hồi quy (regression), gom cụm (clustering), luật kết hợp (association rules)
Có thể tìm hiểu và sử dụng Weka qua website sau: http://www.cs.waikato.ac.nz/~ml/weka/index.html
Phân lớp (classify) được hỗ trợ trong chức năng Explorer của Weka Đây là chức năng giúp người dùng phân lớp dữ liệu dựa trên quá trình gồm 2 bước:
- Huấn luyện: xây dựng bộ phân lớp dựa trên dữ liệu huấn luyện đã được phân lớp sẵn
- Dự đoán: sử dụng bộ phân lớp để quyết định một mẫu mới thuộc về phân lớp nào
3.2.2 Xây dựng tập dữ liệu học a) Tiền xử lý dữ liệu
Tiến hành thu thập dữ liệu từ trên 1000 báo cáo, trong đó có các báo cáo về hiện trạng môi trường, báo cáo hiện trạng môi trường biển, các báo cáo chuyên đề liên quan đến môi trường, báo cáo đề tài khoa học công nghệ và các bảng kết quả đo quan trắc Các bảng kết quả đo của các đợt quan trắc được lưu trữ dưới file xls hoặc được xuất ra từ các bản đồ chuyên đề Sử dụng chức năng Filter của excel để lọc ra các thông số cần sử dụng đối với các file chưa nhiều dữ liệu dư thừa Riêng đối với dữ liệu lấy ra từ bản đồ (GIS), chỉ cần xuất ra file xls Đây là kết quả của 8 điểm đo tại khác nhau tại khu vực biển ven bờ miền Trung trong 1 lần đo
Các kết quả đo từ 1 đến 8 tương ứng với các vị trí ở bảng dưới
1: Đèo Ngang 3: Cồn Cỏ 5: Đà Nẵng 7: Sa Huỳnh
2: Đồng Hới 4: Thuận An 6: Dung Quất 8: Quy Nhơn
Sau khi thu được tập kết quả đo có dạng như bảng trên, sử dụng chế độ Transpose trong Paste special để chuyển kết quả theo yêu cầu của việc xây dựng bộ dữ liệu học (chuyển bảng thuộc thông số các lần đo từ bảng ngang sang bảng dọc)
Như vậy sau khi tiến hành bước việc chuyển đổi thì dữ liệu được biểu diễn dưới dạng:
Dầu trong trầm tích CN- Pb Zn Hg Cd As
Từ dạng file xls có thể chuyển đổi thành csv và arff để chạy trên Weka (theo yêu cầu của Weka chỉ thực hiện đối với dữ liệu có dạng csv và arff) b) Xây dựng bộ dữ liệu học
Các kết quả của mỗi lần đo đều được đánh giá trong các báo cáo về môi trường, … Việc gán nhãn cũng dựa trên các báo cáo này
Theo kết quả thu được từ bảng dữ liệu trên sau khi gán nhãn được kết quả như sau:
Dầu trong trầm tích CN- Pb Zn Hg Cd As
Dầu trong trầm tích CN- Cu Pb Zn Hg Cd As Class
Sau khi gán nhãn bằng tay cho các tập dữ liệu mẫu (dữ liệu dùng để train), tiến hành xây dựng bộ dữ liệu học bằng cách tiến hành huấn luyện mô hình bằng bộ công cụ Weka Lưu lại mô hình mới chạy đối với cả 2 thuật toán Như vậy, đã xây dựng được Bộ học dữ liệu c) Xác định nhãn
Sau bước xây dựng bộ học dữ liệu ta tiến hành kiểm tra xem việc xác định nhãn của cho các kết quả mới thu về dựa trên bộ dữ liệu học mới xây dựng Tập các tham số về trầm tích mới được thu về cũng được tiến hành tiền xử lý và cho qua mô hình đã được xây dựng ở trên và tiến hành kiểm thử thông qua việc sử dụng bộ công cụ Weka.
Thi hành thực nghiệm
Trong quá trình sử dụng Weka, việc lựa chọn các tham số để sử dụng trong Weka là rất quan trọng Nó góp phần làm tăng tính hiệu quả của công việc phân lớp
3.3.1 Thực hành trên Weka đối với thuật toán phân lớp Naive Bayes a) Kịch bản thực nghiệm thứ nhất: Áp dụng với dữ liệu gốc hay nói cách khác là sử dụng nguyên kết quả đo
Lựa chọn các tùy chọn cho việc kiểm tra (test options)
Use training set : Bộ phân loại học được sẽ được đánh giá trên tập học;
Supplied test set : Sử dụng một tập dữ liệu khác (với tập học) để cho việc đánh giá;
Cross - validation : Tập dữ liệu sẽ được chia đều thành k tập (folds) có kích thước xấp xỉ nhau, và bộ phân loại học được sẽ được đánh giá bởi phương pháp cross-validation;
Percentage split : Chỉ định tỷ lệ phân chia tập dữ liệu đối với việc đánh giá
Hình 5.Các lựa chọn tham số đối với thuật toán phân lớp Naive Bayes với kịch bản 1
Lựa chọn các tham số như sau:
Debug : False useKernelEstimator : True và False (A) DisplayModelInOldFormat : False useSuperviseDiscretization : False
Cross - validation Bảng 7 Kết quả thực nghiệm sử dụng phương pháp Naive Bayes với kịch bản 1
STT TH Số trường hợp phân lớp đúng (Correctly
Số trường hợp phân lớp sai (Incorrectly
Classified Instances) Độ chính xác
18.7219 % 0.821 0.813 0.798 b) Kịch bản thực nghiệm thứ hai Áp dụng với dữ liệu đã được biến đổi hay nói cách khác là áp dụng tiêu chuẩn tham khảo của Trung Quốc cho từng thông số đặc trưng cho chất lượng trầm tích biển (ở đây từng số liệu về chất liệu trầm tích biển được đo sẽ được gán theo các nhãn là A, B, C theo đúng các qui định tiêu chuẩn tham khảo của Trung Quốc)
Bảng 8 Kết quả thực nghiệm sử dụng phương pháp Naive Bayes với kịch bản 2
STT TH Số trường hợp phân lớp đúng (Correctly
Số trường hợp phân lớp sai (Incorrectly
Classified Instances) Độ chính xác
3.3.2 Thực hành trên Weka đối với thuật toán phân lớp SVM a) Kịch bản thực nghiệm thứ nhất Áp dụng với dữ liệu gốc
Hình 6 Các lựa chọn tham số đối với thuật toán phân lớp Naive Bayes với kịch bản 1
Lựa chọn các tham số như sau:
SVMType : C-SCV (classsification); gamma : G cacheSize : 40.0 kernelType : K (2) coef0 : R (1) ; loss : P cost : C normalize : False debug : False nu : để giá trị mặc định 0.5 degree : D probabilityEstimates : False doNotReplaceMissingValues : False shrinking : True eps : E weights : để trống
(1) Việc đặt các ký hiệu R, C, D, … cho các tham số trên được đặt theo qui định của Weka
(2) k có 04 giá trị K0 - liner: u*v K1 - polynomial: (gamma*u*v+coef0) K2 - radial basic function: exp(-gamma*|u-v|^2)
K3 - sigmoid: tanh(gamma*u*v+coef0) Kết quả thực nghiệm sử dụng phương pháp
Bảng 9.Kết quả thực nghiệm sử dụng phương pháp SVM với kịch bản 1
Số trường hợp phân lớp đúng
Số trường hợp phân lớp sai
(Incorrectly Classified Instances) Độ chính xác
31.7524 % 0.649 0.457 0.536 b) Kịch bản thực nghiệm thứ hai Áp dụng với dữ liệu đã được biến đổi hay nói cách khác là áp dụng tiêu chuẩn tham khảo của Trung Quốc cho từng thông số đặc trưng cho chất lượng trầm tích biển (ở đây từng số liệu về chất liệu trầm tích biển được đo sẽ được gán theo các nhãn là A, B, C theo đúng các qui định tiêu chuẩn tham khảo của Trung Quốc)
Bảng 10.Kết quả thực nghiệm sử dụng phương pháp SVM với kịch bản 2
Số trường hợp phân lớp đúng
Số trường hợp phân lớp sai
(Incorrectly Classified Instances) Độ chính xác
Từ kết quả thực nghiệm cho thấy rằng đối với cả 2 thuật toán việc chạy dữ liệu trên kịch bản 2 (dữ liệu đã được đánh giá và biến đổi thông qua Tiêu chuẩn tham khảo của Trung Quốc) đem lại kết quả tốt hơn so với việc chạy dữ liệu trên kịch bản 1
Các tham số được lựa chọn trong Weka đối với cả 2 thuật toán đều đóng một vai trò quan trọng Từ thực nghiệm cho thấy, đối với thuật toán Naive Bayes cần quan tâm đến tham số useKernelEstimator, còn đối với thuật toán SVM thì cần quan tâm đến các tham số như: coef(), cost, degree, eps, gramma, kernelType.