7. Bố cục của luận án
1.7. PHƯƠNG PHÁP XÁC ĐỊNH NGUỒN PHÁT THẢI POP TRONG MÔ
MÔI TRƯỜNG
Có hai phương pháp tiếp cận trong nghiên cứu nguồn phát thải POP trong môi trường:
- Phương pháp thứ nhất: Phân tích thành phần POP trong các đối tượng môi trường từ các khu vực có nhiều khả năng phát thải ô nhiễm, thí dụ từ các khu chôn lấp rác thải, khu vực xử lý chất thải điện tử (máy truyền hình, máy vi tính, trạm biến thế v.v…) và khu vực đối chứng. Trên cơ sở so sánh hàm lượng POP trong các đối tượng môi trường giữa khu vực quan trắc và khu vực đối chứng, là những khu vực được cho rằng không có nguồn phát thải POP, người ta có thể nhận định phải chăng rác thải chính là nguồn phát ra ô nhiễm. Nguyễn Hùng Minh [61] cùng cộng sự Nhật Bản, Ấn Độ, Philippines và Tanabe cùng Từ Bình Minh[88] đã phân tích, đánh giá hàm lượng dioxin trong đất khu vực chôn rác thải và sữa mẹ của những phụ nữ sống gần bãi chôn rác ở hai thành phố Hà Nội và Hồ Chí Minh đã cho thấy trong đất khu vực chôn rác thải có hàm lượng dioxin cao gấp hàng chục lần so với trong đất trồng lúa. Trong sữa các bà mẹ sống gần khu chôn rác có hàm lượng dioxin cũng cao gấp hàng chục lần so với trong sữa của các bà mẹ sống xa vùng chôn rác. Tương tự, họ cũng nhận thấy rằng trong nước mặt vùng gần kề khu chứa rác thải điện tử ở Bombay (Ấn Độ) có hàm lượng dioxin và furan cao gấp hàng trăm lần so với đất vùng nông thôn xa
khu chứa rác. Các tác giả của các công trình trên cho rằng rác thải công nghiệp là một trong các nguồn chính phát thải POP vào môi trường.
- Phương pháp thứ hai: Nghiên cứu nguồn phát thải POP trong môi trường là phương pháp phân tích kết hợp với xử lý thống kê số liệu phân tích. Phương pháp xử lý thống kê được sử dụng có hiệu quả là chương trình phân tích nhân tố chính (Principal Components Analysis, PCA). Nguyên lý của phương pháp này là tìm các mối tương quan giữa các thành phần ô nhiễm trong các mẫu môi trường được lấy từ các vị trí khác nhau (không nhất thiết chỉ có hai nơi: tại địa điểm nghi có ô nhiễm và địa điểm đối chứng). Đây là phương pháp xử lý số liệu được tổ chức theo một ma trận có số dòng “n” và số cột “m”, trong đó dòng đầu tiên là tên các chỉ tiêu (POP) phân tích. Số cột là số mẫu cùng chất nền (đất, nước, hoặc sinh học, kể cả mẫu sữa mẹ). Như vậy có thể thấy ma trận số liệu thu được trong chương trình quan trắc là rất lớn vì các chỉ tiêu quan trắc là nhiều, thí dụ đối với POP thường có khoảng 25 ÷ 30 chỉ tiêu tương đương với 26 ÷ 31 dòng. Số mẫu phân tích cũng nhiều, thường phải từ 10 mẫu trở lên, tương ứng với số cột cũng từ 11 cột trở lên. Cần phải có thủ thuật nhằm làm giảm bớt số cột và số hàng của ma trận “thô” này để chuyển sang một ma trận có số dòng và số cột nhỏ hơn, chỉ bao gồm các yếu tố chính giải thích sự đóng góp của chúng và tổng hàm lượng các hợp chất có mặt tại địa điểm thu góp mẫu.
Các chỉ tiêu phân tích trong cùng một mẫu cũng như trong các mẫu khác nhau có thể có tương quan, hoặc đồng biến, hoặc nghịch biến với nhau. Các biến đồng biến có nghĩa là sẽ có cùng nguồn phát, ngược lại các biến nghịch biến sẽ có nguồn phát khác nhau. Kết quả của phép xử lý là các thành phần ô nhiễm được phân thành từng nhóm, gọi là các nhân tố chính với phần giải thích được hay phần trăm lượng ô nhiễm thuộc về nhân tố đó. Phương pháp này được sử dụng rất có hiệu quả trong nghiên cứu nguồn phát thải ô nhiễm bụi trong không khí [75, 76]. Người đọc quan tâm chi tiết về phương pháp PCA có thể tìm hiều các tài liệu, thí dụ trong [39]. Dưới đây trình bày sơ lược về thuật toán của phương pháp PCA.
Để có thể xác định được thành phần các nguồn phát thải ô nhiễm và phần đóng góp của mỗi nguồn vào tải lượng thải tại điểm thu góp mẫu người ta phải áp dụng mô hình thống kê theo vị trí thu góp mẫu, hay còn được gọi là mô hình điểm
thu nhận (Receptor Model). Mô hình điểm thu nhận dựa vào định luật bảo toàn khối lượng. Thí dụ hàm lượng dư lượng DDT trong mẫu sa lắng tại một điểm thu góp mẫu phải bằng tổng hàm lượng dư lượng DDT từ các nguồn phát thải khác nhau, thí dụ từ các cơ sở y tế, từ các nguồn diệt muỗi, gián trong nhà, sử dụng trong nông nghiệp v.v…cùng đóng góp vào.
Như vậy, nếu gọi xij (ng/g sa lắng) là hàm lượng của một thành phần dư lượng
POP thứ j (DDT) trong mẫu thứ i thì xij có thể được biểu diễn dưới dạng biểu thức sau:
p k kj ik ij a f x 1 , (i = 1÷ n; j = 1÷ m; k = 1÷ p) (1.10) trong đó:
aik (ng/mg) là hàm lượng theo khối lượng của nguồn k đóng góp vào mẫu thứ i, fkj (mg/kg) là phần hàm lượng của thành phần POP thứ j trong nguồn thứ k và p là số
nguồn thành phần.
Cũng theo định luật bảo toàn khối lượng, nếu mj là hàm lượng tổng thành phần
dư lượng thứ j (thí dụ DDT) từ tất cả các nguồn thì:
p k kj j f m 1 (1.11)
Dưới dạng ma trận, biểu thức (1.19) có thể được viết lại như sau:
X = AF (1.12)
trong đó X là ma trận số liệu quan trắc với các thành phần là xij A là ma trận tải trọng với các thành phần là aik, và
F là ma trận điểm số với các thành phần là fkj
Về mặt toán học có vô số ma trận A và F thỏa mãn phương trình (1.12). Tuy nhiên, điều quan trọng khi tách ma trận X thành tích hai ma trận A và F là phải tìm
được giá trị cực tiểu của p và giá trị đó chính là hạng của ma trận X. Khái niệm này
đóng vai trò rất quan trọng trong phép phân tích nhân tố vì nó chính là số nguyên nhân độc lập biểu thị các biến đổi trong hệ thống đang nghiên cứu.
Để tránh ảnh hưởng của việc dùng các đơn vị đo khác nhau khi mô tả các biến số (chỉ tiêu môi trường) quan trắc, người ta biến đổi các biến ban đầu về dạng các
ij i ij ij x x z (1.13)
trong đó xij là giá trị trung bình của xij và ij là độ lệch chuẩn tương ứng. Như vậy,
mọi biến số đã chuẩn hóa đều có cùng thứ nguyên, giá trị trung bình của chúng bằng 0 và độ lệch chuẩn bằng 1.
Theo lý thuyết thống kê, mối tương quan giữa các biến j tại một vị trí là xj với biến của nguồn phát k (xk) được thể hiện qua hệ số tương quan tuyến tính (r) và theo định nghĩa thì rjk được xác định bằng công thức:
k j k j jk x x r . ) , cov( (1.14)
trong đó cov(xj,xk) là covariance của xj và xk.
Giá trị tuyệt đối của rjk càng gần 1 thì giữa hai biến xj và xk càng có mối tương
quan chặt chẽ với nhau. Nếu giá trị rjk < 0 có nghĩa là hai biến nghịch biến với nhau,
nhưng nếu rjk > 0 thì xj và xk đồng biến. Thay (1.13) vào (1.14), ta có: n j kj ij ik z z n r 1 . 1 (1.15)
Dưới dạng ma trận, biểu thức (1.15) được viết lại dưới dạng: 1Z.Z'
n
R (1.16)
trong đó R là ma trận tương quan có các phần tử rik,
Z là ma trận số liệu quan trắc đã được chuẩn hóa với các phần tử zik, và Z’ là ma trận chuyển vị của ma trận Z.
Nếu u là vecto riêng của ma trận R, I là ma trận đơn vị và λlà một đại lượng vô hướng, thì:
Ru = λu, hay (R – λI)u = 0 (1.17)
Điều này đồng nghĩa với u là một vecto trực giao với tất cả các vecto hàng của (R – λI). Do k (số nguồn phát) nhận các giá trị từ 1 đến p nên biểu thức (1.17) là
một hệ gồm p phương trình và p là bậc của ma trận R. Từ đó ta có: u1(1-) + u2r12 + u3r13 + …+ upr1p =0 u2r21 + u2(1-l)+ u2r23 + …+ upr2p =0 u3r31 + u3r32 + u3(1-l) + …+ upr3p =0 ………. u1rp1 + u2rp2 + u3rp3 + …+ up(1-) =0 (1.18) Khi u 0, phương trình (1.17) chỉ có nghĩa khi (R-I) = 0 và biểu thức (1.17)
chỉ có nghiệm khi định thức vế trái bằng 0, nghĩa là:
RI 0 (1.19)
Từ phương trình (1.19) ta sẽ có một đa thức bậc p theo và có p nghiệm là
các trị riêng k, k =1÷ p. Ứng với mỗi trị riêng k sẽ có một vecto riêng uk tương
ứng, sao cho:
Ruk – ukλk = 0 (1.20) Nếu các trị riêng k được sắp xếp làm các phần tử đường chéo của ma trận
và các vecto riêng uk được chuyển thành các cột của ma trận U thì biểu thức
(1.20) có thể được viết lại như sau:
RU = U (1.21)
Vì U là ma trận vuông trực giao nên:
U’U = UU’ = I (1.22)
Nhân biểu thức (1.21) với U’ ta có:
R = UU’ (1.23) Vì vậy, bất kỳ một ma trận đối xứng nào cũng có thể được biểu diễn theo các trị riêng và vecto riêng như sau:
R = 1u’1 +2u’2 + …+pu’p (1.24)
Do đó, R là ma trận tổng có trọng số của các ma trận uiu1', bậc p x p và hạng là 1. Mỗi vecto ui đều trực giao với các vecto uj khác khi i j, nghĩa là:
u’iuj = 0 và uiu’iuju’j =0 (1.25)
Nhân U’ với hai vế của phương trình (1.21) ta được:
Vì vậy, U được xem như là một ma trận có thể rút gọn ma trận R thành một ma
trận chéo. Trong biểu thức (1.24) ta phải chọn p tối thiểu sao cho chúng chứa đựng
cực đại các phương sai. Trong phương pháp phân tích nhân tố chính PCA, thuật toán được xây dựng để chỉ giữ lại trong nhân tố đầu tiên càng nhiều phương sai càng tốt. Tiếp đến, phương sai lại được giữ lại ở nhân tố thứ hai, rồi thứ ba và quá trình được
tiếp diễn cho đến nhân tố p. Số nhân tố tối thiểu được chọn theo tiêu chuẩn trị riêng
có giá trị lớn hơn 1 (tiêu chuẩn Kaiser) [30,50], đó chính là số nhân tố chính, hay số
nguồn phát chính (Principal component) p cần tìm.
Giả sử tìm được số nhân tố chính p’ (p’< p), thì mô hình áp dụng cho các số
liệu mô tả hệ thống sẽ có dạng: ' 1 ' ' p k ij i kj ik ij a f dU z (1.27)
trong đó zij là các biến số đã chuẩn hóa;
a’ik là các nhân tố tải trọng (factor loading)
fki là các nhân tố điểm số (factor score) mới, và
diUij được xem là phần sai số của mô hình.
Như vậy, ta có p’ vecto riêng và vecto cột thứ p’của ma trận mới A’ sẽ là:
ap' up' p' (1.28)
Do đó, ma trận các nhân tố điểm (F) mới sẽ được tính theo công thức:
F = A’R-1Z (1.29) Mỗi biến ban đầu mô tả hệ thống sẽ tương quan thuyến tính với các nhân tố chính đã chọn và phương sai của chúng được định nghĩa là tổng bình phương các nhân tố tải lượng A mới của các biến tương ứng theo công thức:
' 1 2 ' 2 p k ik i a h và di2 1hi2 (1.30)
Độ lệch chuận của các nhân tố tải lượng được xác định theo công thức:
Thuật toán của phép phân tích nhân tố chính đã được chuyển thành chương trình phần mềm máy tính áp dụng lần đầu tiên cho các nghiên cứu về xã hội học và tâm sinh lý học và có tên gọi SPSS (Statistical Program for Social Sciences: Chương trình thống kê trong Khoa học xã hội).