Để xác định nguồn gốc phát tán thì các công trình nghiên cứu trên thế giới thường sử dụng 2 phương pháp xử lí số liệu để tìm nguồn gốc phát tán là phân tích thành phần chính PCA và phân tích nhóm CA[31,35,41,45], nhằm tìm ra mối liên quan giữa nồng độ của các kim loại nặng với các địa điểm đƣợc khảo sát từ đó rút ra kết luận về nguồn gốc phát tán.
2.5.1. Phương pháp phân tích thành phần chính PCA (Principal Compoment Analysis).
PCA là thuật toán đa biến bằng cách quay các trục số liệu ban đầu đến trục tọa độ mới chứa các biến tối ƣu. Khi đó, một tập hợp các biến liên quan với nhau ban đầu trong tập số liệu đƣợc chuyển thành tập hợp các biến không liên quan và được sắp xếp theo thứ tự giảm độ biến thiên hay phương sai. Những biến không liên quan này là sự kết hợp tuyến tính các biến ban đầu. Dựa trên phương sai do mỗi biến mới gây ra có thể loại bỏ bớt các biến phía cuối dãy mà chỉ mất ít nhất thông tin về các số liệu thực ban đầu. Bằng cách này sẽ giảm được kích thước của tập số liệu trong khi vẫn có thể giữ nguyên thông tin.
Trong nghiên cứu nguồn gốc phát tán của kim loại nặng vào trầm tích thì các kim loại nặng sẽ đƣợc coi là các biến và hàm lƣợng các kim loại nặng tại các điểm là các giá trị của các biến. Từ đó rút ra đƣợc các thành phần chính (PC) là các nguồn phát tán. Chỉ số trị riêng của ma trận đồng phương sai (eigenvalue) là mức ảnh hưởng của nguồn phát tán đến mức độ ô nhiễm môi trường[31,35,41,45].
Các bước tính trong PCA:
45
- Bước 1: Nhập các giá trị của biến độc lập (hoặc biến phụ thuộc nếu có) dưới dạng ma trận ma trận m x n gồm m hàng và n cột ( thông thường trong hoá học m là số phép đo, n là số biến, hoặc số thành phần trong hệ).
- Bước 2: Tính ma trận đồng phương sai (hoặc ma trận hệ số tương quan) của ma trận số liệu ban đầu.
Với tập số liệu n chiều sẽ phải tính giá trị đồng phương sai khác nhau và ma trận đồng phương sai (CM) sẽ có dạng:
Trong đó C11 là đồng phương sai của biến X1 với X1 ; C1d là đồng phương sai của biến X1 với Xd ... trong tập số liệu có d biến.
- Bước 3: Tính vecto riêng (eigenvector) và trị riêng (eigenvalue) của ma trận đồng phương sai. Vecto riêng và trị riêng được định nghĩa như sau:
Giả sử có ma trận vuông Amxm , một vecto c (khác không) sẽ là vecto riêng của ma trận X khi nhân nó với ma trận X được kết quả là bội số vô hướng (scalar multiple) của c. Biểu thức toán học có dạng:
Xc =c với là bội số vô hướng của c và gọi là trị riêng của ma trận X.
) )(
1 ( ) 1
, cov(
1 2
1 2
1 1
2 2 1 1 2
1 1
1 2
1
n
i n
j
j i
ij n
i n
j
j i
ij f X X X X
X n X X X n f
X X
2 )!*
2 (
!
n
n
46
- Bước 4: Chọn số thành phần và tạo vecto đặc trưng
Sau khi tìm đƣợc các vecto riêng cần sắp xếp chúng theo thứ tự từ cao xuống thấp để có thể nhận ra thứ tự có nghĩa của các thành phần và có thể loại bỏ bớt các thành phần ít có nghĩa mà không sợ bị mất thông tin về tập số liệu nếu các giá trị riêng nhỏ. Khi bỏ đi một số thành phần thì tập số liệu cuối cùng sẽ có kích thước nhỏ hơn tập số liệu ban đầu.
- Bước 5: Chuyển hoá từ tập số liệu mới.
Đây là bước cuối cùng trong PCA. Khi đã chọn được thành phần chính (vecto riêng) muốn giữ trong tập số liệu và tạo được vecto đặc trưng, bước tiếp theo cần chuyển vị vecto (transpose of the vector) và nhân nó với tập số liệu ban đầu. Khi đó,
Số liệu sau cùng=Vecto riêng đặc trƣng hàng x số liệu hiệu chỉnh hàng.
Trong luận văn phần mềm Minitab 16 đƣợc sử dụng để xử lý các số liệu và tính toán PCA.
2.5.2. Phương pháp phân tích nhóm CA (Cluster Analysis).
Phương pháp phân tích nhóm CA là kỹ thuật phân tích đa biến nhằm phân loại số liệu thành các nhóm nhỏ hơn có tính chất giống nhau (còn gọi là các cụm cluster). Hai loại phân tích nhóm thường được sử dụng là nhóm theo bậc (hierarchical clustering) và nhóm k- trungbình (k-mean clustering). Trong đó phân tích nhóm theo bậc đƣợc sử dụng để tìm mối liên quan giữa các kim loại nặng có trong trầm tích.[69,70-lich]
Phương pháp phân tích nhóm theo bậc nhằm tìm ra các nhóm trong tập số liệu bằng cách tạo ra cây phân nhóm (cluster tree). Theo phương pháp này, tập số liệu lớn đƣợc chia thành các tập số liệu nhỏ hơn nữa cho đến khi mỗi tập số liệu nhỏ chỉ còn một phần tử. Cây phân nhóm gồm nhiều bậc trong đó nhóm ở một mức đƣợc nối với với nhóm bên cạch ở mức cao hơn. Điều đó cho phép quyết định mức hoặc thang chia nào của nhóm là phù hợp hơn. hình ...).
47
Các bước tính trong CA;
- Bước 1: Tìm tính đồng dạng hoặc không đồng dạng giữa từng cặp biến trong tập số liệu với 3 cách để tính thông tin khoảng cách là khoảng cách, khối trung tâm.
- Bước 2: Nhóm các biến thành cây cụm bậc nhị nguyên: dùng thông tin khoảng cách tạo ra trong bước 1 để xác định độ gần nhau của các đối tượng cạnh nhau. Khi các đối tƣợng đựơc xếp cặp thành các nhóm nhị nguyên, các nhóm mới đƣợc tạo ra lại đƣợc nhóm thành các nhóm lớn hơn cho đến khi cây phân loại đƣợc tạo lập.
- Bước 3: Xác định xem khi nào cần chia cây phân loại thành các cụm.
Trong nghiên cứu phân bố kim loại nặng có trong trầm tích thì các kim loại nặng đƣợc coi là các biến, hàm lƣợng của các kim loại nặng tại các vị trí đƣợc coi là giá trị của các biến. Từ đó rút ra đƣợc mối liên hệ giữa các kim loại nặng trong các lớp trầm tích.
Trong luận thì phần mềm Minitab 16 đƣợc dùng để tính CA.
48