CHƢƠNG 1 : TỔNG QUAN
1.6. Đánh giá nguồn gốc phát tán kim loại nặng
1.6.3. Phân tích nhóm (CA)
Phân tích nhóm (CA) là kỹ thuật phân tích đa biến nhằm phân loại số liệu thành các nhóm nhỏ hơn có tính chất giống nhau. Hai loại phân tích nhóm thƣờng đƣợc sử dụng là nhóm theo bậc và nhóm k- trungbình (k-mean clustering).
Nhóm theo bậc là tạo ra cây phân nhóm (cluster tree), tập số liệu lớn đƣợc
chia thành các tập số liệu nhỏ hơn đến khi mỗi tập số liệu nhỏ chỉ còn một phần tử. Cây phân nhóm gồm nhiều bậc trong đó nhóm ở mức này đƣợc nối với với nhóm bên cạnh ở mức cao hơn. Điều đó cho phép quyết định mức hoặc thang chia nào của nhóm là phù hợp hơn. Việc chia nhóm là vấn đề quan trọng thƣờng đƣợc dùng trong phân tích nhận dạng, phân tích hình ảnh và các đối tƣợng khác trong lĩnh vực khoa học và cơng nghệ. Nhóm theo k-trung bình là các phần tử trong tập số liệu đƣợc tách thành k nhóm, các phần tử cùng nhóm đƣợc kết hợp với nhau [83].
Các bước tiến hành phân tích nhóm
Bước 1: Tìm tính đồng dạng hoặc không đồng dạng giữa từng cặp biến số
trong tập số liệu
Bước 2: Nhóm các biến thành cây cụm bậc nhị nguyên (binary, hierarchical
cluster tree) gọi là linkage: dùng thông tin khoảng cách tạo ra trong bƣớc 1 để xác
định độ gần nhau của các đối tƣợng cạnh nhau. Khi các đối tƣợng đựơc xếp cặp thành các nhóm nhị nguyên, các nhóm mới đƣợc tạo ra lại đƣợc nhóm thành các nhóm lớn hơn cho đến khi cây phân loại đƣợc tạo lập (có 3 loại nhóm: liên kết đơn, liên kết hoàn toàn hoàn toàn và liên kết trung tâm: single, complete, centroil).
Bước 3: Quyết định cây phân loại thành các cụm có tính chất giống nhau.
1.6.4. Ứng dụng của phân tích thống kê đa biến trong xác định nguồn gốc, phân loại chất ô nhiễm trong môi trƣờng