CHƯƠNG 1 NGHIÊN CỨU TỔ NG QUAN
2.4. Phân tích số liệu sử dụng các phương pháp thống kê
2.4.3. Phương pháp phân tích nhóm (CA)
Phân tích CA là kỹ thuật phân tích đa biến nhằm phân loại số liệu thành các nhóm nhỏ hơn có tính chất giống nhau. Hai loại phân tích nhóm thường được sử dụng là nhóm theo bậc và nhóm k- trungbình (k-mean clustering). Nhóm theo
bậc là tạo ra cây phân nhóm (cluster tree), tập số liệu lớn được chia thành các tập số liệu nhỏ hơn đến khi mỗi tập số liệu nhỏ chỉ còn một phần tử. Cây phân nhóm gồm nhiều bậc trong đó nhóm ở mức này được nối với với nhóm bên cạnh ở mức cao hơn. Điều đó cho phép quyết định mức hoặc thang chia nào của nhóm là phù hợp hơn. Việc chia nhóm là vấn đề quan trọng thường được dùng trong phân tích nhận dạng, phân tích hình ảnh và các đối tượng khác trong lĩnh vực khoa học và cơng nghệ. Nhóm theo k-trung bình là các phần tử trong tập số liệu được tách thành k nhóm, các phần tử cùng nhóm được kết hợp với nhau. Các bước tiến hành phân tích nhóm:
(1)Bước 1: Tìm tính đồng dạng hoặc khơng đồng dạng giữa từng cặp biến số trong tập số liệu.
(2)Bước 2: Nhóm các biến thành cây cụm bậc nhị nguyên (binary, hierarchical cluster tree) gọi là linkage: dùng thông tin khoảng cách tạo ra trong bước 1 để xác định độ gần nhau của các đối tượng cạnh nhau. Khi các đối tượng đựơc xếp cặp thành các nhóm nhị nguyên, các nhóm mới được tạo ra lại được nhóm thành các nhóm lớn hơn cho đến khi cây phân loại được tạo lập (có 3 loại nhóm: liên kết đơn, liên kết hoàn toàn hoàn
toàn và liên kết trung tâm: single, complete, centroil).
(3)Bước 3: Quyết định cây phân loại thành các cụm có tính chất giống nhau.