Mục đích chính của phân tích cluster là để nhóm các đối tượng thành các nhóm cấu thành trên cơ sở tương đồng. Phân tích cụm là một trong những phương pháp thống kê được sử dụng cho hầu hết các nghiên cứu phân khúc để xác định số nhóm. Phân tích cụm có nhiều tên gọi khác nhau như: phân tích Q, phân tích phân loại, phân loại bằng kỹ thuật định lượng. Mặc dù có nhiều tên gọi khác nhau nhưng tất cả đều có một đặc điểm chung là phân loại theo các mối liên hệ tự nhiên. Đặc tính này phản ánh bản chất của tất cả các phép phân cụm.
Các thủ tục phân tích cụm được chia thành ba loại là thủ tục thứ bậc, thủ tục không thứ bậc (k- Means) và phân tích cụm hai bước (Two step clustering).
2.4.3.1 Phân tích cụm hai bước
SPSS TwoStep Clustering Component là một cụm thuật toán phân tích khả năng mở rộng xử lý các bộ dữ liệu rất lớn. Có khả năng xử lý cả hai liên tục và phân loại các biến hoặc các thuộc tính. Trong bước đầu tiên của thủ tục, trước khi phân cụm sẽ chia vào các cụm nhỏ và sau đó các cụm nhỏ từng bước được gom vào với số lượng mong muốn của cụm. Nếu số mong muốn của các cụm là không rõ, TwoStep sẽ tìm thấy số lượng thích hợp của các cụm tự động. Với phương pháp này bạn có thể nhóm dữ liệu ghi lại trong một nhóm tương tự. Ví dụ, các công ty sản phẩm bán lẻ và người tiêu dùng thường xuyên áp dụng kỹ thuật clustering vào các dữ liệu mô tả thói quen của khách hàng mua, giới tính, tuổi tác, mức thu nhập ... Những thiết kế riêng các công ty tiếp thị của họ và chiến lược phát triển sản phẩm cho từng nhóm tiêu dùng tăng doanh số bán hàng và xây dựng lòng trung thành thương hiệu. Thao tác thực hành trên SPSS của phương pháp này được thực hiện theo hai bước:
Bước 1: Phân loại cụm
Bước này sử dụng một phương pháp tiếp cận phân nhóm tuần tự (Theodoridis và Koutroumbas, 1999). Nó quét các hồ sơ từng người một và quyết định nếu hồ sơ hiện nay nên hợp nhất với các chòm sao trước đó hình thành hoặc bắt đầu một cluster mới dựa trên các tiêu chí khoảng cách.
Bước 2: Xác định số cụm mong muốn
Làm thế nào để biết có bao nhiêu cụm? Câu trả lời phụ thuộc vào số liệu của bạn. SPSS đã phát triển một quy trình hai bước hoạt động tốt với phương pháp clustering thứ bậc. Bước đầu tiên, tính toán BIC: Bayes Imfomation Criteria cho mỗi cụm trong một phạm vi nhất định và sử dụng nó để tìm ước tính ban đầu cho số của các cụm. Bước thứ hai lọc ước tính ban đầu bằng cách tìm kiếm sự thay đổi lớn nhất trong khoảng cách giữa hai gần nhất cụm trong từng giai đoạn phân nhóm theo cấp bậc.
2.4.3.2 Phương pháp kiểm định mối quan hệ giữa hai biến định danh hoặc là định danh với thứ bậc
Là một công cụ thống kê sử dụng để kiểm nghiệp giả thuyết cho rằng các biến trong hàng và cột thì độc lập với nhau (H0). Phương pháp kiểm nghiệm này chỉ cho ta biết được liệu một biến này có quan hệ hay không với một biến khác, tuy nhiên phương pháp kiểm nghiệp này không chỉ ra cường độ của mối quan hệ giữa hai biến mạnh hay yếu (nếu có quan hệ), cũng như không chỉ ra hướng thuận hay nghịch của mối quan hệ này (nếu có quan hệ).
Để kiểm nghiệm tính độc lập giữa hai biến cột và hàng, kiểm nghiệm Chi- square sẽ cho ra các kết quả kiểm nghiệm như sau: Pearson chi-square, likelihood-ratio chi-square, and linear-by-linear association chi-square mỗi cái sẽ được sử dụng trong những trường hợp cụ thể
Để kiểm nghiệm tính độc lập giữa hai biến, người ta sử dụng phân phối ngẫu nhiên Chi bình phương (2) với tham số thống kê Pearson chi bình phương để tiến hành so sánh số lượng các trường hợp quan sát được với số lượng các trường hợp mong đợi bằng công thức sau:
r i c j ij ij ij E E O X 1 1 2 2 ( )
Khi kết quả thống kê Chi bình phương (2) đủ lớn (Dựa vào lý thuyết phân phối Chi bình phương với độ tin cậy xác định, kích cở mẫu là n, bật tự do-degree of freedom là df=(r-1)(c-1)) ta có thể kết luận bác bỏ giả thuyết độc lập giữa hai biến (H0). Hoặc sử dụng giá trị P (P-value hay Asymtotic Significance) so sánh với mức ý nghĩa (Significance level) thường là x = 0.05 tương ứng với 95% độ tin cậy, ta có thể kết luận bác bỏ H0 khi p-value nhỏ hơn hoặc bằng mức ý nghĩa và ngược lại chấp nhận H0 khi p-value lớn hơn mức ý nghĩa.
Để kiểm nghiệm tính độc lập giữa hai biến cột và hàng trong bảng chéo, kiểm nghiệp Chi-square sẽ cho ra các kết quả kiểm nghiệp khác nhau như sau: Pearson chi- square, likelihood-ratio chi-square, và linear-by-linear association chi-square.
Thông thường để xác định mối quan hệ giữa hai biến trong bảng chéo, việc sử dụng chỉ số nào để kiểm nghiệm tích độc lập giữa hai biến phụ thuộc vào số lượng cột và hàng trong bảng, số mẫu nghiên cứu, tần suất xuất hiện mong muốn của một giá trị trong biến trong điều kiện của biến khác, dạng đo lường của các biến trong bảng (dạng thang đo). Ta có:
Dựa vào các hệ số Pearson Chi-square và Likelihood Ratio ta có thể kiểm nghiệp mối liên hệ giữa hai biến mà không cần quan tâm đến số lượng hàng và cột trong bảng.
Hoặc ta có thể dùng chỉ số Linear-by-linear association khi mà các biến trong bảng là biến định lượng.
Đối với dạng bảng chéo có hai cột và hai dòng (2X2 tables) – mỗi biến trong bảng chỉ có hai giá trị, ta dùng các chỉ số Yate’s corrected chi-square hay còn gọi là Continuity Correction đánh giá mối tương quan giữa hai biến trong bảng.
Sử dụng chỉ số Fisher’s exact test khi mà số mẫu nghiên cứu và các giá trị mong đợi nhỏ, thông thường ta sẽ sử dụng chỉ số này khi mẫu trong bảng nhỏ hơn hoặc bằng 20 hoặc tần suất xuất hiện mong muốn trong một phần giao nhau giữa hai biến trong bảng (cell) nhỏ hơn 5.