6. Kết cấu của đề t ài
2.3.1 Tiến hành phân tích cụm và quyết định số cụm
Tiến hành phân tích cụm
Các biến sau khi kiểm tra độ tin cậy sẽ tiến hành đưa vào phân tích cụm nhằm tìm ra những biến có tính chất tương tự nhau để đưa vào cùng một nhóm.
Phân tích cụm (phân tích nhóm tương đồng) là kỹ thuật phân tích thống kê xác định các nhóm đối tượng có tính chất tương đồng trên một số biến nào đó.
Mục đích:
+ Phân khúc thị trường.
+ Hiểu hành vi của khách hàng của mỗi nhóm.
+ Xác định cơ hội cho phát triển sản phẩm mới thông qua việc xác định nhóm nhãn hiệu, sản phẩm hoặc các hãng tương đồng với doanh nghiệp
+ Lựa chọn thị trường kiểm định: thông qua việc xác định một nhóm thị trường tương đồng, từ đó có thể thử nghiệm các chiến lược marketing khác nhau.
+ Thu gọn dữ liệu: thay vì phân tích cho các cá nhân thì phân tích trên các nhóm tương đồng.
Vì chưa xác định được số nhóm cụ thể nên dữ liệu được tiến hành phân tích cụm thứ bậc (Hierarchical clustering). Dữ liệu được tiến hành phân tích bằng SPSS thông qua lệnh:
Analyze Classify Hierarachical cluster…. Đưa 22 biến vào hộp Variables.
Ở mục Cluster: Chọn Case.
Ở mục Display: Chọn Statistics và Plots.
Nhấp vào nút Statistics… để mở hộp thoại Hierarchical Cluster Analysis: + Agglomeration schedule: phân tích bằng sơ đồ tích tụ đưa ra kết quả liên kết cụm cho từng biến.
+ Do chưa chắc chắn kết quả sẽ đưa ra bao nhiêu cụm nên kích hoạt tùy chọn Range of solutions (Miền nghiệm) và đưa vào số 2 và 6. Sau đó bấm Continue.
Ở mục Plots: Chọn Denderogram; All cluster và Vertical. Sau đó bấm Continue.
Ở mục Method: Chọn Between groups linkage; Squared Euclidean Distance.. Sau cùng bấm Continue và OK.
Kết quả SPSS chạy ra ở bảng phụ lục phần IV.
Bảng phụ lục phần IV kèm theo là kết quả phân cụm dưới dạng sơ đồ tích tụ cho biết số quan sát hay cụm được kết hợp ở mỗi giai đoạn. Dòng đầu tiên thể hiện giai đoạn 1 có 131 cụm vì người thứ 127 và người thứ 129 kết hợp trong giai đoạn này (xem trong hai cột thuộc phần các cụm được kết hợp – Cluster combined). Khoảng cách Euclid bình phương giữa hai người này được thể hiện trong cột “hệ số” – Coefficient. Cột “Stage Cluster First Appears” cho biết cụm này được tạo thành trong giai đoạn nào, với kết quả ở bảng 2.3 cho biết số 1 ở giai đoạn 50 cho biết người thứ 127 được nhóm lại thành cụm thành đầu tiên trong giai đoạn 1 (hay cụm đang chứa người thứ 127 được tạo ra trong giai đoạn 1 gồm có người thứ 127 và người thứ 129) và bây giờ trong giai đoạn 50, cụm này nhập thêm người thứ 8. Cột cuối cùng “Next stage” cho biết ở giai đoạn nào thì có thêm người hay cụm mới được nhập vào với cụm trong dòng này. Nhìn bảng trên, ta thấy trong dòng đầu tiên ở cột cuối cùng ta thấy số 50, có nghĩa là ở giai đoạn 50 thì có thêm người thứ 8 được kết hợp vào với cụm đã có hai người 127 và 129. Tương tự như vậy, dòng thứ 2 thể hiện ở giai đoạn 2 có 130 cụm vì người thứ 113 và người thứ 122 được nhập lại với nhau…
Xác định số cụm
Để xác định xem số cụm bao nhiêu được coi là thích hợp, con số được hiển thị dưới tiêu đề “Coefficients”. Đối với các coefficient có nghĩa là khoảng cách giữa hai cụm được xác định trên cơ sở thước đo khoảng cách đã chọn với trị biến đổi đã xem xét. Trong trường hợp này bình phương khoảng cách Euclid, được xác định
nhờ sử dụng giá trị chuẩn hóa. Ở giai đoạn này, nơi mà các thước đo khoảng cách giữa hai cụm tăng lên đột ngột, quá trình liên kết vào các cụm mới phải được ngừng lại, vì nếu không sẽ có kết hợp các cụm nằm trên khoảng cách tương đối lớn.
Trong bảng 2.4 có thể dễ dàng nhận thấy rằng trong cột “coefficient” khoảng cách giữa các cụm đột ngột tăng lên giữa hai giai đoạn 128 và 129. Điều này có nghĩa là sau khi hình thành bốn cụm chúng ta không nên tiến hành thêm các liên kết khác, và kết quả 4 cụm là tối ưu.
Biểu đồ ở phụ lục phần IV là biểu đồ hình cây thể hiện quá trình phân cụm. Biểu đồ hình cây này được đọc từ trái sang phải. Các đường kẻ dọc đại diện các cụm đã được nhập lại với nhau. Vị trí của đường kẻ dọc đại diện các cụm đã được nhập lại với nhau. Ta thấy các cụm được kết hợp với nhau trong ba giai đoạn cuối ở một khoảng cách lớn. Vì vậy, dường như phương án 4 cụm là phù hợp.