Phân tích cụm

I. Kết quả phân khúc khách hàng theo đặc điểm tâm lý

3. Phân tích cụm

Phân tích cụm sẽ giúp ta phân khúc được các nhóm khách hàng trong thị trường nhà ở dành cho người có thu nhập trung bình-khá mà chúng ta đang muốn nhắm đến. Các biến được đưa vào để phân tích cụm là 5 nhân tố vừa được xác định thông qua phân tích nhân tố. Để tiết kiệm thời gian tính toán, chúng ta có thể sử dụng phương pháp phân cụm không thứ bậc với phương pháp phân chia tối ưu (optimizing partitioning) để phân tích cụm. Trong lý thuyết về phân tích cụm thì có nhiều tiêu chuẩn để phân cụm, chúng ta có thể sử dụng tiêu chuẩn về: tỷ số giữa phương sai nội bộ nhóm và phương sai giữa các nhóm, quy mô tương đối của các cụm để quyết định số cụm.

3.1. Phân tích cụm lần 1 với k = 2

Năm nhân tố vừa rút trích được đưa vào phân tích cụm không thứ bậc (còn gọi là phân cụm K-means) với phương pháp phân chia tối ưu. Từ kết quả phân cụm với k = 2 ta có được 2 cụm. Nhìn vào bảng ANOVA để thực hiện kiểm định F (F là tỷ số giữa phương sai giữa các cụm và phương sai trong nội bộ các cụm) với giả thiết:

: Sự khác biệt giữa các cụm chỉ là ngẫu nhiên. : Giữa các cụm có sự khác nhau một cách rõ ràng.

Bảng 4.5: ANOVA(với k = 2).

Cluster Error Mean

Square df SquareMean df

F Sig. Những người thành đạt biết cân bằng

giữa gia đình và công việc. 48,06 1 0,85 320 56,35 0,00 Những người tốt bụng, thích khám phá. 4,53 1 0,99 320 4,58 0,03 Những người sống vô tư. 119,14 1 0,63 320 188,88 0,00 Những người sống đơn giản, muốn có

cả tiền tài lẫn danh vọng. 49,45 1 0,85 320 58,28 0,00 Những người bảo thủ, cầu toàn và rất

yêu công việc 3,15 1 0,99 320 3,17 0,08

F càng lớn có nghĩa là phương sai giữa các cụm lớn so với phương sai trong nội bộ các cụm, tức là các phần tử trong nội bộ cụm khá gần nhau (giống nhau) trong khi các phần tử giữa hai cụm khác nhau thì khá xa nhau (khá khác nhau). Thông

thường ta sử dụng mức ý nghĩa quan sát suy ngược từ giá trị thông kê F. F càng lớn thì giá trị sig. càng nhỏ, kết quả phân cụm càng có ý nghĩa (các cụm càng khác nhau. Vì theo bảng 4.5 giá trị sig. tại nhân tố thứ 5 là sig. = 0,08 > 0,05 → chấp nhận Vậy giữa các cụm không có sự khác biệt có ý nghĩa và ta không nên sử dụng kết quả phân cụm này dù cho quy mô tương đối của 2 cụm là khá đồng đều.

3.2. Phân tích cụm lần 2 với k = 3

Khi chạy phân cụm không thức bậc bằng lệnh K-means clusters với khai báo k = 3, kết quả có được 3 cụm. Để biết được kết quả phân cụm này có sử dụng được hay không ta cần thực hiện kiểm định F (F là tỷ số giữa phương sai giữa các cụm và phương sai trong nội bộ các cụm).

: Sự khác biệt giữa các cụm chỉ là ngẫu nhiên. : Giữa các cụm có sự khác nhau một cách rõ ràng.

Bảng 4.6: ANOVA(với k=3).

Cluster Error Mean

Square df SquareMean df

F Sig.

Những người thành đạt biết cân bằng

giữa gia đình và công việc. 66,27 2 0,59 319 112,18 0,00 Những người tốt bụng, thích khám phá. 5,32 2 0,97 319 5,47 0,00 Những người sống vô tư. 77,07 2 0,52 319 147,33 0,00 Những người sống đơn giản, muốn có

cả tiền tài lẫn danh vọng. 27,24 2 0,84 319 32,61 0,00 Những người bảo thủ, cầu toàn và rất

yêu công việc 3,96 2 0,98 319 4,03 0,02

Theo bảng 4.6 thì các giá trị sig. đều nhỏ hơn 0,05 → bác bỏ . Vậy nên có thể nói giữa các cụm có sự khác nhau một cách có ý nghĩa và ta có thể sử dụng kết quả phân cụm này. Nhưng để quyết định số cụm ta cần dựa vào tiêu chí về quy mô tương đối của 3 cụm.

Bảng 4.7: Số lượng quan sát thuộc 3 cụm. Cluster 1 131 2 10 3 181 Valid 322 Missing 0 Hình 4.1: Tỷ lệ quan sát giữa 3 cụm

Ta có thể thấy trên bảng 4.7 và hình 4.1, quy mô tương đối giữa 3 cụm là không cân đối, bởi cụm số 2 chỉ có 10 quan sát (chiếm 3,1%) có quy mô quá nhỏ so với cụm 1 và cụm 3: cụm 1 có 131 quan sát (chiếm 40,4%), cụm 3 có 181 quan sát (chiếm 56,5%). Vì vậy phương án chia thành 3 cụm là không thích hợp.

3.3. Phân tích cụm lần 3 với k = 4

Trước hết, chúng ta cần đánh giá có nên sử dụng kết quả phân tích cụm này hay không bằng kiểm định F (F là tỷ số giữa phương sai giữa các cụm và phương sai trong nội bộ các cụm).

: Sự khác biệt giữa các cụm chỉ là ngẫu nhiên. : Giữa các cụm có sự khác nhau một cách rõ ràng.

Bảng 4.8: ANOVA (k=4). Cluster Error Mean Square df Mean Square df F Sig. Những người thành đạt biết cân bằng

giữa gia đình và công việc. 16,83 3 0,85 318 19,78 0,00 Những người tốt bụng, thích khám phá. 9,73 3 0,92 318 10,61 0,00 Những người sống vô tư. 44,23 3 0,59 318 74,68 0,00 Những người sống đơn giản, muốn có

cả tiền tài lẫn danh vọng. 42,82 3 0,61 318 70,73 0,00 Những người bảo thủ, cầu toàn và rất

yêu công việc 51,07 3 0,53 318 96,78 0,00

Như vậy, theo bảng 4.8 các giá trị Sig. của các nhân tố được dùng để phân cụm đều rất nhỏ so với 0,05 → bác bỏ . Vậy ta có thể sử dụng kết quả phân cụm này. Nhưng để biết chắc thể tính thích hợp của phương án phân cụm này ta nên xét thêm đến tiêu chuẩn về quy mô tương đối của 4 cụm vừa được chia.

Bảng 4.9: Số lượng quan sát thuộc 4 cụm.

Cluster 1 86 2 98 3 63 4 75 Valid 322 Missing 0 Hình 4.2: Tỷ lệ quan sát giữa 4 cụm.

Qua bảng 4.9 và hình 4.2 cho thấy quy mô tương đối của 4 cụm vừa phân tích khá hợp lý với tổng số phần tử trong mỗi cụm không có sự chệnh lệch quá lớn,

với số phần tử lần lượt mỗi cụm là: 86, 98, 63, 75. Vậy phương án chia làm 4 cụm là thích hợp nhất.

 Đặt tên cho các cụm:

Việc tiếp theo sau khi phân cụm là ta phải đặt tên cho các cụm. Để diễn giải và mô tả các cụm ta sẽ xem xét các trung bình cụm. Ở đây, các trung bình cụm được tính bình quân từ các giá trị nhân số của các đối tượng theo từng nhân tố một. Các trung bình cụm sẽ gợi ích cho chúng ta một cái tên cho mỗi cụm.

Bảng 4.10: Kết quả tính toán trung bình của các biến tâm lý theo từng cụm.

Cluster Number of Case

1 2 3 4

Những người thành đạt biết cân bằng giữa

gia đình và công việc. 0,01 -0,42 0,72 -0,08

Những người tốt bụng, thích khám phá. -0,37 -0,07 0,05 0,47

Những người sống vô tư. 0,42 0,55 -1,15 -0,24

Những người sống đơn giản, muốn có cả

tiền tài lẫn danh vọng. 0,38 0,31 0,36 -1,15

Những người bảo thủ, cầu toàn và rất yêu

công việc -0,95 0,86 0,14 -0,15

- Cụm số 1 có trị trung bình nhân số lớn đối với 2 nhân tố có tên: những người vô tư và những người sống đơn giản, muốn có tiền tài lẫn danh vọng. Do đó cụm này có thể được đặt tên là “những người vô tư nhưng đầy tham vọng”. Cụm này gồm 86 phần tử (Phụ lục 4.2).

- Cụm số 2 có trị trung bình nhân số lớn đối với nhân tố có tên: những người bảo thủ, cầu toàn và rất yêu công việc. Vậy nên cụm này có thể có tên: “những người bảo thủ, cầu toàn và rất yêu công việc”. Cụm này gồm 98 phần tử (Phụ lục 4.2).

- Cụm số 3 có trị trung bình nhân số lớn đối với nhân tố có tên: những người thành đạt biết cân bằng giữa gia đình và công việc. Do đó cụm này có tên: “những người thành đạt biết cân bằng giữa gia đình và công

- Cụm số 4 có trị trung bình nhân số lớn đối với nhân tố có tên: những người tốt bụng, thích khám phá. Do đó cụm này có tên: “những người tốt bụng, thích khám phá”. Cụm này gồm 75 phần tử (Phụ lục 4.2).

 Vậy sau khi thực hiện phân tích nhân tố và phân tích cụm thì chúng ta đã có được 4 cụm hay 4 phân khúc khác hàng mà ta đang tìm kiếm:

• Những người vô tư nhưng đầy tham vọng.

• Những người bảo thủ, cầu toàn và rất yêu công việc.

• Những người thành đạt biết cân bằng giữa gia đình và công việc.

• Những người tốt bụng, thích khám phá.

II. Mô tả đặc điểm từng phân khúc

Sau khi phân cụm xong việc cần làm tiếp theo là ta cần mô tả rõ hơn đặc điểm của từng phân khúc thì các phân khúc mới có ý nghĩa kinh tế. Các đặc điểm có thể kể ra là: các dữ liệu nhân khẩu học( thu nhập, giới tính, tuổi, tình trạng việc làm, trình tạng hôn nhân gia đình, trình độ văn hóa…), thái độ đối với sản phẩm, thói quen truyền thông và một số các đặc điểm khác…

Đặc điểm của thị trường nhà đất

Các tầng lớp kinh tế-xã hội