Trong phân tích cụm, chúng ta không có một khái niệm chắc chắn nào về cách phân tích cụm, thế nên muốn có thể chắc chắn hơn về kết quả với số cụm đạt được, ta cũng có thể tiến hành cả 2
Trang 1Phân tích cụm
Phân tích cụm là phương pháp phân loại các biến theo đặc tính của chúng để nhóm thành một nhóm biểu rõ chung nội dung nó phản ánh
Trong phân tích cụm có 2 phương pháp là phân cụm thứ bậc và phân cụm không thứ bậc Ta có thể chọn một trong hai cách để thực hiện
Trong phân tích cụm, chúng ta không có một khái niệm chắc chắn nào về cách phân tích cụm, thế nên muốn có thể chắc chắn hơn về kết quả với số cụm đạt được, ta cũng có thể tiến hành cả 2 cách phân cụm Thường thì ta sẽ chạy phân cụm thứ bậc trước, phân tích xem nó được bao nhiêu cụm, kiểm định sự phù hợp của nó Sau đó ta lấy số cụm đó thực hiện phân tích cụm không thứ bậc Các cụm nào không phù hợp thì sẽ bị loại dần trong phân cụm này Ta sẽ dựa vào độ phù hợp của chúng để biết khi nào dừng lại hoặc khi số cụm chỉ còn lại là 2 thì ta cũng sẽ dừng lại Kiểm định sự phù hợp của chúng, sau đó so sánh kết quả với phân tích cụm thứ bậc để đưa ra kết quả cuối cùng.
Sau đây, chúng ta sẽ tiến hành phân cụm thứ bậc
Chọn Analyze → Classify → Hierarchical Cluster…
Trong bảng Agglomeration Schedule, cột cần để ý là Coefficients - khoảng cách giữa các biến
Khoảng cách này sẽ tăng dần, ta sẽ xem xét xem rằng có sự tăng đột biến về khoảng cách giữa các biến hay không Từ đó ta có thể xác định được số cụm cần phân tích.
Do bảng số liệu có tới 200 biến, chúng ta rất khó có thể thấy được tại biến nào có khoảng cách tăng đột biến, do quá nhiều con số và rất dài Nên có một cách đơn giản hơn là ta có thể vẽ biểu đồ Line cho cột Coefficients.
Agglomeration Schedule
Stage Cluster Combined Coefficients Stage Cluster First Appears Next Stage
Cluster 1 Cluster 2 Cluster 1 Cluster 2
Trang 217 100 111 1.470 0 0 34
Trang 362 15 18 12.478 0 51 86
Trang 4107 31 122 33.099 0 0 150
Trang 5152 56 57 70.928 103 132 174
Trang 6197 1 97 340.614 196 192 0
Từ biểu đồ Line này, rất dễ để thấy rằng, có sự tăng đột biến về khoảng cách từ biến 191 Đễ rõ rang hơn, ta sẽ đối chiếu giá trị của các biến trên cột coefficirnts của bảng Agglomeration Chúng ta chỉ để tâm đến các biến từ
191 trở đi Tới đây ta có thể thấy rằng giữa biến thứ 192 và biến 193, giữa biến 195 và 196 đều có sự tăng đột biến về khoảng cách Chúng không thể gộp chung thành một cụm với nhau được Vậy ta tìm thêm được 2 cụm mới Tổng cộng là sẽ có 4 cụm phân tích.
Muốn biết biến nào thuộc cụm nào, ta sẽ tiến hành chạy phân tích cụm thứ bậc một lần nữa Trong statistics, Cluster membership ta sẽ không chọn None nữa mà sẽ chọn min là 2 max là 4 Click save, tương tự ta cũng chọn min max cho số cụm.
Kết quả thu được cũng giống kết quả chạy lần đầu, nhưng sẽ xuất hiện thêm bảng Cluster membership Nếu để
ý, chúng ta sẽ thấy trong Data View và Variable View được thêm 3 biến mới là CLU4_1, CLU3_1, CLU2_1.
Do chúng ta đang chọn số cụm là 4 nên sẽ tập trung vào cột CLU4_1, nhìn vào cột này ta sẽ biết biến nào thuộc cụm số mấy
Cluster Membership
Case 4 Clusters 3 Clusters 2 Clusters
Trang 75:Case 7 1 1 1
Trang 850:Case 52 1 1 1
Trang 995:Case 97 1 1 1
Trang 10140:Case 142 2 2 1
Trang 11185:Case 187 4 2 1
Ở trên chúng ta chạy mô hình theo số quan sát để biết quan sát nào thuộc cụm nào, bây giờ sẽ tiến hành đưa vào
25 biến chính thức của phân tích
Chọn Data → Split File… → chọn Compare Groups, đưa CLU4_1 vào → Oke Chúng ta sẽ so sánh theo từng cụm của 25 biến này.
Tiếp tục chọn Analyze → Discriptive Statistics… → Discriptive, đưa 25 biến vào → oke Sau đó tắt Split.
Do bảng kết quả dài, khó nhìn và khó so sánh giá trị trung bình của các biến giữa các cụm, nên có thể đưa về excel, sắp xếp cho dễ nhìn Ta được bảng:
Mong ??i nh??ng ch? 8.85 7.53 5.24 8.62
Mong ??i x?p hàng tr?t t? lên xe 8.52 7.23 5.06 8.48
Mong ??i xe s?ch s?, không rác 8.96 7.30 4.76 9.14
Mong ??i an toàn tài s?n 9.32 8.19 4.47 9.34
Mong ??i thái ?? nhân viên tích
Mong ??i xe yên l?ng, tr?t t? 9.11 7.64 4.47 8.86
Mong ??i xe không mùi l? 9.46 7.70 4.74 9.24
Mong ??i an toàn thân th? 9.71 8.19 4.94 9.21
C?m nh?n v? nh??ng ch? 6.24 7.26 4.41 8.10
C?m nh?n x?p hàng tr?t t? lên xe 4.73 7.34 4.41 7.31
C?m nh?n xe s?ch s?, không rác 4.80 7.26 4.41 7.93
C?m nh?n an toàn tài s?n 4.83 7.83 4.47 7.69
C?m nh?n thái ?? nhân viên tích
c?c
4.83 7.57 4.59 7.52 C?m nh?n xe yên l?ng, tr?t t? 4.78 7.68 4.35 7.69
C?m nh?n xe không mùi l? 4.72 7.58 4.24 7.55
Trang 12C?m nh?n an toàn thân th? 4.80 8.00 4.44 7.97
Hình ?nh v? thái ?? ph?c v? 5.24 5.57 3.74 7.45
Hình ?nh v? vi?c nh??ng ch? 5.88 6.17 3.97 8.10
Hình ?nh v? gi? v? sinh chung 5.34 6.04 3.59 8.31
Hình ?nh v? gi? tr?t t? trên bus 5.32 5.96 3.53 8.48
Hình ?nh v? x?p hàng lên xu?ng
Hình ?nh v? an toàn tài s?n 4.59 5.72 3.26 7.93
Hình ?nh v? an toàn thân th? 4.96 5.94 3.79 8.52
Hình ?nh v? ho?t ??ng lên/ xu?ng
Hình ?nh v? gi?u gìn tài s?n
chung
5.02 5.40 4.15 8.07
Sau khi chọn được 4 cụm rồi, chúng ta sẽ hỏi, liệu kết quả này có phù hợp hay không? Để giải đáp điều này, ta
sẽ tiến hành chạy ANOVA kiểm định sự phù hợp của các biến với mức ý nghĩa 5%.
ANOVA
Sum of Squares df Mean Square F Sig
Mong ??i nh??ng ch?
Mong ??i x?p hàng tr?t t? lên
xe
Mong ??i xe s?ch s?, không
rác
Mong ??i an toàn tài s?n
Mong ??i thái ?? nhân viên
tích c?c
Mong ??i xe yên l?ng, tr?t t?
Mong ??i xe không mùi l?
Between Groups 583.264 3 194.421 114.474 000
Mong ??i an toàn thân th?
Trang 13C?m nh?n v? nh??ng ch?
C?m nh?n x?p hàng tr?t t?
lên xe
C?m nh?n xe s?ch s?, không
rác
C?m nh?n an toàn tài s?n
C?m nh?n thái ?? nhân viên
tích c?c
C?m nh?n xe yên l?ng, tr?t t?
C?m nh?n xe không mùi l?
C?m nh?n an toàn thân th?
Hình ?nh v? thái ?? ph?c v?
Hình ?nh v? vi?c nh??ng ch?
Hình ?nh v? gi? v? sinh
chung
Hình ?nh v? gi? tr?t t? trên
bus
Hình ?nh v? x?p hàng lên
xu?ng xe
Hình ?nh v? an toàn tài s?n
Hình ?nh v? an toàn thân th?
Trang 14Hình ?nh v? ho?t ??ng lên/
xu?ng xe
Hình ?nh v? gi?u gìn tài s?n
chung
Từ bảng ANOVA, ta thấy rằng các giá trị F rất lớn, hơn nữa sig của các biến đều bằng 0.00, nên ta có thể kết luận rằng kết quả chia 4 cụm hoàn toàn phù hợp, với mức ý nghĩa 5%.
Bước tiếp theo chúng ta cần làm đó là phân tích cụm không thứ bậc Như đã nói từ đầu, chúng ta có thể dựa vào
số cụm của phân tích thứ bậc để lấy số cụm cho phân tích không thứ bậc, vậy thì ta mới dễ dàng so sánh được Tiến hành chạy phân tích cụm không thứ bậc, ta được các bảng kết quả Ở đây, chúng ta quan tâm đến 2 bảng là bảng Cluster membership và bảng ANOVA.
Cluster Membership
Case Number Cluster Distance
Trang 1527 3 10.021
Trang 1672 1 8.500
Trang 17117 1 8.190
Trang 18162 1 7.833
Từ bảng Cluster membership này, cho biết quan sát nào thuộc cụm nào và khoảng cách giữa từng quan sát với trung tâm của nó (distance) Ta nhận thấy rằng kết quả ở bảng này (không thứ bậc) và bảng ở trên (thứ bậc) có sự khác biệt Khoảng cách giữa các cụm trong phương án phân cụm cuối cùng cho thấy các cặp cụm được phân tách rất rõ.
Trang 19Đối với bảng ANOVA,giả thiết H0 : Sự khác biệt giữa các cụm chỉ là ngẫu nhiên, thì giả thiết đối H1: Sự khác biệt giữa các cụm là có cơ sở, với mức ý nghĩa 5% Nếu nó có sự khác biệt, tức là bác bỏ H0 thì kết quả này có thể sử dụng được, ta có thể hiểu cũng tương tự như trong phân cụm thứ bậc, chúng ta cũng cần kiểm định AVONA về sự phù hợp của mô hình.
Kết quả trong bảng này thấy rõ rằng, tất cả các giá trị F đều rất lớn, giá trị sig đều rất nhỏ (0.00) nên ta có thể bác bỏ H0 ở mức ý nghĩa 5% Vậy giữa các cụm có sự khác biệt có ý nghĩa và ta hoàn toàn có thể sử dụng kết quả này.
ANOVA
Mean Square df Mean Square df
Mong ??i x?p hàng tr?t t?
Mong ??i xe s?ch s?, không
Mong ??i an toàn tài s?n 233.522 3 1.626 194 143.583 000
Mong ??i thái ?? nhân viên
Mong ??i xe yên l?ng, tr?t t? 154.313 3 2.306 194 66.914 000
Mong ??i xe không mùi l? 171.892 3 2.047 194 83.982 000
Mong ??i an toàn thân th? 183.248 3 2.073 194 88.407 000
C?m nh?n v? nh??ng ch? 128.491 3 3.103 194 41.414 000
C?m nh?n x?p hàng tr?t t?
C?m nh?n xe s?ch s?,
C?m nh?n an toàn tài s?n 158.667 3 3.588 194 44.227 000
C?m nh?n thái ?? nhân viên
C?m nh?n xe yên l?ng, tr?t
C?m nh?n xe không mùi l? 201.210 3 2.834 194 70.995 000
C?m nh?n an toàn thân th? 165.500 3 3.427 194 48.297 000
Hình ?nh v? thái ?? ph?c v? 95.204 3 3.194 194 29.806 000
Hình ?nh v? vi?c nh??ng
Hình ?nh v? gi? v? sinh
Hình ?nh v? gi? tr?t t? trên
Hình ?nh v? x?p hàng lên
Hình ?nh v? an toàn tài s?n 137.468 3 4.139 194 33.209 000
Trang 20Hình ?nh v? an toàn thân
Hình ?nh v? ho?t ??ng lên/
Hình ?nh v? gi?u gìn tài s?n
The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the
differences among cases in different clusters The observed significance levels are not corrected for this and thus
cannot be interpreted as tests of the hypothesis that the cluster means are equal
Dưới đây chính là kết quả cuối cùng của phân tích cụm thứ bậc
Number of Cases in each
Cluster
Cluster
Từ kết quả của cả 2 phương pháp, ta thấy rằng, số cụm trong cả 2 phương pháp tương đồng nhau tuy số quan sát trong từng cụm là khác nhau nhưng chúng đều có ý nghĩa, sự khác nhau ở đây có thể là do các dữ liệu nhân khẩu học tác động Nếu muốn phân tích đi sâu hơn nữa, rõ hơn nữa đặc trưng của từng cụm thì ta có thể dung Custorm Table để phân tích