1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân tích cụm trong SPSS

20 1,7K 74

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 20
Dung lượng 109,74 KB
File đính kèm CUM-SPSS.rar (180 KB)

Nội dung

Trong phân tích cụm, chúng ta không có một khái niệm chắc chắn nào về cách phân tích cụm, thế nên muốn có thể chắc chắn hơn về kết quả với số cụm đạt được, ta cũng có thể tiến hành cả 2

Trang 1

Phân tích cụm

Phân tích cụm là phương pháp phân loại các biến theo đặc tính của chúng để nhóm thành một nhóm biểu rõ chung nội dung nó phản ánh

Trong phân tích cụm có 2 phương pháp là phân cụm thứ bậc và phân cụm không thứ bậc Ta có thể chọn một trong hai cách để thực hiện

Trong phân tích cụm, chúng ta không có một khái niệm chắc chắn nào về cách phân tích cụm, thế nên muốn có thể chắc chắn hơn về kết quả với số cụm đạt được, ta cũng có thể tiến hành cả 2 cách phân cụm Thường thì ta sẽ chạy phân cụm thứ bậc trước, phân tích xem nó được bao nhiêu cụm, kiểm định sự phù hợp của nó Sau đó ta lấy số cụm đó thực hiện phân tích cụm không thứ bậc Các cụm nào không phù hợp thì sẽ bị loại dần trong phân cụm này Ta sẽ dựa vào độ phù hợp của chúng để biết khi nào dừng lại hoặc khi số cụm chỉ còn lại là 2 thì ta cũng sẽ dừng lại Kiểm định sự phù hợp của chúng, sau đó so sánh kết quả với phân tích cụm thứ bậc để đưa ra kết quả cuối cùng.

Sau đây, chúng ta sẽ tiến hành phân cụm thứ bậc

Chọn Analyze → Classify → Hierarchical Cluster…

Trong bảng Agglomeration Schedule, cột cần để ý là Coefficients - khoảng cách giữa các biến

Khoảng cách này sẽ tăng dần, ta sẽ xem xét xem rằng có sự tăng đột biến về khoảng cách giữa các biến hay không Từ đó ta có thể xác định được số cụm cần phân tích.

Do bảng số liệu có tới 200 biến, chúng ta rất khó có thể thấy được tại biến nào có khoảng cách tăng đột biến, do quá nhiều con số và rất dài Nên có một cách đơn giản hơn là ta có thể vẽ biểu đồ Line cho cột Coefficients.

Agglomeration Schedule

Stage Cluster Combined Coefficients Stage Cluster First Appears Next Stage

Cluster 1 Cluster 2 Cluster 1 Cluster 2

Trang 2

17 100 111 1.470 0 0 34

Trang 3

62 15 18 12.478 0 51 86

Trang 4

107 31 122 33.099 0 0 150

Trang 5

152 56 57 70.928 103 132 174

Trang 6

197 1 97 340.614 196 192 0

Từ biểu đồ Line này, rất dễ để thấy rằng, có sự tăng đột biến về khoảng cách từ biến 191 Đễ rõ rang hơn, ta sẽ đối chiếu giá trị của các biến trên cột coefficirnts của bảng Agglomeration Chúng ta chỉ để tâm đến các biến từ

191 trở đi Tới đây ta có thể thấy rằng giữa biến thứ 192 và biến 193, giữa biến 195 và 196 đều có sự tăng đột biến về khoảng cách Chúng không thể gộp chung thành một cụm với nhau được Vậy ta tìm thêm được 2 cụm mới Tổng cộng là sẽ có 4 cụm phân tích.

Muốn biết biến nào thuộc cụm nào, ta sẽ tiến hành chạy phân tích cụm thứ bậc một lần nữa Trong statistics, Cluster membership ta sẽ không chọn None nữa mà sẽ chọn min là 2 max là 4 Click save, tương tự ta cũng chọn min max cho số cụm.

Kết quả thu được cũng giống kết quả chạy lần đầu, nhưng sẽ xuất hiện thêm bảng Cluster membership Nếu để

ý, chúng ta sẽ thấy trong Data View và Variable View được thêm 3 biến mới là CLU4_1, CLU3_1, CLU2_1.

Do chúng ta đang chọn số cụm là 4 nên sẽ tập trung vào cột CLU4_1, nhìn vào cột này ta sẽ biết biến nào thuộc cụm số mấy

Cluster Membership

Case 4 Clusters 3 Clusters 2 Clusters

Trang 7

5:Case 7 1 1 1

Trang 8

50:Case 52 1 1 1

Trang 9

95:Case 97 1 1 1

Trang 10

140:Case 142 2 2 1

Trang 11

185:Case 187 4 2 1

Ở trên chúng ta chạy mô hình theo số quan sát để biết quan sát nào thuộc cụm nào, bây giờ sẽ tiến hành đưa vào

25 biến chính thức của phân tích

Chọn Data → Split File… → chọn Compare Groups, đưa CLU4_1 vào → Oke Chúng ta sẽ so sánh theo từng cụm của 25 biến này.

Tiếp tục chọn Analyze → Discriptive Statistics… → Discriptive, đưa 25 biến vào → oke Sau đó tắt Split.

Do bảng kết quả dài, khó nhìn và khó so sánh giá trị trung bình của các biến giữa các cụm, nên có thể đưa về excel, sắp xếp cho dễ nhìn Ta được bảng:

Mong ??i nh??ng ch? 8.85 7.53 5.24 8.62

Mong ??i x?p hàng tr?t t? lên xe 8.52 7.23 5.06 8.48

Mong ??i xe s?ch s?, không rác 8.96 7.30 4.76 9.14

Mong ??i an toàn tài s?n 9.32 8.19 4.47 9.34

Mong ??i thái ?? nhân viên tích

Mong ??i xe yên l?ng, tr?t t? 9.11 7.64 4.47 8.86

Mong ??i xe không mùi l? 9.46 7.70 4.74 9.24

Mong ??i an toàn thân th? 9.71 8.19 4.94 9.21

C?m nh?n v? nh??ng ch? 6.24 7.26 4.41 8.10

C?m nh?n x?p hàng tr?t t? lên xe 4.73 7.34 4.41 7.31

C?m nh?n xe s?ch s?, không rác 4.80 7.26 4.41 7.93

C?m nh?n an toàn tài s?n 4.83 7.83 4.47 7.69

C?m nh?n thái ?? nhân viên tích

c?c

4.83 7.57 4.59 7.52 C?m nh?n xe yên l?ng, tr?t t? 4.78 7.68 4.35 7.69

C?m nh?n xe không mùi l? 4.72 7.58 4.24 7.55

Trang 12

C?m nh?n an toàn thân th? 4.80 8.00 4.44 7.97

Hình ?nh v? thái ?? ph?c v? 5.24 5.57 3.74 7.45

Hình ?nh v? vi?c nh??ng ch? 5.88 6.17 3.97 8.10

Hình ?nh v? gi? v? sinh chung 5.34 6.04 3.59 8.31

Hình ?nh v? gi? tr?t t? trên bus 5.32 5.96 3.53 8.48

Hình ?nh v? x?p hàng lên xu?ng

Hình ?nh v? an toàn tài s?n 4.59 5.72 3.26 7.93

Hình ?nh v? an toàn thân th? 4.96 5.94 3.79 8.52

Hình ?nh v? ho?t ??ng lên/ xu?ng

Hình ?nh v? gi?u gìn tài s?n

chung

5.02 5.40 4.15 8.07

Sau khi chọn được 4 cụm rồi, chúng ta sẽ hỏi, liệu kết quả này có phù hợp hay không? Để giải đáp điều này, ta

sẽ tiến hành chạy ANOVA kiểm định sự phù hợp của các biến với mức ý nghĩa 5%.

ANOVA

Sum of Squares df Mean Square F Sig

Mong ??i nh??ng ch?

Mong ??i x?p hàng tr?t t? lên

xe

Mong ??i xe s?ch s?, không

rác

Mong ??i an toàn tài s?n

Mong ??i thái ?? nhân viên

tích c?c

Mong ??i xe yên l?ng, tr?t t?

Mong ??i xe không mùi l?

Between Groups 583.264 3 194.421 114.474 000

Mong ??i an toàn thân th?

Trang 13

C?m nh?n v? nh??ng ch?

C?m nh?n x?p hàng tr?t t?

lên xe

C?m nh?n xe s?ch s?, không

rác

C?m nh?n an toàn tài s?n

C?m nh?n thái ?? nhân viên

tích c?c

C?m nh?n xe yên l?ng, tr?t t?

C?m nh?n xe không mùi l?

C?m nh?n an toàn thân th?

Hình ?nh v? thái ?? ph?c v?

Hình ?nh v? vi?c nh??ng ch?

Hình ?nh v? gi? v? sinh

chung

Hình ?nh v? gi? tr?t t? trên

bus

Hình ?nh v? x?p hàng lên

xu?ng xe

Hình ?nh v? an toàn tài s?n

Hình ?nh v? an toàn thân th?

Trang 14

Hình ?nh v? ho?t ??ng lên/

xu?ng xe

Hình ?nh v? gi?u gìn tài s?n

chung

Từ bảng ANOVA, ta thấy rằng các giá trị F rất lớn, hơn nữa sig của các biến đều bằng 0.00, nên ta có thể kết luận rằng kết quả chia 4 cụm hoàn toàn phù hợp, với mức ý nghĩa 5%.

Bước tiếp theo chúng ta cần làm đó là phân tích cụm không thứ bậc Như đã nói từ đầu, chúng ta có thể dựa vào

số cụm của phân tích thứ bậc để lấy số cụm cho phân tích không thứ bậc, vậy thì ta mới dễ dàng so sánh được Tiến hành chạy phân tích cụm không thứ bậc, ta được các bảng kết quả Ở đây, chúng ta quan tâm đến 2 bảng là bảng Cluster membership và bảng ANOVA.

Cluster Membership

Case Number Cluster Distance

Trang 15

27 3 10.021

Trang 16

72 1 8.500

Trang 17

117 1 8.190

Trang 18

162 1 7.833

Từ bảng Cluster membership này, cho biết quan sát nào thuộc cụm nào và khoảng cách giữa từng quan sát với trung tâm của nó (distance) Ta nhận thấy rằng kết quả ở bảng này (không thứ bậc) và bảng ở trên (thứ bậc) có sự khác biệt Khoảng cách giữa các cụm trong phương án phân cụm cuối cùng cho thấy các cặp cụm được phân tách rất rõ.

Trang 19

Đối với bảng ANOVA,giả thiết H0 : Sự khác biệt giữa các cụm chỉ là ngẫu nhiên, thì giả thiết đối H1: Sự khác biệt giữa các cụm là có cơ sở, với mức ý nghĩa 5% Nếu nó có sự khác biệt, tức là bác bỏ H0 thì kết quả này có thể sử dụng được, ta có thể hiểu cũng tương tự như trong phân cụm thứ bậc, chúng ta cũng cần kiểm định AVONA về sự phù hợp của mô hình.

Kết quả trong bảng này thấy rõ rằng, tất cả các giá trị F đều rất lớn, giá trị sig đều rất nhỏ (0.00) nên ta có thể bác bỏ H0 ở mức ý nghĩa 5% Vậy giữa các cụm có sự khác biệt có ý nghĩa và ta hoàn toàn có thể sử dụng kết quả này.

ANOVA

Mean Square df Mean Square df

Mong ??i x?p hàng tr?t t?

Mong ??i xe s?ch s?, không

Mong ??i an toàn tài s?n 233.522 3 1.626 194 143.583 000

Mong ??i thái ?? nhân viên

Mong ??i xe yên l?ng, tr?t t? 154.313 3 2.306 194 66.914 000

Mong ??i xe không mùi l? 171.892 3 2.047 194 83.982 000

Mong ??i an toàn thân th? 183.248 3 2.073 194 88.407 000

C?m nh?n v? nh??ng ch? 128.491 3 3.103 194 41.414 000

C?m nh?n x?p hàng tr?t t?

C?m nh?n xe s?ch s?,

C?m nh?n an toàn tài s?n 158.667 3 3.588 194 44.227 000

C?m nh?n thái ?? nhân viên

C?m nh?n xe yên l?ng, tr?t

C?m nh?n xe không mùi l? 201.210 3 2.834 194 70.995 000

C?m nh?n an toàn thân th? 165.500 3 3.427 194 48.297 000

Hình ?nh v? thái ?? ph?c v? 95.204 3 3.194 194 29.806 000

Hình ?nh v? vi?c nh??ng

Hình ?nh v? gi? v? sinh

Hình ?nh v? gi? tr?t t? trên

Hình ?nh v? x?p hàng lên

Hình ?nh v? an toàn tài s?n 137.468 3 4.139 194 33.209 000

Trang 20

Hình ?nh v? an toàn thân

Hình ?nh v? ho?t ??ng lên/

Hình ?nh v? gi?u gìn tài s?n

The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the

differences among cases in different clusters The observed significance levels are not corrected for this and thus

cannot be interpreted as tests of the hypothesis that the cluster means are equal

Dưới đây chính là kết quả cuối cùng của phân tích cụm thứ bậc

Number of Cases in each

Cluster

Cluster

Từ kết quả của cả 2 phương pháp, ta thấy rằng, số cụm trong cả 2 phương pháp tương đồng nhau tuy số quan sát trong từng cụm là khác nhau nhưng chúng đều có ý nghĩa, sự khác nhau ở đây có thể là do các dữ liệu nhân khẩu học tác động Nếu muốn phân tích đi sâu hơn nữa, rõ hơn nữa đặc trưng của từng cụm thì ta có thể dung Custorm Table để phân tích

Ngày đăng: 07/05/2016, 09:07

TỪ KHÓA LIÊN QUAN

w