Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 14 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
14
Dung lượng
2,02 MB
Nội dung
6/4/2017 CHƯƠNG 4: PHÂN TÍCH CỤM (CLUSTERING ) Ths Đỗ Hoàng Oanh 1 Giới thiệu Để chuyển liệu thành thơng tin, thành kiến thức phải biết đơn giản hóa liệu Có cách phổ biến để đơn giản hóa liệu, phân tích nhân tố khám phá (exploratory factor analysis) phân tích cụm (cluster analysis) Nếu EFA gộp biến X (items) có liên quan thành nhân tố (factor) Phân tích Cluster nhóm đối tượng có liên quan vào nhóm đại diện Phân tích cluster có hiệu tốt người nghiên cứu thực cluster chứa đối tượng có quan hệ mật thiết giống (homogenous), nhóm cluster nhóm cluster khác có phân biệt, có khác biệt (herogenous) 1.1 Khái niệm ứng dụng Khái niệm Phân tích cụm nhận diện phân loại đối tượng hay biến cho đối tượng cụm tương tự xét theo đặc tính lựa chọn để nghiên cứu Phân tích Q Phân tích phân loại Phân loại kỹ thuật định lượng C L U S T E R I N G Phân loại theo mối liên hệ tự nhiên 6/4/2017 Ứng dụng Kinh Doanh Sinh học Sức khỏe tâm lý Marketing Tiến hành phân tích cụm Trong nghiên cứu thị trường, phân tích cụm sử dụng để phân đoạn thị trường xác định thị trường mục tiêu… Xác định vấn đề nghiên cứu Trong biểu diễn liệu gene dùng để nhóm mẫu gen giống nhau, nhóm mẫu khác hồ sơ tương ứng Chọn thước đo khoảng cách Chọn thủ tục phân cụm Phân tích cụm sử dụng để xác định nhóm người dân mà hưởng lợi từ dịch vụ y tế Trong marketing, cluster giúp nhận diện phân khúc thị trường, tìm hiểu hành vi khách hang, nhận dạng hội cho sản phẩm hay lựa chọn thị trường để thử nghiệm chiến lược khác nhau… Bước :Xác định vấn đề Quyết định số cụm Giải thích mơ tả cụm Đánh giá tính đắn Bước :Xác định vấn đề Thước đo khoảng cách cho biết mức độ giống đối tượng phân cụm (khoảng cách ngắn đối tượng giống nhiều hơn) Các cụm tạo thành phải giải thích sở biến sử dụng phân cụm Chọn lựa biến để phân cụm, nên chọn tập hợp biến có khả mơ tả giống đối tượng theo mục đích nghiên cứu Các biến chọn sở phân tích lý thuyết, kết nghiên cứu khứ, hay xem xét giả thuyết có liên quan để kiểm định Không đồng ý đồng ý Mua sắm thú vui Mua sắm tốn tiền Tôi mua sắm kết hợp với ăn uống Tơi tìm mua đáng mua mua sắm Tôi không quan tâm đến việc mua sắm Đi mua sắm giúp tiết kiệm nhiều nhờ so sánh giá Mã hóa thành biến: V1 Mua sắm thú vui V2 Mua sắm tốn tiền V3 Mua sắm kết hợp với ăn uống V4 Cố gắng tìm mua đáng mua mua sắm V5 Không quan tâm đến việc mua sắm V6 Đi mua sắm giúp tiết kiệm tiền nhờ so sánh nhiều giá khác 6/4/2017 Bước :Xác định vấn đề (tt) Bước 2: Chọn thước đo khoảng cách Squared Euclidean distance Khoảng cách Euclid bình phương • Căn bậc tổng độ lệch bình phương giá trị biến đối tượng ( , )= | − | +| − | + +| − | Nếu biến đo lường đơn vị khác kết phân cụm bị ảnh hưởng đơn vị đo lường 10 Bước 2: Chọn thước đo khoảng cách (tt) Bước 3: Chọn thủ tục phân cụm Khoảng cách Manhattan Thủ tục phân cụm • Tổng độ lệch tuyệt đối giá trị biến Thứ bậc (, )=| − |+| − |+ +| − Khơng thứ bậc | Tích tụ K/c liên kết Song song Phân chia Phương sai Tuần tự Phân chia tối ưu k/c trung tâm Khoảng cách Chebychev K/c liên kết đơn Thủ tục Ward • Chênh lệch tuyệt đối lớn giá trị biến K/c liên kết hoàn toàn 11 K/c liên kết trung bình 12 6/4/2017 Bước 3: Chọn thủ tục phân cụm (tt) Phân cụm thứ bậc (hierarchical clustering) Phân cụm thứ bậc (hierarchical clustering) Các phương pháp phân cụm tích tụ dựa vào khoảng cách liên kết Phân cụm thứ bậc thủ tục xây dựng theo cấu trúc thứ bậc dạng hình Tiến hành theo cách tích tụ lại (agglomerative) hay phân chia (divisive) Cụm Phân cụm phân chia: phân chia cụm chứa tất đối tượng thành cụm nhỏ đối tượng cụm riêng Phân cụm tích tụ: tích tụ cụm đối tượng riêng lẽ tất đối tượng nằm cụm Khoảng cách liên kết (linkage method) Tổng độ lệch bình phương hay phương sai (error sum of squares or variance method) Khoảng cách trung tâm ( centroid method) 13 Bước 3: Chọn thủ tục phân cụm (tt) Phân cụm thứ bậc (hierarchical clustering) (tt) Các phương pháp phân cụm tích tụ dựa vào khoảng cách liên kết Cụm Khoảng cách tối đa Cụm Phương pháp khoảng cách liên kết hoàn toàn Phương pháp khoảng cách liên kết hoàn toàn: giống khoảng cách liên kết đơn, dựa vào khoảng cách xa đối tượng B1: Nhập đối tượng vào cụm B2: Khoảng cách xa thứ nhì Nhập tiếp đối tượng thứ vào đối tượng khác (hay cụm) Nếu cụm với cụm khác dựa vào khoảng cách đơn đối tượng cụm với cụm khác xa 15 B3: Làm tất nằm cụm lớn Khoảng cách tối thiểu Cụm Phương pháp khoảng cách liên kết đơn Phương pháp khoảng cách liên kết đơn dựa vào khoảng cách gần đối tượng B1: Nhập đối tượng vào cụm B2: Khoảng cách thứ nhì Nhập tiếp đối tượng thứ vào đối tượng khác (hay cụm) Nếu cụm với cụm khác dựa vào khoảng cách đơn 14 đối tượng cụm với cụm khác nhỏ B3: Làm tất nằm cụm lớn Bước 3: Chọn thủ tục phân cụm (tt) Phân cụm thứ bậc (hierarchical clustering) (tt) Các phương pháp phân cụm tích tụ dựa vào khoảng cách liên kết Khoảng cách trung Cụm bình Phương pháp khoảng cách liên kết trung bình Cụm Phương pháp khoảng cách liên kết trung bình: khoảng cách hai cụm khoảng cách trung bình tất cặp phần tử hai cụm => phổ biến cách 16 6/4/2017 Bước 3: Chọn thủ tục phân cụm (tt) Bước 3: Chọn thủ tục phân cụm (tt) Phân cụm thứ bậc (hierarchical clustering) (tt) Phân cụm thứ bậc (hierarchical clustering) (tt) Phương pháp phân cụm tích tụ dựa vào khoảng cách trung tâm Phương pháp phân cụm tích tụ dựa vào phương sai theo thủ tục Ward (Ward’s method) • • Tính giá trị trung bình tất biến cho cụm • Tổng tất khoảng cách bình phương Tính khoảng cách Euclid bình phương phần tử cụm với trị trung bình cụm 17 Thủ tục Ward Cứ lần đối tượng nhóm lại phải tính lại trung tâm cụm Trung tâm cụm tính cách lấy trung bình tất biến Khi tạo cụm tính lại trung tâm cụm lần Khoảng cách trung tâm Trong số phương pháp phân tích cụm tích tụ phương pháp khoảng cách trung tâm thủ tục Ward chứng minh có 18 kết tốt phương pháp khác Bước 3: Chọn thủ tục phân cụm (tt) Bước 3: Chọn thủ tục phân cụm (tt) Phân cụm thứ bậc (hierarchical clustering) (tt) Phân cụm thứ bậc (hierarchical clustering) (tt) 19 20 6/4/2017 Phân cụm thứ bậc (hierarchical clustering) (tt) Bước 3: Chọn thủ tục phân cụm (tt) Phân cụm thứ bậc (hierarchical clustering) (tt) 21 22 Phân cụm thứ bậc (hierarchical clustering) (tt) Bước 3: Chọn thủ tục phân cụm (tt) Vertical Ichicle Phân cụm thứ bậc (hierarchical clustering) (tt) • • Kết phân cụm dạng bảng sơ đồ cột • Các số đầu bảng case cho biết đối tượng nhóm với đối tượng • Các dòng cho biết số cụm gom từ lên Đọc từ lên Cột có dấu x (có tơ màu) đại diện cho cụm, cịn cột khoảng trắng đại diện cho tách biệt cụm File phanticcum có 20 người tiêu dùng đánh số từ đến 20 23 24 6/4/2017 Phân cụm thứ bậc (hierarchical clustering) (tt) Bước 3: Chọn thủ tục phân cụm (tt) Phân cụm thứ bậc (hierarchical clustering) (tt) File phanticcum có 20 người tiêu dùng đánh số từ đến 20 - Đầu tiên, có 20 người => có 20 cụm - Giai đoạn 2: người case case nhóm lại với Giai đoạn 1: hai người gần case 14 case 16 kết hợp lại thành cụm => 19 cụm Giai đoạn tiếp theo, cụm thành lập theo: + Hai người nhóm với + Hoặc người nhóm với cụm có sẵn + Hoặc cụm nhập lại với Giai đoạn GĐ 12 GĐ 11 GĐ 10 GĐ GĐ GĐ GĐ GĐ GĐ GĐ GĐ GĐ GĐ Số cụm 10 11 12 13 14 15 16 17 18 19 20 ? Stage cluster first appear GĐ11 + 19 GĐ4 + GĐ8 GĐ7 +1 GĐ6 + GĐ2+12 GĐ1+10 25 26 Phân cụm thứ bậc (hierarchical clustering) (tt) Bước 3: Chọn thủ tục phân cụm (tt) Phân cụm thứ bậc (hierarchical clustering) (tt) • Biểu đồ hình thể q trình phân cụm Đọc từ trái sang phải • Các đường kẻ dọc đại diện cụm nhập lại với • Vị trí đường kẻ dọc thang đo rescaled distance cluster combine cho biết khoảng cách cụm nhập với Khoảng cách cụm xa nhóm khác biệt => Khơng nên nhập chúng vào cụm 27 28 Từ đồ thị, ta biết phần tử thuộc cụm Kết cuối ta chấp nhận có khoảng 4, hay cụm 6/4/2017 Phân cụm thứ bậc (hierarchical clustering) (tt) Bảng kết phân cụm dạng sơ đồ tích tụ Bảng kết phân cụm dạng sơ đồ tích tụ (tt) Stage 29 Bảng kết phân cụm dạng sơ đồ tích tụ (tt) Kết phân cụm dạng sơ đồ tích tụ Agglomeration schedule cho biết số quan sát hay cụm kết hợp giai đoạn Dòng (stage 1) thể giai đoạn có 20 cụm tới stage cịn 19 cụm người thứ 14 16 vào cụm Coefficient thể khoảng cách Euclid bình phương người => lớn cho thấy phân tách cụm lớn Stage Cluster First Appear thể cụm tạo thành giai đoạn 31 10 11 12 13 14 15 16 17 18 19 Cluster Combined Cluster Cluster 14 10 1 Coefficients 16 13 11 14 12 20 10 19 17 15 18 1.000 2.000 3.500 5.000 6.500 8.167 10.500 13.000 15.583 18.500 23.000 27.750 33.100 41.333 51.833 64.500 79.667 172.667 328.600 Stage Cluster First Appears Next Stage Cluster Cluster 0 0 0 15 0 11 0 16 10 0 11 12 13 15 17 10 14 13 16 11 18 14 19 12 18 15 17 19 300 16 18 Bảng kết phân cụm dạng sơ đồ tích tụ (tt) Bảng Cluster membership cho ta biết phân từ cụm đến cụm đối tượng thuộc cụm - Nếu phân cụm thìquan sát thuộc cụm 1, qsát thuộc cụm 2, quan sát 18 thuộc cụm - Nếu phân cụm qsát thuộc cụm 1, quan sát thuộc cụm qsát 18 thuộc cụm 32 6/4/2017 Bước 3: Quyết định số cụm Bước 4: Diễn tả mơ tả cụm (tt) • Phân tích lý thuyết (dựa nghiên cứu tiền nhiệm) Tính bình qn từ giá trị đối tượng theo biến • Sử dụng khoảng cách cụm làm tiêu Trung bình cụm chuẩn để xác định số cụm (Phân cụm thứ bậc) • Tỉ số phương sai nội nhóm phương sai nhóm có thay đổi đột ngột (Phân cụm Các trung bình cụm gợi ý tên cho cụm Dùng thủ tục tính trung bình cụm lệnh Basic Table khơng thứ bậc) • Qui mơ tương đối cụm 33 Bước 4: Diễn tả mô tả cụm (tt) 34 Bước 4: Diễn tả mô tả cụm (tt) 35 36 6/4/2017 Bước 4: Diễn tả mô tả cụm (tt) Bước 4: Diễn tả mô tả cụm (tt) 37 38 Bước 4: Diễn tả mô tả cụm (tt) Bước 4: Diễn tả mô tả cụm (tt) 39 40 10 6/4/2017 Bước 4: Diễn tả mô tả cụm (tt) Bước 5: Đánh giá Kết tính tốn trung bình biến theo cụm Cụm số mua sắm thú vui mua sắm tốn tiền mua sắm giúp tìm đáng không quan tâm kết hợp mua sắm tiết kiệm mua đến việc mua với ăn uống tiền nhờ so sánh mua sắm sắm giá V3 V4 V5 V6 V1 V2 5.750 3.625 6.000 3.125 1.875 3.875 1.667 3.000 1.833 3.500 5.500 3.333 3.500 5.833 3.333 6.000 3.500 6.000 Cụm số có trị trung bình lớn V1 V3 => “nhóm quan tâm thích thú mua sắm” Cụm số có biến V5 => “nhóm thờ với việc mua sắm” Cụm số có biến V2, V4, V6 => “nhóm mua sắm quan tâm đến kinh tế” 41 Bước 3: Chọn thủ tục phân cụm (tt) Phân cụm Không thứ bậc (Non - hierarchical clustering) Thường gọi phân cụm K - means Phương pháp bắt đầu (sequential threshold): trình hạt giống cụm chọn tất đối tượng cách hạt giống khoảng cách định trước nhập vào cụm Phương pháp bắt đầu song song (parallel threshold): tương tự phương pháp có nhiều hạt giống chọn trình tiến hành song song Phương pháp phân chia tối ưu (optimizing partitioning): thủ tục khác với hai phương pháp chỗ đối tượng sau phân vào cụm phân lại 43 vào cụm khác để thỏa tiêu chuẩn tối ưu tồn Phân tích cụm tập hợp liệu với thước đo khác => so sánh kết Sử dụng phương pháp phân cụm khác (thứ bậc không thứ bậc) => so sánh kết Chia liệu làm phần =>thực phân tích cụm riêng cho tập liệu => so sánh trung bình cụm tập liệu Bỏ bớt vài biến => thực phân tích cụm tập hợp biến lại => so sánh kết với kết sử dụng hết biến cần thiết Thực phân tích cụm khơng thứ bậc nhiều lần với nhiều thứ tự khác 42 => kết ổn định Bước 3: Chọn thủ tục phân cụm (tt) Phân cụm Không thứ bậc (Non - hierarchical clustering) (tt) • Phải thử xác định trước số cụm Nhược • Lựa chọn hạt giống cụm tùy ý điểm Ưu Điểm • Khối lượng tính tốn • Thời gian thực nhanh Cách tốt nhất: Đầu tiên nên sử dụng phân cụm thứ bậc để tìm kết ban đầu Sau đó, cụm trung tâm cụm kết sử dụng làm thông tin ban đầu để áp dụng phương pháp phân chia tối ưu 44 11 6/4/2017 Bước 3: Chọn thủ tục phân cụm (tt) Bước 3: Chọn thủ tục phân cụm (tt) Phân cụm Không thứ bậc (Non - hierarchical clustering) (tt) Phân cụm Không thứ bậc (Non - hierarchical clustering) (tt) 45 K - Means Phân thứ bậc 46 Bước 3: Chọn thủ tục phân cụm (tt) Phân cụm Không thứ bậc (Non - hierarchical clustering) (tt) Cluster Cluster • Bảng Cluster Membership K-means cho thấy quan sát 47 thuộc cụm khoảng cách quan sát với trung tâm 1 10 Theo K means Case 14 16 18 11 13 19 20 12 10 Theo thứ bậc Case 11 14 16 12 20 19 13 18 15 17 15 17 So sánh kết bảng phân cụm thứ bậc không thứ bậc về: - Tổng số đối tượng - Từng đối tượng cụm - Nhưng nhìn vào K-Means thấy rõ khoảng cách 48cụm phương án cuối cặp cụm phân tách rõ 12 6/4/2017 Bước 3: Chọn thủ tục phân cụm (tt) Bước 3: Chọn thủ tục phân cụm (tt) Phân cụm Không thứ bậc (Non - hierarchical clustering) (tt) Phân cụm Không thứ bậc (Non - hierarchical clustering) (tt) Kiểm định F biến cụm: H0: Sự khác biệt cụm mang tính ngẫu nhiên (nghĩa cụm không khác biệt nhau) = ℎươ ữ ụ = ℎươ ộ ộ 1 ụ F lớn => phương sai cụm lớn > phương sai phần tử cụm => phần tử cụm gần => Bác bỏ H0 : khác biệt cụm có sở Các trung tâm cụm cuối trung bình quan sát biến phương án phân cụm đạt 49 50 Bước 3: Chọn thủ tục phân cụm (tt) Bước 4: Diễn tả mô tả cụm (tt) Phân cụm Không thứ bậc (Non - hierarchical clustering) (tt) Kết tính tốn trung bình biến theo cụm Cụm số mua sắm thú vui mua sắm tốn tiền kết hợp mua sắm với ăn uống mua sắm giúp tìm đáng khơng quan tâm tiết kiệm mua đến việc mua tiền nhờ so sánh mua sắm sắm giá V4 V5 V6 V1 V2 V3 5.750 3.625 6.000 3.125 1.875 3.875 1.667 3.000 1.833 3.500 5.500 3.333 3.500 5.833 3.333 6.000 3.500 6.000 Cụm số có trị trung bình lớn V1 V3 => “nhóm quan tâm thích thú mua sắm” H0: ??? Cụm số có biến V5 => “nhóm thờ với việc mua sắm” => Bác bỏ H0 => ?? => Việc phân cụm có ý nghĩa thống kê Cụm số có biến V2, V4, V6 => “nhóm mua sắm quan tâm đến kinh tế” 51 52 13 6/4/2017 SO SÁNH PHÂN TÍCH NHÂN TỐ - PHÂN TÍCH CỤM Bước 5: Đánh giá So Sánh Phân tích cụm tập hợp liệu với thước đo khác => so sánh kết Giống Bỏ bớt vài biến => thực phân tích cụm tập hợp biến lại => so sánh kết với kết sử dụng hết biến cần thiết Thực phân tích cụm khơng thứ bậc nhiều lần với nhiều thứ tự khác 53 => kết ổn định Phân tích cụm Rút gọn tóm lược Phân loại đối tượng Sử dụng phương pháp phân cụm khác (thứ bậc không thứ bậc) => so sánh kết Chia liệu làm phần =>thực phân tích cụm riêng cho tập liệu => so sánh trung bình cụm tập liệu Phân tích nhân tố Phương pháp phân loại - Phân tích thống kê nhiều biến Mục đích sử nhiều biến nghiên cứu có thành nhóm dụng tương quan với để nhỏ hoàn toàn khác Khác dễ dàng quản lý biệt Các biến đo lường Tập hợp biến định lượng có khả Số liệu đưa cách thích hợp thang mơ tả giống vào đo định lượng (khoảng cách hay tỷ lệ) Quyết định số nhóm đối tượng Khơng có thơng tin trước nhóm hay cụm 54 55 14 ... 33 Bước 4: Diễn tả mô tả cụm (tt) 34 Bước 4: Diễn tả mô tả cụm (tt) 35 36 6 /4/ 2017 Bước 4: Diễn tả mô tả cụm (tt) Bước 4: Diễn tả mô tả cụm (tt) 37 38 Bước 4: Diễn tả mô tả cụm (tt) Bước 4: Diễn...6 /4/ 2017 Ứng dụng Kinh Doanh Sinh học Sức khỏe tâm lý Marketing Tiến hành phân tích cụm Trong nghiên cứu thị trường, phân tích cụm sử dụng để phân đoạn thị trường xác... Combined Cluster Cluster 14 10 1 Coefficients 16 13 11 14 12 20 10 19 17 15 18 1.000 2.000 3.500 5.000 6.500 8.167 10.500 13.000 15.583 18.500 23.000 27.750 33.100 41 .333 51.833 64. 500 79.667 172.667