Chương 5 giúp người học hiểu được phương pháp gom cụm dữ liệu trong khai phá dữ liệu. Trong chương này sẽ trình bày các nội dung chính như: Tổng quan về gom cụm dữ liệu, gom cụm dữ liệu bằng phân hoạch, gom cụm dữ liệu bằng phân cấp, gom cụm dữ liệu dựa trên mật độ, gom cụm dữ liệu dựa trên mô hình, các phương pháp gom cụm dữ liệu khác. Mời các bạn cùng tham khảo.
Chương 5: Gom cụm liệu Khai phá liệu (Data mining) Nội dung 5.1 Tổng quan gom cụm liệu 5.2 Gom cụm liệu phân hoạch 5.3 Gom cụm liệu phân cấp 5.4 Gom cụm liệu dựa mật độ 5.5 Gom cụm liệu dựa mơ hình 5.6 Các phương pháp gom cụm liệu khác 5.7 Tóm tắt 5.0 Tình – Outlier detection Người sử dụng thẻ ID = 1234 thật chủ nhân thẻ tên trộm? 5.0 Tình - Làm liệu Nhận diện phần tử biên (outliers) giảm thiểu nhiễu (noisy data) Giải pháp giảm thiểu nhiễu Phân tích cụm (cluster analysis) 5.0 Tình 5.0 Tình 5.0 Tình 5.0 Tình 5.0 Tình 5.0 Tình 10 5.4 Gom cụm liệu dựa mật độ Các khái niệm dùng gom cụm liệu dựa mật độ MinPts = 70 5.4 Gom cụm liệu dựa mật độ Các khái niệm dùng gom cụm liệu dựa mật độ Border Outlier Cụm dựa mật độ (density based cluster): tập tất đối tượng nối kết với dựa mật độ Đối tượng thuộc cụm core object Nếu đối tượng khơng core object gọi đối tượng ranh giới (border object) Đối tượng không thuộc cụm xem nhiễu (noise/outlier) Core ε = 1cm MinPts = 71 5.4 Gom cụm liệu dựa mật độ DBSCAN (Density-Based Spatial Clustering of Applications with Noise) Input: tập đối tượng D, ε, MinPts Output: density-based clusters (và noise/outliers) Giải thuật Xác định ε–neighborhood đối tượng p ∈ D If p core object, tạo cluster Từ core object p, tìm tất đối tượng density-reachable đưa đối tượng (hoặc cluster) vào cluster ứng với p 3.1 Các cluster đạt (density-reachable cluster) trộn lại với 3.2 Dừng khơng có đối tượng thêm vào 72 5.4 Gom cụm liệu dựa mật độ ε C1 ε ε C1 MinPts = 73 5.4 Gom cụm liệu dựa mật độ DBSCAN (Density-Based Spatial Clustering of Applications with Noise) Đặc điểm ??? Các cụm có dạng kích thước khác Khơng có giả định phân bố đối tượng liệu Không yêu cầu số cụm Không phụ thuộc vào cách khởi động (initialization) Xử lý nhiễu (noise) phần tử biên (outliers) Yêu cầu trị cho thông số nhập Yêu cầu định nghĩa mật độ (density) ε MinPts Độ phức tạp O(nlogn) O(n2) 74 5.5 Gom cụm liệu dựa mơ hình Tối ưu hóa phù hợp liệu mơ hình tốn Giả định trình tạo liệu Dữ liệu tạo với nhiều phân bố xác suất khác Các phương pháp Tiếp cận thống kê Mở rộng giải thuật gom cụm dựa phân hoạch k-means: Expectation-Maximization (EM) Tiếp cận học máy: gom cụm ý niệm (conceptual clustering) Tiếp cận mạng neural: Self-Organizing Feature Map (SOM) 75 5.5 Gom cụm liệu dựa mơ hình Gom cụm Expectation-Maximization (EM) Gom cụm ý niệm (conceptual clustering) Giải thuật tinh chỉnh lặp để gán đối tượng vào cụm (bước kỳ vọng) ước lượng trị thơng số (bước cực đại hố) Tạo cách phân lớp đối tượng chưa gán nhãn dựa vào mơ tả đặc trưng cho nhóm đối tượng ứng với khái niệm (concept) Gom cụm với mạng neural Biểu diễn cụm ví dụ tiêu biểu (exemplar) Exemplar đóng vai trị prototype cụm Các đối tượng phân bố vào cụm tương tự với exemplar cụm dựa độ đo khoảng cách 76 5.5 Gom cụm liệu dựa mô hình 77 5.5 Gom cụm liệu dựa mơ hình Giải thuật Expectation-Maximization (EM) Gán đối tượng vào cụm tương tự trung tâm (mean) cụm Dựa vào trọng số (weight) đối tượng cụm Xác suất thành viên (probability of membership) Khơng có ranh giới cụm Trung tâm cụm tính dựa vào độ đo có trọng số (weighted measures) Hội tụ nhanh tối ưu cục 78 5.5 Gom cụm liệu dựa mơ hình Giải thuật Expectation-Maximization (EM) Input: tập n đối tượng, K (số cụm) Output: trị tối ưu cho thơng số mơ hình Giải thuật: Khởi trị 1.1 Chọn ngẫu nhiên K đối tượng làm trung tâm K cụm 1.2 Ước lượng trị ban đầu cho thông số (nếu cần) Lặp tinh chỉnh thông số (cụm): 2.1 Bước kỳ vọng (expectation step): gán đối tượng xi đến cụm Ck với xác suất P(xi ∈ Ck) với k=1 K 2.2 Bước cực đại hóa (maximization step): ước lượng trị thơng số 2.3 Dừng thỏa điều kiện định trước 79 5.5 Gom cụm liệu dựa mơ hình Giải thuật Expectation-Maximization (EM) Giải thuật: Khởi trị Lặp tinh chỉnh thông số (cụm): 2.1 Bước kỳ vọng (expectation step): gán đối tượng x i đến cụm Ck với xác suất P(xi ∈ Ck) 2.2 Bước cực đại hóa (maximization step): ước lượng trị thông số (mk trung tâm cụm Ck, j = K, k = K) 80 5.6 Các phương pháp gom cụm liệu khác Gom cụm cứng (hard clustering) 3500 Mỗi đối tượng thuộc cụm Mức thành viên (degree of membership) đối tượng với cụm là Ranh giới (boundary) cụm rõ ràng 3000 Weight [kg] Lorries 2500 Sports cars 2000 1500 Medium market cars 1000 500 100 150 200 250 Top speed [km/h] 300 Gom cụm mờ (fuzzy clustering) Mỗi đối tượng thuộc nhiều cụm với mức thành viên từ đến Ranh giới cụm không rõ ràng (mờ - vague/fuzzy) 81 5.7 Tóm tắt Gom cụm nhóm đối tượng vào cụm dựa tương tự đối tượng Độ đo đo tương tự tùy thuộc vào kiểu liệu/ đối tượng cụ thể Các giải thuật gom cụm phân loại thành: nhóm phân hoạch, nhóm phân cấp, nhóm dựa mật độ, nhóm dựa lưới, nhóm dựa mơ hình, … 82 5.7 Tóm tắt R Xu, D Wunsch II Survey of Clustering Algorithms IEEE Transactions on Neural Networks, 16(3), May 2005, pp 645-678 83 Hỏi & Đáp … 84 ... y 1 0 .5 0 .5 0 -2 -1 .5 -1 -0 .5 0 .5 1 .5 x Optimal Clustering -2 -1 .5 -1 -0 .5 0 .5 1 .5 x Sub-optimal Clustering 44 5. 2 Gom cụm liệu phân hoạch Đặc điểm giải thuật k-means? 45 5.2 Gom cụm liệu phân... tốt??? 41 5. 2 Gom cụm liệu phân hoạch Giải thuật k-means 42 5. 2 Gom cụm liệu phân hoạch 43 5. 2 Gom cụm liệu phân hoạch 2 .5 Original Points y 1 .5 0 .5 -2 -1 .5 -1 -0 .5 0 .5 1 .5 x 2 .5 2 .5 2 1 .5 1 .5 y... 5. 1 Tổng quan gom cụm liệu 5. 2 Gom cụm liệu phân hoạch 5. 3 Gom cụm liệu phân cấp 5. 4 Gom cụm liệu dựa mật độ 5. 5 Gom cụm liệu dựa mơ hình 5. 6 Các phương pháp gom cụm liệu khác 5. 7