Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 43 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
43
Dung lượng
0,99 MB
Nội dung
Khoa Công Nghệ Thông Tin Trường Đại Học Cần Thơ Giải thuật gom cụm Clustering algorithms Đỗ Thanh Nghị dtnghi@cit.ctu.edu.vn Cần Thơ 02-12-2008 Nội dung Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển Nội dung Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển Clustering Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển gom nhóm nature liệu thường khơng có nhiều thơng tin sẵn có lớp (nhãn) gom nhóm : mơ hình gom cụm liệu (khơng có nhãn) cho liệu nhóm có tính chất tương tự liệu nhóm khác có tính chất khác có nhiều nhóm giải thuật khác : hierarchical clustering, partitioning, density-based, model-based, etc sử dụng nhiều : K-Means, Dendrogram, SOM, EM ứng dụng thành cơng hầu hết lãnh vực tìm kiếm thơng tin, phân tích liệu, etc Clustering Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển Clustering Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển gom nhóm thường dựa sở khoảng cách nên chuẩn hóa liệu khoảng cách tính theo kiểu liệu : số, nhị phân, loại, kiểu symbol (interval, histogram, taxonomy Kiểu số Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển khoảng cách Minkowski d (i, j) q (| x x |q | x x |q | x x |q ) i1 j1 i2 j2 ip jp i = (xi1, xi2, …, xip) j = (xj1, xj2, …, xjp) phần tử liệu p-dimensional, q số nguyên dương q = 1, d khoảng cách Manhattan q = 2, d khoảng cách Euclid khoảng cách cosine : dcos(i, j) = iTj/(||i|| ||j||) Kiểu nhị phân Object i Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển Object j 1 sum a b a b c d sum a c b d d (i, j ) cd p bc abcd khoảng cách đối xứng : khoảng cách bất đối xứng : d (i, j ) hệ số Jaccard bất đối xứng : sim Jaccard (i, j ) bc abc a abc Kiểu loại (nominal type) Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển ví dụ : thuộc tính color có giá trị red, green, blue, etc phương pháp matching đơn giản, m số lượng matches p tổng số biến (thuộc tính), khoảng cách định nghĩa : d (i, j) p p m Kiểu symbol Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển xem trang publications Edwin DIDAY cộng 10 Giải thuật K-Means Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển k1 Y khởi động ngẫu nhiên tâm clusters k2 k3 X 29 Giải thuật K-Means Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển k1 Y phần tử gán cho tâm cluster gần k2 k3 X 30 Giải thuật K-Means k1 Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển k1 Y cập nhật lại tâm cluster (giá trị trung bình phần tử cluster) k2 k3 k2 k3 X 31 Giải thuật K-Means Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển k1 Y cấu hình lần lặp k3 k2 X 32 Giải thuật K-Means phần tử gán lại cho tâm cluster gần Y có phần tử thay đổi nhóm Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển k1 k3 k2 X 33 Giải thuật K-Means Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển k1 Y cập nhật lại tâm cluster (giá trị trung bình phần tử cluster) k3 k2 X 34 Giải thuật K-Means Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển k1 Y cập nhật lại tâm cluster (giá trị trung bình phần tử cluster) k3 k2 X 35 Giải thuật K-Means Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển k1 Y k2 k3 X 36 Giải thuật K-Means Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển nhận xét giải thuật đơn giản cho kết dễ hiểu cần cho tham số K (số lượng clusters) kết phụ thuộc vào việc khởi động ngẫu nhiên K tâm (center) K clusters : khắc phục cách khởi động lại nhiều lần khả chịu đựng nhiễu không tốt (ảnh hưởng phần tử outliers) : khắc phục K-Medoids, khơng sử dụng giá trị trung bình, sử dụng phần tử 37 Nội dung Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển 38 Giải thuật clustering Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển nhiều phương pháp khác density-based : DBSCAN (Ester et al., 1996), OPTICS (Ankerst et al., 1999), DENCLUE (Hinneburg & Keim, 1998) model-based : EM (Expected maximization), SOM (Kohonen, 1995) 39 Clustering với OPTICS Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển 40 Clustering 12088 web articles với SOM Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển 41 Hướng phát triển Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển kiểu liệu phức tạp tăng tốc độ xử lý tham số đầu vào giải thuật diễn dịch kết sinh phương pháp kiểm chứng chất lượng mơ hình 42 ... Clustering với OPTICS Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển 40 Clustering 12088 web articles với SOM Giới thiệu clustering Hierarchical clustering. .. etc Clustering Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển Clustering Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng... Hierarchical clustering (Single link) Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển 14 Hierarchical clustering (Single link) Giới thiệu clustering Hierarchical