1. Trang chủ
  2. » Thể loại khác

Giải thuật gom cụm Clustering algorithms

43 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 43
Dung lượng 0,99 MB

Nội dung

Khoa Công Nghệ Thông Tin Trường Đại Học Cần Thơ Giải thuật gom cụm Clustering algorithms Đỗ Thanh Nghị dtnghi@cit.ctu.edu.vn Cần Thơ 02-12-2008 Nội dung Giới thiệu clustering  Hierarchical clustering  K-Means  Kết luận hướng phát triển  Nội dung Giới thiệu clustering  Hierarchical clustering  K-Means  Kết luận hướng phát triển     Clustering   Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển gom nhóm      nature liệu thường khơng có nhiều thơng tin sẵn có lớp (nhãn) gom nhóm : mơ hình gom cụm liệu (khơng có nhãn) cho liệu nhóm có tính chất tương tự liệu nhóm khác có tính chất khác có nhiều nhóm giải thuật khác : hierarchical clustering, partitioning, density-based, model-based, etc sử dụng nhiều : K-Means, Dendrogram, SOM, EM ứng dụng thành cơng hầu hết lãnh vực tìm kiếm thơng tin, phân tích liệu, etc    Clustering  Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển    Clustering   Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển gom nhóm    thường dựa sở khoảng cách nên chuẩn hóa liệu khoảng cách tính theo kiểu liệu : số, nhị phân, loại, kiểu symbol (interval, histogram, taxonomy    Kiểu số   Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển khoảng cách Minkowski d (i, j)  q (| x  x |q  | x  x |q   | x  x |q ) i1 j1 i2 j2 ip jp i = (xi1, xi2, …, xip) j = (xj1, xj2, …, xjp) phần tử liệu p-dimensional, q số nguyên dương  q = 1, d khoảng cách Manhattan  q = 2, d khoảng cách Euclid  khoảng cách cosine : dcos(i, j) = iTj/(||i|| ||j||)    Kiểu nhị phân Object i  Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển Object j 1 sum a b a b c d sum a  c b  d d (i, j )  cd p bc abcd  khoảng cách đối xứng :  khoảng cách bất đối xứng : d (i, j )   hệ số Jaccard bất đối xứng : sim Jaccard (i, j )  bc abc a abc    Kiểu loại (nominal type)   Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển ví dụ : thuộc tính color có giá trị red, green, blue, etc  phương pháp matching đơn giản, m số lượng matches p tổng số biến (thuộc tính), khoảng cách định nghĩa : d (i, j)  p p m    Kiểu symbol   Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển xem trang publications Edwin DIDAY cộng 10    Giải thuật K-Means  Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển k1 Y khởi động ngẫu nhiên tâm clusters k2 k3 X 29    Giải thuật K-Means  Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển k1 Y phần tử gán cho tâm cluster gần k2 k3 X 30    Giải thuật K-Means  k1 Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển k1 Y cập nhật lại tâm cluster (giá trị trung bình phần tử cluster) k2 k3 k2 k3 X 31    Giải thuật K-Means  Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển k1 Y cấu hình lần lặp k3 k2 X 32    Giải thuật K-Means  phần tử gán lại cho tâm cluster gần Y có phần tử thay đổi nhóm Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển k1 k3 k2 X 33    Giải thuật K-Means  Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển k1 Y cập nhật lại tâm cluster (giá trị trung bình phần tử cluster) k3 k2 X 34    Giải thuật K-Means  Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển k1 Y cập nhật lại tâm cluster (giá trị trung bình phần tử cluster) k3 k2 X 35    Giải thuật K-Means  Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển k1 Y k2 k3 X 36    Giải thuật K-Means   Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển nhận xét giải thuật đơn giản cho kết dễ hiểu cần cho tham số K (số lượng clusters) kết phụ thuộc vào việc khởi động ngẫu nhiên K tâm (center) K clusters : khắc phục cách khởi động lại nhiều lần khả chịu đựng nhiễu không tốt (ảnh hưởng phần tử outliers) : khắc phục K-Medoids, khơng sử dụng giá trị trung bình, sử dụng phần tử 37 Nội dung Giới thiệu clustering  Hierarchical clustering  K-Means  Kết luận hướng phát triển  38    Giải thuật clustering   Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển nhiều phương pháp khác  density-based : DBSCAN (Ester et al., 1996), OPTICS (Ankerst et al., 1999), DENCLUE (Hinneburg & Keim, 1998)  model-based : EM (Expected maximization), SOM (Kohonen, 1995) 39    Clustering với OPTICS  Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển 40   Clustering 12088 web articles với SOM   Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển 41    Hướng phát triển       Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển kiểu liệu phức tạp tăng tốc độ xử lý tham số đầu vào giải thuật diễn dịch kết sinh phương pháp kiểm chứng chất lượng mơ hình 42 ...  Clustering với OPTICS  Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển 40   Clustering 12088 web articles với SOM   Giới thiệu clustering Hierarchical clustering. .. etc    Clustering  Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển    Clustering   Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng... Hierarchical clustering (Single link)  Giới thiệu clustering Hierarchical clustering K-Means Kết luận hướng phát triển 14    Hierarchical clustering (Single link)  Giới thiệu clustering Hierarchical

Ngày đăng: 19/11/2020, 02:02

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w