1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Máy học nâng cao: Clustering - Trịnh Tấn Đạt

70 45 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 70
Dung lượng 4,8 MB

Nội dung

Bài giảng Máy học nâng cao: Clustering cung cấp cho người học các kiến thức: Giới thiệu - clustering, phân loại, thuật toán kmeans, hierarchical clustering, density based clustering. Cuối bài giảng có phần bài tập để người học ôn tập và củng cố kiến thức.

Trịnh Tấn Đạt Khoa CNTT – Đại Học Sài Gòn Email: trinhtandat@sgu.edu.vn Website: https://sites.google.com/site/ttdat88/ Nội dung  Giới thiệu: Clustering  Phân loại  Thuật toán Kmeans  Hierarchical Clustering  Density-Based Clustering  Bài tập Clustering ❖ Học không giám sát (Unsupervised learning)  Tập học (training data) bao gồm quan sát, mà quan sát khơng có thơng tin label giá trị đầu mong muốn  Mục đích tìm (học) cụm, cấu trúc, quan hệ tồn ẩn tập liệu có Clustering ❖Phân cụm/Phân nhóm (clustering)  Phát nhóm liệu, nhóm tính chất Clustering  Ví dụ: Nhận diện phần tử biên (outliers) giảm thiểu nhiễu (noisy data) Clustering  Ví dụ: Phân cụm ảnh Clustering  Ví dụ: Community detection  Phát cộng đồng mạng xã hội Clustering  Ví dụ: Image segmentation Clustering  Clustering: trình phân nhóm/cụm liệu/đối tượng vào nhóm/cụm  Các đối tượng nhóm tương tự (tương đồng) với so với đối tượng nhóm khác Clustering  Input: tập liệu {x1, …, xM} khơng có nhãn (hoặc giá trị đầu mong muốn)  Output: cụm (nhóm) quan sát  Một cụm (cluster) tập quan sát  Tương tự với (theo ý nghĩa, đánh giá đó)  Khác biệt với quan sát thuộc cụm khác 10 MeanShift 56 MeanShift 57 MeanShift 58 MeanShift 59 MeanShift 60 MeanShift 61 MeanShift 62 MeanShift  MeanShift khơng cần chọn trước số nhóm cần phân loại Thuật tốn tìm số nhóm chúng dịch chuyển tự động  Vấn đề MeanShift chọn window - bán kính vùng quét để tính mean - 63 Tìm hiểu thêm  Subspace Clustering 64 Bài Tập 1) Toy Example: Tạo ngẫu nhiên loại liệu sau  Three Data: X1 , X2, X3  X1 : clusters  X2 : clusters  X3: cluster + outlier  Cài đặt so sánh hiệu  Kmean  DBSCAN 65 Toy Example Toy Example Toy Example Bài Tập 2) Color Clustering based Kmeans  Imagine you have an image with millions of colors  In most images, a large number of the colors will be unused, and many of the pixels in the image will have similar or even identical colors https://jakevdp.github.io/PythonDataScienceHandbook/05.11-k-means.html https://towardsdatascience.com/introduction-to-image-segmentation-with-k-means-clustering-83fd0a9e2fc3 69 Dominant Color https://buzzrobot.com/dominant-colors-in-an-image-using-k-means-clustering-3c7af4622036 70 ... Giới thiệu: Clustering  Phân loại  Thuật toán Kmeans  Hierarchical Clustering  Density-Based Clustering  Bài tập Clustering ❖ Học không giám sát (Unsupervised learning)  Tập học (training... nhiễu (noisy data) Clustering  Ví dụ: Phân cụm ảnh Clustering  Ví dụ: Community detection  Phát cộng đồng mạng xã hội Clustering  Ví dụ: Image segmentation Clustering  Clustering: q trình... EM, SOMs ,…  Spectral clustering : phân cụm dựa đồ thị … 13 Clustering 14 Clustering  Ví dụ: Phân hoạch (partitioning) 15 Clustering  Ví dụ: Phân cấp (hierarchical) 16 Clustering  Đánh giá

Ngày đăng: 15/05/2020, 22:44

TỪ KHÓA LIÊN QUAN