1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng khai phá dữ liệu (data mining) clustering

70 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Bài Giảng Khai Phá Dữ Liệu (Data Mining) Clustering
Tác giả Trịnh Tấn Đạt
Người hướng dẫn TAN DAT TRINH, Ph.D.
Trường học Đại Học Sài Gòn
Chuyên ngành Khoa CNTT
Thể loại Bài Giảng
Năm xuất bản 2024
Thành phố Sài Gòn
Định dạng
Số trang 70
Dung lượng 2,48 MB

Nội dung

Trịnh Tấn Đạt Khoa CNTT – Đại Học Sài Gòn Email: trinhtandat@sgu.edu.vn Website: https://sites.google.com/site/ttdat88/ Nội dung  Giới thiệu: Clustering  Phân loại  Thuật toán Kmeans  Hierarchical Clustering  Density-Based Clustering  Bài tập Clustering ❖ Học không giám sát (Unsupervised learning)  Tập học (training data) bao gồm quan sát, mà quan sát khơng có thơng tin label giá trị đầu mong muốn  Mục đích tìm (học) cụm, cấu trúc, quan hệ tồn ẩn tập liệu có Clustering ❖Phân cụm/Phân nhóm (clustering)  Phát nhóm liệu, nhóm tính chất Clustering  Ví dụ: Nhận diện phần tử biên (outliers) giảm thiểu nhiễu (noisy data) Clustering  Ví dụ: Phân cụm ảnh Clustering  Ví dụ: Community detection  Phát cộng đồng mạng xã hội Clustering  Ví dụ: Image segmentation Clustering  Clustering: trình phân nhóm/cụm liệu/đối tượng vào nhóm/cụm  Các đối tượng nhóm tương tự (tương đồng) với so với đối tượng nhóm khác Clustering  Input: tập liệu {x1, …, xM} khơng có nhãn (hoặc giá trị đầu mong muốn)  Output: cụm (nhóm) quan sát  Một cụm (cluster) tập quan sát  Tương tự với (theo ý nghĩa, đánh giá đó)  Khác biệt với quan sát thuộc cụm khác 10 MeanShift 56 MeanShift 57 MeanShift 58 MeanShift 59 MeanShift 60 MeanShift 61 MeanShift 62 MeanShift  MeanShift khơng cần chọn trước số nhóm cần phân loại Thuật tốn tìm số nhóm chúng dịch chuyển tự động  Vấn đề MeanShift chọn window - bán kính vùng quét để tính mean - 63 Tìm hiểu thêm  Subspace Clustering 64 Bài Tập 1) Toy Example: Tạo ngẫu nhiên loại liệu sau  Three Data: X1 , X2, X3  X1 : clusters  X2 : clusters  X3: cluster + outlier  Cài đặt so sánh hiệu  Kmean  DBSCAN 65 Toy Example Toy Example Toy Example Bài Tập 2) Color Clustering based Kmeans  Imagine you have an image with millions of colors  In most images, a large number of the colors will be unused, and many of the pixels in the image will have similar or even identical colors https://jakevdp.github.io/PythonDataScienceHandbook/05.11-k-means.html https://towardsdatascience.com/introduction-to-image-segmentation-with-k-means-clustering-83fd0a9e2fc3 69 Dominant Color https://buzzrobot.com/dominant-colors-in-an-image-using-k-means-clustering-3c7af4622036 70

Ngày đăng: 23/12/2023, 10:13