PowerPoint Presentation BÀI 2 HỌC MÁY (TIẾP) Nội dung 1 Các khái niệm cơ bản 2 Thuật toán k means 3 Biểu diễn cụm 4 Phân cụm phân cấp 5 Hàm khoảng cách 6 Chuẩn hóa dữ liệu 7 Xử lý nhiều loại thuộc tín[.]
BÀI 2: HỌC MÁY (TIẾP) Nội dung Các khái niệm Thuật toán k-means Biểu diễn cụm Phân cụm phân cấp Hàm khoảng cách Chuẩn hóa liệu Xử lý nhiều loại thuộc tính Phương pháp đánh giá Khám phá lỗ vùng liệu 10 Học LU 11 Học PU Các k/n ⚫ ⚫ Phân cụm trình tổ chức phần tử DL thành nhóm thành viên có tính chất tương tự Mỗi cụm bao gồm phần tử DL tương tự khác biệt so với phần tử DL thuộc nhóm khác Ứng dụng: phân cụm nhóm khách hàng dựa theo sở thích để thiết kế chiến lược marketing; phân cụm khách hàng dựa theo số thể để bố trí sản xuất quần áo; phân cụm báo để tổng hợp tin tức; Thuật toán k-means Algorithm k-means(k, D) chọn k điểm DL làm centroid (trung tâm cụm) repeat for điểm DL x ∈ D tính khoảng cách từ x tới centroid; gán x cho centroid gần // centroid đại diện cho cụm endfor tính tốn lại centroid dựa cụm until the stopping criterion is met Thuật toan K-means (tiếp) Điều kiện hội tụ: Số điểm DL gán lại nhỏ ngưỡng Số centroid bị thay đổi nhỏ ngưỡng Tổng bình phương lỗi nhỏ ngưỡng đó: - k số lượng cụm - Cj cụm thứ j - mj centroid Cj (véc-tơ trung bình điểm DL thuộc Cj) - dist(x, mj) khoảng cách x mj (A) Lựa chọn ngẫu nhiên k centroid + + Vịng lặp 1: (B) Gán cụm (C) Tính lại centroid + + + Vòng lặp 2: (D) Gán cụm + (E) Tính lại centroid + + Vịng lặp 3: (F) Gán cụm + + + + + (G) Tính lại centroid + Thuật tốn K-Means (tiếp) Algorithm disk-k-means(k, D) Chọn k điểm DL làm centroid mj, j = 1, , k; repeat khởi tạo sj ← 0, j = 1, , k; // véc-tơ với thành phần khởi tạo nj ← 0, j = 1, , k; // nj số điểm cụm j for điểm DL x ∈ D j ← argmin dist(x ,mi); gán x cho cụm j; sj ← sj + x; nj ← nj + 1; 10 endfor 11 mj ← sj / nj, j = 1, , k; 12 until đ/k dừng thỏa mãn Thuật toán K-Means (tiếp) ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ O(tkn) t số vịng lặp, k số cụm, n số ví dụ DL huấn luyện Chỉ áp dụng cho DL tồn mean, DL rời rạc, áp dụng thuật toán k-modes Giá trị k cho trước Nhạy cảm với điểm DL ngoại lai (outlier) (các điểm nằm xa điểm lại tập DL) Nhạy cảm với việc khởi tạo (thường tiến đến cực trị địa phương) Không phù hợp với cụm có dạng siêu cầu Thuật tốn K-Means (tiếp) điểm ngoại lai + + a) Phân cụm không mong muốn điểm ngoại lai + + a) Phân cụm lý tưởng Thuật toán K-Means (tiếp) + + (A) Khởi tạo ngẫu nhiên + + (B) Vòng lặp + + (C) Vòng lặp