1. Trang chủ
  2. » Mẫu Slide

5 gom nhom du lieu t

48 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Enterprise systems Bootstrap framework Phát triển ứng dụng web GV Đặng Ngọc Hoàng Thành Email đại học kinh tế Thành phố Hồ Chí Minh KHOA HỌC DỮ LIỆU – DATA SCIENCE phân cụm dữ liệu shcksdhcksdhcksdjcsjcosjcoiej nckjdfhckehciehfkjecnekjgeuic khcjedhiehc

Phát triển ứng dụng web – DATA SCIENCE Bootstrap frameworkKHOA HỌC DỮ LIỆU GV: Đặng Ngọc Hoàng Thành GV: Đặng Ngọc Hoàng Thành Email: thanhdnh@ueh.edu.vn Email: thanhdnh@ueh.edu.vn PHÂN CỤM DỮ LIỆU (CLUSTERING) NỘI DUNG     • • Bài toán phân cụm liệu Giới thiệu phân cụm liệu Các ứng dụng phân cụm liệu kinh tế Một số phương pháp phân cụm • • Hierarchical clustering: Agnes, Diana Partitioning clustering: K-means,Fuzzy C-means Đánh giá mơ hình phân cụm • • • Đánh giá ngồi (external validation) Đánh giá nội ((internal validation) Đánh giá tương đối (relative validation) Minh họa công cụ Orange Giới thiệu phân cụm liệu Định nghĩa Là trình gom cụm/nhóm đối tượng/dữ liệu có đặc điểm tương đồng vào cụm/nhóm tương ứng Trong đó: • • Các đối tượng cụm có tính chất tương tự Các đối tượng thuộc cụm/nhóm khác có tính chất khác Lưu ý: Dữ liệu toán phân cụm liệu chưa gán nhãn Đây liệu tự nhiên thường thấy thực tế Giới thiệu phân cụm liệu Mơ hình q trình phân cụm liệu Giới thiệu phân cụm liệu Đặc điểm:   Nhiệm vụ tìm đo đạc khác biệt đối tượng liệu Phân cụm thuộc nhóm phương pháp học khơng giám sát (unsupervised learning) khơng biết trước số nhóm (khác với toán phân lớp)  Một phương pháp phân cụm tốt phương pháp tạo cụm có chất lượng cao: • •  Độ tương đồng bên cụm cao Độ tương tự cụm thấp (khác biệt cao) Các ứng dụng điển hình: • • Công cụ phân cụm liệu độc lập Là giai đoạn tiền xử lý cho thuật toán khác Giới thiệu phân cụm liệu  Độ đo phân cụm: sử dụng làm tiêu chí nhằm tính tốn tương đồng/sai biệt đối tượng liệu nhằm phục vụ cho trình gom cụm  Một số độ đo phân cụm:  Euclid    Cosin  Minkowski:     Các ứng dụng phân cụm kinh tế  Dự báo khách hàng tiềm  Phân tích xu hướng hành vi khách hàng  Phân tích cạnh tranh, xu hướng lựa chọn dịch vụ nhà cung cấp  Phân tích đặc tính sản phẩm dịch vụ  Đánh giá kết hoạt động kinh doanh  Phân tích hành vi người dùng mạng xã hội Giới thiệu phân cụm liệu Phân loại số phương pháp phân cụm Phân cụm phân cấp (Hierarchical clustering)    Xây dựng phân cấp cho liệu cần gom cụm dựa trên: Ma trận khoảng cách phần tử (similarity matrix dissimilarity matrix)   Độ đo khoảng cách cụm (single link, complete link…) Phương pháp không cần xác định trước số cụm cần xác định điều kiện dừng Các phương pháp điển hình: Diana, Agnes… Ví dụ FCM Bước 3: Tính độ sai khác điểm liệu với tâm cụm   Với Ví dụ FCM Bước 3: Tính độ sai khác điểm liệu với tâm cụm   Với Ví dụ FCM Sau bước ta được: Ví dụ FCM Bước 4: Cập nhật giá trị ma trận độ đo thành viên Cụm Ví dụ FCM Bước 4: Cập nhật giá trị ma trận độ đo thành viên Cụm Ví dụ FCM Bước 4: Cập nhật giá trị ma trận độ đo thành viên Bước 5: Quay lại bước tâm cụm không thay đổi Đánh giá thuật toán FCM  Là thuật toán gom cụm mềm, khắc phục vấn đề cụm chồng lên liệu có kích thước lớn, nhiều chiều  Phụ thuộc vào tham số khởi tạo: tham số mờ m; ma trận độ đo mức độ thành viên  Vẫn gặp vấn đề cực trị địa phương  Nhạy cảm với nhiễu ngoại biên Các phương pháp đánh giá phân cụm liệu  Là vấn đề khó khăn tốn phân cụm  Các phương pháp đánh giá việc phân cụm liệu: đánh giá ngoài, đánh giá nội bộ, đánh giá tương đối  Một số tiêu chí để đánh giá chất lượng phân cụm là:   Độ nén (compactness): phần tử cụm phải “gần nhau” Độ phân cách (separation): khoảng cách cụm nên “xa nhau”, phân cách rõ ràng Đánh giá (external validation)  Là đánh giá kết phân cụm dựa vào cấu trúc/ xu hướng phân cụm định trước cho tập liệu  So sánh độ sai khác cụm  So sánh với kết mẫu (đáp án)  Các độ đo sử dụng phương pháp này: Rand statistic, Jaccard coefficient, Folkes Mallows index… Đánh giá nội (internal validation)  Là đánh giá kết phân cụm mà khơng có thơng tin từ bên ngồi, chủ yếu dựa vector thơng qua ma trận xấp xỉ (proximity matrix)  Tối ưu hóa số nội bộ: độ nén, độ phân tách  Các độ đo sử dụng phương pháp này: Hubert’s statistic, Silhouette index, Dunn’s index, F-ratio, DBI (Davies Bouldin Index) … Đánh giá tương đối (relative validation)  Đánh giá kết gom cụm việc so sánh với:   Kết gom cụm ứng với trị thông số khác Kết gom cụm phương pháp khác Demo cơng cụ Orange  Bài tốn phân cụm khách hàng, dựa hành vi mua hàng Demo cơng cụ Orange  Quy trình thực Demo công cụ Orange  Kết Tài liệu tham khảo  [1] Oded Maimon, Lior Rokach, “Data Mining and Knowledge Discovery Handbook”, Second Edition, Springer Science + Business Media, LLC 2005, 2010  [2] Hillol Kargupta, Jiawei Han, Philip S Yu, Rajeev Motwani, and Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC, 2009  [3] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006   [4] Daniel T Larose, “Data mining methods and models”, John Wiley & Sons, Inc, 2006 [5]R Xu, D Wunsch II Survey of Clustering Algorithms IEEE Transactions on Neural Networks, 16(3), May 2005, pp 645-678 ... đối t? ?ợng thuộc cụm, phần t? ?? cụm có t? ?ơng t? ?? Mỗi cụm có phần t? ?? Thu? ?t tốn điển hình: K-means, K-mediods, Fuzzy C-means Thu? ?t tốn K-means Thuộc nhóm thu? ?t tốn phân cụm dựa phân hoạch ? ?T? ? t? ?ởng... phương pháp t? ?nh số cụm • Chạy thu? ?t tốn nhiều lần với trung t? ?m khác để t? ?m giá trị cực tiểu hàm m? ?t Thu? ?t toán Fuzzy C - Means  Thuộc nhóm thu? ?t tốn phân cụm dựa phân hoạch Là biến thể K-mean... nh? ?t giá trị ma trận độ đo thành viên Cụm Ví dụ FCM Bước 4: Cập nh? ?t giá trị ma trận độ đo thành viên Bước 5: Quay lại bước t? ?m cụm không thay đổi Đánh giá thu? ?t toán FCM  Là thu? ?t toán gom

Ngày đăng: 27/10/2022, 00:09

Xem thêm:

w