1. Trang chủ
  2. » Giáo án - Bài giảng

Gom nhom du lieu_ Data Science

47 171 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Cấu trúc

  • Slide 1

  • NỘI DUNG

  • Giới thiệu phân cụm dữ liệu

  • Giới thiệu phân cụm dữ liệu

  • Giới thiệu phân cụm dữ liệu

  • Giới thiệu phân cụm dữ liệu

  • Giới thiệu phân cụm dữ liệu

  • Các ứng dụng phân cụm trong kinh tế

  • Phân cụm phân cấp (Hierarchical clustering)

  • Diana và Agnes

  • AGNES

  • AGNES – DENDROGRAM

  • DIANA

  • Một số phương pháp tính khoảng cách

  • Một số phương pháp tính khoảng cách

  • Ví dụ về một số độ đo phổ biến

  • Ví dụ: AGNES

  • Ví dụ: AGNES

  • Nhận xét về phân cụm phân cấp

  • Phân cụm phân hoạch (Partitioning Clustering)

  • Thuật toán K-means

  • Slide 22

  • Slide 23

  • Slide 24

  • Slide 25

  • Slide 26

  • Slide 27

  • Slide 28

  • Thuật toán Fuzzy C - Means

  • Thuật toán Fuzzy C - Means

  • Ví dụ FCM

  • Ví dụ FCM

  • Ví dụ FCM

  • Ví dụ FCM

  • Ví dụ FCM

  • Ví dụ FCM

  • Ví dụ FCM

  • Ví dụ FCM

  • Đánh giá thuật toán FCM

  • Các phương pháp đánh giá phân cụm dữ liệu

  • Đánh giá ngoài (external validation)

  • Đánh giá nội bộ (internal validation)

  • Đánh giá tương đối (relative validation)

  • Demo bằng công cụ Orange

  • Demo bằng công cụ Orange

  • Demo bằng công cụ Orange

  • Tài liệu tham khảo

Nội dung

PHÂN CỤM DỮ LIỆU (CLUSTERING) NỘI DUNG     • • Bài tốn phân cụm liệu Giới thiệu phân cụm liệu Các ứng dụng phân cụm liệu kinh tế Một số phương pháp phân cụm • • Hierarchical clustering: Agnes, Diana Partitioning clustering: K-means,Fuzzy C-means • • • Đánh giá ngồi (external validation) Đánh giá nội ((internal validation) Đánh giá tương đối (relative validation) Đánh giá mơ hình phân cụm Minh họa công cụ Orange BUSINESS INFORMATION SYSTEMS Giới thiệu phân cụm liệu Định nghĩa Là q trình gom cụm/nhóm đối tượng/dữ liệu có đặc điểm tương đồng vào cụm/nhóm tương ứng Trong đó: • • Các đối tượng cụm có tính chất tương tự Các đối tượng thuộc cụm/nhóm khác có tính chất khác Lưu ý: Dữ liệu toán phân cụm liệu chưa gán nhãn Đây liệu tự nhiên thường thấy thực tế BUSINESS INFORMATION SYSTEMS Giới thiệu phân cụm liệu Mơ hình q trình phân cụm liệu BUSINESS INFORMATION SYSTEMS Giới thiệu phân cụm liệu Đặc điểm:   Nhiệm vụ tìm đo đạc khác biệt đối tượng liệu Phân cụm thuộc nhóm phương pháp học khơng giám sát (unsupervised learning) khơng biết trước số nhóm (khác với toán phân lớp)  Một phương pháp phân cụm tốt phương pháp tạo cụm có chất lượng cao: • •  Độ tương đồng bên cụm cao Độ tương tự cụm thấp (khác biệt cao) Các ứng dụng điển hình: • • Công cụ phân cụm liệu độc lập Là giai đoạn tiền xử lý cho thuật toán khác BUSINESS INFORMATION SYSTEMS Giới thiệu phân cụm liệu  Độ đo phân cụm: sử dụng làm tiêu chí nhằm tính tốn tương đồng/sai biệt đối tượng liệu nhằm phục vụ cho trình gom cụm  Một số độ đo phân cụm:  Euclid  Cosin  Minkowski: BUSINESS INFORMATION SYSTEMS Giới thiệu phân cụm liệu Phân loại số phương pháp phân cụm BUSINESS INFORMATION SYSTEMS Các ứng dụng phân cụm kinh tế  Dự báo khách hàng tiềm  Phân tích xu hướng hành vi khách hàng  Phân tích cạnh tranh, xu hướng lựa chọn dịch vụ nhà cung cấp  Phân tích đặc tính sản phẩm dịch vụ  Đánh giá kết hoạt động kinh doanh  Phân tích hành vi người dùng mạng xã hội BUSINESS INFORMATION SYSTEMS Phân cụm phân cấp (Hierarchical clustering)  Xây dựng phân cấp cho liệu cần gom cụm dựa trên:  Ma trận khoảng cách phần tử (similarity matrix dissimilarity matrix)  Độ đo khoảng cách cụm (single link, complete link…)  Phương pháp không cần xác định trước số cụm cần xác định điều kiện dừng  Các phương pháp điển hình: Diana, Agnes… BUSINESS INFORMATION SYSTEMS Diana Agnes  Được giới thiệu Kaufmann Rousseeuw năm 1990  Được cài đặt vào gói ứng dụng thống kê  Sử dụng ma trận sai khác (dissimilarity matrix) phương pháp single-link  Là hai phương pháp có thứ tự thực trái ngược BUSINESS INFORMATION SYSTEMS Ví dụ FCM Bước 3: Tính độ sai khác điểm liệu với tâm cụm   Với BUSINESS INFORMATION SYSTEMS Ví dụ FCM Bước 3: Tính độ sai khác điểm liệu với tâm cụm   Với BUSINESS INFORMATION SYSTEMS Ví dụ FCM Sau bước ta được: BUSINESS INFORMATION SYSTEMS Ví dụ FCM Bước 4: Cập nhật giá trị ma trận độ đo thành viên Cụm BUSINESS INFORMATION SYSTEMS Ví dụ FCM Bước 4: Cập nhật giá trị ma trận độ đo thành viên Cụm BUSINESS INFORMATION SYSTEMS Ví dụ FCM Bước 4: Cập nhật giá trị ma trận độ đo thành viên Bước 5: Quay lại bước tâm cụm không thay đổi BUSINESS INFORMATION SYSTEMS Đánh giá thuật toán FCM  Là thuật toán gom cụm mềm, khắc phục vấn đề cụm chồng lên liệu có kích thước lớn, nhiều chiều  Phụ thuộc vào tham số khởi tạo: tham số mờ m; ma trận độ đo mức độ thành viên  Vẫn gặp vấn đề cực trị địa phương  Nhạy cảm với nhiễu ngoại biên BUSINESS INFORMATION SYSTEMS Các phương pháp đánh giá phân cụm liệu  Là vấn đề khó khăn toán phân cụm  Các phương pháp đánh giá việc phân cụm liệu: đánh giá ngoài, đánh giá nội bộ, đánh giá tương đối  Một số tiêu chí để đánh giá chất lượng phân cụm là:  Độ nén (compactness): phần tử cụm phải “gần nhau”  Độ phân cách (separation): khoảng cách cụm nên “xa nhau”, phân cách rõ ràng BUSINESS INFORMATION SYSTEMS Đánh giá (external validation)  Là đánh giá kết phân cụm dựa vào cấu trúc/ xu hướng phân cụm định trước cho tập liệu  So sánh độ sai khác cụm  So sánh với kết mẫu (đáp án)  Các độ đo sử dụng phương pháp này: Rand statistic, Jaccard coefficient, Folkes Mallows index… BUSINESS INFORMATION SYSTEMS Đánh giá nội (internal validation)  Là đánh giá kết phân cụm mà khơng có thơng tin từ bên ngồi, chủ yếu dựa vector thơng qua ma trận xấp xỉ (proximity matrix)  Tối ưu hóa số nội bộ: độ nén, độ phân tách  Các độ đo sử dụng phương pháp này: Hubert’s statistic, Silhouette index, Dunn’s index, F-ratio, DBI (Davies Bouldin Index) … BUSINESS INFORMATION SYSTEMS Đánh giá tương đối (relative validation)  Đánh giá kết gom cụm việc so sánh với:  Kết gom cụm ứng với trị thông số khác  Kết gom cụm phương pháp khác BUSINESS INFORMATION SYSTEMS Demo công cụ Orange  Bài toán phân cụm khách hàng, dựa hành vi mua hàng BUSINESS INFORMATION SYSTEMS Demo cơng cụ Orange  Quy trình thực BUSINESS INFORMATION SYSTEMS Demo công cụ Orange  Kết BUSINESS INFORMATION SYSTEMS Tài liệu tham khảo  [1] Oded Maimon, Lior Rokach, “Data Mining and Knowledge Discovery Handbook”, Second Edition, Springer Science + Business Media, LLC 2005, 2010  [2] Hillol Kargupta, Jiawei Han, Philip S Yu, Rajeev Motwani, and Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC, 2009  [3] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006  [4] Daniel T Larose, “Data mining methods and models”, John Wiley & Sons, Inc, 2006  [5]R Xu, D Wunsch II Survey of Clustering Algorithms IEEE Transactions on Neural Networks, 16(3), May 2005, pp 645-678 BUSINESS INFORMATION SYSTEMS ...NỘI DUNG     • • Bài tốn phân cụm liệu Giới thiệu phân cụm liệu Các ứng dụng phân cụm liệu kinh... họa công cụ Orange BUSINESS INFORMATION SYSTEMS Giới thiệu phân cụm liệu Định nghĩa Là q trình gom cụm/nhóm đối tượng/dữ liệu có đặc điểm tương đồng vào cụm/nhóm tương ứng Trong đó: • • Các đối... cụm: sử dụng làm tiêu chí nhằm tính tốn tương đồng/sai biệt đối tượng liệu nhằm phục vụ cho trình gom cụm  Một số độ đo phân cụm:  Euclid  Cosin  Minkowski: BUSINESS INFORMATION SYSTEMS Giới

Ngày đăng: 16/05/2020, 13:57

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN