HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG KHOA CÔNG NGHỆ THÔNG TIN 1 BÁO CÁO BÀI TẬP LỚN KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU ĐỀ TÀI CÀI ĐẶT THUẬT TOÁN VÀ GIẢI PHÁP CHỌN SỐ CỤM CHO KMEANS CLUSTERING Giảng viên Nguyễn Quỳnh Chi Nhóm tín chỉ Nhóm bài tập Họ và tên thành viên Mã sinh viên Công việc Code thuật toán kmeans bằng python thuần, phân tích kết quả Code thuật toán kmeans với thư viện sklearn, phân tích kết quả Làm slide, giải pháp vấn đề chọn số cụm Tìm dataset, kiểm nghiệm với tool weka Phân tíc.
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG KHOA CƠNG NGHỆ THÔNG TIN - BÁO CÁO BÀI TẬP LỚN KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU ĐỀ TÀI: CÀI ĐẶT THUẬT TOÁN VÀ GIẢI PHÁP CHỌN SỐ CỤM CHO KMEANS CLUSTERING Giảng viên : Nguyễn Quỳnh Chi Nhóm tín : Nhóm tập : Họ tên thành viên Mã sinh viên Công việc Code thuật tốn kmeans python thuần, phân tích kết Code thuật tốn kmeans với thư viện sklearn, phân tích kết Làm slide, giải pháp vấn đề chọn số cụm Tìm dataset, kiểm nghiệm với tool weka Phân tích liệu Viết báo cáo, tìm tài liệu LỜI CẢM ƠN Lời chúng em xin cảm ơn Học viện đưa môn học Kho liệu khai phá liệu vào chương trình giảng dạy để chúng em có hội tiếp cận hiểu thêm kiến thức chuyên ngành Hệ thống thông tin Chúng em xin gửi lời cảm ơn sâu sắc đến giảng viên môn học Cô Nguyễn Quỳnh Chi, cô truyền đạt kiến thức quý giá cho chúng em qua tiết học online, tiết học lớp với video giảng cô Dù cố gắng kiến thức chúng em đơi chỗ cịn chưa chắn nên tập lớn em khơng thể khơng tránh khỏi thiếu sót Mong xem xét đóng góp ý kiến giúp cho tập lớn chúng em hoàn thiện Chúng em xin chân thành cảm ơn! Nhóm sinh viên làm tập lớn Nhóm MỤC LỤC LỜI CẢM ƠN DANH MỤC HÌNH ẢNH I LÝ DO CHỌN ĐỀ TÀI II CƠ SỞ LÝ THUYẾT THUẬT TOÁN K-MEAN Phân cụm liệu Giới thiệu thuật toán K-means Ý tưởng thuật toán Thuật toán Tối ưu hóa Kmeans Khởi tạo ngẫu nhiên III THỰC NGHIỆM Giới thiệu Weka Giới thiệu thư viện Scikit-learn Giới thiệu dataset 3.1 Tên dataset: Instagram visits clustering 3.2 Tên dataset: Credit Card Customer Data 11 Code thuật toán python 13 Kiểm nghiệm Weka 20 Kiểm nghiệm thư viện scikit-learn 24 Tổng hợp kết kiểm nghiệm 27 7.1 Data set: Instagram visits clustering 27 7.2 Data set: Credit Card Customer Data 28 7.3 Data set: Mall customers 29 IV GIẢI PHÁP CHO VẤN ĐỀ CHỌN SỐ CỤM 31 Phương pháp Elbow 31 Phương pháp Silhouette Index 32 Chọn số lượng cụm cho dataset Instagram visits clustering 34 Sử dụng Elbow Silhouette Index cho liệu khác 37 V KẾT LUẬN 41 VI TÀI LIỆU THAM KHẢO 42 DANH MỤC HÌNH ẢNH Hình 1: Flowchart thuật tốn K-means clustering .6 Hình 2: File csv chứa dataset Instagram visits clustering 10 Hình 3: File csv chứa dataset CC Customer Spending Profiles 11 Hình 4: File csv chứa dataset Mall Customers .12 Hình 5: Giao diện Weka Explorer 20 Hình 6: Dữ liệu tải lên Weka 20 Hình 7: Cài đặt thuật tốn phân cụm Weka 21 Hình 8: Các thông số sau chạy .21 Hình 9: Cách xem hình minh họa 22 Hình 10: Ảnh phân cụm sau sử dụng K-means 22 Hình 11: Kết phân cụm code python công cụ Weka 23 Hình 12: Kết phân cụm sử dụng thư viện scikit-learn 25 Hình 13: Minh họa tính cohesion separation liệu 31 Hình 14: Silhouette 34 Hình 15: Đồ thị chọn số lượng cụm k phương pháp Elbow.36 Hình 16: Đồ thị chọn số lượng cụm k phương pháp Silhouette 37 I LÝ DO CHỌN ĐỀ TÀI Trong thời buổi công nghệ ngày phát triển nay, việc áp dụng khoa học cơng nghệ thơng tin vào q trình xử lý phân tích liệu vơ cần thiết Data mining số Ứng dụng Data mining vào sống nhiều khoa học, truyền thông kỹ thuật số, kinh doanh games, thể thao… Chính lĩnh vực nhiều người quan tâm Và thuật toán data mining mà học tìm hiểu qua, K-means clustering Với kiến thức học kết hợp tìm hiểu qua tài liệu khác, chúng em định chọn làm đề tài tìm hiểu Thuật toán K-means clustering Bài tập lớn trình bày nội dung: Cơ sở lý thuyết thuật toán K-means clustering Code thuật toán ngơn ngữ python sau kiểm tra lại thư viện scikit-learn cơng cụ Weka Trình bày giải pháp cho vấn đề chọn số cụm cho thuật toán K-means II CƠ SỞ LÝ THUYẾT THUẬT TOÁN K-MEAN Phân cụm liệu Phân cụm kỹ thuật quan trọng khai phá liệu, thuộc lớp phương pháp Unsupervised Learning Machine Learning Có nhiều định nghĩa khác kỹ thuật này, chất ta hiểu phân cụm quy trình tìm cách nhóm đối tượng cho vào cụm (clusters), cho đối tượng cụm tương tự (similar) đối tượng khác cụm khơng tương tự (dissimilar) Mục đích phân cụm tìm chất bên nhóm liệu Các thuật tốn phân cụm (Clustering Algorithms) sinh cụm (clusters) Tuy nhiên, khơng có tiêu chí xem tốt để đánh hiệu của phân tích phân cụm, điều phụ thuộc vào mục đích phân cụm Giới thiệu thuật toán K-means Thuật toán K-means clustering thuật toán Unsupervised learning Trong thuật toán K-means clustering, nhãn (label) điểm liệu Mục đích làm để phân liệu thành cụm (cluster) khác cho liệu cụm có tính chất giống Ý tưởng đơn giản cluster (cụm) tập hợp điểm gần không gian (khơng gian có nhiều chiều trường hợp thông tin điểm liệu lớn) Ý tưởng thuật toán Bước 1: Khởi tạo K điểm liệu liệu tạm thời coi tâm cụm liệu Bước 2: Với điểm liệu liệu, tâm cụm xác định K tâm cụm gần Bước 3: Sau tất điểm liệu có tâm, tính tốn lại vị trí tâm cụm để đảm bảo tâm cụm nằm cụm Bước 4: Bước bước lặp lặp lại vị trí tâm cụm không thay đổi tâm tất điểm liệu khơng thay đổi Hình 1: Flowchart thuật toán K-means clustering Thuật toán Đề bài: Cho trước m liệu Nhiệm vụ ta phân chia điểm liệu thành K cụm dựa vị trí tương đối chúng so với Input: K (số lượng cụm), Training set Output: Các center label vector cho điểm liệu Bước 1: Khởi tạo ngẫu nhiên K số m điểm liệu làm trung tâm cụm , , , Bước 2: Lặp điểm phân cụm: + Vòng for 1: Gán điểm liệu cụm có trung tâm cụm gần for i = to m = : số (từ đến K) center cụm gần với trả mục (k) giá trị tối thiểu tập khoảng cách từ điểm x(i) đến center �� Khoảng cách ta phân x(i) vào cụm Với: + Vịng for 2: thực bước di chuyển center Sau phân điểm x vào cụm Ta di chuyển center đến vị trí cho khoảng cách từ center đến tất điểm x cụm ngắn (trung bình tọa độ điểm liệu cụm thứ k) for k=1 to K = Với n điểm phân vào cụm thứ k với center Hàm mát thuật toán K-Means Clustering đặc trưng cho độ xác lớn khoảng cách từ điểm liệu tới trung tâm cụm lớn Tối ưu hóa Kmeans Ta có tham số thuật toán: = số cụm (1,2,3, K) điểm phân vào = center cụm thứ k = center cụm mà điểm phân vào Đặt vấn đề: Khi ta phân điểm liệu vào cụm k có sai số () Vậy với m điểm tập training set có hàm xác định sai số toàn trình tính tốn Chúng ta gọi hàm chi phí cost function-hàm trung bình lỗi, định nghĩa sau: J (, ,,, ,) = Mục tiêu tối ưu hóa cho hàm chi phí nhỏ nhất, tức độ sai số phân m điểm vào K cụm nhỏ Hàm mát thuật toán K-Means Clustering đặc trưng cho độ xác lớn khoảng cách từ điểm liệu tới trung tâm cụm lớn Tối ưu: Tại vòng for đầu tiên, bước phân cụm Mục tiêu là: Minimize J (, ,,, ,) với , ,(cố định , ,) Tại vòng for thứ 2, bước di chuyển center Mục tiêu là: Minimize J (, ,,, ,) với , , Với K-means, hàm chi phí (cost function) khơng thể tăng, phải ln ln giảm Khởi tạo ngẫu nhiên Bằng cách đó, cố gắng khởi tạo k tâm cụm phân bố đồng không gian liệu Điều làm bạn xác định khơng gian tính chất liệu Nhưng nhất, tâm cụm mà bạn khởi tạo đừng gần nhau, đừng trùng Nếu có center với điểm gán cho nó, ta khởi tạo lại ngẫu nhiên center với điểm đơn giản loại bỏ nhóm cụm III THỰC NGHIỆM Giới thiệu Weka Weka (viết tắt Waikato Environment for Knowledge Analysis) phần mềm học máy Đại học Waikato, New Zealand phát triển Java Weka phần mềm tự phát hành theo Giấy phép GNU Các tính chính: o Một tập cơng cụ tiền xử lý liệu, giải thuật học máy, khai phá liệu phương pháp thí nghiệm đánh giá o Giao diện đồ họa(gồm tính hiển thị hóa liệu) Hình minh họa Bảng Bảng so sánh kết dataset Credit Card Customer Data Nhận xét: Các điểm centroids code python code sử dụng thư viện Sklearn tương đối giống với weka lại khác Phần tử cụm code python code sử dụng thư viện Sklearn khác với weka 90 điểm Trung bình code python code sử dụng thư viện Sklearn nhau, sai số vô nhỏ Hình minh họa phân cụm weka có lệch chút so với cách lại Với liệu phân bổ khơng thành dạng cụm có phần thưa thớt này, code python code sử dụng thư viện Sklearn cho kết nhiều so với weka Lý do weka cơng cụ khai phá liệu weka chuẩn hóa đầu vào trước phân cụm Và dataset phân bổ khơng thành có dạng cụm trịn có nhiều điểm thưa thớt, nên thuật tốn Kmeans phân cụm khác nhiều khởi tạo điểm centroids ban đầu khác nhiều 7.3 Tâm cụm Data set: Mall customers Code K-means Weka Thư viện Sklearn 1 86.538462 - 82.128205 86.5385 - 82.1282 86.53846154 - 82.12820513 2 26.304348 - 20.913043 25.7273 – 20.2223 26.30434783 - 20.91304348 3 88.200000 – 17.114286 87.75 - 17.5833 88.2 – 17.11428571 4 33 Phần tử cụm 55.296296 – 49.518519 54.8889 - 49.5432 55.2962963 – 49.51851852 5 25.727273 - 79.363636 25.7273 – 79.3636 25.72727273 - 79.36363636 36 36 35 22 22 22 80 81 81 39 39 39 23 22 23 Trung 13.020126350791744 bình lỗi 13.020126350791738 Hình minh họa Bảng Bảng so sánh kết dataset Mall Customers Nhận xét: Các điểm centroids code python code sử dụng thư viện Sklearn tương đối giống với weka lại khác Phần tử cụm cách có sai khác điểm cụm 1,3,5 Trung bình code python code sử dụng thư viện Sklearn nhau, sai số vô nhỏ Hình minh họa phân cụm phương pháp giống Bộ liệu phân bổ thành dạng cụm điểm thưa thớt, ba phương pháp phân cụm có sai điểm (nhiều dataset đầu) cho thấy kết phân cụm ba cách 34 Kết luận: Sau so sánh kết phân cụm với dataset khác phương pháp, thấy cài đặt thuật toán K-means Clustering IV GIẢI PHÁP CHO VẤN ĐỀ CHỌN SỐ CỤM Xác định số cụm k tốn phân cụm nói chung thuật tốn Kmeans nói riêng vấn đề quan trọng Nếu chọn số lượng cụm sai dẫn đến việc phân cụm khơng tốt, cụm phân khơng nói lên mối quan hệ thật liệu Vậy nên việc chọn số cụm để tối ưu quan trọng cần có phương pháp cụ thể Dưới hai phương pháp Elbow, Silhouette thường dùng để xác định số lượng cụm k cho thuật toán K-means Trước vào hai phương pháp xác định số cụm, ta cần biết độ đo mà chúng sử dụng dựa điều Có loại: Các phương pháp đo lường dựa vào tính liên kết cụm (cluster cohesion – độ gắn kết chặt chẽ), xác định mức độ liên quan chặt chẽ đối tượng cụm Các phương pháp phân tích tính đo lường dựa vào tách biệt cụm (cluster separation – cô lập), xác định mức độ khác biệt tách biệt cụm so với cụm khác Hình 13: Minh họa tính cohesion separation liệu Phương pháp Elbow Elbow phương pháp xác định số cụm k cho K-means clustering coi phổ biến Phương pháp minh họa dạng đồ thị đường cong với trục hoành số k cluster, trục tung tiêu chí đánh giá SSE-Sum of Errors – đo lường khác biệt cluster SSE tính tổng khoảng cách từ điểm cluster đến điểm trung tâm Centroid cluster, tính tất cluster, dựa theo công thức Euclidean Khi điểm liệu gần có đặc điểm gần giống nhau, phân cụm, cụm chứng tỏ “chất lượng” ngược lại 35 Cơng thức tính SSE: SSE = Như với k có SSE Minh họa cặp điểm k SSE đồ thị Số k tối ưu điểm SSE bắt đầu giảm đều, nhìn đồ thị điểm “turning point”, hay gọi điểm nằm vị trí “khuỷu tay” số k cần tìm Như hình minh họa giống khuỷu tay, k=3 thích hợp làm số cụm ban đầu cần phân k-means clustering Elbow method dựa giả định có nhiều cluster, có nghĩa điểm liệu giống gom cụm, cụm có điểm liệu bên điểm khơng nằm xa nhau, SSE giảm, k tăng Tuy nhiên k tăng chúng có nhiều cluster cần phân tích, dẫn đến khơng hiệu Do cần chọn số k mà SSE bắt đầu giảm 36 SSE-Sum of Errors – đo lường khác biệt cụm nên đánh giá tính cohesion cluster, chưa đánh giá tính separation cụm khác Hạn chế giải nhờ Silhouette Phương pháp Silhouette Index Silhouette Index có lẽ số đánh giá kết phân cụm phổ biến sử dụng nhiều Với K-means clustering, Silhouette đo lường khoảng cách điểm liệu cụm đến Centroid- điểm trung tâm cụm, khoảng cách điểm đến điểm trung tâm cụm gần (hoặc trung tâm cụm lại, chọn khoảng cách ngắn nhất) Công thức sau: Giả sử có cluster A B tìm thấy dựa K-means clustering: bi khoảng cách từ điểm i cluster A đến điểm trung tâm cluster B khoảng cách từ điểm i cluster A đến điểm trung tâm cluster Ví dụ tính Silhouette cho điểm liệu chiều sau: Silhouette phương pháp tính tốn kết hợp đánh giá Cohesion (qua ai) Separation (bi) Nếu Silhouette tiến -1, tức khoảng cách i so với điểm trung tâm cụm phân xa so với điểm trung tâm cụm lại, khả điểm i lúc bị phân sai cụm Do cao tốt, đạt max = Nếu cluster đánh giá chất lượng, điểm cluster có Silhouette tiến ngược lại Để đánh giá nhanh liệu điểm có phân cụm hay khơng ta dựa vào Silhouette: Điểm liệu có Silhouette cao, gần 1, chắn nằm cluster Điểm liệu có Silhouette gần = 0, nằm cluster 37 Điểm liệu có Silhouette thấp, có giá trị âm khả nằm sai cluster Tính tốn vẽ đồ thị theo tăng dần số lượng cụm k ta chọn giá trị Silhouette cho điểm liệu cao (gần với nhất) Là điểm cao đồ thị Silhouette core theo k cụm tăng dần Ví dụ hình minh họa k = Hình 14: Silhouette Chọn số lượng cụm cho dataset Instagram visits clustering Ngoài hai phương pháp kể có nhiều phương pháp khác dựa tốn học có phương pháp dựa cảm quan, kinh nghiệm, mục đích cá nhân, doanh nghiệp.Với dataset Instagram visits clustering trên, sinh viên tìm hiểu thuật tốn Kmeans, thường chọn theo cảm tính vẽ đồ thị minh họa liệu sau chọn số lượng cụm k=5 theo phân bổ liệu hình Tuy nhiên cách làm coi khơng hiệu 38 Nếu chủ doanh nghiệp có kiến thức thị trường chia lượng người dùng thành nhóm Đồng, Bạc, Vàng, Bạch kim, Kim cương theo kinh nghiệm họ: Nhóm Instagram visit core Spending Đồng Thấp Thấp Phân tích mơ tả Những khách hàng truy cập vào chi tiền mua đồ Đây nhóm khách hàng khơng thích ứng dụng khơng thích đồ Cao Thấp Bạc Những khách hàng truy cập vào nhiều mua đồ Đây nhóm khách hàng thích ứng dụng có lẽ điều kiện tài phí mua mua đồ giá thành thấp Trung bình Trung bình Đây nhóm khách hàng mức bình dân Khá thích tin dùng sản phẩm ứng dụng Thấp Cao Những khách hàng truy cập mức thấp bỏ nhiều tiền để mua đồ Vàng Bạch kim Kim cương Đây nhóm khách hàng điều kiện tài tốt thời gian Thường thích đồ đắt tiền mua nhiều đồ lúc tin dùng sản phẩm ứng dụng Cao Cao Nhóm khách hàng thân thiết ưa chuộng ứng dụng Nhược điểm phương pháp từ góc nhìn cá nhân, nhiều khơng xác u cầu có đủ kinh nghiệm để phân cụm theo mục đích kiểu 39 Với phương pháp Elbow, ta sử dụng hàm có sẵn Kmeans thư viện sklearn để tính Xét số cụm tăng dần đến 25, đồ thị sau: Hình 15: Đồ thị chọn số lượng cụm k phương pháp Elbow Nhận xét: Dễ dàng thấy “điểm khuỷu tay” k=5 Và với k=5 chọn để phân cụm trên, ta thấy cho kết tốt code Python thuần, tool Weka code sử dụng hàm có sẵn thư viện sklearn Tương tự vậy, phương pháp Silhouette ta sử dụng Elbow, ta sử dụng hàm có sẵn Kmeans thư viện sklearn 40 Xét số cụm tăng dần đến 25, đồ thị sau: Hình 16: Đồ thị chọn số lượng cụm k phương pháp Silhouette Nhận xét: Ta thấy điểm cao gần với k=5 Kết giống phương pháp Elbow Toàn code python cho vấn đề chọn số cụm: https://colab.research.google.com/drive/1bLKoL6jjEhzClpdKJi42V13FP qYbTly6?usp=sharing 41 Sử dụng Elbow Silhouette Index cho liệu khác Với liệu Instagram visits clustering ta thấy Elbow Silhouette cho kết đẹp Để so sánh thêm, thử chúng với liệu lại Bộ liệu: Mall Customers Kết với phương pháp Elbow: 42 Kết với phương pháp Silhouette Index: Nhận xét: Với dataset Mall Customers khơng có cụm trịn rõ ràng có nhiều điểm thưa thớt, đồ thị Elbow dường đường cong “khuỷu tay” không thật rõ ràng, ước lượng chọn cụm - Trong Silhouette cho kết đỉnh cao k=5 vượt trội Bộ liệu: Credit Card Customer Data Kết với phương pháp Elbow: 43 Kết với phương pháp Silhouette: 44 Nhận xét: Với dataset Mall Customers liệu điểm thưa thớt, đồ thị Elbow dường đường cong “khuỷu tay” lại không rõ ràng so với dataset Credit Card Customer Data, ước lượng chọn cụm - Trong Silhouette cho kết k=2 trông rõ ràng Kết luận: Qua thực nghiệm trên, để chọn số cụm nên sử dụng Silhouette so với Elbow Lý số dataset phân bổ khơng đẹp, đồ thị Elbow giống đường cong khó xác định điểm khuỷu tay, Silhouette thường cho kết đỉnh cao rõ ràng 45 V KẾT LUẬN K-means clustering thuật toán phân cụm đơn giản độ phổ biến gần số Thuật toán khởi tạo với k điểm centroids ban đầu ứng với k cụm cần phân; tính tốn khoảng cách điểm liệu tới điểm centroids phân chúng vào cụm có khoảng cách tới tâm ngắn nhất; tính lại điểm centroids việc tính giá trị trung bình điểm cụm; điểm centroids thay đổi so với trước tiếp tục quay lại bước tính tính khoảng cách phân cụm, điểm centroids khơng thay đổi dừng thuật tốn K số cụm,means “trung bình” clustering “phân cụm”, có lẽ tính trung bình lặp lặp lại sau lần phân để tìm centroids phân cho k cụm nên thuật tốn gọi K-means clustering Với kết trên, để hiểu thuật tốn triển khai code thuật tốn Kmeans clustering ngơn ngữ python Thuật tốn K-means tích hợp nhiều cơng cụ khai phá ví dụ Weka khai phá liệu dễ dàng Hơn với ngơn ngữ Python có nhiều thư viện ví dụ sklearn hỗ trợ module, hàm có sẵn phục vụ cho việc khai phá liệu sử dụng K-means clustering Vấn đề chọn số lượng cụm k để phân cho thuật tốn K-mean giải nhiều phương pháp Hai phương pháp thường sử dụng Elbow Silhouette Index Ngồi ra, chọn số lượng cụm dựa kinh nghiệm, mục đích sử dụng phương pháp cảm quan cá nhân khác thường khơng khuyến khích dùng Từ phân tích kết thử nghiệm trên, Silhouette đánh giá tốt Elbow thể tính cohesion separation liệu, Elbow thể tính cohesion 46 VI TÀI LIỆU THAM KHẢO Vũ Hữu Tiêp – Machine learning bản- Kmeans clustering: https://machinelearningcoban.com/2017/01/01/kmeans/ Phân cụm K-Means (K-Means clustering): https://viblo.asia/p/phan-cum-kmeans-k-means-clustering-1VgZvX325Aw BigData Solution – Các phương pháp đánh giá thuật toán Clustering: https://bigdatauni.com/tin-tuc/cac-phuong-phap-danh-gia-trong-thuat-toanclustering.html Analytics Vidhya – In-depth Intuition of K-Means Clustering Algorithm in Machine Learning: https://www.analyticsvidhya.com/blog/2021/01/in-depthintuition-of-k-means-clustering-algorithm-in-machine-learning/ 47