Báo cáo bài tập nhóm môn khoa học dữ liệu đề tài k mean ( gom cụm)

40 1 0
Báo cáo bài tập nhóm môn  khoa học dữ liệu đề tài  k mean ( gom cụm)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tổng quan về K-means- K-means là một thuật tốn phân cụm khơng giám sát được sử dụng để phânloại dữ liệu vào các nhóm khác nhau dựa trên đặc trưng của chúng, thực hiện việcphân chia các đ

BỘ GIÁO DỤC VÀ ĐÀO TẠO NGÂN HÀNG NHÀ NƯỚC VIỆT NAM TRƯỜNG ĐẠI HỌC NGÂN HÀNG TP.HCM  BÁO CÁO BÀI TẬP NHÓM Môn : Khoa Học Dữ Liệu Đề tài : K-mean ( Gom cụm) Giảng viên hướng dẫn: Ths.Nguyễn Hồng Ân Mã lớp học phần : DAT722_231_10_L33 Nhóm nghiên cứu:10 Thành viên: STT Họ và tên MSSV 050610221510 1 Nguyễn Thị Ánh Tuyết 050610221363 050610220269 2 Hồ Thị Minh Thư 3 Lê Thị Ngọc Linh 4 Cao Võ Viết Bằng 050610220829 MỤC LỤC LỜI MỞ ĐẦU & LÝ DO CHỌN ĐỀ TÀI I Giới thiệu về thuật toán K-means 1 Tổng quan về K-means 2 Nội dung của K-means 3 Đặc điểm của thuật toán K-means 4 Các biến thể của K-means 4.1 Thuật toán K-medoid: 4.2 Thuật toán Fuzzy c-mean (FCM): 5 Tầm quan trọng của K-means trong phân tích dữ liệu II Nguyên lý hoạt động của K-means 1 Cách K-means hoạt động 2 Các bước thực hiện của K-means 3 Cách chọn số lượng cụm k 3.1 Phân tích đồ thị Elbow: 3.2 Phương pháp Silhouette: 3.3 Kiến thức chuyên môn: 3.4 Thử nghiệm và đánh giá: 3.5 Phương pháp Gap: III Ứng dụng của thuật toán K-means trong thực tế 1 Các lĩnh vực ứng dụng của K-means 1.1 Phân khúc khách hàng 1.2 Phân tích thị trường 1.3 Tài Chính 1.4 Y tế 1.5 An Ninh 1.6 Phân đoạn ảnh hoặc nén hình ảnh: các nhóm tương tự nhau về hình ảnh hoặc màu sắc 1.7 Phát hiện bất thường: những gì không giống nhau — hoặc các ngoại lệ từ các cụm 2 1.8 Học bán giám sát: 2 Các ví dụ cụ thể về việc sử dụng K-means 2.1 Ứng dụng thuật toán k-means trong phân tích khách hàng 2.2 Ứng dụng thuật toán k-means trong phân tích thị trường: 2.3 Ứng dụng thuật toán k-means trong tài chính: 2.4 Ứng dụng thuật toán k-means trong y tế 2.5 Ứng dụng thuật toán k-means trong an ninh: 2.6 Ứng dụng phân loại về hình ảnh hoặc màu sắc trong k-Means: 2.7 Ứng dụng các ngoại lệ từ các cụm trong k-Means: 2.8 Học bán giám sát IV K-means trong Python 1 Giới thiệu về thư viện scikit-learn 2 Cách sử dụng K-means trong Python 3 Một ví dụ cụ thể về việc sử dụng K-means trong Python V Kết luận DANH MỤC TÀI LIỆU THAM KHẢO 3 LỜI MỞ ĐẦU & LÝ DO CHỌN ĐỀ TÀI Với việc sử dụng Internet ngày càng tăng trong xã hội ngày nay, lượng dữ liệu được tạo ra là vô cùng lớn Dữ liệu trong tự nhiên là một tài nguyên vô tận, nó tồn tại ở rất nhiều dạng, vật chất, thông tin kể cả con người và số lượng dữ liệu cần phân tích làm cho việc xử lý trở nên khó khăn ngay cả đối với máy tính Trong thời đại của công nghệ thông tin, dữ liệu của tự nhiên dần dần chuyển thành thông tin và lưu trữ khắp nơi trên thế giới số Trong thực tế, không phải lúc nào cũng có dữ liệu được gắn nhãn một cách hoàn chỉnh cho chúng ta làm dựa vào để huấn luyện các mô hình Machine Learning Đôi khi chúng ta chỉ có dữ liệu thô không nhãn và cần phải tự điều chỉnh, phân loại dữ liệu để lấy thông tin hữu ích từ dữ liệu đó Bài toán phân loại dữ liệu không nhãn, hay còn gọi là phân cụm (Clustering), là một trong những bài toán quan trọng của Machine Learning Để quản lý các quy trình như vậy, chúng ta cần các công cụ phân tích dữ liệu lớn Các phương pháp và kỹ thuật khai thác dữ liệu, kết hợp với học máy, cho phép chúng ta phân tích lượng lớn dữ liệu một cách có ý nghĩa K-means là một kỹ thuật phân cụm dữ liệu có thể được sử dụng cho học máy không giám sát Nó có khả năng phân loại dữ liệu chưa được gán nhãn vào một số cụm xác định dựa trên sự tương đồng (k) Trong các thuật toán và khai phá dữ liệu, thuật toán phân cụm dữ liệu được biết đến nhiều vì khả năng áp dụng của nó trong công việc phân tích và chọn lọc dữ liệu cần thiết từ nguồn dữ liệu số Và trong các thuật toán phân cụm đó, thuật toán K-means được xem như một thuật toán cơ bản, khởi đầu cho phương pháp khai phá dữ liệu bằng cách phân cụm K-means Clustering là một thuật toán phân cụm cổ điển và phổ biến, được sử dụng rộng rãi trong nhiều lĩnh vực của khoa học dữ liệu như phân loại khách hàng, xử lý ảnh, giảm chiều dữ liệu, và phát hiện outlier Trong bài viết này, chúng ta sẽ 4 tìm hiểu về thuật toán K-means Clustering, cách hoạt động của thuật toán, và một số ứng dụng của nó Tuy còn hạn chế nhưng thuật toán K-means là nền tảng, chỉ ra một hướng đi và khai phá dữ liệu bằng cách gom cụm và đạt được hiệu quả cao Không những vậy, K-means còn là khởi đầu cho nhiều thuật toán phân cụm ra đời tiếp theo với mục đích đạt được hiệu quả tối ưu nhất Bài tập nhóm của chúng em còn nhiều thiếu sót, chúng em mong nhận được những ý kiến góp ý từ giảng viên để cải thiện bài luận, mở mang tri thức về lĩnh vực khoa học dữ liệu và học máy để có thể áp dụng vào công việc nghiên cứu sau này I Giới thiệu về thuật toán K-means 1 Tổng quan về K-means - K-means là một thuật toán phân cụm không giám sát được sử dụng để phân loại dữ liệu vào các nhóm khác nhau dựa trên đặc trưng của chúng, thực hiện việc phân chia các đối tượng thành các cụm có chung điểm tương đồng và không giống với các đối tượng thuộc cụm khác Thuật toán này hoạt động bằng cách tìm kiếm các trung tâm cụm tối ưu để mô phỏng các nhóm trong dữ liệu - K-means Clustering là một thuật toán thuộc nhóm unsupervised learning (thuật toán học không giám sát), là nhóm các điểm dữ liệu không được gắn nhãn thành k cụm khác nhau sao các điểm dữ liệu mà trong cùng một cụm có các thuộc tính tương tự - Thuật ngữ ‘K’ là một số, là nhóm các điểm dữ liệu tương tự lại với nhau thành các cụm bằng cách giảm thiểu khoảng cách trung bình giữa các điểm hình học Để làm như vậy, nó lặp đi lặp lại phân vùng các bộ dữ liệu thành một số cố định (K) của các nhóm con (hoặc cụm) không chồng chéo trong đó mỗi điểm dữ liệu thuộc về cụm có trung tâm cụm trung bình gần nhất Chúng ta cho hệ thống biết cần tạo bao nhiêu cụm - Ví dụ, K=3 đề cập đến ba cụm Có một cách để tìm ra giá trị tốt nhất hoặc tối ưu của K cho một dữ liệu nhất định 5 - Trong thuật toán k-Means mỗi cụm dữ liệu được đặc trưng bởi một tâm(centroid) tâm là điểm đại diện nhất cho một cụm và có giá trị bằng trung bình của toàn bộ các quan sát nằm trong cụm Chúng ta sẽ dựa vào khoảng cách từ một quan sát tới các tâm để xác định nhãn cho chúng trùng thuộc về tâm gần nhất Ban đầu thuật toán sẽ khởi tạo ngẫu nhiên một số lượng xác định trước tâm cụm Sau đó tiến hành xác định nhãn cho từng điểm dữ liệu và tiếp tục cập nhật lại tâm cụm Thuật toán sẽ dừng cho tới khi toàn bộ các điểm dữ liệu được phân về đúng cụm hoặc số lượt cập nhật tâm chạm ngưỡng 2 Nội dung của K-means - K-means cần được giả định số K để xác định số lượng cụm cần được tạo trong quá trình phân nhóm, như nếu K = 2, sẽ có 2 cụm và đối với K = 3, sẽ có 3 cụm … K-means dựa trên tâm mỗi cụm, trong đó các điểm dữ liệu bất kì được liên kết với một tâm Mục đích chính củaa thuật toán này là giảm thiểu tổng khoảng cách giữa điểm dữ liệu và tâm các cụm tương ứng của chúng Thuật toán lấy tập dữ liệu không được gắn nhãn làm đầu vào, chia tập dữ liệu thành K số cụm và lặp lại quá trình cho đến khi nó không tìm thấy cụm tối ưu hơn Giá trị của K cần được xác định trước trong thuật toán này 3 Đặc điểm của thuật toán K-means - Ưu điểm :  Tương đối đơn giản để thực hiện (độ phức tạp thấp), dễ dàng sử dụng cho bài toán phân cụm - K-means phù hợp với các cụm có dạng hình cầu  Dễ dàng thích ứng với những dữ liệu mới - Số cụm k luôn ổn định, đảm bảo hội tụ sau một số bước hữu hạn  Các cụm được tách biệt rõ ràng không có hiện tượng một đối tượng xuất hiện trong nhiều cụm dữ liệu khác nhau  Có khả năng sửa đổi, nâng cấp để tổng quát hóa với các cụm có hình dạng, kích thước khác nhau, chẳng hạn như các cụm hình elip - Nhược điểm  Lựa chọn K thủ công  Kết quả đầu ra phụ thuộc vào các giá trị ban đầu  Khó xác định được số cụm thực sự có trong không gian dữ liệu, phải thử với nhiều K khác nhau.Đối với K nhỏ, ta có thể giảm thiểu sự phụ thuộc bằng 6 Document continues below Discover more fkrhooma:học dữ liệu kinh doanh DAT7 Trường Đại học… 27 documents Go to course Lý thuyết về hồi quy binary logistic 3 cách chạy K-means nhiều lần với các giá trị khởi tạo khác nhau và chọ10n 0ra% (1) kết quả tốt nhất Nhưng khi tăng K lên, ta cần có các phiên bản nâng cấp của K-means đã chọn các giá trị tốt hơn của các tâm ban đầu (K-mean seeding)  Khó phát hiện các loại cụm có hình dạng phức tạp Microsoft Power  Phân nhóm dữ liệu với các kích thước và mật độ kháPconihnatu.-KC-m1eXanus glyặpdsựu… cố khi phân cụm dữ liệu trong các cụm có kíc8h0thước và mật độ khác nhau None Để phân cụm dữ liệu như vậy, ta cần sửa đổi, nâng cấp K-means đã tổng quát hóa với các cụm có hình dạng, kích thước khác nhau  Không thể xử lý được nhóm các giá trị ngoại lai Các tâm có thể bị kéo theo Bài tập chương 7,8 các phần tử ngoại lai, hoặc các phần tử ngoại lai có thể nhận được cụm riêng Nguyên lý thay vì bỏ qua chúng cần cân nhắc loại bỏ ho5ặc cắt bớt các điểm dữ10li0ệ%u (2) kế toán ngoại lai trước khi phân cụm 4 Các biến thể của K-means 4.1 Thuật toán K-medoid: BT chương 3 - Giải Medoids là một thuật toán phân cụm phân chia tậbp àhiợptậcpáccđhiểưmơdnữgliệ3u… xung quanh một trung gian (điểm khác biệt nhỏ nhất)2và liên tục cố gắng giảm sự Nguyên lý khác biệt giữa các điểm trong cùng một cụm Điểm mấu chốt ở đây là medoid 1v0ề0c%ơ (2) kế toán bản là một điểm dữ liệu từ tập hợp đầu vào, không giống như k có nghĩa là giá trị trung bình đơn thuần - Nội dung thuật toán: Bai2 dbyr dkkht  Thuật toán khá trực quan Nói cách khác, chúng tamđưxợnc hcurndg hcấtpdhahittnhanm… số đầu vào , tức là giá trị của k số lượng cụm sẽ được31hình thành và tập dữ liệu mà Nguyên lý các cụm hình thành Đầu tiên, lấy k số điểm dữ liệu ngẫu nhiên làm trung gian.10S0au% (1) kế toán đó, đối với mọi điểm dữ liệu ngoại trừ những điểm được coi là trung bình, hãy tính toán sự không giống nhau với từng trung bình k bằng cách sử dụng bất kỳ số liệu khoảng cách nào như Euclidean, Manhattan hoặc bất kỳ pthrứingìckiphálcesvàobfao gồm dòng điện trên cụm được đại diện bởi trung bình có ít khácabciệctonuhấnt tviớni gđiể-m…hiện tại Khi mọi nút (các điểm) đã được gán cho một cụm,3hãy tính tổng số điểm không Nguyên lý giống nhau của lần lặp, là tổng các điểm không giống nhakuếgtioữáa nmọi nút và đ10iể0m% (1) trung bình của cụm mà nó nằm trong đó Đây là một lần lặp lại Điều này sẽ được lặp lại với các nút khác nhau dưới dạng trung bình cho đến khi tổng số điểm khác biệt được tìm thấy lớn hơn lần lặp trước 7 - Ưu & Nhược điểm K-Method:  Tương tự thuật toán K-mean  Mỗi cụm được đại diện bởi một trong các đối tượng của cụm  Chọn đối tượng ở gần tâm cụm nhất làm đại diện cho cụm đó  K-medoid khắc phục được nhiễu, nhưng độ phức tạp lớn hơn 4.2 Thuật toán Fuzzy c-mean (FCM): - Từ những năm 1920, Lukasiewicz đã nghiên cứu cách diễn đạt toán học khái niệm mờ Năm 1965, Lofti Zadeh đã phát triển lý thuyết khả năng và đề xuất hệ thống logic mờ (fuzzy logic) Kỹ thuật này gom cụm một tập n vectơ đối tượng dữ liệu X={x1,x2,…,xn}⊂ RS thành c các nhóm mờ dựa trên tính toán tối thiểu hóa hàm mục tiêu để đo chất lượng của gom cụm và tìm trung tâm cụm trong mỗi nhóm, sao cho chi phí hàm độ đo độ phi tương tự là nhỏ nhất - Nội dung thuật toán :  Mỗi phần tử q V ban đầu đƣợc gán cho một tập trọng số Wqk, trong đó Wqk cho biết khả năng q thuộc về cụm k, (k=1,K) Wqk =1 Có nhiều cách tính trọng số Wqk khác nhau, trong đó Wqk =1/Dqk thường đƣợc sử dụng nhất (Dqk là khoảng cách từ q đến trọng tâm của cụm k)  Trong quá trình gom cụm trọng số này có thể đƣợc cập nhật ở mỗi bước lặp khi trọng tâm của cụm bị thay đổi  Sau khi kết thúc quá trình gom cụm, một cụm không có mẫn nào sẽ bị loại, do đó số cụm tìm đƣợc th ƣờng không biết trước  Ưu nhược điểm của Fuzzy C-Means  Chung chiến lược phân cụm với K-mean  Nếu K-mean là phân cụm dữ liệu cứng (1 điểm dữ liệu chỉ thuộc về 1 cụm) thì FCM là phân cụm dữ liệu mờ (1 điểm dữ liệu có thể thuộc về nhiều hơn 1 cụm với 1 xác suất nhất định)  Thêm yếu tổ quan hệ giữa các phần tử và các cụm dữ liệu thông qua các trọng số trong ma trận biểu biển bậc của các thành viên với 1 cụm  FCM khắc phục được các cụm dữ liệu chồng nhau trên các tập dữ liệu có kích thước lớn hơn, nhiều chiều và nhiều nhiều, song vẫn nhạy cảm với nhiều và các phần tử ngoại lai 5 Tầm quan trọng của K-means trong phân tích dữ liệu 8 K-means là một thuật toán quan trọng trong phân tích dữ liệu và có sự ứng dụng rộng rãi vì những lợi ích sau đây:  Phân cụm dữ liệu: K-means cho phép chúng ta phân cụm dữ liệu thành các nhóm dựa trên đặc điểm tương tự Việc phân cụm giúp chúng ta hiểu và tóm tắt dữ liệu một cách cấu trúc và có thể khám phá các mẫu, nhóm, hay đặc điểm của dữ liệu mà không cần biết trước thông tin chi tiết về từng nhóm  Khám phá kiểu dữ liệu: K-means có thể giúp phát hiện và phân loại các kiểu dữ liệu khác nhau trong tập dữ liệu, nhưng không cần biết trước về kiểu dữ liệu đó Bằng cách phân cụm dữ liệu, chúng ta có thể nhận ra các nhóm dữ liệu tương tự và hiểu được các đặc điểm riêng biệt của từng nhóm  Tóm tắt dữ liệu: K-means cho phép chúng ta tạo ra một số lượng hữu hạn các điểm trung tâm (centroid) đại diện cho mỗi nhóm dữ liệu Điều này giúp giảm kích thước của dữ liệu ban đầu và tạo ra một tóm tắt đơn giản hơn của dữ liệu ban đầu  Phân loại và gom nhóm: K-means có thể được sử dụng để phân loại các điểm dữ liệu mới vào các nhóm đã được hình thành Sau khi huấn luyện mô hình, chúng ta có thể sử dụng các trung tâm cụm đã tìm được để dự đoán nhãn của các điểm dữ liệu mới  Tiền xử lý dữ liệu: K-means có thể được sử dụng để xử lý và làm sạch dữ liệu Bằng cách gán các điểm dữ liệu vào cụm tương ứng, chúng ta có thể xác định và loại bỏ các ngoại lệ hoặc giá trị lỗi trong dữ liệu Ví dụ về cách K-means có thể được sử dụng trong phân tích dữ liệu kinh doanh: - Giả sử một nhà quản lý của một chuỗi cửa hàng bán lẻ muốn hiểu và phân loại khách hàng của mình dựa trên hành vi mua hàng Nhà quản lý có tập dữ liệu gồm các thông tin về mỗi khách hàng như tổng số tiền đã chi tiêu trong cửa hàng, số lần mua hàng, số lượng sản phẩm mua, và thời gian từ lần mua hàng gần nhất - Để sử dụng K-means trong phân tích này, nhà quản lý có thể thực hiện các bước sau: 9

Ngày đăng: 10/03/2024, 15:18

Tài liệu cùng người dùng

Tài liệu liên quan