Khai phá dữ liệu Phân cụm dựa trên mật độ. Tổng quan về bài toán phân cụm, phân cụm dựa trên mật độ. Các thuật toán như DBSCAN, OPTICS, DENCLUE, Kmeans,... Bộ dữ liệu Mall Customer Segmentation Data, ...
TRƯỜNG ĐẠI HỌC XÂY DỰNG HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN -o0o - Bài Tập Lớn: Khai Phá Dữ Liệu Phân cụm dựa mật độ Giảng viên hướng dẫn: Phạm Hồng Phong Sinh viên thực hiện: Lớp 64CS1- Nhóm Nguyễn Thị Lan Anh 10264 Vũ Duy Đan 44764 Đào Việt Cường 28264 Phạm Huy Hưng 94464 Trần Duy Khánh 1655864 Hà Nội, ngày 01/12/2022 Mục Lục Mục Lục Mở đầu CHƯƠNG I: TỔNG QUAN VỀ BÀI TOÁN PHÂN CỤM .1 Tổng quan a Học có giám sát .1 b Học giám sát c Học bán giám sát .2 d Học tăng cường .2 Các tốn học khơng giám sát .2 Bài toán phân cụm Độ đo, cách đánh giá toán phân cụm .3 a Độ đo bóng (Silhouette) b Độ đo Davies-Bouldin CHƯƠNG II: BÀI TOÁN PHÂN CỤM DỰA TRÊN MẬT ĐỘ Thuật toán DBSCAN a Ý tưởng b Các định nghĩa thuật toán sử dụng c Phân loại dạng điểm DBSCAN .6 c Các bước thuật toán DBSCAN d Mã giả .8 e Xác định tham số .8 f Độ phức tạp .9 OPTICS: Ordering Points to Identify the Clustering Structure DENCLUE: Clustering Based on Density Distribution Functions 11 a Giới thiệu thuật toán DENCLUE 11 b Điểm thu hút mật độ độ dốc .12 c Tìm điểm trung tâm .14 d Cụm dựa mật độ .14 e Thuật toán DENCLUE 14 Thuật toán K-means 16 a Điều kiện hội tụ (điều kiện dừng thuật toán) 16 b Xác định điểm trung tâm cluster 16 c Phép đo khoảng cách .17 d Một số ảnh hưởng đến thuật toán K-means 17 So sánh 18 CHƯƠNG III: THỰC NGHIỆM & ĐÁNH GIÁ .21 Mô tả liệu .21 a Mall Customer Segmentation Data .21 b Country Data 22 c Facebook Live sellers in Thailand 23 Áp dụng mơ hình vào liệu 24 a Mall Customer Segmentation Data .24 b liệu lại 27 KẾT LUẬN 31 Danh mục hình ảnh .32 Danh mục bảng .32 Tài liệu tham khảo .33 Mở đầu Sự phát triển công nghệ thông tin việc ứng dụng công nghệ thông tin nhiều lĩnh vực đời sống, kinh tế xã hội nhiều năm qua đồng nghĩa với lượng liệu được cơ quan thu thập lưu trữ ngày tích luỹ nhiều lên Họ lưu trữ liệu cho rằng ẩn chứa giá trị nhất định Tuy nhiên, theo thống kê chỉ có lượng nhỏ liệu (khoảng từ 5% đến 10%) được phân tích, số cịn lại họ khơng biết sẽ phải làm hoặc làm với chúng họ vẫn tiếp tục thu thập rất tốn với ý nghĩ lo sợ rằng sẽ có quan trọng bị bỏ qua sau có lúc cần đến Mặt khác, mơi trường cạnh tranh, người ta ngày cần có nhiều thơng tin với tốc độ nhanh để trợ giúp việc định ngày có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa khối lượng liệu khổng lờ có Với lý vậy, phương pháp quản trị khai thác cơ sở liệu truyền thống ngày không đáp ứng được thực tế làm phát triển khuynh hướng kỹ thuật Kỹ thuật phát tri thức khai phá liệu (KDD - Knowledge Discovery and Data Mining) Kỹ thuật phát tri thức khai phá liệu được nghiên cứu, ứng dụng nhiều lĩnh vực khác nước giới, Việt Nam kỹ thuật tương đối mẻ nhiên được nghiên cứu dần đưa vào ứng dụng Bước quan trọng nhất trình Khai phá liệu (Data Mining DM), giúp người sử dụng thu được tri thức hữu ích từ CSDL hoặc nguồn liệu khổng lồ khác Rất nhiều doanh nghiệp tổ chức giới ứng dụng kĩ thuật khai phá liệu vào hoạt động sản xuất kinh doanh thu được lợi ích to lớn Nhưng để làm được điều đó, phát triển mơ hình tốn học giải thuật hiệu chìa khố quan trọng Vì vậy, báo cáo này, chúng tơi sẽ đề cập tới kỹ huật thường dùng Khai phá liệu, l Phân cụm (Clustering hay Cluster Analyse) Bớ cục báo cáo Ngồi phần Mở đầu, Mục lục, Danh mục hình, Danh mục bảng, Kết luận, Tài liệu tham khảo, báo cáo được chia làm phần: Chương I: Tởng quan về tốn phân cụm Phần giới thiệu cách tổng quát học máy (Machine Learning) nói chung khai phá liệu nói riêng Đặc biệt nhấn mạnh kỹ thuật chính được nghiên cứu báo cáo Kỹ thuật phân cụm độ đo, cách đánh giá toán Chương II: Bài toán phân cụm dựa mật độ Trong phần này, kỹ thuật phân cụm dựa mật độ được giới thiệu cách chi tiết Có nhiều thuật tốn phân cụm dựa mật độ DBSCAN, OPTICS, DENCLUE Ngồi cịn so sánh giống khách thuật toán Chương III: Thực nghiệm đánh giá Phần trình bày số kết đạt được tiến hành áp dụng giải thuật khai phá liệu để khai thác thông tin liệu mẫu CHƯƠNG I: TỔNG QUAN VỀ BÀI TỐN PHÂN CỤM Tởng quan Học máy (Machine Learning) ngành khoa học nghiên cứu thuật tốn cho phép máy tính học được khái niệm (concept) Phân loại: Có hai loại phương pháp học máy chính - - Phương pháp quy nạp: Máy học/phân biệt khái niệm dựa liệu thu thập được trước Phương pháp cho phép tận dụng được nguồn liệu rất nhiều sẵn có Phương pháp suy diễn: Máy học/phân biệt khái niệm dựa vào luật Phương pháp cho phép tận dụng được kiến thức chuyên ngành để hỗ trợ máy tính Hiện nay, thuật toán cố gắng tận dụng được ưu điểm hai phương pháp Các ngành khoa học liên quan: - - - Lý thuyết thống kê: kết xác suất thống kê tiền đề cho rất nhiều phương pháp học máy Đặc biệt, lý thuyết thống kê cho phép ước lượng sai số phương pháp học máy Các phương pháp tính: thuật toán học máy thường sử dụng tính toán số thực/số nguyên liệu rất lớn Trong đó, tốn như: tối ưu có/khơng ràng buộc, giải phương trình tuyến tính v.v… được sử dụng rất phổ biến Khoa học máy tính: cơ sở để thiết kế thuật tốn, đờng thời đánh giá thời gian chạy, nhớ thuật tốn học máy Các nhóm giải thuật học máy: a Học có giám sát Các nhà khoa học liệu cung cấp cho thuật toán liệu đào tạo được gắn nhãn xác định để đánh giá mối tương quan Dữ liệu mẫu chỉ định đầu vào kết thuật toán Ví dụ: Hình ảnh chữ số viết tay được thích để chỉ số tương ứng với hình ảnh Một hệ thống học có giám sát nhận cụm điểm ảnh hình dạng liên quan tới số, được cung cấp đủ ví dụ Cuối cùng, hệ thống sẽ nhận chữ số viết tay, phân biệt số hoặc cách đáng tin cậy Ưu điểm học có giám sát tính đơn giản thiết kế dễ dàng Cách học rất hữu ích dự đoán số lượng kết có giới hạn, phân loại liệu hoặc kết hợp kết thu được từ thuật toán máy học khác Tuy nhiên, việc gắn nhãn hàng triệu tập liệu khơng có nhãn lại thách thức b Học khơng có giám sát Thuật tốn học khơng có giám sát được đào tạo dựa liệu không gắn nhãn Các thuật toán quét liệu mới, cố gắng thiết lập kết nối có ý nghĩa liệu đầu vào kết định sẵn Chúng phát khn mẫu phân loại liệu Ví dụ: thuật tốn khơng có giám sát nhóm viết từ nhiều trang tin tức khác theo mục phổ biến thể thao, hình sự, v.v Chúng dùng phương thức xử lý ngôn ngữ tự nhiên để thấu hiểu ý nghĩa cảm xúc viết Học khơng có giám sát rất hữu ích việc phát khuôn mẫu bất thường, tự động nhóm liệu theo hạng mục Vì liệu đào tạo không cần gắn nhãn nên việc thiết lập học khơng giám sát rất dễ dàng Các thuật tốn được sử dụng để làm xử lý liệu nhằm tự động dựng mơ hình chuyên sâu hơn Giới hạn phương pháp thuật tốn khơng thể đưa dự đốn chính xác Thêm vào đó, phương pháp khơng thể tự tách biệt số loại kết liệu cụ thể c Học bán giám sát Đúng tên gọi mình, phương pháp kết hợp học có giám sát lẫn khơng có giám sát Kỹ thuật dựa vào lượng nhỏ liệu được gắn nhãn lượng lớn liệu không gắn nhãn để đào tạo hệ thống Đầu tiên, liệu được gắn nhãn được sử dụng để đào tạo phần thuật tốn máy học Sau đó, thuật tốn được đào tạo phần sẽ tự gắn nhãn cho liệu chưa được gắn nhãn Quá trình được gọi giả gắn nhãn Mơ hình sau được đào tạo lại bằng hỗn hợp liệu kết mà khơng được lập trình cụ thể Ưu điểm phương pháp bạn không cần lượng lớn liệu được gắn nhãn Phương pháp rất hữu ích làm việc với loại liệu tài liệu dài tốn nhiều thời gian để có người đọc gắn nhãn d Học tăng cường Học tăng cường phương pháp có giá trị thưởng được gắn với bước khác mà thuật toán phải trải qua Mục tiêu mơ hình tích lũy nhiều điểm thưởng hết mức cuối cùng sẽ đạt được mục tiêu cuối Hầu hết ứng dụng thực tiễn học tăng cường thập niên vừa qua nằm lĩnh vực trò chơi điện tử Các thuật toán học tăng cường tiên tiến đạt được kết ấn tượng trò chơi cổ điển đại, thường có kết vượt xa đối thủ người chúng Mặc dù phương pháp hoạt động tốt nhất môi trường liệu khơng chắn phức tạp, được triển khai bối cảnh kinh doanh Phương pháp không hiệu tác vụ được xác định rõ thiên kiến nhà phát triển ảnh hưởng tới kết Vì nhà khoa học liệu người thiết kế phần thưởng, họ tác động tới kết Các toán học khơng giám sát Các tốn Unsupervised learning được tiếp tục chia nhỏ thành hai loại: - - Clustering (phân nhóm): Một tốn phân nhóm tồn liệu X thành nhóm nhỏ dựa liên quan liệu nhóm Ví dụ: phân nhóm khách hàng dựa hành vi mua hàng Điều giống việc ta đưa cho đứa trẻ rất nhiều mảnh ghép với hình thù màu sắc khác nhau, ví dụ tam giác, vng, trịn với màu xanh đỏ, sau yêu cầu trẻ phân chúng thành nhóm Mặc dù khơng cho trẻ biết mảnh tương ứng với hình hoặc màu nào, nhiều khả chúng vẫn phân loại mảnh ghép theo màu hoặc hình dạng Association: Là toán muốn khám phá quy luật dựa nhiều liệu cho trước Ví dụ: khách hàng nam mua quần áo thường có xu hướng mua thêm đồng hồ hoặc thắt lưng dựa vào tạo hệ thống gợi ý khách hàng (Recommendation System), thúc đẩy nhu cầu mua sắm Bài toán phân cụm Clustering kỹ thuật phổ biến nhất học tập không giám sát, nơi liệu được nhóm dựa giống điểm liệu Clustering có nhiều ứng dụng đời thực, nơi được sử dụng nhiều tình khác Nguyên tắc cơ phân cụm việc gán tập hợp quan sát nhất định thành nhóm hoặc cụm cho quan sát diện cùng cụm có mức độ giống Đó việc thực khả nhận thức người để phân biệt đối tượng dựa chất chúng Đây phương pháp học khơng giám sát khơng có nhãn bên gắn vào đối tượng Máy phải tự học đặc trưng mẫu mà không cần bất kỳ ánh xạ đầu vào-đầu Thuật tốn trích xuất suy luận từ chất đối tượng liệu sau tạo lớp riêng biệt để nhóm chúng cách thích hợp Trong Machine learning Clustering, thuật toán chia tập hợp thành nhóm khác cho điểm liệu tương tự với điểm liệu cùng nhóm khác với điểm liệu nhóm khác Trên cơ sở giống không giống nhau, sau phân nhóm thích hợp cho đối tượng Các loại thuật toán phân cụm: - Partitioning Based Clustering (Phân cụm dựa phân vùng) Hierarchical Clustering (Phân cụm thứ bậc) Model-Based Clustering (Phân cụm dựa mơ hình) Density-Based Clustering (Phân cụm dựa mật độ) Fuzzy Clustering (Phân cụm mờ) Độ đo, cách đánh giá toán phân cụm Các độ đo chất lượng phân cụm được phân thành loại là: - - - Đánh giá ( internal evaluation): Kết phân cụm được đánh giá dựa chính liệu được phân cụm bằng cách sử dụng đại lượng đánh giá gắn kết cụm mật độ ( density), khoảng cách phần tử bên cụm hay khoảng cách cụm với nhau, Hướng tiếp cận loại dựa tiêu chí: thuật toán phân cụm tốt thuật toán tạo cụm mà phần tử bên cụm có độ tương tự với lớn độ tương tự với phần tử bên nhỏ Đánh giá ( external evaluation ): Kết phân cụm được đánh giá dựa tập liệu chuẩn(mẫu) được phân từ trước Hướng tiếp cận loại đánh giá mức độ tương đờng việc phân cụm thuật tốn với tập liệu chuẩn Đánh giá quan hệ ( relative evalution ): Đánh giá việc phân cụm bằng cách so sánh với kết phân cụm khác được sinh cùng thuật toán với giá trị tham số khác a Độ đo bóng (Silhouette) Giả sử liệu được chia thành k cụm: Với điểm liệu i đặt: - a (i) khoảng cách trung bình từ i tới tất điểm liệu cùng cụm với i - b (i) khoảng cách trung bình ngắn nhất từ i tới bất kì cụm khơng chứa i Cụm tương ứng với b (i) được gọi cụm hàng xóm i Khi đó: s ( i )= b ( i )−a(i) [ 1] max {a ( i ) , b(i)} s(i) nằm đoạn [−1,1] s(i) gần điểm liệu i phù hợp với cụm mà được phân vào s ( i )=0 khơng thể xác định được i nên thuộc cụm cụm cụm hàng xóm s(i) gần -1 chứng tỏ i bị phân sai cụm, nên thuộc cụm hàng xóm khơng phải cụm b Độ đo Davies-Bouldin Độ đo Davies-Bouldin được tính theo công thức: DB= n σ i +σ j Max i ≠ j [2] ∑ n i=1 d (c i , c j ) ( ) Trong đó: - n số cụm c trọng tâm cụm x σ x trung bình khoảng cách tất phần tử cụm x tới trọng tâm c x d(c i , c j) khoảng cách trọng tâm cụm i j Giá trị DB nhỏ chất lượng phân cụm tốt CHƯƠNG II: BÀI TOÁN PHÂN CỤM DỰA TRÊN MẬT ĐỘ Thuật toán DBSCAN a Ý tưởng DBSCAN (Density-based spatial clustering of applications with noise) [1] [2] thuật tốn cơ sở để phân nhóm dựa mật độ Nó phát cụm có hình dạng kích thước khác từ lượng lớn liệu chứa nhiễu Các cụm vùng dày đặc không gian liệu, được phân tách vùng có mật độ điểm thấp hơn Thuật toán DBSCAN dựa khái niệm "cụm" "nhiễu" Ý tưởng chính điểm cụm, vùng lân cận bán kính nhất định phải chứa ít nhất số điểm tối thiểu Hình 1: Các cụm liệu có hình cầu lồi Phương pháp phân vùng (K-MEANS, phân cụm PAM) công việc phân cụm phân cấp để tìm cụm hình cầu hoặc cụm lời Nói cách khác, chúng chỉ phù hợp cho cụm nhỏ gọn được phân tách tốt Hơn nữa, chúng bị ảnh hưởng nghiêm trọng diện điểm nhiễu ngoại lệ liệu Dữ liệu thực tế có điểm bất thường như: - Các cụm có hình dạng tùy ý Dữ liệu chứa nhiễu ... thu hút mật độ, thu hut mật độ cực đại cục toàn hàm mật độ Hình 7: Hàm mật độ attactor mật độ b Điểm thu hút mật độ độ dốc Một điểm x ¿được gọi điểm thu hút mật độ cực đại cục hàm mật độ xác... -based CLUstEring - phân cụm dựa mật độ) (Hinneburg Keim 1998) phương pháp phân cụm dựa tập hàm phân bố mật độ Phương pháp được dựa ý tưởng sau: - - (1) Tác động điểm liệu được làm mơ hình... Clustering (Phân cụm dựa phân vùng) Hierarchical Clustering (Phân cụm thứ bậc) Model-Based Clustering (Phân cụm dựa mơ hình) Density-Based Clustering (Phân cụm dựa mật độ) Fuzzy Clustering (Phân cụm