Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 38 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
38
Dung lượng
0,97 MB
Nội dung
BÀI GIẢNG KHAI PHÁ DỮ LIỆU CHƯƠNG PHÂN CỤM DỮ LiỆU PGS TS Hà Quang Thụy, TS Trần Mai Vũ, ThS Nguyễn Thị Ngọc Linh HÀ NỘI, 08-2018 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI http://uet.vnu.edu.vn/~thuyhq/ Nội dung Ví dụ tốn phân cụm Giới thiệu toán phân cụm, số độ đo Phân cụm phẳng Phân cụm phân cấp Phân cụm dựa mật độ Phân cụm dựa mơ hình Gán nhãn cụm Đánh giá phân cụm Charu C Aggarwal, Chandan K Reddy Data Clustering: Algorithms and Applications CRC Press 2014 Israël César Lerman Foundations and Methods in Combinatorial and Statistical Data Analysis and Clustering Springer-Verlag London, 2016 Ví dụ phân khúc khách hàng Vòng đời cá nhân khách hàng Khách hàng: giai đoạn sống thay đổi theo thời gian Công ty: Khởi nghiệp, phát triển/sát nhập, chấm dứt Cá nhân: tốt nghiệp trung học, tốt nghiệp đại học, nhận cơng việc làm, xây dựng gia đình, sinh con, thay đổi nơi cư trú, v.v quan trọng để tiếp thị quản lý quan hệ khách hàng Ví dụ: chuyển nhà, sinh con, v.v Một số loại doanh nghiệp tổ chức xung quanh từng giai đoạn sống: mẹ bé, áo cưới, v.v Thách thức Thách thức: xác định kiện sống kịp thời Nhiều kiện chỉ xảy lần, xảy Sự kiện giai đoạn sống: khơng thể đốn trước kiểm soát phương tiện xã hội làm cho CRM xã hội thúc đẩy: Chương Một khung nhìn vòng đời khách hàng Các giai đoạn Ứng viên tiềm Ứng viên triển vong Khách hàng Khách hàng ghi nhận: Giá trị thấp, giá trị cao tiềm năng, giá trị cao Khách hàng cũ: tự nguyện cưỡng bức Tập khách hàng giá trị cao, cao tiềm năng, cao: phân khúc KH Hành trình khách hàng: nấc thang giá trị Đối sánh Ứng viên tiềm ~ Ứng viên nghi vấn Ứng viên triển vọng ~ Ứng viên tiềm Khách hàng ~ Khách hàng Khách hàng giá trị thấp ~ Khách hàng lặp lại Khách hàng giá trị cao tiềm ~ Khách hàng đa số Khách hàng giá trị cao ~ Khách hàng vận động Hai lợi ích quan trọng phân khúc KH Giảm chi phí tiếp thị Cải tiến trì KH: giảm chi phí tiếp thị Ví dụ: chi phí thu hút KH gấp 20 lần trì KH co Chi phí phục vụ KH thời: giảm theo thời gian Quản lý QHKH tự động hoa hoàn toàn: chi phí Hiểu KH sâu sắc Nhiệm kỳ dài hơn: hiểu biết tốt lẫn Cty hiểu kỹ kỳ vọng của KH, KH hiểu Cty cung cấp Quan hệ sâu sắc hơn, tin cậy cam kết hai bên phát triển dòng doanh thu lợi nhuận từ khách hàng trở nên an toàn tháng 31-36 quần áo trực tuyến 67%, tạp hoa 23% tháng 0-6 Mơ hình hành trình bậc thang giá trị: Cty hiểu vị trí thời KH Phần chi tiêu của KH tăng lên Trung thành KH Giới thiệu Trung thành KH với Cty Hai tiếp cận xác định & đo lường: hành vi thái độ Trung thành hành vi tham chiếu đến hành vi mua sản phẩm của KH Hai khía cạnh trung thành hành vi: (i) vẫn tích cực mua sản phẩm; (ii) Cơng ty vẫn trì chi tiêu của KH Danh mục mua nhà CC tựa nhau: c/tiêu KH quan trọng Ba độ đo hành vi trung thành Mua hàng gần (Recency of purchases: R): (Nghịch đảo) Thời gian trôi qua kể từ lần mua cuối Tần số mua hàng (Frequency of purchases: F): Số lượng mua khoảng thời gian xác định giá trị tiền mua hàng (Monetary value of purchases: M): Giá trị tiền mua hàng khoảng thời gian xác định Bài toán phân khúc khách hàng Giới thiệu Phạm vi: Tập khách hàng thời CS KH Dữ liệu: Dữ liệu mua sản phẩm công ty của KH Định hướng: Ba nhom KH đề cập Bài toán phân cụm liên quan Tập liệu KH ba thuộc tính trung thành RFM Mục tiêu: Tìm ba nhom KH giá trị thấp (KH đa số), KH tiềm co giá trị (KH trung thành), KH giá trị cao (KH vận động) Không co thông tin mô tả ba nhom KH này: học máy khơng giám sát Bài tốn Phân cụm tập DL KH với ba thuộc tính RFM thành ba cụm; thông tin mô tả từng cụm Loại KPDL Mơ tả: phân cụm Phân cụm, ví dụ phân cụm khách hàng theo RF 18_Baesens, Bart_ Bravo, Cristián_ Verbeke, Wouter Profit-driven business analytics: 8/4/20 a practitioner's guide to transforming big data into added value Wiley, 2018 Giới thiệu toán phân cụm Bài toán Tập liệu D = {di} Phân liệu thuộc D thành cụm Đo “tương tự” (gần) ? Các liệu cụm: “tương tự” (gần nhau) Dữ liệu hai cụm: “không tương tự” (xa nhau) Tiên đề phân cụm: Nếu người dùng lựa chọn đối tượng d họ lựa chọn đối tượng cụm với d Khai thác “cách chọn lựa” của người dùng Đưa số độ đo “tương tự” theo biểu diễn liệu Một số nội dung liên quan Xây dựng độ đo tương tự Khai thác thông tin bổ sung Số lượng cụm cho trước, số lượng cụm không cho trước 10 Phân cụm phân cấp từ lên Hoạt động HAC Cho phép với k Chọn phân cụm theo “ngưỡng” độ tương tự 24 HAC với độ đo khác Ảnh hưởng của độ đo Trên: Hoạt động thuật toán khác theo độ đo khác nhau: độ tương tự cực tiểu (complete-link) co tính cầu so với cực đại Dưới: Độ tương tự cực đại (Single-link) tạo cụm chuỗi dòng 25 b Phân cụm phân cấp BIRCH Balanced Iterative Reducing Clustering Using Hierarchies Tính khả cỡ: Làm việc với tập liệu lớn Tính bất động: Gán không đổi đối tượng –> cụm Khái niệm liên quan Đặc trưng phân cụm CF: tom tắt của cụm CF = , n: số phần tử, LS: vector tổng thành phần liêu; SS : vector tổng bình phương thành phần đối tượng Khi ghép cụm khơng tính lại tổng Cây đặc trưng phân cụm CF Tree Một cân Hai tham số: bề rộng b ngưỡng t Thuật toán xây dựng 26 BIRCH: Năm độ đo khoảng cách 27 Cây đặc trưng phân cụm CF Tree Mỗi nút không co nhiều B cành Mỗi nút co nhiều L đặc trưng phân cụm đảm bảo ngưỡng T Cỡ của nút xác định số chiều không gian liệu tham số P kích thước trang nhớ 28 Chèn vào CF Tree BIRCH Cây ban đầu rỗng Chèn “cụm” a vào Xác định thích hợp: Duyệt từ gốc xuống cách đệ quy để tới nút gần a theo khoảng cách noi Biến đổi lá: Nếu gặp L1 gần a nhất, kiểm tra xem L1 co “hấp thụ“ a không (chưa vượt ngưỡng); co đặc trưng CF của L bổ sung; Nếu không, tạo nút cho a; khơng đủ nhớ cho cần chia cũ Biến đổi đường tới bổ sung phần tử Tinh chỉnh việc trộn: Tian Zhang, Raghu Ramakrishnan, Miron Livny (1996) BIRCH: An Efficient Data Clustering Method for Very Large Databases, SIGMOD Conference 1996: 103-114 29 Các thuật toán phân cụm khác Phân cụm phân cấp từ xuống DIANA RObust Clustering using linKs: xử lý liệu rời rạc, định “gần” theo tập phần tử láng giềng sim (p, q) > >0 Phân cụm dựa mật độ DBSCAN Density-Based Spatial Clustering of Application with Noise #-neighborhood: vùng lân cận bán kính # | #-neighborhood| > MinPts gọi đối tượng lõi P đạt trực mật độ từ q q đối tượng lõi p thuộc #neighborhood của q Đạt co dãy mà sau đạt trực tiếp từ trước Đối ngẫu phân cụm phân cấp từ xuống: phần tử khác biệt -> cụm khác biệt S, Thêm vào S phần tử co d > Phân cụm phân cấp ROCK Nghiên cứu giáo trình Phân cụm phân cấp dựa mơ hình Làm phù hợp phân bố cụm với mơ hình tốn học Phân cụm cực đại kỳ vọng, phân cụm khái niệm, học máy mạng nơron Phân cụm cực đại kỳ vọng: khởi tạo, tính giá trị kỳ vọng, cực đại hoa kỳ vọng 30 Biểu diễn cụm gán nhãn Các phương pháp biểu diễn điển dình Theo đại diện cụm Đại diện cụm làm tâm Tính bán kính độ lệch chuẩn để xác định phạm vi của cụm Cụm không ellip/cầu hoa: khơng tốt Theo mơ hình phân lớp Chỉ số cụm nhãn lớp Chạy thuật toán phân lớp để tìm biểu diễn cụm Theo mơ hình tần số Dùng cho liệu phân loại Tần số xuất giá trị đặc trưng cho từng cụm Lưu ý Dữ liệu phân cụm ellip/cầu hoa: đại diện cụm cho biểu diễn tốt Cụm hình dạng bất thường kho biểu diễn 31 Gán nhãn cụm Phân biệt cụm (MU) Hướng “trọng tâm” cụm Chọn đặc trưng tương quan cụm Nxy (x co đặc trưng t, y liệu thuộc C) N11 : số liệu chứa t thuộc cụm C N10 : số liệu chứa t không thuộc cụm C N01 : số liệu không chứa t thuộc cụm C N00 : số liệu không chứa t không thuộc cụm C N: Tổng số liệu Dùng đặc trưng tần số cao tại trọng tâm cụm Tiêu đề Chon đặc trưng của liệu cụm gần trọng tâm 32 Ví dụ: Gán nhãn cụm văn Ví dụ Ba phương pháp chọn nhãn cụm cụm cụm (622 tài liệu), cụm (1017 tài liệu), cụm 10 (1259 tài liệu) phân cụm 10000 tài liệu của Reuters-RCV1 centroid: từ khoa co tần số cao trọng tâm; mutual information (MU): thông tin liên quan phân biệt cụm; title: tiêu đề tài liệu gần trọng tâm Christopher D Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information 33 Retrieval, Cambridge University Press 2008 Đánh giá phân cụm Đánh giá chất lượng phân cụm kho khăn Chưa biết cụm thực Một số phương pháp điển hình Người dùng kiểm tra Nghiên cứu trọng tâm miền phủ Luật từ định Đọc liệu cụm Đánh giá theo độ đo tương tự/khoảng cách Độ phân biệt cụm Phân ly theo trọng tâm Dùng thuật toán phân lớp Coi cụm lớp Học phân lớp đa lớp (cụm) Xây dựng ma trận nhầm lẫn phân lớp Tính độ đo: entropy, tinh khiết, xác, hồi tưởng, độ đo F đánh giá theo độ đo 34 Đánh giá theo độ đo tương tự Độ phân biệt cụm Cực đại hoa tổng độ tương tự nội tại của cụm Cực tiểu hoa tổng độ tương tự cặp cụm khác Lấy độ tương tự cực tiểu (complete link), cực đại (single link) Một số phương pháp điển hình Phân ly theo trọng tâm 35 Ví dụ: Chế độ, đặc điểm phân cụm web Hai chế độ Trực tuyến: phân cụm kết tìm kiếm người dùng Ngoại tuyến: phân cụm tập văn cho trước Đặc điểm Chế độ trực tuyến: tốc độ phân cụm Web số lượng lớn, tăng nhanh biến động lớn Quan tâm tới phương pháp gia tăng Một lớp quan trọng: phân cụm liên quan tới câu hỏi tìm kiếm Trực tuyến Ngoại tuyến Carpineto C., Osinski S., Romano G., Weiss D (2009) A survey of web clustering engines, ACM Comput Surv , 41(3), Article 17, 38 pages 36 Ví dụ 37 Phân cụm kết tìm kiếm 38 ...Nội dung Ví dụ tốn phân cụm Giới thiệu toán phân cụm, số độ đo Phân cụm phẳng Phân cụm phân cấp Phân cụm dựa mật độ Phân cụm dựa mô hình Gán nhãn cụm Đánh giá phân cụm Charu C Aggarwal, Chandan... sách cụm xác suất liệu thuộc vào cụm Phân cụm phẳng phân cụm phân cấp Mơ hình: Kết mơ hình biểu diễn cụm liệu Vùng: Danh sách cụm vùng liệu thuộc cụm Phẳng: Các cụm liệu không giao Phân. .. Các cụm liệu co quan hệ phân cấp cha- Phân cụm theo lô phân cụm tăng Lô: Tại thời điểm phân cụm, toàn liệu co Tăng: Dữ liệu tiếp tục bổ sung trình phân cụm 11 Các phương pháp phân cụm