1. Trang chủ
  2. » Tất cả

Bài giảng nhập môn khai phá dữ liệu chương 6 pgs ts hà quang thụy

20 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 20
Dung lượng 438,66 KB

Nội dung

BÀI GIẢNG KHAI PHÁ DỮ LIỆU CHƯƠNG 6 PHÂN CỤM DỮ LiỆU và HỆ THỐNG TƯ VẤN 1 PGS TS Hà Quang Thụy TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI HÀ NỘI, 09 2018 http //uet vnu edu vn/~thuyhq/ http //ue[.]

BÀI GIẢNG KHAI PHÁ DỮ LIỆU CHƯƠNG PHÂN CỤM DỮ LiỆU HỆ THỐNG TƯ VẤN PGS TS Hà Quang Thụy TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI HÀ NỘI, 09-2018 http://uet.vnu.edu.vn/~thuyhq/ Nội dung Phân cụm: Giới thiệu Mơ hình phân cụm: phẳng, phân cấp, theo mật độ theo mơ hình Gán nhãn cụm đánh giá phân cụm Hệ thống tư vấn: Giới thiệu Kỹ thuật tư vấn: Khái quát cụ thể Đánh giá hệ thống tư vấn Charu C Aggarwal, Chandan K Reddy Data Clustering: Algorithms and Applications CRC Press 2014 Israël César Lerman Foundations and Methods in Combinatorial and Statistical Data Analysis and Clustering Springer-Verlag London, 2016 Giới thiệu Ví dụ phân khúc khách hàng ⚫ Vòng đời cá nhân khách hàng ▪ Khách hàng: giai đoạn sống thay đổi theo thời gian ▪ Công ty: Khởi nghiệp, phát triển/sát nhập, chấm dứt ▪ Cá nhân: tốt nghiệp trung học, tốt nghiệp đại học, nhận công việc làm, xây dựng gia đình, sinh con, thay đổi nơi cư trú, v.v ▪ quan trọng để tiếp thị quản lý quan hệ khách hàng ▪ Ví dụ: chuyển nhà, sinh con, v.v ▪ Một số loại doanh nghiệp tổ chức xung quanh từng giai đoạn sống: mẹ và bé, áo cưới, v.v ⚫ Thách thức ▪ Thách thức: xác định sự kiện sống kịp thời ▪ Nhiều sự kiện chỉ xảy lần, xảy ▪ Sự kiện giai đoạn sống: khơng thể đốn trước kiểm soát Một khung nhìn vòng đời khách hàng Các giai đoạn ⚫ ▪ ▪ ▪ ▪ Ứng viên tiềm Ứng viên triển vong Khách hàng Khách hàng ghi nhận: Giá trị thấp, giá trị cao tiềm năng, giá trị cao ▪ Khách hàng cũ: tự nguyện cưỡng bức ▪ Tập khách hàng giá trị cao, cao tiềm năng, cao: phân khúc KH Khung nhìn hành trình KH: thang giá trị Đối sánh ▪ ▪ ▪ ▪ ▪ ▪ Ứng viên tiềm ~ Ứng viên nghi vấn Ứng viên triển vọng ~ Ứng viên tiềm Khách hàng ~ Khách hàng Khách hàng giá trị thấp ~ Khách hàng lặp lại Khách hàng giá trị cao tiềm ~ Khách hàng đa số Khách hàng giá trị cao ~ Khách hàng vận động Hai lợi ích quan trọng phân khúc KH Giảm chi phí tiếp thị ⚫ ▪ ▪ ▪ ▪ Cải tiến trì KH: giảm chi phí tiếp thị Ví dụ: chi phí thu hút KH gấp 20 lần trì KH có Chi phí phục vụ KH thời: giảm theo thời gian Quản lý QHKH tự động hóa hoàn toàn: ít chi phí Hiểu KH sâu sắc ⚫ ▪ ▪ ▪ ▪ ▪ ▪ ▪ Nhiệm kỳ dài hơn: hiểu biết tốt lẫn Cty hiểu kỹ kỳ vọng của KH, KH hiểu gì Cty cung cấp Quan hệ sâu sắc hơn, tin cậy cam kết hai bên phát triển dòng doanh thu lợi nhuận từ khách hàng trở nên an toàn tháng 31-36 quần áo trực tuyến 67%, tạp hóa 23% tháng 0-6 Mô hình hành trình bậc thang giá trị: Cty hiểu vị trí thời KH Phần chi tiêu của KH tăng lên Trung thành KH Giới thiệu ⚫ ▪ Trung thành KH với Cty ▪ Hai tiếp cận xác định & đo lường: hành vi thái độ Trung thành hành vi ⚫ ▪ tham chiếu đến hành vi mua sản phẩm của KH ▪ Hai khía cạnh trung thành hành vi: (i) vẫn tích cực mua sản ▪ ▪ ▪ ▪ ▪ phẩm; (ii) Công ty vẫn trì chi tiêu của KH Danh mục mua nhà CC tựa nhau: c/tiêu KH quan trọng Ba độ đo hành vi trung thành Mua hàng gần (Recency of purchases: R): (Nghịch đảo) Thời gian trôi qua kể từ lần mua cuối Tần số mua hàng (Frequency of purchases: F): Số lượng mua khoảng thời gian xác định giá trị tiền mua hàng (Monetary value of purchases: M): Giá trị tiền mua hàng khoảng thời gian xác định Bài toán phân khúc khách hàng ⚫ Giới thiệu ▪ Phạm vi: Tập khách hàng thời CS KH ▪ Dữ liệu: Dữ liệu mua sản phẩm công ty của KH ▪ Định hướng: Ba nhóm KH đề cập ⚫ Bài toán phân cụm liên quan ▪ Tập liệu KH ba thuộc tính trung thành RFM ▪ Mục tiêu: Tìm ba nhóm KH giá trị thấp (KH đa số), KH tiềm có giá trị (KH trung thành), KH giá trị cao (KH vận động) ▪ Không có thông tin mô tả ba nhóm KH này: học máy không giám sát ▪ Bài toán Phân cụm tập DL KH với ba thuộc tính RFM thành ba cụm; thông tin mô tả từng cụm Học máy không giám sát  tối ưu hóa ⚫ Bài toán học khơng giám sát ▪ ▪ ▪ ▪ ▪ Cho I tập liệu I={}, Cho tập G tập ánh xạ g: I→Z với Z tập số nguyên Cho độ đo “tốt” tập ánh xạ G Tìm hàm f: I→Z đạt độ đo “tốt nhất” tập G Trường hợp đơn giản: ▪ G = {g phân hoạch của I: g={I1,I2,…, Ig} I=Ij}} ▪ tìm f phân hoạch tốt Loại KPDL Mô tả: phân cụm Phân cụm, ví dụ phân cụm khách hàng theo RF 18_Baesens, Bart_ Bravo, Cristián_ Verbeke, Wouter Profit-driven business analytics: July 12, 2021 10 a practitioner's guide to transforming big data into added value Wiley, 2018 Giới thiệu: bài toán phân cụm ⚫ Bài toán ❑ ❑ Tập liệu D = {di} Phân liệu thuộc D thành cụm ▪ ▪ ❑ Đo “tương tự” (gần) ? ▪ ▪ ▪ ⚫ Các liệu cụm: “tương tự” (gần nhau) Dữ liệu hai cụm: “không tương tự” (xa nhau) Tiên đề phân cụm: Nếu người dùng lựa chọn đối tượng d thì họ cũng lựa chọn đối tượng cụm với d Khai thác “cách chọn lựa” của người dùng Đưa số độ đo “tương tự” theo biểu diễn liệu Một số nội dung liên quan ❑ ❑ ❑ Xây dựng độ đo tương tự Khai thác thông tin bổ sung Số lượng cụm cho trước, số lượng cụm không cho trước 11 Sơ tiếp cận phân cụm ⚫ Phân cụm mô hình phân cụm phân vùng ❑ ❑ ⚫ Phân cụm đơn định phân cụm xác suất ❑ ❑ ⚫ Đơn định: Mỗi liệu thuộc cụm Xác suất: Danh sách cụm xác suất liệu thuộc vào cụm Phân cụm phẳng phân cụm phân cấp ❑ ❑ ⚫ Mô hình: Kết mô hình biểu diễn cụm liệu Vùng: Danh sách cụm vùng liệu thuộc cụm Phẳng: Các cụm liệu không giao Phân cấp: Các cụm liệu có quan hệ phân cấp cha- Phân cụm theo lô phân cụm tăng ❑ ❑ Lô: Tại thời điểm phân cụm, toàn liệu có Tăng: Dữ liệu tiếp tục bổ sung trình phân cụm 12 Các phương pháp phân cụm ⚫ Các phương pháp phổ biến ❑ ⚫ Phân cụm phân vùng (phân cụm phẳng) ❑ ❑ ❑ ❑ ❑ ⚫ Phân vùng, phân cấp, dựa theo mật độ, dựa theo lưới, dựa theo mô hình, phân cụm mờ Xây dựng từng bước phân hoạch cụm đánh giá chúng theo tiêu chí tương ứng Tiếp cận: từ lên (gộp dần), từ xuống (chia dần) Độ đo tương tự / khoảng cách K-mean, k-mediod, CLARANS, … Hạn chế: Không điều chỉnh lỗi Phân cụm phân cấp ❑ ❑ ❑ ❑ Xây dựng hợp (tách) dần cụm tạo cấu trúc phân cấp đánh giá theo tiêu chí tương ứng Độ đo tương tự / khoảng cách HAC: Hierarchical agglomerative clustering CHAMELEON, BIRRCH CURE, … 13 Các phương pháp phân cụm ⚫ Phân cụm dựa theo mật độ ❑ ❑ ❑ ⚫ Phân cụm dựa theo lưới ❑ ❑ ❑ ⚫ Sử dụng lưới ô cỡ: nhiên cụm “ô” phân cấp Tạo phân cấp ô lưới theo số tiêu chí: số lượng đối tượng ô STING, CLIQUE, WaweCluster… Phân cụm dựa theo mô hình ❑ ❑ ❑ ⚫ Hàm mật độ: Tìm phần tử chính tại nơi có mật độ cao Hàm liên kết: Xác định cụm lân cận phần tử chính DBSCAN, OPTICS… Giải thiết: Tồn tại số mô hình liệu cho phân cụm Xác định mô hình tốt phù hợp với liệu MCLUST… Phân cụm mờ ❑ ❑ ❑ Giả thiết: không có phân cụm “cứng” cho liệu đối tượng có thể thuộc số cụm Sử dụng hàm mờ từ đối tượng tới cụm FCM (Fuzzy CMEANS),… 14 Một số độ đo ⚫ Độ đo tương đồng ❑ ❑ ❑ ❑ ⚫ Biểu diễn: vector n chiều Giá trị nhị phân: Ma trận kề, độ đo Jaccard Giá trị rời rạc [0,m]: Chuyển m giá trị thành nhị phân, độ đo Jaccard Giá trị thực : độ đo cosin hai vector Độ đo khác biệt ❑ ❑ ❑ ❑ ❑ Đối ngẫu độ đo tương đồng Thuộc tính nhị phân: đối cứng, không đối xứng Giá trị rời rạc: tương tự dạng đơn giản (q thuộc tính giống nhau) Giá trị thực: Khoảng cách Manhattan, Euclide, Mincowski Tính xác định dương, tính đối xứng, tính bất đẳng thức tam giác 15 Một số độ đo ⚫ Ví dụ độ khác biệt CSDL xét nghiệm bệnh nhân ❑ Quy giá trị nhị phân: M/F, Y/N, N/P ❑ Lập ma trận khác biệt cho từng cặp đối tượng ❑ Ví dụ, cặp (Nam, Vân): a=2, b=1, c=1, d=3 D(Nam, Vân) =(1+1)/(2+1+1)=0.5 ❑ 16 Thuât toán K-mean gán cứng ⚫ Một số lưu ý ❑ Điều kiện dừng ▪ Sau bước khơng có sự thay đổi cụm ▪ Điều kiện dừng cưỡng bức ❖ ❖ ❑ ❑ Khống chế số lần lặp Giá trị mục tiêu đủ nhỏ Vấn đề chọn tập đại diện ban đầu ở bước Khởi động Có thể dùng độ đo khoảng cách thay cho độ đo tương tự 17 a Thuât toán K-mean gán cứng ⚫ Một số lưu ý (tiếp) ví dụ ❑ ❑ ❑ Trong bước 2: trọng tâm có thể không thuộc S Thực tế: số lần lặp  50 Thi hành k-mean với liệu đĩa ▪ Toàn liệu lớn: ở nhớ ▪ Với vòng lặp: duyệt CSDL đĩa lần ❖ ❖ Tính độ tương tự của d với ci Tính lại ci mới: bước 2.1 khởi động (tổng, đếm); bước 2.2 cộng tăng đếm; bước 2.3 chỉ thực k phép chia Bing Liu (2007), Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data, Spinger, 2007 18 Thuât toán K-mean ⚫ Ưu điểm ❑ ❑ ❑ ❑ ⚫ Đơn giản, dễ sử dụng Hiệu thời gian: tuyến tính O(tkn), t số lần lặp, k số cụm, n số phần tử Một thuật toán phân cụm phổ biến Thường cho tối ưu cục Tối ưu toàn cục khó tìm Nhược điểm ❑ ❑ ❑ ❑ ❑ Phải “tính trung bình được”: liệu phân lớp thì dựa theo tần số Cần cho trước k : số cụm Nhạy cảm với ngoại lệ (cách xa so với đại đa số liệu còn lại): ngoại lệ thực tế, ngoại lệ quan sát sai (làm sạch liệu) Nhạy cảm với mẫu ban đầu: cần phương pháp chọn mẫu thô tốt Không thích hợp với tập liệu không siêu-ellip siêu cầu (các thành phần không ellip/cầu hóa) Bing Liu (2007), Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data, Spinger, 2007 19 Thuât toán K-mean Trái: Nhạy cảm với chọn mẫu ban đầu Phải: Không thích hợp với liệu không siêu ellip/cầu hóa Bing Liu (2007), Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data, Spinger, 2007 20 ... mua hàng (Monetary value of purchases: M): Giá trị tiền mua hàng khoảng thời gian xác định Bài toán phân khúc khách hàng ⚫ Giới thiệu ▪ Phạm vi: Tập khách hàng thời CS KH ▪ Dữ liệu: Dữ liệu. .. ~ Ứng viên tiềm Khách hàng ~ Khách hàng Khách hàng giá trị thấp ~ Khách hàng lặp lại Khách hàng giá trị cao tiềm ~ Khách hàng đa số Khách hàng giá trị cao ~ Khách hàng vận động Hai lợi... ⚫ ▪ Trung thành KH với Cty ▪ Hai tiếp cận xác định & đo lường: hành vi thái độ Trung thành hành vi ⚫ ▪ tham chiếu đến hành vi mua sản phẩm của KH ▪ Hai khía cạnh trung thành hành vi: (i)

Ngày đăng: 27/02/2023, 07:58

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN