Bài toán phân cụm dữ liệu xây dựng mô hình phân cụm dữ liệu

Trang 2 NỘI DUNG➢Bài toán phân cụm dữ liệu• Giới thiệu phân cụm dữ liệu• Các ứng dụng phân cụm dữ liệu trong kinh tế➢Một số phương pháp phân cụm• Hierarchical clustering: Agnes, Diana• P

Trang 1

XÂY DỰNG MÔ HÌNH PHÂN CỤM DỮ LIỆU

Giảng viên: TS Võ Thành Đức

Khoa Công nghệ thông tin kinh doanh

Đại học Kinh tế TP HCM

Trang 2

NỘI DUNG

➢ Bài toán phân cụm dữ liệu

• Giới thiệu phân cụm dữ liệu

• Các ứng dụng phân cụm dữ liệu trong kinh tế

➢ Một số phương pháp phân cụm

• Hierarchical clustering: Agnes, Diana

• Partitioning clustering: K-means,Fuzzy C-means

➢ Đánh giá mô hình phân cụm

• Đánh giá ngoài (external validation)

• Đánh giá nội bộ ((internal validation)

Trang 3

Giới thiệu phân cụm dữ liệuKhái niệm:

➢ Phân cụm là một ứng dụng khác của khái niệm cơ bản về sự tương đồng

Ý tưởng cơ bản là chúng ta muốn tìm các nhóm đối tượng, trong đó các đối tượng trong mỗi nhóm tương tự nhau, nhưng các đối tượng trong các nhóm khác nhau thì không quá giống nhau

➢ Sự tương đồng tạo cơ sở cho nhiều phương pháp khoa học dữ liệu và các giải pháp cho các vấn đề kinh doanh Nếu hai đối tượng (con người, công

ty, sản phẩm…) giống nhau về mặt nào đó thì chúng cũng thường có

chung những đặc điểm khác

➢ Khác với mô hình phân lớp, loại mô hình dự đoán có giám sát liên quan đến việc khám phá các mẫu để dự đoán giá trị của một biến mục tiêu cụ thể, mô hình phân cụm là mô hình dự đoán không giám sát Có nghĩa là nókhông tập trung vào một biến mục tiêu Thay vào đó, nó tìm kiếm các loại quy tắc khác trong tập hợp dữ liệu Do đó, dữ liệu của bài toán phân cụm

là dữ liệu chưa được gán nhãn (không có biến mục tiêu)

Trang 4

Giới thiệu phân cụm dữ liệuĐặc điểm:

➢ Nhiệm vụ chính là đo đạc để tìm ra sự khác biệt giữa các đối tượng dữ liệu

➢ Phân cụm thuộc nhóm phương pháp học không giám sát (unsupervised learning)

➢ Một phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượng cao:

• Độ tương đồng bên trong cụm cao

• Độ tương tự giữa các cụm thấp (khác biệt cao)

➢ Là công cụ phân cụm dữ liệu độc lập

➢ Là giai đoạn tiền xử lý cho các thuật toán khác

Mô hình quá trình phân cụm dữ liệu

Trang 5

Giới thiệu phân cụm dữ liệu

• Độ đo phân cụm: được sử dụng làm tiêu chí nhằm

tính toán sự tương đồng/sai biệt giữa các đối tượng

dữ liệu nhằm phục vụ cho quá trình gom cụm

Khoảng cách Ơ-clít (Euclide)

Khoảng cách Euclide của người A và B là:

d (A, B) = (23 - 40) 2 + (2-10) 2 + (2 - 1) 2

≈ 18,8

Trang 6

LÁNG GIỀNG GẦN NHẤT VÀ MÔ HÌNH DỰ ĐOÁN

• Láng giềng gần nhất:

Những trường hợp có khoảng cách nhỏ nhất tính từ trường hợp được xem xét

được gọi là những láng giềng gần nhất.

• Một ví dụ về phân lớp theo láng giềng gần nhất:

Dự đoán A sẽ phản hồi đề nghị hay không? Hoặc dự đoán A có thu nhập là bao nhiêu?

• Ước tính xác suất

Nếu chúng ta cho điểm lớp Có, sao cho Có = 1 và Không = 0, chúng ta có thể tính

trung bình các điểm này thành điểm số 2/3 cho khách hàng A

Phân loại láng giềng gần nhất Điểm được phân loại được đánh dấu “?” sẽ được phân loại + vì phần lớn điểm lân cận gần nhất của nó là +.

* Vấn đề đặt ra:

- Tại sao lại có 3 láng giềng? Không có câu trả lời đơn giản cho việc nên sử dụng bao

KH Tuổi nhập Thu SL thẻ

TD

Phản hồi Khoảng cách với David

Trang 7

Các nhiệm vụ kinh doanh liên quan lý luận về sự tương tự

➢ Trực tiếp truy suất ra những thứ tương tự từ dữ liệu.

- IBM muốn tìm những công ty tương tự như những khách hàng kinh doanh tốt nhất của mình, để nhân viên bán hàng xem

họ là những khách hàng tiềm năng

- Các nhà quảng cáo thường muốn phân phát quảng cáo trực tuyến cho những người tiêu dùng tương tự như những khách hàng tốt hiện tại của họ

➢ Tương tự có thể được sử dụng để phân lớp và hồi quy (ví dụ trước).

➢ Chúng ta có thể muốn nhóm các mặt hàng tương tự lại với nhau thành các cụm,

- Chẳng hạn như để xem liệu về cơ bản khách hàng của chúng ta có chứa các nhóm khách hàng giống nhau hay không và các nhóm này có điểm chung gì

➢ Các nhà bán lẻ hiện đại như Amazon và Netflix sử dụng tính tương tự để cung cấp các đề xuất về sản phẩm tương tự hoặc/từ những người tương tự

- Sự tương tự được áp dụng với những câu như “Những người thích X cũng thích Y” hoặc “Những khách hàng có lịch sử duyệt web của bạn cũng đã xem xét…”

➢ Lập luận từ các trường hợp tương tự tất nhiên mở rộng đối với các lĩnh vực như y học và luật

- Bác sĩ có thể giải thích về một trường hợp khó mới bằng cách nhớ lại một trường hợp tương tự (được điều trị cá nhân hoặc được ghi lại trong nhật ký) và chẩn đoán của nó

- Một luật sư thường lập luận các vụ án bằng cách viện dẫn các án lệ, đó là các vụ án lịch sử tương tự mà các trường hợp trước đó đã được xét xử và đưa vào sổ sách pháp luật

- Lĩnh vực Trí tuệ nhân tạo đã có lịch sử lâu đời trong việc xây dựng các hệ thống giúp các bác sĩ và luật sư có thể suy luận dựa trên các tình huống như vậy

Trang 8

Các ứng dụng phân cụm trong kinh tế

➢ Dự báo khách hàng tiềm năng

➢ Phân tích xu hướng hành vi khách hàng

➢ Phân tích cạnh tranh, xu hướng lựa chọn dịch vụ giữa các nhà cung cấp

➢ Phân tích đặc tính sản phẩm dịch vụ

➢ Đánh giá kết quả hoạt động kinh doanh

➢ Phân tích hành vi người dùng mạng xã hội

Trang 9

Các ứng dụng phân lớp dữ liệu trong kinh tế

➢ Tài chính ngân hàng

• Dự báo giá chứng khoán

• Xếp hạng tín dụng cá nhân và tổ chức

• Đánh giá rủi ro tài chính

➢ Sales & Marketing

• Dự báo doanh thu

• Dự báo khách hàng trung thành

➢ Kinh tế học

• Dự báo khủng hoảng kinh tế

• Dự báo cung cầu

Trang 10

Phân loại một số phương pháp phân cụm chính

Trang 11

Phân cụm phân cấp (Hierarchical clustering)

* Phương pháp AGNES (Ngược với phương pháp DIANA)

Theo chiến lược bottom up: Bắt đầu với những cụm chỉ là 1 phần tử

Ở mỗi bước, gom 2 cụm gần nhau thành 1 cụm.

✓Khoảng cách giữa 2 cụm là khoảng cách giữa 2 điểm gần nhất

từ hai cụm, hoặc khoảng cách trung bình.

✓Quá trình này lặp lại cho đến khi tất cả các phần tử cùng thuộc một cụm lớn.

* Biểu đồ Dendrograms (phần dưới của hình bên)

Lưu ý trong một biểu đồ dendrogram:

✓ Biểu đồ dendrogram có thể đưa ra ý tưởng về vị trí các cụm tự nhiên có thể xuất hiện (Khoảng cách trên trục Y)

✓ Trong biểu đồ dendrogram có một khoảng cách tương đối dài giữa cụm 3 (khoảng 0,10) và cụm 4 (khoảng 0,17) Điều này cho thấy rằng sự phân đoạn dữ liệu này, tạo ra ba cụm, có thể là một sự phân chia tốt

✓ Điểm F trong dendrogram có thể gọi là "ngoại lai" và muốn điều tra nó.

Trang 13

Một số phương pháp tính khoảng cách khác

 Centroid: khoảng cách giữa các trọng tâm (centroid) của 2 cụm.

Với mi và mj là trung bình của các phần tử trong cụm Ci và Cj

Với ci và cj lần lượt là các trọng tâm của cụm Ci, Cj

Medoid là phần tử nằm ở trung tâm cụm

Với Mi và Mj là trung tâm của các phần tử trong cụm Ci và Cj

Trang 14

Ví dụ: AGNES

Trang 15

Ví dụ: AGNES

Trang 16

Nhận xét về phân cụm phân cấp

• Giải thuật đơn giản

• Kết quả dễ hiểu

• Không cần tham số đầu vào

• Không quay lui được

• Tốc độ chậm, không thích hợp trên dữ liệu lớn

• Không xử lý được trên dữ liệu bị thiếu, nhạy cảm với nhiễu

• Hạn chế trên dữ liệu có các cụm lớn và có hình dáng không lồi

Trang 17

Phân cụm phân hoạch (Partitioning Clustering)

• Phân tập dữ liệu có n phần tử cho trước thành k tập con (k<=n), mỗi tập con biểu diễn một cụm.

• Các cụm hình thành trên cơ sở tối ưu hóa giá trị hàm độ đo sự tương tự (độ đo phân cụm) sao cho:

• Mỗi đối tượng thuộc duy nhất 1 cụm, các phần tử trong cụm có sự tương tự nhau

• Mỗi cụm có ít nhất 1 phần tử

• Thuật toán điển hình: K-means, K-mediods, Fuzzy C-means

Trang 18

➢ Thuộc nhóm thuật toán phân cụm dựa trên phân hoạch

➢ Ý tưởng chính:

Ta xem mỗi đối tượng trong tập dữ liệu là một điểm trong không gian d chiều (với d là số lượng thuộc tính của đối tượng)

✓ Bước 1: Chọn k điểm bất kỳ làm các trung tâm ban đầu của k cụm.

✓ Bước 2: Phân mỗi điểm dữ liệu vào cụm có trung tâm gần nó nhất Nếu các điểm dữ liệu ở

từng cụm vừa được phân chia không thay đổi so với kết quả của lần phân chia trước đó thì ta dừng thuật toán

✓ Bước 3: Cập nhật lại trung tâm cho từng cụm bằng cách lấy trung bình cộng của tất cả các

điểm dữ liệu đã được gán vào cụm đó sau khi phân chia ở bước 2

Thuật toán K-means

Trang 19

➢ Chọn k điểm bất kỳ làm các trung tâm ban đầu của k cụm Trong hình, k = 3

➢ Phương pháp phân cụm k-mean trả về:

✓ 03 trung tâm cụm khi thuật toán cụm kết thúc

✓ Thông tin về điểm dữ liệu nào thuộc

về mỗi cụm.

Trang 20

Ví dụ: Ta có bộ dữ liệu gồm 4 đối tượng là 4 lọ thuốc

bị mất nhãn Biết rằng 4 lọ này thuộc 2 loại khác

nhau và mỗi lọ thuốc có 2 thuộc tính là chỉ số khối và

độ pH như bảng bên dưới Ta sẽ sử dụng thuật toán

K-means để phân 4 đối tượng này vào 2 cụm

Trang 21

✓ Bước 1: Chọn 2 điểm ngẫu nhiên C 1 = A (1;1) và C2 = B(2;1) làm 2

trung tâm của 2 cụm

✓ Bước 2: Phân cụm cho các điểm trong không gian dữ liệu bằng cách

tính khoảng cách Euclid từ mỗi điểm đến từng trung tâm.

Trang 22

Chỉ số khối

Bước 4: lặp lại bước 2: phân cụm lại cho các đối tượng dựa theo khoảng cách

với 2 trung tâm mới

Cụm 1 :{A, B}

Cụm 2 :{C, D}

Bước 4: lặp lại bước 2: phân cụm lại cho các đối tượng dựa theo khoảng

cách với 2 trung tâm mới

Cụm 1 :{A, B}

Cụm 2 :{C, D}

Trang 23

Đánh giá thuật toán K-means

✓ Cần biết trước số lượng cụm k

✓ Nhạy cảm với nhiễu và ngoại biên (outliers)

✓ Không phù hợp với phân bố dữ liệu dạng không lồi

(non-convex)

✓ Kết quả (nghiệm) bài toán phụ thuộc vào cách khởi tạo

các trung tâm cụm ban đầu

• Trường hợp 1: tốc độ hội tụ chậm

• Trường hợp 2: kết quả gom cụm không chính xác

(do chỉ tìm được các cực trị địa phương chứ không phải toàn cục)

✓ Khắc phục:

• Áp dụng một số phương pháp tính số cụm

• Chạy thuật toán nhiều lần với các trung tâm khác

nhau để tìm giá trị cực tiểu của hàm mất mát

Trang 24

Thuật toán Fuzzy C - Means

Trang 25

Thuật toán Fuzzy C - Means

Trang 26

Ví dụ FCM

Ta xét tập dữ liệu: Số phần tử N = 6, số thuộc tính (x;y), số cụm k=2

Bước 1: Khởi tạo ma trận độ đo thành viên → như hình bên

Là độ đo mức độ thành viên của phần tử i(xi,yi) đối với cụm 1

Là độ đo mức độ thành viên của phần tử i(xi,yi) đối với cụm 2

Bước 2: Tính tâm cụm

𝝁𝟏 𝒊 𝝁𝟐 𝒊

Trang 27

Ví dụ FCM

Trang 28

Ví dụ FCM

Trang 29

Ví dụ FCM

Sau bước 3 ta được:

Trang 30

Ví dụ FCM

Bước 4: Cập nhật giá trị

ma trận độ đo thành viên

Cụm 1

Trang 31

Ví dụ FCM

Bước 4: Cập nhật giá trị ma trận độ đo thành viên

Cụm 2

Trang 32

Ví dụ FCM

Bước 4: Cập nhật giá trị

ma trận độ đo thành viên

Trang 33

Đánh giá thuật toán FCM

➢ Là thuật toán gom cụm mềm, khắc phục được vấn đề các cụm chồng lên nhau trong dữ liệu có kích thước lớn, nhiều chiều.

➢ Phụ thuộc vào tham số khởi tạo: tham số mờ m; ma trận độ đo mức

độ thành viên.

➢ Vẫn có thể gặp vấn đề cực trị địa phương.

➢ Nhạy cảm với nhiễu và ngoại biên.

Trang 34

Các phương pháp đánh giá phân cụm dữ liệu

➢ Là vấn đề khó khăn nhất trong bài toán phân cụm

➢ Các phương pháp đánh giá việc phân cụm dữ liệu: đánh giá ngoài, đánh giá nội bộ, đánh giá tương đối.

➢ Một số tiêu chí để đánh giá chất lượng phân cụm là:

✓ Độ nén (compactness): các phần tử của cụm phải “gần nhau”

✓ Độ phân cách (separation): khoảng cách giữa các cụm nên “xa nhau”, phân cách rõ ràng

Trang 35

Đánh giá ngoài (external validation)

• Là đánh giá kết quả phân cụm dựa vào cấu trúc/ xu hướng phân cụm được chỉ định trước cho tập dữ liệu.

• So sánh độ sai khác giữa các cụm

• So sánh với kết quả mẫu (đáp án)

• Các độ đo được sử dụng trong phương pháp này: Rand statistic, Jaccard coefficient, Folkes và Mallows index….

Trang 36

Đánh giá nội bộ (internal validation)

➢ Là đánh giá kết quả phân cụm mà không có thông tin từ bên ngoài, chủ yếu dựa trên các vector chính của dữ liệu thông qua ma trận xấp xỉ (proximity matrix).

➢ Tối ưu hóa các chỉ số nội bộ: độ nén, độ phân tách

➢ Các độ đo được sử dụng trong phương pháp này: Hubert’s statistic, Silhouette index, Dunn’s index, F-ratio, DBI (Davies Bouldin Index) ….

Trang 37

Đánh giá tương đối (relative validation)

Trang 38

Demo bằng công cụ Orange

Trang 39

Demo bằng công cụ Orange

• Quy trình thực hiện

Trang 40

Tài liệu tham khảo

• [1] Oded Maimon, Lior Rokach, “Data Mining and Knowledge

Discovery Handbook”, Second Edition, Springer Science + Business Media, LLC 2005, 2010

• [2] Hillol Kargupta, Jiawei Han, Philip S Yu, Rajeev Motwani, and Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC, 2009

• [3] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and

Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006

• [4] Daniel T Larose, “Data mining methods and models”, John

Wiley & Sons, Inc, 2006.

• [5]R Xu, D Wunsch II Survey of Clustering Algorithms IEEE

Tiêu đề	Bài toán phân cụm dữ liệu xây dựng mô hình phân cụm dữ liệu
Người hướng dẫn	TS. Võ Thành Đức
Trường học	Đại học Kinh tế TP. HCM
Chuyên ngành	Công nghệ thông tin kinh doanh
Thể loại	Bài giảng
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	40
Dung lượng	2,12 MB