Trang 2 NỘI DUNG➢Bài toán phân cụm dữ liệu• Giới thiệu phân cụm dữ liệu• Các ứng dụng phân cụm dữ liệu trong kinh tế➢Một số phương pháp phân cụm• Hierarchical clustering: Agnes, Diana• P
Trang 1XÂY DỰNG MÔ HÌNH PHÂN CỤM DỮ LIỆU
Giảng viên: TS Võ Thành Đức
Khoa Công nghệ thông tin kinh doanh
Đại học Kinh tế TP HCM
Trang 2NỘI DUNG
➢ Bài toán phân cụm dữ liệu
• Giới thiệu phân cụm dữ liệu
• Các ứng dụng phân cụm dữ liệu trong kinh tế
➢ Một số phương pháp phân cụm
• Hierarchical clustering: Agnes, Diana
• Partitioning clustering: K-means,Fuzzy C-means
➢ Đánh giá mô hình phân cụm
• Đánh giá ngoài (external validation)
• Đánh giá nội bộ ((internal validation)
Trang 3Giới thiệu phân cụm dữ liệuKhái niệm:
➢ Phân cụm là một ứng dụng khác của khái niệm cơ bản về sự tương đồng
Ý tưởng cơ bản là chúng ta muốn tìm các nhóm đối tượng, trong đó các đối tượng trong mỗi nhóm tương tự nhau, nhưng các đối tượng trong các nhóm khác nhau thì không quá giống nhau
➢ Sự tương đồng tạo cơ sở cho nhiều phương pháp khoa học dữ liệu và các giải pháp cho các vấn đề kinh doanh Nếu hai đối tượng (con người, công
ty, sản phẩm…) giống nhau về mặt nào đó thì chúng cũng thường có
chung những đặc điểm khác
➢ Khác với mô hình phân lớp, loại mô hình dự đoán có giám sát liên quan đến việc khám phá các mẫu để dự đoán giá trị của một biến mục tiêu cụ thể, mô hình phân cụm là mô hình dự đoán không giám sát Có nghĩa là nókhông tập trung vào một biến mục tiêu Thay vào đó, nó tìm kiếm các loại quy tắc khác trong tập hợp dữ liệu Do đó, dữ liệu của bài toán phân cụm
là dữ liệu chưa được gán nhãn (không có biến mục tiêu)
Trang 4Giới thiệu phân cụm dữ liệuĐặc điểm:
➢ Nhiệm vụ chính là đo đạc để tìm ra sự khác biệt giữa các đối tượng dữ liệu
➢ Phân cụm thuộc nhóm phương pháp học không giám sát (unsupervised learning)
➢ Một phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượng cao:
• Độ tương đồng bên trong cụm cao
• Độ tương tự giữa các cụm thấp (khác biệt cao)
➢ Là công cụ phân cụm dữ liệu độc lập
➢ Là giai đoạn tiền xử lý cho các thuật toán khác
Mô hình quá trình phân cụm dữ liệu
Trang 5Giới thiệu phân cụm dữ liệu
• Độ đo phân cụm: được sử dụng làm tiêu chí nhằm
tính toán sự tương đồng/sai biệt giữa các đối tượng
dữ liệu nhằm phục vụ cho quá trình gom cụm
Khoảng cách Ơ-clít (Euclide)
Khoảng cách Euclide của người A và B là:
d (A, B) = (23 - 40) 2 + (2-10) 2 + (2 - 1) 2
≈ 18,8
Trang 6LÁNG GIỀNG GẦN NHẤT VÀ MÔ HÌNH DỰ ĐOÁN
• Láng giềng gần nhất:
Những trường hợp có khoảng cách nhỏ nhất tính từ trường hợp được xem xét
được gọi là những láng giềng gần nhất.
• Một ví dụ về phân lớp theo láng giềng gần nhất:
Dự đoán A sẽ phản hồi đề nghị hay không? Hoặc dự đoán A có thu nhập là bao nhiêu?
• Ước tính xác suất
Nếu chúng ta cho điểm lớp Có, sao cho Có = 1 và Không = 0, chúng ta có thể tính
trung bình các điểm này thành điểm số 2/3 cho khách hàng A
Phân loại láng giềng gần nhất Điểm được phân loại được đánh dấu “?” sẽ được phân loại + vì phần lớn điểm lân cận gần nhất của nó là +.
* Vấn đề đặt ra:
- Tại sao lại có 3 láng giềng? Không có câu trả lời đơn giản cho việc nên sử dụng bao
KH Tuổi nhập Thu SL thẻ
TD
Phản hồi Khoảng cách với David
Trang 7Các nhiệm vụ kinh doanh liên quan lý luận về sự tương tự
➢ Trực tiếp truy suất ra những thứ tương tự từ dữ liệu.
- IBM muốn tìm những công ty tương tự như những khách hàng kinh doanh tốt nhất của mình, để nhân viên bán hàng xem
họ là những khách hàng tiềm năng
- Các nhà quảng cáo thường muốn phân phát quảng cáo trực tuyến cho những người tiêu dùng tương tự như những khách hàng tốt hiện tại của họ
➢ Tương tự có thể được sử dụng để phân lớp và hồi quy (ví dụ trước).
➢ Chúng ta có thể muốn nhóm các mặt hàng tương tự lại với nhau thành các cụm,
- Chẳng hạn như để xem liệu về cơ bản khách hàng của chúng ta có chứa các nhóm khách hàng giống nhau hay không và các nhóm này có điểm chung gì
➢ Các nhà bán lẻ hiện đại như Amazon và Netflix sử dụng tính tương tự để cung cấp các đề xuất về sản phẩm tương tự hoặc/từ những người tương tự
- Sự tương tự được áp dụng với những câu như “Những người thích X cũng thích Y” hoặc “Những khách hàng có lịch sử duyệt web của bạn cũng đã xem xét…”
➢ Lập luận từ các trường hợp tương tự tất nhiên mở rộng đối với các lĩnh vực như y học và luật
- Bác sĩ có thể giải thích về một trường hợp khó mới bằng cách nhớ lại một trường hợp tương tự (được điều trị cá nhân hoặc được ghi lại trong nhật ký) và chẩn đoán của nó
- Một luật sư thường lập luận các vụ án bằng cách viện dẫn các án lệ, đó là các vụ án lịch sử tương tự mà các trường hợp trước đó đã được xét xử và đưa vào sổ sách pháp luật
- Lĩnh vực Trí tuệ nhân tạo đã có lịch sử lâu đời trong việc xây dựng các hệ thống giúp các bác sĩ và luật sư có thể suy luận dựa trên các tình huống như vậy
Trang 8Các ứng dụng phân cụm trong kinh tế
➢ Dự báo khách hàng tiềm năng
➢ Phân tích xu hướng hành vi khách hàng
➢ Phân tích cạnh tranh, xu hướng lựa chọn dịch vụ giữa các nhà cung cấp
➢ Phân tích đặc tính sản phẩm dịch vụ
➢ Đánh giá kết quả hoạt động kinh doanh
➢ Phân tích hành vi người dùng mạng xã hội
Trang 9Các ứng dụng phân lớp dữ liệu trong kinh tế
➢ Tài chính ngân hàng
• Dự báo giá chứng khoán
• Xếp hạng tín dụng cá nhân và tổ chức
• Đánh giá rủi ro tài chính
➢ Sales & Marketing
• Dự báo doanh thu
• Dự báo khách hàng trung thành
➢ Kinh tế học
• Dự báo khủng hoảng kinh tế
• Dự báo cung cầu
Trang 10Phân loại một số phương pháp phân cụm chính
Trang 11Phân cụm phân cấp (Hierarchical clustering)
* Phương pháp AGNES (Ngược với phương pháp DIANA)
Theo chiến lược bottom up: Bắt đầu với những cụm chỉ là 1 phần tử
Ở mỗi bước, gom 2 cụm gần nhau thành 1 cụm.
✓Khoảng cách giữa 2 cụm là khoảng cách giữa 2 điểm gần nhất
từ hai cụm, hoặc khoảng cách trung bình.
✓Quá trình này lặp lại cho đến khi tất cả các phần tử cùng thuộc một cụm lớn.
* Biểu đồ Dendrograms (phần dưới của hình bên)
Lưu ý trong một biểu đồ dendrogram:
✓ Biểu đồ dendrogram có thể đưa ra ý tưởng về vị trí các cụm tự nhiên có thể xuất hiện (Khoảng cách trên trục Y)
✓ Trong biểu đồ dendrogram có một khoảng cách tương đối dài giữa cụm 3 (khoảng 0,10) và cụm 4 (khoảng 0,17) Điều này cho thấy rằng sự phân đoạn dữ liệu này, tạo ra ba cụm, có thể là một sự phân chia tốt
✓ Điểm F trong dendrogram có thể gọi là "ngoại lai" và muốn điều tra nó.
Trang 13Một số phương pháp tính khoảng cách khác
Centroid: khoảng cách giữa các trọng tâm (centroid) của 2 cụm.
Với mi và mj là trung bình của các phần tử trong cụm Ci và Cj
Với ci và cj lần lượt là các trọng tâm của cụm Ci, Cj
Medoid là phần tử nằm ở trung tâm cụm
Với Mi và Mj là trung tâm của các phần tử trong cụm Ci và Cj
Trang 14Ví dụ: AGNES
Trang 15Ví dụ: AGNES
Trang 16Nhận xét về phân cụm phân cấp
• Giải thuật đơn giản
• Kết quả dễ hiểu
• Không cần tham số đầu vào
• Không quay lui được
• Tốc độ chậm, không thích hợp trên dữ liệu lớn
• Không xử lý được trên dữ liệu bị thiếu, nhạy cảm với nhiễu
• Hạn chế trên dữ liệu có các cụm lớn và có hình dáng không lồi
Trang 17Phân cụm phân hoạch (Partitioning Clustering)
• Phân tập dữ liệu có n phần tử cho trước thành k tập con (k<=n), mỗi tập con biểu diễn một cụm.
• Các cụm hình thành trên cơ sở tối ưu hóa giá trị hàm độ đo sự tương tự (độ đo phân cụm) sao cho:
• Mỗi đối tượng thuộc duy nhất 1 cụm, các phần tử trong cụm có sự tương tự nhau
• Mỗi cụm có ít nhất 1 phần tử
• Thuật toán điển hình: K-means, K-mediods, Fuzzy C-means
Trang 18➢ Thuộc nhóm thuật toán phân cụm dựa trên phân hoạch
➢ Ý tưởng chính:
Ta xem mỗi đối tượng trong tập dữ liệu là một điểm trong không gian d chiều (với d là số lượng thuộc tính của đối tượng)
✓ Bước 1: Chọn k điểm bất kỳ làm các trung tâm ban đầu của k cụm.
✓ Bước 2: Phân mỗi điểm dữ liệu vào cụm có trung tâm gần nó nhất Nếu các điểm dữ liệu ở
từng cụm vừa được phân chia không thay đổi so với kết quả của lần phân chia trước đó thì ta dừng thuật toán
✓ Bước 3: Cập nhật lại trung tâm cho từng cụm bằng cách lấy trung bình cộng của tất cả các
điểm dữ liệu đã được gán vào cụm đó sau khi phân chia ở bước 2
Thuật toán K-means
Trang 19Thuật toán K-means
➢ Chọn k điểm bất kỳ làm các trung tâm ban đầu của k cụm Trong hình, k = 3
➢ Phương pháp phân cụm k-mean trả về:
✓ 03 trung tâm cụm khi thuật toán cụm kết thúc
✓ Thông tin về điểm dữ liệu nào thuộc
về mỗi cụm.
Trang 20Thuật toán K-means
Ví dụ: Ta có bộ dữ liệu gồm 4 đối tượng là 4 lọ thuốc
bị mất nhãn Biết rằng 4 lọ này thuộc 2 loại khác
nhau và mỗi lọ thuốc có 2 thuộc tính là chỉ số khối và
độ pH như bảng bên dưới Ta sẽ sử dụng thuật toán
K-means để phân 4 đối tượng này vào 2 cụm
Trang 21Thuật toán K-means
✓ Bước 1: Chọn 2 điểm ngẫu nhiên C 1 = A (1;1) và C2 = B(2;1) làm 2
trung tâm của 2 cụm
✓ Bước 2: Phân cụm cho các điểm trong không gian dữ liệu bằng cách
tính khoảng cách Euclid từ mỗi điểm đến từng trung tâm.
Trang 22Thuật toán K-means
Chỉ số khối
Bước 4: lặp lại bước 2: phân cụm lại cho các đối tượng dựa theo khoảng cách
với 2 trung tâm mới
Cụm 1 :{A, B}
Cụm 2 :{C, D}
Bước 4: lặp lại bước 2: phân cụm lại cho các đối tượng dựa theo khoảng
cách với 2 trung tâm mới
Cụm 1 :{A, B}
Cụm 2 :{C, D}
Trang 23Đánh giá thuật toán K-means
✓ Cần biết trước số lượng cụm k
✓ Nhạy cảm với nhiễu và ngoại biên (outliers)
✓ Không phù hợp với phân bố dữ liệu dạng không lồi
(non-convex)
✓ Kết quả (nghiệm) bài toán phụ thuộc vào cách khởi tạo
các trung tâm cụm ban đầu
• Trường hợp 1: tốc độ hội tụ chậm
• Trường hợp 2: kết quả gom cụm không chính xác
(do chỉ tìm được các cực trị địa phương chứ không phải toàn cục)
✓ Khắc phục:
• Áp dụng một số phương pháp tính số cụm
• Chạy thuật toán nhiều lần với các trung tâm khác
nhau để tìm giá trị cực tiểu của hàm mất mát
Trang 24Thuật toán Fuzzy C - Means
Trang 25Thuật toán Fuzzy C - Means
Trang 26Ví dụ FCM
Ta xét tập dữ liệu: Số phần tử N = 6, số thuộc tính (x;y), số cụm k=2
Bước 1: Khởi tạo ma trận độ đo thành viên → như hình bên
Là độ đo mức độ thành viên của phần tử i(xi,yi) đối với cụm 1
Là độ đo mức độ thành viên của phần tử i(xi,yi) đối với cụm 2
Bước 2: Tính tâm cụm
𝝁𝟏 𝒊 𝝁𝟐 𝒊
Trang 27Ví dụ FCM
Trang 28Ví dụ FCM
Trang 29Ví dụ FCM
Sau bước 3 ta được:
Trang 30Ví dụ FCM
Bước 4: Cập nhật giá trị
ma trận độ đo thành viên
Cụm 1
Trang 31Ví dụ FCM
Bước 4: Cập nhật giá trị ma trận độ đo thành viên
Cụm 2
Trang 32Ví dụ FCM
Bước 4: Cập nhật giá trị
ma trận độ đo thành viên
Trang 33Đánh giá thuật toán FCM
➢ Là thuật toán gom cụm mềm, khắc phục được vấn đề các cụm chồng lên nhau trong dữ liệu có kích thước lớn, nhiều chiều.
➢ Phụ thuộc vào tham số khởi tạo: tham số mờ m; ma trận độ đo mức
độ thành viên.
➢ Vẫn có thể gặp vấn đề cực trị địa phương.
➢ Nhạy cảm với nhiễu và ngoại biên.
Trang 34Các phương pháp đánh giá phân cụm dữ liệu
➢ Là vấn đề khó khăn nhất trong bài toán phân cụm
➢ Các phương pháp đánh giá việc phân cụm dữ liệu: đánh giá ngoài, đánh giá nội bộ, đánh giá tương đối.
➢ Một số tiêu chí để đánh giá chất lượng phân cụm là:
✓ Độ nén (compactness): các phần tử của cụm phải “gần nhau”
✓ Độ phân cách (separation): khoảng cách giữa các cụm nên “xa nhau”, phân cách rõ ràng
Trang 35Đánh giá ngoài (external validation)
• Là đánh giá kết quả phân cụm dựa vào cấu trúc/ xu hướng phân cụm được chỉ định trước cho tập dữ liệu.
• So sánh độ sai khác giữa các cụm
• So sánh với kết quả mẫu (đáp án)
• Các độ đo được sử dụng trong phương pháp này: Rand statistic, Jaccard coefficient, Folkes và Mallows index….
Trang 36Đánh giá nội bộ (internal validation)
➢ Là đánh giá kết quả phân cụm mà không có thông tin từ bên ngoài, chủ yếu dựa trên các vector chính của dữ liệu thông qua ma trận xấp xỉ (proximity matrix).
➢ Tối ưu hóa các chỉ số nội bộ: độ nén, độ phân tách
➢ Các độ đo được sử dụng trong phương pháp này: Hubert’s statistic, Silhouette index, Dunn’s index, F-ratio, DBI (Davies Bouldin Index) ….
Trang 37Đánh giá tương đối (relative validation)
Trang 38Demo bằng công cụ Orange
Trang 39Demo bằng công cụ Orange
• Quy trình thực hiện
Trang 40Tài liệu tham khảo
• [1] Oded Maimon, Lior Rokach, “Data Mining and Knowledge
Discovery Handbook”, Second Edition, Springer Science + Business Media, LLC 2005, 2010
• [2] Hillol Kargupta, Jiawei Han, Philip S Yu, Rajeev Motwani, and Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC, 2009
• [3] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and
Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006
• [4] Daniel T Larose, “Data mining methods and models”, John
Wiley & Sons, Inc, 2006.
• [5]R Xu, D Wunsch II Survey of Clustering Algorithms IEEE