Bài giảng Khai phá dữ liệu: Bài 4 Phân cụm dữ liệu cung cấp cho người học những kiến thức như: Tổng quan; Các tiếp cận trong phân cụm; Các thuật toán phân cụm. Mời các bạn cùng tham khảo!
KHAI PHÁ DỮ LIỆU Bài Phân cụm liệu Giáo viên: TS Trần Mạnh Tuấn Bộ môn: Hệ thống thông tin Khoa: Công nghệ thông tin Email: tmtuan@tlu.edu.vn Điện thoai: 0983.668.841 Nội dung ❖ Tổng quan ❖ Các tiếp cận phân cụm ❖ Các thuật toán phân cụm Tổng quan Bài tốn tình – ngoại lai Tổng quan Bài tốn tình – biên nhiễu Tổng quan Tình – phân cụm ảnh Tổng quan Tình Tổng quan Tổng quan ❖PCDL lĩnh vực liên ngành phát triển mạnh mẽ Ở mức nhất, đưa định nghĩa PCDL sau [10][11]: "PCDL kỹ thuật DATA MINING, nhằm tìm kiếm, phát cụm, mẫu liệu tự nhiên tiềm ẩn, quan tâm tập liệu lớn, từ cung cấp thơng tin, tri thức hữu ích cho định" Tổng quan ❖Như vậy, PCDL trình phân chia tập DL ban đầu thành cụm DL cho: ▪ Các phần tử cụm "tương tự" (Similar) ▪ Các phần tử cụm khác "phi tương tự" (Dissimilar) ▪ Số cụm xác định trước theo kinh nghiệm tự động Tổng quan Các hướng tiếp cận phân cụm ❖Trong học máy, PCDL xem vấn đề học khơng có giám sát ▪ Nó phải giải vấn đề tìm cấu trúc tập hợp DL chưa biết trước thông tin lớp/tập VDHL ❖Nhiều trường hợp, phân lớp(Classification) xem học có giám sát PCDL bước phân lớp DL ▪ Trong PCDL khởi tạo lớp cho phân lớp cách xác định nhãn cho nhóm dl 10 Các thuật tốn phân cụm ví dụ minh họa ❖ Bước 1: Khởi tạo Chọn trọng tâm ban đầu: c1(1,1) ≡ A c2(2,1) ≡ B, thuộc cụm Các thuật tốn phân cụm ví dụ minh họa Các thuật tốn phân cụm ví dụ minh họa ❖ Bước 4-1: Lặp lại bước – Tính toán khoảng cách ➢ d(A, c1 ) = < d(A, c2 ) = 3.14 A thuộc cụm ➢ d(B, c1 ) = < d(B, c2 ) = 2.36 B thuộc cụm ➢ d(C, c1 ) = 3.61 > d(C, c2 ) = 0.47 C thuộc cụm ➢ d(D, c1 ) = > d(D, c2 ) = 1.89 D thuộc cụm Các thuật toán phân cụm ví dụ minh họa ❖ Bước 4-2: Lặp lại bước ➢ d(A, c1 ) = 0.5 < d(A, c2 ) = 4.3 A thuộc cụm ➢ d(B, c1 ) = 0.5 < d(B, c2 ) = 3.54 B thuộc cụm ➢ d(C, c1 ) = 3.2 > d(C, c2 ) = 0.71 C thuộc cụm ➢ d(D, c1 ) = 4.61 > d(D, c2 ) = 0.71 D thuộc cụm => Vì khơng có thay đổi trọng tâm cụm nên thuật toán dừng ➢ Với: cụm gồm: A,B cụm gồm: C,D Các thuật tốn phân cụm ThuậttốnK-‐means • Khởi tạo không tốt dẫn đến kết phân cụm Các thuật toán phân cụm Phân cụm FCM Phương pháp phân cụm ❖ Phân cụm rõ: liệu chia vào cụm, điểm liệu thuộc vào xác cụm ❖ Phân cụm mờ: điểm liệu thuộc vào nhiều cụm tương ứng với điểm liệu ma trận độ thuộc ❖ Phân cụm mờ bán giám sát: phân cụm mờ kết hợp với thông tin bổ trợ hình thành lên nhóm thuật tốn gọi phân cụm mờ bán giám sát 53 Các thuật tốn phân cụm ❖ Thuật tốn Fuzzy C-means • Hàm mục tiêu N C J = ukjm X k − V j → k =1 j =1 • Điều kiện ràng buộc C u j =1 kj ukj 0,1; = 1; • Tính tâm cụm C Vj = u k =1 C m kj u k =1 Xk m kj • Tính hàm mức độ thành viên u kj = X k −Vj X k − Vi i =1 C 54 m −1 k = 1, N Các thuật toán phân cụm ❖ Thuật toán Fuzzy C-means 55 Các thuật toán phân cụm ❖ Thuật toán Fuzzy C-means 56 Các thuật toán phân cụm ❖ Thuật toán Fuzzy C-means 57 Các thuật toán phân cụm Tổng quan phân cụm mờ bán giám sát Thông tin bổ trợ phân cụm mờ bán giám sát, có loại bản[31]: • Các ràng buộc Must-link Cannot-link; • Các nhãn lớp phần liệu; • Độ thuộc xác định trước Trong báo nhóm nghiên cứu sử dụng thơng tin giá trị hàm độ thuộc nhận sau sử dụng thuật toán phân cụm FCM 58 June 9-10, 2015 Các thuật toán phân cụm ❖ SEMI-SUPERVISED STANDARD FUZZY CLUSTERING[29] (SSSFC) • Hàm mục tiêu N C J (U ,V ) = | ukj − ukj |m || X k − V j ||2 → (5) k =1 j =1 • Thơng tin bổ trợ U = ukj | ukj 0,1, k = 1, N , j = 1, C u C j =1 • Tính tâm cụm N , Vj = u k =1 N kj u k =1 − ukj kj m − ukj Xk m kj 1 (k = 1, N ) (6) , j = 1, C • Tính hàm mức độ thành viên m>1 m=1 59 m −1 C X − V k j ukj = ukj + 1 − ukj i =1 C m −1 X − V i =1 k i C u + − ukj , k = arg X k − Vi kj i j =1 ukj = u , otherwise kj June 9-10, 2015 (7) (8) ❖ Các thuật tốn phân cụm SEMI-SUPERVISED ENTROPY REGULARIZED FUZZY CLUSTERING[29] (eFCM) • Hàm mục tiêu N C J (U ,V ) = ukj X k − V j A k =1 j =1 N C ( ) + −1 ukj − ukj ln ukj − ukj → k =1 j =1 (13) • Độ đo Mahalanobis C N T P = ukj (xk − v j )(xk − v j ) ; N j =1 k =1 A = P −1 d A2 ( x1, x2 ) = (x1 − x2 ) A(x1 − x2 ) T • Tính tâm cụm N Vj = u Xk k =1 kj N ; j = 1, C (14) u k =1 kj • Tính hàm mức độ thành viên ukj = ukj + e C e i =1 60 June 9-10, 2015 − X k −V j A − X k −Vi A C 1 − uki i =1 (15) Các thuật toán phân cụm ❖ Thuật toán Semi-Supervised Fuzzy C-Mean Bouchachia Pedrycz [3] (SSFCMBP) • Hàm mục tiêu C N C L C J (U ,V , ) = u ik2 d ik2 + (u ik − u ik ) d ik2 − (u ik − 1) (16) i =1 k =1 i =1 k =1 i =1 • Tính M (17) i h i h 1; mhi = 0; M = (mhi )H C • Tính hàm mức độ thành viên u ik = u ik + 1+ C 1− uik + l =1 C mhi = d ik d l =1 (18) lk • Thơng tin bổ trợ (t ) uik = uik ( t −1) H 1, + 2 k f hk − uik(t −1) * h =1 i h 0, • Tính tâm cụm (u N vi = j =1 (u June 9-10, 2015 k h (19) ) + (u ij − u ik ) x j N j =1 61 ij k h ij + (u ij − u ik ) ) (20) Trao đổi, câu hỏi? 62 ... ❖ Bước 4- 2: Lặp lại bước ➢ d(A, c1 ) = 0.5 < d(A, c2 ) = 4. 3 A thuộc cụm ➢ d(B, c1 ) = 0.5 < d(B, c2 ) = 3. 54 B thuộc cụm ➢ d(C, c1 ) = 3.2 > d(C, c2 ) = 0.71 C thuộc cụm ➢ d(D, c1 ) = 4. 61 >... cụm PhâncụmK-‐means • Các tâm cụm cực tiểu biến đổi cụm MIN – Các tâm cụm (trung tâm cụm): • Bài tốn cực tiểu hóa tối ưu tổ hợp Giải pháp cho cực tiểu hóa địa phương ta sử dụng phương pháp lặp Các... minh họa ❖ Bước 4- 1: Lặp lại bước – Tính tốn khoảng cách ➢ d(A, c1 ) = < d(A, c2 ) = 3. 14 A thuộc cụm ➢ d(B, c1 ) = < d(B, c2 ) = 2.36 B thuộc cụm ➢ d(C, c1 ) = 3.61 > d(C, c2 ) = 0 .47 C thuộc cụm