1. Trang chủ
  2. » Cao đẳng - Đại học

Slide kho dữ liệu và khai phá dữ liệu chương 4 khai phá dữ liệu phần 4

21 17 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

.c om ng co ng th an Chương cu u du o Khai phá liệu CuuDuongThanCong.com https://fb.com/tailieudientucntt .c om Nội dung Tiền xử lý liệu Phương pháp khai phá luật kết hợp Phương pháp định Các phương pháp phân cụm Các phương pháp khai phá liệu phức tạp cu u du o ng th an co ng CuuDuongThanCong.com https://fb.com/tailieudientucntt cu u du o ng th an co ng c om Gom cụm liệu CuuDuongThanCong.com https://fb.com/tailieudientucntt cu u du o ng th an co ng c om Gom cụm liệu CuuDuongThanCong.com https://fb.com/tailieudientucntt .c om Gom cụm liệu Gom cụm: Clustering  Dữ liệu phát sinh trình tác nghiệp gọi co ng  ng th Để khai phá khía cạnh khác u du o liệu chúng cần phải biến đổi dạng thích hợp, cu  an liệu thô, CuuDuongThanCong.com https://fb.com/tailieudientucntt .c om Độ đo gom cụm liệu co ri = (xi1, xi2, …, xin), ng Xét hai đối tượng liệu (bản ghi) ri rj , đối tượng có n thuộc tính: th an rj = (xj1, xj2, …, xjn), ng  Khoảng cách Euclidean 2 u du o d (ri , rj )  ( xi1  x j1 )  ( xi  x j )   ( xin  x jn ) cu  Khoảng cách Manhattan d (ri , rj )  xi1  x j1  xi  x j   xin  x jn CuuDuongThanCong.com https://fb.com/tailieudientucntt Trọng tâm cụm (mean/centroid): c om Độ đo gom cụm liệu ng Cụm C có m phần tử; phần tử có n thuộc tính: co C = {r1, r2, …, rm}, th an Ri = (xi1, xi2, …, xin) ng Trọng tâm m cụm C xác định sau: cu u du o m m 1 m  m j    xi1 ,  xi , ,  xin  n  i 1 i 1 i 1  CuuDuongThanCong.com https://fb.com/tailieudientucntt .c om Một số thuật giải gom cụm liệu ng  Hierarchical Agglomerative Clustering (HAC) co  Single Link ng th  Centroid an  Complete Link u cu  K-means du o  Group Average CuuDuongThanCong.com https://fb.com/tailieudientucntt cu u du o ng th an co ng c om Một số thuật giải gom cụm liệu CuuDuongThanCong.com https://fb.com/tailieudientucntt .c om Một số thuật giải gom cụm liệu  Giải thuật K-means cu u du o ng th an co ng Input: Tập liệu D gồm m đối tượng liệu (bản ghi): r1, r2,…, rm Số lượng cụm k Output: k cụm liệu Begin Chọn ngẫu nhiên k đối tượng làm trọng tâm cho k cụm; Repeat  Gán đối tượng ri cho cụm mà khoảng cách từ đối tượng đến trọng tâm cụm nhỏ số k cụm;  Xác định lại trọng tâm cho cụm dựa đối tượng gán cho cụm; Until Hội tụ (khơng cịn thay đổi); End; CuuDuongThanCong.com https://fb.com/tailieudientucntt 10 .c om Một số thuật giải gom cụm liệu du o ng th an co ng  Giải thuật K-means – Điều kiện dừng:  Giải thuật hội tụ: khơng cịn phân chia lại đối tượng cụm, hay trọng tâm cụm khơng đổi Lúc tổng tổng khoảng cách từ đối tượng thuộc cụm đến trọng tâm cụm cực tiểu: k cu u J  CuuDuongThanCong.com  d (r , m )  j 1 ri C j i j https://fb.com/tailieudientucntt 11 .c om Một số thuật giải gom cụm liệu ng  Giải thuật K-means – Điều kiện dừng:  Giải thuật không hội tụ: trọng tâm cụm co liên tục thay đổi Khi có lựa chọn: cu u du o ng th an  Dừng giải thuật số lượng vịng lặp vượt q ngưỡng định trước  Dừng giải thuật giá trị J nhỏ ngưỡng định trước  Dừng giải thuật hiệu giá trị J hai vịng lặp liên tiếp nhỏ ngưỡng định trước: |Jn+1 – Jn| < ε CuuDuongThanCong.com https://fb.com/tailieudientucntt 12 .c om Thuật giải K-means Weight A 1 th an D pHIndex cu u du o C ng B co Medicine ng  Phân liệu sau thành cụm (K=2) 13 CuuDuongThanCong.com https://fb.com/tailieudientucntt .c om Thuật giải K-means Bước 1: Chọn tâm ban đầu c1  A, c2  B ng th an co ng  Dùng cơng thức tính khoảng cách (Euclidean) để tính khoảng cách từ tâm đến đối tượng  Gán đối tượng vào cụm mà khoảng cách từ đối tượng đến tâm gần d ( D, c1 )  (5  1)  (4  1)  cu u du o d ( D, c2 )  (5  2)  (4  1)  18  D  {B} d (C , c1 )  (4  1)  (3  1)  13 d (C , c2 )  (4  2)  (3  1)   C  {B} Bước 2: Tính lại tâm cụm Bước 3: Lặp lại Bước Bước CuuDuongThanCong.com 14 https://fb.com/tailieudientucntt .c om Thuật giải HAC (Hierarchical Agglomerative Clustering) cu u du o ng th an co ng Ý tưởng: tích lũy từ lên Ban đầu, đối tượng (bản ghi) liệu coi cụm Từng bước kết hợp cụm có thành cụm lớn với yêu cầu khoảng cách đối tượng nội cụm nhỏ Dừng thuật toán đạt số lượng cụm mong muốn, cụm chứa tất đối tượng thỏa mãn điều kiện dừng 15 CuuDuongThanCong.com https://fb.com/tailieudientucntt .c om Thuật giải HAC (Hierarchical Agglomerative Clustering) du o ng th G = {{r} | r ∈ D}; //Khởi tạo G tập cụm gồm đối tượng Nếu |G| = k dừng thuật tốn; //Đạt số lượng cụm mong muốn Tìm hai cụm Si , Sj ∈ G có khoảng cách d(Si, Sj) nhỏ nhất; Nếu d(Si, Sj) > dừng thuật tốn; //Khoảng cách cụm gần lớn ngưỡng cho phép G = G\{Si, Sj}; //Loại bỏ cụm Si ,Sj khỏi tập cụm S = Si ∪ Sj; //Ghép Si, Sj thành cụm S G = G ∪ {S}; //Kết nạp cụm vào G Quay bước 16 cu u an co ng G: tập cụm D: tập đối tượng (bản ghi) liệu cần phân cụm k: số lượng cụm mong muốn d0: ngưỡng khoảng cách cụm CuuDuongThanCong.com https://fb.com/tailieudientucntt .c om Thuật giải HAC (Hierarchical Agglomerative Clustering) cu u du o ng th an co ng  Single Link (đo khoảng cách gần nhất):  Khoảng cách hai cụm xác định khoảng cách hai phần tử “gần” hai cụm d (S1 , S2 )  d (ri , rj ) ri S1 , r j S 17 CuuDuongThanCong.com https://fb.com/tailieudientucntt .c om Thuật giải HAC (Hierarchical Agglomerative Clustering) cu u du o ng th an co ng  Complete Link (đo khoảng cách xa nhất):  Khoảng cách hai cụm xác định khoảng cách hai phần tử “xa” hai cụm d ( S1 , S )  max d (ri , rj ) ri S1 , r j S 18 CuuDuongThanCong.com https://fb.com/tailieudientucntt .c om Thuật giải HAC (Hierarchical Agglomerative Clustering) cu u du o ng th an co ng  Centroid Link (đo khoảng cách trọng tâm):  Khoảng cách hai cụm xác định khoảng cách hai trọng tâm hai cụm d (S1 , S2 )  d (mi , m j ) 19 CuuDuongThanCong.com https://fb.com/tailieudientucntt .c om Thuật giải HAC (Hierarchical Agglomerative Clustering) cu u du o ng th an co ng  Group Average Link (đo khoảng cách trung bình nhóm):  Khoảng cách hai cụm xác định khoảng cách trung bình phần tử thuộc hai cụm d ( S1 , S )  d (ri , rj )  | S1 || S | ri S1 ,r j S 20 CuuDuongThanCong.com https://fb.com/tailieudientucntt .c om Một số thuật giải gom cụm liệu ng  Ứng dụng: co  Hierarchical Agglomerative Clustering (HAC) th ng phân cụm, an  Tạo phân cấp trình du o  Độ phức tạp cao (O(n2)) cu u  K-means  Tạo phân cấp bước một,  Độ phức tạp thấp HAC (O(nkt)) CuuDuongThanCong.com https://fb.com/tailieudientucntt 21 ....c om Nội dung Tiền xử lý liệu Phương pháp khai phá luật kết hợp Phương pháp định Các phương pháp phân cụm Các phương pháp khai phá liệu phức tạp cu u du o ng th an co ng CuuDuongThanCong.com... liệu Gom cụm: Clustering  Dữ liệu phát sinh trình tác nghiệp gọi co ng  ng th Để khai phá khía cạnh khác u du o liệu chúng cần phải biến đổi dạng thích hợp, cu  an liệu thô, CuuDuongThanCong.com... (Euclidean) để tính kho? ??ng cách từ tâm đến đối tượng  Gán đối tượng vào cụm mà kho? ??ng cách từ đối tượng đến tâm gần d ( D, c1 )  (5  1)  (4  1)  cu u du o d ( D, c2 )  (5  2)  (4  1)  18 

Ngày đăng: 18/09/2021, 17:27

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN