Thuật toán phân cụm dữ liệu phân cấp

Trang 1

KHAI PHÁ DỮ LIỆU ( DATA MINING)

THUẬT TOÁN PHÂN CỤM DỮ LIỆU

Trang 3

Các chiến lược phân cụm phân cấp

3

Trang 4

 BIRCH: Balanced Iterative Reducing Clustering Using Hierarchies

Trang 5

Phương pháp Top Down

 Phương pháp Top Down: Bắt đầu với trạng thái là tất

cả các đối tượng được xếp trong cùng một cụm.

 Mỗi vòng lặp thành công, một cụm được tách

thành các cụm nhỏ hơn theo giá trị của một phép đo độ tương tự

Trang 6

Ý tưởng của thuật toán

 Ý tưởng của thuật toán là không cần lưu toàn bộ các đối tượng dữ liệu của các cụm trong bộ nhớ mà chỉ lưu các đại lượng thống kê .

 Đối với mỗi cụm dữ liệu, BIRCH chỉ lưu một bộ ba

(n, LS, SS), với n là số đối tượng trong cụm, LS là tổng các giá trị thuộc tính của các đối tượng trong cụm và SS là tổng bình phương các giá trị thuộc tính của các đối tượng trong cụm .

 Các bộ ba này được gọi là các đặc trưng của cụm CF=(n, LS, SS) (Cluster Features CF) và được lưu giữ trong một cây được gọi là cây CF

6

Trang 7

Cây CF được sử dụng bởi

thuật toán BIRCH

7

Trang 8

Cây CF

 Cây CF là cây cân bằng, nhằm để lưu trữ các đặc trưng của cụm. Cây CF chứa các nút trong và nút lá. Nút trong lưu giữ tổng các đặc trưng cụm của các nút con của nó Một cây CF được đặc trưng bởi hai tham số:

Trang 9

 Các giai đoạn của thuật toán:

- Giai đoạn 1:BIRCH duyệt tất cả các đối tượng trong CSDL và xây dựng 1 cây CF khởi tạo

o Các đối tượng lần lượt được chèn vào nút lá gần nhất của cây CF

o Nếu đường kính của cụm con sau khi chèn lớn hơn ngưỡng T thì nút lá được tách ra

o Quá trình này lặp lại cho đến khi tất cả các đối tượng đều được chèn vào trong cây. (Mỗi đối tượng trong cây chỉ được đọc 1 lần)

o Để lưu thông toàn bộ cây CF trong bộ nhớ điều chỉnh kích thước của cây CF thông qua điều

chỉnh ngưỡng T

Trang 10

- Giai đoạn 2: Lựa chọn 1 thuật toán PCDL để thực hiện PCDL cho các nút lá của cây

Trang 11

Thuật toán BITCH

tách. Khi một đối tượng thích hợp được chèn vào nút

lá, tất cả các nút trỏ tới gốc của cây được cập nhật với các thông tin cần thiết.

11

Trang 12

12

Trang 13

 Bước 3: Thực hiện phân cụm: Các nút lá của

cây CF lưu giữ các đại lượng thống kê của các cụm con. Trong bước này, BIRCH sử dụng

các đại lượng thống kê này để áp dụng một số

kỹ thuật phân cụm thí dụ như k-means và tạo

ra một khởi tạo cho phân cụm

13

Trang 14

14

Trang 15

 Khi hòa nhập 2 cụm ta có :

CF=CF1+CF2=(n1+n2 ;LS1+LS2, SS1+SS2)

 Khoảng cách giữa các cụm có thể đo bằng khoảng cách Euclid, Manhatta,

Trang 17

T

Thuật toán BIRCH

Trang 20

 Ví dụ CF = (n , LS , SS) , n là số đối tượng của dữ liệu

20

Trang 21

sc7 sc6

LN3

sc5 sc4

LN2

LN1

sc1 sc2

sc3

sc8

Trang 22

sc7 sc6

LN3

sc5 sc4

Trang 23

sc7 sc6

LN3

sc5 sc4

NLN1

NLN2

Trang 24

Ưu điểm của BIRCH

a nó là O(n) (n là số đối tượng dữ liệu)

24

Trang 25

Nhược điểm của BIRCH

25

Trang 26

Nhược điểm của BIRCH (t)

Trang 27

THANK YOU FOR LISTENING

27

Định dạng
Số trang	27
Dung lượng	395,5 KB