1. Trang chủ
  2. » Công Nghệ Thông Tin

Thuật toán phân cụm dữ liệu phân cấp

27 1,1K 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 395,5 KB

Nội dung

Thuật toán phân cụm dữ liệu phân cấp

Trang 1

KHAI PHÁ DỮ LIỆU ( DATA MINING)

THUẬT TOÁN PHÂN CỤM DỮ LIỆU

Trang 3

Các chiến lược phân cụm phân cấp

3

Trang 4

 BIRCH: Balanced Iterative Reducing Clustering Using Hierarchies

Trang 5

Phương pháp Top Down

Phương pháp Top Down: Bắt đầu với trạng thái là tất 

 cả các đối tượng được xếp trong cùng  một cụm.  

 Mỗi  vòng lặp thành công, một cụm được tách 

thành các cụm nhỏ hơn theo giá trị của một phép đo độ   tương tự  

Trang 6

Ý tưởng của thuật toán

  Ý tưởng của thuật toán là không cần lưu toàn bộ các     đối tượng dữ liệu của các cụm trong bộ nhớ mà chỉ lưu  các đại lượng thống kê .

 Đối với mỗi cụm dữ liệu, BIRCH chỉ lưu một bộ ba

(n, LS, SS), với n là số đối tượng trong cụm, LS là tổng các  giá trị thuộc tính của các đối tượng trong cụm và SS là        tổng bình phương các giá trị thuộc tính của  các đối  tượng trong cụm .

 Các bộ ba này được gọi là các đặc trưng của cụm          CF=(n, LS, SS) (Cluster Features  CF) và được lưu giữ   trong một cây được gọi là cây CF

6

Trang 7

Cây CF được sử dụng bởi

thuật toán BIRCH

7

Trang 8

Cây CF

 Cây CF là cây cân bằng, nhằm để lưu trữ các đặc trưng  của cụm. Cây CF chứa các nút trong và nút lá. Nút trong  lưu giữ tổng các đặc trưng cụm của các nút con của nó  Một cây CF được đặc trưng bởi hai tham số:

Trang 9

Các giai đoạn của thuật toán:

- Giai đoạn 1:BIRCH duyệt tất cả các đối tượng trong CSDL và xây dựng 1 cây CF khởi tạo

o Các đối tượng lần lượt được chèn vào nút lá gần  nhất của cây CF

o Nếu đường kính của cụm con sau khi chèn lớn hơn  ngưỡng T thì nút lá được tách ra 

o Quá trình này lặp lại cho đến khi tất cả các đối  tượng đều được chèn vào trong cây. (Mỗi đối  tượng trong cây chỉ được đọc 1 lần)

o Để lưu thông toàn bộ cây CF trong bộ nhớ điều  chỉnh kích thước của cây CF thông qua điều 

chỉnh ngưỡng T

Trang 10

- Giai đoạn 2: Lựa chọn 1 thuật toán PCDL để thực hiện PCDL cho các nút lá của cây

Trang 11

Thuật toán BITCH

tách. Khi một đối tượng thích hợp được chèn vào nút 

lá, tất cả các nút trỏ tới gốc của cây được cập nhật với  các thông tin cần thiết.

11

Trang 12

12

Trang 13

Bước 3: Thực hiện phân cụm: Các nút lá của 

cây CF lưu giữ các đại lượng thống kê của các cụm con. Trong bước này, BIRCH sử dụng 

các đại lượng thống kê này để áp dụng một số 

kỹ thuật phân cụm thí dụ như k-means và tạo 

ra một khởi tạo cho phân cụm

13

Trang 14

14

Trang 15

 Khi hòa nhập 2 cụm ta có :

  CF=CF1+CF2=(n1+n2 ;LS1+LS2, SS1+SS2)

 Khoảng  cách  giữa  các  cụm  có  thể  đo     bằng  khoảng  cách  Euclid, Manhatta,

Trang 17

T

Thuật toán BIRCH

Trang 20

 Ví dụ CF = (n , LS , SS) , n là số đối       tượng của dữ liệu 

20

Trang 21

sc7 sc6

LN3

sc5 sc4

LN2

LN1

sc1 sc2

sc3

sc8

Trang 22

sc7 sc6

LN3

sc5 sc4

Trang 23

sc7 sc6

LN3

sc5 sc4

NLN1

NLN2

Trang 24

Ưu điểm của BIRCH

a nó là O(n) (n là số đối tượng dữ liệu)

24

Trang 25

Nhược điểm của BIRCH

25

Trang 26

Nhược điểm của BIRCH (t)

Trang 27

THANK YOU FOR LISTENING

27

Ngày đăng: 24/02/2016, 16:40

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w