Thuật toán phân cụm dữ liệu phân cấp
Trang 1KHAI PHÁ DỮ LIỆU ( DATA MINING)
THUẬT TOÁN PHÂN CỤM DỮ LIỆU
Trang 3Các chiến lược phân cụm phân cấp
3
Trang 4 BIRCH: Balanced Iterative Reducing Clustering Using Hierarchies
Trang 5Phương pháp Top Down
Phương pháp Top Down: Bắt đầu với trạng thái là tất
cả các đối tượng được xếp trong cùng một cụm.
Mỗi vòng lặp thành công, một cụm được tách
thành các cụm nhỏ hơn theo giá trị của một phép đo độ tương tự
Trang 6Ý tưởng của thuật toán
Ý tưởng của thuật toán là không cần lưu toàn bộ các đối tượng dữ liệu của các cụm trong bộ nhớ mà chỉ lưu các đại lượng thống kê .
Đối với mỗi cụm dữ liệu, BIRCH chỉ lưu một bộ ba
(n, LS, SS), với n là số đối tượng trong cụm, LS là tổng các giá trị thuộc tính của các đối tượng trong cụm và SS là tổng bình phương các giá trị thuộc tính của các đối tượng trong cụm .
Các bộ ba này được gọi là các đặc trưng của cụm CF=(n, LS, SS) (Cluster Features CF) và được lưu giữ trong một cây được gọi là cây CF
6
Trang 7Cây CF được sử dụng bởi
thuật toán BIRCH
7
Trang 8Cây CF
Cây CF là cây cân bằng, nhằm để lưu trữ các đặc trưng của cụm. Cây CF chứa các nút trong và nút lá. Nút trong lưu giữ tổng các đặc trưng cụm của các nút con của nó Một cây CF được đặc trưng bởi hai tham số:
Trang 9 Các giai đoạn của thuật toán:
- Giai đoạn 1:BIRCH duyệt tất cả các đối tượng trong CSDL và xây dựng 1 cây CF khởi tạo
o Các đối tượng lần lượt được chèn vào nút lá gần nhất của cây CF
o Nếu đường kính của cụm con sau khi chèn lớn hơn ngưỡng T thì nút lá được tách ra
o Quá trình này lặp lại cho đến khi tất cả các đối tượng đều được chèn vào trong cây. (Mỗi đối tượng trong cây chỉ được đọc 1 lần)
o Để lưu thông toàn bộ cây CF trong bộ nhớ điều chỉnh kích thước của cây CF thông qua điều
chỉnh ngưỡng T
Trang 10- Giai đoạn 2: Lựa chọn 1 thuật toán PCDL để thực hiện PCDL cho các nút lá của cây
Trang 11Thuật toán BITCH
tách. Khi một đối tượng thích hợp được chèn vào nút
lá, tất cả các nút trỏ tới gốc của cây được cập nhật với các thông tin cần thiết.
11
Trang 1212
Trang 13 Bước 3: Thực hiện phân cụm: Các nút lá của
cây CF lưu giữ các đại lượng thống kê của các cụm con. Trong bước này, BIRCH sử dụng
các đại lượng thống kê này để áp dụng một số
kỹ thuật phân cụm thí dụ như k-means và tạo
ra một khởi tạo cho phân cụm
13
Trang 1414
Trang 15 Khi hòa nhập 2 cụm ta có :
CF=CF1+CF2=(n1+n2 ;LS1+LS2, SS1+SS2)
Khoảng cách giữa các cụm có thể đo bằng khoảng cách Euclid, Manhatta,
Trang 17T
Thuật toán BIRCH
Trang 20 Ví dụ CF = (n , LS , SS) , n là số đối tượng của dữ liệu
20
Trang 21sc7 sc6
LN3
sc5 sc4
LN2
LN1
sc1 sc2
sc3
sc8
Trang 22sc7 sc6
LN3
sc5 sc4
Trang 23sc7 sc6
LN3
sc5 sc4
NLN1
NLN2
Trang 24Ưu điểm của BIRCH
a nó là O(n) (n là số đối tượng dữ liệu)
24
Trang 25Nhược điểm của BIRCH
25
Trang 26Nhược điểm của BIRCH (t)
Trang 27THANK YOU FOR LISTENING
27