Thuật toán BIRCH

BIRCH [10, 20] đƣợc thiết kế để phân cụm dữ liệu số với số lƣợng lớn bằng cách tích hợp phân cụm phân cấp (trạng thái khởi đầu phân cụm vi mô) và các phƣơng pháp phân cụm khác chẳng hạn nhƣ phân cụm lặp (trạng thái sau phân cụm vĩ mô). Nó vƣợt qua hai sự khó khăn của phƣơng pháp phân cụm tích lũy: Thứ nhất là khả năng mở rộng và thứ hai là khả năng không quay lại đƣợc bƣớc trƣớc đó.

BIRCH đƣa ra hai khái niệm: đặc trƣng phân cụm và cây đặc trƣng phân cụm (CF tree), đƣợc sử dụng để tóm tắt các đại diện cụm. Những cấu trúc này giúp phƣơng pháp phân cụm hiệu quả, đạt kết quả tốt và nó có khả năng thực hiện trên các bộ dữ liệu lớn, và nó đảm bảo sự linh động của dữ liệu đầu vào.

Chúng ta sẽ xét sâu hơn các cấu trúc vừa đề cập đến. Cho n đối tƣợng dữ liệu với d chiều, chúng ta có thể xác định cụm trung tâm x0, bán kính R, và đƣờng kính D của cụm nhƣ sau: 1 0 n i i x x n   

 2 1 n i o i x x R n      2 1 1 ( 1) n n i j i j x x D n n       

Ở đây R là khoảng cách trung bình từ các đối tƣợng thành viên tới tâm của cụm và D là khoảng cách trung bình giữa các cặp trong cụm. Cả hai R và D thể hiện tính gần gũi của cụm xung quanh tâm. Một đặc trƣng phân cụm (CF) là một vector 3 chiều tổng hợp thông tin về các cụm của đối tƣợng. Cho n đối tƣợng d chiều trong một phân cụm, {xi}, khi đó CF của cụm đƣợc định nghĩa là:

CF = {n, LS, SS}

ở đây n là số điểm trong cụm, LS là tổng tuyến tính của n điểm (có nghĩa là, LS= 1 n i i x   ),

SS là tổng bình phƣơng của các điểm dữ liệu (có nghĩa là, 2 1 n i i x   ) Hình 2.3: Cấu trúc cây CF

Cây CF có chứa nút trong và nút lá, nút trong là nút chứa các nút con còn nút lá thì không có nút con. Nút trong lƣu trữ tổng các đặc trƣng của cụm (CF) của các nút con của nó. Một cây (CF) đƣợc đặc trƣng bởi hai tham số: Tham số nhánh (Branching factor - B) và ngƣỡng (Threshold - T). B xác định tối đa các nút con của một nút lá trong của cây. T là khoảng cách tối đa giữa bất kì một cặp đối tƣợng trong nút lá của cây, khoảng cách này còn gọi là đƣờng kính của các cụm con đƣợc lƣu tại các nút lá. Hai tham số này nó ảnh hƣởng đến kích thƣớc của cây CF.

CF1 CF2 --- CFk

CF11 CF12 --- CF1k

Mức gốc

BIRCH áp dụng một kĩ thuật nhiều giai đoạn: Thực hiện quét một lần tập dữ liệu tạo ra một phân cụm tốt ban đầu, và có thể quét một hoặc nhiều lần sau đó để cải tiến chất lƣợng. Thuật toán BIRCH thực hiện gồm hai giai đoạn chính là:

Giai đoạn 1: BIRCH quét CSDL để xây dựng một cây CF khởi tạo, mà đƣợc lƣu trữ trong bộ nhớ, có thể đƣợc xem nhƣ là một sự nén ở nhiều mức của dữ liệu để cố gắng bảo vệ cấu trúc phân cụm có sẵn của dữ liệu.

Giai đoạn 2: BIRCH lựa chọn một thuật toán phân cụm để phân cụm các nút lá của cây CF, cố gắng loại bỏ các phân cụm mà dữ liệu nằm thƣa thớt hay còn gọi là phân cụm dƣ thừa và nhóm các phân cụm thành một phân cụm lớn hơn.

Ở bƣớc đầu tiên, khi một đối tƣợng đƣợc thêm vào một cụm, nếu đƣờng kính của cụm này lớn hơn giá trị ngƣỡng T thì các cụm sẽ đƣợc phân chia lại. Khi đó ta sẽ đƣợc tập các cụm mới. Ở bƣớc thứ hai, có thể áp dụng một thuật toán phân cụm bất kì để thực hiện việc phân tách hoặc hợp nhất các cụm lại.

Thuật toán BIRCH có ƣu điểm là tốc độ thực hiện PCDL nhanh và có thể áp dụng với CSDL lớn, thuật toán này cũng thực sự hiệu quả khi áp dụng với tập dữ liệu tăng trƣởng theo thời gian. Độ phức tạp tính toán của thuật toán này là O(n), trong đó n là số lƣợng đối tƣợng đƣợc phân cụm. Tuy nhiên, BIRCH có một số hạn chế sau: Thuật toán này sử dụng bán kính hoặc đƣờng kính để kiểm soát ranh giới các cụm do đó nó có thể không xử lý tốt nếu các cụm không có hình dạng cầu và chất lƣợng của các cụm sẽ khám phá không đƣợc tốt. Thuật toán BIRCH không phù hợp với dữ liệu với số chiều cao.

Phƣơng pháp phân cấp

Chƣơng trình và dữ liệu thử nghiệm