Các thuật toán phân cụm phân cấp

Một phần của tài liệu Nghiên cứu kỹ thuật và ứng dụng về phân cụm trong khai phá dữ liệu (Trang 31 - 35)

Trong phân cụm phân cấp, tập dữ liệu được tổ chức thành một cây mà mỗi đỉnh của nó là một cụm. Trong đó, các lá của cây biểu diễn các đối tượng riêng lẻ và các nút trong của cây biểu diễn các cụm.

Có hai loại phương pháp tạo kiến trúc cụm (hình 1.1): - Gộp (Agglomerative) hay từ dưới lên (Bottom-up)

 Đưa từng đối tượng vào cụm riêng của nó

 Tại mỗi bước tiếp theo, trộn hai cụm tương tự nhất cho đến khi chỉ còn một cụm hay thỏa điều kiện kết thúc.

- Phân chia (Divisive) hay từ trên xuống (Top-down)

 Bắt đầu bằng một cụm lớn chứa tất cả các đối tượng

 Phân chia cụm phân biệt nhất thành các cụm nhỏ hơn và xử lý cho đến khi có k cụm hay thỏa điều kiện kết thúc.

32

- Single-linkage clustering: khoảng cách giữa hai cụm là khoảng cách ngắn nhất giữa hai đối tượng của hai cụm. [4][5][6]

- Complete-linkage clustering: khoảng cách giữa hai cụm là khoảng cách lớn nhất giữa hai đối tượng của hai cụm.

- Average-linkage clustering: khoảng cách giữa hai cụm là khoảng cách trung bình giữa hai đối tượng của hai cụm.

2.2.1 Thuật toán AGNES

Ý tưởng: Phương pháp phân cụm AGNES là kỹ thuật kiểu tích tụ. AGNES bắt đầu ở ngoài

với mỗi đối tượng dữ liệu trong các cụm riêng lẻ. Các cụm được hòa nhập theo một số loại của cơ sở luật, cho đến khi chỉ có một cụm ở đỉnh của phân cấp, hoặc gặp điều kiện dừng. Hình dạng này của phân cụm phân cấp cũng liên quan đến tiếp cận bottom-up bắt đầu ở dưới với các nút lá trong mỗi cụm riêng lẻ và duyệt lên trên phân cấp tới nút gốc, nơi tìm thấy cụm đơn cuối cùng với tất cả các đối tượng dữ liệu được chứa trong cụm đó.

Thuật toán AGNES bao gồm các bước cơ bản sau :

Bước 1: Mỗi đối tượng là một cụm

Bước 2: Hợp nhất các cụm có khoảng cách giữa các nhóm là nhỏ nhất (Single Link). Bước 3: Nếu thu được nhóm “tồn bộ” thì dừng, ngược lại quay lại bước 2.

Hình 2.2: Các bước cơ bản thuật tốn AGNES

2.2.2 Thuật toán DIANA

Ý tưởng: Thuật toán DIANA thực hiện đối lập với AGNES. DIANA bắt đầu với tất cả các đối

33

dựa trên luật, cho đến khi mỗi đối tượng dữ liệu của cụm lớn được chia tách hết. Hình dạng của cụm phân cấp cùng liên quan đến tiếp cận top-down bắt đầu tại mức đỉnh nút gốc, với tất cả các đối tượng dữ liệu, trong một cụm, và duyệt xuống các nút lá dưới cùng nơi tất cả các đối tượng dữ liệu từng cái được chứa trong cụm của chính mình.

Thuật tốn DIANA bao gồm các bước cơ bản sau :

Bước 1: Tất cả các đối tượng là một cụm

Bước 2: Chia nhỏ cụm có khoảng cách giữa những đối tượng trong cụm là lớn nhất (Complete

Link).

Bước 3: Nếu mỗi cụm chỉ chứa một đối tượng thì dừng, ngược lại quay lại quay lại bước 2.

Hình 2.3: Các bước cơ bản thuật toán DIANA

2.2.3 Thuật toán BIRCH

BIRCH (Balanced Iterative Reducing and Clustering Using Hierarchies) do Tian Zhang, Amakrishnan và Livny đề xuất năm 1996, là thuật toán phân cụm phân cấp sử dụng chiến lược Top-Down. Ý tưởng của thuật tốn là khơng cần lưu tồn bộ các đối tượng dữ liệu của các cụm trong bộ nhớ mà chỉ lưu các đại lượng thống kê. Đối với mỗi cụm dữ liệu, BIRCH chỉ lưu một bộ ba (n, LS, SS), với n là số đối tượng trong cụm, LS là tổng các giá trị thuộc tính của các đối tượng trong cụm và SS là tổng bình phương các giá trị thuộc tính của các đối tượng trong cụm. Các bộ ba này được gọi là các đặc trưng của cụm CF=(n, LS, SS) (Cluster Features - CF) và được lưu giữ trong một cây được gọi là cây CF. Hình sau đây biểu thị một ví dụ về cây CF. Chúng ta thấy rằng, tất cả các nút trong của cây lưu tổng các đặc trưng cụm CF của nút con, trong khi đó các nút lá lưu trữ các đặc trưng của các cụm dữ liệu. Hình 2.4 minh họa một CF.

34

Hình 2.4: Ví dụ về xác định đặc trưng cụm CF

Cây CF là cây cân bằng, nhằm để lưu trữ các đặc trưng của cụm. Cây CF chứa các nút trong và nút lá. Nút trong lưu giữ tổng các đặc trưng cụm của các nút con của nó. Một cây CF được đặc trưng bởi hai tham số:

- Yếu tố nhánh (Branching Factor- B): Nhằm xác định số tối đa các nút con của mỗi nút trong của cây;

- Ngưỡng (Threshold - T): Khoảng cách tối đa giữa bất kỳ một cặp đối tượng trong nút lá của cây, khoảng cách này cịn gọi là đường kính của các cụm con được lưu tại các nút lá.

Hình 2.5: Cấu trúc cây CF

Thuật tốn BIRCH thực hiện qua 2 giai đoạn sau:

35

- Các đối tượng lần lượt được chèn vào nút lá gần nhất của cây CF (nút lá của cây đóng vai trị cụm con), sau khi chèn xong thì mọi nút trên cây CF được cập nhật thông tin.

- Nếu đường kính của cụm con sau khi chèn lớn hơn ngưỡng T thì nút lá được tách ra.

- Quá trình này được lặp đi lặp lại cho đến khi tất cả các đối tượng đều được chèn vào cây CF. - Để lưu toàn bộ cây CF trong bộ nhớ thì cần phải điều chỉnh kích thước của cây CF thông qua điều chỉnh ngưỡng T.

Giai đoạn 2: BIRCH lựa chọn một thuật toán phân cụm (như thuật toán phân cụm phân hoạch)

để thực hiện phân cụm cho các nút lá của cây CF.

Thuật toán BIRCH gồm 4 bước cơ bản sau:

Input: CSDL gồm n đối tượng, ngưỡng T Output: k cụm dữ liệu

Bước 1: Duyệt tất cả các đối tượng trong CSDL và xây dựng một cây CF khởi tạo. Một đối

tượng được chèn vào nút lá gần nhất tạo thành cụm con. Nếu đường kính của cụm con này lớn hơn ngưỡng T thì nút lá được tách. Khi một đối tượng thích hợp được chèn vào nút lá, tất cả các nút trỏ tới gốc của cây được cập nhật với các thông tin cần thiết.

Bước 2: Nếu cây CF hiện thời khơng có đủ bộ nhớ trong thì tiến hành xây dựng một cây CF

nhỏ hơn bằng cách điều khiển bởi tham số T (vì tăng T sẽ làm hồ nhập một số các cụm con thành một cụm, điều này làm cho cây CF nhỏ hơn). Bước này không cần yêu cầu bắt đầu đọc dữ liệu lại từ đầu nhưng vẫn đảm bảo hiệu chỉnh cây dữ liệu nhỏ hơn.

Bước 3: Thực hiện phân cụm: Các nút lá của cây CF lưu giữ các đại lượng thống kê của các

cụm con. Trong bước này, BIRCH sử dụng các đại lượng thống kê này để áp dụng một số kỹ thuật phân cụm thí dụ như K-Means và tạo ra một khởi tạo cho phân cụm.

Bước 4: Phân phối lại các đối tượng dữ liệu bằng cách dùng các đối tượng trọng tâm cho các

cụm đã được khám phá từ bước 3: Đây là một bước tuỳ chọn để duyệt lại tập dữ liệu và gán nhãn lại cho các đối tượng dữ liệu tới các trọng tâm gần nhất. Bước này nhằm để gán nhãn cho các dữ liệu khởi tạo và loại bỏ các đối tượng ngoại lai.

Một phần của tài liệu Nghiên cứu kỹ thuật và ứng dụng về phân cụm trong khai phá dữ liệu (Trang 31 - 35)

Tải bản đầy đủ (PDF)

(43 trang)