THUẬT TOÁN PHÂN CỤM PHÂN CẤP

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu độ đo trung gian và thuật toán phát hiện cộng đồng trên mạng xã hội (Trang 35 - 37)

Nhóm thuật toán phát hiện cộng đồng truyền thông bao gồm các thuật toán phân cụm theo đồ thị, phân cụm phân cấp, phân cụm phân hoạch, phân cụm theo phổ và thuật toán phân chia.

Đồ thị có thể chứa cấu trúc phân cấp, mỗi cộng đồng có thể là một tập hợp các cụm nhỏ ở các cấp độ khác nhau [11], [17]. Trong các trường hợp như vậy, các kỹ thuật phân cụm phân cấp được sử dụng để xác định cộng đồng nhiều cấp của đồ thị. Kỹ thuật phân cụm phân cấp dựa trên đo độ tương tự của đỉnh. Chúng không cần xác định trước kích thước và số lượng các cộng đồng. Nhưng chất lượng phát hiện cộng đồng không cao do việc lựa chọn độ đo tương tự của đỉnh. Thuật toán sắp xếp dữ liệu đã cho thành cấu trúc có dạng hình cây, cây

này được xây dựng theo kỹ thuật đệ quy, cây phân cụm xây dựng theo hai phương pháp Bottom-up và Top - down.

Thuật toán phân cụm phân cấp điển hình sử dụng chiến lược phân cụm Top - down là thuật toán BIRCH (Balanced iterative reducing and clustering using hierarchies) [31].

Đầu vào: Cơ sở dữ liệu gồm n đối tượng, ngưỡng T, k Đầu ra: k cụm dữ liệu

Bước 1. Thuật toán duyệt tất cả các đối tượng trong cơ sở dữ liệu và khởi tạo

một cấu trúc cây. Một đối tượng được chèn vào đỉnh lá gần nhất tạo thành cụm con. Nếu đường kính của cụm con này lớn hơn ngưỡng T thì đỉnh lá được tách. Khi một đối tượng thích hợp được chèn vào đỉnh lá, tất cả các đỉnh trỏ tới gốc của cây được cập nhật với các thông tin cần thiết.

Bước 2. Nếu cây hiện thời không có đủ bộ nhớ thì tiến hành xây dựng một cây

nhỏ hơn bằng cách điều khiển bởi tham số T, khi tăng tham số T thì đồng thời sẽ làm nhập một số cụm con thành cụm lớn, làm cho cây nhỏ hơn.

Bước 3. Thực hiện phân cụm, các đỉnh lá của cây lưu giữ các đại lượng thống

kê của các cụm con. Thuật toán sử dụng các đại lượng thống kê này để áp dụng một số kỹ thuật phân cụm như k-means.

Bước 4. Phân phối lại các đối tượng dữ liệu bằng cách dùng các đối tượng trọng

tâm cho các cụm đã được khám phá từ bước 3.

Thuật toán BIRCH gặp một số nhược điểm như: chất lượng của các cụm không được tốt, tham số T có ảnh hưởng rất lớn tới chất lượng phân cụm.

Hạn chế đối với các thuật toán phân cụm đồ thị là các thuật toán phân cụm thường phụ thuộc vào khoảng cách cơ bản giữa các điểm để lựa chọn các điểm dữ liệu nào có quan hệ là gần nhau với mỗi điểm khác và các điểm dữ liệu

nào không có quan hệ hoặc có quan hệ là xa nhau với các điểm khác. Các thuật toán phân cụm đồ thị có độ phức tạp rất lớn khi thực hiện việc xác định nghiệm tối ưu toàn cục cho bài toán phân cụm dữ liệu.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu độ đo trung gian và thuật toán phát hiện cộng đồng trên mạng xã hội (Trang 35 - 37)