Bất cứ thuật toán phân cụm nào cũng thừa nhận một cấu trúc phân cụm nào đó. Đôi khi cấu trúc phân cụm không thực sự rõ ràng tùy theo nhu cầu của bản thân thuật toán phân cụm. Ví dụ, thuật toán k-means sử dụng các phân cụm hình cầu (hoặc các phân cụm lồi). Đó là vì theo cách k-means tìm kiếm phân cụm trung tâm và cập nhật các đối tượng thành viên. Nếu như không cẩn thận, chúng ta có thể kết thúc việc phân cụm với các phân cụm kéo dài (elongated cluster), trong đó kết quả là có ít phân cụm lớn và có nhiều phân cụm rất nhỏ. Wong và Fu [16] đã đưa ra một giải pháp để giữ kích cỡ phân cụm trong một khoảng nào
đó, nhưng việc giữ kích cỡ phân cụm trong một khoảng nào đó không phải bao giờ cũng đáng thực hiện. Một mô hình động để tìm kiếm các phân cụm không thích hợp với cấu trúc của chúng đó là CHAMELEON, được đưa ra bơi Karypis [13].
Tùy theo vấn đề, chúng ta có thể có các phân cụm tách rời (disjoint)
hoặc các phân cụm chồng chéo (overlapping). Trong ngữ cảnh phân cụm tài liệu thường mong muốn có các phân cụm chồng chéo bởi vì tài liệu có xu hướng có nhiều hơn một chủđề (ví dụ một tài liệu có thể chứa thông tin vềđua ô tô và các công ty ô tô). Một ví dụ khác về việc tạo ra các phân cụm chồng chéo là hệ thống cây hậu tố (STC) được đưa ra bởi Zamir và Etzionin [5]. Một cách khác để tạo ra các phân cụm chồng chéo đó là phân cụm mờ trong đó các đối tượng có thể
Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.
thuộc vào các phân cụm khác nhau dựa vào các cấp độ khác nhau của tư cách thành viên [8].