2.3. Các đặc tính của các thuật toán phân cụm web
2.3.3. Mơ hình phân cụm
Bất cứ thuật toán phân cụm nào cũng thừa nhận một cấu trúc phân cụm nào đó. Đơi khi cấu trúc phân cụm không thực sự rõ ràng tùy theo nhu cầu của bản thân thuật tốn phân cụm. Ví dụ, thuật tốn k-means sử dụng các phân cụm hình cầu (hoặc các phân cụm lồi). Đó là vì theo cách k-means tìm kiếm phân cụm trung tâm và cập nhật các đối tượng thành viên. Nếu như không cẩn thận, chúng ta có thể kết thúc việc phân cụm với các phân cụm kéo dài (elongated cluster), trong đó kết quả là có ít phân cụm lớn và có nhiều phân cụm rất nhỏ. Wong và
Fu [16] đã đưa ra một giải pháp để giữ kích cỡ phân cụm trong một khoảng nào
đó, nhưng việc giữ kích cỡ phân cụm trong một khoảng nào đó khơng phải bao
giờ cũng đáng thực hiện. Một mơ hình động để tìm kiếm các phân cụm khơng
thích hợp với cấu trúc của chúng đó là CHAMELEON, được đưa ra bơi Karypis [13].
Tùy theo vấn đề, chúng ta có thể có các phân cụm tách rời (disjoint)
hoặc các phân cụm chồng chéo (overlapping). Trong ngữ cảnh phân cụm tài liệu thường mong muốn có các phân cụm chồng chéo bởi vì tài liệu có xu hướng có nhiều hơn một chủ đề (ví dụ một tài liệu có thể chứa thơng tin về đua ơ tơ và các cơng ty ơ tơ). Một ví dụ khác về việc tạo ra các phân cụm chồng chéo là hệ thống cây hậu tố (STC) được đưa ra bởi Zamir và Etzionin [5]. Một cách khác để tạo ra các phân cụm chồng chéo đó là phân cụm mờ trong đó các đối tượng có thể
Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.
thuộc vào các phân cụm khác nhau dựa vào các cấp độ khác nhau của tư cách
thành viên [8].