Xét một thuật toán phân cụm (ví dụ thuật toán FCM), nếu tham số số cụm lớn hơn số cụm thực của tập dữ liệu sẽ khiến một hay nhiều cụm đang nén tốt (good compact) có thể bị phân tách và ngược lại nếu tham số số cụm mà nhỏ hơn số cụm thực thì một số cụm tách biệt (seperate) nào đó có thể được sáp nhập.[30]
Bao nhiêu cụm?
2 cụm? 4 cụm?
Ví dụ: (xem hình 3.2)
Hình 3.2a mô tả một tập hợp dữ liệu. Từ góc độ trực quan, chúng ta có thể khám phá rằng tập dữ liệu đã cho gồm ba cụm. Tuy nhiên, nếu chúng ta phân cụm với tham số số cụm là 4 thì kết quả của quá trình phân cụm thu được sẽ như hình 3.2b. Rõ ràng, phân hoạch thu được trong hình 3.2b không phải là một kết quả tối ưu (ở đây, chúng ta xác định kết quả phân cụm tối ưu là kết quả phù hợp nhất với các phân vùng vốn có của tập dữ liệu). Phân cụm tối ưu cho bộ dữ liệu của chúng ta phải là 3 cụm.
Hình 3.2: (a) Tập dữ liệu gồm 3 cụm, (b) kết quả phân cụm bởi thuật toán FCM với số cụm là 4.[30]
Khi áp dụng thuật toán phân cụm cho từng bài toán cụ thể, việc ước lượng số cụm ảnh hưởng lớn đến chất lượng phân cụm và đến nay vẫn là vấn đề đang được quan tâm nghiên cứu.
3.2. Quá trình ƣớc lƣợng số cụm tối ƣu
Khi dữ liệu trong không gian đặc trưng hai chiều, ta có thể trực quan hóa để phân tích ước lượng cụm và đánh giá kết quả. Nếu dữ liệu trong không gian đa chiều (lớn hơn ba chiều) thì phức tạp hơn, việc chiếu dữ liệu lên các không gian con hai chiều để phân tích trực quan nhiều khi cho nhận xét sai về cấu trúc của tập dữ liệu [2]. Hiện nay, người ta thường dùng các hàm chỉ số để đánh giá chất lượng phân hoạch được tạo ra bởi các thuật toán phân cụm, nhờ đó xác định số cụm tối ưu cho tập dữ liệu được xét.
Một phân cụm tốt sẽ có sự sai khác (variance) trong mỗi cụm nhỏ (độ nén “compactness” lớn) và phân tách (separation) rõ giữa các cụm (độ chồng nhau “overlap” nhỏ). Do vậy, các tiêu chí được sử dụng để đánh giá chất lượng phân cụm gồm: [17,30]
- Độ nén (compactness): đo mức độ tương đồng của các đối tượng dữ liệu trong một cụm. Bằng trực quan ta thấy, cụm càng compact thì các điểm dữ liệu phân phối càng gần tâm cụm;
- Độ phân tách (separation): đo độ tách biệt giữa các cụm. Thường được đo
- Độ chồng nhau (overlap): chỉ ra mức độ chồng nhau giữa các cụm. Độ chồng nhau càng nhỏ thì các cụm càng phân tách rõ và ngược lại.
Việc ước lượng số cụm tối ưu thường được thực hiện nhờ xác định cực trị một hàm chỉ số đánh giá chất lượng phân cụm (cluster validity index) (xem [16,17,20,30]) chọn trước. Quá trình đi tìm số lượng cụm tối ưu thực hiện theo lược đồ sau (được minh họa trong hình 3.3) [9,22]:
1)Thực hiện lặp thuật toán phân cụm với số cụm c lần lượt nhận giá trị trong khoảng [𝑐𝑚𝑖𝑛, 𝑐𝑚𝑎𝑥] cho trước;
2)Tính toán giá trị chỉ số đánh giá phân cụm (validity index) cho mỗi kết quả phân cụm ở bước 1;
3)Chọn số cụm tối ưu 𝑐∗ ứng với kết quả phân cụm tốt nhất theo tiêu chí của chỉ số đã chọn;
4)So sánh 𝑐∗ với thông tin ngoài nếu có.