Một số tiêu chuẩn thƣờng đề cập đến khi đánh giá hiê ̣u quả phân cụm gồm [1]: - Tính tuyến tính: Khả năng thuật toán có thể thực hiện tốt với khối lƣợng lớn dữ liệu.
- Khả năng phân tích đƣợc nhiều loại dữ liệu khác nhau: có thể phân tích đƣợc một loại cũng nhƣ nhiều loại thuô ̣c tính khác nhau.
- Khả năng phát hiện đƣợc các lớp có hình dạng bất kỳ: hình dạng thƣờng tƣơng ứng với các loại lớp mà một thuât toán có thể tìm đƣợc. Đây là điều quan trọng khi quyết định chọn một phƣơng pháp để sử dụng vì thông thƣờng chúng ta muốn thuật toán xử lý đƣợc càng tổng quát càng tốt. Các thuật toán thƣờng có định hƣớng trƣớc là sẽ làm việc tốt đố i với loại lớp có hình dáng đó. Đặc biệt trong trƣờng hợp các thuộc tính rời rạc thì chúng thƣờng không biết đƣợc cấu trúc của các lớp đối tƣợng thuộc loại này.
- Giảm thiểu yêu cầu về tham số đầu vào: Nhiều thuật toán yêu cầu một tham số do ngƣời dùng xác định. Việc tham số sẽ tạo khó khăn cho ngƣời sử dụng vì:
+ Có thể ngƣời dùng không đủ kiến thức để tìm ra tham số chính xác.
+ Có thể không tồn tại tham số cho toàn bộ CSDL mà đối với mỗi phần của CSDL chúng ta cần có một tham số.
- Khả năng làm việc đƣợc với dữ liệu nhiễu: Vấn đề dữ liệu “nhiễu” là khá phổ biến và thuật toán phân cụm phải có khả năng làm việc với loại dữ liệu này, phải xử lý đƣợc “độ lệch” để cải tiến chất lƣợng lớp.
- Không phụ thuộc vào thứ tự của dữ liệu vào: Với cùng một loại dữ liệu, chạy với một thuật toán nhƣng với thứ tự khác nhau có thể đƣa ra những kết quả khác nhau. Thứ tự dữ liệu vào ảnh hƣởng rất lớn đến các loại thuật toán mà chỉ quét qua một lần tập dữ liệu.
- Xử lý đƣợc với dữ liệu đa chiều: Số chiều lớn tức là số thuộc tính tập dữ liệu khá lớn gây ra nhiều khó khăn, có nhiều thuật toán không thể chạy với cả dữ liệu có
- Tính có thể hiểu đƣợc và khả năng sử dụng: đối với một số thuật toán khi thực hiện và so sánh với kết quả thực tế thì lại không phù hợp. Do đó kết quả ứng dụng của kỹ thuật là vấn đề rất quan trọng của thuật toán.