Yêu cầu đối với các thuật toán phân cụm dữ liệu- 123docz.net

Đánh giá hiệu quả của thuật toán phân cụm vẫn chưa có một tiêu chuẩn rõ ràng, bởi vì một thuật toán có thể thực hiện tốt trên một tập dữ liệu này, nhưng lại không tốt trên tập dữ liệu khác. Sự khác nhau này xuất phát từ mục đích của việc chia lớp cũng như loại dữ liệu và kích thước của dữ liệu. Một số tiêu chuẩn thường được đề cập đến khi đánh giá hiệu quả thuật toán phân cụm là:

Tính tuyến tính: các thuật toán phải hiệu quả và có thời gian chạy tỷ lệ tuyến

tính với số lượng các điểm dữ liệu.

Khả năng phát hiện được các lớp có hình dạng bất kỳ: các thuật toán phải có

khả năng nhận dạng được các hình bất kì (không theo quy luật), bao gồm những hình với những phần có kẽ hở hoặc lõm hoặc những hình lồng nhau.

Khả năng làm việc được với dữ liệu nhiễu: cơ chế clustering phải thích ứng được với số lượng lớn các điểm nhiễu.

Không phụ thuộc vào thứ tự của dữ liệu vào: các thuật toán phải không phụ thuộc với thứ tự của dữ liệu đầu vào.

Giảm thiểu yêu cầu về tham số đầu vào: dữ liệu không cần có một kiến thức

tiên nghiệm nào hoặc không cần số các cluster được tạo ra phải được qui định, cho nên không miền kiến thức đầu vào nào cần phải được người dùng qui định.

Xử lý được với dữ liệu đa chiều: các thuật toán phải xử lý được dữ liệu với số

lượng lớn các thuộc tính, tức là số chiều không gian tăng lên.

Tính có thể hiểu được và khả năng sử dụng: đối với một số thuật toán, khi

thực hiện và so sánh với kết quả thực tế thì lại không hợp lý. Do đó, kết quả ứng dụng của kỹ thuật là vấn đề rất quan trọng của thuật toán.

CHƢƠNG 3.

CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU ĐIỂN HÌNH