Phân cụm dữ liệu là một lĩnh vực quan trọng trong khai phá dữ liệu. Với sự ra đời của nhiều thuật toán phân cụm và được sử dụng trong nhiều ứng dụng: Xử lý hình ảnh, sinh học dùng máy điện toán, truyền thông di động, kinh tế. Vấn đề chính với các thuật toán phân cụm dữ liệu mà nó không thể được chuẩn hóa. Thuật toán phát triển có thể cho kết quả tốt nhất với một loại tập hợp dữ liệu, nhưng có thể thất bại hoặc cho kết quả kém với các dữ liệu của các loại khác. Mặc dù đã có nhiều nỗ lực để tiêu chuẩn hóa các thuật toán có thể thực hiện tốt trong tất cả các trường hợp tình huống tuy nhiên vẫn chưa đạt được kết quả như mong muốn. Nhiều thuật toán phân nhóm đã được đề xuất. Mỗi thuật toán có giá trị riêng và điểm yếu riêng và không thể làm việc cho tất cả các tình huống thực tế. Phân cụm là quá trình phân vùng dữ liệu được thiết lập thành các nhóm dựa trên những đặc điểm tương tự nhau. Đây là vấn đề quan trọng trong học không giám sát. Nó thực hiện công việc với cấu trúc tìm kiếm trong một bộ dữ liệu không được dán nhãn. Để thực hiện tốt các thuật toán phân cụm thì cần phải có những điều kiện [3]:
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www. lrc.tnu.edu.vn
-Khả năng mở rộng - dữ liệu phải được mở rộng nếu không sẽ đưa ra kết quả sai
-Thuật toán phân cụm phải có khả năng giải quyết với các loại thuộc tính khác nhau.
-Thuật toán phân cụm phải tìm ra các cụm dữ liệu với những hình dạng khác nhau.
-Thuật toán phân cụm không bị ảnh hưởng bởi nhiễu và giá trị ngoại lệ.
-Kết quả thu được có thể giải thích được và có thể sử dụng để hiểu biết tối đa các thông số đầu vào.
-Thuật toán phân cụm phải có khả năng giải quyết tập dữ liệu đa chiều.