Phân cụm dữ liệu là một lĩnh vực quan trọng trong khai phá dữ liệu. Với sự ra đời của nhiều thuật toán phân cụm và đƣợc sử dụng trong nhiều ứng dụng : Xử lý hình ảnh, sinh học dùng máy điện toán, truyền thông di động, kinh tế. Vấn đề chính với các thuật toán phân cụm dữ liệu mà nó không thể đƣợc chuẩn hóa. Thuật toán phát triển có thể cho kết quả tốt nhất với một loại tập hợp dữ liệu, nhƣng có thể thất bại hoặc cho kết quả kém với các dữ liệu của các loại khác. Mặc dù đã có nhiều nỗ lực để tiêu chuẩn hóa các thuật toán có thể thực hiện tốt trong tất cả các trƣờng hợp tình huống tuy nhiên vẫn chƣa đạt đƣợc kết quả nhƣ mong muốn. Nhiều thuật toán phân nhóm đã đƣợc đề xuất. Mỗi thuật toán có giá trị riêng và điểm yếu riêng và không thể làm việc cho tất cả các tình huống thực tế. Phân cụm là quá trình phân vùng dữ liệu đƣợc thiết lập thành các nhóm dựa trên những đặc điểm tƣơng tự nhau. Đây là vấn đề quan trọng trong học không giám sát. Nó thực hiện công việc với cấu trúc tìm kiếm trong một bộ dữ liệu không đƣợc dán nhãn. Để thực hiện tốt các thuật toán phân cụm thì cần phải có những điều kiện[3]:
- Khả năng mở rộng - dữ liệu phải đƣợc mở rộng nếu không sẽ đƣa ra kết quả sai
- Thuật toán phân cụm phải có khả năng giải quyết với các loại thuộc tính khác nhau.
- Thuật toán phân cụm phải tìm ra các cụm dữ liệu với những hình dạng khác nhau.
- Thuật toán phân cụm không bị ảnh hƣởng bởi nhiễu và giá trị ngoại lệ. - Kết quả thu đƣợc có thể giải thích đƣợc và có thể sử dụng để hiểu biết tối đa các thông số đầu vào.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn