Phân cụm dữ liệu hiện nay đã đƣợc áp dụng rất nhiều trong cuộc sống của chúng ta. Chẳng hạn, trong ngành bƣu điện thƣờng hay phân loại thƣ theo mã nƣớc, trong nƣớc lại phân theo mã tỉnh/thành phố, sau đó lại đƣợc phân theo quận /huyện tiếp theo là phân theo xã/phƣờng để gửi thƣ. Đó chính là một ứng dụng của bài toán phân cụm rõ (phân cụm cứng). Vậy phân cụm rõ là gì?
Phân cụm rõ là quá trình phân cụm mà trong đó mỗi điểm dữ liệu thuộc chính xác vào một cụm (hay nói cách khác: Một đối tƣợng khi đã thuộc cụm này thì không thuộc vào cụm khác)
Nhƣng trong thực tế không phải lúc nào bài toán phân cụm rõ cũng áp dụng đƣợc. Chẳng hạn bài toán: Cho chiều cao của ngƣời có 3 nhóm nhƣ sau: Cao (từ 1m 6 trở lên), TB (từ 1 m 5 đến 1m59), Thấp (từ 1m49 trở xuống). Hỏi : Một ngƣời cao vừa vừa ( theo ngôn ngữ tự nhiên ) thì khi đó họ thuộc nhóm ngƣời nào?
Vì vậy trong trƣờng hợp này chúng ta nên áp dụng lý thuyết về tập Mờ trong phân cụm dữ liệu để giải quyết cho trƣờng hợp này, cách thức này đƣợc gọi là Phân cụm Mờ.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Phân cụm Mờ là phƣơng pháp phân cụm dữ liệu mà cho phép mỗi điểm dữ liệu có thể thuộc về hai hay nhiều cụm thông qua bậc thành viên.
Năm 1969, Ruspini đã giới thiệu khái niệm phân hoạch mờ để mô tả cấu trúc của cụm dữ liệu và đề xuất một thuật toán để tính toán tối ƣu phân hoạch mờ. Và năm 1973, Dunn đã mở rộng phƣơng pháp phân cụm và phát triển thuật toán phân cụm Mờ.
Ý tƣởng của thuật toán là xây dựng một phƣơng pháp phân cụm mờ dựa trên tối thiểu hóa hàm mục tiêu. Năm 1981, Bezdek đã cải tiến và tổng quát hóa hàm mục tiêu mờ bằng cách đƣa ra trọng số mũ để xây dựng thuật toán phân cụm mờ và chứng minh độ hội tụ của các thuật toán là cực tiểu cục bộ, tối thiểu hóa hàm mục tiêu.