Đầu vào: Số cụm c và tham số mũ m cho hàm tiêu chuẩn J
Kết quả trả về: c cụm dữ liệu sao cho hàm tiêu chuẩn trong (2) đạt giá trị tối thiểu. B1: Nhập giá trị cho hai tham số c (1<c<N), m (1,∞) và khởi tạo ma trận mẫu V(0)
Rpc, j=0.
B2: Lặp lại
B2.1: j = j + 1;
B2.2: Tính ma trận phân hoạch mờ Uj theo công thức
B2.3: Cập nhật các trọng tâm V(j) = [v1(j), v2(j), …, vc(j)] dựa vào ma trận Uj và công thức
B3: Vòng lặp kết thúc khi (|| U(j+1) – U(j)||F ≤); B4: Xuất các cụm kết quả.
Việc chọn các tham số cụm rất ảnh hưởng đến kế quả phân cụm, tham số này thường được chọn theo phép ngẫu nhiên hoặc theo kinh nghiệm.
Chưa có quy tắc nào nhằm lựa chọn tham số m bảo đảm việc phân cụm hiệu quả, thông thường người ta chọn m = 2.
4. ĐÁNH GIÁ
Ưu điểm
Là một sử mở rộng của phân cụm dữ liệu bằng cách thêm vào yếu tố quan hệ giữa các phần tử và các cụm dữ liệu thông qua các trọng số trong ma trận U. Bằng cách này, chúng ta có thể khám phá ra các cụm dữ liệu phúc tạp theo cách mềm dẻo từ một tập dữ liệu đã cho, khám pha ra các dữ liệu chồng lên nhau.
Thuật toán Fuzzy C-means (FCM) đã được áp dụng thành công trong giải quyết một số lớn các bài toán phân cụm dữ liệu như trong nhận dạng mẫu, xử lý ảnh, y học, …
Nhược điểm
Nhạy cảm với các nhiễu và phần tử ngoại lai j trong dữ liệu, nghĩa là các trung tâm cụm có thể nằm xa xo với trung tâm thực của cụm. Do đó các cụm dữ liệu được khám phá có thể rất lệnh so với các cụm trong thực tế. Việc khử nhiễu và phần tử ngoại lại là một vấn đề cần phải được giải quyết.