3.2. Các thuật toán trong phân cụm mờ ... 3.2.1. Thuật toán FCM(Fuzzy C-means) ... 3.2.1.1. Hàm mục tiêu ... 3.2.1.2. Thuật toán FCM ... 3.2.2. Thuật toán FCM(ε- Insensitive Fuzzy C-means) ... 3.2.2.1. Hàm mục tiêu ... 3.2.2.2. Thuật toán FCM ... 3.2.3. Thuật toán FCM-Cải tiến ...
3.2.3.1. Thuật toán 1: Thuật toán lựa chọn các điểm dữ liệu làm ứng viên cho việc chọn các trung tâm của các cụm ... việc chọn các trung tâm của các cụm ... 3.2.3.2. Thuật toán 2: Thuật toán lƣợc bớt các ứng viên ... 3.2.3.3. Thuật toán 3: Thuật toán chọn các ứng viên làm cực tiểu hàm mục tiêu .. 3.2.3.4. Thuật toán 4: Gán các trung tâm có liên kết “gần gũi” vào một cụm ... 3.2.3.5. Tổng kết thuật toán FCM-Cải tiến ...
37 38 39 39 42 46 46 48 49 49 51 51 52 56 3.1. Tổng quan về phân cụm mờ
Trong cuộc sống, chúng ta đã gặp rất nhiều ứng dụng của bài toán phân cụm. Chẳng hạn nhƣ trong ngành bƣu điện, hàng ngày bƣu điện phải phân loại thƣ theo mã nƣớc, trong mã nƣớc lại phân loại theo mã tỉnh/thành phố, sau đó khi thƣ về đến bƣu điện tỉnh thì bƣu điện tỉnh lại phải phân loại thƣ theo quận/huyện để gửi đi, đến bƣu điện quận/huyện lại phân loại thƣ theo xã/phƣờng để gửi thƣ. Đó chính là một ứng dụng của bài toán phân cụm rõ.
Vậy bài toán phân cụm rõ là gì?
Ta có thể định nghĩa bài toán phân cụm rõ nhƣ sau: Cho tập dữ liệu mẫu X, ta kiểm tra các điểm dữ liệu xem nó giống với đặc điểm của nhóm nào nhất thì ta gán điểm dữ liệu đó vào trong nhóm đó. Nhƣng trong thực tế không phải lúc nào bài toán phân cụm rõ cũng áp dụng đƣợc. Chẳng hạn, ta có phép phân loại sau: Những ngƣời đi xe máy xịn thì thuộc nhóm ngƣời
nghèo mà đi xe máy xịn thì chúng ta xếp ngƣời đó vào nhóm nào? Vì vậy, chúng ta cần đƣa vào khái niệm bài toán phân cụm mờ.
Trong các phƣơng pháp phân cụm đã giới thiệu trong chƣơng trƣớc, mỗi phƣơng pháp phân cụm phân hoạch một tập dữ liệu ban đầu thành các cụm dữ liệu có tính tự nhiên và mỗi đối tƣợng dữ liệu chỉ thuộc về một cụm dữ liệu, phƣơng pháp này chỉ phù hợp với việc khám phá ra các cụm có mật độ cao và rời nhau, với đƣờng biên giữa các cụm đƣợc xác định tốt. Tuy nhiên, trong thực tế, đƣờng biên giữa các cụm có thể mờ, các cụm có thể chồng lên nhau, nghĩa là một số các đối tƣợng dữ liệu thuộc về nhiều các cụm khác nhau, do đó mô hình này không mô tả đƣợc dữ liệu thực. Vì vậy ngƣời ta đã áp dụng lý thuyết về tập mờ trong PCDL để giải quyết cho trƣờng hợp này. Cách thức kết hợp này đƣợc gọi là Phân cụm mờ.
Phân cụm mờ là phƣơng pháp phân cụm dữ liệu mà cho phép mỗi điểm dữ liệu thuộc về hai hoặc nhiều cụm thông qua bậc thành viên. Ruspini (1969) giới thiệu khái niệm phân hoạch mờ để mô tả cấu trúc cụm của tập dữ liệu và đề xuất một thuật toán để tính toán tối ƣu phân hoạch mờ. Dunn (1973) mở rộng phƣơng pháp phân cụm và đã phát triển thuật toán phân cụm mờ. Ý tƣởng của thuật toán là xây đựng một phƣơng pháp phân cụm mờ dựa trên tối thiểu hóa hàm mục tiêu. Bezdek (1981) cải tiến và tổng quát hóa hàm mục tiêu mờ bằng cách đƣa ra trọng số mũ để xây dựng thuật toán phân cụm mờ và đƣợc chứng minh độ hội tụ của các thuật toán là cực tiểu cục bộ.