2.1. Phân cụm mờ và thuật toán phân cụm mờ
2.1.1. Tổng quan về phân cụm mờ
Trong cuộc sống, chúng ta đã gặp rất nhiều ứng dụng của bài toán phân cụm. Chẳng hạn nhƣ trong ngành bƣu điện, hàng ngày bƣu điện phải phân loại thƣ theo mã nƣớc, trong mã nƣớc lại phân loại theo mã tỉnh/ thành phố, sau đó khi thƣ về đến bƣu điện tỉnh thì bƣu điện tỉnh lại phân loại thƣ theo quận/ huyện để gửi đi, đến bƣu điện quận/ huyện lại phân loại thƣ theo xã/ phƣờng để gửi thƣ. Đó chính là một ứng dụng của bài tốn phân cụm rõ.
Ta có thể phát biểu bài toán phân cụm rõ nhƣ sau: Cho tập dữ liệu mẫu X, ta kiểm tra các điểm dữ liệu xem nó giống với đặc điểm của nhóm nào nhất thì ta gán điểm dữ liệu đó vào trong nhóm đó.
Nhƣng trong thực tế khơng phải lúc nào bài tốn phân cụm rõ cũng áp dụng đƣợc. Chẳng hạn, ta có phép phân loại sau: Những ngƣời đi xe máy xịn thì thuộc nhóm ngƣời giàu, những ngƣời đi xe máy thƣờng thuộc nhóm ngƣời bình dân. Vậy ngƣời nghèo mà đi xe máy xịn thì chúng ta xếp ngƣời đó vào nhóm nào? Vì vậy, chúng ta cần đƣa vào khái niệm bài toán phân cụm mờ.
Trong các phƣơng pháp phân cụm đã giới thiệu trong chƣơng trƣớc, mỗi phƣơng pháp phân cụm phân hạch một tập dữ liệu ban đầu thành các cụm dữ liệu có tính tự nhiên và mỗi đối tƣợng dữ liệu chỉ thuộc về một cụm dữ liệu, phƣơng pháp này chỉ phù hợp với việc khám phá ra các cụm có mật độ cao và rời nhau, với đƣờng biên giữa các cụm đƣợc xác định tốt. Tuy nhiên, trong thực tế, đƣờng biên giữa các cụm có thể mờ, các cụm có thể chồng lên nhau, nghĩa là một số các đối tƣợng dữ liệu thuộc về nhiều các cụm khác nhau, do đó mơ hình này khơng mơ tả đƣợc dữ liệu thực. Vì vậy ngƣời ta đã áp dụng lý thuyết về tập mờ trong phân cụm
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
dữ liệu để giải quyết cho trƣờng hợp này. Cách thức kết hợp này đƣợc gọi là phân cụm mờ.
Phân cụm mờ là phƣơng pháp phân cụm dữ liệu mà cho phép mỗi điểm dữ liệu thuộc về hai hoặc nhiều cụm thông qua bậc thành viên. Ruspini (1969) giới thiệu khái niệm phân hoạch mờ để mô tả cấu trúc của tập dữ liệu và đề xuất một thuật tốn để tính tốn tối ƣu phân hạch mờ. Dunn (1973) mở rộng phƣơng pháp phân cụm và đã phát triển thuật toán phân cụm mờ. Ý tƣởng của thuật toán là xây dựng một phƣơng pháp phân cụm mờ dựa trên tối thiểu hóa hàm mục tiêu. Bezdek (1981) cải tiến và tổng quát hóa hàm mục tiêu mờ bằng cách đƣa ra trọng số mũ để xây dựng thuật toán phân cụm mờ và đƣợc chứng minh độ hội tụ của các thuật toán là cực tiểu cục bộ.
Các thuật toán trong phân cụm mờ:
- Thuật toán C-means mờ là thuật toán phân cụm mờ tƣơng ứng của thuật toán K-means, hai thuật toán này cùng sử dụng chung một chiến lƣợc phân cụm dữ liệu. Thuật toán C-means mờ hay còn gọi tắt là thuật toán FCM (Fuzzy C-means) đã đƣợc áp dụng thành cơng trong giải quyết một số bài tốn lớn về phân cụm dữ liệu nhƣ nhận dạng mẫu (nhận dạng vân tay, ảnh), xử lý ảnh (phân tách các cụm ảnh màu, cụm màu), y học (phân loại bệnh nhân, phân loại triệu chứng),… Tuy nhiên, nhƣợc điểm lớn nhất của thuật toán FCM là tập dữ liệu lớn, tập dữ liệu nhiều chiều, nhạy cảm với các nhiễu và phần tử ngoại lai trong dữ liệu, nghĩa là các trung tâm cụm có thể nằm xa so với trung tâm thực của cụm.
- Đã có nhiều các phƣơng pháp đề xuất để cải tiến cho nhƣợc điểm trên của thuật toán FCM bao gồm: Phân cụm dựa trên xác suất (keller, 1993), phân cụm nhiễu mờ (Dave, 1991), phân cụm dựa trên toán tử LP Norm (Kerten, 1999) và thuật toán -Insensitive Fuzzy C-means (FCM) và thuật toán FCM cải tiến.
- Với thuật toán FCM, số lƣợng cụm phải đƣợc khởi tạo trƣớc. Một hƣớng tiếp cận khác có thể tự xác định đƣợc số lƣợng cụm và các tâm cụm là giải thuật Mountain. Cải tiến của giải thuật Mountain đƣợc đƣa ra là thuật toán phân cụm trừ và phân cụm trừ mờ.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn