Bài toỏn phõn cụm dữ liệu và phõn cụm mờ

Trong khoảng 30 năm trở lại đõy, phõn cụm dữ liệu cú rất nhiều ứng dụng trong nhiều lĩnh vực như y tế (phõn loại bệnh), hoỏ học (phõn nhúm cỏc hợp chất), xó hội học (phõn lớp thống kờ),… Mục đớch chớnh của cụng tỏc phõn cụm dữ liệu là nhận

dạng cấu trỳc hay cỏc cụm cú trong dữ liệu, nghĩa là tỡm cỏch chia dữ liệu thành cỏc nhúm trong đú dữ liệu trong một nhúm là gần gũi với nhau theo một nghĩa nào đú.

Cỏc thuật toỏn phõn cụm dữ liệu thực chất là một thao tỏc gỏn nhón cỏc vộc tơ. Nghĩa là, cho trước n đối tượng cần phõn vào c cụm. Bài toỏn phõn cụm là tỡm cỏch gỏn nhón cho n vộc tơ Uk = (u1k,…,uck)t, k = n1 , với ý nghĩa uik là mức độ ,

thuộc của đối tượng thứ i vào cụm thứ j. Nếu uik ∈ {0,1} và ∑

= c 1 i ik u = 1 với mọi i, k thỡ ta cú bài toỏn phõn cụm rừ. Nếu uik ∈ [0,1] và với mọi k ∃i để uik > 0, ta cú bài toỏn phõn cụm mờ. Bài toỏn tỡm hàm thuộc cho c từ mụ tả thuộc tớnh trở thành bài toỏn phõn cụm mờ miền giỏ trị của một thuộc tớnh thành c cụm.

Cỏc thuật toỏn phõn cụm dữ liệu cho đến này cú thể được chia thành hai loại: cỏc phương phỏp cấu trỳc (hierarchical methods) và cỏc phương phỏp phõn hoạch (partitioning methods). Cỏc phương phỏp cấu trỳc hoặc sử dụng phương phỏp tớch tụ hoặc là phương phỏp phõn chia. Cho trước n đối tượng cần phõn cụm, phương phỏp tớch tụ bắt đầu với n cụm (mỗi cụm một đối tượng) sau đú cỏc cụm được chọn và được nối lại với nhau. Trong khi đú, phương phỏp phõn chia bắt đầu bằng cỏch đặt tất cả cỏc đối tượng trong một cụm sau đú tiến hành chia nhỏ dần cỏc cụm. Cỏc phương phỏp cấu trỳc tỏ ra rất thành cụng trong cỏc ứng dụng sinh học (tạo ra cỏc phõn loại động hay thực vật), tuy nhiờn chỳng lại tỏ ra yếu kộm do khụng bao giờ cú thể sửa đổi được những thao tỏc đó được tiến hành trước đú. Một khi phương phỏp tớch tụ tiến hành kết hợp cỏc cụm thỡ cỏc đối tượng trong đú sẽ luụn luụn ở trong cựng một cụm, một khi phương phỏp chia nhỏ chia tỏc hai đối tượng, chỳng sẽ khụng bao giờ được nhúm trở lại trong cựng một cụm.

Phương phỏp phõn hoạch dựa trờn việc cho trước số lượng c phõn hoạch cần tỡm, cố gắng tỡm c phõn hoạch tốt nhất cho n đối tượng. Phương phỏp phõn cụm mờ dựa trờn phõn hoạch tỡm c biểu diễn cho c phõn hoạch, sau đú độ thuộc của mỗi đối tượng vào mỗi cụm được xỏc định theo mức độ gần gũi của đối tượng với biểu diễn của cụm này. Cho đến nay, cú nhiều phương phỏp phõn hoạch đó được phỏt

triển, chia thành hai hướng chớnh là c-means và c-medoids. Phương phỏp c-means tỡm c trung tõm (mean) cho c cụm, sau đú mỗi một đối tượng được chia vào cụm cú trung tõm gần nú nhất. Phương phỏp c-medoids tỡm đối tượng biểu diễn cho mỗi cụm, gọi là cỏc medoid, nghĩa là đối tượng gần với trung tõm của cụm nhất. Ở đõy chỳng tụi xem xột việc sử dụng phương phỏp c-means làm nền tảng cho việc phõn cụm mờ vỡ một số ưu điểm sau: phương phỏp này tỏ ra hiệu quả đối với cỏc dữ liệu núi chung cú phõn bố tương đối đều đặn, thứ hai, phương phỏp này khụng bị phụ thuộc vào thứ tự xem xột của cỏc đối tượng, và đặc biệt, với cài đặt cải tiến, phương phỏp này tỏ ra thớch hợp với cơ sở dữ liệu lớn và được lưu trữ tuần tự như trờn đó núi. Phần sau sẽ mụ tả thuật toỏn FCM (Fuzzy c-means), thuật toỏn này đó được mụ tả chi tiết trong [4].