Thuật toán phân cụm C-means mờ

Một phần của tài liệu Tiếp cận mờ trong phân cụm dữ liệu (Trang 29)

Trong các phương pháp phân cụm mờ, C-means mờ (Fuzzy C-means viết tắt là FCM) là thuật toán quen biết và ứng dụng rộng rãi nhất [11,16,17]. Thuật toán FCM được đề xuất bởi Dunn (1974) và được phát triển bởi Bezdek (1981). Kỹ thuật này phân hoạch một tập n đối tượng dữ liệu X={𝑥1, 𝑥2, … , 𝑥𝑛}⊂ 𝑅𝑠 thành c cụm mờ nhằm tối thiểu hóa sự sai khác trong mỗi cụm được đo bởi hàm mục tiêu sau:

Hàm mục tiêu

Hàm mục tiêu của thuật toán FCM được Bezdek định nghĩa như sau: [10]

Trong đó:

- {𝑥1, 𝑥2, …, 𝑥𝑛}⊂𝑅𝑠 là n đối tượng dữ liệu trong không gian 𝑅𝑠; - c là số cụm, 2 ≤ c < n;

- m là tham số mờ, m ∈ [1,∞);

- U=[𝑢𝑖𝑗] là ma trận phân hoạch mờ cấp cxn, U ∈ 𝑀𝑓𝑐;

- V là tập trung tâm cụm của c cụm, V={𝑣1, 𝑣2, …, 𝑣𝑐}⊂𝑅𝑠; - 𝑑𝑖𝑗𝐴2 = 𝑥𝑗 − 𝑣𝑖

𝐴 2

là khuôn mẫu để đo khoảng cách giữa đối tượng dữ liệu 𝑥𝑗 tới trung tâm cụm 𝑣𝑖.

Áp dụng phương pháp nhân tử Lagrange (Lagrange multiplier), Bezdek chứng minh được rằng: để các phân hoạch mờ của X được tối ưu thì hàm mục tiêu theo công thức (2.13) phải đạt giá trị tối thiểu với các điều kiện sau đây: [11]

Với m > 1, nếu 𝑥𝑗 ≠ 𝑣𝑖 với mọi ji thì hàm tiêu chuẩn mờ đạt giá trị tối thiểu khi và chỉ khi: 𝑣𝑖 = 𝑢𝑖𝑗 𝑚 𝑥𝑗 𝑛 𝑗 =1 𝑢𝑖𝑗 𝑚 𝑛 𝑗 =1 , (1≤i≤c) (2.14) 𝑢𝑖𝑗 = 1 𝑑 𝑖𝑗𝐴 𝑑 𝑘𝑗𝐴 2/(𝑚 −1) 𝑐 𝑘=1 , (1≤j≤n, 1≤i≤c) (2.15)

Các điều kiện ở hai công thức (2.14), (2.15) là cần thiết để nhằm tối thiểu hóa hàm mục tiêu mờ Jm bằng một chuỗi các phép lặp đi lặp lại cho đến khi sự thay đổi tối đa trong 𝑢𝑖𝑗 đạt đến một giá trị nhỏ hơn ngưỡng kết thúc 𝜀cho trước.

Thuật toán FCM

Thuật toán FCM tối ưu hóa việc phân hoạch lặp đi lặp lại. Nó cải thiện U và V trong mỗi lần lặp và chấm dứt khi nó đạt được điều kiện ổn định.

Input: Số cụm c và tham số mờ m, tiêu chuẩn dừng 𝜀

Output: c cụm dữ liệu sao cho hàm mục tiêu (2.13) đạt giá trị tối thiểu Begin

1. Nhập giá trị cho ba tham số c (2≤c<n), m ∈ (1,∞), 𝜀; t = 0; khởi tạo ma trận phân hoạch 𝑈(0)= [𝑢𝑖𝑗] thỏa mãn (2.11a), (2.11b), (2.11c)

2. Repeat 2.1. t = t+1

2.2. Tính vector trung tâm cụm 𝑣𝑖 𝑡 (i=1, 2, ..., c) theo công thức (2.14) 2.3. Cập nhật ma trận phân hoạch 𝑈(𝑡) theo công thức (2.15)

End.

Với n đối tượng dữ liệu, mỗi đối tượng được mô tả bởi s thuộc tính, c là số cụm và t là số lần lặp, độ phức tạp của thuật toán FCM là O(tns𝑐2) [26].

Các tham số của thuật toán FCM

Trước khi thực hiện thuật toán FCM người dùng phải khởi tạo trước các tham số: số cụm, tham số mờ, tiêu chuẩn dừng, chuẩn khoảng cách.[11,23]

Số cụm c: Thuật toán FCM cần xác định số cụm cố định từ trước. Số cụm là tham số quan trọng nhất theo nghĩa các tham số còn lại ít ảnh hưởng tới kết quả của quá trình phân cụm. Tuy nhiên, trong nhiều trường hợp ta không thể biết trước được số lượng cụm như thế nào là cho chất lượng tốt nhất. Giải pháp để tìm số cụm tối ưu sẽ được trình bày cụ thể ở chương 3 và 4 của luận văn.

Tham số mờ m: tham số mờ ảnh hưởng tới độ mờ của phân hoạch. Khi m → 1 thì phân hoạch trở nên “rõ” hơn. Ngược lại, khi m →∞ thì phân hoạch trở thành hoàn toàn mờ (𝑢𝑖𝑗 = 1/c). Vì vậy, việc tăng giá trị của m làm giảm độ thuộc của đối tượng vào tập mờ. Chưa có quy tắc nào nhằm lựa chọn tham số m đảm bảo việc phân cụm hiệu quả, thông thường người ta chọn m = 2.

Tiêu chuẩn dừng: thuật toán FCM dừng khi 𝑚𝑎𝑥𝑖,𝑗 𝑢𝑖𝑗(𝑡) − 𝑢𝑖𝑗(𝑡−1) ≤ 𝜀, tiêu chuẩn dừng 𝜀 là một hằng số bé cho trước nhận giá trị giữa 0 và 1. Việc chọn 𝜀 phải cân đối giữa thời gian chạy và tính chính xác.

Chuẩn khoảng cách: Một trong các nhân tố ảnh hưởng tới kết quả phân cụm là vấn đề chọn phép đo độ phi tương tự. Thực vậy, tính toán bậc thành viên 𝑢𝑖𝑗 phụ thuộc vào định nghĩa của phép đo khoảng cách 𝑑𝑖𝑗𝐴 trên không gian Rs. Bình phương khoảng cách giữa vectơ mẫu 𝑥𝑗 và trung tâm cụm thứ i được định nghĩa như sau:

𝑑𝑖𝑗𝐴2 = 𝑥𝑗 − 𝑣𝑖 𝐴 2

= 𝑥𝑗 − 𝑣𝑖 𝑇𝐴 𝑥𝑗 − 𝑣𝑖 , 1 ≤ i ≤ c; 1 ≤ j ≤ n (2.16) Trong đó: A là ma trận đối xứng xác định dương.

Hình dáng các cụm phụ thuộc vào việc lựa chọn ma trận A. Trong thực tế, chỉ có một số ít các chuẩn sau thường được dùng [11,23], trong đó chuẩn khoảng cách Euclidean là thông dụng hơn cả.

- Nếu A = I, I là ma trận đơn vị, 𝑑𝑖𝑗𝐴 ~ khoảng cách Euclidean (Euclidean norm). Hình dáng các cụm sẽ có dạng hình cầu.

- Nếu A = 𝑅−1, R là ma trận hiệp phương sai của X, 𝑑𝑖𝑗𝐴 ~ khoảng cách Mahalanobis (Mahalanobis norm).

- Nếu A = D, D là ma trận đường chéo, trong đó các phần tử nằm trên đường chéo là giá trị riêng của ma trận R. Khi đó, 𝑑𝑖𝑗𝐴 ~ khoảng cách Diagonal (Diagonal norm).

Cả hai chuẩn Diagonal và Mahalanobis sẽ tạo ra các cụm kết quả có dạnh hình elip. Tuy nhiên, sự khác biệt cơ bản là khi dùng chuẩn Diagonal các trục của elip song song với các trục tọa độ, còn chuẩn Mahalanobis hướng của các trục là tùy ý (xem hình 2.9).

Hình 2.9: Các chuẩn khoảng cách khác nhau sử dụng trong phân cụm mờ.

Một phần của tài liệu Tiếp cận mờ trong phân cụm dữ liệu (Trang 29)