Thuật toán Gustafson-Kessel

Một phần của tài liệu Tiếp cận mờ trong phân cụm dữ liệu (Trang 32)

Nhược điểm của việc sử dụng duy nhất một ma trận A trong công thức tính chuẩn khoảng cách là tất các các cụm sẽ có các giới hạn cụm với hình dạng và hướng giống nhau. Khi có nhiều cụm khác nhau về hình dạng thì đó sẽ là điều không mong muốn.

Thuật toán Gustafson – Kessel (viết tắt là GK) [12,23] được Gustafson và Kessel (1979) mở rộng từ thuật toán FCM bởi sử dụng một chuẩn khoảng cách thích nghi, nhằm phát hiện ra các cụm có các dạng hình học khác nhau trong một tập dữ liệu.

𝑑𝑖𝑗 𝐴2 𝑖 = 𝑥𝑗 − 𝑣𝑖 𝐴𝑖 2

= 𝑥𝑗 − 𝑣𝑖 𝑇𝐴𝑖 𝑥𝑗 − 𝑣𝑖 , 1 ≤ i ≤ c; 1 ≤ j ≤ n (2.17)

Với mỗi cụm có một ma trận chuẩn cảm sinh (norm-inducing matrix) 𝐴𝑖 riêng. 𝐴𝑖 được sử dụng trong hàm khoảng cách 𝑑𝑖𝑗 𝐴𝑖 để tính toán khoảng cách tiêu chuẩn cho từng cụm theo cấu trúc topo địa phương của dữ liệu.

Thuật toán GK nhằm tối thiểu hóa hàm mục tiêu sau:

𝐽𝑚(𝑈, 𝑉, 𝐴) = 𝑐𝑖=1 𝑛𝑗 =1𝑢𝑖𝑗𝑚𝑑𝑖𝑗 𝐴2 𝑖 (2.18) Ma trận 𝐴𝑖 được sử dụng như là biến tối ưu trong hàm mục tiêu, cho phép mỗi cụm cập nhật chuẩn khoảng cách từ cấu trúc topo địa phương của dữ liệu. Hàm mục tiêu không thể tối thiểu hóa một cách trực tiếp theo 𝐴𝑖, do là tuyến tính theo 𝐴𝑖. Để giải quyết, cần ràng buộc 𝐴𝑖 theo một số cách. Phương pháp thường dùng là ràng buộc định thức của 𝐴𝑖.

𝐷𝑒𝑡 𝐴𝑖 = 𝜌𝑖, 𝜌𝑖 > 0, 1≤i≤c (2.19) Ở đây, 𝜌𝑖 (cluster volumes) là một tham số cố định cho mỗi cụm. Tuy nhiên, việc chọn 𝜌𝑖 phụ thuộc vào kinh nghiệm và yêu cầu những thông tin biết trước về các cụm. Nếu không biết trước thông tin thì 𝜌𝑖 thường chọn bằng 1 cho mỗi cụm.

Dùng phương pháp nhân tử Lagrange, ma trận 𝐴𝑖, trung tâm cụm và hàm liên thuộc được xác định như sau:

𝐴𝑖 = 𝜌𝑖𝑑𝑒𝑡 𝐹𝑖 1 𝑛𝐹𝑖−1 (2.20) Trong đó: 𝐹𝑖 là ma trận hiệp phương sai mờ (fuzzy covariance matrix) của cụm thứ i được cho bởi:

𝐹𝑖 = 𝑢𝑖𝑗 𝑚 𝑥𝑗−𝑣𝑖 𝑇 𝑥𝑗−𝑣𝑖 𝑛 𝑗 =1 𝑢𝑖𝑗 𝑚 𝑛 𝑗 =1 , (1≤i≤c) (2.21)

Các trung tâm cụm và hàm liên thuộc được tính bởi công thức:

𝑣𝑖 = 𝑢𝑖𝑗 𝑚 𝑥𝑗 𝑛 𝑗 =1 𝑢𝑖𝑗 𝑚 𝑛 𝑗 =1 , (1≤i≤c) (2.22) 𝑢𝑖𝑗 = 1 𝑑 𝑖𝑗 𝐴𝑖 𝑑 𝑘𝑗 𝐴𝑘 2/(𝑚 −1) 𝑐 𝑘=1 , (1≤j≤n, 1≤i≤c) (2.23) Thuật toán GK:

Thuật toán GK gần tương tự thuật toán FCM.

Input: Số cụm c và tham số mờ m, tiêu chuẩn dừng 𝜀, 𝜌𝑖

Output: c cụm dữ liệu sao cho hàm mục tiêu (2.18) đạt giá trị tối thiểu Begin

1. Nhập giá trị cho các tham số c (2≤c<n), m ∈ (1,∞), 𝜀, 𝜌𝑖(thường chọn 𝜌𝑖=1); t = 0; khởi tạo ma trận phân hoạch 𝑈(0)= [𝑢𝑖𝑗] thỏa mãn (2.11a), (2.11b), (2.11c)

2. Repeat 2.1. t = t+1

2.2. Tính vector trung tâm cụm 𝑣𝑖 𝑡 (i=1, 2, ..., c) theo công thức (2.22) 2.3. Cập nhật ma trận phân hoạch 𝑈(𝑡) theo công thức (2.23)

3. Until 𝑈(𝑡)− 𝑈(𝑡−1) ≤ 𝜀

End.

Hình 2.10 mô tả kết quả phân cụm tập dữ liệu các cụm khác nhau về hình dáng bởi hai thuật toán FCM (sử dụng chuẩn khoảng cách Euclidean) và GK.

(a) Thuật toán FCM (b) Thuật toán GK

Hình 2.10: Kết quả phân cụm tập dữ liệu các cụm khác nhau về hình dáng bởi thuật toán FCM và GK.[23]

CHƢƠNG III

SỐ CỤM VÀ CHỈ SỐ ĐÁNH GIÁ

Trong các thuật toán phân cụm mờ như C-means mờ (FCM), Fuzzy Possibilistic C-Means (FPCM), Gustafson-Kessel (GK), Gath-Geva (GG), 𝜀-Insensitive Fuzzy C- means (𝜀FCM),... (xem [11,12,23,25]) thường yêu cầu người dùng xác định trước số cụm. Số cụm là một tham số đầu vào quan trọng và ảnh hưởng nhiều tới kết quả của quá trình phân cụm, ứng với số lượng cụm khác nhau sẽ cho ra các kết quả phân cụm khác nhau, thật khó khăn để quyết định kết quả phân cụm nào là tốt nhất. Do đó, cần phải có một phương pháp để đánh giá mỗi kết quả phân cụm. Hay có thể phát biểu vấn đề một cách khác, đối với một tập dữ liệu số lượng cụm bằng bao nhiêu để cho ra kết quả phân cụm tối ưu? Hiện nay, người ta thường dùng các hàm chỉ số để đánh giá chất lượng phân hoạch được tạo ra bởi các thuật toán phân cụm, nhờ đó xác định số cụm tối ưu cho tập dữ liệu được xét [9,17]. Trong chương này tác giả giới thiệu một số chỉ số đánh giá điển hình cho phân cụm mờ.

3.1. Vấn đề ƣớc lƣợng số cụm

Quá trình phân cụm dữ liệu nhằm xác định các nhóm đối tượng dữ liệu tương tự, từ đó khảo sát các cụm sẽ giúp khái quát, nhanh chóng rút ra các đặc điểm của khối dữ liệu lớn. Tuy nhiên, trong hầu hết các thuật toán phân cụm, tham số số cụm không được biết trước và thuật toán thường yêu cầu người dùng phải xác định trước số lượng các cụm, ứng với mỗi số lượng cụm khác nhau sẽ cho ra các kết quả phân cụm khác nhau (xem hình 3.1, 3.2).

Hình 3.1: Phân cụm tập dữ liệu với số lượng cụm khác nhau.

Xét một thuật toán phân cụm (ví dụ thuật toán FCM), nếu tham số số cụm lớn hơn số cụm thực của tập dữ liệu sẽ khiến một hay nhiều cụm đang nén tốt (good compact) có thể bị phân tách và ngược lại nếu tham số số cụm mà nhỏ hơn số cụm thực thì một số cụm tách biệt (seperate) nào đó có thể được sáp nhập.[30]

Bao nhiêu cụm?

2 cụm? 4 cụm?

Ví dụ: (xem hình 3.2)

Hình 3.2a mô tả một tập hợp dữ liệu. Từ góc độ trực quan, chúng ta có thể khám phá rằng tập dữ liệu đã cho gồm ba cụm. Tuy nhiên, nếu chúng ta phân cụm với tham số số cụm là 4 thì kết quả của quá trình phân cụm thu được sẽ như hình 3.2b. Rõ ràng, phân hoạch thu được trong hình 3.2b không phải là một kết quả tối ưu (ở đây, chúng ta xác định kết quả phân cụm tối ưu là kết quả phù hợp nhất với các phân vùng vốn có của tập dữ liệu). Phân cụm tối ưu cho bộ dữ liệu của chúng ta phải là 3 cụm.

Hình 3.2: (a) Tập dữ liệu gồm 3 cụm, (b) kết quả phân cụm bởi thuật toán FCM với số cụm là 4.[30]

Khi áp dụng thuật toán phân cụm cho từng bài toán cụ thể, việc ước lượng số cụm ảnh hưởng lớn đến chất lượng phân cụm và đến nay vẫn là vấn đề đang được quan tâm nghiên cứu.

3.2. Quá trình ƣớc lƣợng số cụm tối ƣu

Khi dữ liệu trong không gian đặc trưng hai chiều, ta có thể trực quan hóa để phân tích ước lượng cụm và đánh giá kết quả. Nếu dữ liệu trong không gian đa chiều (lớn hơn ba chiều) thì phức tạp hơn, việc chiếu dữ liệu lên các không gian con hai chiều để phân tích trực quan nhiều khi cho nhận xét sai về cấu trúc của tập dữ liệu [2]. Hiện nay, người ta thường dùng các hàm chỉ số để đánh giá chất lượng phân hoạch được tạo ra bởi các thuật toán phân cụm, nhờ đó xác định số cụm tối ưu cho tập dữ liệu được xét.

Một phân cụm tốt sẽ có sự sai khác (variance) trong mỗi cụm nhỏ (độ nén “compactness” lớn) và phân tách (separation) rõ giữa các cụm (độ chồng nhau “overlap” nhỏ). Do vậy, các tiêu chí được sử dụng để đánh giá chất lượng phân cụm gồm: [17,30]

- Độ nén (compactness): đo mức độ tương đồng của các đối tượng dữ liệu trong một cụm. Bằng trực quan ta thấy, cụm càng compact thì các điểm dữ liệu phân phối càng gần tâm cụm;

- Độ phân tách (separation): đo độ tách biệt giữa các cụm. Thường được đo

- Độ chồng nhau (overlap): chỉ ra mức độ chồng nhau giữa các cụm. Độ chồng nhau càng nhỏ thì các cụm càng phân tách rõ và ngược lại.

Việc ước lượng số cụm tối ưu thường được thực hiện nhờ xác định cực trị một hàm chỉ số đánh giá chất lượng phân cụm (cluster validity index) (xem [16,17,20,30]) chọn trước. Quá trình đi tìm số lượng cụm tối ưu thực hiện theo lược đồ sau (được minh họa trong hình 3.3) [9,22]:

1)Thực hiện lặp thuật toán phân cụm với số cụm c lần lượt nhận giá trị trong khoảng [𝑐𝑚𝑖𝑛, 𝑐𝑚𝑎𝑥] cho trước;

2)Tính toán giá trị chỉ số đánh giá phân cụm (validity index) cho mỗi kết quả phân cụm ở bước 1;

3)Chọn số cụm tối ưu 𝑐∗ ứng với kết quả phân cụm tốt nhất theo tiêu chí của chỉ số đã chọn;

4)So sánh 𝑐∗ với thông tin ngoài nếu có.

Hình 3.3: Quá trình ước lượng số cụm tối ưu.

Trong đó, 𝑐𝑚𝑖𝑛 và 𝑐𝑚𝑎𝑥 được quy định bởi người dùng [9,19], trong nhiều tài liệu [8,16,21,30] chọn 𝑐𝑚𝑖𝑛 = 2 và thường chọn 𝑐𝑚𝑎𝑥 ≤ 𝑛.

Về sau ta gọi hàm chỉ số đánh giá chất lượng phân cụm này là chỉ số/ chỉ số đánh giá cho gọn khi không gây nhầm lẫn.

3.3. Một số chỉ số đánh giá điển hình cho phân cụm mờ

Có rất nhiều chỉ số đánh giá đã được đề xuất (xem [16,17,27,28,30]). Hai chỉ số được đề xuất sớm nhất là hệ số phân hoạch (PC) và entropy phân hoạch (PE) được xác định nhờ tính toán chỉ dựa trên giá trị hàm liên thuộc. Về sau có nhiều chỉ số khác cũng đã được đề xuất, chẳng hạn như: MPC, XB, K, PCAES, CO, … Các chỉ số này theo tiếp cận phản ánh sự phân tích độ nén, độ phân tách và độ chồng nhau giữa các cụm.

3.3.1. Chỉ số hệ số phân hoạch và entropy phân hoạch

Bezdek đã đề xuất hai chỉ số hệ số phân hoạch (partition coeficient viết tắt là PC) và entropy phân hoạch (partition entropy viết tắt là PE) (1981) (xem [17,30]) xác định như sau: 𝑃𝐶 = 1 𝑛 𝑐𝑖=1 𝑛𝑗 =1𝑢𝑖𝑗2 (3.1) Giá tr ị ch ỉ s ố Số cụm Thuật toán phân cụm 𝑐 ∈ 𝑐𝑚𝑖𝑛, 𝑐𝑚𝑎𝑥 Tập dữ liệu ệu Chỉ số đánh giá 2 3 4 5 6 7 8 9 10 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

𝑃𝐸 = −1

𝑛 𝑐𝑖=1 𝑛𝑗 =1[𝑢𝑖𝑗𝑙𝑜𝑔𝑎(𝑢𝑖𝑗)] (3.2) Chỉ số PC tính giá trị trung bình tổng bình phương độ liên thuộc của toàn bộ các đối tượng dữ liệu, PC nhận giá trị trong đoạn [1

𝑐, 1], c là số cụm dữ liệu.

Nếu mỗi đối tượng dữ liệu nằm trong một cụm xác định (ma trận phân hoạch U là ma trận nhị phân, các phần tử của U chỉ nhận một trong hai giá trị 1 hoặc 0) thì PC đạt giá trị lớn nhất là 1, PE đạt giá trị nhỏ nhất là 0. Nếu độ liên thuộc của các đối tượng tới tất cả các cụm đều bằng 1

𝑐 thì PC đạt giá trị nhỏ nhất là 1 𝑐 và PE đạt giá trị lớn nhất là 𝑙𝑜𝑔𝑎c. [21] - PC = 1 ⇔ U ∈ 𝑀𝑕𝑐𝑛: là phân hoạch rõ; - PC = 1 𝑐 ⇔ U = 1 𝑐 .

Chỉ số PE nhận giá trị trong đoạn [0, 𝑙𝑜𝑔𝑎c]. - PE = 0 ⇔ U ∈ 𝑀𝑕𝑐𝑛: là phân hoạch rõ; - PE = 𝑙𝑜𝑔𝑎c ⇔ U = 1

𝑐 .

Chỉ số PC và PE được dùng để đo độ mờ của kết quả phân hoạch bằng cách sử dụng ma trận phân hoạch mờ. Giá trị mờ của phân hoạch càng nhỏ thì giá trị PC càng lớn và PE càng nhỏ. Giải pháp phân hoạch thu được bằng cách tối đa hóa PC và cực tiểu hóa PE đối với số lượng các cụm [17]. Vì vậy, số cụm tối ưu 𝑐∗ để cung cấp phân cụm tốt nhất cho tập dữ liệu ban đầu là số cụm mà PC đạt giá trị cực đại và PE đạt giá trị cực tiểu, với c = 2, 3, …, 𝑐𝑚𝑎𝑥.

Tuy nhiên một nhược điểm của hai chỉ số PC và PE là có xu hướng đơn điệu khi c → n và thiếu xem xét tới cấu trúc hình học của tập dữ liệu.[16,30]

3.3.2. Chỉ số MPC

Để hạn chế nhược điểm của chỉ số PC (đơn điệu giảm theo chiều của c), Dave đã đề xuất chỉ số MPC (1996) [24]:

𝑀𝑃𝐶 = 1 − 𝑐

𝑐−1(1 − 𝑃𝐶) (3.3)

Từ (3.3) ta thấy, 0 ≤ MPC ≤ 1. Số cụm c mà chỉ số MPC đạt giá trị cực đại là số cụm tối ưu với c = 2, 3, …, 𝑐𝑚𝑎𝑥.

3.3.3. Chỉ số XB

Cả hai chỉ số PC và PE, tính toán chỉ dựa trên giá trị thành viên và thiếu xem xét tới cấu trúc hình học của tập dữ liệu. Nhiều chỉ số đã được đề xuất để hạn chế thiếu xót trên, một trong số đó là chỉ số XB được đề xuất bởi Xie và Beni (1991) tập trung vào hai thuộc tính độ nén và độ phân tách giữa các cụm. [28]

Định nghĩa 3.1: 𝑑𝑖𝑗 = 𝑢𝑖𝑗 𝑥𝑗 − 𝑣𝑖 được gọi là độ lệch mờ của đối tượng 𝑥𝑗 với cụm i, . thường sử dụng chuẩn Euclidean. 𝑑𝑖𝑗 là khoảng cách Euclidean giữa 𝑥𝑗 và trung tâm cụm thứ i là 𝑣𝑖 có điều chỉnh bằng cách bổ sung giá trị 𝑢𝑖𝑗.

Định nghĩa 3.2: Với mỗi cụm i, tổng bình phương của độ lệch mờ của mỗi điểm dữ liệu, ký hiệu là 𝜍𝑖, được gọi là sự sai khác của cụm i.

𝜍𝑖 = 𝑛𝑗 =1𝑑𝑖𝑗2 = 𝑑𝑖12 + 𝑑𝑖22 + ⋯ +𝑑𝑖𝑛2, (1≤i≤c) (3.4) Tổng độ sai khác của tất các các cụm, ký hiệu là 𝜍, được gọi là tổng sai khác của tập dữ liệu X với c phân hoạch mờ.

Một phân hoạch tốt nên có 𝜍 nhỏ.

𝜍 = 𝑐𝑖=1𝜍𝑖 = 𝑐𝑖=1 𝑛𝑗 =1𝑑𝑖𝑗2 (3.5)

Định nghĩa 3.3: Tỷ lệ của tổng sai khác với kích thước của tập dữ liệu, ký hiệu là 𝜋, 𝜋 =𝜍

𝑛, được gọi là độ nén của phân hoạch mờ của tập dữ liệu. Giá trị 𝜋 càng nhỏ thì các cụm càng nén.

Định nghĩa 3.4: S = 𝑑𝑚𝑖𝑛2 được gọi là độ phân tách của phân hoạch mờ, với 𝑑𝑚𝑖𝑛 là khoảng cách nhỏ nhất giữa hai cụm bất kỳ.

𝑑𝑚𝑖𝑛 = min𝑖,𝑗 𝑣𝑖 − 𝑣𝑗 (3.6) Giá trị S lớn cho thấy rằng tất cả các cụm đều phân tách.

Chỉ số XB được xác định như sau:

𝑋𝐵 = 𝜋 𝑆 = 𝑢𝑖𝑗 2 𝑥𝑗−𝑣𝑖 2 𝑛 𝑗 =1 𝑐 𝑖=1 𝑛(𝑚𝑖𝑛𝑖,𝑗 =1..𝑐,𝑖≠𝑗 𝑣𝑖−𝑣𝑗 2 ) (3.7)

Chỉ số XB nhỏ nghĩa là các cụm đều nén và phân tách với liên cụm. Do đó, số cụm c mà chỉ số XB đạt giá trị cực tiểu là số cụm tối ưu với c = 2, 3, …, 𝑐𝑚𝑎𝑥.

3.3.4. Chỉ số K

Chỉ số XB có nhược điểm là đơn điệu giảm khi c → n. Xét chỉ số XB: lim 𝑐→𝑛 𝑥𝑗 − 𝑣𝑖 2 = 0 Do đó: lim 𝑐 → 𝑛𝑋𝐵 = lim c → n 𝑢𝑖𝑗2 𝑥𝑗 − 𝑣𝑖 2 𝑛 𝑗 =1 𝑐 𝑖=1 𝑛(𝑚𝑖𝑛𝑖,𝑗 =1..𝑐,𝑖≠𝑗 𝑣𝑖 − 𝑣𝑗 2) = 0

Kwon đã đề xuất chỉ số K (1998) [27] cải tiến chỉ số XB, loại bỏ xu hướng đơn điệu giảm của XB khi số cụm lớn dần tới số lượng đối tượng dữ liệu:

𝐾 = 𝑢𝑖𝑗 2 𝑥𝑗−𝑣𝑖 2 𝑛 𝑗 =1 𝑐 𝑖=1 +1𝑐 𝑐𝑖=1 𝑣𝑖−𝑣 2 𝑚𝑖𝑛𝑖,𝑗 =1..𝑐,𝑖≠𝑗 𝑣𝑖−𝑣𝑗 2 , 𝑣 = 1 𝑛 𝑛𝑗 =1𝑥𝑗 (3.8) Số cụm c mà chỉ số K đạt giá trị cực tiểu là số cụm tối ưu với c = 2, 3, …, 𝑐𝑚𝑎𝑥.

3.3.5. Chỉ số PCAES

Tập trung vào hai phần là hệ số phân hoạch chuẩn (normalized partition coefficient) và độ phân tách theo cấp số nhân (exponential separation) để đánh giá mỗi cụm, Wu và Yang đã đề xuất chỉ số partition coefficient and exponential separation (viết tắt là PCAES) [8,16,18].

Với mỗi cụm i, PCAES của cụm thứ i, ký hiệu là 𝑃𝐶𝐴𝐸𝑆𝑖, đo độ nén và độ phân tách của mỗi cụm, xác định như sau:

𝑃𝐶𝐴𝐸𝑆𝑖 = 𝑢𝑖𝑗2/𝑢𝑀 − 𝑒𝑥𝑝 −𝑚𝑖𝑛𝑖≠𝑘 𝑣𝑖−𝑣𝑘 2 𝛽𝑇 𝑛 𝑗 =1 (3.9) 𝑢𝑀 = 𝑚𝑎𝑥1≤𝑖≤𝑐 𝑛𝑗 =1𝑢𝑖𝑗2 , 𝛽 𝑇 =1 𝑐 𝑐𝑖=1 𝑣𝑖 − 𝑣 2, 𝑣 = 𝑥𝑗 𝑛 𝑛 𝑗 =1

Phần thứ nhất của (3.9) đo độ nén của các cụm i (1≤i≤c), độ nén của cụm i được tính toán bởi:

𝑢𝑖𝑗2/𝑢𝑀 𝑛

𝑗 =1 . (3.9a)

Trong đó: 𝑢𝑀 = 𝑚𝑎𝑥1≤𝑖≤𝑐 𝑛𝑗 =1𝑢𝑖𝑗2

Công thức (3.9a) đo độ nén của cụm i liên quan tới cụm nén nhất có giá trị là 𝑢𝑀. Độ nén của cụm i nhận giá trị trong nửa đoạn (0, 1] hay 0< 𝑛𝑗 =1𝑢𝑖𝑗2/𝑢𝑀 ≤1.

Phần thứ hai của (3.9) đo độ phân tách của cụm i, được tính bởi hàm cấp số nhân của khoảng cách giữa cụm i với cụm gần nó nhất.

𝑒𝑥𝑝 −𝑚𝑖𝑛𝑖≠𝑘 𝑣𝑖−𝑣𝑘 2

𝛽𝑇 (3.9b)

Giá trị độ phân tách của cụm i nhận giá trị trong nửa đoạn (0, 1].

𝑃𝐶𝐴𝐸𝑆𝑖 nhận giá trị trong khoảng (-1, 1), với i = 1..c. Giá trị của 𝑃𝐶𝐴𝐸𝑆𝑖 lớn có nghĩa là cụm i nén và phân tách với (c-1) cụm khác. 𝑃𝐶𝐴𝐸𝑆𝑖 nhỏ hoặc mang giá trị âm chỉ ra rằng cụm i không phải là một cụm xác định tốt (well-identified cluster).

Cuối cùng, chỉ số PCAES được xác định: 𝑃𝐶𝐴𝐸𝑆 = 𝑐𝑖=1𝑃𝐶𝐴𝐸𝑆𝑖 = 𝑢𝑖𝑗2/𝑢𝑀 − 𝑒𝑥𝑝 −𝑚𝑖𝑛𝑖≠𝑘 𝑣𝑖−𝑣𝑘 2 𝛽𝑇 𝑐 𝑖=1 𝑛 𝑗 =1 𝑐 𝑖=1 (3.10) Rõ ràng, -c < PCAES < c.

Trong chỉ số trên, đầu tiên chúng ta tính độ nén và độ phân tách cho mỗi cụm và sau đó lấy tổng của 𝑃𝐶𝐴𝐸𝑆𝑖 để đo độ nén và độ phân tách cho toàn bộ phân hoạch. Giá trị PCAES lớn nghĩa là mỗi cụm trong c cụm đều nén và phân tách với các cụm khác. Giá trị PCAES nhỏ chỉ ra rằng một số cụm trong c cụm không nén và phân tách với các cụm còn lại. Do vậy, số cụm c mà chỉ số PCAES đạt giá trị cực đại là số cụm tối

Một phần của tài liệu Tiếp cận mờ trong phân cụm dữ liệu (Trang 32)