Quá trình ước lượng số cụm tối ưu

Trong đó, 𝑐𝑚𝑖𝑛 và 𝑐𝑚𝑎𝑥 được quy định bởi người dùng [9,19], trong nhiều tài liệu [8,16,21,30] chọn 𝑐𝑚𝑖𝑛 = 2 và thường chọn 𝑐𝑚𝑎𝑥 ≤ 𝑛.

Về sau ta gọi hàm chỉ số đánh giá chất lượng phân cụm này là chỉ số/ chỉ số đánh giá cho gọn khi không gây nhầm lẫn.

3.3. Một số chỉ số đánh giá điển hình cho phân cụm mờ

Có rất nhiều chỉ số đánh giá đã được đề xuất (xem [16,17,27,28,30]). Hai chỉ số được đề xuất sớm nhất là hệ số phân hoạch (PC) và entropy phân hoạch (PE) được xác định nhờ tính toán chỉ dựa trên giá trị hàm liên thuộc. Về sau có nhiều chỉ số khác cũng đã được đề xuất, chẳng hạn như: MPC, XB, K, PCAES, CO, … Các chỉ số này theo tiếp cận phản ánh sự phân tích độ nén, độ phân tách và độ chồng nhau giữa các cụm.

3.3.1. Chỉ số hệ số phân hoạch và entropy phân hoạch

Bezdek đã đề xuất hai chỉ số hệ số phân hoạch (partition coeficient viết tắt là PC) và entropy phân hoạch (partition entropy viết tắt là PE) (1981) (xem [17,30]) xác định như sau: 𝑃𝐶 = 1 𝑛 𝑐𝑖=1 𝑛𝑗 =1𝑢𝑖𝑗2 (3.1) Giá tr ị ch ỉ s ố Số cụm Thuật toán phân cụm 𝑐 ∈ 𝑐𝑚𝑖𝑛, 𝑐𝑚𝑎𝑥 Tập dữ liệu ệu Chỉ số đánh giá 2 3 4 5 6 7 8 9 10 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

𝑃𝐸 = −1

𝑛 𝑐𝑖=1 𝑛𝑗 =1[𝑢𝑖𝑗𝑙𝑜𝑔𝑎(𝑢𝑖𝑗)] (3.2) Chỉ số PC tính giá trị trung bình tổng bình phương độ liên thuộc của toàn bộ các đối tượng dữ liệu, PC nhận giá trị trong đoạn [1

𝑐, 1], c là số cụm dữ liệu.

Nếu mỗi đối tượng dữ liệu nằm trong một cụm xác định (ma trận phân hoạch U là ma trận nhị phân, các phần tử của U chỉ nhận một trong hai giá trị 1 hoặc 0) thì PC đạt giá trị lớn nhất là 1, PE đạt giá trị nhỏ nhất là 0. Nếu độ liên thuộc của các đối tượng tới tất cả các cụm đều bằng 1

𝑐 thì PC đạt giá trị nhỏ nhất là 1 𝑐 và PE đạt giá trị lớn nhất là 𝑙𝑜𝑔𝑎c. [21] - PC = 1 ⇔ U ∈ 𝑀𝑕𝑐𝑛: là phân hoạch rõ; - PC = 1 𝑐 ⇔ U = 1 𝑐 .

Chỉ số PE nhận giá trị trong đoạn [0, 𝑙𝑜𝑔𝑎c]. - PE = 0 ⇔ U ∈ 𝑀𝑕𝑐𝑛: là phân hoạch rõ; - PE = 𝑙𝑜𝑔𝑎c ⇔ U = 1

𝑐 .

Chỉ số PC và PE được dùng để đo độ mờ của kết quả phân hoạch bằng cách sử dụng ma trận phân hoạch mờ. Giá trị mờ của phân hoạch càng nhỏ thì giá trị PC càng lớn và PE càng nhỏ. Giải pháp phân hoạch thu được bằng cách tối đa hóa PC và cực tiểu hóa PE đối với số lượng các cụm [17]. Vì vậy, số cụm tối ưu 𝑐∗ để cung cấp phân cụm tốt nhất cho tập dữ liệu ban đầu là số cụm mà PC đạt giá trị cực đại và PE đạt giá trị cực tiểu, với c = 2, 3, …, 𝑐𝑚𝑎𝑥.

Tuy nhiên một nhược điểm của hai chỉ số PC và PE là có xu hướng đơn điệu khi c → n và thiếu xem xét tới cấu trúc hình học của tập dữ liệu.[16,30]

3.3.2. Chỉ số MPC

Để hạn chế nhược điểm của chỉ số PC (đơn điệu giảm theo chiều của c), Dave đã đề xuất chỉ số MPC (1996) [24]:

𝑀𝑃𝐶 = 1 − 𝑐

𝑐−1(1 − 𝑃𝐶) (3.3)

Từ (3.3) ta thấy, 0 ≤ MPC ≤ 1. Số cụm c mà chỉ số MPC đạt giá trị cực đại là số cụm tối ưu với c = 2, 3, …, 𝑐𝑚𝑎𝑥.

3.3.3. Chỉ số XB

Cả hai chỉ số PC và PE, tính toán chỉ dựa trên giá trị thành viên và thiếu xem xét tới cấu trúc hình học của tập dữ liệu. Nhiều chỉ số đã được đề xuất để hạn chế thiếu xót trên, một trong số đó là chỉ số XB được đề xuất bởi Xie và Beni (1991) tập trung vào hai thuộc tính độ nén và độ phân tách giữa các cụm. [28]

Định nghĩa 3.1: 𝑑𝑖𝑗 = 𝑢𝑖𝑗 𝑥𝑗 − 𝑣𝑖 được gọi là độ lệch mờ của đối tượng 𝑥𝑗 với cụm i, . thường sử dụng chuẩn Euclidean. 𝑑𝑖𝑗 là khoảng cách Euclidean giữa 𝑥𝑗 và trung tâm cụm thứ i là 𝑣𝑖 có điều chỉnh bằng cách bổ sung giá trị 𝑢𝑖𝑗.

Định nghĩa 3.2: Với mỗi cụm i, tổng bình phương của độ lệch mờ của mỗi điểm dữ liệu, ký hiệu là 𝜍𝑖, được gọi là sự sai khác của cụm i.

𝜍𝑖 = 𝑛𝑗 =1𝑑𝑖𝑗2 = 𝑑𝑖12 + 𝑑𝑖22 + ⋯ +𝑑𝑖𝑛2, (1≤i≤c) (3.4) Tổng độ sai khác của tất các các cụm, ký hiệu là 𝜍, được gọi là tổng sai khác của tập dữ liệu X với c phân hoạch mờ.

Một phân hoạch tốt nên có 𝜍 nhỏ.

𝜍 = 𝑐𝑖=1𝜍𝑖 = 𝑐𝑖=1 𝑛𝑗 =1𝑑𝑖𝑗2 (3.5)

Định nghĩa 3.3: Tỷ lệ của tổng sai khác với kích thước của tập dữ liệu, ký hiệu là 𝜋, 𝜋 =𝜍

𝑛, được gọi là độ nén của phân hoạch mờ của tập dữ liệu. Giá trị 𝜋 càng nhỏ thì các cụm càng nén.

Định nghĩa 3.4: S = 𝑑𝑚𝑖𝑛2 được gọi là độ phân tách của phân hoạch mờ, với 𝑑𝑚𝑖𝑛 là khoảng cách nhỏ nhất giữa hai cụm bất kỳ.

𝑑𝑚𝑖𝑛 = min𝑖,𝑗 𝑣𝑖 − 𝑣𝑗 (3.6) Giá trị S lớn cho thấy rằng tất cả các cụm đều phân tách.

Chỉ số XB được xác định như sau:

𝑋𝐵 = 𝜋 𝑆 = 𝑢𝑖𝑗 2 𝑥𝑗−𝑣𝑖 2 𝑛 𝑗 =1 𝑐 𝑖=1 𝑛(𝑚𝑖𝑛𝑖,𝑗 =1..𝑐,𝑖≠𝑗 𝑣𝑖−𝑣𝑗 2 ) (3.7)

Chỉ số XB nhỏ nghĩa là các cụm đều nén và phân tách với liên cụm. Do đó, số cụm c mà chỉ số XB đạt giá trị cực tiểu là số cụm tối ưu với c = 2, 3, …, 𝑐𝑚𝑎𝑥.

3.3.4. Chỉ số K

Chỉ số XB có nhược điểm là đơn điệu giảm khi c → n. Xét chỉ số XB: lim 𝑐→𝑛 𝑥𝑗 − 𝑣𝑖 2 = 0 Do đó: lim 𝑐 → 𝑛𝑋𝐵 = lim c → n 𝑢𝑖𝑗2 𝑥𝑗 − 𝑣𝑖 2 𝑛 𝑗 =1 𝑐 𝑖=1 𝑛(𝑚𝑖𝑛𝑖,𝑗 =1..𝑐,𝑖≠𝑗 𝑣𝑖 − 𝑣𝑗 2) = 0

Kwon đã đề xuất chỉ số K (1998) [27] cải tiến chỉ số XB, loại bỏ xu hướng đơn điệu giảm của XB khi số cụm lớn dần tới số lượng đối tượng dữ liệu:

𝐾 = 𝑢𝑖𝑗 2 𝑥𝑗−𝑣𝑖 2 𝑛 𝑗 =1 𝑐 𝑖=1 +1𝑐 𝑐𝑖=1 𝑣𝑖−𝑣 2 𝑚𝑖𝑛𝑖,𝑗 =1..𝑐,𝑖≠𝑗 𝑣𝑖−𝑣𝑗 2 , 𝑣 = 1 𝑛 𝑛𝑗 =1𝑥𝑗 (3.8) Số cụm c mà chỉ số K đạt giá trị cực tiểu là số cụm tối ưu với c = 2, 3, …, 𝑐𝑚𝑎𝑥.

3.3.5. Chỉ số PCAES

Tập trung vào hai phần là hệ số phân hoạch chuẩn (normalized partition coefficient) và độ phân tách theo cấp số nhân (exponential separation) để đánh giá mỗi cụm, Wu và Yang đã đề xuất chỉ số partition coefficient and exponential separation (viết tắt là PCAES) [8,16,18].

Với mỗi cụm i, PCAES của cụm thứ i, ký hiệu là 𝑃𝐶𝐴𝐸𝑆𝑖, đo độ nén và độ phân tách của mỗi cụm, xác định như sau:

𝑃𝐶𝐴𝐸𝑆𝑖 = 𝑢𝑖𝑗2/𝑢𝑀 − 𝑒𝑥𝑝 −𝑚𝑖𝑛𝑖≠𝑘 𝑣𝑖−𝑣𝑘 2 𝛽𝑇 𝑛 𝑗 =1 (3.9) 𝑢𝑀 = 𝑚𝑎𝑥1≤𝑖≤𝑐 𝑛𝑗 =1𝑢𝑖𝑗2 , 𝛽 𝑇 =1 𝑐 𝑐𝑖=1 𝑣𝑖 − 𝑣 2, 𝑣 = 𝑥𝑗 𝑛 𝑛 𝑗 =1

Phần thứ nhất của (3.9) đo độ nén của các cụm i (1≤i≤c), độ nén của cụm i được tính toán bởi:

𝑢𝑖𝑗2/𝑢𝑀 𝑛

𝑗 =1 . (3.9a)

Trong đó: 𝑢𝑀 = 𝑚𝑎𝑥1≤𝑖≤𝑐 𝑛𝑗 =1𝑢𝑖𝑗2

Công thức (3.9a) đo độ nén của cụm i liên quan tới cụm nén nhất có giá trị là 𝑢𝑀. Độ nén của cụm i nhận giá trị trong nửa đoạn (0, 1] hay 0< 𝑛𝑗 =1𝑢𝑖𝑗2/𝑢𝑀 ≤1.

Phần thứ hai của (3.9) đo độ phân tách của cụm i, được tính bởi hàm cấp số nhân của khoảng cách giữa cụm i với cụm gần nó nhất.

𝑒𝑥𝑝 −𝑚𝑖𝑛𝑖≠𝑘 𝑣𝑖−𝑣𝑘 2

𝛽𝑇 (3.9b)

Giá trị độ phân tách của cụm i nhận giá trị trong nửa đoạn (0, 1].

𝑃𝐶𝐴𝐸𝑆𝑖 nhận giá trị trong khoảng (-1, 1), với i = 1..c. Giá trị của 𝑃𝐶𝐴𝐸𝑆𝑖 lớn có nghĩa là cụm i nén và phân tách với (c-1) cụm khác. 𝑃𝐶𝐴𝐸𝑆𝑖 nhỏ hoặc mang giá trị âm chỉ ra rằng cụm i không phải là một cụm xác định tốt (well-identified cluster).

Cuối cùng, chỉ số PCAES được xác định: 𝑃𝐶𝐴𝐸𝑆 = 𝑐𝑖=1𝑃𝐶𝐴𝐸𝑆𝑖 = 𝑢𝑖𝑗2/𝑢𝑀 − 𝑒𝑥𝑝 −𝑚𝑖𝑛𝑖≠𝑘 𝑣𝑖−𝑣𝑘 2 𝛽𝑇 𝑐 𝑖=1 𝑛 𝑗 =1 𝑐 𝑖=1 (3.10) Rõ ràng, -c < PCAES < c.

Trong chỉ số trên, đầu tiên chúng ta tính độ nén và độ phân tách cho mỗi cụm và sau đó lấy tổng của 𝑃𝐶𝐴𝐸𝑆𝑖 để đo độ nén và độ phân tách cho toàn bộ phân hoạch. Giá trị PCAES lớn nghĩa là mỗi cụm trong c cụm đều nén và phân tách với các cụm khác. Giá trị PCAES nhỏ chỉ ra rằng một số cụm trong c cụm không nén và phân tách với các cụm còn lại. Do vậy, số cụm c mà chỉ số PCAES đạt giá trị cực đại là số cụm tối ưu, với c = 2, 3, …, 𝑐𝑚𝑎𝑥.

Ví dụ:

Thuật toán phân cụm C-means mờ