Kết quả phân cụm và giá trị chỉ số PCAES với các s- 123docz.net

(a) c = 2, PCAES = 1.9042872, (b) c = 3, PCAES = 2.2098534, (c) c = 4, PCAES =

2.5899803, (d) c = 5, PCAES = 1.5421018. [16]

3.3.6. Chỉ số CO

Dựa trên hai thuộc tính là độ nén 𝐶(𝐶, 𝑈) và độ chồng nhau 𝑂(𝐶, 𝑈) của các cụm, K.R. 𝑍 alik đề xuất chỉ số CO (2010) [17,29] hiệu quả trong trường hợp các cụm khác nhau về mật độ và kích thước: 𝐶𝑂(𝐶, 𝑈) = 𝐶(𝐶, 𝑈) + 𝑂(𝐶, 𝑈) = 1 𝑛 𝐶𝑖𝑗 𝐶, 𝑈 − 𝑐 𝑂𝑎𝑏𝑗 𝐶, 𝑈 𝑏=𝑎+1 𝑐−1 𝑎=1 𝑐 𝑖=1 𝑛 𝑗 =1 (3.11) 𝐶𝑖𝑗 𝑐, 𝑈 = 𝑢𝑖𝑗 nếu 𝑢𝑖𝑗 − 𝑢𝑖𝑘 ≥ 𝑇𝑐, 𝑘 = 1, . . , 𝑐, 𝑘 ≠ 𝑗

𝑂𝑎𝑏𝑗 𝑐, 𝑈 = 1 − 𝑢𝑎𝑗 − 𝑢𝑏𝑗 nếu 𝑢𝑎𝑗 − 𝑢𝑏𝑗 ≥ 𝑇0 và 𝑎 ≠ 𝑏

0 ngược lại (3.11b) 𝑇𝑐, 𝑇0 ∈ [0,1]. Số cụm c mà ở đó chỉ số CO đạt giá trị cực đại là số cụm tối ưu với c = 2, 3, …, 𝑐𝑚𝑎𝑥.

CHƢƠNG IV

MỘT CHỈ SỐ ĐÁNH GIÁ SỐ CỤM MỚI CHO PHÂN CỤM MỜ

Trên cơ sở phân tích những chỉ số đánh giá điển hình ở chương 3, luận văn đề xuất một chỉ số đánh giá số cụm mới nhờ kết hợp ưu điểm của chỉ độ nén (compactness) trong [8,16] và độ chồng nhau (overlap) trong [17,29]. Độ nén chỉ ra mức độ tương đồng của các đối tượng dữ liệu trong một cụm và được tính toán dựa trên giá trị hàm liên thuộc của các đối tượng dữ liệu. Độ chồng nhau chỉ ra mức độ chồng nhau giữa các cụm mờ và thu được bởi tính toán tỷ lệ trùng lặp của các đối tượng dữ liệu thuộc ở hai hay nhiều cụm. Ưu điểm nổi trội của chỉ số mới thể hiện qua kết quả thực nghiệm trên nhiều bộ dữ liệu thực và nhân tạo khi so sánh với các chỉ số điển hình hiện có.

4.1. Nhận xét

Cả hai chỉ số PC và PE chỉ quan tâm tới độ nén của các cụm mà thiếu xem xét tới cấu trúc hình học của tập dữ liệu [16,17,30].

Các chỉ số (ví dụ: XB, K) thường đánh giá độ nén bởi tính toán sự sai khác của tất cả các đối tượng dữ liệu thuộc về một cụm. Sự sai khác càng nhỏ nghĩa là độ nén càng lớn. Cách đo lường sự sai khác của cụm i là:

𝑢𝑖𝑗2 𝑥𝑗 − 𝑣𝑖 2 𝑛

𝑗 =1 . (4.1)

Tuy nhiên, độ đo này đơn điệu giảm tới 0 theo chiều tăng của số cụm bởi: lim𝑐→𝑛 𝑥𝑗 − 𝑣𝑖 = 0.

Một thiết sót nữa của phương pháp đo độ nén này là khi các cụm có cùng số phần tử, phân phối giống nhau nhưng kích thước, mật độ khác nhau. Ví dụ hình 4.1: những điểm thuộc cụm A có khoảng cách tới tâm cụm lớn hơn so với những điểm thuộc cụm B. Phương pháp đo độ nén trên không khám phá được cụm B có độ nén cao hơn cụm A bởi: cụm B có giá trị hàm liên thuộc 𝑢𝐵𝑗 lớn hơn 𝑢𝐴𝑗 nhưng 𝑥𝑗 − 𝑣𝐵 nhỏ hơn 𝑥𝑗 − 𝑣𝐴 [9].

Hình 4.1: Hai cụm A, B có cùng số phần tử, phân phối giống nhau nhưng kích thước, mất độ khác nhau.

Chỉ số XB, PCAES đo độ phân tách giữa các cụm bởi tính khoảng cách giữa các trung tâm cụm 𝑣𝑖 − 𝑣𝑗 . Phương pháp đo này cũng có thiếu sót là chưa xem xét hình dạng các cụm khác nhau dẫn đến tính toán sai trong trường hợp các cụm khác nhau về mật độ và kích thước. Ví dụ hình 4.2: Cụm A và C chồng nhau nhiều hơn (phân tách kém hơn) cụm B và C, mặc dù khoảng cách giữa trung tâm cụm A, C và B, C là như nhau [17].

Kết quả phân cụm và giá trị chỉ số PCAES với các số cụm khác nhau

Thuật toán phân cụm C-means mờ

Quá trình ước lượng số cụm tối ưu