Các loại độ đo

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu mô hình phân cụm có thứ bậc các đồ thị dữ liệu (Trang 28 - 33)

Một câu hỏi đặt ra là một kỹ thuật (thuật toán) phân cụm như thế nào được gọi là tốt, tối ưu? Để có câu trả lời chúng ta phải xác định được các tiêu chí, hay độ đo (measure) để đánh giá được một thuật toán phân cụm là tối ưu.

1.2.2.1. Độ đo cho phân cụm dữ liệu tổng quát

Một số độ đo độ tương tự phổ biến của phân cụm dữ liệu nói chung [23]: (1) Đường kính cực tiểu (Minimum diameter - Charikar et al., 1997). Đường kính

của cụm được định nghĩa là khoảng cách cực đại giữa các cặp phần tử dữ liệu trong cụm. Mục tiêu của phân cụm là cực tiểu hóa các đường kính của cụm, nghĩa là

𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑒 𝑚𝑎𝑥1≤𝑖≤𝑘𝑑𝑖𝑎𝑚𝑒𝑡𝑒𝑟(𝐶𝑖) (1.9) 𝑑𝑖𝑎𝑚𝑒𝑡𝑒𝑟(𝐶𝑖) = 𝑚𝑎𝑥{|𝑥𝑗𝑥𝑖||𝑥𝑗, 𝑥𝑖𝜖𝑐𝑖} (1.10)

(2) K-means (K-median - Charikar et al., 1999). Độ đo này được xác định thông qua việc chọn nhiều nhất K phần tử dữ liệu như là các tâm của các cụm và gán dữ liệu j vào tâm i với trọng số (phí tổn) wij. Mục đích của phân cụm dữ liệu là cực tiểu hóa tổng của các phí tổn, nghĩa là:

𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑒 ∑ 𝑤𝑖𝑗𝑥𝑖𝑗

𝑖,𝑗𝜖𝑁

(1.11)

Theo các điều kiện:

Điều kiện ràng buộc (1.15) đảm bảo rằng mọi phần tử dữ liệu j ∈𝑁 đều được gán cho một phần tử tâm 𝑖 ∈𝑁, (1.16) đảm bảo không có phần tử j ∈𝑁 mà lại được gán vào cụm không có tâm 𝑖∈𝑁, và (1.17) đảm bảo rằng có nhiều nhất K phần tử dữ liệu được chọn làm tâm của cụm.

(3) Tổng cực tiểu (Minimum Sum – Indyk 1999). Mục tiêu là cực tiểu hóa khoảng cách giữa các điểm trong tất cả các cụm.

𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑒 ∑ ∑ 𝑑(𝑥𝑖, 𝑥𝑗 𝑥𝑖𝜖𝑐𝑖,𝑥𝑗𝑐𝑖 𝑘 𝑖=1 ) (1.14)     N j N i ij x ,

1 với xij yi, với mọi i, j N (1.12)

   N i i K

Mặc dù các độ đo ở trên được xây dựng trên nền tảng toán học hợp lý và đơn giản, tuy nhiên chúng lại dễ gây ra các lỗi. Hình 1.10 dưới đây minh chứng rằng việc tối ưu các độ đo ở trên có thể tạo ra các cụm tồi trên thực tế. Hình 1.10 (a): mặc dù việc phân cụm A tuân theo đường kính cực đại lớn hơn, nó vẫn tốt hơn so với B. Điều này cũng xảy ra khi sử dụng độ đo tổng cực tiểu với hình 1.10 (a) và độ đo K-means cho hình 1.10 (b).

Hình 1.9: (a) Tối ưu đường kính cực tiểu hoặc tổng cực tiểu tạo ra cụm B nhưng A lại tốt hơn trên thực tế. (b) Tối ưu K-means tạo ra cụm B nhưng A lại tốt hơn [1].

1.2.2.2. Độ đo cho phân cụm đồ thị

Phân cụm đồ thị là tìm cách xác định các đồ thị con liên thông mạnh (cụm) trong các đồ thị cho trước và mục tiêu cần đạt được là tối ưu hóa hàm đo chất lượng của kỹ thuật phân cụm đồ thị. Một số độ đo phổ biến được sử dụng để phân cụm như sau:

(i) Mật độ của cụm (intra-cluster density): Mật độ của cụm Ci được xác định bằng tỷ số giữa tổng các trọng số của cạnh bên trong của Ci trên tổng các trọng số của đồ thị.

𝑖𝑛𝑡𝑟𝑎𝑑𝑒𝑛𝑠𝑖𝑡𝑦(𝐶𝑖) = ∑ uϵci, 𝑣ϵ Ci𝑊𝑢𝑣 ∑(𝑢, 𝑣)ϵE 𝑊𝑢𝑣

(1.15)

Mục tiêu là cực đại hóa tổng của các mật độ của tất cả các cụm:

𝑚𝑎𝑥𝑖𝑚𝑖𝑧𝑒 ∑ 𝑖𝑛𝑡𝑟𝑎_𝑑𝑒𝑛𝑠𝑖𝑡𝑦(𝐶𝑖)

𝐾

𝑖=1

(ii) Mật độ giữa các cụm (inter-cluster density): Mật độ của cụm Ci và Cj được xác định bằng tỷ số giữa tổng các trọng số của cạnh nối giữa Ci và Cj trên tổng các trọng số của đồ thị.

𝑖𝑛𝑡𝑒𝑟_𝑑𝑒𝑛𝑠𝑖𝑡𝑦(𝐶𝑖, 𝐶𝑗) = ∑ 𝑢𝜖𝐶𝑖, 𝑣𝜖𝐶𝑗𝑊𝑢𝑣

∑(𝑢, 𝑣)𝜖𝐸𝑊𝑢𝑣 (1.17)

Mục tiêu là cực tiểu hóa tổng của các mật độ giữa các cụm:

𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑒 ∑ ∑ 𝑖𝑛𝑡𝑒𝑟𝑑𝑒𝑛𝑠𝑖𝑡𝑦(𝐶𝑖,𝐶𝑗) 𝐾 𝑗=𝑖+1 𝐾−1 𝑖=1 (1.18)

Nếu G được phân hoạch thành 2 cụm thì phân cụm C = (S, V\S) được gọi là lát cắt (cut) của đồ thị G với S  V. Giá trị của lát cắt bằng tổng các trọng số của các cạnh nối giữa hai cụm.

𝑐𝑢𝑡(𝑆, 𝑉\𝑆) = ∑ 𝑊𝑢𝑣

𝑢𝜖𝑆,𝑣𝜖𝑉\𝑆

(1.19)

Một lát cắt thỏa mãn điều kiện (1.18) được gọi là lát cắt cực tiểu.

(iii) Lát cắt tỷ lệ (ratio cut- Hagan and Kahng, 1992): được xác định như sau:

𝑟𝑎𝑡𝑖𝑜𝑐𝑢𝑡(𝐶𝑖, 𝑉\𝐶𝑖) = 𝑐𝑢𝑡(𝐶𝑖, 𝑉\𝐶𝑖

|𝐸𝐶𝑖| (1.20)

trong đó |𝐸𝐶𝑖| là số lượng cạnh của cụm Ci.

Mục tiêu là cực tiểu hóa tổng ratiocut cho tất cả các cụm:

𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑒 ∑ 𝑟𝑎𝑡𝑖𝑜𝑐𝑢𝑡(𝐶𝑖, 𝑉\𝐶𝑖)

𝐾

𝑖=1

(1.21)

Lát cắt tỷ lệ phù hợp cho đồ thị không trọng số, tuy nhiên với các đồ thị có trọng số, số lượng các đỉnh trong một cụm có thể không tương ứng mật độ bên trong cụm là cao. Bởi vậy, ta nên thay chúng bằng lát cắt chuẩn bên dưới.

(iv) Lát cắt chuẩn (Normalized cut- Shi and Malik 2000): được xác định như sau:

𝑛𝑐𝑢𝑡(𝐶𝑖, 𝑉\𝐶𝑖) = 𝑐𝑢𝑡(𝐶𝑖, 𝑉\𝐶𝑖 𝑣𝑜𝑙(𝐶𝑖)

(1.22)

Mục tiêu là cực tiểu hóa tổng ncut() của tất cả cụm:

𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑒 ∑ 𝑛𝑐𝑢𝑡(𝐶𝑖, 𝑉\𝐶𝑖)

𝐾

𝑖=1

(1.23)

(v) Độ đo tiêu chuẩn hai chiều (Bicriteria- Kannan et al, 2000) được xác định như sau:

Bài toán cực đại hóa tiêu chuẩn hai chiều đòi hỏi: 1) các cụm phải có một số độ dẫn cực tiểu α; 2) Tổng trọng số các cạnh giữa các cụm tối đa là ε phần của tổng trọng số cạnh.

Mục tiêu là với giá trị α cho trước, tìm một cách phân cụm làm cực tiểu hóa giá trị ε hoặc với giá trị ε cho trước, tìm một cách phân cụm mà làm cực đại hóa giá trị α.

(vi) Độ đo đơn thể (modularity- Girvan và Newman, 2002) được xác định như sau: 𝒎𝒐𝒅𝒖𝒍𝒂𝒓𝒊𝒕𝒚(𝑪𝒊) = 𝒆𝒊𝒊 – 𝒂𝒊𝟐, 𝒗ớ𝒊 𝒂𝒊 =   K j ij e 1 (1.24)

Trong đó, eii là phân số của các cạnh trong cụm Ci, eij (i  j) là phân số của các cạnh nối đỉnh của cụm i sang cụm j.

Độ đo đơn thể được thể hiện như sau: mật độ của cạnh hiện thời trong cụm 𝐶𝑖

trừ đi giá trị kỳ vọng bên trong cụm Ci khi tất cả các đỉnh của đồ thị được kết nối theo các bậc đã được xác định. Độ đo đơn thể của phân cụm là tổng của độ đo đơn thể của các cụm.

𝑄 = ∑ 𝑚𝑜𝑑𝑢𝑙𝑎𝑟𝑖𝑡𝑦(𝐶𝑖)

𝐾

𝑗=1

(1.25)

Mục tiêu là cực đại hóa độ đo đơn thể của phân cụm Q.

Hiện nay độ đo đơn thể của phân cụm được sử dụng khá hiệu quả trong nhiều ứng dụng khác nhau.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu mô hình phân cụm có thứ bậc các đồ thị dữ liệu (Trang 28 - 33)

Tải bản đầy đủ (PDF)

(87 trang)