Phƣơng pháp phân cấp

Một phƣơng pháp phân cụm phân cấp [1, 8] bằng cách nhóm các đối tƣợng vào một cây của cụm. Việc xây dựng cây đƣợc thực hiện theo hai cách: một là từ dƣới lên (Bottom-up) hoặc từ trên xuống (Top-Down). Cách thực hiện từ dƣới lên hay ngƣời ta còn gọi là “sát nhập”, cách từ trên xuống gọi là “chia”. Thực hiện từ dƣới lên là mỗi đối tƣợng ta coi nhƣ là một nhóm, sau đó sát nhập các đối tƣợng hay các nhóm theo các hàm tính khoảng cách giữa các tâm của hai nhóm. Điều này đƣợc lặp lại cho đến khi tất cả các nhóm đƣợc trộn vào làm một nhóm hoặc cho đến khi thỏa mãn một số điều kiện để kết thúc. Thực hiện theo phƣơng pháp từ trên xuống là bắt đầu với tất cả các đối tƣợng nằm trong một cụm. Mỗi một bƣớc lặp, một cụm đƣợc tách ra nhỏ hơn theo một tiêu chí nào đó. Quá trình này lặp đi lặp lại cho đến khi mỗi đối tƣợng là một cụm, hoặc cho đến khi nó thỏa mãn một số điều kiện để kết thúc.

Với quy tắc liên kết để chọn cặp cụm trộn cho trƣớc, phƣơng pháp trộn bao gồm các bƣớc sau.

1. Khởi tạo mỗi phần tử làm một cụm i   xi

2. Khi c ≥ 1 thực hiện lặp:

Chọn hai cụm gần nhất ivà  j theo quy tắc chọn

trộn ivà  jthành ij  i  j (còn c-1 cụm) Giảm c.

. Ví dụ. Trong mục này ta giả thiết đã có quy tắc liên kết và không bàn cụ thể tới cách chọn cụm trộn. Phƣơng pháp "dƣới lên" phân cụm tập dữ liệu S={a, b,c ,d, e} có thể thực hiện nhƣ sau:

 Bƣớc 0: Mỗi đối tƣợng dữ liệu đƣợc gán cho mỗi cụm, nhƣ vậy các cụm ban đầu là {a},{b},{c},{d},{e}.

 Bƣớc 1: {a} và {b} là đƣợc gộp vào thành một cụm lớn hơn là {a,b} và các cụm thu đƣợc là : {a, b}, {c},{d},{e}.

 Bƣớc 2: Gộp cụm {d},{e} thành {d, e}. Các cụm thu đƣợc là {a, b}, {c},{d, e}.

 Bƣớc 3: Gộp cụm {c } với {d,e} thành {c, d, e}. Các cụm thu đƣợc là {a, b}, {c,d, e}.

 Bƣớc 4: Gộp cụm hai cụm {c, d, e} với {a,b} thành {a, b, c, d, e}. Quá trình trên đƣợc mô tả trong hình 2.2.

Hình 2.2: Ví dụ về trộn và tách của phân cụm phân cấp trên tập đối tượng {a, b, c, d, e}

Trong cả hai cách phân loại phân cấp này, ta có thể xác định số cụm dự kiến và điều kiện để kết thúc. Có bốn độ đo khoảng cách sử dụng rộng rãi giữa các cụm, ở đây |p-

Agglomerative (AGNES)

Divisive (DIANA)

p’| là khoảng cách giữa hai đối tƣợng hoặc điểm p và p’; mi là trung bình của cụm Ci và ni là số đối tƣợng trong Ci. Khoảng cách nhỏ nhất: dmin(Ci, Cj) = m in , ' i j pC pC |p-p’| Khoảng cách lớn nhất: dmax(Ci, Cj) = m a x , ' i j pC pC |p-p’| Khoảng cách có nghĩa: dmean(Ci, Cj) = |mi - mj|

Khoảng cách trung bình: davg(Ci, Cj) =

' 1 ' i j p C p C i j p p n n     

Khi thuật toán sử dụng khoảng cách nhỏ nhất dmin(Ci, Cj) để đo khoảng cách giữa các cụm, đôi khi nó còn đƣợc gọi là nearest-neighbor. Nếu thuật toán sử dụng khoảng cách xa nhất dmax(Ci, Cj), thuật toán đó còn có tên gọi thuật toán phân cụm fathest- neighbor.

Ta thấy thuật toán AGNES và DIANA thƣờng sử dụng các hàm đánh giá đơn giản để trộn hoặc tách các cụm. Thực tế ta thấy rằng các bƣớc trộn và tách là không thuận nghịch, vì vậy các phƣơng pháp đƣa ra thƣờng cho kết quả phân cụm không chính xác. Các thuật toán BIRCH, ROCK khắc phục đƣợc các nhƣợc điểm này.

Chƣơng trình và dữ liệu thử nghiệm