Dữ liệu mẫu
Để minh họa sự biểu diễn của những thuật toán Hierarchial Clustering khác nhau, chúng ta sẽ sử dụng dữ liệu mẫu gồm 6 điểm trong không gian 2 chiều, được chỉ ra trong hình 8.15. Bảng 8.3 chỉ ra tọa độ x, y của các điểm và bảng 8.4 chỉ ra khoảng cách Euclidean giữ chúng
Single Link hoặc Min
Với phiên bản Single Link hoặc Min của Hierachical Clustering, độ gần của 2 nhóm được định nghĩa như là khoảng cách ngắn nhất (tương tự cho khoảng cách lớn nhất) giữa 2 điểm bất kỳ trong 2 nhóm khác nhau. Sử dụng ngôn ngữ đồ thị, nếu bạn bắt đầu với tất cả những điểm như những nhóm đơn phần tử và nối thêm với điểm khác một cách lần lượt, đầu tiên là những đường nối ngắn nhất, khi đó những Single Link này kết hợp những điểm này thành nhóm. Kỹ thật Single Link này tốt để tạo nên những hình non-elliptical, nhưng nó khó thực hiện khi có nhiễu và những giá trị ngoại lệ.
Hình 8.16 chỉ ra kết quả của việc ứng dụng kỹ thuật Single Link vào tập dữ liệu mẫu gồm 6 điểm của chúng ta. Hình 8.16(a) chỉ ra những nhóm phân cấp như là một dãy hình elip phân cấp, với những con số liên kết với mỗi elip chỉ ra thứ tự của nhóm. Hình 8.16(b) chỉ ra thông tin tương tự, nhưng như một cấu trúc cây. Chiều cao mà 2 nhóm được nối với nhau trong dendrogram phản ánh khoảng cách của hai nhóm. Để cụ thể hơn, từ bảng 8.4, chúng ta thấy khoảng cách giữa điểm 3 và 6 là 0.11 và cũng là chiều cao mà chúng được gia nhập vào một nhóm trong dendrogram. Như ví dụ khác, khoảng cách giữa nhóm {3,6} và {5,2} được cho bởi:
Complex Link hoặc Max hoặc Clique
Với phiên bản Complex Link hoặc Max của Hierachical Clustering, độ gần của hai nhóm được định nghĩa như là khoảng cách lớn nhất (tương tự cho nhỏ nhất) giữa hai điểm bất kỳ trong hai nhóm khác nhau. Sử dụng ngôn ngữ đồ thị, nếu bạn bắt đầu với tất cả những điểm được xem như những nhóm đơn phần tử và lần lượt kết nối thêm những điểm, đầu tiên là những nối ngắn nhất. Khi đó một nhóm của những điểm không là một nhóm cho đến khi tất cả những điểm trong nó được kết nối một cách hoàn chỉnh, nghĩa là, đây là một Clique. Complex Link thì ít nhạy cảm với những nhóm lớn và nó thuận lợi cho những hình cầu.
Hình 8.17 biểu diễn kết quả của việc ứng dụng Max cho dữ liệu mẫu gồm tập hợp 6 điểm. Như Single Link, điểm 3 và 6 được nối trước. Tuy nhiên, {3,6} được nối với {4} thay vì {2,5} hoặc {1}, bởi vì:
Trung bình nhóm (Group Average)
Với phiên bản trung bình nhóm (Group Average) của Hierachical Clustering, độ gần của hai nhóm được định nghĩa như là độ gần trung bình của cặp điểm giữa tất cả các cặp điểm trong những nhóm khác nhau. Đây là một cách tiếp cận trung gian giữa Single Link và Complex Link. Vì thế với nhóm trung bình, độ gần của nhóm proximity(Ci,Cj) của những nhóm Ci, Cj, mà có kích cỡ lần lượt là mi và mj, thì được biểu diễn bởi công thức sau:
Hình 8.18 biểu diễn kết quả của việc ứng dụng theo cách tiếp cận Group Average cho dữ liệu mẫu 6 điểm. Để minh họa làm thế nào để làm công việc gom nhóm trung bình, chúng ta tính toán khoảng chác giữa những nhóm
Bởi vì dist({3, 6, 4}, {2, 5}) nhỏ hơn dist({3, 6, 4}, {1}) và dist({2, 5}, {1}) nên nhóm {3, 6, 4} và {2, 5} được nối với nhau ở bước thứ 4.
Phương pháp Ward và phương pháp Centroid
Đối với phương pháp Ward, độ gần giữa hai nhóm được định nghĩa như là độ tăng bình phương sai số của kết quả khi mà hai nhóm được nối với nhau. Vì thế, phương pháp này sử dụng cho những đối tượng có chức năng giống nhau như là K- means Clustering. Trong khi phương pháp Ward có những đặc trưng làm cho nó có một số khác biệt với những kỹ thuật Hierachical khác. Biểu diễn toán học của phương pháp Ward cũng rất giống với phương pháp Group Average khi độ gần giữa hai điểm là bình phương khoảng cách giữa chúng.
Ví du: Phương pháp Ward
Hình 8.19 trình bày kết quả của việc ứng dụng phương pháp Ward với tập dữ liệu mẫu gồm 6 điểm. Việc gom nhóm theo phương pháp Ward thì khác so với Single Link, Complex Link và Group Average .
Centroid Method tính toán độ gần giữa hai nhóm bằng cách tính khoảng cách giữa những Centroid (trọng tâm) của những nhóm. Những kỹ thuật này tương tự như K-means, nhưng chú ý rằng phương pháp Ward chỉ đúng với Hierachical Analog.
Phương pháp Centroid cũng có một đặc điểm – thường xem là không tốt so với những kỹ thuật Hierachical Clustering nên chúng ta không thảo luận ở đây: có thể cho những sự đảo ngược. Một cách đặc biệt, hai nhóm được nối với nhau có nhiều tương tự hơn (it distant) là những cặp nhóm được nối với nhau ở những bước trước. Đối với những phương pháp khác, khoảng cách giữa hai nhóm được nối với nhau tăng một cách đơn điệu (hoặc là giảm, không tăng) như chúng ta tiến hành từ một nhóm đơn phần tử cho tới khi thành một nhóm bao hàm tất cả các phần tử.