2.4. Gộp nhóm với thuật toán phân cấp Agglomerative Hirearchical (AH)
2.4.2. Cấu trúc của thuật toán phân cấp
Thuật toán phân cấp có cấu trúc khá rõ ràng, các bước của thuật toán này là: - Bắt đầu với mỗi điểm trong một cụm chứa nó.
- Cho đến khi chỉ còn lại 1 cụm duy nhât: + Tìm các cặp cụm gần nhau nhất
a. Tính toán khoảng cách giữa các cụm.
Từ tọa độ của các điểm trong tập dữ liệu, khoảng cách giữa các điểm được tính toán và liệt kê thành bảng. Sau đó tính toán khoảng cách giữa các cặp đối tượng trong ma trận X cỡ m x n. Hàng của ma trận X tương ứng với các điểm, cột tương ứng với các thuộc tính. Kết quả là một hàng các véc tơ có độ dài m (m -1) / 2, tương ứng với số cặp trị đo trong ma trận X. Các khoảng cách được sắp xếp theo thứ tự (2,1), (3,1), ... , (m, 1), (3,2), ..., (m, 2), ..., (m, m -1)). Véc tơ này thường được sử dụng như một ma trận khác khi phân cụm.
b. Tạo liên kết và vẽ sơ đồ cây phân cấp.
Từ các khoảng cách euclide đã tính toán và xác định số lượng cụm mong muốn. Sau khi khoảng cách giữa các điểm được tính toán, cần xác định xem các đối tượng trong tập dữ liệu nên nhóm vào cụm như thế nào và liên kết các cặp đối tượng gần nhau thành các cụm gồm hai thành phần. Sau đó liên kết những cụm mới tạo này với nhau và với các đối tượng khác để tạo thành cụm lớn hơn đến khi tất cả các đối tượng trong tập dữ liệu ban đầu được liên kết với nhau trong sơ đồ hình cây. Dưới đây là minh họa của một sơ đồ hình cây.
Hình 2.11. Sơ đồ hình cây
Sơ đồ hình cây bao gồm các đường nối chữ U dùng để liên kết các đối tượng lại với nhau. Độ cao của mỗi nhánh chữ u này thể hiện khoảng cách giữa hai đối tượng liên kết với nhau. Nhánh nhỏ nhất của sơ đồ chính là một điểm dữ liệu. Từ sơ đồ hình cây có thể thấy, các dữ liệu điểm gần nhau nhất được gộp lại thành cụm, sau đó các cụm gần nhau lại được gộp lại đến khi đạt được số lượng cụm mong muốn. Về cơ bản, nó dựa trên nguyên tắc phân cụm phân cấp. Do sơ đồ hình cây rất trực quan, nên chất lượng của việc phân cụm có thể nhìn nhận trước được, và dựa vào đó có thể thay đổi các tham số đầu vào. Các tham số đầu vào này được kiểm tra bằng các phép thử và sai số để đảm bảo kết quả phân cụm cao nhất trong quá trình tính toán lẫn quá trình liên
Thuật toán AH chỉ yêu cầy định nghĩa hàm khoảng cách giữa các cụm. Ta cũng có thể dùng độ tương tự đẻ thay thế độ đo khoảng cách. Chú ý là giá trị của 2 độ đo này là tỉ lệ nghịch với nhau. Nếu dùng độ đo khoảng cách, giả sử S1 và S2 là 2 cụm, có một số phương pháp tính khoảng cách giữa hai cụm S1 và S2 là d(S1,S2) như sau:
Độ đo khoảng cách gần nhất (single-link): Khoảng cách giữa 02 cụm được xác định là khoảng cách giữa 02 phần tử “gần” nhau nhất của 02 cụm đó:
Hình 2.12. Độ đo single-link.
Độ đo khoảng cách xa nhất (complete-link): Khoảng cách giữa 02 cụm được xác định là khoảng cách giữa 02 phần tử “xa” nhau nhất của 02 cụm đó:
Hình 2.13. Độ đo complete-link.
Độ đo khoảng cách trọng tâm (centroid-link): Khoảng cách giữa 02 cụm đượcxác định là khoảng cách giữa 02 trọng tâm của 02 cụm đó:
(2.9)
(2.10)
Hình 2.14. Độ đo centroid-link.
Độ đo khoảng cách trung bình nhóm (group-average): Khoảng cách giữa 02 cụm được xác định là khoảng cách trung bình giữa các phần tử thuộc về 02 cụm đó:
Hình 2.15. Độ đo group-average.
Tương tự như giải thuật phân cấp khác, mục đích của AH là làm cực đại độ tương tự giữa các phần tử dữ liệu trong nội tại một cụm. Trong quá trình AH hoạt động, các cụm được ghép lại với nhau tạo thành một cụm ở cấp cao hơn, đọ tương tự nội tại của các cụm mới này sẽ giảm so với các cụm ở cấp thấp hơn trong cây phân cấp (xem minh họa trong hình 2.16).
Hình 2.16. Một cây phân cấp của thuật toán phân cụm AH. (2.12) (2.12)
c. Nhận xét về các độ đo
Độ đo single-link:
- Mang tính chất cục bộ: Chỉ quan tâm đến những vùng mà ở đó có phần tử của 2 cụm gần nhau nhất, không quan tâm đến các phần tử khác trong cụm cũng như cấu trúc tổng thể của các cụm.
- Chất lượng phân cụm kém khi chỉ có 2 phần tử trong 2 cụm là rất gần nhau trong khi các phần tử khác ở phân tán rất xa nhau.
Độ đo complete-link:
- Khoảng cách 2 cụm dựa trên khoảng cách 2 phần tử xa nhau nhất ⟹ Việc ghép 2 cụm sẽ tạo ra cụm mới có đường kính nhỏ nhất.
- Chất lượng phân cụm kém khi 2 phần tử trong 2 cụm ở rất xa nhau nhưng thực tế trọng tâm 2 cụm lại ở rất gần nhau.
Độ đo group-average:
- Tính toán khoảng cách của 2 cụm dựa trên khoảng cách của toàn bộ các cặp phần tử trong 2 cụm chứ không chỉ dựa trên một cặp phần tử duy nhất ⟹ tránh được nhược điểm của single-link và complete-link.
Độ đo centroid-link:
- Khắc phục được nhược điểm của single/complete-link.
- Vẫn có nhược điểm là khoảng cách giữa các cụm khi từ đi mức dưới lên mức trên của cây phân cấp có thể là không tăng dần (do trọng tâm các cụm ở mức cao nhiều khi gần nhau hơn các cụm ở mức dưới) ⟹ Trái với giả thiết về độ kết dính “Các cụm nhỏ thường có độ kết dính cao hơn các cụm có kích thước lớn hơn”.