KHÓA TRONG HIERARCHICAL CLUSTERING

Chúng ta đề cập lại sự liên quan mà trong Aggolomerative Hierachical Clustering không được xem xét như sự tối ưu hóa toàn cục một hàm đối tượng. Thay vì, những kỹ thuật Agglomerative Hierachical Clustering sử dụng những tới hạn khác nhau để giải quyết định vùng, tại mỗi bước, mà những nhóm được nối với nhau (hoặc chia tiệm cận). Cách tiếp cận này mang lại thuật toán gom nhóm mà tránh được những khó khăn của việc cố gắng giải quyết một vấn đề tối ưu tổ hợp khó. (Có thể chỉ ra những vấn đề gom nhóm bình thường cho một hàm đối tượng như là: “minimize SSE” là không khả thi trong tính toán). Thêm nữa, cách tiếp cận không có vấn đề với vùng minima hoặc là khó để chọn ra những điểm ban đầu. Dĩ nhiên độ phức tạp thời gian của O(m2logm) và độ phức tạp không gian của O(m2) thì không đúng (prohibitive) trong nhiều trường hợp.

Khả năng vận dụng những kích cỡ nhóm khác nhau

Một khía cạnh của Agglomerative Hierachical Clustering mà chúng ta chưa bàn luận là làm thế nào để xử lý mối quan hệ về kích cỡ của những cặp nhóm được nối (kết hợp) với nhau. (Sự thảo luận này chỉ ứng dụng để sắp xếp độ gần của nhóm mà cần phải tính tổng như là Centroid, Ward’s, và Group Average). Có hai cách tiếp cận: lấy trọng lượng, để xử lý trên tất cả những nhóm một cách như nhau, và không trọng lượng, mà lấy số điểm trong mỗi nhóm vào thành một account.

Chú ý rằng với ngôn ngữ trọng lượng (weighted) hoặc không trọng lượng (unweighted) tốt hơn cho dữ liệu là những điểm, và ngược lại cho những nhóm. Nói cách khác, xử lý trên những nhóm có kích thước không bằng nhau đều cho những trọng lượng khác nhau của những điểm trong những nhóm khac nhau, trong khi lấy kích thước nhóm vào trong account cho những điểm trong những nhóm khác nhau có cùng trọng lượng.

Chúng ta sẽ minh họa sử dụng này cho kỹ thuật Group Average trong phần 8.3.2, mà phiên bản không trọng lượng của kỹ thuật Group Average. Trong các tài liệu gom nhóm, tên đầy đủ của cách tiếp cận này là The Unweighted Pair Group Method using Arthmetic Average (UPGMA). Trong bảng 8.5, cho ta công thức để nâng cấp nhóm một cách tương tự, những hệ số cho UPGMA bao gồm kích thước của mỗi nhóm mà được nối với nhau:

Với phiên bản Weighted của Group Average – được biết như là WPGMA – những hệ số là những hằng số: αA =1/2,αB =1/2,β =0,γ =0. Thông thường cách tiếp cận Unweighted được xem xét có không ít những lý do để tin rằng những điểm độc lập nên có những trọng lượng khác nhau, e.g, có lẽ những lớp đối tượng được lấy mẫu một cách không đồng bộ.

Những sự quyết định kết nối là cuối cùng. Những thuật toán Agglomerative Hierachical Clustering làm tăng việc quyết định vùng tốt để kết hợp hai nhóm khi chúng có thể dùng thông tin về những cặp điểm tương tự của tất cả các điểm. Tuy nhiên, mỗi lần quyết định tạo nên kết nối hai nhóm lại, ta không thể thực hiện lại cho lần sau.

Cách tiếp cận này làm cản trở một tiêu chuẩn tối ưu hóa địa phương từ sự hình thành tiêu chuẩn tối ưu hóa toàn cục. Cho ví dụ, thông qua tiêu chuẩn “sai số bình phương nhỏ nhất” từ K-means được sử dụng trong việc quyết định những nhóm nào để kết hợp trong phương pháp Ward, những nhóm này tại mỗi cấp độ không mô tả được minima địa phương với khía cạnh là tổng SSE. Thay vì, những nhóm này thậm chí không ổn định, điều đó có nghĩa rằng một điểm trong một nhóm có lẽ đóng vai trò là centroid của một vài nhóm khác hơn là centroid của nhóm hiện tại chứa nó. Tuy nhiên, phương pháp Ward thường được sử dụng như một phương pháp kiên định của một nhóm K-means ban đầu, để chỉ ra rằng một hàm đối tượng “sai số bình phương nhỏ nhất” địa phương không có sự kết nối với một hàm đối tượng “sai số bình phương nhỏ nhất” toàn cục.

Có một vài kỹ thuật mà cố gắng thử vượt qua sự giới hạn những kết nối là cuối cùng. Một cách tiếp cận cố gắng sửa những Hierachical Clustering bằng cách

như là K-means để tạo ra nhiều nhóm nhỏ, và khi đó chuyển cho Hierachical Clustering sử dụng những nhóm nhỏ này như là những điểm bắt đầu.

THUẬT TOÁN AHC CƠ BẢN

NHỮNG KỸ THUẬT ĐẶC BIỆT Dữ liệu mẫu