Phân cụm theo thứ bậc

Các kỹ thuật phân cụm theo thứ bậc đưa ra một chuỗi các phần chia lồng vào nhau với một phân cụm gốc ở trên cùng và các phân cụm đơn của các đối tượng đơn lẻ ở phía dưới. Các phân cụm ở cấp độ trên chứa các phân cụm phía dưới chúng theo thứ bậc. Kết quả của thuật toán phân cụm theo thứ bậc có thể

xem như một cây, được gọi là một dendogram (Hình 3).

Hình 3: Một ví dụ dendogram của phân cụm sử dụng phân cụm có thứ bậc

Tùy thuộc vào định hướng của việc xây dựng thứ tự, chúng ta có thể chỉ

ra các phương thức của phân cụm theo thứ bậc: tích tụ (Agglomerative) hay

chia xẻ (Divisive). Phương thức tích tụđược sử dụng trong hầu hết các phân cụm theo thứ bậc.

a, Phân cụm tích tụ theo thứ bậc (AHC)

Phương thức này bắt đầu với tập các đối tượng là các phân cụm đơn lẻ, tiếp đó, tại mỗi bước kết nối 2 phân cụm giống giau nhất với nhau. Quá trình này

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

được lặp lại cho đến khi số lượng phân cụm còn lại đạt đến một ngưỡng cho phép hoặc là nếu cần phải hoàn thành toàn bộ thứ bậc thì quá trình này sẽ tiếp tục cho

đến khi chỉ còn 1 phân cụm. Phân cụm tích tụ làm việc theo mô hình tham ăn

(greedy), trong đó cặp nhóm tài liệu được chọn cho việc tích tụ là cặp mà được coi là giống nhau nhất theo một số tiêu chuẩn nào đó.

Phương thức này tương đối đơn giản nhưng cần phải định nghĩa rõ việc tính khoảng cách giữa 2 phân cụm. Có 3 phương thức hay được dùng nhất để tính toán khoảng cách này được liệt kê ở phía dưới.

• Phương thức kết nối đơn (Single Linkage Method): Độ tương tự giữa 2 phân cụm S và T được tính toán dựa trên khoảng cách ngắn nhất (minimal) giữa các thành phần nằm trong các phân cụm tương ứng. Phương thức này còn được gọi là phương pháp phân cụm “láng giềng gần nhất” (“nearest neighbour). y x S T yT x − = − ∈ ∈ S min

• Phương thức kết nối toàn bộ (Complete Linkage Method): Độ tương tự

giữa 2 phân cụm S và T được tính toán dựa trên khoảng cách lớn nhất

(maximal) giữa các thành phần thuộc vào các phân cụm tương ứng. Phương thức này còn được gọi là phương pháp phân cụm “láng giềng xa nhất” (“furthest neighbour”). y x S T yT x − = − ∈ ∈ S max

• Phương thức kết nối trung bình (Average Linkage Method): Độ tương tự

giữa 2 phân cụm S và T được tính toán dựa trên khoảng cách trung bình (average) giữa các thành phần của các phân cụm tương ứng. Phương thức này xét tất cả các cặp khoảng cách các đối tượng trong các 2 phân cụm. Phương thức này còn được gọi là UPGMA (Unweighter Pair-Group Method using Arithmetic averages ) T S y x S T yx T . S ∑∈∈ − = −

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

Karypis [13] đã phản đối các phương thức trên vì cho rằng chúng sử

dụng một mô hình tĩnh của các liên kết và gần gũi của dữ liệu, và đã đưa ra một mô hình động để tránh được những vấn đề trên. Hệ thống đó được gọi là CHAMELEON, chỉ gộp 2 phân cụm nếu sự liên kết và gần gũi của các phân cụm là có quan hệ mật thiết với sự liên kết và gần gũi bên trong các phân cụm.

Các kỹ thuật chất đống thường sử dụng thời gian cỡΩ(n2) vì đặc trưng của nó là xem xét tất cả các cặp phân cụm có thể. Hệ thống Phân tán/Tập hợp

(Scatter/Gather) được giới thiệu trong cuốn Cutting [15], đã sử dụng một nhóm tích tụ trung bình để tìm kiếm các phân cụm hạt nhân (seed) để sử dụng cho thuật toán chia phân cụm. Tuy nhiên, để tránh thời gian chạy bình phương, họ chỉ

sử dụng nó với một ví dụ nhỏ của các tài liệu để phân cụm. Ngoài ra, phương thức trung bình nhóm đã được giới thiệu trong Steinbach [4] được coi là tốt hơn hầu hết các phương thức đo độ tương tự khác do tính ổn định của nó.

b, Phương pháp phân cụm chia xẻ cấp bậc

Những phương thức này làm việc từ trên xuống dưới, bắt đầu với việc coi toàn bộ các tập dữ liệu là một phân cụm và tại mỗi bước lại phân chia một phân cụm cho đến khi chỉ còn những phân cụm đơn của các đối tượng riêng lẻ

còn lại. Chúng thường khác nhau bởi 2 điểm: (1) phân cụm nào được phân chia kế tiếp và (2) làm thể nào để phân chia. Thường thì một tìm kiếm toàn diện được thực hiện để tìm ra phân cụm để phân tách dựa trên một vài tiêu chuẩn khác nhau. Một cách đơn giản hơn có thểđược sử dụng đó là chọn phân cụm lớn nhất

để chia tách, phân cụm có độ tương tự trung bình ít nhất hoặc sử dụng một tiêu chuẩn dựa trên cả kích cỡ và độ tương tự trung bình. Trong Steinbach [4] đã làm một thí nghiệm dựa trên những chiến thuật này và phát hiện ra rằng sự khác nhau giữa chúng là rất nhỏ, do đó họ đã sắp xếp lại bằng việc chia nhỏ phân cụm lớn nhất còn lại.

Chi nhỏ một phân cụm cần đưa ra quyết định xem những đối tượng nào

được đưa vào phân cụm con. Một phương pháp được dùng để tìm 2 phân cụm con sử dụng k-means trả lại kết quả là một kỹ thuật lai ghép được gọi là kỹ thuật chia cắt k-means (bisecting k-means) [4]. Cũng có một cách khác dựa trên thống kê được sử dụng bằng thuật toán ITERATE [18], tuy nhiên, không cần thiết phải

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

chia một phân cụm thành 2 phân cụm con, chúng ta có thể chia nó thành nhiều phân cụm con, tùy theo kết cấu của các đối tượng.

Phân cụm bằng cách phân mảnh

Tách các thông tin đặc trưng