Phân cụm theo thứ bậc

2.4. Một số kỹ thuật Phân cụm Web điển hình

2.4.1. Phân cụm theo thứ bậc

Các kỹ thuật phân cụm theo thứ bậc đưa ra một chuỗi các phần chia lồng vào nhau với một phân cụm gốc ở trên cùng và các phân cụm đơn của các đối tượng đơn lẻ ở phía dướị Các phân cụm ở cấp độ trên chứa các phân cụm phía dưới chúng theo thứ bậc. Kết quả của thuật toán phân cụm theo thứ bậc có thể xem như một cây, được gọi là một dendogram (Hình 3).

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

Hình 3. Một ví dụ dendogram của phân cụm sử dụng phân cụm có thứ bậc

Tùy thuộc vào định hướng của việc xây dựng thứ tự, chúng ta có thể chỉ ra các phương thức của phân cụm theo thứ bậc: tích tụ

(Agglomerative) hay chia xẻ (Divisive). Phương thức tích tụ được sử dụng trong hầu hết các phân cụm theo thứ bậc.

a, Phân cụm tích tụ theo thứ bậc (AHC)

Phương thức này bắt đầu với tập các đối tượng là các phân cụm đơn lẻ, tiếp đó, tại mỗi bước kết nối 2 phân cụm giống giau nhất với nhaụ Quá trình này được lặp lại cho đến khi số lượng phân cụm còn lại đạt đến một ngưỡng cho phép hoặc là nếu cần phải hoàn thành toàn bộ thứ bậc thì quá trình này sẽ tiếp tục cho đến khi chỉ còn 1 phân cụm. Phân cụm tích tụ làm việc theo mô hình tham ăn (greedy), trong đó cặp nhóm tài liệu được chọn

cho việc tích tụ là cặp mà được coi là giống nhau nhất theo một số tiêu chuẩn nào đó.

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

Phương thức này tương đối đơn giản nhưng cần phải định nghĩa rõ việc tính khoảng cách giữa 2 phân cụm. Có 3 phương thức hay được dùng nhất để tính toán khoảng cách này được liệt kê ở phía dướị

• Phương thức kết nối đơn (Single Linkage Method): Độ tương tự giữa 2 phân cụm S và T được tính toán dựa trên khoảng cách ngắn nhất

(minimal) giữa các thành phần nằm trong các phân cụm tương ứng. Phương thức này còn được gọi là phương pháp phân cụm “láng giềng gần nhất” (“nearest neighbour). y x S T yT x − = − ∈ ∈ S min

• Phương thức kết nối toàn bộ (Complete Linkage Method): Độ tương tự giữa 2 phân cụm S và T được tính toán dựa trên khoảng cách lớn nhất

(maximal) giữa các thành phần thuộc vào các phân cụm tương ứng. Phương thức này còn được gọi là phương pháp phân cụm “láng giềng xa nhất” (“furthest neighbour”). y x S T yT x − = − ∈ ∈ S max

• Phương thức kết nối trung bình (Average Linkage Method): Độ tương tự giữa 2 phân cụm S và T được tính toán dựa trên khoảng cách

trung bình (average) giữa các thành phần của các phân cụm tương ứng.

Phương thức này xét tất cả các cặp khoảng cách các đối tượng trong các 2 phân cụm. Phương thức này còn được gọi là UPGMA (Unweighter Pair-Group Method using Arithmetic averages )

T S y x S T xyT . S ∑∈∈ − = −

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

Karypis [13] đã phản đối các phương thức trên vì cho rằng chúng sử dụng một mô hình tĩnh của các liên kết và gần gũi của dữ liệu, và đã đưa ra một mô hình động để tránh được những vấn đề trên. Hệ thống đó được gọi là CHAMELEON, chỉ gộp 2 phân cụm nếu sự liên kết và gần gũi của các phân cụm là có quan hệ mật thiết với sự liên kết và gần gũi bên trong các phân cụm.

Các kỹ thuật chất đống thường sử dụng thời gian cỡ Ω(n2) vì đặc trưng của nó là xem xét tất cả các cặp phân cụm có thể. Hệ thống Phân tán/Tập hợp (Scatter/Gather) được giới thiệu trong cuốn Cutting [15], đã sử dụng một nhóm tích tụ trung bình để tìm kiếm các phân cụm hạt nhân (seed) để sử dụng cho thuật toán chia phân cụm. Tuy nhiên, để tránh thời gian chạy bình phương, họ chỉ sử dụng nó với một ví dụ nhỏ của các tài liệu để phân cụm. Ngoài ra, phương thức trung bình nhóm đã được giới thiệu trong Steinbach [4] được coi là tốt hơn hầu hết các phương thức đo độ tương tự khác do tính ổn định của nó.

b, Phương pháp phân cụm chia xẻ cấp bậc

Những phương thức này làm việc từ trên xuống dưới, bắt đầu với việc coi toàn bộ các tập dữ liệu là một phân cụm và tại mỗi bước lại phân chia một phân cụm cho đến khi chỉ còn những phân cụm đơn của các đối tượng riêng lẻ còn lạị Chúng thường khác nhau bởi 2 điểm: (1) phân cụm nào được phân chia kế tiếp và (2) làm thể nào để phân chiạ Thường thì một tìm kiếm toàn diện được thực hiện để tìm ra phân cụm để phân tách dựa trên một vài tiêu chuẩn khác nhaụ Một cách đơn giản hơn có thể được sử dụng đó là chọn phân cụm lớn nhất để chia tách, phân cụm có độ tương tự trung bình ít nhất hoặc sử dụng một tiêu chuẩn dựa trên cả kích cỡ và độ tương tự trung bình. Trong Steinbach [4] đã làm một thí nghiệm dựa trên

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

những chiến thuật này và phát hiện ra rằng sự khác nhau giữa chúng là rất nhỏ, do đó họ đã sắp xếp lại bằng việc chia nhỏ phân cụm lớn nhất còn lạị

Chi nhỏ một phân cụm cần đưa ra quyết định xem những đối tượng nào được đưa vào phân cụm con. Một phương pháp được dùng để tìm 2 phân cụm con sử dụng k-means trả lại kết quả là một kỹ thuật lai ghép được gọi là kỹ thuật chia cắt k-means (bisecting k-means) [4]. Cũng có một cách khác dựa trên thống kê được sử dụng bằng thuật toán ITERATE [18], tuy nhiên, không cần thiết phải chia một phân cụm thành 2 phân cụm con, chúng ta có thể chia nó thành nhiều phân cụm con, tùy theo kết cấu của các đối tượng.

Phân cụm bằng cách phân mảnh

Thuật toán phân cụm cây hậu tố