Phân cụm bằng cách phân mảnh

2.4. Một số kỹ thuật Phân cụm Web điển hình

2.4.2. Phân cụm bằng cách phân mảnh

Lớp thuật toán phân cụm này làm việc bằng cách nhận ra các phân cụm tiềm năng cùng một lúc trong khi lặp lại việc cập nhật các phân cụm để làm tối ưu một vài chức năng. Lớp các thuật toán nổi tiếng của nó là thuật toán K-means và các biến thể của nó. K-means bắt đầu bằng việc chọn lựa ngẫu nhiên k phân cụm hạt nhân, sau đó đưa các đối tượng vào phân cụm có ý nghĩa gần nó nhất. Thuật toán lặp lại việc tính toán ý nghĩa của các phân cụm và cấp độ thành viên của các đối tượng mớị Quá trình xử lý tiếp tục cho đến một số lần lặp nhất định hoặc khi không còn sự thay đổi nào được phát hiện trong ý nghĩa của các phân cụm [17]. Các thuật toán

K-means có kích cỡ O(nkT) trong đó T là số lượng vòng lặp. Dù sao, một

nhược điểm chính của K-means là nó giả định một cấu trúc phân cụm cầu và không thể được áp dụng với các miền dữ liệu mà các cấu trúc phân cụm không phải là hình cầụ

Một biến thể của K-means cho phép sự chồng lặp của các phân cụm đó là C-means mờ (FCM: Fuzzy C-means). Thay vì có các quan hệ thành

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

viên kiểu nhị phân giữa các đối tượng và các phân cụm tiêu biểu, FCM cho phép các cấp độ khác nhau của cấp độ thành viên [17]. Krishnapuram [8] đã đưa ra một phiên bản đã chỉnh sửa của FCM được coi là Fuzzy C- Medoids (FCMđ) trong đó các ý nghĩa được thay bằng các ngữ cảnh. Thuật toán này tương đối nhanh và có cỡ là O(n2) và có cường độ hoạt động nhanh hơn FCM.

Do sự lựa chọn ngẫu nhiên của các phân cụm hạt nhân những thuật toán này, chúng đối lập với phân cụm có thứ bậc. Do đó kết quả của các lần chạy của thuật toán là không thực sự ổn định. Một vài phương pháp đã được cải tiến bằng cách tìm ra các phân cụm hạt nhân ban đầu “tốt” sau đó mới sử dụng các thuật toán nàỵ Có một ví dụ rất hay trong hệ thống Phân

chia/Thu thập [15].

Có một cách tiếp cận gộp cả việc phân cụm phân mảnh và phân cụm lai ghép đó là thuật toán chia cách K-means (Bisecting K-means) đã nói ở phần trước. Thuật toán này là một thuật toán phân chia trong đó việc phân chia phân cụm sử dụng K-means để tìm kiếm 2 phân cụm con. Trong Steinbach đã chỉ ra rằng hiệu suất của thuật toán Bisecting K-means là tuyệt vời so với K-means bình thường cũng như UPGMA [4]

Cần phải chú ý rằng một đặc trưng quan trọng của các thuật toán có thứ bậc là hầu hết đều có cập nhật theo tính tăng và các đối tượng mới có thể được đưa vào các phân cụm liên quan rất dễ dàng bằng việc lần theo một đường dẫn nào đó tới vị trí thích hợp. STC [5] và DC- tree [24] là hai ví dụ về các thuật toán nàỵ Nói theo cách khác các thuật toán phân chia đồng loạt thường yêu cầu việc cập nhật đồng loạt về ý nghĩa của các phân cụm và thậm chí là các đối tượng thành viên. Việc cập nhật có tính tăng là rất cần thiết với các ứng dụng hoạt động on-linẹ

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

Một phương pháp nhằm thi hành thuật toán phân cụm là phân hoạch tập tài liệu vào k tập con hoặc các cụm D1, …, Dk để làm cực tiểu khoảng cách bên trong cụm ∑ ∑i d d ∈D d d

i ( , 2)

, 2 1

1 δ hoặc làm cực đại sự

tương tự bên trong cụm ∑ ∑i d d ∈D d d

i ( , 2)

, 2 1

1 ρ .

Nếu một biểu diễn bên trong của các tài liệu là có giá trị thì biểu diễn này cũng được dùng để xác định một biểu diễn của các cụm liên quan đến cùng mô hình. Chẳng hạn, nếu các tài liệu được biểu diễn sử dụng mô hình không gian vector, một cụm của các tài liệu có thể được biểu diễn bởi trọng tâm (trung bình) của các tài liệu vector. Khi một biểu diễn cụm là có giá trị, một mục tiêu có thể phân hoạch D thành D1, …,Dk để cực tiểu hóa

) ,

( i

i d D d D i

∑ ∑ ∈ δ r hoặc cực đại hóa ( , i)

i d D d D i

∑ ∑ ∈ ρ trong đó Di là

biểu diễn vector của cụm i. Có thể xem xét tới việc gán tài liệu d cho cụm i như việc đặt một giá trị Boolean zd,i là 1. Điều này có thể phát sinh ra việc phân cụm mềm tại đó zd,i là một số thực từ 0 đến 1. Trong bối cảnh như vậy, ta có thể muốn tìm zd,i để cực tiểu hóa i d D (d, Di)

i r ∑ ∑ ∈ δ hoặc cực đại hóa i d D (d, Di) i r ∑ ∑ ∈ ρ .

Việc phân hoạch có thể thực hiện theo hai cách. Bắt đầu với mỗi tài liệu trong một nhóm của nó và kết hợp các nhóm tài liệu lại với nhau cho đến khi số các phân hoạch là phù hợp; cách này gọi là phân cụm bottom- up. Cách khác là có thể khai báo số các phân hoạch mong muốn và gán các tài liệu vào các phân hoạch; cách này gọi là phân cụm top-down.

Có thể xem xét một kỹ thuật phân cụm bottom-up dựa vào quá trình lặp lại việc trộn các nhóm của các tài liệu tương tự nhau cho đến khi đạt được số cụm mong muốn, và một kỹ thuật top-down sẽ làm mịn dần bằng

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

cách gắn các tài liệu vào các cụm được thiết đặt trước. Kỹ thuật bottom-up thường chậm hơn, nhưng có thể được sử dụng trên một tập nhỏ các mẫu để khởi tạo các cụm ban đầu trước khi thuật toán top-down tiến hành

Phân cụm theo thứ bậc

Thuật toán phân cụm cây hậu tố