Phân cụm bằng cách phân mảnh

Một phần của tài liệu Phương pháp phân cụm tài liệu web và áp dụng vào máy tìm kiếm (Trang 35 - 37)

Lớp thuật toán phân cụm này làm việc bằng cách nhận ra các phân cụm tiềm năng cùng một lúc trong khi lặp lại việc cập nhật các phân cụm để làm tối

ưu một vài chức năng. Lớp các thuật toán nổi tiếng của nó là thuật toán K-means và các biến thể của nó. K-means bắt đầu bằng việc chọn lựa ngẫu nhiên k phân cụm hạt nhân, sau đó đưa các đối tượng vào phân cụm có ý nghĩa gần nó nhất. Thuật toán lặp lại việc tính toán ý nghĩa của các phân cụm và cấp độ thành viên của các đối tượng mới. Quá trình xử lý tiếp tục cho đến một số lần lặp nhất định hoặc khi không còn sự thay đổi nào được phát hiện trong ý nghĩa của các phân cụm [17]. Các thuật toán K-means có kích cỡO(nkT) trong đó T là số lượng vòng lặp. Dù sao, một nhược điểm chính của K-means là nó giảđịnh một cấu trúc phân cụm cầu và không thểđược áp dụng với các miền dữ liệu mà các cấu trúc phân cụm không phải là hình cầu.

Một biến thể của K-means cho phép sự chồng lặp của các phân cụm đó là C-means mờ (FCM: Fuzzy C-means). Thay vì có các quan hệ thành viên kiểu nhị

phân giữa các đối tượng và các phân cụm tiêu biểu, FCM cho phép các cấp độ

khác nhau của cấp độ thành viên [17]. Krishnapuram [8] đã đưa ra một phiên bản

đã chỉnh sửa của FCM được coi là Fuzzy C-Medoids (FCMdd) trong đó các ý nghĩa được thay bằng các ngữ cảnh. Thuật toán này tương đối nhanh và có cỡ là

O(n2) và có cường độ hoạt động nhanh hơn FCM.

Do sự lựa chọn ngẫu nhiên của các phân cụm hạt nhân những thuật toán này, chúng đối lập với phân cụm có thứ bậc. Do đó kết quả của các lần chạy của thuật toán là không thực sựổn định. Một vài phương pháp đã được cải tiến bằng cách tìm ra các phân cụm hạt nhân ban đầu “tốt” sau đó mới sử dụng các thuật toán này. Có một ví dụ rất hay trong hệ thống Phân chia/Thu thập [15].

Có một cách tiếp cận gộp cả việc phân cụm phân mảnh và phân cụm lai ghép đó là thuật toán chia cách K-means (Bisecting K-means) đã nói ở phần trước. Thuật toán này là một thuật toán phân chia trong đó việc phân chia phân cụm sử dụng K-means để tìm kiếm 2 phân cụm con. Trong Steinbach đã chỉ ra

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

rằng hiệu suất của thuật toán Bisecting K-means là tuyệt vời so với K-means bình thường cũng như UPGMA [4]

Cần phải chú ý rằng một đặc trưng quan trọng của các thuật toán có thứ

bậc là hầu hết đều có cập nhật theo tính tăng và các đối tượng mới có thể được

đưa vào các phân cụm liên quan rất dễ dàng bằng việc lần theo một đường dẫn nào đó tới vị trí thích hợp. STC [5] và DC- tree [24] là hai ví dụ về các thuật toán này. Nói theo cách khác các thuật toán phân chia đồng loạt thường yêu cầu việc cập nhật đồng loạt về ý nghĩa của các phân cụm và thậm chí là các đối tượng thành viên. Việc cập nhật có tính tăng là rất cần thiết với các ứng dụng hoạt động on-line.

Một phương pháp nhằm thi hành thuật toán phân cụm là phân hoạch tập tài liệu vào k tập con hoặc các cụm D1, …, Dk để làm cực tiểu khoảng cách bên

trong cụm ∑ ∑i d dD d d

i ( , 2)

, 2 1

1 δ hoặc làm cực đại sự tương tự bên trong

cụm ∑ ∑i d dD d d

i ( , 2)

, 2 1

1 ρ .

Nếu một biểu diễn bên trong của các tài liệu là có giá trị thì biểu diễn này cũng được dùng để xác định một biểu diễn của các cụm liên quan đến cùng mô hình. Chẳng hạn, nếu các tài liệu được biểu diễn sử dụng mô hình không gian vector, một cụm của các tài liệu có thểđược biểu diễn bởi trọng tâm (trung bình) của các tài liệu vector. Khi một biểu diễn cụm là có giá trị, một mục tiêu có thể

phân hoạch D thành D1, …,Dk để cực tiểu hóa i d D (d, Di) i G ∑ ∑ ∈ δ hoặc cực đại hóa i d D (d, Di) i G ∑ ∑ ∈ ρ trong đó Di là biểu diễn vector của cụm i. Có thể

xem xét tới việc gán tài liệu d cho cụm i như việc đặt một giá trị Boolean zd,i là 1.

Điều này có thể phát sinh ra việc phân cụm mềm tại đó zd,i là một số thực từ 0

đến 1. Trong bối cảnh như vậy, ta có thể muốn tìm zd,i để cực tiểu hóa

) , ( i i d D d D i G ∑ ∑∈ δ hoặc cực đại hóa i d D (d, Di) i G ∑ ∑ ∈ ρ .

Việc phân hoạch có thể thực hiện theo hai cách. Bắt đầu với mỗi tài liệu trong một nhóm của nó và kết hợp các nhóm tài liệu lại với nhau cho đến khi số

Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.

thể khai báo số các phân hoạch mong muốn và gán các tài liệu vào các phân hoạch; cách này gọi là phân cụm top-down.

Có thể xem xét một kỹ thuật phân cụm bottom-up dựa vào quá trình lặp lại việc trộn các nhóm của các tài liệu tương tự nhau cho đến khi đạt được số

cụm mong muốn, và một kỹ thuật top-down sẽ làm mịn dần bằng cách gắn các tài liệu vào các cụm được thiết đặt trước. Kỹ thuật bottom-up thường chậm hơn, nhưng có thể được sử dụng trên một tập nhỏ các mẫu để khởi tạo các cụm ban

đầu trước khi thuật toán top-down tiến hành

Một phần của tài liệu Phương pháp phân cụm tài liệu web và áp dụng vào máy tìm kiếm (Trang 35 - 37)