Đánh giá các thuật toán phân cụm 18

Nhưđã được giới thiệu, thuật toán AHC thường chậm khi áp dụng cho các tập tài

liệu lớn. Các thuật toán khác theo hướng này như Single-link và Group-average có

thời gian thực hiện là O(n2), đồng thời thời gian kết nối hoàn toàn (complete-link) là

O(n3). Các thuật toán theo hướng này là quá chậm so với yêu cầu của bài toán phân

cụm Web. Một điểm đáng chú ý nữa đối với các thuật toán HAC là điều kiện dừng. Đã có rất nhiều đề xuất về điều kiện dừng được đưa ra nhưng chủ yếu là dựa trên việc

điều kiện dừng đã được xác định trước (chẳng hạn, dừng khi chỉ còn 5 cụm). Điều kiện dừng đối với các thuật toán này (HAC) là cực kỳ quan trọng. Nếu như thuật toán trộn các cụm “tốt” với nhau có thể tạo ra kết quả không theo mong muốn của người dùng. Trên Web, với kết quả trả về theo truy vấn là vô cùng đa dạng (về số lượng, độ lớn, kiểu và sự phù hợp của các tài liệu) thì điều kiện dừng không tốt sẽ làm cho kết quả trở

nên nghèo nàn [6].

Thuật toán k-means thuộc vào lớp các thuật toán phân cụm thời gian tuyến tính

và là những lựa chọn tốt nhất đểđáp ứng yêu cầu về tốc độ của bài toán phân cụm on- line. Thời gian thực hiện của các thuật toán này là O(nk) trong đó k là số các cụm

mong muốn [6]. Thêm một ưu điểm của thuật toán K-means so với HAC là việc đáp

ứng các yêu cầu của bài toán phân cụm Web là nó có thể tạo ra các cụm có sự giao

thoa. Điểm yếu chính của thuật toán này là nó chạy hiệu quả nhất chỉ khi các cụm mong muốn là các miền hình cầu đối với độđo tương tựđược dùng. Không có lý do gì

để tin rằng các tài liệu sẽ thuộc vào các miền cầu. Vì vậy thuật toán có thể làm mất đi các thông tin có giá trị.

Các thuật toán như HAC hay K-means đều không là các thuật toán gia tăng. Một

số thuật toán gia tăng đã được phát triển như thuật toán phân cụm cây hậu tố (Suffix Tree Clustering - STC), với thời gian thực hiện O(n) trong đó n là kích thước của tập tài liệu[6].

Chương 2. Phân cụm văn bản tiếng Việt

Đặc trưng của tiếng Việ t 19

Mô tả bài toán và thuật toán 29