Như đã trình bày ở chương 1, phân cụm tài liệu đã và đang được nghiên cứu như là một cách cải tiến hiệu năng cho cách máy tìm kiếm bằng cách phân cụm trước toàn bộ tập hợp. M. Steinbach và các đồng tác giả [4] đã cung cấp một số nội dung khái quát về các thuật toán phân cụm tài liệụ
Theo các tác giả [4], rất nhiều thuật toán phân loại tài liệu đã xuất hiện trong các tài liệụ Các thuật toán Agglomerative Hierarchical Clustering (AHC – Phân cụm tích tụ có thứ bậc) được sử dụng thường xuyên nhất. Những thuật toán này thường là chậm khi được áp dụng với một tập lớn các tài liệụ Các phương thức liên kết đơn (Single-link) và trung bình nhóm (group-average) thường có độ phức tạp thời gian khoảng O(n2) trong khi liên kết đầy đủ thường mất khoảng O(n3).
Có nhiều điều kiện kết thúc cho các thuật toán AHC được đưa ra, nhưng chúng thường là được dựa trên các các quyết định cứng. Những thuật toán này rất nhạy cảm với các điều kiện dừng – khi thuật toán trộn lỗi nhiều phân cụm tốt, kết quả có thể là vô nghĩa đối với người dùng. Trong lĩnh vực phân cụm web những kết quả của các câu truy vấn có thể là cực kỳ nhiều (theo số lượng, độ dài, kiểu và độ quan hệ với tài liệu), việc nhạy cảm với các điều kiện dừng rất dễ dẫn đến các kết quả nghèo nàn. Một thuộc tính nữa của phân cụm Web đó là chúng ta thường xuyên nhận được nhiều phần ko cần thiết. Đó là một kiểu nhiễu có thể gây giảm độ ảnh hưởng của các tiêu chí ngừng thường được sử dụng hiện naỵ
Các thuật toán phân cụm có thời gian tuyến tính là các ứng cử viên cho yêu cầu về tốc độ đối với các phân cụm online [11].
Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.
Những thuật toán này bao gồm thuật toán K-Means có độ phức tạp thời gian là O(nkT), trong đó k là số lượng của các phân cụm và T là số
lượng chu trình lặp và phương thức Single Pass – O(nK) với K là số lượng phân cụm đã được tạo rạ Một điểm mạnh của K-Means đó là không giống với các thuật toán AHC, nó có thể hoạt động trên các phân cụm chồng chéọ Bất lợi chính của nó đó là nó được coi như là hiệu quả nhất khi các phân cụm đã được tạo ra gần như làm tròn xấp xỉ trên đơn vị đo đạc được sử dụng. Điều này có nghĩa là không có lý do để tin rằng những tài liệu đó nên được phân loại vào các phân cụm xấp xỉ.
Phương thức Single Pass cũng gặp phải vấn đề này cũng như gặp phải sự phụ thuộc thứ tự và có xu hướng đưa ra các phân cụm lớn. Theo [4,11], đây là một thuật toán phân cụm tăng nổi tiếng nhất.
Buckshot và Fractionation là 2 thuật toán phân cụm nhanh, thời tuyến tính do Cutting phát triển năm 1992 [4]. Factionation là một sự xấp xỉ với AHC với việc tìm kiếm cho hai phân cụm gần nhau nhất không được thực hiện một cách tổng thể thay vào đó là thực hiện một cách cục bộ hoặc trong các vùng giới hạn. Thuật toán này hiển nhiên sẽ vấp phải cùng nhược điểm với AHC – các điều kiện dừng độc đoán và hiệu năng thấp khi có nhiều phần không liên quan. Buckshot là một giải thuận K-Means với việc các phân cụm trung tâm được tạo ra bởi việc áp dụng phân cụm AHC với một tập mẫu các tài liệụ Việc sử dụng tập mẫu là có rủi ro khi có thể có người có hứng thú với các phân cụm nhỏ mà có thể không có trong các mẫụ Tuy nhiên, tuy là các thuật toán nhanh song chúng không phải là thuật toán phân cụm tăng.
Tất cả các thuật toán được nói ở trên coi một tài liệu là một tập các từ và không phải một tập các từ có thứ tự, do đó có mất đi các thông tin
Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.
quan trọng. Các cụm từ đã được sử dụng từ lâu để cung cấp các chỉ mục từ trong các hệ thống IR. Việc sử dụng các phân tử từ vựng và các cụm từ có cú pháp đã được đưa ra để làm tăng khả năng dự đoán mà không cần đến việc phân tích lại tài liệụ Các cụm từ được sinh ra bởi các phương thức thống kê đơn giản đã và đang được sử dụng một cách thành công. Nhưng những phương pháp trên chưa được áp dụng rộng rãi trong việc phân cụm tài liệụ
Ngoài ra, thuật toán sử dụng DC-tree [24] (Document Clustering Tree: cây phân cụm tài liệu) có thể phân cụm các tài liệu mà không cần tập huấn luyện. Với DC-tree, một đối tượng dữ liệu đưa vào không bắt buộc phải chèn vào mức(vị trí) thấp khi không tồn tạo một nút con tương tự cho đối tượng dữ liệụ Điều này ngăn cản một vài dữ liệu không tương tự từ việc đặt cùng nhaụ Kết quả là thuật toán phân cụm dựa trên cấu trúc DC- tree là ổn định với yêu cầu đưa thêm tài liệu và dễ chấp nhận các tài liệu “nhiễu”.
Trên Web, có một vài nỗ lực để kiểm soát số lượng lớn tài liệu được trả lại bởi các máy tìm kiếm. Nhiều máy tìm kiếm cung cấp các tính năng tìm kiếm chọn lọc. Ví dụ, AltaVista gợi ý các từ nên được thêm hoặc loại bỏ khỏi câu truy vấn. Những từ này được tổ chức theo nhóm, nhưng các nhóm này không đại diện cho các phân cụm của tài liệụ Máy tìm kiếm Northern Light (www.nlsearch.com) cung cấp “Custom Search Folders” (Các thư mục tìm kiếm quen thuộc), các thư mục này được đặt tên bằng một từ hoặc một từ kép và bao gồm tất cả các tài liệu có chứa cái tên đó. Northern Light không tiết lộ cách thức sử dụng để tạo ra các thư mục đó cũng như chi phí của nó. Trong chương 3, luận văn đi sâu nghiên cứu hai thuật toán phân cụm có tính tăng thích hợp cho việc phân cụm trang Web
Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.
và hơn nữa là dễ dàng áp dụng cho phân cụm Tiếng Việt- thuật toán phân cụm câu hậu tố (STC) và thuật toán phân cụm sử dụng DC-Treẹ