Chúng ta đang quan tâm giải quyết bài toán phân cụm tài liệu cho các trang Web. Theo truyền thống, nhiệm vụ phân lớp tài liệu được tiến hành thủ
cơng. Để gán một tài liệu với một lớp thích hợp, người thực hiện đầu tiên sẽ phân tích các nội dung của tài liệu. Bởi vậy một số lượng lớn nỗ lực của con người sẽ
bị yêu cầu. Đã có một vài cơng việc nghiên cứu hướng dẫn việc phân cụm tự
động văn bản text. Một hướng đi là phân lớp văn bản text bằng cách sử dụng các
kỹ thuật học máy. Tuy nhiên, các thuật tốn này dựa trên một bộ ví dụ huấn luyện đúng và sai cho học các lớp văn bản. Chất lượng của kết quả các lớp muốn cao thì phải phụ thuộc vào các ví dụ huấn luyện phù hợp. Có rất nhiều thuật ngữ và các lớp trên World Wide Web (hoặc chỉ là Web), và rất nhiều thuật ngữ và khái niệm được tạo ra hằng ngày. Thật là khơng thể để có các chun gia trong lĩnh vực này để định nghĩa các ví dụ huấn luyện để học một người phân loại cho từng lớp theo cách như trên.
Để tiến hành xử lý phân lớp tài liệu tự động, các kỹ thuật phân cụm đã được sử dụng. Sự thu hút của phân tích phân cụm là ở việc nó có thể tìm thấy các
cụm trực tiếp từ dữ liệu đưa vào mà không cần nhờ vào bất cứ thông tin nào đã
được xác định trước, chẳng hạn như các ví dụ huấn luyện cung cấp bởi các
chuyên gia trong lĩnh vực.
Trong chương này, luận văn xin trình bày một số các thuật tốn phân cụm thích hợp cho việc phân cụm trang Web bởi các đặc tính tăng của chúng, cụ thể đó là thuật tốn phân cụm cây hậu tố (STC) và thuật toán sử dụng cây phân cụm tài liệu (DC-Tree).
Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.