Tài nguyên trên internet rất phong phú và đa dạng, có thể nói, người sử dụng có thể tìm kiếm thông tin về mọi lĩnh vực trên internet. Các máy tìm kiếm là công cụ tìm kiếm hỗ trợ rất tốt cho người sử dụng. Tuy nhiên, với các máy tìm kiếm khá phổ biến
như Google [14], Yahoo [16], MSN [17] thì khi nhận một truy vấn từ người dùng, các
máy tìm kiếm này thường trả về một danh sách dài các kết quả tìm kiếm. Các kết quả được xếp hạng theo sự phù hợp với truy vấn của người dùng dựa vào một số yếu tố
như các từ khóa trong tài liệu, mức tương tự với truy vấn, dựa theo link liên kêt,… Tuy nhiên, danh sách kết quả trả về thường rất lớn. Thêm vào đó, đối với các truy vấn “nhập nhằng”, có nhiều chủđề liên quan thì người dùng rất khó khăn và tốn nhiều thời gian xem xét các tiêu đề và đoạn tóm lược của tài liệu để tìm ra kết quả mong muốn.
Ví dụ với truy vấn “việt nam” trên máy tìm kiếm google. Số kết quả trả về là rất
28
Hình 6: Ví dụ với truy vấn “Việt Nam” trên máy tìm kiếm google[14]
Từ vấn đề được nêu ra ở trên, một giải pháp đưa ra là phân cụm các kết quả trả
về của máy tìm kiếm thành các nhóm khác nhau. Người sử dụng dựa vào mô tả của
các nhóm để chọn ra chủ đề mà họ cần tìm. Với mỗi chủ đề, các tài liệu có độ quan trọng cao sẽđược đặt ở trên.
Vivisimo là tiêu biểu của phân cụm các kết quả tìm kiếm dựa theo cụm từ quan trọng. Lấy ví dụ với truy vấn là “Việt Nam” trên máy tìm kiếm Vivisimo thu được 264 kết quả tìm kiếm, chia thành các cụm với mô tả các cụm rất trực quan.
29