1.4 Bài toán phân cụm tài liệu Web
1.4.4 Các yêu cầu đối vơi bài toán phân cụm tài liệu Web
Để có thể phân các tài liệu Web thành các cụm việc đầu tiên là cần phải tính được độ tương tự giữa các tài liệu. Điều này dẫn đến việc cần có các phương pháp biểu diễn các tài liệu Web và các cách đo độ tương tự giữa chúng. Tiếp đến là cần có các thuật toán phân cụm để tiến hành phân cụm các tài liệu đã được biểu diễn đó một cách hiệu quả. Thuật toán cần đưa ra các điều kiện dừng và gắn nhán cho các cụm một các thích hợp nhất. Căn cứ đặc điểm và yêu cầu của bài toán nên cần phải tìm được một phương pháp đáp ứng được các yêu cầu sau: 1.Tính phù hợp: Phương pháp phải tạo nên các cụm trong đó nhóm tài liệu phù
hợp với truy vấn của người dùng tách riêng với các nhóm không phù hợp khác.
2.Tổng hợp phải dễ đọc: Tránh trường hợp thay vì người dùng không phải xem xét danh sách các tài liệu được phân hạng lại phải xem xét danh sách tài liệu trong một cụm. Do đó phương pháp phải cung cấp mô tả ngắn gọn và chính xác của các cụm.
3.Tính đa hình: Vì các tài liệu có nhiều chủ đề, nên tránh việc hạn chế một tài
liệu chỉ thuộc về một cụm [7].
4.Sử dụng các mẩu thông tin: Phương pháp phải tạo ra các cụm tốt thậm chí chỉ sử dụng các mẩu thông tin được trả về bởi máy tìm kiếm (thông thường các máy tìm kiếm chỉ trả về các mẩu thông tin mô tả về tài liệu). Điều này tránh cho việc người dùng phải chờ đợi hệ thống download toàn bộ tài liệu gốc từ Web.
dùng có thể đọc qua một tập đủ lớn các tài liệu trong một thời gian người dùng chấp nhận được. Vì vậy cần một phương pháp phân cụm khoảng 1000 mẩu thông tin trong vài giây.
6.Tính gia tăng: Để tiết kiệm thời gian, phương pháp nên xử lý từng mẩu thông tin ngay khi lấy được từ Web để có được kết quả tức thời ứng với mỗi thời điểm.