Trong các thảo luận trước đó về các thuật toán phân cụm việc cần phải nhận ra các yêu cầu cho các thuật toán phân cụm tài liệu là cần thiết, việc này sẽ giúp chúng ta thiết kế ra các giải pháp hiệu quả và thiết thực hơn hướng tới các yêu cầu nàỵ Tiếp đây là một danh sách của các yêu cầu nàỵ
2.5.1. Tách các thông tin đặc trưng
Vấn đề cốt lõi của bất cứ vấn đề phân cụm nào nằm hầu hết ở việc lựa chọn các tập đại diện của các đặc trưng của mô hình dữ liệụ Tập các đặc trưng được tách ra cần phải có đủ thông tin để nó có thể biểu diễn dữ liệu thực sự đang được phân tích. Ngược lại, dù thuật toán tốt đến mấy, nó sẽ vô dụng nếu như sử dụng những đặc trưng không chứa thông tin. Hơn nữa, việc làm giảm số lượng đặc trưng là rất quan trọng vì số chiều của không gian đặc trưng luôn có tác động đến hiệu suất của thuật toán. Một so sánh được hoàn thành bởi Yang và Pedersen [20] về hiệu quả của các phương pháp tách đặc trưng trong việc chia loại văn bản đã chỉ ra rằng phương pháp ngưỡng tần suất xuất hiện tài liệu (DF) cho những kết quả tốt hơn các phương thức khác và cũng cần ít các xử lý tính toán hơn. Hơn nữa, như đã đề cập ở trên, Wong và Fu [24] đã chỉ ra rằng họ có thể làm giảm số lượng từ đại diện bằng việc chỉ chọn các từ có ý nghĩa trong tập tài liệụ
Mô hình tài liệu cũng thực sự rất quan trọng. Hầu hều các mô hình hay được sử dụng đều dựa trên các từ khác nhau được tách lọc từ tập tất cả các tài liệu và tính toán tần suất xuất hiện của từ cũng như tần suất xuất
Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.
hiện của tài liệu như đã nói ở phần trước. Một mô hình tài liệu khác là mô hình dựa trên cụm từ, như mô hình được Zamir và Eztioni [5] đưa ra trong đó chúng tìm kiếm các cụm từ hậu tố có cùng điểm chung trong tài liệu sử dụng cấu trúc cây hậu tố.
2.5.2. Phân cụm chồng lặp
Với tập dữ liệu bất kỳ, đặc biệt là trong lĩnh vực web, sẽ có xu hướng chứa một hoặc nhiều chủ đề. Khi phân cụm tài liệu, việc đưa những tài liệu vào các phân cụm liên quan với nó là cần thiết, điều này có nghĩa là vài tài liệu có thể thuộc vào nhiều hơn một phân cụm. Một mô hình phân cụm chồng lặp cho phép việc phân cụm tài liệu với nhiều chủ đề nàỵ Có rất ít thuật toán cho phép phân cụm chồng lặp trong đó có phân cụm mờ [8] và cây hậu tố [5]. Trong vài trường hợp nếu việc mỗi tài liệu bắt buộc phải thuộc một phân cụm, một thuật toán không chồng lặp sẽ được sử dụng hoặc một tập của các phân cụm độc lập có thể được tạo ra bởi phân cụm mờ sau khi làm rõ các mối liên hệ giữa các phân cụm.
2.5.3. Hiệu suất
Trong lĩnh vực web, mỗi một câu lệnh tìm kiếm có thể trả về hàng trăm và thỉnh thoảng là hàng nghìn trang web. Việc phân cụm các kết quả này trong một thời gian chấp nhận được là rất cần thiết. Cần phải chú ý rằng một vài hệ thống đã giới thiệu chỉ phân cụm trên các đoạn tin được trả lại trên hầu hết các máy tìm kiếm chứ không phải toàn bộ trang web [5]. Đây là một chiến thuật hợp lý trong việc phân cụm kết quả tìm kiếm nhanh nhưng nó không chấp nhận được với phân cụm tài liệu vì các đoạn tin không cung cấp đầy đủ thông tin về nội dung thực sự của những tài liệu nàỵ Một thuật toán phân cụm online nên có khả năng hoàn thành trong
Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.
thời gian tuyến tính nếu có thể. Một thuật toán offline thường hướng tới việc đưa ra các phân cụm có chất lượng cao hơn.
2.5.4. Khả năng khử nhiễu
Một vấn đề có thể xảy ra với nhiều thuật toán phân cụm đó là sự xuất hiện của nhiễu và các dữ liệu thừạ Một thuật toán phân cụm tốt phải có khả năng giải quyết những kiểu nhiễu này và đưa ra các phân cụm có chất lượng cao và không bị ảnh hưởng bởi nhiễụ Trong phân cụm có thứ bậc, ví dụ các tính toán khoảng cách láng giềng gần nhất và láng giềng xa nhất, rất nhạy cảm với các dữ liệu thừa do đó không nên được sử dụng nếu có thể. Phương thức trung bình kết nối là thích hợp nhất với dữ liệu bị nhiễụ
2.5.5. Tính tăng
Một đặc trưng rất đáng quan tâm trong các lĩnh vực như web đó là khả năng cập nhật phân cụm có tính tăng. Những tài liệu mới cần phải được đưa vào các phân cụm tương ứng mà không phải phân cụm lại toàn bộ tập tài liệụ Những tài liệu đã được chỉnh sửa nên được xử lý lại và đưa đến các phân cụm tương ứng nếu có thể. Thật đáng để nhớ rằng tính tăng càng hiệu quả thì hiệu suất cũng được cải thiện.
2.5.6. Việc biểu diễn kết quả
Một thuật toán phân cụm là tốt nếu nó có khả năng biểu diễn một sự mô tả của các phân cụm mà nó đưa ra ngắn gọn và chính xác với người sử dụng. Các tổng kết của phân cụm nên có đủ tiêu biểu về nội dung tương ứng để người sử dụng có thể đưa ra quyết định nhanh xem phân cụm nào mà họ cảm thấy quan tâm.
Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.