Trong các thảo luận trước đó về các thuật tốn phân cụm việc cần phải nhận ra các yêu cầu cho các thuật toán phân cụm tài liệu là cần thiết, việc này sẽ giúp chúng ta thiết kế ra các giải pháp hiệu quả và thiết thực hơn hướng tới các yêu cầu này. Tiếp đây là một danh sách của các yêu cầu này.
2.5.1. Tách các thông tin đặc trưng
Vấn đề cốt lõi của bất cứ vấn đề phân cụm nào nằm hầu hết ở việc lựa
chọn các tập đại diện của các đặc trưng của mơ hình dữ liệu. Tập các đặc trưng
được tách ra cần phải có đủ thơng tin để nó có thể biểu diễn dữ liệu thực sự đang được phân tích. Ngược lại, dù thuật tốn tốt đến mấy, nó sẽ vơ dụng nếu như sử
dụng những đặc trưng không chứa thông tin. Hơn nữa, việc làm giảm số lượng đặc trưng là rất quan trọng vì số chiều của khơng gian đặc trưng ln có tác động đến hiệu suất của thuật toán. Một so sánh được hoàn thành bởi Yang và Pedersen
[20] về hiệu quả của các phương pháp tách đặc trưng trong việc chia loại văn bản
đã chỉ ra rằng phương pháp ngưỡng tần suất xuất hiện tài liệu (DF) cho những
kết quả tốt hơn các phương thức khác và cũng cần ít các xử lý tính tốn hơn. Hơn nữa, như đã đề cập ở trên, Wong và Fu [24] đã chỉ ra rằng họ có thể làm
giảm số lượng từ đại diện bằng việc chỉ chọn các từ có ý nghĩa trong tập tài liệu. Mơ hình tài liệu cũng thực sự rất quan trọng. Hầu hều các mơ hình hay
được sử dụng đều dựa trên các từ khác nhau được tách lọc từ tập tất cả các tài
liệu và tính tốn tần suất xuất hiện của từ cũng như tần suất xuất hiện của tài liệu như đã nói ở phần trước. Một mơ hình tài liệu khác là mơ hình dựa trên cụm từ,
Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Cơng nghệ-2007.
như mơ hình được Zamir và Eztioni [5] đưa ra trong đó chúng tìm kiếm các cụm từ hậu tố có cùng điểm chung trong tài liệu sử dụng cấu trúc cây hậu tố.
2.5.2. Phân cụm chồng lặp
Với tập dữ liệu bất kỳ, đặc biệt là trong lĩnh vực web, sẽ có xu hướng
chứa một hoặc nhiều chủ đề. Khi phân cụm tài liệu, việc đưa những tài liệu vào các phân cụm liên quan với nó là cần thiết, điều này có nghĩa là vài tài liệu có thể thuộc vào nhiều hơn một phân cụm. Một mơ hình phân cụm chồng lặp cho phép việc phân cụm tài liệu với nhiều chủ đề này. Có rất ít thuật tốn cho phép phân cụm chồng lặp trong đó có phân cụm mờ [8] và cây hậu tố [5]. Trong vài trường hợp nếu việc mỗi tài liệu bắt buộc phải thuộc một phân cụm, một thuật tốn khơng chồng lặp sẽ được sử dụng hoặc một tập của các phân cụm độc lập có thể
được tạo ra bởi phân cụm mờ sau khi làm rõ các mối liên hệ giữa các phân cụm.
2.5.3. Hiệu suất
Trong lĩnh vực web, mỗi một câu lệnh tìm kiếm có thể trả về hàng trăm và thỉnh thoảng là hàng nghìn trang web. Việc phân cụm các kết quả này trong một thời gian chấp nhận được là rất cần thiết. Cần phải chú ý rằng một vài hệ
thống đã giới thiệu chỉ phân cụm trên các đoạn tin được trả lại trên hầu hết các
máy tìm kiếm chứ khơng phải tồn bộ trang web [5]. Đây là một chiến thuật hợp lý trong việc phân cụm kết quả tìm kiếm nhanh nhưng nó khơng chấp nhận được với phân cụm tài liệu vì các đoạn tin khơng cung cấp đầy đủ thông tin về nội
dung thực sự của những tài liệu này. Một thuật toán phân cụm online nên có khả năng hồn thành trong thời gian tuyến tính nếu có thể. Một thuật tốn offline thường hướng tới việc đưa ra các phân cụm có chất lượng cao hơn.
2.5.4. Khả năng khử nhiễu
Một vấn đề có thể xảy ra với nhiều thuật tốn phân cụm đó là sự xuất
hiện của nhiễu và các dữ liệu thừa. Một thuật tốn phân cụm tốt phải có khả năng giải quyết những kiểu nhiễu này và đưa ra các phân cụm có chất lượng cao và khơng bị ảnh hưởng bởi nhiễu. Trong phân cụm có thứ bậc, ví dụ các tính tốn khoảng cách láng giềng gần nhất và láng giềng xa nhất, rất nhạy cảm với các dữ
Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Cơng nghệ-2007.
liệu thừa do đó khơng nên được sử dụng nếu có thể. Phương thức trung bình kết nối là thích hợp nhất với dữ liệu bị nhiễu.
2.5.5. Tính tăng
Một đặc trưng rất đáng quan tâm trong các lĩnh vực như web đó là khả
năng cập nhật phân cụm có tính tăng. Những tài liệu mới cần phải được đưa vào các phân cụm tương ứng mà khơng phải phân cụm lại tồn bộ tập tài liệu. Những tài liệu đã được chỉnh sửa nên được xử lý lại và đưa đến các phân cụm tương ứng nếu có thể. Thật đáng để nhớ rằng tính tăng càng hiệu quả thì hiệu suất cũng được cải thiện.
2.5.6. Việc biểu diễn kết quả
Một thuật tốn phân cụm là tốt nếu nó có khả năng biểu diễn một sự mô tả của các phân cụm mà nó đưa ra ngắn gọn và chính xác với người sử dụng. Các tổng kết của phân cụm nên có đủ tiêu biểu về nội dung tương ứng để người sử
dụng có thể đưa ra quyết định nhanh xem phân cụm nào mà họ cảm thấy quan tâm.