Vấn đề cốt lõi của bất cứ vấn đề phân cụm nào nằm hầu hết ở việc lựa chọn các tập đại diện của các đặc trưng của mô hình dữ liệu. Tập các đặc trưng
được tách ra cần phải có đủ thông tin để nó có thể biểu diễn dữ liệu thực sựđang
được phân tích. Ngược lại, dù thuật toán tốt đến mấy, nó sẽ vô dụng nếu như sử
dụng những đặc trưng không chứa thông tin. Hơn nữa, việc làm giảm số lượng
đặc trưng là rất quan trọng vì số chiều của không gian đặc trưng luôn có tác động
đến hiệu suất của thuật toán. Một so sánh được hoàn thành bởi Yang và Pedersen [20] về hiệu quả của các phương pháp tách đặc trưng trong việc chia loại văn bản
đã chỉ ra rằng phương pháp ngưỡng tần suất xuất hiện tài liệu (DF) cho những kết quả tốt hơn các phương thức khác và cũng cần ít các xử lý tính toán hơn. Hơn nữa, như đã đề cập ở trên, Wong và Fu [24] đã chỉ ra rằng họ có thể làm giảm số lượng từđại diện bằng việc chỉ chọn các từ có ý nghĩa trong tập tài liệu.
Mô hình tài liệu cũng thực sự rất quan trọng. Hầu hều các mô hình hay
được sử dụng đều dựa trên các từ khác nhau được tách lọc từ tập tất cả các tài liệu và tính toán tần suất xuất hiện của từ cũng như tần suất xuất hiện của tài liệu nhưđã nói ở phần trước. Một mô hình tài liệu khác là mô hình dựa trên cụm từ,
Nguyễn Thị Thu Hằng-Luận văn cao học-Trường Đại học Công nghệ-2007.
như mô hình được Zamir và Eztioni [5] đưa ra trong đó chúng tìm kiếm các cụm từ hậu tố có cùng điểm chung trong tài liệu sử dụng cấu trúc cây hậu tố.