Rõ ràng là kết quả tìm kiếm trở lên không có giá trị khi trả về tập tất cả
các tài liệu có trong tập hợp (nghĩa là tập chỉ mục của các tài liệu chứa nhiều từ giống nhau). Độ phân biệt của mục từ là giá trị phân biệt mức độ tương
đương giữa các tài liệu. Nếu một mục từ có trong chỉ mục mà làm cho độ
tương tự của các tài liệu cao thì nó có độ phân biệt kém (nghĩa là từ này thường xuyên xuất hiện trong các tài liệu) và ngược lại. Như vậy, các mục từ
có độ phân biệt cao nên được chọn để lập chỉ mục. Thực chất, việc sử dụng
độ phân biệt này cũng cho kết quả tương đương với việc sử dụng tần số
nghịch đảo và tỉ lệ tín hiệu nhiễu.
Một chức năng khác để xác định tầm quan trọng của một từ là tính giá trị phân biệt của từ đó. Gọi SIMILAR(Di, Dj) là độ tương quan giữa cặp tài liệu Di, Dj. Khi đó, độ tương quan trung bình của tập tài liệu là:
∑ ∑ = = ≠ = n 1 j j i n 1 i j i SIMILAR(D ,D ) CONSTANT AVGSIM
Gọi AVGSIMk là độ tương quan trung bình của tập tài liệu khi bỏ từ k. Rõ ràng, nếu từ k xuất hiện thường xuyên trong tập tài liệu thì khi bỏ từ k, độ
tương quan trung bình sẽ giảm. Ngược lại, nếu từ k chỉ tập trung trong một số
tài liệu, khi bỏ từ k, độ tương quan trung bình sẽ tăng lên.
Giá trị phân biệt DISVALUEk của từ k được tính như sau:
AVGSIM (AVGSIM)
DISCVALUEk = k −
Trọng số của từ k trong tài liệu thông tin được tính bằng cách kết hợp giữa
FREQik và DISCVALUEk:
k ik
ik FREQ DISCVALUE
Phép tính DISCVALUEk cho tất cả những mục từ k, những mục từ có thể được xếp theo thứ tự giảm của giá trị phân biệt DISCVALUEk. Những mục từ chỉ mục có thể thuộc một trong ba nhóm dựa theo giá trị độ phân biệt của chúng như sau:
• Độ phân biệt tốt đối vơi DISCVALUEk dương, những mục từ có độ
phân biệt cao.
• Đối với DISCVALUEk gần bằng 0, độ phân biệt giữa các tài liệu không khác nhau khi thêm vào hay bớt đi những mục từđó.
• Độ phân biệt yếu khi DISCVALUEk âm, những mục từ có độ phân
biệt thấp (độ tương tự cao).