2. Tổng quan về phương pháp lập chỉ mục ([I.1], [I.2], [II.1])
2.2.3 Giá trị độ phân biệt của mục từ:
Không ai muốn kết quả của việc tìm kiếm lại trả về tập tất cả các tài liệu có trong tập hợp (nghĩa là tập chỉ mục của các tài liệu chứa nhiều từ giống nhau). Độ phân biệt của mục từ là giá trị phân biệt mức độ tương đương giữa các tài liệu. Nếu một mục từ có trong chỉ mục mà làm cho độ tương tự của các tài liệu cao thì nó có độ phân biệt kém (nghĩa là từ này thường xuyên xuất hiện trong các tài liệu) và ngược lại. Như vây các mục từ có độ phân biệt cao nên được chọn để lập chỉ mục. Thực chất việc sử
dụng độ phân biệt này cũng cho kết quả tương đương với việc sử dụng tần số nghịch đảo và tỉ lệ tín hiệu nhiễu.
noisek = ∑ (nki / nk ).log2 (nki / nk ) ∀i=1,nDoc
Gọi Sim(Di,Dj) là độ tương tự của cặp tài liệu Di, Dj.
Độ tương tự trung bình được tính trên tất cả các cặp tài liệu:
Gọi Arv_Simk là độ tương tự trung bình được tính trong trường hợp mục từ k bị
loại bỏ khỏi tập chỉ mục.
Khi đó trọng lượng mục từ k có thể được tính theo giá trị độ phân biệt DiscValueK theo công thức:
Phép tính DiscValueK cho tất cả những mục từ k, những mục từ có thểđược xếp theo thứ tự giảm của giá trị phân biệt DiscValueK. Những mục từ chỉ mục có thể thuộc một trong ba nhóm dựa theo giá trịđộ phân biệt của chúng như sau:
¾ Độ phân biệt tốt đối vơi DiscValueKdương, những mục từ có độ phân biệt cao.
¾ Đối với DiscValueK gần bằng 0, độ phân biệt giữa các tài liệu không khác nhau khi thêm vào hay bớt đi những mục từđó.
¾ Độ phân yếu khi DiscValueK âm, những mục từ có độ phân biệt thấp (độ
tương tự cao ).