Giá trị độ phân biệt của mục từ (Term Discrimination Value)

Một phần của tài liệu Luận văn: Nghiên cứu và đánh giá các hệ truy xuất thông tin ppt (Trang 35 - 36)

Rõ ràng là kết quả tìm kiếm trở lên không có giá trị khi trả về tập tất cả

các tài liệu có trong tập hợp (nghĩa là tập chỉ mục của các tài liệu chứa nhiều từ giống nhau). Độ phân biệt của mục từ là giá trị phân biệt mức độ tương

đương giữa các tài liệu. Nếu một mục từ có trong chỉ mục mà làm cho độ

tương tự của các tài liệu cao thì nó có độ phân biệt kém (nghĩa là từ này thường xuyên xuất hiện trong các tài liệu) và ngược lại. Như vậy, các mục từ

có độ phân biệt cao nên được chọn để lập chỉ mục. Thực chất, việc sử dụng

độ phân biệt này cũng cho kết quả tương đương với việc sử dụng tần số

nghịch đảo và tỉ lệ tín hiệu nhiễu.

Một chức năng khác để xác định tầm quan trọng của một từ là tính giá trị phân biệt của từ đó. Gọi SIMILAR(Di, Dj) là độ tương quan giữa cặp tài liệu Di, Dj. Khi đó, độ tương quan trung bình của tập tài liệu là:

∑ ∑ = = ≠ = n 1 j j i n 1 i j i SIMILAR(D ,D ) CONSTANT AVGSIM

Gọi AVGSIMk là độ tương quan trung bình của tập tài liệu khi bỏ từ k. Rõ ràng, nếu từ k xuất hiện thường xuyên trong tập tài liệu thì khi bỏ từ k, độ

tương quan trung bình sẽ giảm. Ngược lại, nếu từ k chỉ tập trung trong một số

tài liệu, khi bỏ từ k, độ tương quan trung bình sẽ tăng lên.

Giá trị phân biệt DISVALUEk của từ k được tính như sau:

AVGSIM (AVGSIM)

DISCVALUEk = k −

Trọng số của từ k trong tài liệu thông tin được tính bằng cách kết hợp giữa

FREQik và DISCVALUEk:

k ik

ik FREQ DISCVALUE

Phép tính DISCVALUEk cho tất cả những mục từ k, những mục từ có thể được xếp theo thứ tự giảm của giá trị phân biệt DISCVALUEk. Những mục từ chỉ mục có thể thuộc một trong ba nhóm dựa theo giá trị độ phân biệt của chúng như sau:

• Độ phân biệt tốt đối vơi DISCVALUEk dương, những mục từ có độ

phân biệt cao.

• Đối với DISCVALUEk gần bằng 0, độ phân biệt giữa các tài liệu không khác nhau khi thêm vào hay bớt đi những mục từđó.

• Độ phân biệt yếu khi DISCVALUEk âm, những mục từ có độ phân

biệt thấp (độ tương tự cao).

Một phần của tài liệu Luận văn: Nghiên cứu và đánh giá các hệ truy xuất thông tin ppt (Trang 35 - 36)

Tải bản đầy đủ (PDF)

(80 trang)