Mô hình không gian véctơđược đề xuất bởi Salton và CS (1975). Trong mô hình đó các tài liệu và truy vấn được biểu diễn trong một không gian véctơđa chiều, với mỗi chiều tương
ứng với một term19. Khi mỗi term là một từ thì số chiều của một véctơ bằng tổng số từ
trong tập tài liệu huấn luyện. Độ tương tự giữa một tài liệu và một truy vấn được đo bằng
cosine của góc giữa hai véctơ - véctơ của tài liệu và véctơ của truy vấn. Salton và CS
19 Chúng tôi không dịch thuật ngữterm, sử dụng nguyên bản tiếng Anh, với nghĩa đó là một từ hoặc cụm từ
quan trọng. Tổng số trang thực thể 1.660.067 Tổng số trang đổi hướng 1.652.676 Tổng số trang phân giải nhập nhằng 74.129 Tổng số thể loại 210.292 Tổng số liên kết ra của các trang thực thể 55.943.564 Tổng số liên kết giữa các trang thể loại 448.110
(1975) cũng cho thấy rằng việc gán trọng số cho các term dựa vào tần suất xuất hiện của chúng trong tập tài liệu huấn luyện cải thiện đáng kể hiệu quả truy hồi tài liệu, so với việc gán trọng số cho các term giới hạn trong hai giá trị 0 và 1. Có nhiều phương pháp gán trọng số cho các term, trong đó tf.idfđược xem là hiệu quả và được sử dụng rộng rãi nhất, với nhiều cách tính khác nhau đã được đề xuất cho tf và idf. Sau đây là một trong những cách đó.
Với mỗi tài liệu d ∈D, tần suất xuất hiện của term t trong d gọi là tfd,t và được tính bằng số lần xuất hiện của t trong tài liệu đó. Số tài liệu trong D có chứa t kí hiệu là dft. Giá
trịidft tính trên D là logarít của giá trịđảo của dft, và được tính bằng log
t
df D
. Do đó trọng
số của một term t trong tài liệu d là wd,t= tfd,t × idft = tfd,t ×log
t
df D
.