Thu thập thông tin là lấy từ một văn bản ra một số dữ liệu phù hợp với một câu hỏi. Một số tài liệu được miêu tả bởi đại diện, như tiêu đề, danh sách từ khoá, hoặc tóm tắt. Hiện nay có quá nhiều thông tin trực tuyến, tốt nhất là sử dụng toàn bộ văn bản, có thể chia thành các đoạn, mỗi đoạn coi như một tài liệu riêng biệt cho việc mục đích thu thập thông tin. Các câu hỏi thường là danh sách các từ khoá. Trong các hệ thống thu thập thông tin ban đầu, các câu hỏi là sự kết hợp logic các từ khoá. Khi một câu hỏi không tìm thấy tài liệu, ví dụ, nó không đủ rộng để tìm được một vài tài liệu. Chuyển một “and” thành một “or” là một khả năng; thêm vào một ngăn cách là một khả năng nữa, nhưng có khi lại tìm thấy quá nhiều và không đủ hướng dẫn.
Hầu hết các hệ thống hiện đại đều chuyển từ kiểu logic sang kiểu không gian vector, trong
đó danh sách các từ (cả trong tài liệu, trong câu hỏi) đều được coi như một vettor trong không gian n-chiều, ởđó n là số dấu hiệu phân biệt của tập hợp tài liệu. Nó sẽđược coi như một vector. Khi đó việc tìm các tài liệu chính là việc so sánh vector này với tập hợp các vector khác và đưa ra những véc tơ gần nhất với nó. Kiểu véctơ linh động hơn kiểu logic bởi vì có thể sắp xếp các tài liệu bởi khoảng cách tới câu hỏi, và tài liệu nào gần nhất được báo cáo trước.
Kiểu này có nhiều dạng. Một vài hệ thống cho phép các câu hỏi phát biểu rằng hai từ phải xuất hiện gần nhau mới được đếm như một lần, một vài hệ thống khác sử dụng từđiển đồng nghĩa làm tăng thêm các từ trong câu hỏi bằng các từ đồng nghĩa với nó. Chỉ những hệ thống tồi nhất mới đếm tất cả các số hạng trong vector tương đương. Nhiều hệ thống đánh giá trọng lượng các số
hạng khác nhau. Cách tốt nhất là cho số hạng trọng lượng lớn nếu nó là từ đặc trưng: nếu nó xuất hiện trong một số ít các văn bản hơn là trong nhiều văn bản.