Trong truy tìm thông tin (IR), mô hình xác suất là một mô hình sử dụng việc xếp hạng các tài liệu theo thứ tự giảm dần của xác suất đánh giá của những tài liệu liên quan đến nhu cầu thông tin của người sử dụng.
Những nỗ lực để phát triển một lý thuyết xác suất truy tìm được thực hiện trên ba mươi năm trước đây [Maron và Kuhns 1960; Miller 1971]. Kể từ đó, đã có một sự phát triển ổn định của phương pháp này. Đã có một số hoạt động của hệ thống IR dựa trên mô hình xác suất.
Một trở ngại lớn với mô hình xác suất trong IR là tìm kiếm phương pháp để ước tính xác suất được sử dụng để đánh giá xác suất phù hợp về mặt lý thuyết và tính toán hiệu quả. Vấn đề ước tính các xác suất này là khó khăn để giải quyết, trừ khi một số giả định đơn giản hóa được thực hiện. Trong giai đoạn đầu của nghiên cứu mô hình xác suất trong IR, giả định liên quan đến biến cố độc lập được sử dụng để tạo điều kiện thuận lợi cho việc tính toán. Các mô hình đầu tiên được dựa trên giả định đó là "mô hình nhị phân độc lập có chỉ mục ". Phát hiện gần đây bởi Cooper [Cooper 1995] đã chỉ ra rằng những giả định này không hoàn toàn cần thiết.
Các kỹ thuật đầu tiên đã cho kết quả tồi tệ hơn là các kỹ thuật dựa trên các giả định đơn giản hóa. Hơn nữa, việc sử dụng các kỹ thuật phức tạp chỉ có thể được thực hiện tại một mức giá tính toán quá cao đối với giá trị của các kết quả [van Rijsbergen 1977]. Một hướng nghiên cứu cụ thể nhằm loại bỏ các giả định đơn giản hóa đã được nghiên cứu rộng rãi và nhiều công việc đang được thực hiện [Fung et al. 1990; Turtle và Croft 1990; Savoy 1992; van Rijsbergen 1992]. Một hướng khác có liên quan đến việc áp dụng các kỹ thuật thống kê được sử dụng để nhận dạng và phân tích quy hồi. Theo điều tra,
trong đó có "phương pháp lập chỉ mục Darmstadt (DIA)" là một ví dụ chính [Fuhr 1989; Fuhr và Buckley 1991], không sử dụng các giả định độc lập. Chúng là "mô hình miễn phí" với ý nghĩa rằng các giả định xác suất chỉ là những tiềm ẩn trong các lý thuyết thống kê quy hồi chính nó. Các nhược điểm chính của phương pháp tiếp cận như vậy là cần thiết để tối ưu hóa các mô tả và các chức năng truy hồi.
Một lĩnh vực nghiên cứu mới đây điều tra việc sử dụng một đại diện mạng phụ thuộc. Các mạng này được hình thành bằng phương tiện của suy luận Bayesian. Cách tiếp cận này đại diện cho một phần mở rộng của các mô hình xác suất đầu tiên, có tính đến sự phụ thuộc điều kiện hiện tại trong một môi trường thực tế.
Có một hướng nghiên cứu mới, khởi xướng bởi Van Rijsbergen, nhằm mục đích phát triển một mô hình dựa trên một logic không cổ điển, đặc biệt, một điều kiện logic ngữ nghĩa được thể hiện bằng cách sử dụng lý thuyết xác suất.
Trong phần này, ta xem xét một số khía cạnh chung, quan trọng cho một sự hiểu biết đầy đủ về các mô hình xác suất.