Không gian biến cố

Một phần của tài liệu tìm kiếm văn bản theo nội dung và ứng dụng (Trang 49 - 50)

Nói chung, các mô hình xác suất có không gian biến cố là tập hợp Q x D, trong đó Q đại diện cho tập hợp của tất cả các truy vấn có thể, và D tập hợp của tất cả các tài liệu trong bộ sưu tập. Sự khác biệt giữa các mô hình khác nhau nằm ở việc sử dụng của đại diện và mô tả khác nhau của các truy vấn và tài liệu.

- Một truy vấn là một biểu thức của một thông tin cần tìm. Ở đây, ta xem một truy vấn như là một biến cố độc đáo, có nghĩa là, nếu hai người dùng gửi cùng một truy vấn, hoặc nếu cùng một truy vấn được gửi bởi cùng một người dùng

trên hai lần khác nhau, hai truy vấn được coi là truy vấn khác nhau. Một truy vấn được gửi đến hệ thống, sau đó tìm thông tin liên quan đến các thông tin được thể hiện trong truy vấn.

- Một tài liệu là bất kỳ một đối tượng mang thông tin; như văn bản, hình ảnh, âm thanh, hoặc video. Tuy nhiên, hầu hết tất cả các hệ thống IR hiện tại chỉ đối phó với các văn bản. Điều này giới hạn kết quả từ các vấn đề liên quan với đại diện tìm kiếm phù hợp cho các đối tượng phi văn bản. Một số giả định chung cho tất cả các mô hình thu hồi:

- Người sử dụng hiểu biết về thông tin của họ cần thay đổi trong một phiên tìm kiếm, và được thể hiện bởi các truy vấn khác nhau.

- Truy tìm dựa trên đại diện của các truy vấn và các tài liệu, không dựa vào các truy vấn và tài liệu tương tự.

- Các đại diện của đối tượng IR là” không chắc chắn ".

Một phần của tài liệu tìm kiếm văn bản theo nội dung và ứng dụng (Trang 49 - 50)