Trong mụ hỡnh Boolean, cỏc tài liệu và truy vấn được biểu diễn là tập hợp cỏc term chỉ số, trọng số của term chỉ số được xem như chỉ nhận cỏc giỏ trị 1 và 0 tương ứng với sự cú mặt hoặc khụng cú mặt. Một truy vấn q gồm cỏc term chỉ số liờn kết với nhau bởi 3 phộp toỏn logic And, Or, Not ( tương ứng với cỏc kớ hiệu ∧,∨ và ơ) và có thể chuyển về dạng chuẩn DNF. Ví dụ, truy vấn q = ka∧(kb∨ơkc) có thể chuyển thành [qdnf =(1,1,1)∨(1,1,0)∨(1,0,0)],
trong đú mỗi thành phần là một vector nhị phõn liờn kết với một bộ phận (
ka, kb, kc), cỏc vecter nhị phõn này gọi là cỏc thành phần liờn kết của qdnf .
Định nghĩa: Cho một mụ hỡnh Boolean, cỏc term chỉ số đều được biểu diễn bởi cỏc giỏ trị nhị phõn w1j Є{ 0;1 }. Một truy vấn q là một biểu thức Boolean theo qui ước. Cho qdnf là vector liờn kết DNF với truy vấn q, lấy qcc
là thành phần liờn kết nào đú của qdnf . độ tương tự của tài liệu dj với truy vấn q được xỏc định:
Nếu sim(dj, q)=1 thỡ mụ hỡnh Boolean dự đoỏn rằng tài liệu d1 là phự hợp với truy vấn q ( cú thể là khụng ). Cũn lại, là khụng phự hợp.
Mụ hỡnh Boolean dự đoỏn rằng mỗi tài liệu hoặc phự hợp hoặc khụng phự hợp. chẳng hạn, cho tài liệu d1 với dj = ( 0,1,0 ). Tài liệu d chứa tem chỉ số kb
nhưng được xem là khụng phự hợp với truy vấn [q=ka^(kb ơkc)].
Mụ hỡnh Boolean cung cấp một cỏch nỡn khỏ trực quan, đơn giản và dễ hiểu cho người sử dụng một hệ thống IR. Tuy nhiờn, mụ hỡnh Boolean
1, nếu∃ | (∈)∧(∀ki,
sim(dj,q) = (2.1)
cũng cú một số mặt hạn chế. Bởi chiến lược tỡm kiếm của chỳng dựa trờn tiờu chuẩn quyết định nhị thức (một tài liệu được dự đoỏn chỉ trong hai khả năng là phự hợp hoặc khụng phự hợp) mà khụng cú bất kỳ một khỏi niệm chia mức độ nào lựa chọn. Do vậy, mụ hỡnh Boolean khụng đưa ra danh sỏch cỏc văn bản được sắp xếp theo mức độ liờn quan đến yờu cầu của người dựng, dẫn đến việc mụ hỡnh này khụng thỏa món cỏc yờu cầu trong cỏc hệ thống tỡm kiếm văn bản hiện nay như cỏc cụng cụ tỡm kiếm Web. do đú sau đõy em xin đưa ra mụ hỡnh khụng gian vector- nú khụng chỉ nhận ra những tài liệu thỏa món truy vấn mà cũn đưa ra được những mức độ liờn quan đến truy vấn.