Kết quả trên cho ta thấy với các từ the, life, is, learning xuất hiện 2 tới 3 lần
Bước 3. Tính TFIDF
Phương pháp này là tổng hợp của hai phương pháp TF và IDF. Giá trị trọng số được tính như sau:
TFIDF= Normal_TFIDF (2)
Ví dụ đối với Document 1 ta có: Normal_TF (life) = 0.1 IDF (life) = 1.405507153
TFIDF (life) = 0.11.405507153 = 0.140550715
Bước 4. Độ đo tương tự cosine
Trong mô hình không gian vector, câu truy vấn được xem như là một vector. Xếp hạng tài liệu dựa vào sự tương đồng với câu truy vấn, để xếp hạng tài liệu chúng ta so sánh câu truy vấn với tập tài liệu, tài liệu nào càng gần với câu truy vấn thì xếp hạng cao hơn.
Để so sánh hai vector, chúng ta tính khoảng cách giữa hai vector hoặc tính góc tạo bởi hai vector đó. Tuy nhiên cách tính khoảng cách có nhược điểm không chính xác, bởi vì khoảng cách lớn với các vector có chiều dài khác nhau.
Hình 2.2. Minh họa sự tương tự cosine
Do vậy dựa vào góc giữa hai vector để xếp hạng tài liệu, mức độ tương tự xác
định bởi Cosine góc giữa hai vector.
Tài liệu được xếp hạng bởi giá trị Cosine giảm dần: Cos (q, d) = 1 khi d = q
Trong mô hình không gian vector câu truy vấn được xem như là tài liệu trong tập tài liệu và được biểu diễn như một vector:
Document Q: life learning
Áp dụng các bước tính toán như trên ta có:
Bước 1: Tính Normal_TF của truy vấn Q:
Document Q life learning
TF 1 1
Normal_TF 0.5 0.5
Bước 2: Tính IDF:
Kết quả trên ta có IDF (life) = 1.405507153; IDF (learning) = 1.405507153
Bước 3: Tính TFIDF:
Đối với truy vấn ta có bảng kết quả:
TF IDF TF IDF (Query)
life 0.5 1.405507153 0.702753576
learning 0.5 1.405507153 0.702753576