Giá trị IDF Document

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp xếp hạng kết quả tìm kiếm trên cơ sở dữ liệu bệnh viện 04 (Trang 25 - 27)

Kết quả trên cho ta thấy với các từ the, life, is, learning xuất hiện 2 tới 3 lần

Bước 3. Tính TFIDF

Phương pháp này là tổng hợp của hai phương pháp TF và IDF. Giá trị trọng số được tính như sau:

TFIDF= Normal_TFIDF (2)

Ví dụ đối với Document 1 ta có: Normal_TF (life) = 0.1 IDF (life) = 1.405507153

TFIDF (life) = 0.11.405507153 = 0.140550715

Bước 4. Độ đo tương tự cosine

Trong mô hình không gian vector, câu truy vấn được xem như là một vector. Xếp hạng tài liệu dựa vào sự tương đồng với câu truy vấn, để xếp hạng tài liệu chúng ta so sánh câu truy vấn với tập tài liệu, tài liệu nào càng gần với câu truy vấn thì xếp hạng cao hơn.

Để so sánh hai vector, chúng ta tính khoảng cách giữa hai vector hoặc tính góc tạo bởi hai vector đó. Tuy nhiên cách tính khoảng cách có nhược điểm không chính xác, bởi vì khoảng cách lớn với các vector có chiều dài khác nhau.

Hình 2.2. Minh họa sự tương tự cosine

Do vậy dựa vào góc giữa hai vector để xếp hạng tài liệu, mức độ tương tự xác

định bởi Cosine góc giữa hai vector.

Tài liệu được xếp hạng bởi giá trị Cosine giảm dần: Cos (q, d) = 1 khi d = q

Trong mô hình không gian vector câu truy vấn được xem như là tài liệu trong tập tài liệu và được biểu diễn như một vector:

Document Q: life learning

Áp dụng các bước tính toán như trên ta có:

Bước 1: Tính Normal_TF của truy vấn Q:

Document Q life learning

TF 1 1

Normal_TF 0.5 0.5

Bước 2: Tính IDF:

Kết quả trên ta có IDF (life) = 1.405507153; IDF (learning) = 1.405507153

Bước 3: Tính TFIDF:

Đối với truy vấn ta có bảng kết quả:

TF IDF TF  IDF (Query)

life 0.5 1.405507153 0.702753576

learning 0.5 1.405507153 0.702753576

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phương pháp xếp hạng kết quả tìm kiếm trên cơ sở dữ liệu bệnh viện 04 (Trang 25 - 27)

Tải bản đầy đủ (PDF)

(55 trang)