Phương pháp TF-IDF (Term Frequency-Inverse Document Frequency)

Một phần của tài liệu Khoá luận tốt nghiệp phương pháp phân tích ngữ nghĩa tiềm ẩn tìm kiếm văn bản tiếng anh dựa trên nội dung (Trang 31 - 33)

Frequency)

Mô hình trọng số TF-IDF được chứng minh rất hữu ích trong thực tế. Trong đó, TF (Term Frequency) là tần số xuất hiện thuật ngữ, nghĩa là mỗi thành phàn trong một vectơ thuật ngữ được tính bỏi số lần thuật ngữ đó xuất hiện trong tài liệu; DDF (Inverse Document Frequency) được tính bằng công thức IDF = log(N/ĩii), vói N là toàn bộ tài liệu trong tập hợp và ĩiị là số các tài liệu chứa thuật ngữ i. Với chỉ TF, nếu một thuật ngữ xuất hiện thường xuyên trong tài liệu thì nó chưa chắc đã là lựa chọn tốt làm thuật ngữ chỉ mục, vì nó không giúp phân biệt được các tài liệu người sử dụng quan tâm với các tài liệu khác, tức là số lượng tài liệu truy tìm lớn nhưng độ chính xác không cao. IDF giúp cải thiện vấn đề này, trọng số các thuật ngữ sẽ rất cao nếu nó xuất hiện thường xuyên chỉ trong một vài tài liệu, tức là giúp tăng cường sự phân biệt.

Cho Dị= (dii, di2, diM) là tập họp các tài liệu, vói truy vấn Q biểu diễn như một tài liệu. Trong đó, djj là trọng số thuật ngữ j trong tài liệu i, Q(j) biểu thị trọng số của thuật ngữ j trong truy vấn Q (i = 1, 2, N; j = 1, 2,

M). Trọng số các dịj và Q(j) có thể là 1 (nếu chứa thuật ngữ) hay 0 (nếu không chứa thuật ngữ) trong đại số quan hệ; hoặc tính bằng TF-IDF hoặc có thể bằng nhiều cách khác. Tài liệu Dị được đánh giá là gần vói truy vấn Q dựa vào thước đo khoảng cách thuật ngữ hay khoảng cách cosin.

Trong trường hợp xấu nhất, càn đến O(N) phép so sánh, mỗi so sánh cho một tài liệu và mỗi so sánh cần O(M) thời gian cho từng thuật ngữ. Vậy, sẽ càn O(MXN) thời gian để tìm giải pháp tốt nhất. Kỹ thuật phân tích ngữ

nghĩa tiềm ẩn (LSA) sẽ làm giảm thời gian đáng kể nói ừên.

Xét ví dụ, với 10 tài liệu (ký hiệu: di, d2, d3); và 7 thuật ngữ (ký hiệu: ti, t2, te). Trong đó:

ti = course t2 = data t3 = interest

tị = mine t5 = study te = subfield

17 = text

Sẽ được một ma trận tàn số tài liệu - thuật ngữ M (10X6), trong đó, mỗi phàn tử ij (i hàng, j cột) chứa số lần xuất hiện của thuật ngữ j trong tài liệu i.

Giả sử, một câu truy vấn Q chứa thuật ngữ INTEREST, MINE, TEXT, có thể biểu diễn truy vấn dưới dạng vectơ Q = (0, 0, 1, 1, 0, 0, 1), tức là thuật ngữ t3, t4 và 17 xuất hiện trong truy vấn nên có giá trị là 1, còn lại nhận giá trị 0.

Dựa vào ma ừận tài liệu - thuật ngữ (bảng 2.2), tính được ma trận thuật ngữ - tài liệu với các thành phần trọng số TF-IDF, được biểu diễn trong bảng sau:

29 Bảng 2.2. Ma trận tài liệu - thuật ngữ

tl h h U Í5 ttì H

di 1 1 0 1 0 0 0

¿2 0 1 0 3 1 1 2

Sử dụng khoảng cách cosin tính độ tương đồng giữa truy vấn với các tài liệu. Không giống kết quả truy tìm truy tìm ừong đại số quan hệ, đây là đại lượng đo khoảng cách mang lại sự xếp hạng cho mọi tài liệu, gồm ít nhất có một thuật ngữ phù hợp. Dựa vào bảng 2.2 và 2.3 tính khoảng cách tương ứng theo TF và TF-IDF.

Kết quả tính được xếp hạng các tài liệu theo mức độ phù hợp. Kết quả trên cho thấy, sử dụng ma trận tài liệu d3 là gàn nhất.

Một phần của tài liệu Khoá luận tốt nghiệp phương pháp phân tích ngữ nghĩa tiềm ẩn tìm kiếm văn bản tiếng anh dựa trên nội dung (Trang 31 - 33)