Trọng số từ là tần suất xuất hiện của từ đĩ trong tài liệu. Cách định trọng số này nĩi rằng một từ là quan trọng cho một tài liệu nếu nĩ xuất hiện nhiều lần trong tài liệu đĩ.
Trong hầu hết các ngơn ngữ, cĩ một số từ cĩ xu hướng xuất hiện thường xuyên như trong tiếng anh cĩ "is", "the"... tương tự tiếng việt cĩ các từ như "là", "của", "cứ"... Chính vì vậy nếu chỉ xét theo tần số xuất hiện của từng từ thì việc phân loại văn bản rất cĩ thể cho kết quả sai dẫn tỷ lệ chính xác sẽ thấp. Phương pháp phổ biến là sử dụng một phương pháp thống kê cĩ tên là TF-IDF, giá trị TF- IDF của một từ là một con số thu được qua thống kê thể hiện mức độ quan trọng của từ này trong một văn bản, mà bản thân văn bản đang xét nằm trong một tập hợp các văn bản.
TF-IDF viết tắt của Term Frequency – Inverse Document Frequency, là trọng số của một từ thu được qua thống kê thể hiện mức độ quan trọng của từ này trong một văn bản, mà bản thân văn bản đang xét nằm trong một tập hợp các văn bản [17].
wij = TF − IDF(𝑡𝑖, 𝑑𝑗, D) Trọng số TF-IDF được tính như sau:
TF-IDF(𝑡𝑖, 𝑑𝑗, D) = TF(𝑡𝑖, 𝑑𝑗) x IDF(𝑡𝑖, D). (2.3) Trong đĩ:
TF(𝑡𝑖, 𝑑𝑗) = số lần từ 𝑡𝑖 xuất hiện trong văn bản 𝑑𝑗 𝑡ổ𝑛𝑔 𝑠ố 𝑡ừ 𝑡𝑟𝑜𝑛𝑔 𝑣ă𝑛 𝑏ả𝑛 𝑑𝑗 IDF(𝑡𝑖, D) = log(Tổng số văn bản trong D
Số văn bản cĩ chứa từ 𝑡𝑖,) Trong đĩ:
- N là kích thước của tập tài liệu huấn luyện;
- IDF là tần suất tài liệu: là số tài liệu mà một từ xuất hiện trong đĩ. - Trọng số TF-IDF kết hợp thêm giá trị tần suất tài liệu DF vào trọng số TF. Khi một từ xuất hiện trong càng ít tài liệu (tương ứng với giá trị DF nhỏ) thì khả năng phân biệt các tài liệu dựa trên từ đĩ càng cao.