Trong mơ hình tần suất, ma trận W = {wij} đƣợc xác định dựa trên tần
số xuất hiện của từ khĩa ti trong văn bản dj hoặc tần số xuất hiện của từ khĩa ti
trong tồn bộ cơ sở dữ liệu. Sau đây là một số phƣơng pháp phổ biến [4]:
2.1.1. Phƣơng pháp dựa trên tần số từ khĩa (TF – Term Frequency)
Các giá trị wij đƣợc tính dựa trên tần số (hay số lần) xuất hiện của từ
khĩa trong văn bản. Gọi fij là số lần xuất hiện của từ khĩa ti trong văn bản dj,
khi đĩ wij đƣợc tính bởi một trong ba cơng thức:
wij = fij
wij = 1 + log(fij) wij = √
Trong phƣơng pháp này, trọng số wij tỷ lệ thuận với số lần xuất hiện
của từ khĩa ti trong văn bản dj . Khi số lần xuất hiện từ khĩa ti trong văn bản
dj càng lớn thì điều đĩ cĩ nghĩa là văn bản dj càng phụ thuộc vào từ khĩa ti ,
hay nĩi cách khác từ khĩa ti mang nhiều thơng tin trong văn bản dj .
Ví dụ, khi văn bản xuất hiện nhiều từ khĩa máy tính, điều đĩ cĩ nghĩa là văn bản đang xét chủ yếu liên quan đến lĩnh vực tin học.
Nhƣng suy luận trên khơng phải lúc nào cũng đúng. Một ví dụ điển hình là từ “và” xuất hiện nhiều trong hầu hết các văn bản, nhƣng trên thực tế từ này lại khơng mang nhiều ý nghĩa nhƣ tần suất xuất hiện của nĩ. Hoặc cĩ những từ khơng xuất hiện trong văn bản này nhƣng lại xuất hiện trong văn
bản khác, khi đĩ ta sẽ khơng tính đƣợc giá trị của log(fij). Một phƣơng pháp
khác ra đời khắc phục đƣợc nhƣợc điểm của phƣơng pháp TF, đĩ là phƣơng pháp IDF.
2.1.2. Phƣơng pháp dựa trên nghịch đảo tần số văn bản (IDF – Inverse Document Frequency) Document Frequency)
{ ( ) ( )
Trong đĩ m là số lƣợng văn bản và hi là số lƣợng văn bản mà từ khĩa ti
xuất hiện.
Trọng số wij trong cơng thức này đƣợc tính dựa trên độ quan trọng của
từ khĩa ti trong văn bản dj . Nếu ti xuất hiện trong càng ít văn bản, điều đĩ cĩ
nghĩa là khi nĩ xuất hiện trong dj thì trọng số của nĩ đối với văn bản dj càng
lớn hay nĩ là điểm quan trọng để phân biệt văn bản dj với các văn bản khác và hàm lƣợng thơng tin trong nĩ càng lớn.