Xác định các từ chỉ mục
Cho một tập gồm có n tài liệu. Với mỗi tài liệu, tính tần số của mỗi từ riêng biệt trong tài liệu đó. Gọi FREQik: là tần số xuất hiện của từ k trong tài liệu i.
Xác định tần số của từ k trong tập tài liệu, ký hiệu là TOTFREQk bằng cách tính tổng tần số xuất hiện của k trong tất cả n tài liệu:
TOTFREQk = ik 1 FREQ n i= ∑
Sắp xếp các từ giảm dần dựa vào tần số xuất hiện của nó trong tập tài liệu. Xác định giá trị ngưỡng cao và loại bỏ tất cả các từ có tần số xuất hiện lớn hơn giá trị này.
Tương tự, loại bỏ các từ có tần số thấp. Nghĩa là , xác định ngưỡng thấp và loại bỏ tất cả các từ có tần số xuất hiện nhỏ hơn giá trị này. Điều này sẽ loại bỏ các từ ít xuất hiện trong tập tài liệu, nên sự có mặt của các từ này cũng không ảnh hưởng đến việc thực hiện truy vấn.
Loại bỏ các từ không có giá trị. Các từ này gọi là các từ dừng (StopWords)
Các từ có tần số xuất hiện trung bình còn lại sẽ được sử dụng làm từ chỉ mục.
Hình 2.7: Các từ được sắp theo thứ tự Phương pháp tính trọng số của từ
Trọng số của một từ phản ánh tầm quan trọng của từ đó trong tài liệu. Ý tưởng chính là một từ xuất hiện thường xuyên trong tất cả các tài liệu thì ít quan trọng hơn là từ chỉ xuất hiện tập trung trong một số tài liệu.
Tần số tài liệu nghịch đảo
Đây là phương pháp tính trọng số mà mô hình không gian vector đã sử d ụng để tính trọng số của từ trong tài liệu.
n: số từ phân biệt trong tập tài liệu
FREQik : số lần xuất hiện của từ k trong tài liệu Di (tần số từ) DOCFREQk : số tài liệu có chứa từ k
Khi đó, trọng số của từ k trong tài liệu Di được tính như sau: WEIGHTik = FREQik * [log (n) – log (DOCFREQk)]
liệu i tăng và giảm nếu tổng số tài liệu có chứa từ k giảm.