1.5 .Tổng kết
2 Phương pháp phi giám sát cho bài toán phát hiện cảm xúc trong
2.1.2. Chỉ số tf-idf
Chỉ số tf-idf của một thuật ngữ là một chỉ số thu được thông qua thống kê, chỉ số này thể hiện mức độ quan trọng của thuật ngữ đó trong tài liệu so với các tài liệu khác trong tập tài liệu. Chỉ số tf-idf được xác định thông qua hai chỉ số là chỉ số TF (term frequency) và chỉ số IDF (inverse document frequency). Chỉ số TF là tần số xuất hiện của một thuật ngữ trong một tài liệu và chỉ số IDF tần số nghịch đảo của thuật ngữ trong tập tài liệu (corpus).
Có một số ngun tắc để tính chỉ số TF, đơn giản nhất là tính chỉ số TF của của thuật ngữ t trong tài liệu d bằng tần số xuất hiện của thuật ngữ t trong tài liệu d: tf(t, d) =f(t, d). Ngoài ra cịn một số ngun tắc khác để tính chỉ số TF như:
• Tần số theo nhị phân tf(t, d) = 1 nếu thuật ngữ t xuất hiện trong tài liệu
d và tf(t, d) = 0 trong trường hợp ngược lại
• Theo tỷ lệ logarit tf(t, d) = 1 + log(f(t, d)) hoặc bằng 0 nếu f(t, d) = 0
• Chuẩn hóa 0.5 tf(t, d) = 0.5 + max{f(t,d):t∈d}0.5×f(t,d)
Theo tần số gia tăng thì TF của thuật ngữ t trong tài liệud được xác định qua công thức sau:
tf(t, d) = f(t, d)
max{f(w, d) :w∈d} (2.1)
Trong đó:
• f(t, d) là tần số xuất hiện của thuật ngữ t trong tài liệu d
• max{f(w, d) : w ∈ d} số lần xuất hiện nhiều nhất của thuật ngữ bất kỳ trong tài liệu
Chỉ số tf(t, d)∈[0,1](theo cơng thức 2.1), một thuật ngữ có tần số xuất hiện càng nhiều trong tài liệu thì chỉ sốtf của thuật ngữ đó càng cao, như vậy những từ phổ biến sẽ có chỉ số tf cao nhưng những từ này mang ít thơng tin hơn so với
từ hiếm. Vì vậy, chỉ số IDF được tính nhằm mục đích giảm giá trị của những từ phổ biến.
Chỉ số IDF của thuật ngữ t trong tập tài liệu D được tính theo cơng thức sau:
idf(t, D) = log |D|
|{d∈D:t∈d}| (2.2)
Trong đó:
• |D| là số lượng tài liệu của tập các tài liệu D
• |{d∈D:t∈d}|là số lượng tài liệu d có xuất hiện thuật ngữ t, trong trường
hợp thuật ngữ t không xuất hiện trong bất cứ tài liệu nào thì mẫu số trong phép chia của cơng thức trên sẽ bằng 0, để tránh trường hợp này ta có thể thay cơng thức tính mẫu số bằng 1 +|{d∈D:t ∈d}|
Việc áp cơ số logarit cho công thức này không làm thay đổi giá trị của một thuật ngữ đối với tài liệu. Việc dùng cơ số này chỉ để làm giảm tỷ lệ trọng số giữa TF và IDF (do TF ∈ [0,1] còn IDF ≥ 1), điều này làm cho tỷ lệ giữa TF và IDF trở nên tương đồng.
Công thức tính chỉ số tf-idf cho một thuật ngữ t trong tài liệu d trong tập tài liệu D như sau:
tf idf(t, d, D) =tf(t, d)×idf(t, D) (2.3) Ý nghĩa của chỉ số tf-idf là những thuật ngữ t xuất hiện nhiều trong tài liệu
d nhưng ít xuất hiện trong các tài liệu khác sẽ có chỉ số tf-idf cao. Việc này giúp lọc ra những thuật ngữ phổ biến và những thuật ngữ có giá trị cao đại diện cho tài liệu. Xét ví dụ sau: Giả sử tập tài liệu D = {d1, d2, d3}, các thuật ngữ
thuật ngữ Tài liệu t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 d1 3 0 2 3 0 4 3 5 3 5 d2 1 3 5 1 5 2 0 0 3 0 d3 5 0 0 5 1 1 1 5 3 3 Bảng 2.2: Term by Documnet Matrix
Từ TDM ta sẽ tính được chỉ số tf-idf cho từng thuật ngữ đối với từng tài liệu theo cơng thức tính đã trình bày ở trên.
• tf(t1, d1) = 35 = 0.6
• idf(t1, D) = log33 = 0
Như vậy tf idf(t1, d1, D) = 0 do thuật ngữ t1 là thuật ngữ phổ biến, thuật ngữ này xuất hiện trong tất cả các tài liệu nên mang ít thơng tin giúp phân biệt giữa các tài liệu. Trong trường hợp chúng ta vẫn muốn giữ thơng tin về tf thì cơng thức tính idf sẽ được làm mượt để tránh bằng 0. Bảng 2.3 dưới đây là bảng chỉ số tf-idf cho ví dụ trên.
idf(t, D) = log(1 + |D| |{d∈D:t ∈d}|) (2.4) thuật ngữ Tài liệu t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 d1 0 0.0000 0.0704 0 0.0000 0 0.1057 0.1761 0 0.1761 d2 0 0.2863 0.1761 0 0.1761 0 0.0000 0.0000 0 0.0000 d3 0 0 0 0 0.0352 0 0.0352 0.1761 0 0.1057 Bảng 2.3: Bảng chỉ số tf-idf
Như vậy chúng ta đã thực hiện được việc đánh trọng số cho các thuật ngữ trong từng tài liệu. Tiếp theo, chúng ta tìm hiểu về độ đo sự tương đồng giữa các véc-tơ trong mơ hình khơng gian véc-tơ.