2.2 .Phương pháp sử dụng quan hệ ngữ nghĩa và ngữ pháp
2.2.5. Phân tích quan hệ ngữ nghĩa
Trong mơ hình khơng gian véc-tơ đã trình bày ở trên, trọng số được tính theo chỉ số tf-idf, cịn trong phương pháp này, trọng số được tính theo chỉ số thơng tin tương hỗ PMI, chỉ số PMI dùng để tính trọng số quan hệ ngữ nghĩa tương hỗ giữa các từ qua việc thống kê tần suất xuất hiện của hai từ trong cùng một ngữ cảnh, ngữ cảnh ở đây có thể là trong một câu, trong một đoạn, hay trong một cửa sổ từ,... Nếu hai từ cùng xuất hiện trong một ngữ cảnh với tần suất cao thì độ tương đồng ngữ nghĩa của hai từ càng lớn. Chúng ta cùng nhìn lại ví dụ đã nêu ở trên là câu: “Nam nhận được nhiều đồ chơi mới trong ngày sinh nhật của mình”. Trong câu này khơng có từ nào là từ trực tiếp chỉ cảm xúc, nhưng người đọc có thể cảm nhận được cảm xúc vúi. Giả sử rằng, trong kho ngữ liệu có chứa rất nhiều câu kiểu như sau: “X rất hạnh phúc vì nhận được nhiều đồ chơi mới”, hay “Y rất vui sướng vì được bố mua cho đồ chơi mới”, hay câu “Z có đồ chơi mới, cậu bé rất vui”,... khi đó tần suất các từ “đồ chơi”, “mới” cùng xuất hiện với từ “hạnh phúc” hay “vui sướng” là rất cao, các từ “hạnh phúc” và từ “vui sướng” là các từ trong tập từ đại diện của cảm xúc vui, do vậy câu “Nam nhận được nhiều đồ chơi mới trong ngày sinh nhật của mình” sẽ có xu hướng thiên về cảm xúc vui cao hơn so với các cảm xúc khác. Chỉ số PMI của hai từ
x và y được tính theo cơng thức sau:
P M I(x, y) = co-occurrence(x, y)
occurrence(x)occurrence(y) (2.10) Trong đó co-occurrence(x, y) là số lần xuất hiện cùng nhau của x và y trong phạm vi ngữ cảnh, occurrence(x) và occurrence(y) lần lượt là số lần xuất hiện của từ x và từ y trong kho ngữ liệu. Cơng thức 2.10 này dùng để tính chỉ số PMI cho mỗi từ trong tập từ NAVA được trích chọn từ câu với từng từ trong mỗi khái niệm cảm xúc.