Tập từ đại diện

3.2 .Một số kết quả thử nghiệm

2.4 Tập từ đại diện

Theo cách truyền thống, véc-tơ cảm xúc được tính trực tiếp bằng cách tra cứu trong từ điển cảm xúc, tuy nhiên trong trường hợp câu không chứa từ trực tiếp mang cảm xúc, hoặc từ đó khơng có trong từ điển thì khơng thể tính được véc-tơ cảm xúc. Vì vậy cần có phương pháp tính véc-tơ cảm xúc khơng phụ

thuộc vào từ điển cảm xúc, đó là phân tích quan hệ ngữ nghĩa giữa các từ. Phần tiếp theo của luận văn sẽ trình bày về vấn đề này.

2.2.5. Phân tích quan hệ ngữ nghĩa

Trong mơ hình khơng gian véc-tơ đã trình bày ở trên, trọng số được tính theo chỉ số tf-idf, cịn trong phương pháp này, trọng số được tính theo chỉ số thơng tin tương hỗ PMI, chỉ số PMI dùng để tính trọng số quan hệ ngữ nghĩa tương hỗ giữa các từ qua việc thống kê tần suất xuất hiện của hai từ trong cùng một ngữ cảnh, ngữ cảnh ở đây có thể là trong một câu, trong một đoạn, hay trong một cửa sổ từ,... Nếu hai từ cùng xuất hiện trong một ngữ cảnh với tần suất cao thì độ tương đồng ngữ nghĩa của hai từ càng lớn. Chúng ta cùng nhìn lại ví dụ đã nêu ở trên là câu: “Nam nhận được nhiều đồ chơi mới trong ngày sinh nhật của mình”. Trong câu này khơng có từ nào là từ trực tiếp chỉ cảm xúc, nhưng người đọc có thể cảm nhận được cảm xúc vúi. Giả sử rằng, trong kho ngữ liệu có chứa rất nhiều câu kiểu như sau: “X rất hạnh phúc vì nhận được nhiều đồ chơi mới”, hay “Y rất vui sướng vì được bố mua cho đồ chơi mới”, hay câu “Z có đồ chơi mới, cậu bé rất vui”,... khi đó tần suất các từ “đồ chơi”, “mới” cùng xuất hiện với từ “hạnh phúc” hay “vui sướng” là rất cao, các từ “hạnh phúc” và từ “vui sướng” là các từ trong tập từ đại diện của cảm xúc vui, do vậy câu “Nam nhận được nhiều đồ chơi mới trong ngày sinh nhật của mình” sẽ có xu hướng thiên về cảm xúc vui cao hơn so với các cảm xúc khác. Chỉ số PMI của hai từ

x và y được tính theo cơng thức sau:

P M I(x, y) = co-occurrence(x, y)

occurrence(x)occurrence(y) (2.10) Trong đó co-occurrence(x, y) là số lần xuất hiện cùng nhau của x và y trong phạm vi ngữ cảnh, occurrence(x) và occurrence(y) lần lượt là số lần xuất hiện của từ x và từ y trong kho ngữ liệu. Cơng thức 2.10 này dùng để tính chỉ số PMI cho mỗi từ trong tập từ NAVA được trích chọn từ câu với từng từ trong mỗi khái niệm cảm xúc.

2.2.6. Xác định véc-tơ cảm xúc cho từ NAVA

Giả sử:

• w={w1, w2, ..., wn} là n từ NAVA trong câu s đã được trích chọn.

• α={α1, α2, ..., αc} là tập gồm c từ ảnh hưởng trong s.

• β ={β1, β2, ..., βd} là tập gồm d từ phụ thuộc trong s.

• e= {e1, e2, ..., em} là tập gồm m cảm xúc cơ bản, ví dụ nếu chúng ta chọn các khái niệm cảm xúc theo Ekman thì:

e={happiness, sadness, anger, f ear, surprise, disgust}

Véc-tơ cảm xúc của một từ NAVA được xác định thơng qua hai bước sau:

1. Tính véc-tơ cảm xúc của một từ NAVA chưa xét đến thơng tin cú pháp phụ thuộc: Tính chỉ số PMI theo công thức 2.10 cho mỗi từ NAVA với từng từ trong tập từ đại diện của mỗi khái niệm cảm xúc. Khi đó chỉ số PMI của từ wi với cảm xúc ej được tính theo cơng thức sau:

P M I(wi, ej) = r v u u t r Y g=1 P M I(wi, Kjg) (2.11) Trong đó Kjg là từ đại diện thứ g của khái niệm cảm xúc ej. Theo công

thức này, một từ thực sự liên quan đến một khái niệm cảm xúc thì từ đó sẽ liên quan đến hầu hết các từ đại diện của khái niệm cảm xúc đó. Như vậy, việc lựa chọn từ đại diện cho các khái niệm cảm xúc ảnh hưởng trực tiếp đến kết quả của mơ hình. Các từ đại diện thường là những từ trực tiếp chỉ cảm xúc và xuất hiện với tần suất cao trong kho ngữ liệu.

Véc-tơ cảm xúc của từ wi được xác định thông qua chỉ số PMI của từ đó với từng khái niệm cảm xúc. Véc-tơ cảm xúc vi của từ wi được xác định như sau:

2. Điều chỉnh véc-tơ cảm xúc sử dụng cú pháp phụ thuộc: Theo các loại cú pháp phụ thuộc đã định nghĩa ở phần trên, véc-tơ cảm xúc sẽ được điều chỉnh để phù hợp với ngữ cảnh. Đối với từ phụ thuộc trong quan hệ bổ ngữ tính từ hoặc định ngữ tính từ, việc điều chỉnh véc-tơ cảm xúc của từ phụ thuộc dựa vào véc-tơ cảm xúc của từ ảnh hưởng. Cho βq là từ phụ thuộc, và αp là từ ảnh hưởng. Véc-tơ cảm xúc của từ phụ thuộc βq được điều chỉnh theo công thức sau:

v0βq = vβq +vαp

2 (2.13)

Đối với từ phụ thuộc có quan hệ phủ định, điều chỉnh véc-tơ cảm xúc của từ phụ thuộc bằng 0. Ví dụ: “She is not sad”, từ “sad” được phủ định bởi từ “not”, do đó véc-tơ cảm xúc của từ phụ thuộc “sad” được gán bằng 0. Theo cách này, từ “sad” trở thành từ có cảm xúc “trung lập” nên nó khơng đóng vai trị quan trọng trong việc tổng hợp cảm xúc của câu.

2.2.7. Tính véc-tơ cảm xúc cho câu

Sau khi xác định tất cả véc-tơ cảm xúc của các từ trong tập từ NAVA, véc-tơ cảm xúc của cả câu được xác định bằng cách lấy trung bình của các véc-tơ cảm xúc của các từ NAVA. Cơng thức tính véc-tơ cảm xúc của câu s như sau:

vs = Pn

i=1vwi

n (2.14)

Trong đó n là số từ ảnh hưởng. Sau khi tính vs = {d1, d2, ..., dm}, việc gán

nhãn cảm xúc cho câu s thực hiện theo công thức sau:

ls =      ek, nếu max(di) i=1,2,...,m =dk và dk > t

trung lập, nếu ngược lại

(2.15)

Giá trị t là một ngưỡng cần được xác định để phân biệt các câu có truyền đạt cảm xúc và những câu trung lập. Nhìn chung, việc xác định ngưỡng t phụ thuộc và kinh nghiệm, kho ngữ liệu,... Ngưỡngt có thể được dùng chung cho các khái niệm cảm xúc, nhưng cũng có khi cần xác định ngưỡng ti cho khái niệm

cảm xúc ei do trong kho ngữ liệu hay trong thực tế, các câu với các loại cảm xúc thường không đồng đều, cảm xúc vui vẻ hay buồn chán thường nhiều hơn cảm xúc ngạc nhiên hay sợ hãi.

2.3. Tổng kết

Trong chương này, luận văn đã trình bày về phương pháp phi giám sát cho bài tốn phát hiện cảm xúc trong văn bản. Phương pháp đầu tiên được trình bày là sử dụng Mơ hình khơng gian véc-tơ, mơ hình được sử dụng khá phổ biến cho vấn đề xử lý văn bản, mơ hình này cũng được nhiều tác giả sử dụng cho bài toán phát hiện cảm xúc trong văn bản. Mơ hình khơng gian véc-tơ sử dụng độ đo tf-idf, thơng qua ma trận TDM thường có kích thước rất lớn, vì vậy cần sử dụng các thuật toán hiệu quả trong việc giảm số chiều của ma trận như SVD, để giảm chi phí tính tốn, tăng hiệu suất của mơ hình cũng như khai thác các thơng tin ngữ nghĩa ẩn. Phương pháp thứ hai được trình bày là phương pháp sử dụng việc phân tích quan hệ ngữ nghĩa và sử dụng cú pháp phụ thuộc, phương pháp này sử đụng độ đo PMI để đo thông tin tương hỗ giữa các từ qua đó tính tốn liên quan ngữ nghĩa giữa các từ mang thông tin cảm xúc trong câu với các từ đại diện cảm xúc. Cú pháp phụ thuộc được sử dụng để điều chỉnh véc-tơ cảm xúc theo đúng ngữ cảnh. Chương tiếp theo sẽ trình bày về thử nghiệm phương pháp phi giám sát sử dụng quan hệ ngữ nghĩa và ngữ pháp đã trình bày cho bài tốn phát hiện cảm xúc trong văn bản tiếng Việt, đồng thời cũng trình bày một số kết quả của các tác giả đã công bố.

Chương 3

Thực nghiệm

Chương này luận văn sẽ trình bày về thực nghiệm áp dụng phương pháp phi giám sát sử dụng ngữ nghĩa và cú pháp phụ thuộc cho bài toán phát hiện cảm xúc trong văn bản tiếng Việt. Các bước để xây dựng mơ hình, xây dựng dữ liệu và kết quả thực nghiệm. Thử nghiệm thực hiện gán nhãn cảm xúc cho 938 câu trong kho ngữ liệu VietTreeBank và 1141 câu trích trong tác phẩm truyện.

3.1. Ứng dụng phương pháp phi giám sát phát hiện

cảm xúc trong văn bản tiếng Việt

Thử nghiệm được thực hiện dựa vào phương pháp sử dụng quan hệ ngữ nghĩa và ngữ pháp đã trình bày trong Chương 2. Các bước thực hiện để xây dựng mơ hình:

1. Thực hiện tiền xử lý văn bản đầu vào: Do đặc thù ngôn ngữ của tiếng Việt là các từ không phân cách nhau bởi dấu cách nên bước đầu tiên của việc xử lý văn bản đầu vào là việc tách từ. Công cụ sử dụng tách từ là vnTokenizer. Bước tiếp theo là gán nhãn từ loại, công cụ sử dụng để thực hiện gán nhãn từ loại là vnTagger, cả hai công cụ này là của tác giả Lê Hồng Phương. Độ chính xác của bước tiền xử lý ảnh hưởng trực tiếp đến kết quả của mơ hình vì các bước tiếp theo sử dụng kết quả thu được từ bước trước.

Sau khi văn bản đã được gán nhãn từ loại, việc tiếp theo là trích rút các từ NAVA, như đã trình bày ở chương trước, các từ NAVA là các từ mang thông tin cảm xúc cần được trích rút. Ví dụ câu“Tơi cảm thấy hạnh phúc”, trong câu này từ“cảm thấy” tương ứng với động từ và từ“hạnh phúc” tương ứng với tính từ, do đó chúng sẽ được trích rút để đưa vào tập NAVA. Các từ vừa được trích rút có thể có thể hiện cảm xúc rõ ràng hoặc khơng rõ ràng, đơi khi cũng có những từ mang cảm xúc rõ ràng nhưng nghĩa hồn tồn khác. Ví dụ “Hoa đã được chào đón với lời chúc khơng vui”. Trong câu này, các từ được trích rút “được”, “chào_đón”, “lời”, “chúc”, “khơng”, “vui”. Ta có thể thấy các từ “chào_đón”, “chúc” thuộc vào loại cảm xúc “vui_vẻ”, nhưng trong câu vừa cho có từ “vui” bị ảnh hưởng bởi từ “khơng”, nên câu này hướng tới một cảm xúc “buồn”. Do vậy, đã có sự ảnh hưởng giữa các từ trong câu mà ở đây phải kể đến là ngữ cảnh của chúng.

3. Xác định cú pháp phụ thuộc: Hiện tại chưa có cơng cụ nào về xác định cú pháp phụ thuộc cho tiếng Việt với độ chính xác cao được cơng bố vì vậy nên việc xác đinh các cú pháp phụ thuộc được thực hiện bằng tay. Giống như phương pháp đã trình bày, có ba loại cú pháp phụ thuộc được xét đến là: bổ ngữ tính từ, định ngữ tính từ, và định ngữ phủ định. Chi tiết của các thuật ngữ này được giải thích như sau:

Bổ ngữ tính từ: Một bổ ngữ tính từ của một động từ là một cụm tính từ bổ nghĩa cho động từ đó trong cùng một cụm từ, ký hiệu acomp: acomp(VP(V- H,AP)). Ví dụ: “Cơ ấy nhìn rất xinh”, bổ ngữ tính từ acomp(nhìn,xinh), ở đây “nhìn” là từ phụ thuộc, “xinh” là từ ảnh hưởng.

Định ngữ tính từ: Một định ngữ tính từ là cụm tính bổ nghĩa cho cụm danh từ đó trong cùng một cụm từ, ký hiệu amod: amod(NP-H, AP-H). Ví dụ: “ Cơ ấy ăn nhiều rau xanh”, định ngữ tính từ là amod(rau, xanh), trong đó “rau” là từ phụ thuộc và “xanh” là từ ảnh hưởng.

Định ngữ phủ định: Một định ngữ phủ định là quan hệ giữa từ phủ định và từ mà nó bổ nghĩa trong cùng một cụm từ, ký kiệu neg : neg(cụm chứa nó, (khơng(chẳng, khơng_thể, chẳng_thể, khơng_thể_nào, chẳng_thể_nào))).

Ví dụ “ Cơ ấy khơng vui”, định ngữ phủ định neg(vui,khơng), trong đó “vui” là từ phụ thuộc, “khơng” là từ ảnh hưởng; hay “Bill không phải là một nhà khoa học”, định ngữ phủ định neg(nhà khoa học, khơng), trong đó “nhà khoa học” là từ phụ thuộc, và “không” là từ ảnh hưởng.

4. Quan hệ ngữ nghĩa: Các từ có tần suất xuất hiện cùng nhau trong cùng ngữ cảnh thường có xu hướng tương đồng ngữ nghĩa hay có liên quan ngữ nghĩa. Tính tốn liên quan ngữ nghĩa giữa hai từ thơng qua độ đo thơng tin tương hỗ PMI. Cơng thức tính chỉ số PMI giữa từ x và từ y như sau:

P M I(x, y) = log(1 + co-occ(x, y)

occ(x)occ(y) (3.1) Trong đó co-occ(x, y) là số lần xuất hiện cùng nhau của x và y trong phạm vi cửa sổ trượt,occ(x) và occ(y) lần lượt là số lần xuất hiện của từ x và từ y trong kho ngữ liệu. Sử dụng 3.1 để tính PMI cho mỗi từ trong tập NAVA với từng từ trong mỗi khái niệm cảm xúc. Công thức ở đây sử dụng log để tăng sự phân biệt giữa các giá trị PMI và thêm vào 1 để tránh chỉ số âm và tránh log(0).

5. Tính véc-tơ cảm xúc cho từ trong tập NAVA: Từ câu đầu vào s w={w1, w2, ..., wn} là n từ NAVA trong câu s đã được trích chọn.

α={α1, α2, ..., αc} là tập gồm c từ ảnh hưởng trong s. β ={β1, β2, ..., βd} là tập gồm d từ phụ thuộc trong s.

e = {e1, e2, ..., em} là tập gồm m cảm xúc cơ bản, trong thực nghiệm sử dụng bốn loại cảm xúc cơ bản e = {vui, buồn, giận dữ, sợ hãi}. Việc chỉ

lựa chọn bốn loại cảm xúc trong sáu loại cảm xúc cơ bản mà Ekman đã đề xuất là do dữ liệu sử dụng cho thực nghiệm chứa rất ít thơng tin về hai loại cảm xúc còn lại.

Tập từ đại diện cho bốn loại cảm xúc được liệt kê trong Bảng 3.1 dưới đây. Các từ đại diện được chọn ra bằng cách thống kê các từ trực tiếp chỉ cảm xúc liên quan đến các khái niệm cảm xúc. Các từ trực tiếp chỉ cảm xúc nhưng có số lượng thống kê thấp sẽ không được chọn làm từ đại diện. Công thức 2.11 được sử dụng để tính trọng số PMI của một từ với một khái niệm

Cảm xúc Từ đại diện

Vui hạnh_phúc, vui, mừng, vui_mừng, cười, vui_vẻ, tươi_cười

Buồn buồn, thất_vọng, buồn_rầu, đau_đớn, thở_dài, buồn_bã, đau_khổ Giận dữ giận, bực_tức, cay_cú, trách, căm_ghét, cấm, giận_dữ

Sợ hãi ngại, lúng_túng, ám_ảnh, hoang_mang, sợ, thảng_thốt, khủng_khiếp Bảng 3.1: Tập từ đại diện cho các khái niệm cảm xúc

cảm xúc ei. Nhắc lại công thức 2.11 làP M I(wi, ej) = r

qQr

g=1P M I(wi, Kjg). Việc lựa chọn các từ đại diện cho mỗi khái niệm cảm xúc chú ý đến số lượng từ trong các khái niệm cần tương đồng nhau, số lượng từ không nên quá nhiều và các từ đại diện cần có tần suất xuất hiện cao. Sau khi tính trọng số PMI của một từ w cho tất cả các khái niệm cảm xúc, ta thu được véc-tơ cảm xúc của từwlàvw =hP M I(wi, e1), P M I(wi, e2), ..., P M I(wi, em)i Tiếp theo là việc điều chỉnh véc-tơ cảm xúc dựa và cú pháp phụ thuộc. Các cú pháp phụ thuộc được xác định bằng tay.

• Cho βq là từ phụ thuộc, và αp là từ ảnh hưởng. Véc-tơ cảm xúc của từ phụ thuộc βq được điều chỉnh theo cơng thức 2.13: vβq0 = vβq+v2 αp

• Đối với từ phụ thuộc có quan hệ phủ định, ta thực hiện điều chỉnh véc-tơ cảm xúc của từ phụ thuộc bằng 0 (ví dụ: “ Cơ ấy khơng buồn”, từ “buồn” được phủ định bởi từ “khơng”, do đó véc-tơ cảm xúc của từ phụ thuộc “buồn” được gán bằng 0). Theo cách này, từ “buồn” trở thành từ có cảm xúc “trung lập” nên nó khơng đóng vai trị quan trọng trong việc tổng hợp cảm xúc của câu.

6. Sau khi xác định tất cả véc-tơ cảm xúc của các từ trong tập từ NAVA, véc-tơ cảm xúc của cả câu được xác định bằng cách lấy trung bình của các véc-tơ cảm xúc của các từ NAVA. Cơng thức tính véc-tơ cảm xúc của câu

s theo công thức 2.14: vs =

Tổng quan về mơ hình

Phân tích quan hệ ngữ nghĩa