2.2 .Phương pháp sử dụng quan hệ ngữ nghĩa và ngữ pháp
2.2.7. Tính véc-tơ cảm xúc cho câu
Sau khi xác định tất cả véc-tơ cảm xúc của các từ trong tập từ NAVA, véc-tơ cảm xúc của cả câu được xác định bằng cách lấy trung bình của các véc-tơ cảm xúc của các từ NAVA. Cơng thức tính véc-tơ cảm xúc của câu s như sau:
vs = Pn
i=1vwi
n (2.14)
Trong đó n là số từ ảnh hưởng. Sau khi tính vs = {d1, d2, ..., dm}, việc gán
nhãn cảm xúc cho câu s thực hiện theo công thức sau:
ls = ek, nếu max(di) i=1,2,...,m =dk và dk > t
trung lập, nếu ngược lại
(2.15)
Giá trị t là một ngưỡng cần được xác định để phân biệt các câu có truyền đạt cảm xúc và những câu trung lập. Nhìn chung, việc xác định ngưỡng t phụ thuộc và kinh nghiệm, kho ngữ liệu,... Ngưỡngt có thể được dùng chung cho các khái niệm cảm xúc, nhưng cũng có khi cần xác định ngưỡng ti cho khái niệm
cảm xúc ei do trong kho ngữ liệu hay trong thực tế, các câu với các loại cảm xúc thường không đồng đều, cảm xúc vui vẻ hay buồn chán thường nhiều hơn cảm xúc ngạc nhiên hay sợ hãi.
2.3. Tổng kết
Trong chương này, luận văn đã trình bày về phương pháp phi giám sát cho bài toán phát hiện cảm xúc trong văn bản. Phương pháp đầu tiên được trình bày là sử dụng Mơ hình khơng gian véc-tơ, mơ hình được sử dụng khá phổ biến cho vấn đề xử lý văn bản, mơ hình này cũng được nhiều tác giả sử dụng cho bài tốn phát hiện cảm xúc trong văn bản. Mơ hình khơng gian véc-tơ sử dụng độ đo tf-idf, thông qua ma trận TDM thường có kích thước rất lớn, vì vậy cần sử dụng các thuật toán hiệu quả trong việc giảm số chiều của ma trận như SVD, để giảm chi phí tính tốn, tăng hiệu suất của mơ hình cũng như khai thác các thông tin ngữ nghĩa ẩn. Phương pháp thứ hai được trình bày là phương pháp sử dụng việc phân tích quan hệ ngữ nghĩa và sử dụng cú pháp phụ thuộc, phương pháp này sử đụng độ đo PMI để đo thơng tin tương hỗ giữa các từ qua đó tính tốn liên quan ngữ nghĩa giữa các từ mang thơng tin cảm xúc trong câu với các từ đại diện cảm xúc. Cú pháp phụ thuộc được sử dụng để điều chỉnh véc-tơ cảm xúc theo đúng ngữ cảnh. Chương tiếp theo sẽ trình bày về thử nghiệm phương pháp phi giám sát sử dụng quan hệ ngữ nghĩa và ngữ pháp đã trình bày cho bài tốn phát hiện cảm xúc trong văn bản tiếng Việt, đồng thời cũng trình bày một số kết quả của các tác giả đã công bố.
Chương 3
Thực nghiệm
Chương này luận văn sẽ trình bày về thực nghiệm áp dụng phương pháp phi giám sát sử dụng ngữ nghĩa và cú pháp phụ thuộc cho bài toán phát hiện cảm xúc trong văn bản tiếng Việt. Các bước để xây dựng mơ hình, xây dựng dữ liệu và kết quả thực nghiệm. Thử nghiệm thực hiện gán nhãn cảm xúc cho 938 câu trong kho ngữ liệu VietTreeBank và 1141 câu trích trong tác phẩm truyện.
3.1. Ứng dụng phương pháp phi giám sát phát hiện
cảm xúc trong văn bản tiếng Việt
Thử nghiệm được thực hiện dựa vào phương pháp sử dụng quan hệ ngữ nghĩa và ngữ pháp đã trình bày trong Chương 2. Các bước thực hiện để xây dựng mơ hình:
1. Thực hiện tiền xử lý văn bản đầu vào: Do đặc thù ngôn ngữ của tiếng Việt là các từ không phân cách nhau bởi dấu cách nên bước đầu tiên của việc xử lý văn bản đầu vào là việc tách từ. Công cụ sử dụng tách từ là vnTokenizer. Bước tiếp theo là gán nhãn từ loại, công cụ sử dụng để thực hiện gán nhãn từ loại là vnTagger, cả hai công cụ này là của tác giả Lê Hồng Phương. Độ chính xác của bước tiền xử lý ảnh hưởng trực tiếp đến kết quả của mơ hình vì các bước tiếp theo sử dụng kết quả thu được từ bước trước.
Sau khi văn bản đã được gán nhãn từ loại, việc tiếp theo là trích rút các từ NAVA, như đã trình bày ở chương trước, các từ NAVA là các từ mang thông tin cảm xúc cần được trích rút. Ví dụ câu“Tơi cảm thấy hạnh phúc”, trong câu này từ“cảm thấy” tương ứng với động từ và từ“hạnh phúc” tương ứng với tính từ, do đó chúng sẽ được trích rút để đưa vào tập NAVA. Các từ vừa được trích rút có thể có thể hiện cảm xúc rõ ràng hoặc không rõ ràng, đôi khi cũng có những từ mang cảm xúc rõ ràng nhưng nghĩa hồn tồn khác. Ví dụ “Hoa đã được chào đón với lời chúc khơng vui”. Trong câu này, các từ được trích rút “được”, “chào_đón”, “lời”, “chúc”, “khơng”, “vui”. Ta có thể thấy các từ “chào_đón”, “chúc” thuộc vào loại cảm xúc “vui_vẻ”, nhưng trong câu vừa cho có từ “vui” bị ảnh hưởng bởi từ “không”, nên câu này hướng tới một cảm xúc “buồn”. Do vậy, đã có sự ảnh hưởng giữa các từ trong câu mà ở đây phải kể đến là ngữ cảnh của chúng.
3. Xác định cú pháp phụ thuộc: Hiện tại chưa có cơng cụ nào về xác định cú pháp phụ thuộc cho tiếng Việt với độ chính xác cao được cơng bố vì vậy nên việc xác đinh các cú pháp phụ thuộc được thực hiện bằng tay. Giống như phương pháp đã trình bày, có ba loại cú pháp phụ thuộc được xét đến là: bổ ngữ tính từ, định ngữ tính từ, và định ngữ phủ định. Chi tiết của các thuật ngữ này được giải thích như sau:
Bổ ngữ tính từ: Một bổ ngữ tính từ của một động từ là một cụm tính từ bổ nghĩa cho động từ đó trong cùng một cụm từ, ký hiệu acomp: acomp(VP(V- H,AP)). Ví dụ: “Cơ ấy nhìn rất xinh”, bổ ngữ tính từ acomp(nhìn,xinh), ở đây “nhìn” là từ phụ thuộc, “xinh” là từ ảnh hưởng.
Định ngữ tính từ: Một định ngữ tính từ là cụm tính bổ nghĩa cho cụm danh từ đó trong cùng một cụm từ, ký hiệu amod: amod(NP-H, AP-H). Ví dụ: “ Cơ ấy ăn nhiều rau xanh”, định ngữ tính từ là amod(rau, xanh), trong đó “rau” là từ phụ thuộc và “xanh” là từ ảnh hưởng.
Định ngữ phủ định: Một định ngữ phủ định là quan hệ giữa từ phủ định và từ mà nó bổ nghĩa trong cùng một cụm từ, ký kiệu neg : neg(cụm chứa nó, (khơng(chẳng, khơng_thể, chẳng_thể, khơng_thể_nào, chẳng_thể_nào))).
Ví dụ “ Cơ ấy khơng vui”, định ngữ phủ định neg(vui,khơng), trong đó “vui” là từ phụ thuộc, “không” là từ ảnh hưởng; hay “Bill không phải là một nhà khoa học”, định ngữ phủ định neg(nhà khoa học, khơng), trong đó “nhà khoa học” là từ phụ thuộc, và “không” là từ ảnh hưởng.
4. Quan hệ ngữ nghĩa: Các từ có tần suất xuất hiện cùng nhau trong cùng ngữ cảnh thường có xu hướng tương đồng ngữ nghĩa hay có liên quan ngữ nghĩa. Tính tốn liên quan ngữ nghĩa giữa hai từ thông qua độ đo thông tin tương hỗ PMI. Cơng thức tính chỉ số PMI giữa từ x và từ y như sau:
P M I(x, y) = log(1 + co-occ(x, y)
occ(x)occ(y) (3.1) Trong đó co-occ(x, y) là số lần xuất hiện cùng nhau của x và y trong phạm vi cửa sổ trượt,occ(x) và occ(y) lần lượt là số lần xuất hiện của từ x và từ y trong kho ngữ liệu. Sử dụng 3.1 để tính PMI cho mỗi từ trong tập NAVA với từng từ trong mỗi khái niệm cảm xúc. Công thức ở đây sử dụng log để tăng sự phân biệt giữa các giá trị PMI và thêm vào 1 để tránh chỉ số âm và tránh log(0).
5. Tính véc-tơ cảm xúc cho từ trong tập NAVA: Từ câu đầu vào s w={w1, w2, ..., wn} là n từ NAVA trong câu s đã được trích chọn.
α={α1, α2, ..., αc} là tập gồm c từ ảnh hưởng trong s. β ={β1, β2, ..., βd} là tập gồm d từ phụ thuộc trong s.
e = {e1, e2, ..., em} là tập gồm m cảm xúc cơ bản, trong thực nghiệm sử dụng bốn loại cảm xúc cơ bản e = {vui, buồn, giận dữ, sợ hãi}. Việc chỉ
lựa chọn bốn loại cảm xúc trong sáu loại cảm xúc cơ bản mà Ekman đã đề xuất là do dữ liệu sử dụng cho thực nghiệm chứa rất ít thơng tin về hai loại cảm xúc cịn lại.
Tập từ đại diện cho bốn loại cảm xúc được liệt kê trong Bảng 3.1 dưới đây. Các từ đại diện được chọn ra bằng cách thống kê các từ trực tiếp chỉ cảm xúc liên quan đến các khái niệm cảm xúc. Các từ trực tiếp chỉ cảm xúc nhưng có số lượng thống kê thấp sẽ không được chọn làm từ đại diện. Cơng thức 2.11 được sử dụng để tính trọng số PMI của một từ với một khái niệm
Cảm xúc Từ đại diện
Vui hạnh_phúc, vui, mừng, vui_mừng, cười, vui_vẻ, tươi_cười
Buồn buồn, thất_vọng, buồn_rầu, đau_đớn, thở_dài, buồn_bã, đau_khổ Giận dữ giận, bực_tức, cay_cú, trách, căm_ghét, cấm, giận_dữ
Sợ hãi ngại, lúng_túng, ám_ảnh, hoang_mang, sợ, thảng_thốt, khủng_khiếp Bảng 3.1: Tập từ đại diện cho các khái niệm cảm xúc
cảm xúc ei. Nhắc lại công thức 2.11 làP M I(wi, ej) = r
qQr
g=1P M I(wi, Kjg). Việc lựa chọn các từ đại diện cho mỗi khái niệm cảm xúc chú ý đến số lượng từ trong các khái niệm cần tương đồng nhau, số lượng từ không nên quá nhiều và các từ đại diện cần có tần suất xuất hiện cao. Sau khi tính trọng số PMI của một từ w cho tất cả các khái niệm cảm xúc, ta thu được véc-tơ cảm xúc của từwlàvw =hP M I(wi, e1), P M I(wi, e2), ..., P M I(wi, em)i Tiếp theo là việc điều chỉnh véc-tơ cảm xúc dựa và cú pháp phụ thuộc. Các cú pháp phụ thuộc được xác định bằng tay.
• Cho βq là từ phụ thuộc, và αp là từ ảnh hưởng. Véc-tơ cảm xúc của từ phụ thuộc βq được điều chỉnh theo công thức 2.13: vβq0 = vβq+v2 αp
• Đối với từ phụ thuộc có quan hệ phủ định, ta thực hiện điều chỉnh véc-tơ cảm xúc của từ phụ thuộc bằng 0 (ví dụ: “ Cơ ấy không buồn”, từ “buồn” được phủ định bởi từ “khơng”, do đó véc-tơ cảm xúc của từ phụ thuộc “buồn” được gán bằng 0). Theo cách này, từ “buồn” trở thành từ có cảm xúc “trung lập” nên nó khơng đóng vai trị quan trọng trong việc tổng hợp cảm xúc của câu.
6. Sau khi xác định tất cả véc-tơ cảm xúc của các từ trong tập từ NAVA, véc-tơ cảm xúc của cả câu được xác định bằng cách lấy trung bình của các véc-tơ cảm xúc của các từ NAVA. Cơng thức tính véc-tơ cảm xúc của câu
s theo công thức 2.14: vs =
Pn i=1vwi
n .
hiện theo công thức sau: ls = ek, nếu max(di) i=1,2,...,m =dk và dk > tk.
trung lập, nếu ngược lại.
(3.2)
Trong thực nghiệm này, mỗi khái niệm cảm xúc có một ngưỡng tk riêng do số lượng câu thể hiện cảm xúc của mỗi khái niệm cảm xúc là không bằng nhau, cảm xúc vui và cảm xúc buồn có số câu nhiều hơn, trong khi đó, cảm xúc giận dữ và cảm xúc sợ hãi có số câu ít hơn. Nhưng việc xác định ngưỡng tk hồn tồn dựa vào thực nghiệm, chưa có cơng thức cụ thể hay phương pháp đánh giá tính phù hợp của ngưỡng tk.
3.2. Một số kết quả thử nghiệm
Trong phần này, luận văn trình bày về một số kết quả thực ngiệm phát hiện cảm xúc trong văn bản tiếng Việt theo phương pháp đã trình bày ở trên, ngồi ra, luận văn cũng đưa ra một số kết quả của các tác giả khác đã công bố.
Kho ngữ liệu được sử dụng trong thực nghiệm gồm 2 phần:
• Phần thứ nhất là kho văn bản tiếng Việt đã tách từ gồm 40.000 câu lấy từ nguồn báo chí dùng để tính chỉ số PMI giữa các từ.
• Phần thứ hai là dữ liệu dùng để kiểm tra gồm 938 câu trong kho dữ liệu VietTreeBank và 1141 câu trong văn bản truyện "Chiều tím" của tác giả Châu Liên được xác định cú pháp phụ thuộc và nhãn cảm xúc bằng tay.
Do chưa có nguồn dữ liệu nào về văn bản tiếng Việt được gán nhãn cảm xúc hay các kho ngữ liệu tiếng Việt cho vấn đề phát hiện cảm xúc nên tác giả cùng các đồng nghiệp đã xây dựng dữ liệu kiểm để chạy và kiểm tra mơ hình bằng tay. Thực sự đây là cơng việc khá khó khăn do việc gán nhãn cảm xúc cho câu bằng tay mang nhiều tính chủ quan của người gán nhãn.
Bảng 3.2 dưới đây là kết quả thử nghiệm trên 938 câu trong Việt Treebank, sử dụng cú pháp phụ thuộc, kho ngữ liệu VietTreeBank (kho ngữ liệu VietTreeBank gồm khoảng 10.000 câu được dùng để tính chỉ số PMI).
Prec Rec F-Score
Vui 33,33% 15,15% 20,83% Buồn 46,67% 9,97% 16,09% Giận dữ 33,33% 20% 25% Sợ hãi 42,86% 37,50% 40%
Bảng 3.2: Kết quả thử nghiệm trên 938 câu trong VietTreeBank
Tiếp theo là thử nghiệm trên 1141 câu trích trong văn bản truyện, sử dụng cú pháp phụ thuộc, kho ngữ liệu VietTreeBank được dùng để tính PMI, kết quả trình bày trong Bảng 3.3.
Prec Rec F-Score
Vui 63,83% 44,20% 52,17% Buồn 45,46% 33,58% 38,61% Giận dữ 50% 2,99% 5,6% Sợ hãi 20% 12,50% 15,39%
Bảng 3.3: Kết quả thử nghiệm trên 1141 câu trong trích từ truyện
Trong thử nghiệm dưới đây, thay vì sử dụng kho dữ liệu VietTreeBank gồm khoảng 10.000 câu. Chúng tôi sử dụng kho dữ liệu lớn hơn gồm 40.000 câu lấy từ nguồn báo chí với hi vọng kho ngữ liệu này cung cấp thông tin ngữ nghĩa tốt hơn để tính chỉ số PMI giữa các từ. Kết quả thực nghiệm cho thấy việc sử dụng kho ngữ liệu 40.000 câu cho kết quả tốt hơn 10.000 câu trong VietTreeBank.
Bảng 3.4 trình bày kết quả thử nghiệm 1141 trích từ truyện, sử dụng cú pháp phụ thuộc, kho ngữ liệu 40.000 câu được sử dụng để tính PMI.
Từ thực nghiệm, một số nhận xét được rút ra là:
• Việc lựa chọn tập từ đại diện ảnh hưởng trực tiếp đến kết quả, mỗi tập từ đại diện khác nhau cho một kết quả khác nhau.
Prec Rec F-Score
Vui 71,11% 47,06% 56,64% Buồn 38,60% 29,53% 33,46% Giận dữ 50% 2,99% 5,64%
Sợ hãi 40% 25% 30,77%
Bảng 3.4: kết quả thử nghiệm 1141 câu trích từ truyện, kho ngữ liệu 40.000 câukho ngữ liệu giàu cảm xúc sẽ thu được kết quả tốt hơn. Tỷ lệ giữa các loại kho ngữ liệu giàu cảm xúc sẽ thu được kết quả tốt hơn. Tỷ lệ giữa các loại cảm xúc cũng phần nào ảnh hưởng tới kết quả mơ hình.
• Tác giả cũng tiến hành thực nghiệm theo phương pháp trên nhưng không sử dụng cú pháp phụ thuộc và thấy kết quả khơng tốt bằng việc có sử dụng cú pháp phụ thuộc.
Kết quả của thực nghiệm cũng được báo cáo tại Hội thảo quốc gia lần thứ XVII: Một số vấn đề chọn lọc của Công nghệ thông tin và Truyền thông[1]. Phần sau của chương này sẽ trình bày về một số kết quả của các tác giả khác đã công bố về vấn đề phát hiện cảm xúc trong văn bản.
Các tác giả (Agrawal, Ameeta and An, Aijun 2012)[2] áp dụng phương pháp phi giám sát sử dụng quan hệ ngữ nghĩa và phụ thuộc cú pháp để phát hiện cảm xúc trong văn bản. Thuật toán được đề xuất đặt tên là UnSED (Unsupervised Seman-tic Emotion Detection). Thực nghiệm được thực hiện trên 3 kho dữ liệu:
1. Dữ liệu từ Wikimedia1
2. Kho ngữ liệu Gutenberg2 bao gồm 36.000 ebook
3. Wiki-Guten, kết hợp của 2 dữ liệu trên
Kết quả thử nghiệm theo chỉ số F-score được trình bày trong Bảng 3.5 Dữ liệu dùng để kiểm thử là kho dữ liệu ISEAR (International Survey on Emotion Antecedents and Reactions). Tác giả cũng đưa ra kết quả so sánh với các phương pháp phi giám sát khác trong bảng 3.6
1http://download.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 2http://www.gutenberg.org/