Trong khuôn khổ bài toán phân tích cảm xúc văn bản tiếng Việt theo đối tượng, đề tài đã sử dụng phương pháp phân tích hướng ngữ nghĩa bằng cách sử dụng kết hợp ontology, đồ thị khái niệ
NỘI DUNG
Ngày nay, sự phổ biến của mạng xã hội, kênh tin tức và diễn đàn dẫn đến sự gia tăng của bình luận sản phẩm, dịch vụ và sự xuất hiện của các phát biểu so sánh Những phát biểu này được quan tâm bởi cả người tiêu dùng và nhà cung cấp, vì lựa chọn là nhu cầu của người mua và sự so sánh là động lực phát triển trong môi trường cạnh tranh Phân tích cảm xúc toàn văn bản không hiệu quả trong trường hợp này, vì người viết thường đưa ra nhiều cảm xúc trái ngược khi đề cập đến các sản phẩm và dịch vụ khác nhau trong bài viết.
Hơn nữa đối với người tiêu dùng cũng như đối với các nhà cung cấp họ cũng muốn biết cụ thể trong các bình luận đó người viết khen đối tượng nào, chê đối tượng nào và đối với từng đối tượng thì người viết khen mặt nào, chê mặt nào Gần đây, bài toán phân tich cảm xúc ở mức độ khía cạnh và hướng chủ thể đã được rất nhiều công trình tập trung nghiên cứu để giải quyết Tuy nhiên, nhìn chung bài toán này vẫn còn nhiều thách thức khi mà những bài viết trên mạng thường là dữ liệu phi cấu trúc và không đảm bảo về mặt ngữ pháp cũng nhƣ từ vựng
1.1 Bài toán phân tích cảm xúc văn bản
Theo Bing Liu ([2]), phân tích cảm xúc (Sentiment analysis [3]) hay còn gọi là khai thác ý kiến (opinion mining [4]) là lĩnh vực phân tích ý kiến, tình cảm, sự đánh giá, thái độ và cảm xúc của con người về các thực thể như sản phẩm, dịch vụ, tổ chức, sự kiện Đây là bài toán lớn có nhiều tên gọi khác nhau như phân tích tình cảm, khai thác ý kiến, trích xuất ý kiến, khai thác tình cảm, phân tích chủ quan
Phân loại ý kiến là một nhiệm vụ quan trọng trong xử lý ngôn ngữ tự nhiên, tập trung vào phân biệt ý kiến tích cực và tiêu cực Theo Bing Liu, phân tích cảm xúc được chia thành ba mức độ: phân tích toàn văn bản, phân tích mức câu và phân tích mức khía cạnh.
TỔNG QUAN
Bài toán phân tích cảm xúc văn bản
Theo Bing Liu ([2] ), phân tích cảm xúc (Sentiment analysis [3] ) hay còn gọi là khai thác ý kiến (opinion mining [4]) là một lĩnh vực phân tích ý kiến, tình cảm, sự ước lượng, sự đánh giá, thái độ và cảm xúc của con người về các thực thể nhƣ sản phẩm, dịch vụ, tổ chức, các nhân, vấn đề, sự kiện, chủ đề và các thuộc tính của chúng Đây là một lớp các bài toán lớn và đƣợc gọi bằng nhiều tên khác nhau: phân tích tình cảm, khai thác ý kiến, trích xuất ý kiến, khai thác tình cảm, phân tích chủ quan, phân tich sự ảnh hưởng, phân tích cảm xúc, khai thác bình luận, …
Cũng theo theo Bing Liu ([2] ), dù đƣợc gọi bằng nhiều tên khác nhau và bản thân từ “ý kiến” thể hiện một miền rất rộng nhƣng bài toán này chủ yếu tập trung vào việc phân loại các ý kiến đánh giá mang hàm ý tích cực (positive) hay tiêu cực (negative) Về cơ bản bài toán phân tích cảm xúc đƣợc chia thành ba mức độ chính: phân tích cảm xúc ở mức toàn văn bản, phân tích cảm xúc ở mức độ câu và phân tích cảm xúc ở mức khía cạnh (aspect level)
1.1.1 Phân tích cảm xúc ở mức độ văn bản Đối với bài toán phân tích cảm xúc ở mức toàn văn bản (document-based sentiment analysis), việc phân tích ý kiến đƣợc giải quyết nhƣ một bài toán phân loại ý kiến mà toàn bộ văn bản thể hiện nói chung là tích cực hay tiêu cực Các công trình nghiên cứu đầu tiên đều thực hiện việc phân tích ở mức độ này, tiêu biểu là các công trình (Turney, 2002) và (Pang & cộng sự, 2002) Khi xem xét một bình luận về một sản phẩm, hệ thống sẽ xác định xem một bình luận nhìn chung thể hiện quan điểm tích cực hay tiêu cực về các sản phẩm Bài toán này đƣợc biết với tên gọi là phân loại quan điểm mức văn bản Cách phân tích này giả định mỗi văn bản chỉ đề cập đến một thực thể duy nhất và nhƣ vậy nó sẽ không phù hợp với các văn bản đánh giá hoặc so sánh nhiều thực thể với nhau
Các phương pháp học có giám sát (các kĩ thuật học máy) thường được sử dụng trong bài toán phân tích cảm xúc ở mức độ văn bản Các kĩ thuật này thường đòi hỏi phải có một tập huấn luyện bao gồm các phần sau:
- Từ vựng (lexicon): là các bộ phân tích unigram, bigram hay n-gram
- Tần số xuất hiện: chỉ số này thường dùng độ đo 𝑡𝑓 𝑖𝑑𝑓 Ngoài ra một số công trình sử dụng các độ đo khác nhƣ BM25 idf, PMI, LSA (Kim và cộng sự, 2009) hay Delta tf.idf (Paltoglou và Thelwall, 2010)
- Một số thành phần khác cũng thường được sử dụng như: từ loại (POS), vị trí của từ, các ngữ cảm xúc (tốt, xấu, đẹp, …)
Phương pháp phân tích có giám sát chủ yếu được thực hiện dựa trên các dữ liệu đã đƣợc gán nhãn cảm xúc và các kĩ thuật học máy nhƣ: Nạve Bayes ([5] [6]
[7] [8] [9] ), Maximal Entropy ([12] [13] [14] ) và Support Vector Machine ([6] [7]
[8] [10] [11] ) Theo kết quả đánh giá trong [23] thì phương pháp học có giám sát cho kết quả cao hơn phương pháp phân tích theo hướng ngữ nghĩa Tuy nhiên phương pháp này vẫn còn có nhiều hạn chế và khó áp dụng trong thực tế Phương pháp phân tích cảm xúc có giám sát chỉ cho kết quả chính xác cao ở mức độ toàn văn bản với các văn bản dạng bình luận ngắn và chỉ tập trung vào một thực thể, thường thì cho kết quả thấp ở khi phân tích ở mức độ câu hoặc mức khía cạnh Đối với các văn bản dài, đề cập đến nhiều thực thể thuộc nhiều miền khác nhau và có tính tương tác thì phương pháp này hầu như không hiệu quả Một hạn chế lớn nhất của phương pháp học có giám sát là chỉ cho kết quả phân loại tốt trên miền dữ liệu mà nó đƣợc huấn luyện, khi áp dụng sang tập dữ liệu thuộc các miền khác thì kết quả đạt được có độ chính xác rất thấp Ngoài ra kết quả phân loại của phương pháp này phụ thuộc rất lớn vào chất lƣợng của tập dữ liệu huấn luyện Trong khi việc thu
7 thập, phân loại và huấn luyện đòi hỏi rất nhiều thời gian Do đó đây không phải là một giải pháp linh động và dễ áp dụng trong thực tế
Trong ba kĩ thuật học máy ở trên, theo sự đánh giá của Bo Pang và các cộng sự trong công trình [15] thì SVM được cho phương pháp đạt độ chính xác cao nhất
Theo kết quả thí nghiệm trong công trình này thì với kĩ thuật SVM đã đạt đƣợc độ chính xác 82.9%
SVM là bộ phân lớp dựa trên lý thuyết học thống kê Ý tưởng cơ bản của SVM là biểu diễn các mẫu huấn luyện dưới dạng các điểm trong không gian nhiều chiều và tìm kiếm một siêu phẳng (hyperland) để phân chia các điểm dữ liệu vào các lớp phân hoạch khác nhau Điểm mấu chốt là đảm bảo sao cho lề, khoảng cách từ siêu phẳng đến các phân hoạch là lớn nhất Hình 1.1 minh họa bài toán phân loại hai lớp Cho trước n điểm trong không gian, mỗi điểm thuộc vào một lớp với ký hiệu tương ứng là hoặc được phân bố như trong hình Sự phân bố của các điểm này có thể được phân tách thành hai phần bằng các các đường thẳng L1, L2 và
Hình 1.1: Minh hoạ phương pháp SVM ( [16]
Tuy nhiên với bộ phân lớp SVM, siêu phẳng tìm đƣợc sẽ là cách phân lớp tối với đường thẳng 𝑤 𝑥 − 𝑏 = 0, chia các điểm thành hai lớp phân hoạch riêng biệt với khoảng cách từ đường thẳng đến điểm gần nhất là lớn nhất Để áp dụng SVM vào bài toán phân loại văn bản, các văn bản đƣợc biểu diễn dưới dạng các vector nhiều chiều, trong đó mỗi chiều của vector tương ứng với một từ đặc trƣng trong văn bản và giá trị mỗi chiều có thể đƣợc tính bằng chỉ số TFIDF ([19] ) Sau đó xem xét vị trí của văn bản trong không gian so với siêu phẳng để kết luận nhãn tương ứng của văn bản
Phương pháp hiệu quả để biểu diễn các tài liệu là sử dụng mô hình không gian vector (Vector Space Model) Mỗi câu nhận xét sẽ đƣợc biến đổi thành một vector nhiều chiều nhƣ sau:
: : …
- là một giá trị tương ứng với lớp phân loại: 1 (positive), -1
- : là một cặp giá trị tương ứng cho mỗi từ trong câu, với
là giá trị số thứ tự để chỉ đến từ đó, là giá trị nhằm xác định mức độ quan trọng của từ đó trong quá trình phân loại của câu
TFIDF: Thông thường, giá trị thường dùng là trọng số TFIDF, thể hiện số đo mức độ quan trọng của một từ t đối với văn bản d trong một tập các văn bản D
TF: Với f t d ( , ) là số lần xuất hiện của từ t trong văn bản d, tf t d ( , )có thể đƣợc tính bằng một số cách khác nhau nhƣ sau:
IDF: Với D là tổng số các văn bản, D t d D t : d là số văn bản có chứa từ t:
Martineau và Finin ([18] ) đã giới thiệu một cách tính trọng số mới, DeltaTFIDF DeltaTFIDF là một giải pháp nhằm sử dụng chỉ số idf vào việc phân loại các câu bình luận, bằng cách tính giá trị idf một cách cục bộ trong từng lớp phân loại Tập dữ liệu huấn luyện sẽ đƣợc chia làm hai: tập tích cực P và tập tiêu cực N ; tính giá trị idf t P ( , )và idf t N ( , ) sau đó lấy hiệu của hai giá trị này
Những khó khăn trong phân tích cảm xúc văn bản tiếng Việt
Nhƣ đã đƣợc đề cập trong mục “Đối tƣợng và phạm vi nghiên cứu”, đề tài chỉ tập trung xử lý các văn bản đƣợc viết rõ nghĩa, có dấu đầy đủ và viết đúng chính tả Mặc dù đối tƣợng của đề tài đã đƣợc giới hạn, tuy nhiên các văn bản đƣợc thu thập từ nhiều nguồn khác nhau, cả các nguồn văn bản chính thống và không chính thống nên vẫn có rất nhiều khó khăn trong việc phân tích cảm xúc đối với các văn bản này.
Sự phổ biến của mạng xã hội, diễn đàn và kênh tin tức giúp dễ dàng thu thập nhiều bình luận về sản phẩm, dịch vụ nhưng đây thường là nguồn dữ liệu không chính thống với nhiều từ ngữ viết tắt, biến thể như "ko" (không), "wá" (quá), "thjck" (thích).
(thích),… cũng gây ra rất nhiều khó khăn trong trong việc xử lý ngữ nghĩa
Vì cách viết này khá phổ biến trên các mạng xã hội và diễn đàn điện tử nên đƣợc xem nhƣ một ngoại lệ và cần phải xử lý.
Ví dụ 1.2 “Amway đắt nhug hjeu wa và dug dc lâu daj mà Aj có nhu cầu thj ljên hệ voj m và ủng hộ m voj nhá sp amway rất an toàn Nếu muốn làm jau thj cug nên đứng lên từ amway nữa.”
Những bài viết được thu thập từ các kênh trực tuyến thường có cấu trúc phức tạp, thiếu sự phân tách các ý bằng dấu câu hoặc sử dụng dấu câu không theo đúng quy tắc Điều này gây cản trở lớn cho việc phân tích cảm xúc ở cấp độ khía cạnh.
Ví dụ 1.3 “Các mẹ dùng bỉm gì cho con vao ban ngày mà giá thành hợp lý,e dùng bỉm merries cho con vào ban đêm thấy bề mặt khô thoáng và bé ngủ ngon,ban ngày e mới dùng thử huggies,thấm hút chán quá,bobby còn đỡ hơn.”
- Các từ cảm xúc trong các văn bản tiếng Việt thường không xuất hiện đơn lẽ mà chúng kết hợp với nhau tạo thành các ngữ cảm xúc Kết cấu của các ngữ cảm xúc trong tiếng Việt nhìn chung khá phức tạp, đôi khi là sự kết hợp của những từ cùng hướng cảm xúc và đôi khi là sự kết hợp của các từ có hướng cảm xúc ngƣợc nhau Ngoài ra, đi kèm với các cụm từ cảm xúc có thể sẽ có những trạng từ hoặc liên từ tăng cường hoặc giảm nhẹ mà những từ này có ảnh hưởng rất lớn đến hướng cảm xúc của toàn câu Do đó việc nhận dạng và xử lý đầy đủ các ngữ cảm xúc sẽ quyết định đến độ chính xác khi phân tích cảm xúc ở mức độ khía cạnh:
Ví dụ 1.4 “Mình mới mua Q-smart S25, máy chạy rất nhanh hết pin dù mình đã hạn chế chạy các ứng dụng.” Hay “Tiền trong tài khoản bị trừ rất nhanh chóng”
Xử lý ngữ phủ định đóng vai trò quan trọng trong phân tích cảm xúc văn bản Phương pháp học máy bằng SVM đã chứng minh xử lý ngữ phủ định tăng độ chính xác phân loại cảm xúc lên 79,33% so với 77,33% khi chưa xử lý Tuy nhiên, một số ngữ phủ định lại không mang nghĩa phủ định như "không phải nói khen chứ", "không thể đẹp hơn được nữa".
- Cấu trúc câu trong các văn bản được thu thập từ các nguồn trên thường rất phức tạp và dài Trong các câu dạng này thường đề cập đến nhiều đối tượng trong đó có cả các đối tƣợng ít liên quan đến cảm xúc trong câu nhƣ tên người, tên địa danh, tên đường,…
Câu so sánh là dạng đặc biệt của câu phức, các đối tượng trong câu so sánh chia sẻ chung ngữ cảm xúc nhưng mang thái độ khác nhau.
Ngoài ra, câu phức được tạo từ nhiều câu đơn kết nối bằng liên từ có kết cấu và hướng cảm xúc phức tạp Đối với cấu trúc này, đôi khi chỉ cần một từ cảm xúc đơn giản cũng đủ để lấn át những ngữ cảm xúc mạnh khác, quyết định hướng cảm xúc của toàn câu Do đó, cần áp dụng các luật suy luận đặc biệt để xác định chính xác cảm xúc đối với loại câu này.
Ví dụ 1.5 “Điện thoại Z2 của Sony ra mắt khá ấn tượng, cấu hình mạnh, được trang bị nhiều ứng dụng nhưng mình sẽ chọn con Galaxy S5 của anh Samsung” Đối với dạng câu “nhưng” nhƣ trên thì các ngữ cảm xúc trong vế câu sau
“nhưng” sẽ quyết định hướng cảm xúc của các đối tượng trong câu Do đó từ “chọn” sẽ vƣợt qua các từ cảm xúc khác trong câu và cho giá trị cảm xúc tích cực đối với “Galaxy S5” và tiêu cực đối với “Z2”
PHÂN TÍCH CẢM XÚC VĂN BẢN THEO ĐỐI TƯỢNG
Các công trình nghiên cứu liên quan
Hầu hết các công trình nghiên cứu về phân tích cảm xúc văn bản tập trung vào hai hướng xử lý tự động: phương pháp học giám sát và phương pháp không giám sát hay còn gọi là phương pháp hướng ngữ nghĩa Mỗi phương pháp đều có những ưu điểm riêng, phương pháp học máy được cho là có độ chính xác cao hơn nhưng lại phụ thuộc rất nhiều vào tập huấn luyện và phải được huấn luyện trước khi phân tích Trong khi phương pháp hướng ngữ nghĩa thì có tính tổng quát hơn và không cần phải huấn luyện trước Tuy nhiên, phương pháp nào tốt hơn thì vẫn là một câu hỏi mở ([23])
Trong [23] , Pimwadee Chaovalit và các cộng sự đã so sánh hai phương pháp có giám sát và không giám sát dựa trên các bình luận về phim Kết quả cho thấy phương pháp có giám sát cho kết quả cao hơn nhưng trong thí nghiệm này việc rút trích các ngữ cảm xúc cho phương pháp hướng ngữ nghĩa quá đơn giản Tác giả chỉ rút trích các ngữ cảm xúc ở dạng kết hợp hai từ đƣợc liệt kê trong hai cột “từ thứ nhất” và “từ thứ hai” trong Bảng 2.1 Các ngữ cảm xúc là sự kết hợp của bốn từ loại theo đề xuất của Turney trong [24] : động từ, tính từ, danh từ và trạng từ Ngoài ra tác giả còn quy định giới hạn cho từ liền sau của ngữ cảm xúc ở cột “từ thứ ba”
Các ngữ cảm xúc sau đó sẽ được tính hướng cảm xúc bằng PMI
Từ thứ nhất Từ thứ hai Từ thứ ba (không rút trích)
JJ NN hoặc NNS Bất kì
RB, RBR, hoặc RBS JJ Không phải NN và NNS
JJ JJ Không phải NN và NNS
NN or NNS JJ Không phải NN và NNS
RB, RBR, hoặc RBS VB, VBD, VBN, hoặc
Bảng 2.1: Luật kết hợp ngữ cảm xúc trong công trình của Turney [24]
Khi sử dụng phương pháp có giám sát, hầu hết các nghiên cứu được thực hiện trên tập dữ liệu là các nhận xét về phim ảnh và các sản phẩm thu từ các trang web đánh giá, mỗi nhận xét thường chỉ tập trung vào một loại đối tượng cụ thể Với các tập dữ liệu này, các phương pháp dựa trên học máy cho kết quả tốt hơn so với các phương pháp dựa trên xu hướng tình cảm của từ vựng Tuy nhiên, trên các trang mạng xã hội, các nhận xét, đánh giá thường mang tính tương tác xã hội nhiều hơn, không tuân theo một chuẩn nào, có thể đề cập đến các đối tƣợng thuộc nhiều miền dữ liệu khác nhau Vậy với các nhận xét loại này, phương pháp phân loại nào sẽ cho kết quả tốt hơn? Để trả lời câu hỏi này, Paltoglou ([17] ) đã khảo sát hiệu quả của
16 các phương pháp phân tích trên với tập dữ liệu là các đoạn đối thoại, phản hồi của người dùng trên các trang mạng xã hội Kết quả thực nghiệm cho thấy, trong trường hợp này, các phương pháp tính toán xu hướng tình cảm đạt hiệu quả cao hơn các phương pháp dựa trên học máy
Maite Taboada và các cộng sự ([25] ) đã đề xuất sử dụng từ điển cảm xúc có đánh trọng số phân cực cho tính từ, động từ và trạng từ trong miền [-5,5] để phân tích cảm xúc văn bản Trong đó các từ có hướng tiêu cực sẽ được đánh điểm âm và các từ có hướng tích cực được đánh điểm dương Trong công trình này tác giả cũng đề xuất xử lý lối nói tăng cường, giảm nhẹ, nói quá và ngữ phủ định Kết quả thử nghiệm của tác giả đạt độ chính xác cao nhất 81.5%
Trong công trình [26] , Bing Liu đã phân tích cảm xúc ở mức độ câu cho các đặc tính bằng cách định nghĩa các bộ từ cảm xúc theo đặc tính của đối tƣợng có dạng (o j , f jk , oo ijkl , h i , t l ) Trong đó: o j là một đối tƣợng, f jk là một đặc tính của đối tượng o j, oo ijkl là hướng cảm xúc trên đặc tính f jk của đối tượng o j , h i là người đưa ra ý kiến, tl thời gian người h i đưa ra ý kiến Nhưng trong công trình này tác giả chỉ dừng lại ở dạng câu trực tiếp và không xử lý trường hợp câu so sánh
Basant Agarwal và các cộng sự trong [27] nhận thấy các từ đơn thường có những hướng cảm xúc khác nhau trong những miền dữ liệu khác nhau và các ngữ (phrase) thường chứa nhiều thông tin cảm xúc hơn các từ đơn Công trình trên thực hiện rút trích các ngữ bằng các luật dựa trên nhãn từ loại và các quan hệ phụ thuộc
Sau đó dùng PMI để xác định hướng cảm xúc của các ngữ Kết quả thực nghiệm cho thấy nếu dùng phương pháp Turneys làm cơ sở đạt độ chính xác 77.83% và với phương pháp mở rộng tập luật của tác giả đạt độ chính xác đạt độ chính xác 79.50%
Ana-Maria Popescu ([28] ) cũng đã sử dụng mô hình OPINE - một hệ thống trích xuất thông tin không giám sát để trích xuất ý kiến về các đặc tính của sản phẩm trong các bình luận trên internet
Theo [29] các công trình về phân tích cảm xúc chủ yếu phân tích ở dạng không phụ thuộc đối tƣợng, đặc biệt khi phân tích ở mức khía cạnh thì cũng không xem xét đến đối tƣợng của đặc tính Nên trong công trình này tác giả đề xuất xây dựng một phương pháp phân tích cảm xúc phụ thuộc đối tượng cho các bình luận trên Tweeter Việc xác định cảm xúc trong phương pháp này chủ yếu dựa trên quan hệ ngữ pháp trong cấu trúc câu Cũng theo thống kê trong công trình này, đối với phương pháp phân tích cảm xúc không phụ thuộc đối tượng thì 40% các trường hợp
17 sai là do trong văn bản đề cập đến nhiều đối tƣợng hoặc cảm xúc trong văn bản không thuộc đối tƣợng đang xét
Guang Qiu và các cộng sự đã sử dụng bộ phân tích cú pháp trong [30] kết hợp với phương pháp truyền ngược để phân tích cảm xúc theo đối tượng Trong phương pháp này, các ngữ cảm xúc và các đối tượng được trích xuất và sau đó truyền ngƣợc để xác định mối quan hệ
Trong công trình [31] Yan Dang đề xuất một phương pháp từ điển cải tiến bằng cách kết hợp hai phương pháp học máy và hướng ngữ nghĩa để phân tích cảm xúc Tác giả sử dụng ba tập từ đặc trƣng: tập đặc trƣng phi nội dung, tập đặc trƣng theo nội dung của một chủ đề cụ thể (các từ khóa, ngữ gồm nhiều từ) và tập đặc trƣng cảm xúc (các từ hoặc ngữ cảm xúc) để tăng hiệu suất Trong đó hai tập đặc trưng phi nội dung và tập đặc trưng theo nội dung cụ thể được sử dụng cho phương pháp học máy và tập đặc trưng cảm xúc được sử dụng cho phương pháp hướng ngữ nghĩa Đối với văn bản tiếng Việt, cũng đã có một số công trình nghiên cứu phân tích cảm xúc cho sản phẩm ở mức độ câu nhƣ [32] của nhóm tác giả Binh Thanh Kieu và Son Bao Pham Công trình này đã xây dựng một hệ thống phân tích cảm xúc văn bản dựa trên luật dưới dạng plug-in của GATE frameword với độ chính xác đạt 62.84%, nhƣng hệ thống trong công trình này vẫn chƣa xử lý triệt để đƣợc các dạng câu so sánh phức tạp khi đƣa ra giả thuyết rằng các sản phẩm mục tiêu trong câu so sánh thường xuất hiện trước
Huyen-Trang-Pham và các cộng sự đã đăng tải công trình [33] sử dụng phương pháp tính điểm các ngữ cảm xúc để đánh giá mức độ cảm xúc ở mức độ câu với độ chính xác khoảng 65% Tác giả cũng đề cập đến việc đánh điểm các từ cảm xúc theo độ mạnh cảm xúc tương ứng, xử lý ngữ phủ định cũng như việc rút trích các từ cảm xúc theo liên từ, dấu câu.
Tổng kết
Các phương pháp phân tích cảm xúc văn bản thường rơi vào hai trường phái chính: học có giám sát, sử dụng kỹ thuật học máy, và học không giám sát, tính điểm cảm xúc dựa trên tập ngữ liệu được đánh giá trước hoặc độ đo PMI Trong trường hợp học có giám sát, phương pháp này phù hợp với phân tích toàn văn bản cho các bài viết ngắn và tập trung vào một đối tượng cụ thể.
Ngược lại, phương pháp không giám sát phù hợp với các bài toán phân tích chuyên sâu ở cấp độ câu hoặc khía cạnh cho các văn bản dài, nội dung phức tạp và đề cập đến nhiều đối tượng.
Trong phương pháp không giám sát, các nghiên cứu tập trung xử lý ngữ cảm xúc do ngữ chứa nhiều thông tin cảm xúc hơn từ đơn Riêng với tiếng Việt, các công trình cũng hướng đến xử lý ngữ cảm xúc Tuy nhiên, cấu trúc ngữ cảm xúc trong tiếng Việt phức tạp và đa dạng nên việc xử lý ngữ nghĩa của chúng còn gặp khó khăn, chưa thực sự triệt để.
Ngoài ra với phương pháp phân tích hướng ngữ nghĩa thì việc xác định đối tƣợng của các ngữ cảm xúc trong câu cũng là một khâu cực kì quan trọng Đặc biệt là đối với các văn bản dài và cùng lúc đề cập đến nhiều đối tượng mà thường hay so sánh các đối tƣợng với nhau Khi phân tích cảm xúc ở mức độ khía cạnh, hầu hết các công trình tập trung vào việc xác định các ngữ cảm xúc và các đặc tính có liên quan mà ít quan tâm đến việc các đặc tính đó thuộc đối tƣợng nào
Ví dụ 2.1 Xét câu bình luận “Điện thoại Samsung thì màn hình mượt còn điện thoại Sony thì chụp hình rất nét” cần xác định đƣợc đối tƣợng của từ “mượt” là màn hình của điện thoại Samsung và đối tƣợng của ngữ “rất nét” là máy ảnh của điện thoại Sony
Từ sự phân tích ở trên, đề tài chọn phương pháp phân tích hướng ngữ nghĩa để phân tích cảm xúc văn bản tiếng Việt vì phương pháp này phù hợp dữ liệu mà hệ thống thu thập từ nhiều nguồn khác nhau: mạng xã hội, diễn đàn, blog, trang tin tức,… Với phương pháp này, đề tài sẽ tập trung vào việc xử lý đầy đủ ngữ cảm xúc trong tiếng Việt và xác định đối tƣợng của các ngữ cảm xúc trong câu bằng hệ thống luật dựa trên nhãn từ loại – đây là khâu cốt yếu của phương pháp phân tích hướng ngữ nghĩa Nếu có đủ thời gian, đề tài sẽ thực hiện phân tích cảm xúc theo từng đặc tính của đối tƣợng
CƠ SỞ LÝ THUYẾT
Hệ thống dựa trên tri thức
Những hệ thống đƣợc xây dựng dựa trên các mô hình tính toán đƣợc gọi là hệ thống dựa trên tri thức Các thành phần chính của chúng là cơ sở tri thức và công cụ lập luận Cơ sở tri thức là sự biểu diễn tri thức bằng các biểu tƣợng để diễn đạt các “miền ứng dụng” (application domain) đƣợc xem nhƣ một phần của thế giới
Một cơ sở tri thức nhìn chung chứa một vài loại tri thức khác nhau, thường là ontology, các sự kiện (facts), các luật (rules) và các ràng buộc (constrants)
Ontology định nghĩa bản chất của các thực thể trong một lĩnh vực ứng dụng cụ thể Nó trả lời các câu hỏi cơ bản như "Những loại thực thể nào tồn tại?" và "Chúng ta có thể hiểu bản chất của thế giới như thế nào?" thông qua việc phân tích các thuộc tính, mối quan hệ và hành vi của các thực thể đó.
Một ontology cung cấp sự biểu diễn bằng biểu tƣợng cho các đối tƣợng, lớp các đối tƣợng, các thuộc tính của đối tƣợng và mối quan hệ giữa các đối tƣợng trong một miền ứng dụng
Bên cạnh cơ sở tri thức (KB), một hệ thống dựa trên tri thức còn có một công cụ lập luận Công cụ lập luận xử lý tri thức trong KB theo thứ tự để trả lời cho một câu hỏi hay để đạt đƣợc một mục đích nào đó Một công cụ lập luận bao gồm các giải thuật để xử lý các thành phần trong KB theo thứ tự và tạo ra một tri thức mới
Nói chung, sự suy luận là việc xem xét những cái đã có để tạo ra một sự diễn đạt mới Sự suy luận có thể đƣợc thực hiện bằng các công thức luận lý thông qua hai bước Thứ nhất sự diễn đạt của hình thức biểu diễn tri thức được chuyển thành các công thức luận lý Thứ hai, công cụ lập luận chứa các kĩ thuật suy luận đảm bảo hai tính chất “chính xác” và “đầy đủ” để diễn dịch luận lý mục tiêu ([38] )
Đồ thị khái niệm
Mô hình đồ thị khái niệm đƣợc giới thiệu đầu tiên bởi Sowa năm 1976
([40]) và sau đó đƣợc phát triển và bổ sung thêm bởi cộng đồng đồ thị khái niệm Đƣợc tổng hợp từ nhiều công trình trong lĩnh vực trí tuệ nhân tạo, nhƣng chủ yếu đƣợc thấy nhiều trong các lĩnh vực nhƣ: xử lý ngôn ngữ tự nhiên, mạng ngữ nghĩa, lập luận và cơ sở dữ liệu, …
3.2.1 Những kí hiệu cơ bản
Một từ điển cơ bản gồm hai tập có thứ tự riêng phần: tập khái niệm (loại khái niệm) và tập biểu tượng quan hệ (loại quan hệ) Thứ tự riêng phần phản ánh mối quan hệ cụ thể hóa AKO: t1 ≤ t2 nghĩa là t1 là cụ thể hóa của t2 (tương ứng t2 tổng quát hóa t1, bao gồm t1, t1 là loại phụ của t2 hoặc mọi thực thể thuộc t1 đều thuộc t2).
20 thuộc 𝑡 1 thì cũng thuộc 𝑡 2 Và một tập nữa đƣợc gọi là tập các định danh cá thể, đƣợc sử dụng để kí hiệu cho các thực thể cụ thể Từ điển cơ bản này có thể đƣợc xem nhƣ một ontology cơ sở ([38] )
Đồ thị khái niệm là cấu trúc thể hiện mối quan hệ giữa các thực thể Các thực thể này được biểu diễn dưới dạng nút, được gắn nhãn theo loại và có thể có định danh cụ thể hoặc không xác định.
Xét một một đồ thị khái niệm cơ bản trong Hình 3.1
- Các thực thể (đƣợc biểu diễn bằng các hình chữ nhật): “Mai” là một cá thể thuộc loại “Nữ”, “Nam” là một thực thể không xác định, “Chiếc Xe” cũng là một thực thể không xác định
- Các quan hệ (đƣợc biểu diễn bằng hình oval): “Mai” là chị gái của một thực thể thuộc loại “Nam”, và hai quan hệ khác cho thấy “Mai” và một thực thể thuộc loại “Nam” cùng chơi với “Chiếc Xe” Số thứ tự trên các cạnh là thứ tự các lân cận của mỗi node quan hệ Có một quan hệ một ngôi khác khẳng định “Mai” đang “cười” Đồ thị này có thể đƣợc dịch thành câu sau: “Mai (là một cô gái) và em trai của cô ấy đang chơi với một chiếc xe; Mai đang cười” cười
Nữ: Mai chi của Nam chơi với chơi với
Hình 3.1: Một đồ thị khái niệm cơ bản ([38] )
Một điểm quan trọng khác của đồ thị khái niệm là sở hữu một tập ngữ nghĩa luận lý Trước tiên cần phải định nghĩa một mô hình từ điển (vocabulary model)
Một mô hình từ điển chứa một tập không rỗng 𝐷 (các đối tƣợng của miền ứng dụng), đƣợc gọi là miền của mô hình, và 𝛿 là ngữ nghĩa của mỗi phân tử trong từ điển 𝛿 chỉ định một phần của 𝐷 (tập các đối tƣợng loại 𝑡) tới một loại khái niệm 𝑡 bất kỳ, 𝛿 chỉ định một quan hệ 𝑘 ngôi trên 𝐷 (một phần 𝐷 𝑘 đƣợc tạo thành từ các bộ
21 các đối tƣợng có liên quan tới 𝑟) tới một quan hệ 𝑘 ngôi 𝑟 bất kì 𝛿 chỉ định mỗi phần tử của 𝐷 tới một định danh cá thể bất kì
- Định danh cá thể “Mai” đƣợc chuyển thành một phần tử trong miền 𝐷 (𝛿(𝑀𝑎𝑖) là phần tử trong 𝐷 biểu diễn định danh cá thể “Mai”)
- Loại khái niệm trong từ điển, Nữ, Nam, Chiếc Xe, … đƣợc chuyển thành tập con của 𝐷 (δ(𝑁ữ) là tập con của 𝐷 biểu diễn loại khái niệm “Nữ”)
- Các biểu tƣợng quan hệ nhị phân trong từ điển, “chơi với”, “chị của”, … đƣợc chuyển thành các quan hệ nhị phân trong 𝐷 ((𝛿(𝑐ị 𝑐ủ𝑎) là quan hệ nhị phân trên 𝐷 biểu diễn biểu tƣợng quan hệ nhị phân của “chị của”), và biểu tƣợng quan hệ một ngôi đƣợc biểu diễn bởi một tập con (𝛿(𝑐ườ𝑖) của 𝐷
Ngoài ra, chúng ta định nghĩa những mô hình BG và ý nghĩa của một BG thỏa mãn một mô hình (loại định danh cá thể “Mai” là “Nữ”, nhƣ vậy 𝛿(𝑀𝑎𝑖) phải thuộc 𝛿(𝑁ữ); “Mai” đang “cười”, thì 𝛿(𝑀𝑎𝑖) phải thuộc 𝛿(𝑐ườ𝑖) Sau đó một quan hệ kế thừa giữa các BG có thể đƣợc định nghĩa và cuối cùng, những quan hệ của nó với phép đa hình đƣợc phát biểu: cho hai BG G và H, có một phép đa hình từ G tới H nếu và chỉ nếu H kế thừa G
Ngữ nghĩa luận lý, thường gọi là Φ, từ điển được diễn giải luận lý như sau
Mỗi kiểu loại t được gán cho một tính chất t (tính chất một ngôi với loại khái niệm và tính chất k ngôi với loại quan hệ k ngôi) và mỗi định danh cá thể m được gán cho hằng số m.
Cho hai loại quan hệ k ngôi t 1 và t 2 , t 1 ≤ t 2 đƣợc biểu diễn bởi công thức
∀X (t 1 X → t 2 X ), ở đây X là một bộ gồm K biến,
Ví dụ 3.2 Công thức cho đồ thị G trong Hình 3.1: Φ G = ∃x∃y(Nữ Mai ∧ Nam x ∧ Chiếc Xe y ∧ cười Mai ∧ chị của Mai, x ∧ chơi với Mai, y ∧ chơi với x, y )
Cho hai BG G và H có một phép đa hình từ G tới H nếu và chỉ nếu công thức Φ G có thể suy luận ra từ công thức Φ H và sự chuyển đổi luận lý của các phân cấp theo loại ([38] )
3.2.3 Đồ thị khái niệm cơ bản
3.2.3.1 Từ điển Đồ thị khái niệm cơ bản (Basic Conceptual Graph - BG) là sơ đồ khối dùng để biểu diễn một số loại tri thức: sự khẳng định hoặc sự kiện, truy vấn hoặc mục đích, các luật mô tả tri thức không rõ ràng, các luật mô tả sự phát triển của một thế giới nào đó, các ràng buộc, …
Một sự kiện là sự khẳng định trong đó bao gồm một số thực thể có mối quan hệ với nhau Mỗi thực thể thuộc về một loại, tập các loại đƣợc sắp xếp theo mối quan hệ kiểu phụ (subtype) hay còn gọi là mối quan hệ cụ thể hóa (specialization) hoặc mối quan hệ một dạng của (a-kind-of) Nếu 𝑡 là một loại cụ thể hóa của 𝑡’ thì có nghĩa 𝑡’ là tổng quát hóa của 𝑡 Nhƣ vậy nếu một thực thể thuộc loại 𝑡 thì nó cũng thuộc loại 𝑡’ Giả sử có một loại tổng quát nhất, loại này đƣợc gọi là loại vũ trụ (universal) và đƣợc kí hiệu là T
Thực thể đƣợc phân thành hai loại: thực thể cụ thể (Mai) và thực thể không xác định (Chiếc Xe) Thực thể cụ thể đƣợc gọi là thực thể cá thể (individual), và thực thể không xác định đƣợc gọi là thực thể khái quát (generic)
Ontology
Việc xây dựng một đồ thị khái niệm từ ngôn ngữ tự nhiên đòi hỏi phải xác định chính xác đƣợc các khái niệm và quan hệ giữa các khái niệm đƣợc đề cập đến Để làm đƣợc điều này hệ thống cần có một cơ sở tri thức có thể cung cấp đầy đủ các thông tin cần thiết liên quan đến chủ đề đang xét Cơ sở tri thức này đƣợc cung cấp dưới dạng các ontology Trong hệ thống này các ontology được tổ chức theo hai cấp: ontology tổng quát cung cấp thông tin về những khái niệm chung nhất và ontology công nghiệp (ontology theo miền) cung cấp thông tin về một lĩnh vực công nghiệp cụ thể
Trong triết học, bản thể học là mô tả có hệ thống về thực tại, còn trong hệ thống dựa trên tri thức, nó biểu thị tri thức của một miền dưới dạng diễn đạt hình thức của tập vũ trụ vấn đề Do đó, bản thể học mô tả các đối tượng và mối quan hệ giữa chúng trong thực tại, được phân loại thành các lớp, mối quan hệ, chức năng, dạng văn bản mà con người có thể đọc được.
Ontology công nghiệp trong hệ thống này là một lƣợt đồ mô tả thông tin của một lĩnh vực công nghiệp cụ thể bao gồm thông tin về các công ty liên quan, các dòng sản phẩm của một công ty, các sản phẩm cụ thể, các đặc tính của sản phẩm, các ngữ cảm xúc đặc trƣng và mối quan hệ phân cấp giữa các thực thể trong ontology Một thực thể trong ontology đƣợc phân loại vào một lớp và đƣợc mô tả bằng một định danh duy nhất, một tên chuẩn, một tập các bí danh hay tên gọi khác thường được sử dụng trong thực tế và các thực thể khác có quan hệ với thực thể này
Hình 3.8 bên dưới mô tả về một ontology của một lĩnh vực công nghiệp
Trong một lĩnh vực công nghiệp sẽ có nhiều công ty hoạt động trong lĩnh vực đó
Mỗi công ty có thể sản xuất ra nhiều sản phẩm khác nhau, các sản phẩm có thể đƣợc mở rộng thành các dòng sản phẩm chứa các sản phẩm cụ thể và đƣợc tổ chức theo một quan hệ phân cấp Mỗi sản phẩm sẽ bao gồm nhiều đặc tính Tất cả các khái niệm này đều là khái niệm con của một khái niệm tổng quát gọi là “Thing” trong một ontology tổng quát Ngoài ra các khái niệm trong ontology có thể đƣợc đề cập đến bằng các ngữ cảm xúc, các ngữ cảm xúc này có thể phân thành hai loại là
32 ngữ tích cực và ngữ tiêu cực Đây là một mô hình chung cho tất cả các ontology của các lĩnh vực công nghiệp khác nhau
Ngữ tích cực Ngữ tiêu cực
Công ty Công nghiệp thuộc về có sản xuất đề cập bởi
Hình 3.8: Mô tả tổng quát của một ontology
Hình 3.9 là một ví dụ cụ thể về các khái niệm và quan hệ giữa các khái niệm trong Ontology của lĩnh vực Smartphone Trong ontology có hai nhãn hiệu có tên là S-Công ty A và S-Công ty B, hai nhãn hiệu này lần lƣợt sản xuất ra hai sản phẩm là Smartphone A và Smartphone B Trong đó một smartphone đƣợc mô tả với một vài đặc tính cơ bản nhƣ Nguồn, Màn hình, Thiết kế Ngoài ra trong ontology cũng định nghĩa một số ngữ cảm xúc có thể đƣợc sử dụng để đề cập đến các đặc tính của điện thoại Các ngữ cảm xúc này bao gồm ngữ tiêu cực “nhỏ” mang hàm ý chê đối với kích thước màn hình, ngược lại ngữ tích cực “lâu” lại là một từ mang hàm ý khen khi nói về dung lƣợng pin Các ngữ cảm xúc này ngoài việc đƣợc sử dụng để đánh giá cảm xúc cho các khác niệm còn đƣợc dùng nhƣ một dấu hiệu để nhận dạng các khái niệm trong trường hợp các khái niệm được đề cập không rõ ràng trong câu.
Thiết kế thuộc về có sản xuất đề cập bởi có sản xuất
Hình 3.9: Ví dụ về một ontology
Một ƣu điểm rất lớn khi sử dụng ontology trong phân tích cảm xúc văn bản là khả năng tổng hợp và suy luận giá trị cảm xúc cho các khái niệm dựa trên mối quan hệ phân cấp giữa các khái niệm đƣợc định nghĩa trong ontology Giả sử trong ontology của Smartphone định nghĩa dòng sản phẩm Galaxy S, trong dòng sản phẩm này có các sản phẩm cụ thể là Galaxy S1 và Galaxy S2 Nếu nhƣ đối tƣợng đang đƣợc xem xét là Galaxy S và trong bình luận có đề cập đến Galaxy S1 thì có thể xem giá trị cảm xúc của Galaxy S1 cũng là giá trị cảm xúc cho khái niệm Galaxy S Cũng tương tự như trên trong một số trường hợp có thể xem giá trị cảm xúc của Galaxy S là giá cảm xúc dành cho Galaxy S1.
Từ điển cảm xúc
Cũng tương tự như ontology, việc xây dựng một đồ thị khái niệm từ ngôn ngữ tự nhiên đòi hỏi phải xác định chính xác đƣợc các node quan hệ giữa các khái niệm đƣợc đề cập trong câu Để có thể xác định đƣợc các node quan hệ trong đồ thị khái niệm, hệ thống sử dụng bộ từ điển cảm xúc và liên từ để nhận dạng và hình thanh các node Từ điển sẽ đƣợc sử dụng kết hợp với luật phân tích ngữ cảm xúc để xác định chính xác và đầy đủ các ngữ cảm xúc trong câu Bộ từ điển sử dụng trong mô hình đƣợc chia thành hai cấp độ : từ điển tổng quát và từ điển theo miền ứng
34 dụng Ở mỗi cấp độ, bộ từ điển đƣợc chia thành hai loại : từ điển các từ cảm xúc và từ điển các ngữ đặc biệt
Bảng 3.1 mô tả cấu trúc từ điển cảm xúc đƣợc sử dụng trong mô hình
- score : điểm của từ cảm xúc
- case : Trường hợp sử dụng của từ cảm xúc
- direction : hướng cảm xúc word type score case direction trung thành v 1 0 behind(+) đánh bại v 0,75 0 front(+)behind(-) đƣợc a 0.75 1-2-3-4-5-6-7-8-9 liberal
Bảng 3.1: Cấu trúc từ điển cảm xúc
3.4.2 Trường hợp sử dụng của từ cảm xúc Đối với một số từ cảm xúc đặc biệt, không phải bất cứ lúc nào sự xuất hiện của từ cảm xúc đó cũng đƣợc rút trích và tính điểm Vì với các dạng từ này, chỉ trong một số trường hợp sẽ thể hiện cảm xúc và trong một số trường hợp lại không thể hiện cảm xúc
Ví dụ 3.4 Xét từ cảm xúc “được”:
- Từ “được” đứng một mình trong câu “Điện thoại này dùng được” sẽ không thể hiện cảm xúc
- Từ “được” trong hai câu “Điện thoại này dùng rất được” và “Điện thoại này dùng không được” sẽ thể hiện cảm xúc
Do đó cần phân loại các trường hợp được rút trích và tính điểm cho các từ cảm xúc, từ cảm xúc đƣợc phân thành các loại sau: d: Từ phụ thuộc: chắc chắn, đặc biệt, … s: Từ không đƣợc có stopword đi kèm theo: có giá (có giá là), … 1: Chỉ chứa một từ duy nhất
2: Chỉ có một từ và phủ định
3: Chỉ có một từ và trạng từ
4: Gồm nhiều từ nhƣng cùng từ loại
5: Gồm nhiều từ cùng từ loại và có phủ định
6: Gồm nhiều từ cùng từ loại nhƣng có trạng từ
7: Gồm nhiều từ thuộc nhiều từ loại
8: Gồm nhiều từ thuộc nhiều từ loại có phủ định
9: Gồm nhiều từ thuộc nhiều từ loại có trạng từ
Kí hiệu 0 có nghĩa được sử dụng trong mọi trường hợp
- front(+)/front(-): ngoại động từ này chỉ có giá trị cảm xúc đối với các đối tượng đứng trước nó
Ví dụ 3.5 Hãng điện thoại Samsung rất biết cách chiều chuộng khách hàng
- behind(+)/behind(-): ngoại động dạng này chỉ có giá trị cảm xúc đối với các đối tƣợng đứng sau nó
Ví dụ 3.6 Samsung quyết định chọn dùng chip của Synnos Tôi quyết định chọn điện thoại Samsung
- front(+)behind(-): ngoài động từ này có giá trị cảm xúc với cả các đối tƣợng đứng trước và sau nó nhưng giá trị cảm xúc sẽ thay đổi tương ứng theo các kí hiệu (-) hoặc (+)
Ví dụ 3.7 Oppe sao chép thiết kế của Epple Samsung đánh bại Nokia trên thị trường châu Á
- liberal: không có ràng buộc
(-): Phủ định lại giá trị cảm xúc của ngoại động từ
(+): Giữ nguyên giá trị cảm xúc của ngoại động từ
Trong trường hợp câu bị động thì sẽ đổi chiều cảm xúc: front => behind và behind => front.
Xây dựng đồ thị khái niệm từ văn bản
Khi ứng dụng đồ thị khái niệm vào việc phân tích ngữ nghĩa cần phải tự động xây dựng đƣợc đồ thị khái niệm từ văn bản Sau khi có đƣợc một đồ thị khai niệm đúng sẽ có cơ sở để xác định mối quan hệ ngữ nghĩa trong văn bản Đối với hệ thống này, khi phân tích cảm xúc cho một văn bản sẽ thực hiện phân tích ở mức độ khía cạnh và như vậy, tại mỗi câu sẽ tự động xây dựng một đồ thị khái niệm tương ứng Ở đây đơn vị câu có thể là câu đơn hoặc câu phức bao gồm nhiều mệnh đề
36 đƣợc kết nối với nhau bởi các liên từ, trong đó một mệnh đề có thể là một cấu trúc câu Đồ thị khái niệm của một câu có thể đƣợc tự động xây dựng dựa theo hai bước chính sau ([35] ):
Áp dụng các mẫu kết hợp định nghĩa trước [36] [37], các ngữ cảm xúc được trích xuất từ câu văn Một ngữ cảm xúc có thể là sự kết hợp của động từ, tính từ, trạng từ hoặc một cụm từ độc đáo biểu hiện một đặc điểm cụ thể.
- Nhận dạng các khái niệm trong câu và tái cấu trúc đồ thị khái niệm theo lƣợt đồ đƣợc định nghĩa trong ontology
Ví dụ 3.8 Khi phân tích câu “ Z2 không thua kém gì Galaxy S5”
Bước 1 : Xác định được ngữ cảm xúc “không thua kém ”
Bước 2 : Xác định hai thực thể “Z2” và “ Galaxy S5” từ đó cấu trúc đồ thị khái niệm nhƣ Hình 3.10 sau : không thua kém
Chủ ngữ: Z2 Tân ngữ: Galaxy S5
Hình 3.10: Đồ thị khái niệm của câu “Z2 không thua kém gì Galaxy S5”.
Trình tự xây dựng một đồ thị khái niệm
Trong quá trình phân tích ngôn ngữ tự nhiên, các câu văn được chia thành các đơn vị đơn giản hơn Sau đó, các đơn vị này được sắp xếp theo một cấu trúc tổng quát phù hợp với máy tính Bằng cách này, máy tính có thể áp dụng các thuật toán phân tích lên cấu trúc được chuẩn hóa.
Trong mô hình phân tích cảm xúc văn bản tiếng Việt của đề tài, đồ thị khái niệm đƣợc sử dụng nhƣ một công cụ biểu diễn câu văn tự nhiên Theo cách này thì một câu văn tự nhiên sẽ đƣợc biểu diễn bằng một dạng có cấu trúc theo lý thuyết đồ thị và từ đó làm cơ sở cho việc áp dụng các luật phân tich cảm xúc
Với hướng tiếp cận ở trên thì bài toán chính là bằng cách nào có thể chuyển đƣợc một câu văn tự nhiên thành một đồ thị khái niệm có cấu trúc? Dựa vào cơ sở gì để có thể hình thành đƣợc các node khái niệm, các node quan hệ và mối quan hệ giữa các node trong đồ thị? Giải pháp đƣợc sử dụng trong đề tài là sử dụng ontology kết hợp với từ điển cảm xúc làm cơ sở tri thức để xác định các thực thể và ngữ cảm xúc trong câu từ đó hình thành đƣợc đồ thị khái niệm Ngoài ra, ontology sẽ chứa đựng mối quan hệ giữa các khái niệm với nhau và đây là một cơ sở tri thức quan trọng đƣợc sử dụng để suy luận cảm xúc cho các đối tƣợng theo quan hệ phân cấp (phần này sẽ đƣợc mô tả chi tiết trong mô hình phân tích cảm xúc văn bản tiếng Việt)
Hình 3.11 mô tả quá trình xây dựng một đồ thị khái niệm cơ bản gồm các bước sau: Nạp ontology, nạp từ điển cảm xúc, nạp cơ sở tri thức về cấu trúc câu Xác định các khái niệm đƣợc đề cập trong câu Xác định các cá thể đƣợc đề cập trong câu Xác định các các ngữ cảm xúc trong câu Mở rộng các khái niệm ngầm định Xây dựng các node khái niệm Mở rộng các quan hệ ngầm định Xây dựng các node quan hệ
Nạp cơ sở tri thức: ontology, từ điển, cấu trúc câu
Xác định các khái niệm đƣợc đề cập trong câu
Xác định các cá thể đƣợc đề cập trong câu
Xác định các ngữ cảm xúc trong câu
Xây dựng các node khái niệm
Xây dựng các node quan hệ Mở rộng các khái niệm ngầm định
Mở rộng các quan hệ ngầm định
Hình 3.11: Trình tự xây dựng một đồ thị khái niệm
Ví dụ 3.9 Xét câu sau “Vỏ của Z2 đẹp hơn Galaxy S5 của Samsung”, trình tự xây dựng đồ thị khái niệm đƣợc thực hiện nhƣ sau:
“Vỏ” sẽ đƣợc nhận dạng là một khái niệm trong câu
“Z2” và “Galaxy S5”, “Samsung” đƣợc xác định nhƣ là các cá thể
Một khái niệm “Vỏ” khác có thể đƣợc mở rộng và xem nhƣ một đặc tính của “Galaxy S5”
Mở rộng quan hệ ngầm định “của” là quan hệ giữa “Vỏ” và “Galaxy
Cuối cùng xây dựng các mối quan hệ “của” giữa “Vỏ” và “Z2”, quan hệ “của” giữa “Galaxy S5” và “Samsung”, quan hệ “đẹp hơn” giữa
Hệ thống chuyển đổi và luật phân tích cảm xúc
3.7.1 Hệ thống chuyển đổi Định nghĩa 7 (Hệ thống chuyển đổi) Một hệ thống chuyển đổi (transition system) là một cấu trúc 𝛤, ⟶ , ở đây Γ là một tập các phần tử 𝛾, đƣợc gọi là các cấu hình và ⟶∈ Γ × Γ là một quan hệ hai chiều (còn đƣợc gọi là quan hệ chuyển đổi) Đọc 𝛾 ⟶ 𝛾 ′ nhƣ một thông báo rằng có một sự chuyển đổi từ 𝛾 tới 𝛾 ′ ([39] ) Định nghĩa 8 (Hệ thống chuyển đổi dừng) Một hệ thống chuyển đổi dừng (terminal transition system) là một cấu trúc Γ, ⟶ Τ , ở đây Γ, ⟶ là một ts và Τ ∈ Γ là một tập các cấu hình cuối thỏa điều kiện sau ∀𝛾 ∈ Τ và ∀𝛾 ′ ∈ Γ, 𝛾 ↛ 𝛾 ′ ([39] ) Định nghĩa 9 (Hệ thống chuyển đổi đánh nhãn) Một hệ thống chuyển đổi đánh nhãn (labelled transition system) là một cấu trúc Γ, Α ⟶ , ở đây Γ là tập các cấu hình, Α là tập các hành động và ⟶⊆ Γ × Α × Γ là quan hệ chuyển đổi
Nhƣ vậy có thể viết một sự chuyển đổi 𝛾→ 𝛾 𝑎 ′ , ở đây 𝛾 và 𝛾 ′ là các cấu hình và 𝑎 là hành động Điều này có nghĩa các hành động sẽ cung cấp thông tin về những gì khi đi qua một cấu hình và những tương tác giữa hệ thống với môi trường
3.7.2 Luật phân tích cảm xúc
Luật phân tích cảm xúc (Operational Sentiment Rules) là một tập các quy tắc đƣợc định nghĩa sẵn về cách phân tích cảm xúc tại mỗi node quan hệ trong đồ thị khái niệm Các luật này quy định cách xác định cảm xúc cho các khái niệm liên quan khi xét đến một node quan hệ theo cách hoạt động của một hệ thống chuyển đổi đánh nhãn
Bảng 3.2 bên dưới trình bày một số luật phân tích cảm xúc được sử dụng trong hệ thống Một luật sẽ gồm bốn thành phần chính: trạng thái đang xét, trạng thái tiếp theo, các đối tƣợng liên quan và quy tắc xác định cảm xúc cho các đối tƣợng liên quan Tập luật phân tích cảm xúc đầy đủ đƣợc định nghĩa bởi nhóm nghiên cứu phân tích cảm xúc văn bản tiếng Việt của công ty YouNet Media và đƣợc trình bày trong phụ lục A:
- s: là một trạng thái bất kì
- TER: là trạng thái kết thúc
Luật Hoạt động Mô tả
𝑠 Trong câu “A thích B‟, các khái niệm phía sau
𝑠 Trong câu “A ghét B”, các khái niệm phái sau
𝑠 Trong câu “A trung thành với B”, các khái niệm sau “trung thành” sẽ là positive Ăn cắp(A, B)
𝑠 Trong câu “A ăn cắp … B”, các khái niệm trước
“ăn cắp” sẽ là negative Đánh bại(A, B)
Trong câu “A đánh bại B”, các khái niệm phia trước “đánh bại” sẽ là positive và các khái niệm phía sau “đánh bại” sẽ là negative
Trong câu “A nhƣng B”, sẽ phân tích mệnh đề sau nhưng Những khái niệm phía trước nhưng sẽ đƣợc gán phủ định của giá trị cảm xúc mệnh đề sau nhƣng Đây cũng là trạng thái kết thúc quá trình xử lý
Bảng 3.2: Minh họa một số luật phân tích cảm xúc.
MÔ HÌNH PHÂN TÍCH CẢM XÚC THEO ĐỐI TƯỢNG
Tiền xử lý văn bản tiếng Việt
Như đã đề cập, bình luận sản phẩm trên các diễn đàn, tin tức và mạng xã hội thường phức tạp, không chuẩn ngữ pháp, dấu câu và từ ngữ Để tăng độ chính xác khi phân tích cảm xúc, nên tiền xử lý chuẩn hóa trước, bao gồm các trường hợp sau:
- Các bài viết trên mạng thường xuất hiện những dạng viết tắt, viết rút gọn hay dạng biến thể nhƣ: “wá” thay cho “quá”, “thjk” thay cho chữ “thích”,
Để phân tích cảm xúc chính xác theo ngữ nghĩa, cần chuẩn hóa các từ viết tắt như "ko" thành "không" Bằng cách này, máy tính có thể hiểu và xử lý dữ liệu một cách thống nhất, tránh nhầm lẫn và đảm bảo độ chính xác của phân tích.
- Chuyển hóa các kí hiệu biểu cảm như “”, “”, … thành chữ viết tương ứng vì những kí hiệu này thường thể hiện cảm xúc của người viết.
- Các đối tƣợng đƣợc đề cập trong văn bản đôi khi không đƣợc viết một cách tường minh mà sử dụng nhiều kí danh khác nhau hoặc không viết hoa như quy định Trong trường hợp này cần sử dụng ontology có định nghĩa các kí danh cho từng đối tƣợng để nhận dạng tất cả các đối tƣợng liên quan đƣợc đề cập trong văn bản.
Xử lý các ngữ cảm xúc trong tiếng Việt
Hệ thống phân tích cảm xúc tự động bằng phương pháp hướng ngữ nghĩa thường có hai công đoạn chính: rút trích và tính điểm ngữ cảm xúc, sau đó gán các ngữ cảm xúc với đối tượng của nó Trong đó, việc rút trích và tính điểm cho các ngữ cảm xúc đóng vai trò quan trọng, quyết định độ chính xác của kết quả phân tích Vì vậy, khi rút trích ngữ cảm xúc cần đảm bảo đầy đủ, bao gồm cả các từ tăng cường, giảm nhẹ hay từ phủ định.
Có những ngữ cảm xúc đƣợc viết ở dạng phủ định nhƣng thực tế ý nghĩa của chúng hoàn toàn không bị phủ định nhƣ: “không phải nói khen chứ”, “không thể đẹp hơn được nữa”, … Nên các luật phân tích phải xử lý được các trường hợp này
Vì tất cả các từ trong văn bản đã đƣợc gán nhãn từ loại nên có thể sử dụng ngôn ngữ biểu thứ chính quy để xây dựng bô luật rút trích và phân tích điểm cho từng loại ngữ cảm xúc Một luật rút trích cum từ cảm xúc bao gồm bốn thành phần chính: biểu thức chính quy dùng để nhận dạng đầy đủ ngữ cảm xúc, các từ loại thể
41 hiện cảm xúc trong ngữ, từ loại thể hiện cảm xúc chính trong ngữ và cuối cùng là thông tin về sự phủ định
Trong một ngữ cảm xúc có thể chứa nhiều từ loại nhƣng không phải tất cả các từ loại đều thể hiện cảm xúc trong ngữ đó Xét ngữ “Không_thể/R tốt/A hơn/R được/V nữa/C”, trong ngữ này có cả động từ và tính từ nhƣng chỉ có tính từ thể hiện cảm xúc, còn động từ hoàn toàn không thể hiện cảm xúc trong ngữ này Nên trong luật cần phải định nghĩa tập các từ loại thể hiện cảm xúc
Trong các ngữ cảm xúc có nhiều từ loại thể hiện cảm xúc nhƣ “Không/R quá/R nhanh/A hết/V” vừa có động từ vừa có tính từ Nhƣng chỉ có một từ loại thể hiện hướng cảm xúc chính là động từ, còn tính từ là thành phần bổ sung Cũng trong ngữ này dễ thấy hướng cảm xúc của tính từ “nhanh” và động từ “hết” là hoàn toàn ngược chiều nhau, nhưng hướng cảm xúc của cả ngữ được tính theo động từ “hết” và tính từ “nhanh” chỉ giúp làm tăng cường độ cho động từ “hết” Nên trong luật phân tích cần xác định từ loại thể hiện cảm xúc chính cho cả ngữ
4.2.1 Luật rút trích ngữ cảm xúc
Luật ngữ cảm xúc đƣợc sử dụng để rút trích đầy đủ các ngữ cảm xúc trong câu Một luật ngữ cảm xúc đƣợc định nghĩa gồm các thành phần sau:
- Tên của luật: một định danh không trùng đƣợc dùng làm chỉ mục trong tập luật
- Mẫu nhạn dạng (pattern): đƣợc viết bằng biểu thức chính quy để nhận dạng đầy đủ ngữ cảm xúc
Ví dụ 4.1 “neg_adv+_adj+_verb+” là mẫu nhận dạng ngữ cảm xúc có dạng nhƣ “không/R quá/R nhanh/A hết/V pin/N”
- Từ loại thể hiện cảm xúc (sentiment parts): liệt kê những từ loại (động từ, tính từ, trạng từ, danh từ) có thể hiện cảm xúc trong ngữ cảm xúc
Trong một ngữ cảm xúc, có những từ loại không thể hiện cảm xúc, có những từ loại thể hiện cảm xúc Việc xác định đƣợc những từ loại nào có thể hiện cảm xúc sẽ giúp đánh giá cảm xúc tốt hơn
Ví dụ 4.2 Trong ngữ cảm xúc sau thì từ loại thể hiện cảm xúc là động từ (V) và tính từ (A), “bị/V trừ/V tiền/N nhanh_chóng/A”
- Từ loại thể hiện cảm xúc chính (sentiment core): Nếu trong một ngữ cảm xúc có nhiều từ loại thể hiện cảm xúc sẽ có một từ loại chính quyết định hướng cảm xúc của ngữ Mỗi từ loại sẽ có những đặc trưng riêng nên cần xác định đúng từ loại thể hiện cảm xúc chính để xác định chính xác hướng cảm xúc chung của cả ngữ cảm xúc
Ví dụ 4.3 Trong ngữ cảm xúc“quá/R nhanh/A hết/V” thì hướng cảm xúc của cả ngữ sẽ đƣợc xác định theo từ loại chính là động từ “hết/V” chứ không xác định theo tính từ “nhanh/A”
Trong trường hợp một cụm từ thể hiện cảm xúc chính bao gồm nhiều từ, các từ này có thể mang sắc thái cảm xúc khác nhau Do đó, cần xác định từ biểu lộ cảm xúc chính xác định hướng cảm xúc của toàn bộ cụm từ Bằng cách xác định từ chính xác này, các hệ thống xử lý ngôn ngữ tự nhiên có thể hiểu được cảm xúc cơ bản truyền tải trong văn bản, góp phần cải thiện hiệu quả của các ứng dụng phân tích tình cảm.
Ví dụ 4.4 “nhìn/V thấy/V muốn/V ghét/V”, trong ngữ cảm xúc này chỉ có một từ loại là động từ nhƣng bao gồm nhiều từ Trong đó hai từ
“muốn/V” và “ghét/V” có hướng cảm xúc ngược nhau Do đó để xác định đúng cảm xúc của ngữ này cần phải xác định đƣợc từ nào là từ cảm xúc chính, trong ngữ cảm xúc này thì từ cảm xúc chính là động từ cuối cùng “ghét/V”
- Phủ định (negative): quy định có phủ định giá trị cảm xúc của ngữ hay không
Bên dưới là minh họa một số luật phân tích ngữ cảm xúc được sử dụng trong hệ thống Tập luật phân tích ngữ cảm xúc đầy đủ gồm 96 luật đƣợc định nghĩa bởi nhóm nghiên cứu phân tích cảm xúc văn bản tiếng Việt của công ty YouNet Media và đƣợc trình bày trong phụ lục B
# Không/R quá/R nhanh/A hết/V pin/N neg_adv+_adj+_verb+: pattern: @negative@pre_adv(\S+/A\s)+(\S+/V\s*)+ sentiment parts: [V, A] sentiment core: V sentiment word: last negative: 1
#Không/R sang_trọng/A và/CC tinh_tế/A lắm/R neg_adj_&_adj_adv+: pattern: @negative\S+/a\s(&|và)/r\s\S+/a@post_adv sent_parts: [a] core_part: a core_word: first neg: 1
#Chẳng_thể/R tốt/A hơn/R được/R nữa/R neg_adj+_[hơn]_[đƣợc]*_[nữa]*: pattern: @negative(\S+/a\s)+hơn/r\s(đƣợc/r\s*)?(nữa/r\s*)? sent_parts: [a]
43 core_part: a core_word: first neg: 0
#Không/R phải/V nói/V khen/V chứ/C neg_[phải]_verb+_[chứ]: pattern: @negativephải/v\s(\S+/v\s)+chứ/c sent_parts: [v] core_part: v core_word: last neg: 0
#Dễ/A trầy/V xước/V lắm/R adj+_verb+_adv+: pattern: (\S+/a\s+)+(\S+/v\s+)+@post_adv sent_parts: [v, a] core_part: v core_word: last neg: 0
#Đẳng_cấp/N quá/R n_adv: pattern: \S+/n@post_adv sent_parts: ['n'] core_part: 'n' core_word: first neg: 0
#Rất/R phong_cách/N adv_n: pattern: @pre_adv\S+/n\s sent_parts: ['n'] core_part: 'n' core_word: first neg: 0
#Quá/R được/R adv+: pattern: (\S+/r\s*){2,} sent_parts: [pre_adv, post_adv] core_part: all neg: 0
4.2.2 Tính điểm cho ngữ cảm xúc
Ngữ cảm xúc đầy đủ trong tiếng Việt có kết cấu khá phức tạp và thường bao gồm các thành phần sau: động từ, tính từ, trạng từ, từ phủ định và danh từ liên quan Ngoài danh từ ra thì các thành phần còn lại đều có tác động tới giá trị cảm xúc của cả ngữ Trong đó từ phủ định sẽ quyết định có đảo cực cảm xúc hay không; trạng từ sẽ tăng cường hoặc giảm nhẹ cảm xúc, đôi khi trạng từ cũng sẽ quyết định một ngữ có giá trị cảm xúc hay không; động từ và tính từ sẽ kết hợp với nhau tạo thành lõi của ngữ cảm xúc Do đó khi phân tích một ngữ cảm xúc cần phân tích tất cả các thành phân trên
Trong các câu, từ "được" có thể mang ý nghĩa biểu đạt cảm xúc Ví dụ, trong câu "Điện thoại này dùng rất được", từ "được" thể hiện sự đánh giá tích cực, còn trong câu "Điện thoại này dùng không được", từ "được" thể hiện sự đánh giá tiêu cực Trong những ngữ cảnh này, từ "được" đóng vai trò bộc lộ cảm xúc của người nói về đặc điểm hoặc chức năng của đối tượng.
Mô hình phân tích cảm xúc
Định nghĩa 10 (Mô hình phân tích cảm xúc) Một mô hình cảm xúc là một bộ 3 của 𝐶, 𝑂, ∆ ở đây:
- 𝐶 là một đồ thị khái niệm đƣợc xây dựng từ văn bản
- ∆ là một bước chuyển trạng thái của 𝑛𝑜𝑑𝑒 𝐶 × 𝐸𝑣𝑎 𝑂 𝑛𝑜𝑑𝑒′ 𝐶 × 𝐸𝑣𝑎 𝑂 ′, ở đây 𝐸𝑣𝑎 𝑂 là một hàm đánh giá trị cho một khái niệm trong O một trong các giá trị sau {positive, negative, neutral, unknown}
Mỗi cặp (node C , Eva O ) đƣợc gọi là một trạng thái Giá trị cảm xúc của các khái niệm trong đồ thị khái niệm sẽ đƣợc tính toán khi hệ thống duyệt qua các trạng thái Về cơ bản, hệ thống sẽ lựa chọn một trạng thái bắt đầu, thứ tự duyệt và điều kiện dừng theo luật phân tích cảm xúc đƣợc định nghĩa bởi các chuyên gia.
Xét đồ thị khái niệm lồng trong Hình 4.1 , tại thời điểm bắt đầu, giá trị cảm xúc của các khái niệm đƣợc khởi tạo là unknown, ở đây “Công ty A” có thể đƣợc suy luận từ ontology smartphone nhƣ là một một nhà sản xuất của “Điện thoại A”:
Khi xử lý đến node “mua”, Các giá trị cảm xúc đƣợc suy luận và gián cho các khái niệm tương ứng như sau:
(𝑏𝑢𝑦, 𝐸𝑣𝑎 𝑂 2 = {𝑐ô𝑛𝑔 𝑡𝑦 𝐴: 𝑢𝑛𝑘𝑛𝑜𝑤𝑛,đ𝑖ệ𝑛 𝑡𝑜ạ𝑖 𝐴: 𝑢𝑛𝑘𝑛𝑜𝑤𝑛, 𝑐ô𝑛𝑔 𝑡𝑦 𝐵: 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒, đ𝑖ệ𝑛 𝑡𝑜ạ𝑖 𝐶: 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒, }) Trong trạng thái tiếp theo, tại node “nhưng”, theo luật phân tích cảm xúc, tất cả các khái niệm đứng trước “nhưng” sẽ được gán phủ định giá trị cảm xúc của
46 mệnh đề phía sau “nhưng” Bên cạnh đó, “nhưng” cũng đƣợc xem là node kết thúc và hệ thống sẽ kết thúc sau khi kết thúc quá trình phân tích tại node “nhưng”
𝑐ô𝑛𝑔 𝑡𝑦 𝐵: 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒,đ𝑖ệ𝑛 𝑡𝑜ạ𝑖 𝐶: 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒} nhƣng của mua thích Chủ ngữ: Tôi
Tân ngữ: Công ty B Tân ngữ: Điện thoại A
Tân ngữ: Điện thoại C Chủ ngữ: Tôi
Hình 4.1: Đồ thị khái niệm của câu “Tôi thích điện thoại A nhưng tôi mua điện thoại C của công ty B”
Mô hình hệ thống phân tích cảm xúc
Mô hình hệ thống phân tích cảm xúc được phát triển theo phương pháp phân tích hướng ngữ nghĩa để phân tích cảm xúc ở mức độ khía cạnh Mô hình này chủ yếu sử dụng ontology, các kĩ thuật lightweight NLP để phân tích và xây dựng cấu trúc ngữ nghĩa ở dạng đồ thị khái niệm cho các câu và sau đó sử dụng các luật phân tích cảm xúc để suy luận cảm xúc cho các thực thể Mô hình đƣợc áp dụng trong hệ thống phân tích cảm xúc đƣợc gọi là mô hình tìm kiếm cảm xúc đa miền Đây là mô hình phát triển dựa trên một mô tìm kiếm ngữ nghĩa chung và đƣợc cải tiến để áp dụng cho bài toán tìm kiếm cảm xúc để theo dõi ý kiến người dùng trong các lĩnh vực công nghiệp
4.4.1 Mô hình tìm kiếm ngữ nghĩa chung
Hình 4.2 trình bày một mô hình chung của các kĩ thuật tìm kiếm ngữ nghĩa được nhiều hướng nghiên cứu áp dụng Về cơ bản mô hình này bao gồm các thành phần chính sau:
- Tài nguyên tri thức miền: Thành phần này cung cấp các tài nguyên có cấu trúc về các khái niệm chính và các mối quan hệ trong một miền cho
47 các kĩ thuật tìm kiếm ngữ nghĩa Các ontology theo miền hay ontology ngôn ngữ (WordNet) thường được sử dụng trong thành phần này
Trích xuất đặc tính ngữ nghĩa: Trích xuất các đặc tính ngữ nghĩa từ văn bản, được định nghĩa là các mẫu thông tin giúp suy luận về ngữ nghĩa của văn bản Các đặc tính này được tổ chức theo một cấu trúc khái niệm như đồ thị khái niệm hoặc vector tf-idf Có hai phương pháp chính được sử dụng để trích xuất đặc tính ngữ nghĩa trong các hệ thống tìm kiếm ngữ nghĩa:
Lightweight NLP: Các kĩ thuật xử lý ngôn ngữ tự nhiên thường rất phù hợp cho việc xử lý dữ liệu văn bản, đặc biệt khi sử dụng kết hợp với ontology Tuy nhiên chi phí xử lý của các kĩ thuật xử lý ngôn ngữ tự nhiên rất cao nên các kĩ thuật Lightweight NLP thường được xử dụng nhƣ bộ phân tích đơn giản (shallow parsing) Các bộ phân tích đơn giản này chủ yếu nhận dạng các thành phần cấu tạo trong câu (ngữ danh từ, ngữ động từ, …) chứ không xác định chính xác cấu trúc nội tại của câu
Data mining (Khai khoáng dữ liệu): Các phương pháp khai khoáng dữ liệu truyền thống thường sử dụng các độ đo như tf.idf hay
Bayesian Tuy nhiên chúng thường không hiệu quả với bài toán xử lý ngữ nghĩa văn bản Trong hệ thống tìm kiếm ngữ nghĩa, chúng chỉ đóng vai trò hỗ trợ trong khâu tiền xử lý
- Xử lý truy vấn: Vai trò chính của thành phần này là suy luận hàm ý trong câu truy vấn của người dùng Nhìn chung một bộ xử lý truy vấn bao gồm hai khối chức năng sau:
Xử lý truy vấn rõ nghĩa: Xử lý các truy vấn rõ nghĩa đƣợc tổ chức theo một cấu trúc rõ ràng
Xử lý truy vấn không rõ nghĩa là chức năng chuyển đổi các truy vấn ở dạng từ khóa thành dạng biểu diễn phù hợp với yêu cầu của thành phần rút trích đặc tính ngữ nghĩa.
Tài nguyên tri thức miền
Người dùng Truy vấn không rõ nghĩa Truy vấn rõ nghĩa
Rút trích đặc tính ngữ nghĩa Đồ thị khái niệm Mô hình LSA tf.idf vectors
Văn bản được đánh chỉ mục
Hình 4.2: Mô hình chung của các kĩ thuật tìm kiếm ngữ nghĩa
4.4.2 Mô hình tìm kiếm cảm xúc đa miền
Hình 4.3 trình bày mô hình tìm kiếm cảm xúc đa miền (Cross-domain Sentiment Search - CSS) đƣợc áp dụng trong hệ thống phân tích cảm xúc Mô hình tìm kiếm đa miền này đƣợc phát triển từ mô hình tìm kiếm ngữ nghĩa chung đƣợc trình bày ở phần trước và được cải tiến để phù hợp với bài toán tìm kiếm cảm xúc của hệ thống Một số đặc tính cải tiến nổi bật trong mô hình này bao gồm:
- Sử dụng Ontology theo miền: CSS sử dụng ontology làm cơ sở tri thức cho hệ thống Ontology trong CSS đƣợc chia thành hai loại: ontology tổng quát bao gồm các khái niệm chung nhất không phụ thuộc miền và các ontology công nghiệp cung cấp đầy các khái niệm liên quan đến một lĩnh vực công nghiệp Hệ thống này đƣợc phát triển để theo dõi các đánh giá về các sản phẩm của các lĩnh vực (Smartphone, babycare, airlines,
…) nên mỗi lĩnh vực cần có một ontology chứa đựng đầy đủ thông tin về sản phẩm, dịch vụ, đặc tính và các thông tin khác có liên quan Ngoài ra một chức năng mở rộng là tự động cập nhật ontology cũng đƣợc tích hợp vào hệ thống để cập nhật những khái niệm mới cho các ontology trong CSS
- Luật xử lý ngữ cảm xúc: Về cơ bản, CSS là mô hình dựa trên lightweight NLP và sử dụng bộ phân tích đơn giản để rút trích đặc tính ngữ nghĩa Nên một bộ luật xử lý ngữ cảm xúc đƣợc phát triển và sử dụng kết hợp với ontolgoy để nhận dạng các khái niệm, các ngữ cảm xúc trong câu và từ đó hình thành đƣợc chính xác các mối quan hệ giữa chúng
- Luật phân tích cảm xúc: Một nâng cấp lớn nhất trong mô hình tìm kiếm cảm xúc đa miền này là sử dụng luật phân tích cảm xúc để suy luận cảm xúc của câu dựa trên đồ thị khái niệm cải tiến Sau khi đồ thị khái niệm cải tiến đƣợc hình thành, bộ suy luận cảm xúc sẽ sử dụng luật phân tích cảm xúc để xác định lộ trình, duyệt qua các node trong đồ thì và suy luận cảm xúc cho các thực thể trong câu Luật phân tích cảm xúc đƣợc định nghĩa và mô tả trong mục 4.3
Xử lý truy vấn trong CSS dựa trên từ khóa, cho phép người dùng theo dõi công ty, dòng sản phẩm hoặc sản phẩm cụ thể Kỹ thuật xử lý từ khóa tìm kiếm các văn bản có liên quan để cung cấp cho phân tích và suy luận tình cảm.
Người dùng Công ty, sản phẩm,
Bộ phân tích đơn giản
Phân tích cảm xúc Đồ thị khái niệm
Văn bản được đánh chỉ mục
Ontology công nghiệp 1 Ontology công nghiệp 2
Luật phân tích cảm xúc
Suy luận cảm xúc Cập nhật mở rộng
Mạng xã hội Báo điện tử
Luật phân tích ngữ cảm xúc
Hình 4.3: Mô hình hệ thống phân tích cảm xúc.
THỰC NGHIỆM VÀ ĐÁNH GIÁ
Thực nghiệm
Để kiểm tra độ chính xác của hệ thống, thực nghiệm đã đƣợc thực hiện trên tám tập dữ liệu, có hai tập tổng quát và sáu tập còn lại thuộc về các lĩnh vực khác nhau Đối với dữ liệu tổng quát, hệ thống sử dụng một Ontology tổng quát chứa 767 ngữ cảm xúc, trong đó có 375 ngữ tích cực và 392 ngữ tiêu cực
Với mỗi một lĩnh vực công nghiệp, hệ thống sử dụng một Ontology công nghiệp tương ứng Các khái niệm được cung cấp cho mỗi lĩnh vực công nghiệp là các nhãn hiệu, các sản phẩm tương ứng Ví dụ, với Smartphone Ontology, các nhãn hiệu là Apple, HTC,… Các sản phẩm là iPhone 5s, iPad Air, HTC One Max, HTC Sensation, … Các tập dữ liệu và các ontology đã phản ánh đƣợc nhu cầu thực tế của các nhà quản lý thương hiệu là họ muốn quan sát ý kiến của người dùng đối với các sản phẩm của họ
Các thực nghiệm được đánh giá độ chính xác của hướng tiếp cận phân loại cảm xúc Đƣợc coi nhƣ một hệ thống tìm kiếm ngữ nghĩa tổng quát, hệ thống đƣợc cải tiến bằng bộ luật ngữ cảm xúc và các Ontology công nghiệp Các kết quả thực nghiệm đƣợc sử dụng để so sánh hiệu suất của hệ thống so với các chiến lƣợc phân tích cảm xúc khác nhau:
- CSS-FULL: Áp dụng đầy đủ CSS framework
- CSS-GEN: Chỉ sử dụng Ontology tổng quát trong CSS framework
- CSS-NO-RULES: Không sử dụng luật phân tích ngữ cảm xúc trong CSS framework
- SVM: sử dụng bộ thƣ viện LIBSVM của hai tác giả Chih-Chung Chang và Chih-Jen Lin cho việc phân tích cảm xúc
Hình 5.1 biểu diễn phần trăm độ chính xác khi áp dụng các chiến lƣợc phân tích trên với các tập dữ liệu đã thu thập đƣợc Có thể thấy rằng đối với các miền chung nhƣ Amway hay Mobifone thì độ chính xác của CSS-FULL và CSS-GEN gần như tương đương nhau Tuy nhiên, đối với các miền cụ thể, có sử dụng các ontology miền đƣợc xây dựng đầy đủ thì CSS-FULL vƣợt trội so với các chiến lƣợt khác
SVM thể hiện khả năng cạnh tranh với CSS-GEN trong các lĩnh vực có dữ liệu trung tính chiếm ưu thế Dữ liệu trung tính thường ít chứa các ngữ cảm xúc, tạo điều kiện cho SVM phát huy khả năng nhận diện các mẫu không liên quan, tức là các mẫu không mang tính cảm xúc.
51 cảm xúc lớn, SVM đạt độ chính xác thấp theo độ phức tạp của cấu trúc ngôn ngữ, như những trường hợp có thể đảo nghĩa cảm xúc Điều này cũng cho thấy một thực tế rằng CSS-NO-RULES và SVM gần nhƣ có độ chính xác nhƣ nhau trong tất cả các tập dữ liệu
Hình 5.1: Độ chính xác của các chiến lược phân tích cảm xúc.
Đánh giá
Thí nghiệm đƣợc đánh giá là thí nghiệm sử dụng CSS-FULL phân tích cảm xúc cho 1010 bình luận thực tế về Samsung Galaxy S5 đƣợc thu thập từ các diễn đàn và mạng xã hội bởi hệ thống Social Monitoring của công ty YouNet Meida
Các bình luận được đánh nhãn cảm xúc theo ba lớp positive, negative và neutral Tập dữ liệu không bao gồm bình luận không dấu, sai chính tả và câu hỏi cảm xúc Tỉ lệ phân bố của các lớp bình luận là 34,7% positive, 16,95% negative và 48,4% neutral Tỉ lệ bình luận neutral chiếm gần một nửa số bình luận, đây là đặc điểm của các tập dữ liệu từ diễn đàn điện tử và mạng xã hội Tỉ lệ này cho thấy trong tập dữ liệu có nhiều bình luận đề cập đến sản phẩm Samsung Galaxy S5 nhưng không thể hiện cảm xúc đối với sản phẩm.
52 trong công trình [29] đối với phương pháp phân tích cảm xúc không phụ thuộc đối tượng thì 40% các trường hợp sai là do trong văn bản đề cập đến nhiều đối tượng hoặc cảm xúc trong văn bản không thuộc đối tƣợng đang xét Điều đó chứng tỏ rằng bài toán phân tích cảm xúc theo đối tượng là rất thiết để tránh đánh giá sai hướng cảm xúc cho đối tƣợng đang xét trong những bình luận thuộc lớp neutral Khi các bình luận thuộc nhóm neutral chiếm tỉ lệ khá cao nhƣ trên thì nếu tỉ lệ sai khi phân tích các bình luận thuộc lớp này cao sẽ ảnh hưởng rất lớn đến kết quả phân tích của bộ tập dữ liệu Từ đó sẽ làm cho các công ty và các nhà quản lý sản phẩm có những nhìn nhận không đúng khi phân tích đánh giá của người dùng về sản phẩm của họ
Bảng 5.1: Sự phân bố các lớp trong tập mẫu
Kết quả thực nghiệm đƣợc đánh giá dựa trên ba tiêu chí precision (độ chính xác), recall (độ phủ) và độ đo F1 :
- TP i : số lƣợng các mẫu thuộc lớp c i đƣợc phân loại chính xác
- FP i : số lƣợng các mẫu không thuộc lớp c i bị phân loại sai
- FN i : số lƣợng các mẫu thuộc lớp c i bị phân loại sai
- precision: Tỉ lệ giữa số kết quả máy đánh giá đúng trên tổng số các bình luận máy đánh giá thuộc cùng một lớp 𝑐 𝑖 Tỉ lệ này đƣợc gọi là độ chính xác của kết quả phân tích đối với lớp 𝑐 𝑖
- recall: Tỉ lệ giữa các kết quả máy đánh giá đúng trên tổng số các bình luận thuộc cùng một lớp 𝑐 𝑖 Tỉ lệ này đƣợc gọi là độ phủ của kết quả phân tích đối với lớp 𝑐 𝑖
- Precision tổng quát: độ chính xác của kết quả phân tích cho tất cả các lớp là trung bình cộng của precision của các lớp
- Recall tổng quát: độ phủ của kết quả phân tích cho tất cả các là trung bình cộng của độ đo recall của các lớp
- Độ đo F1 thường được dùng để đánh giá các hệ thống phân loại văn bản đƣợc tính dựa trên hai độ đo precision và recall
Việc đánh giá kết quả thí nghiệm cho 1010 bình luận về Samsung Galax S5 được tính toán dựa trên các thông số rrecision, recall và F1 Trước tiên các độ đo precision, recall sẽ đƣợc đánh giá cho từng lớp dựa trên kết quả thực nghiệm Sau đó precision, recall tổng quát sẽ đƣợc tính cho tất cả các lớp dựa trên precision, recall của từng lớp và cuối cùng độ đo F1 sẽ đƣợc tính toán dựa trên precision, recall tổng quát
Bảng 5.2 tổng hợp kết quả thí nghiệm của lớp positive Tổng số mẫu thuộc lớp positive là 350, trong đó số lƣợng các mẫu thuộc lớp positive đƣợc máy phân loai chính xác là 317, số lƣợng các mẫu thuộc lớp positive mà máy phân loại sai là
Độ chính xác của lớp positive đạt 90,11% và độ phủ là 90,5% Các mẫu thuộc lớp positive bị phân loại sai chỉ chiếm 9,7%, trong khi các mẫu không thuộc lớp positive nhưng bị phân loại là positive chỉ chiếm 5,3% Phân tích các bình luận lớp positive cho thấy người viết thường rõ nghĩa khi khen sản phẩm hoặc dịch vụ.
54 những bình luận dạng này, người viết thường đề cập trực tiếp đối tượng muốn khen và đi thẳng vào vấn đề Khác với các bình luận thuộc lớp negative, các binh luận thuộc lớp positive ít sử dụng các lối nói tu từ và ẩn ý Ngoài ra các bình luận thuộc lớp này thường sử dụng các cấu trúc câu đơn giản hơn Do đó kết quả phân tích cho lớp positive thường khá cao
Lớp positive Phân lớp thủ công
Phân lớp bởi hệ thống
Bảng 5.2: Kết quả phân loại của lớp positive
Bảng 5.3tổng hợp kết quả thí nghiệm của lớp negative Tổng số các mẫu thuộc lớp negative là 171 Trong đó số lƣợng các mẫu thuộc lớp negative đƣợc phân loại chính xác là 126, số lƣợng các mẫu thuộc lớp negative bị phân loại sai là 48 và số lƣợng các mẫu không thuộc lớp negative nhƣng đƣợc phân loại negative là 18
Nhƣ vậy độ chính xác của lớp negative là 87,5% và độ phủ của lớp negative là 73,68% Như đã phân tích ở lớp positive, các bình luận thuộc lớp negative thường được viết theo cấu trúc rất phức tạp Người viết đôi khi không thể hiện rõ ý chê trực tiếp đối với sản phẩm mà thể hiện cảm xúc thông qua một đối tƣợng khác có liên quan Ngoài ra người viết còn sử dụng nhiều lối viết tu từ và ẩn ý đặc biệt thường sử dụng các dạng so sánh không tường minh và các câu hỏi tu từ Nên rất khó để phân tích chính xác các bình luận thuộc lớp negative Do đó cũng giống nhƣ các thí nghiệm trong các miền ứng dụng khác, kết quả phân tích của lớp negative thường không cao Trong thí nghiệm này, tỉ lệ các bình luận thuộc lớp negative bị phân loại sai là 45 chiếm 26,3%, đây là một tỉ lệ khá cao Trong khi số bình luận không thuộc lớp negative nhƣng bị phân loại nhầm là negative là 18 chỉ chiếm 2,1%
Bên dưới là một số dạng câu có hàm ý chê nhưng được viết theo lối tu từ và hàm ý được lấy từ tập mẫu Với những bình luận như bên dưới thì hệ thống đã xác định sai giá trị cảm xúc người viết muốn ngụ ý Việc xác định giá trị cảm xúc cho các bình luận này đòi hỏi một sự suy luận phức tạp kết hợp với nhiều kiến thức khác Để xác định đƣợc chính xác giá trị cảm xúc của các bình luận này, hệ thống cần phải đƣợc cung cấp thêm những cơ sở tri thức phức tạp hơn và cần đƣợc bổ sung các luật suy luận theo ngữ cảnh phức tạp hơn:
“Công nhận galaxy S5 giống cái nokia 1200 ghê” Trong bình luận này một điện thoại thông minh Galaxy S5 đƣợc so sánh với một điện thoại thông thường của Nokia được sản xuất cách đây rất lâu Trong lối nói so sánh giữa một cái mới với một cái cũ, một cái hiện đại với với một cái thông thường ở đây chứa đựng một hàm ý chê gián tiếp với nghĩa sản phẩm Galaxy S5 không đƣợc nhƣ mong đợi, không có gì mới mẻ hay cũng có nghĩa là thiết kế không đẹp, tính năng không nhiều, … Nói chung với những bình luận nhƣ thế này sẽ cần có một bộ phân tích sâu hơn và đƣợc cung cấp nhiều tri thức hơn mới có thể suy lận đƣợc giá trị cảm xúc
“s5 cai gì cung hơn xấu thì thôi khỏi nói, vì eo còn từ nào để nói rồi” Một lối nói so sánh hơn với hàm ý chê, nhƣng cách trình bày rất phức tạp
“Ngắm em S5 xong thấy cái gì cũng đẹp” Trong bình luận này, người viết muốn ngụ ý rằng S5 quá xấu, xấu hơn tất cả mọi thứ
Do đó sau khi người viết nhìn S5 xong thì nhìn thấy cái gì khác cũng đẹp
Tuy nhiên, dựa vào kết quả phân tích các bình luận cho thấy, ngoài những bình luận sử dụng lối nói tu từ và ẩn ý ra thì hệ thống có thể xử lý khá tốt những bình luận thể hiện hàm ý chê thông thường Trong các bình luận thuộc lớp negative thường sử dụng các ngữ cảm xúc ở dạng phủ định bao gồm từ phủ định đứng trước các từ cảm xúc Vì hệ thống đƣợc cung cấp một tập các luật rút trích và phân tích ngữ cảm xúc, trong đó có đầy đủ các dạng ngữ phủ định nên đã rút trích và xử lý tốt các ngữ phủ định trong các bình luận này Do đó tỉ lệ phân loại đúng cho các bình luận tiêu cực thông thường khá cao