TOM TAT KHÓA LUẬNNghiên cứu này hướng đến nhận diện cảm xúc cho đối tượng là xác định đối tượng và nhận điện được mối liên hệ cảm xúc của đối tượng trong bình luận nhằm pháthiện những tá
Trang 1ĐẠI HOC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN KHOA KHOA HOC VA Ki THUAT THONG TIN
VÕ CHON CHANH - 20521122
KHOA LUAN TOT NGHIEP
NHAN DIEN CAM XUC CUA DOI TƯỢNG
CHO DU LIEU BINH LUAN TIENG VIET
TREN MANG XA HOI
Target-oriented emotion detection for Vietnamese
social media comments
CU NHAN NGANH CONG NGHE THONG TIN
GIANG VIEN HUONG DAN PGS.TS NGUYEN LUU THUY NGAN
ThS LƯU THANH SON
TP HÒ CHÍ MINH, 2024
Trang 2LỜI CẢM ƠN
Em xin chân thành cảm ơn quý thầy cô khoa Khoa Học và Kĩ Thuật
Thông Tin, Trường Dai học Công nghệ thông tin - ĐHQG TPHCM Nhờ
sự chỉ dẫn nhiệt tình của quý thầy cô và nhận được nhiều lời góp ý quý báu của các thầy cô, em đã tiếp thu được nhiều kiến thức và nhiều kỹ năng giúp ích để hoàn thành khóa luận tốt nghiệp thành công.
Đặc biệt em xin chân thành cảm ơn cô PGS.TS Nguyễn Lưu Thùy
Ngân và thầy Th.S Lưu Thanh Sơn đã tạo điều kiện tốt nhất dành thời gian
hướng dẫn em hoàn thành Khóa Luận Tốt Nghiệp.
Em xin cảm ơn toàn bộ thầy cô của Trường Đại học Công nghệ
thông tin - ĐHQG TPHCM đã truyền đạt nhiều kiến thức quý báu cho em suốt thời gian qua.
Mặc dù Khóa Luận đã hoàn thành và có kết quả nhưng trong quá trình thực hiện không tránh khỏi nhiều thiếu sót Rất mong quý thầy cô và độc giả đang xem thông cảm và góp ý để khóa luận được hoàn thiện tốt nhất.
Xin chân thành cảm ơn
Thành phố Hồ Chí Minh, Tháng 7, Năm 2024
Sinh viên thực hiện
Võ Chơn Chánh
Trang 3MỤC LỤC
Chương 1 TONG QUAN e2:xccetreeetrreetrrertrtrrerrirrrtrtrtrrrerrrirrrrrirerre 2
BA, ca 2
1.2 Đối tượng và phạm vi nghiên cứu ccsec+eeceereeeeerrereerrrrrerrrre 2
1.3 Cac công trình nghiên cứu liên quan c-ccsc5csccs+sreerveereereeerxerrerree 3
1.4 Thách thức của bài toán -e ccscrierrrttrirttrirtkiirtriirriirriirrrirrrriirrriie 5
1.5 Hướng giải quyẾt -c-rceeccerrrreeeerrrirerrerrrrirrrrtrrirrrrrrrrrirrrrerrrree 5
Chương 2 CO’ SỞ LÝ THUYẾT -cc22:++eEtESEEEEEEEEEEEEEEtrirerrrrisetr 6
2.1 Mô tả bài toán «-+.sHHnHHHHHH HH HH 6
2.1.1 _ Nguồn gốc chủ thể (Source/Holder) -ss-+-eceerrrecerrrceet 6
2.1.2 Đối tượng (Target) vscsssssesssesesssessesssesnssesssssstsssssessessesssssssssesssssssssessasssseesst 7
2.1.3 Biểu thức cực chứa cảm xúc (Expression/Polar_Expression) 9
2.1.4 Phân loại cảm xúc dựa vào quan điểm(Polarity) -s 10
2.1.5 Bai toán nhận diện cảm xúc của đối TƯỢNG ceiekieekieriiriierree 11
2.2 Mô hình ngôn ngữ máy hỌC c ©5s<+c+eserxeeerkettrketrrrtrrirtrrirrrrrrrrree 12
2.2.1 Mô hình sentiment graph -e«-ccxxerrrrketrrrkerrrrkrrrrkrrrrrkerrrre 12
2.2.2 Word Embedding -‹s s«+cseexeerkxsterketrrkrtrrktrrktirierkerrrrree 14
2.2.3 Đánh giá -.-c-cxethhnHHHHHHHH 15
Chương 3 BO DU’ LIEU CHO BÀI TOÁN : +++ececcvverrrrrereceerrr 17
3.1 Nguồn dit liệu và thu thập -c-e-++ceeccctrrreevvrrrrrerrrrrrrrrrrrrrrre 17
E “An Co can 17
3.2.1 Quy trình gan nhãn dữ liệu s55 55<Scxeereersereersrrrrrrrree 17
3.2.2 Người gan nhãn và yêu cầu gam nhãn css cceerce 18
3.2.3 Hướng dẫn gam nhãn -cccetrrrrevevrrrrrererrrrrrrrrrrrrrree 18
Trang 43.3 Đánh giá đồng thuận -iiccecSEEreeEEEEEErerEEEEEiriekrtrrrirreerrrree 25
3.4 Phân tích dữ liệu c-cccxscestretrtertstrrtrtrtrrtrrtrrrrrrrirtkrrrrrrsrrrrrrkee 26
Chương 4 THU’C NGHIEM QUA MÔ HÌNH NGÔN NGỮ - 36
4.1 Mô hình ngôn ngtl wc eeesssssssecssesssesssesseessesesesssessseeseesseeseeseeesseeseeessessneeseeesseeseeesses 36
4.1.1 _ Kiến trúc mô hình -ece-+eeceerreeeerrrerertrrrrrrrrrerrrrrrerrre 36
4.1.2 Thực nghiỆm e-c«<+cxccrkexrrEkkrtrrtkrtrirtrirrrirrrrirrrirrrirrree 37
4.2 Kết quả, đánh giá phân tích -:-eccccrreeccevrrrreererrrrrrrrrrrrrrrerrre 39
4.2.1 _ Kết quả thực nghiệm :-eccecirrecevtrtrreeertrtrrrsrrrrrrereerrrrie 39
4.2.2 _ Phân tích kết quả -. -:cecccrrreeevvEtrrreervrtrrirerrtrrrirrrerrrrrre 41
4.2.3 Phân tích lỗi và đánh giá ccieierireeerreeervverrrrrrrrre 43
Chương 5 KET LUẬN VÀ HƯỚNG PHÁT TRIỂN -:-<e:zsez:ce 48
5.1 _ Kết quả, đóng góp của khóa luận -:+ceccvrrrreeevrrrrreerrrrrrree 48
5.2 Hướng phát triỂn e :-eecccriieeeeeerriirreetrriirrertrriirrerrrrrre 49
Trang 5DANH MỤC HÌNH
Isf10108) 01017.810.277 ƠƠ 7 Hình 2.2 Minh họa Target ss-csxs the rrierhirrree 8 Hình 2.3 Minh hoa EXT€SSIOH s 5+£©SvEeEEYteEEExxtrrkxtrrkkettrrkerirrkkrrrrkkerrrrkerrrrkee 9 Hình 2.4 Minh hoa PỌATIfy -sss-csxsS kh grrrinrrieg 10
Hình 2.5 Minh họa về đồ thị -2-++cstrcceztrrertrrvtrrrrrrrrvrrrrvrrrrrrrrrerrrerre 12Hình 2.6 Đồ thị cảm xúc cau trúc head — first s-.cceseecerrreerreeerrerrre 13
Hình 2.7 Đồ thị cảm xúc cấu trúc Head — final c+iceecevvvErtrrreeevevrrrrrrree 14
Hình 3.1 Quy trình gan nhãn dữ liệu -s 55c5c+Sreexesrrrrrreerierrrrtrrerrerrkee 17
Hình 3.2 Hướng dan gam nhãn -++cc222t++evvEEEErvvvEEEttrrrvrrrrrrrrvrrrrrrrerre 22
Hình 3.3 Kết quả bộ nhãn thiếu Source c +ccssreeeeetreeeerreeverrrererrrrrere 23Hình 3.4 Kết quả bộ nhãn đầy đủ đa cảm xúc -e-e+-eecceerrrreeeerrrrreeere 23Hình 3.5 Kết quả bộ nhãn đa cảm xúc -+ceseeeereeeerereerreerrerrtrreerre 24Hirh 3.6 K&t 6g 0111587 24Hình 3.7 Số lượng dữ liệu từng tp sssssessssssessssnessssesesesssessssseesssnsessssessasssesnsseessnseessset 28Hình 3.8 Thống kê thực thé độc lập trên các tập đữ liệu - 29Hình 3.9 Thống kê số lượng cảm xúc phân cực trên các tập dữ liệu 30
Hình 3.10 Wordcloud của Source/ TaT€( sc-cssestktetrrkxerrrrktrrrkrrtrrkerrrrkierrriree 34
Hình 3.11 Wordcloud của EXT€SSIOT -5c-55c5+SceEeEEerrttrirkrrrtrirrrirrrrrrrkerree 34
Hình 4.1 Kiến trúc mơ hình ngơn ngữ :+cccc+titreeEvEtrrrerrvrrrrrrrrrrrrrrerrre 36
Trang 6DANH MỤC BANG
Bảng 2.1 Minh hoa output và output của bài toán e-sccssreererrrrreerrree 11 Bảng 3.1 Hướng dan gan nhãn dành cho người gắn -‹s«cccceecccxereeresee 19
Bảng 3.2 Độ đồng thuận của người gán ccs+eeceetrereerrrrrerrrrrerrre 26
Bảng 3.3 Ví dụ sự khác nhau của bộ dữ liệu UIT-VSMEC và dữ liệu được gán lại
{rong bài fOÁ « xxx HH HH HH TH KH HH HHHYHHTTHEEHkkrrrkkrrrirterrirke 27
Bang 3.4 Độ phân bồ thực thé và phân cực trên các tập dữ liệu - 29Bang 3.5 Ngữ liệu thống kê tiếng Việt trích từ bộ đữ liệu -s 30Bang 3.6 Ngữ liệu thống kê tiếng Anh trích từ tập Open-ES - 31Bang 3.7 Bảng thống kê về khuyết chủ thé hoặc đối tượng - - 33Bảng 4.1 Giá trị thông số Graph từ Kurtz et al ecereecerreecerrrecerrrreere 38Bảng 4.2 Kết quả thực nghiệm (đo theo đơn vị %) -ecesxecceerreecerreeeet 39Bang 4.3 Ví dụ dự đoán lệch thực thé và thiếu thực thẻ -.ccs 44Bảng 4.4 Ví dụ dự đoán nhằm thực thé Source và Target ăàĂeiiiiree 45Bang 4.5 Vi dụ về dat sai gốc (root) và nhầm lẫn giữa các cảm xúc 46
Trang 7TOM TAT KHÓA LUẬN
Nghiên cứu này hướng đến nhận diện cảm xúc cho đối tượng là xác định đối tượng
và nhận điện được mối liên hệ cảm xúc của đối tượng trong bình luận nhằm pháthiện những tác nhân nguồn gốc hay sự việc gây tác động đến cảm xúc của đốitượng Nghiên cứu này tập trung vào phân tích những mối quan hệ “nguồn gốc tạo
ra cảm xúc — đối tượng bị tác động đến cảm xúc” Do nghiên cứu nay rat quan trọngtrong việc phân tích cảm xúc người dùng mạng xã hội nhằm mục đích đánh giá tạogiá trị đữ liệu vàng cho doanh nghiệp phát triển
Nghiên cứu nay đã giải quyết được van dé dữ liệu phục vụ cho nghiên cứu tiếngViệt được gán bởi các người chú thích có đủ kiến thức về Tiếng Việt và khả năngđọc hiểu ngôn ngữ mang xã hội Ngoài ra, nghiên cứu còn mở rộng được van đề
mối quan hệ giữa chủ thể nguồn (Source) và đối tượng (Target) khi tăng lượng kết
nối lên đa quan hệ (nSource — nTarget) và giải quyết được mối liên kết đa quan hệ
chứ không còn là mỗi quan hệ đơn, bên cạnh đó còn mở rộng ra đa cảm xúc chứ
không chỉ là cảm xúc chung như truyền thống
Quá trình và nội dung nghiên cứu chính: Thu thập dữ liệu (UIT-VSMEC và dữ liệu
mang xã hội) và tạo lập hướng dan gan nhãn dir liệu (Anotation Guideline) Sau đó
tính đồng thuận, gán nhãn, kiểm chứng chéo Sau khi hoàn thành tập dữ liệu thì tiễnhành chia dữ liệu liệu thành ba tập: Train — Test — Valid Rồi tiến hành phân tích so
bộ trên các tập dữ liệu để so sánh tìm những điểm tương đồng hoặc khác nhau sovới bộ dữ liệu tiếng Anh Từ đó huấn luyện mô hình ngôn ngữ phù hợp và tinhchỉnh mô hình Kết quả tốt đạt được khi chạy mô hình VisoBERT và CafeBERT
Trang 8Chương 1 TONG QUAN
1.1 Dat van dé
Mô hình ngôn ngữ phat triển đến ngày hôm nay đã có sự phát triển vượt bậc khi ra
đời nhiều mô hình ngôn ngữ lớn xử lí đa tác vụ Nhưng tiếng Việt vẫn còn nhiều
hạn chế, chưa khai phá hết vì tiếng Việt nhiều tiếng lóng và ý nghĩa cảm xúc ngữđiệu khác nhau Việc phát hiện vấn đề cảm xúc trong bình luận không còn xa lạ với
mô hình ngôn ngữ lớn, tuy nhiên mô hình ngôn ngữ lớn vẫn còn hạn chế trong việcphân tích cảm xúc theo đối tượng trong câu [1] [2]
Nhận dạng cảm xúc theo đối tượng là vấn đề liên quan đến phân tích bình luận đa
cảm xúc trong một câu hoặc nhiều câu Vấn đề phát hiện ra nhiều thực thê đốitượng và các mối quan hệ cảm xúc giữa các đối tượng trong cùng một câu nói củangười bình luận trong phi ngữ cảnh khá phức tạp và cần phương pháp điều chỉnhphù hợp dé có thé cải thiện được hiệu suất của dit liệu Do đó trong nghiên cứu này
đã sử dụng biểu thức đồ thị phụ thuộc giữa các đối tượng trong cùng một bộ cấu
trúc để tăng chính xác nhờ vào các mô hình ngôn ngữ nhúng vào ngữ cảnh để tăng
cường độ hiệu quả.
Nhận dạng cảm xúc theo đối tượng không chỉ là tìm hiểu xem cảm xúc của từng đối
tượng mà còn xem nguồn góc chủ thê bày tỏ và việc kết nối những cảm xúc với chủ
thé hay kết nối cảm xúc đến đối tượng sẽ tạo nên một mối quan hệ ý kiến giúp cho
việc khai thác ý kiên quan điêm người dùng mạng xã hội chính xác và có giá trị.
1.2 Đối tượng và phạm vi nghiên cứu
Xây dựng bộ dữ liệu phân tích cảm xúc của bình luận theo cấu trúc cho tiếng Việt.Đánh giá đồng thuận và điều chỉnh hướng dẫn gán nhãn cho phù hợp với người gán
Dữ liệu được tái sử dụng va gan nhãn lại toàn bộ từ bộ dữ liệu UIT-VSMEC Bên
cạnh đó thu thập dữ liệu từ trang mạng xã hội Facebook và Youtube.
Trang 9Mô hình nghiên cứu: Thực nghiệm trên mô hình BERT, PhoBERT, XLM-R, VIsoBERT, CafeBERT So sánh và đánh giá độ chính xác, tìm nguyên nhân gây sai khi dự đoán và tinh chỉnh mô hình.
1.3 Các công trình nghiên cứu liên quan
Phân tích cảm xúc có cấu trúc bao gồm các tác vụ trích xuất biểu thức của cảm xúc,trích xuất đối tượng cảm xúc, trích xuất nguồn gốc cảm xúc, xác định mối quan hệgiữa các yếu tố, phân loại cảm xúc
Các nghiên cứu quốc tế:
Structured Sentiment Analysis as Dependency Graph Parsing [1]: trước đây đã
giải quyết bài toán phân tích cảm xúc theo biểu đồ phụ thuộc bang các ngôn ngữ
chính là tiếng Anh (DS_ Unit, MPQA) , tiếng Na Uy (NoReCFine), tiếng Catalan(MutilBookedCA), tiếng Basque (MultiBookedEU) Nghiên cứu cũng chỉ ra rằng sửdụng biểu đồ cảm xúc giúp xác định được mối quan hệ giữa các thành phần thực thể
và dễ dàng phân loại cảm xúc, rất phù hợp với bài toán nhận diện cảm xúc theo thựcthể
Structured Sentiment Analysis [2]: Trước đó đã giải quyết tương tự được van déphân tích cảm xúc theo đồ thị phụ thuộc bằng 6 ngôn ngữ là ngôn ngữ tiếng Anh(DS_Unit, MPQA, OpeNER_EU), tiếng Tây Ban Nha (OpeNER_ES), tiếng Na Uy
(NoReCFine), tiếng Catalan (MutilBookedCA), tiếng Basque (MultiBookedEU).
Nghiên cứu chủ yếu sử dung nhiều ngôn ngữ dé tạo nên tinh đặc trưng từng bộ ngônngữ và tim ra mô hình tốt nhất dé chạy trên mô hình đa ngôn ngữ từ nhiều đội thi,
từ nghiên cứu này có thê cải thiện hiệu suât mô hình từ nhiêu baseline khác nhau.
A Fine-grained Sentiment Dataset for Norwegian [3]: Nghiên cứu nay là phat
triển bộ đữ liệu phân loại tinh cảm chi tiết bằng tiếng Na Uy và được chú thích bằng
các biểu thức cảm xúc, đối tượng, chủ thể và phân loại cảm xúc Nguồn dữ liệuđược lấy từ các đánh giá từ các tin tức trên nhiều lĩnh vực khác nhau như trò chơi,
âm nhạc, văn học, phim ảnh, Nghiên cứu nảy cung câp chú thích gán nhãn và báo
Trang 10cáo các thử nghiệm trên tập dir liệu làm tiên đê cho các dữ liệu nghiên cứu sau nay Nghiên cứu này tương tự với nghiên cứu trong Khóa luận này vì vậy có kê thừa một
phan về chi tiết xây dựng chú thích gan nhãn.
MultiBooked: A Corpus of Basque and Catalan Hotel Reviews Annotated for
Aspect-level Sentiment Classification [4]: Đây là nghiên cứu về xây dựng dt liệuphân loại khía cạnh cảm xúc được xây dựng bằng 2 ngôn ngữ là tiếng Basque vàCatalan Nghiên cứu cung cấp những chú thích và cách tính đồng thuận chỉ tiết giúpcho các bộ dữ liệu khác có thể kế thừa và xây dựng phục vụ cho nghiên cứu tìnhcảm chỉ tiết Nghiên cứu này cũng chú thích các cảm xúc, đối tượng và chủ thé, do
đó có thé xem nghiên cứu nay là nên tang cho việc nghiên cứu hướng dẫn gan nhãn.
Các nghiên cứu trong nước:
Emotion recognition for vietnamese social media text [5]: Nghiên cứu này đã
giải quyết vẫn đề phân loại cảm xúc ở các bình luận mạng xã hội đã mang hiệu quả
và độ chính xác khá cao ở bộ đữ liệu UIT-VSMEC Nghiên cứu này cung cấp các
tác vụ xử lí cho bài toán phân loại cảm xúc với độ chính xác khá cao Bên cạnh đó
còn cung cấp hướng dẫn quy trình gán nhãn chỉ tiết, phù hợp để nghiên cứu cho quá
trình gán nhãn.
Span Detection for Aspect-Based Sentiment Analysis in Vietnamese [6]: Trong
bai toán này tập trung vào việc nhận diện các đoạn văn ban tương ứng với các khía
cạnh cụ thể và phân loại cảm xúc liên quan Dữ liệu thường là các đánh giá sảnphẩm, dịch vụ từ người dùng Bai toán giải quyết việc xác định chính xác các khíacạnh và cảm xúc trong văn bản, giúp hiểu rõ hơn ý kiến của người dùng Bài toáncung cấp hướng dẫn gan nhãn và các quy trình gan nhãn chi tiết, phù hợp dé nghiên
cứu cho bài toán nhận diện cảm xúc.
A corpus for aspect-based sentiment analysis in Vietnamese [7]: Bài toán nay
tập trung vào việc thu thập va gán nhãn các đánh giá sản phẩm, dich vụ từ ngườidùng Bộ dữ liệu được thu thập từ các bình luận, đánh giá trên các nên tảng thương
mại điện tử, mạng xã hội Bài toán giải quyêt việc tạo ra một bộ dữ liệu chuân hóa,
Trang 11có nhãn cho các khía cạnh và cảm xúc, hỗ trợ huấn luyện và đánh giá mô hình Van
đê còn chưa giải quyét là sự thiêu đa dạng và phong phú của dữ liệu, cùng với việc
đảm bảo tính nhất quán và độ chính xác trong quá trình gán nhãn.
Nhưng các nghiên cứu trong nước chưa giải quyêt được vân dé cảm xúc của đôi
tượng và các môi liên hệ giữa các đôi tượng trong câu, cũng chưa chỉ ra được các
quan điểm đa ý kiến cảm xúc theo (Source, Target, Expression, Polarity)
Nên cân một nghiên cứu đê làm rõ nhận dạng cảm xúc và phân loại cảm xúc của đôi
tượng dé tìm ra được nhiều ý kiến quan điểm dé đánh giá bình luận
1.4 Thách thức của bài toán
Hiện tai van chưa có bộ dữ liệu vê cảm xúc chi tiét như các bộ ở nghiên cứu quôc tê
đê nghiên cứu cảm xúc theo mục tiêu nên cân xây dựng bộ dữ liệu cảm xúc chi tiệt
gôm các đôi tượng Source, Target, Expression, Polarity dựa trên các nghiên cứu
quốc tế liên quan dé phục vụ cho cộng dong
Ngoài ra việc phân tích cảm xúc chỉ tiết như vậy cần có phương pháp phù hợp, môhình ngôn ngữ truyền thong bình thường không thé biểu diễn đầy đủ các yếu tố chitiết như các bài toán
1.5 Hướng giải quyết
Trong Khóa luận này đã sử dụng UIT-VSMEC và gán nhãn lại từ đầu theo hướngdẫn gán nhãn Đồng thời thu thập thêm các bình luận ý kiến đánh giá trên Facebook
dé làm tăng sự đa dạng phong phú cho dữ liệu tiếng Việt
Việc biểu diễn mô hình khá phức tạp khi phải biểu các thực thé và mối liên hệ theothực thé dé tạo ra các biểu đồ cảm xúc chứa đối tượng/chủ thể cần phải sử dụng đồ
thị cảm xúc (Sentiment Graph).
Đê hiêu rõ hơn về các yêu câu bài toán chương sau trong Khóa luận sẽ giải thích rõ.
Trang 12Chương2 CƠ SỞ LÝ THUYET
2.1 Mô tả bài toán
Bài toán nhận điện cảm xúc của đối tượng dựa trên bình luận mạng xã hội là bàitoán phân loại cảm xúc nhờ vào các liên kết giữa các chủ thê và đối tượng bên trongcâu được liên kết với nhau tạo thành nhiều bộ ý nghĩa mang nhiều cảm xúc khác
nhau Bài toán được mở rộng va kết hợp từ nhiều bài toán như nhận diện thực thé
(name entities detection), phân loại cam xúc (sentiment analysis).
Trong bai toán này các thực thể được nhắc đến là chủ thể bình luận(Holder/Source), đối tượng bị tác động bởi ý kiến (Target), cảm xúc bày tỏ bởi ý
kiến chủ thể (Expression) Ngoài ra việc phân loạ cảm xúc
(Polarity/Polar_ Expression) dé tạo lập mối quan hệ liên kết giữa các thực thể thànhmột bộ ý kiến (S, T, E, P)
Cu thé các chức năng từng thực thể và mối quan hệ sẽ được làm rõ ở phần sau.
2.1.1 Nguồn gốc chủ thé (Source/Holder)
Holder/Source được định nghĩa theo Jindal và Liu là nguồn gốc chủ thể bình luận
hoặc nguôn gôc chủ thê ý kiên, quan điềm, cảm xúc [8].
Chủ thể nguồn sốc bình luận/ ý kiến trong bình luận mạng xã hội thường ít được thểhiện rõ ràng hoặc xuất hiện trong bình luận, nên thường các ý kiến quan điểm đánhgiá hay bày tỏ cảm xúc thường được ngầm định là của tac giả nếu như không tồn taitường minh Mặc dù vậy khi chủ thé nguồn gốc ấy tồn tại thì thường tồn tại ở dangđại từ (pronoun) và cũng có thé được diễn đạt với dang danh từ (noun) hay tên riêngcủa tác giả Bên cạnh đó chủ thể còn tổn tại ở dạng khác như đại từ sở hữu, danh từ
sở hữu, chỉ từ,
Dé hiểu rõ hơn nguồn gốc chủ thé thì ví dụ sau giúp ta có cái nhìn tong quan hơn:
Trang 13xX Yiu iB H ¿£ ñ
Ua, ăn chay, ăn trứng không trống, các món ko giết hại van day đủ dinh dưỡng mà Thịt
nhân tạo cũng là một lựa chọn trong tương lai An để sống và cống hiến chứ không phải
sống để ăn, nên ăn sao vừa đủ dinh dưỡng vừa tránh sự giết hai là on.
Tui cũng đã từng như thế Quê quá sSource
Hình 2.1 Minh họa Source
- “Ua, ăn chay, ăn trứng không trống các món ko giết hại van đầy đủ dinh
dưỡng mà Thịt nhân tạo cũng là một lựa chọn trong tương lai Ăn dé sống vacống hiến chứ không phải sống để ăn, nên ăn sao vừa đủ dinh dưỡng vừatránh sự giết hại là ôn.”
Source ở câu này đã ngầm định là tác giả bình luận
- “Tui cũng đã từng như thé Quê quá”
Source là “Tui”, vì câu này đã tường minh nhận định chủ thể là “Tui”
Trong bài toán này các dữ liệu bình luận cũng sẽ tương tự như vậy đều có chủ thểtường minh và chủ thê ngầm định Điều này khá khó khăn cho việc gán nhãn dữliệu nhưng sẽ tạo thách thức cho bài toán cần giải quyết
2.1.2 Đối tượng (Target)
Target được định nghĩa theo Jindal và Liu là mục tiêu, đối tượng bị các ý kiến đánh
giá, bay tỏ quan điểm [8]
Đối tượng bị bày tỏ quan điểm trên mạng xã hội thường được xuất hiện nhiều trongcác bình luận, đối tượng không chỉ là cá nhân con người mà đối tượng là cụm từ chỉcho các sự vật hiện tượng Dĩ nhiên trong bình luận mạng xã hội không chỉ ton tại
một đuôi tượng duy nhât mà có thê có nhiêu đôi tượng cùng tôn tại và có thê được
Trang 14đánh giá nhiều quan điểm khác nhau cho từng đối tượng Một một số ít trường hợp
đối tượng được nói đến là tác giả Đối tượng thường được nhắc đến có thể mang
danh từ chung hoặc danh từ riêng tùy thuộc vào bình luận.
Đề hiểu rõ hơn cụ thé đối tượng thì ví du sau giúp ta có cái nhìn tổng quan hon:
Hinh 2.2 Minh hoa Target
- “dé rồi có nhiều tình yêu không phân biệt tudi tác”
Target ở đây là tuổi tác và tình yêu Vì câu này đang chọn mục tiêu trừutượng dé bày tỏ quan điểm là tình yêu và tuôi tác
- “cai giá của đồng tiền”
Target ở đây là đồng tiền Vì đồng tiền đang là sự vật đang được nhắcđến
- _ “nhân văn quá sếp”
Target là sếp Vì sếp là chỉ về danh từ người đang được tác giả bày tỏquan điểm
Trong bài toán này dữ liệu trên mạng xã hội Việt Nam được thu thập sẽ đa dang
phong phú hơn về Target vì không chỉ là những cụm từ đơn lẻ mà có thể mang luôn
cả cụm từ, cụm danh từ, cụm danh từ quan hệ sở hữu bao gồm các sự vật, hiện
tượng và con người.
Trang 152.1.3 Biểu thức cực chứa cảm xúc (Expression/Polar_Expression)
Expression/Polar_ Expression được định nghĩa theo Jindal và Liu là bay tỏ quan
điểm (được gọi là biểu thức cực) góp phan tạo nên tinh chất quan điểm đánh giá [8]
Trong bình luận mạng xã hội biểu thức cực được mô tả bởi các đánh giá phản anh
của người bình luận Biểu thức cực thường là một khoảng cách cụm từ lớn chứathông tin, cảm xúc, đánh giá, cũng có thể chứa cả những thông tin không liên quan
nhưng có mối quan hệ chặt chẽ không thể tách rời Cho nên biểu thức cực phải
mang tính chất của những sự vật hiện tượng con người vì thế thường là tính từ hoặc
động từ cũng có thé kèm theo danh từ Ngoài ra nhờ vào biểu thức cực này mới có
thê phân loại được cảm xúc của bình luận theo mục tiêu là tích cực hay tiêu cực.
Đê hiêu rõ hơn cụ thê biêu thức cực thì ví dụ sau giúp ta có cái nhìn tông quan hơn:
xY :! mm H ¿ ñ es
Quá Hay! Qu: là một vide 6 cùng cảm động, v ý nghĩa, đ
sExpression °Expression °Ex ì
lâu lam roi tôi chưa được thay một stat ang đâm tính in va
pression
éna
Hinh 2.3 Minh hoa Expression
Câu “Quá Hay! Quả thật là một video vô cùng cam động, vô cùng ý
nghĩa, đã lâu lắm rồi tôi chưa được thấy một status mang đậm tính nhânvăn như thế này” có bốn Expression cụ thể là:
Expression là “Quá Hay!” vì đây là một câu khen ngợi của bình luận Ngoài ra còn có “vô cùng cảm động”, “vô cùng ý nghĩa” đây là 2 cụm
mang tính chất khen ngợi nếu chỉ tách ra cụm từ chỉ tính chất “cảm động
— ý nghĩa” thì nó chưa đủ mô tả hết nội dung và lời tác giả bình luận
Trang 16muốn thé hiện Cụm tính từ “mang đậm tính nhân văn như thế này” phía
sau cũng mô tả rất chỉ tiết và bộc lộ quan điểm rõ ràng
Trong bài toán này khi thu thập dir liệu Khóa luận này cũng chú ý đến việc thu thậptoàn bộ câu mang nhiều sự bày tỏ quan điểm như thế này để giúp tăng cường sự
phong phú và đa dạng cho nhãn gán.
2.1.4 Phan loại cảm xúc dựa vào quan điểm(Polarity)
Polarity được định nghĩa là khả năng phân cực là phân loại bình luận theo hướng tích cực (Positive), tiêu cực (Negative) hoặc trung tính là Neutral [8].
Trong nghiên cứu này bình luận không chỉ phân cực về tích cực, tiêu cực hay trungtinh, mà sẽ phân cực theo quan điểm của biểu thức phân cực (polar_expression) vàmối liên hệ đến đối tượng (target), do đó bài toán sẽ trở nên thách thức hơn
Vi dụ minh họa sau đây cho phân loại cảm xúc giúp ta dé nhìn thấy tổng quan hon:
Hình 2.4 Minh họa Polarity
Câu “nói chuyện như vậy bảo sao đất nước không phát triển” có 2 sự bộc lộ
về quan điểm đầu “nói chuyện như vậy” là sự bộc lộ chưa rõ ràng, chưa rõtác giả muốn bày tỏ quan điểm tích cực hay tiêu cực Quan điểm sau “khôngphát triển” là sự bày tỏ khá tiêu cực khi đối tượng được bài tỏ ở đây là “đất
nước”, vì vậy sẽ xêp vào nghĩa tiêu cực.
10
Trang 172.1.5 Bai toán nhận diện cảm xúc của đôi tượng
Input: Di liệu bình luận tiếng Việt từ nền tảng Facebook va Youtube Các bình luận
mạng cảm xúc khác nhau và mang các câu trúc khác nhau.
Ouput: Các biểu thức quan hệ đã phân loại cực cảm xúc gồm nhiều bộ {{“Holder”,
“Target”, “Expression”, “Polarity”}}.
Vi dụ minh họa input va output:
Bang 2.1 Minh hoa output va output cua bai toan Input: Comment Output: { “Holder”, “Target”, “Expression”, “Polarity”}
{ “Tôi”, “anh”, “chưa từng gặp”, “Neutral”}
{ “Tôi”, “anh”, “vừa ăn cướp vừa la làng 32 c€
, NegatIve”}
` “” “Tm coi”, “Neutral”}
{“tu, *°? “bực bội”, “Negative”}
Mục tiêu của bài toán này là cô găng tìm ra các bộ biêu thức có môi quan hệ giữa
các thực thê (h, t, e) sau đó phân cực cảm xúc (p) đê tạo ra các bộ ý kiên riêng biệt
mang ngữ nghĩa khác nhau trong câu Tuy nhiên việc hướng đên đôi tượng của biêu
thức phân cực sẽ khá phức tạp khi có thê tồn tại ra nhiều mối quan hệ {nE/nP-nT}
Tương tự việc liên kết với đối tượng, chủ thé cũng có thé bày tỏ ra nhiều biểu thứcphân cực, và mối quan hệ được xác lập sẽ tồn tại dạng này {nH-nE/nP} Khi đóbiểu thức sẽ trở nên phức tạp tạo thành nhiều bộ quan hệ {nH-{(nE/P-nT)}}, đây làdạng thách thức khó nhất của bài toán ở dạng đầy đủ, và cũng cần có phương pháp
11
Trang 18điều chỉnh phù hợp mới có thể biểu đạt hết được nhiều ý kiến quan điểm của của
bình luận.
Dé khai thác được những yếu tố trên ta cần mô hình ngôn ngữ phù hợp và cách xử líphù hop, phần tiếp theo sau sẽ giải quyết van dé này
2.2 Mô hình ngôn ngữ máy học
Đề giải quyết bài toán trên một cách tự động cần mô hình ngôn ngữ có thé biểu thị
được mối quan hệ giữa các node và có thể truy xuất với độ chính xác tốt nên sửdụng đồ thị phân loại cảm xúc (sentiment graph) là giải pháp tốt nhất
Ngoài ra khi biểu diễn ý nghĩa thì việc biểu diễn mã hóa hai chiều từ các mô hình
BERT để giúp bài toán dễ xử lí trở nên đỡ phức tạp hơn.
2.2.1 M6 hình sentiment graph
Đồ thị cam xúc là đồ thị có hướng, gồm một tập hợp các nút được gán nhãn và một
tập hợp các cạnh không nhãn kết nối các cặp nút (node) Các nút trong đồ thị cảm xúc có thể trải dài qua nhiều token và có thể có nhiều cạnh vào Các đồ thị này có
thé có nhiều điểm bắt đầu (root), không nhất thiết phải kết nối hoàn toàn, và khôngphải mỗi token đều là một nút trong đồ thị Các biểu thức cảm xúc
(Polar_expression) của câu tương ứng với các gốc của đồ thị, từ gốc này sẽ kết nối
với các chủ thé (Holder) và đối tượng (Target) (Hình minh họa 2.5)
Tao thay E phim | có cái gi hay ho dau ma xem
Hình 2.5 Minh hoa về đồ thị
12
Trang 19Ap dụng thuật toán đồ thị của Dozat và Manning [8] trong đồ thị này, các nút tươngứng một — một với các token của chuỗi và theo thứ tự tuyến tính Các cạnh được vẽ
như các cung trong nửa mặt phang phía trên câu, kết nối các đầu (head) với các phụ
thuộc (dependents) Đồ thị có thể có nhiều gốc và các nút có thể có nhiều hoặc
không có cung vào.
Dựa vào kha năng biểu diễn khác nhau, tùy thuộc vào việc chon dau của các token
riêng lẻ trong các đoạn biêu thức cảm xúc - chủ thê - đôi tượng Có hai cách biêu
diễn đơn giản được đề xuất là: head-first và head-final
- Head-first: Chọn token đầu tiên của biểu thức cảm xúc làm nút gốc, và tương
tự, chọn token đầu tiên trong mỗi đoạn chủ thể và mục tiêu làm “đầu” của đoạn
đó, với tất cả các token khác trong đoạn đó làm phụ thuộc Các nhãn chỉ đơngiản biểu thị loại quan hệ (mục tiêu/chủ thể) và đối với các biểu thức cảm xúc,
mã hóa thêm độ cực (Ví dụ mình họa hình 2.6)
- Head-final: Chon token cuối cùng của biểu thức cảm xúc làm nút gốc, và tương
tự, chọn token cuối cùng trong mỗi đoạn chủ thể và mục tiêu làm “đầu” của
đoạn đó, với tất cả các token khác trong đoạn đó làm phụ thuộc Các nhãn chỉđơn giản biểu thị loại quan hệ (mục tiêu/chủ thé) và đối với các biéu thức cảm
xúc, mã hóa thêm độ cực (Vi dụ minh họa hình 2.7).
13
Trang 20Source Target exp: Neg
Dé biểu dién token bằng các embedding ngữ cảnh hóa nên trong nghiên cứu nay đã
sử dụng bộ multilingual-BERT [10] nhằm tăng hiệu suất cho mô hình ngôn ngữ, vì đây là mô hình được huấn luyện bởi 104 ngôn ngữ bao gồm tiếng Việt Mô hình
này vừa thích hợp cho việc xử lí đa ngôn ngữ ké cả mô hình đơn ngữ Nhưng dékiểm chứng hiệu suất trong Khóa luận này còn sử dụng lại XLM-R [11] là một môhình được phat triển từ RoBERTa, được thiết kế ra để xử lí trên nhiều ngôn ngữtrong đó có tiếng Việt
Dé dễ dàng cho việc huấn luyện trên dữ liệu tiếng Việt và tinh chỉnh trong nghiên
cứu nay sử dụng các phiên bản BERT [12] khác là PhoBERT [13], VisoBERT [14],
CafeBERT [15] nhằm đánh giá hiệu suất dé chọn ra mô hình phù hợp nhất với bài
toán.
Ngoài ra chuyên đổi các từ trong ngôn ngữ tự nhiên thành các vector số có chiều cóđịnh, giúp các mô hình máy học xử lý và hiểu ngôn ngữ tự nhiên Các vector này có
đặc điểm là các từ có ngữ nghĩa tương tự sẽ có các vector gần nhau trong không
gian vector Vì vậy mỗi token được biểu diễn bởi các BERTTology [16] (gọi chung
của các mô hình BERT), POS Tag Embedding (Biéu diễn nhãn của từ loại), LemmaEmbedding (Biểu diễn gốc của từ), Character Embedding (biểu diễn các ký tự cấu
thành từ, được tạo bởi một LSTM dựa trên ký tự).
14
Trang 21F1-S F1)=2 PXcore(F1) = P+R
Dé đánh giá và xếp hang các mô hình dựa trên khả năng nắm bắt mối quan hệ giữa
tất cả các yếu tố được dự đoán, bài toán này đã sử dụng các độ đo F1 cho 4 thành
phân sau:
Token-F1 {Holders, Targets, Exressions} đánh giá khả năng của mô hình trong
việc xác định các thành phần của đồ thị cảm xúc ở mức độ token F1-Score ở mức
độ token cung cấp cái nhìn chỉ tiết về hiệu suất của mô hình đối với từng thành phầnriêng lẻ như chủ thé (holder), đối tượng (target), và biéu thức (expression)
Trong trường hợp tính nhãn cua Token F1 thì TP, FP, FN sẽ có quy ước riêng:
e True Positives (TP): Số lượng nhãn đúng được dự đoán chính xác
e False Positives (FP): Số lượng nhãn sai được dự đoán là đúng.
e False Negatives (FN): Số lượng nhãn đúng bị bỏ sót
Targeted-F1 là một số liệu phổ biến trong phân tích cảm xúc nhắm mục tiêu, cònđược gọi là FI-I ( Day là sự kết hợp giữa việc trích xuất chính xác mục tiêu cảm
xúc và độ cực đúng Trong trường hợp Targeted-F1 thì TP, FP, FN sẽ có quy ước:
e True Positives (TP): Số lượng mục tiêu cảm xúc đúng và độ cực được dự
đoán chính xác.
e False Positives (FP): Số lượng mục tiêu sai được dự đoán là đúng
e False Negatives (FN): Số lượng mục tiêu đúng bị bỏ sót
15
Trang 22Parsing graph metrics hay còn gọi là số liệu đồ thị phân tích cú pháp trong đó sẽ
e Non-polar Sentiment Graph F1 (NSF1): dùng đo kha năng của mô hình
trong việc năm bắt đầy đủ đồ thị cảm xúc không phân cực, dưới dạng tuple
(holder, target, expression).
¢ Sentiment Graph F1 (SF1): do kha năng của mô hình trong việc nắm bat
đầy đủ đồ thị cảm xúc phân cực, dưới dang tuple (holder, target, expression,
Trong đó:
e_ Overlap (pred, gold) là số lượng token dự đoán đúng
e Pred sé lượng token dự đoán
se Gold số lượng token thực tế
Đề giải quyết cho bài toán này trên tiếng Việt thì dữ liệu đóng vai trò quan trọng déhuấn luyện Do đó, trong chương kế của Khóa luận sẽ trình bày quá trình xây dựng,
và phân tích đặc trưng dit liệu cho tiếng Việt
16
Trang 23Chương 3 BỘ DU LIEU CHO BÀI TOÁN
3.1 Nguồn dir liệu và thu thập
Dữ liệu được thu thập từ việc tai sử dung lại bộ dữ liệu UIT-VSMEC [5], vì bộ dtr liệu này là bộ dữ liệu nhận diện cảm xúc trên mạng xã hội gân giông với bài toán này cân xử lí Mặc dù bị lệch nhãn cảm xúc ở bộ dữ liệu gôc nhưng bộ dữ liệu được gán nhãn trong Khóa luận khi gán nhãn đã xử lí tôt ở việc tìm ra biêu thức cảm xúc theo mục tiêu chứ không đánh cảm xúc theo một phương diện như UIT-VSMEC.
Ngoài ra khi xây dựng bộ dt liệu nay còn thu thập dữ liệu trên mạng xã hội từ các
bài viết đánh giá trên Facebook và lưu trữ dưới tệp text (.txt)
Bộ dữ liệu gồm 6000 câu từ bộ UIT-VSMEC và 5010 câu từ mang xã hội được trộn
ngau nhiên với nhau.
3.2 Gán nhãn dữ liệu
3.2.1 Quy trình gan nhãn dữ liệu
‘ai liệu hướng dẫn gan nhãn
[| Hoan thanh data
Lưu trữ vào json
Hình 3.1 Quy trình gan nhãn dữ liệu
17
Trang 24Quy trình gan nhãn sẽ được trai qua các công đoạn sau:
Bước 1: Tạo lập hướng dẫn gan nhãn dit liệu cho người gan nhãn.
Bước 2: Huan luyện ba người gan nhãn dữ liệu bằng hướng dẫn gan nhãn trong mộttuần và cho thử nghiệm gán nhãn
Bước 3: Gắn mẫu 210 câu bình luận.
Bước 4: Tính đồng thuận giữa các người gán nhãn Nếu đồng thuận dưới 0.6 quay
trở lại Bước 3 Nếu đồng thuận trên 0.6 thì tiếp tục cho gán hàng loạt
Bước 5: Sau khi gán hàng loạt cho đến xong dữ liệu thì ta bắt đầu cho kiểm chứng
chéo giữa các người gan nhãn.
Bước 6: Hoàn thành data và xuất file lưu trữ dữ liệu
3.2.2 Người gán nhãn và yêu cầu gan nhãn
Số lượng người gán nhãn: 3
Yêu câu người gan: Đọc hiêu được tiêng Việt và có sử dụng mạng xã hội thương
xuyên đặc biệt là Facebook vì để có thé hiểu được những vấn đề mới nồi
Công cụ gán nhãn: Docano chạy trên Docker.
Luu trữ dữ liệu: File JSONL và JSON.
3.2.3 Hướng dẫn gan nhãn
Như chương 2 đã trình bày về các cơ sở lý thuyết về nhãn gán Chủ thê - Đối tượng
— Biểu thức phân cực — Phân loại cảm xúc Trong chương này sẽ hướng dan gan
nhãn dựa vào các đặc trưng theo tiếng Việt.
Sau đây là bảng mô tả nhãn gan:
18
Trang 25Bảng 3.1 Hướng dan gan nhãn dành cho người gan
Nhãn Mô tả Vi dụ minh họa
Source Nguồn gốc cmt sé bắt nguồn từ người |- Tao nói m mà m
gửi hoặc 1 trích dẫn, hoặc 1 cá nhân, tổ chăng bao giờ nghe
chức nao đó cả.
Nguồn gốc cmt sẽ “nói” về quan điểm, | Source: “Tao” (Nguốncảm xúc, hành động của 1 cá nhân đối | gốc của comment)
với đối tượng, sự vật, hiện tượng được
đề cập den - Toi đã nói với anh
Nguôn gôc cmt mang tính chủ quan của ấy là ngày mai tôi người cmt và sẽ được bộc lộ qua nhiêu không tham gia buổi
cảm xúc hình thái khác nhau x
lễ được Các khía cạnh thường bắt nguôn từ các Source: “Tôi” (Nguồn
danh từ, dai từ xưng hô và /hưởờng ở | „⁄£„ ›
gôc của comment).
ngôi thứ nhat
Ví dụ:
| = - Me tui lam cai nay
- Tôi, Tao, T, Tui, Tớ
; kì công hơn ban
- Mình `
aa ‹ nhiêu
- Bọn tao, bọn tôi, bọn mình,
„ ¬ ` Source: “Me tui”
- Chúng ta, chúng tôi, chúng minh l „
, ¬ : (Nguôn gôc của
- Cac đại từ sở hữu: Me tui, Ba tui,
` op - | comment).
Ngoài ra còn có thêm các từ xưng hô
khác tùy thuộc vào ngữ cảnh mà đối
tượng được nói tới.
Lưu ý: Source có thé có hoặc không
Target Đối tượng hướng tới sé chi 1 cá nhân, | - M làm bạn t hơi lâu
tập thể, sự vật, hiện tượng rồi đó :))
19
Trang 26“Đôi tượng” này được “người nói”
(Source hoặc chính người bình
luận) hướng đến nhằm bày tỏ những
cảm xúc, trạng thái, ý nghĩ, tác động
đến “đối tượng”
Các đối tượng bắt nguồn từ danh từ, đại
từ nhân xưng va /hưởng ở ngôi thứ hai.
Ngoài ra còn có thêm các từ xưng hô
khác tùy thuộc vào ngữ cảnh mà đối
tượng được nói toi.
Lưu ý: Target có thể có hoặc không
Target: “M” (Đối tượng
của người comment
hướng đến)
- Anh ấy vừa mua 1
con mec nên anh ấyrất vui
Target: “Anh ấy” (Đối
tượng trong câu).
Expression Bày tỏ cảm xúc, ý nghĩ, cảm nhận, hành
động, của người comment đối với đối
tượng, sự việc nào đó.
Tính từ: Buồn, vui, giận,
Thán từ: Chao ôi, Ôi, (chỉ nhận biết
để dễ dàng gán nhãn chứ không gán
nhãn này vì nó dung 1 mình không có y
- H6m nay tôi buôn Polar_expression:
Trang 27nghĩa cảm xúc hay cảm nhận)
Lưu ý: Expression phải có
giận” (Cảm xúc)
Polarity Miêu tả tính tiêu cực, tích cực, trung
tính trong câu nói của người cmt
Một câu có thể mang nhiều tính tích
cực va tiêu cực hoặc trung tính
Dựa theo cảm xúc (Expression) của
người comment mà ta phân loại:
Tích cực: Những bình luận mang tính
khích lệ, động viên, chia sẽ, Những
bình luận vui đùa không mang tính chất
xúc phạm, gây thù ghét, mang tính chia
rẽ hay kích động
e Luu ý: Những từ vui đùa có
chứa những từ ngữ thô tục,
nhạy cảm mang tính chất vui
đùa không xúc phạm hay tác
động đến đối tượng nào thì vẫn
có thé chấp nhận được
Tiêu cực: Những bình luận mang cảm
xúc gây xúc phạm, kích động, chia rẽ, gây thù, Những bình luận sai sự that
và dẫn dắt người đọc hiểu sai vấn đề
Những bình luận này thường chứa
những từ tục tu, thô lỗ, nhạy cảm hoặc
không chứa.
¢ Luu ý: Bao gồm những từ viết
tắt, teencode, những bình luận
mang hàm ý, ân ý,
- Trông cậu ay buôn
vậy chắc mới chia
tay với bô
Polarity: “Tiêu cực”
- Me biết mẹ buồn đó
Polarity: “Tích cực”
21
Trang 28Trung tính: Những bình luận bình
thường.
Lưu ý: Polarity tồn tại khi
Expression tôn tại.
Cách gắn nhãn:
Ứng với mỗi câu là 1 bình luận trên mạng xã hội, mỗi người gán nhãn (annotator) gán cho mỗi câu 4 nhãn(có thể có đủ toàn bộ nhãn hoặc không chứa đủ): Source —
Target — Expression — Polarity.
Mối quan hệ (Relation) giữa các nhãn là gan 1 trong 3 mối quan hệ Positive,
Negative, Neutral (Minh họa như hình 3.2):
Polar_Expression (Relation) Positive
Source (Entity) Negative Target (Entity)
Neutral
Tức là gan mối liên kết từ Source -> Polarity sau đó gan Polarity -> Target cuối
cùng gan từ Expression -> Polarity.
Expression sẽ di chung với Polarity Nếu không có Expression thì không cóPolarity Khi nối mối quan hệ thì Ưu tiên Polarity + Expression
22