Khóa luận tốt nghiệp Công nghệ thông tin: Nhận diện cảm xúc của đối tượng cho dữ liệu bình luận tiếng Việt trên mạng xã hội

TOM TAT KHÓA LUẬNNghiên cứu này hướng đến nhận diện cảm xúc cho đối tượng là xác định đối tượng và nhận điện được mối liên hệ cảm xúc của đối tượng trong bình luận nhằm pháthiện những tá

Trang 1

ĐẠI HOC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN KHOA KHOA HOC VA Ki THUAT THONG TIN

VÕ CHON CHANH - 20521122

KHOA LUAN TOT NGHIEP

NHAN DIEN CAM XUC CUA DOI TƯỢNG

CHO DU LIEU BINH LUAN TIENG VIET

TREN MANG XA HOI

Target-oriented emotion detection for Vietnamese

social media comments

CU NHAN NGANH CONG NGHE THONG TIN

GIANG VIEN HUONG DAN PGS.TS NGUYEN LUU THUY NGAN

ThS LƯU THANH SON

TP HÒ CHÍ MINH, 2024

Trang 2

LỜI CẢM ƠN

Em xin chân thành cảm ơn quý thầy cô khoa Khoa Học và Kĩ Thuật

Thông Tin, Trường Dai học Công nghệ thông tin - ĐHQG TPHCM Nhờ

sự chỉ dẫn nhiệt tình của quý thầy cô và nhận được nhiều lời góp ý quý báu của các thầy cô, em đã tiếp thu được nhiều kiến thức và nhiều kỹ năng giúp ích để hoàn thành khóa luận tốt nghiệp thành công.

Đặc biệt em xin chân thành cảm ơn cô PGS.TS Nguyễn Lưu Thùy

Ngân và thầy Th.S Lưu Thanh Sơn đã tạo điều kiện tốt nhất dành thời gian

hướng dẫn em hoàn thành Khóa Luận Tốt Nghiệp.

Em xin cảm ơn toàn bộ thầy cô của Trường Đại học Công nghệ

thông tin - ĐHQG TPHCM đã truyền đạt nhiều kiến thức quý báu cho em suốt thời gian qua.

Mặc dù Khóa Luận đã hoàn thành và có kết quả nhưng trong quá trình thực hiện không tránh khỏi nhiều thiếu sót Rất mong quý thầy cô và độc giả đang xem thông cảm và góp ý để khóa luận được hoàn thiện tốt nhất.

Xin chân thành cảm ơn

Thành phố Hồ Chí Minh, Tháng 7, Năm 2024

Sinh viên thực hiện

Võ Chơn Chánh

Trang 3

MỤC LỤC

Chương 1 TONG QUAN e2:xccetreeetrreetrrertrtrrerrirrrtrtrtrrrerrrirrrrrirerre 2

BA, ca 2

1.2 Đối tượng và phạm vi nghiên cứu ccsec+eeceereeeeerrereerrrrrerrrre 2

1.3 Cac công trình nghiên cứu liên quan c-ccsc5csccs+sreerveereereeerxerrerree 3

1.4 Thách thức của bài toán -e ccscrierrrttrirttrirtkiirtriirriirriirrrirrrriirrriie 5

1.5 Hướng giải quyẾt -c-rceeccerrrreeeerrrirerrerrrrirrrrtrrirrrrrrrrrirrrrerrrree 5

Chương 2 CO’ SỞ LÝ THUYẾT -cc22:++eEtESEEEEEEEEEEEEEEtrirerrrrisetr 6

2.1 Mô tả bài toán «-+.sHHnHHHHHH HH HH 6

2.1.1 _ Nguồn gốc chủ thể (Source/Holder) -ss-+-eceerrrecerrrceet 6

2.1.2 Đối tượng (Target) vscsssssesssesesssessesssesnssesssssstsssssessessesssssssssesssssssssessasssseesst 7

2.1.3 Biểu thức cực chứa cảm xúc (Expression/Polar_Expression) 9

2.1.4 Phân loại cảm xúc dựa vào quan điểm(Polarity) -s 10

2.1.5 Bai toán nhận diện cảm xúc của đối TƯỢNG ceiekieekieriiriierree 11

2.2 Mô hình ngôn ngữ máy hỌC c ©5s<+c+eserxeeerkettrketrrrtrrirtrrirrrrrrrrree 12

2.2.1 Mô hình sentiment graph -e«-ccxxerrrrketrrrkerrrrkrrrrkrrrrrkerrrre 12

2.2.2 Word Embedding -‹s s«+cseexeerkxsterketrrkrtrrktrrktirierkerrrrree 14

2.2.3 Đánh giá -.-c-cxethhnHHHHHHHH 15

Chương 3 BO DU’ LIEU CHO BÀI TOÁN : +++ececcvverrrrrereceerrr 17

3.1 Nguồn dit liệu và thu thập -c-e-++ceeccctrrreevvrrrrrerrrrrrrrrrrrrrrre 17

E “An Co can 17

3.2.1 Quy trình gan nhãn dữ liệu s55 55<Scxeereersereersrrrrrrrree 17

3.2.2 Người gan nhãn và yêu cầu gam nhãn css cceerce 18

3.2.3 Hướng dẫn gam nhãn -cccetrrrrevevrrrrrererrrrrrrrrrrrrrree 18

Trang 4

3.3 Đánh giá đồng thuận -iiccecSEEreeEEEEEErerEEEEEiriekrtrrrirreerrrree 25

3.4 Phân tích dữ liệu c-cccxscestretrtertstrrtrtrtrrtrrtrrrrrrrirtkrrrrrrsrrrrrrkee 26

Chương 4 THU’C NGHIEM QUA MÔ HÌNH NGÔN NGỮ - 36

4.1 Mô hình ngôn ngtl wc eeesssssssecssesssesssesseessesesesssessseeseesseeseeseeesseeseeessessneeseeesseeseeesses 36

4.1.1 _ Kiến trúc mô hình -ece-+eeceerreeeerrrerertrrrrrrrrrerrrrrrerrre 36

4.1.2 Thực nghiỆm e-c«<+cxccrkexrrEkkrtrrtkrtrirtrirrrirrrrirrrirrrirrree 37

4.2 Kết quả, đánh giá phân tích -:-eccccrreeccevrrrreererrrrrrrrrrrrrrrerrre 39

4.2.1 _ Kết quả thực nghiệm :-eccecirrecevtrtrreeertrtrrrsrrrrrrereerrrrie 39

4.2.2 _ Phân tích kết quả -. -:cecccrrreeevvEtrrreervrtrrirerrtrrrirrrerrrrrre 41

4.2.3 Phân tích lỗi và đánh giá ccieierireeerreeervverrrrrrrrre 43

Chương 5 KET LUẬN VÀ HƯỚNG PHÁT TRIỂN -:-<e:zsez:ce 48

5.1 _ Kết quả, đóng góp của khóa luận -:+ceccvrrrreeevrrrrreerrrrrrree 48

5.2 Hướng phát triỂn e :-eecccriieeeeeerriirreetrriirrertrriirrerrrrrre 49

Trang 5

DANH MỤC HÌNH

Isf10108) 01017.810.277 ƠƠ 7 Hình 2.2 Minh họa Target ss-csxs the rrierhirrree 8 Hình 2.3 Minh hoa EXT€SSIOH s 5+£©SvEeEEYteEEExxtrrkxtrrkkettrrkerirrkkrrrrkkerrrrkerrrrkee 9 Hình 2.4 Minh hoa PỌATIfy -sss-csxsS kh grrrinrrieg 10

Hình 2.5 Minh họa về đồ thị -2-++cstrcceztrrertrrvtrrrrrrrrvrrrrvrrrrrrrrrerrrerre 12Hình 2.6 Đồ thị cảm xúc cau trúc head — first s-.cceseecerrreerreeerrerrre 13

Hình 2.7 Đồ thị cảm xúc cấu trúc Head — final c+iceecevvvErtrrreeevevrrrrrrree 14

Hình 3.1 Quy trình gan nhãn dữ liệu -s 55c5c+Sreexesrrrrrreerierrrrtrrerrerrkee 17

Hình 3.2 Hướng dan gam nhãn -++cc222t++evvEEEErvvvEEEttrrrvrrrrrrrrvrrrrrrrerre 22

Hình 3.3 Kết quả bộ nhãn thiếu Source c +ccssreeeeetreeeerreeverrrererrrrrere 23Hình 3.4 Kết quả bộ nhãn đầy đủ đa cảm xúc -e-e+-eecceerrrreeeerrrrreeere 23Hình 3.5 Kết quả bộ nhãn đa cảm xúc -+ceseeeereeeerereerreerrerrtrreerre 24Hirh 3.6 K&t 6g 0111587 24Hình 3.7 Số lượng dữ liệu từng tp sssssessssssessssnessssesesesssessssseesssnsessssessasssesnsseessnseessset 28Hình 3.8 Thống kê thực thé độc lập trên các tập đữ liệu - 29Hình 3.9 Thống kê số lượng cảm xúc phân cực trên các tập dữ liệu 30

Hình 3.10 Wordcloud của Source/ TaT€( sc-cssestktetrrkxerrrrktrrrkrrtrrkerrrrkierrriree 34

Hình 3.11 Wordcloud của EXT€SSIOT -5c-55c5+SceEeEEerrttrirkrrrtrirrrirrrrrrrkerree 34

Hình 4.1 Kiến trúc mơ hình ngơn ngữ :+cccc+titreeEvEtrrrerrvrrrrrrrrrrrrrrerrre 36

Trang 6

DANH MỤC BANG

Bảng 2.1 Minh hoa output và output của bài toán e-sccssreererrrrreerrree 11 Bảng 3.1 Hướng dan gan nhãn dành cho người gắn -‹s«cccceecccxereeresee 19

Bảng 3.2 Độ đồng thuận của người gán ccs+eeceetrereerrrrrerrrrrerrre 26

Bảng 3.3 Ví dụ sự khác nhau của bộ dữ liệu UIT-VSMEC và dữ liệu được gán lại

{rong bài fOÁ « xxx HH HH HH TH KH HH HHHYHHTTHEEHkkrrrkkrrrirterrirke 27

Bang 3.4 Độ phân bồ thực thé và phân cực trên các tập dữ liệu - 29Bang 3.5 Ngữ liệu thống kê tiếng Việt trích từ bộ đữ liệu -s 30Bang 3.6 Ngữ liệu thống kê tiếng Anh trích từ tập Open-ES - 31Bang 3.7 Bảng thống kê về khuyết chủ thé hoặc đối tượng - - 33Bảng 4.1 Giá trị thông số Graph từ Kurtz et al ecereecerreecerrrecerrrreere 38Bảng 4.2 Kết quả thực nghiệm (đo theo đơn vị %) -ecesxecceerreecerreeeet 39Bang 4.3 Ví dụ dự đoán lệch thực thé và thiếu thực thẻ -.ccs 44Bảng 4.4 Ví dụ dự đoán nhằm thực thé Source và Target ăàĂeiiiiree 45Bang 4.5 Vi dụ về dat sai gốc (root) và nhầm lẫn giữa các cảm xúc 46

Trang 7

TOM TAT KHÓA LUẬN

Nghiên cứu này hướng đến nhận diện cảm xúc cho đối tượng là xác định đối tượng

và nhận điện được mối liên hệ cảm xúc của đối tượng trong bình luận nhằm pháthiện những tác nhân nguồn gốc hay sự việc gây tác động đến cảm xúc của đốitượng Nghiên cứu này tập trung vào phân tích những mối quan hệ “nguồn gốc tạo

ra cảm xúc — đối tượng bị tác động đến cảm xúc” Do nghiên cứu nay rat quan trọngtrong việc phân tích cảm xúc người dùng mạng xã hội nhằm mục đích đánh giá tạogiá trị đữ liệu vàng cho doanh nghiệp phát triển

Nghiên cứu nay đã giải quyết được van dé dữ liệu phục vụ cho nghiên cứu tiếngViệt được gán bởi các người chú thích có đủ kiến thức về Tiếng Việt và khả năngđọc hiểu ngôn ngữ mang xã hội Ngoài ra, nghiên cứu còn mở rộng được van đề

mối quan hệ giữa chủ thể nguồn (Source) và đối tượng (Target) khi tăng lượng kết

nối lên đa quan hệ (nSource — nTarget) và giải quyết được mối liên kết đa quan hệ

chứ không còn là mỗi quan hệ đơn, bên cạnh đó còn mở rộng ra đa cảm xúc chứ

không chỉ là cảm xúc chung như truyền thống

Quá trình và nội dung nghiên cứu chính: Thu thập dữ liệu (UIT-VSMEC và dữ liệu

mang xã hội) và tạo lập hướng dan gan nhãn dir liệu (Anotation Guideline) Sau đó

tính đồng thuận, gán nhãn, kiểm chứng chéo Sau khi hoàn thành tập dữ liệu thì tiễnhành chia dữ liệu liệu thành ba tập: Train — Test — Valid Rồi tiến hành phân tích so

bộ trên các tập dữ liệu để so sánh tìm những điểm tương đồng hoặc khác nhau sovới bộ dữ liệu tiếng Anh Từ đó huấn luyện mô hình ngôn ngữ phù hợp và tinhchỉnh mô hình Kết quả tốt đạt được khi chạy mô hình VisoBERT và CafeBERT

Trang 8

Chương 1 TONG QUAN

1.1 Dat van dé

Mô hình ngôn ngữ phat triển đến ngày hôm nay đã có sự phát triển vượt bậc khi ra

đời nhiều mô hình ngôn ngữ lớn xử lí đa tác vụ Nhưng tiếng Việt vẫn còn nhiều

hạn chế, chưa khai phá hết vì tiếng Việt nhiều tiếng lóng và ý nghĩa cảm xúc ngữđiệu khác nhau Việc phát hiện vấn đề cảm xúc trong bình luận không còn xa lạ với

mô hình ngôn ngữ lớn, tuy nhiên mô hình ngôn ngữ lớn vẫn còn hạn chế trong việcphân tích cảm xúc theo đối tượng trong câu [1] [2]

Nhận dạng cảm xúc theo đối tượng là vấn đề liên quan đến phân tích bình luận đa

cảm xúc trong một câu hoặc nhiều câu Vấn đề phát hiện ra nhiều thực thê đốitượng và các mối quan hệ cảm xúc giữa các đối tượng trong cùng một câu nói củangười bình luận trong phi ngữ cảnh khá phức tạp và cần phương pháp điều chỉnhphù hợp dé có thé cải thiện được hiệu suất của dit liệu Do đó trong nghiên cứu này

đã sử dụng biểu thức đồ thị phụ thuộc giữa các đối tượng trong cùng một bộ cấu

trúc để tăng chính xác nhờ vào các mô hình ngôn ngữ nhúng vào ngữ cảnh để tăng

cường độ hiệu quả.

Nhận dạng cảm xúc theo đối tượng không chỉ là tìm hiểu xem cảm xúc của từng đối

tượng mà còn xem nguồn góc chủ thê bày tỏ và việc kết nối những cảm xúc với chủ

thé hay kết nối cảm xúc đến đối tượng sẽ tạo nên một mối quan hệ ý kiến giúp cho

việc khai thác ý kiên quan điêm người dùng mạng xã hội chính xác và có giá trị.

1.2 Đối tượng và phạm vi nghiên cứu

Xây dựng bộ dữ liệu phân tích cảm xúc của bình luận theo cấu trúc cho tiếng Việt.Đánh giá đồng thuận và điều chỉnh hướng dẫn gán nhãn cho phù hợp với người gán

Dữ liệu được tái sử dụng va gan nhãn lại toàn bộ từ bộ dữ liệu UIT-VSMEC Bên

cạnh đó thu thập dữ liệu từ trang mạng xã hội Facebook và Youtube.

Trang 9

Mô hình nghiên cứu: Thực nghiệm trên mô hình BERT, PhoBERT, XLM-R, VIsoBERT, CafeBERT So sánh và đánh giá độ chính xác, tìm nguyên nhân gây sai khi dự đoán và tinh chỉnh mô hình.

1.3 Các công trình nghiên cứu liên quan

Phân tích cảm xúc có cấu trúc bao gồm các tác vụ trích xuất biểu thức của cảm xúc,trích xuất đối tượng cảm xúc, trích xuất nguồn gốc cảm xúc, xác định mối quan hệgiữa các yếu tố, phân loại cảm xúc

Các nghiên cứu quốc tế:

Structured Sentiment Analysis as Dependency Graph Parsing [1]: trước đây đã

giải quyết bài toán phân tích cảm xúc theo biểu đồ phụ thuộc bang các ngôn ngữ

chính là tiếng Anh (DS_ Unit, MPQA) , tiếng Na Uy (NoReCFine), tiếng Catalan(MutilBookedCA), tiếng Basque (MultiBookedEU) Nghiên cứu cũng chỉ ra rằng sửdụng biểu đồ cảm xúc giúp xác định được mối quan hệ giữa các thành phần thực thể

và dễ dàng phân loại cảm xúc, rất phù hợp với bài toán nhận diện cảm xúc theo thựcthể

Structured Sentiment Analysis [2]: Trước đó đã giải quyết tương tự được van déphân tích cảm xúc theo đồ thị phụ thuộc bằng 6 ngôn ngữ là ngôn ngữ tiếng Anh(DS_Unit, MPQA, OpeNER_EU), tiếng Tây Ban Nha (OpeNER_ES), tiếng Na Uy

(NoReCFine), tiếng Catalan (MutilBookedCA), tiếng Basque (MultiBookedEU).

Nghiên cứu chủ yếu sử dung nhiều ngôn ngữ dé tạo nên tinh đặc trưng từng bộ ngônngữ và tim ra mô hình tốt nhất dé chạy trên mô hình đa ngôn ngữ từ nhiều đội thi,

từ nghiên cứu này có thê cải thiện hiệu suât mô hình từ nhiêu baseline khác nhau.

A Fine-grained Sentiment Dataset for Norwegian [3]: Nghiên cứu nay là phat

triển bộ đữ liệu phân loại tinh cảm chi tiết bằng tiếng Na Uy và được chú thích bằng

các biểu thức cảm xúc, đối tượng, chủ thể và phân loại cảm xúc Nguồn dữ liệuđược lấy từ các đánh giá từ các tin tức trên nhiều lĩnh vực khác nhau như trò chơi,

âm nhạc, văn học, phim ảnh, Nghiên cứu nảy cung câp chú thích gán nhãn và báo

Trang 10

cáo các thử nghiệm trên tập dir liệu làm tiên đê cho các dữ liệu nghiên cứu sau nay Nghiên cứu này tương tự với nghiên cứu trong Khóa luận này vì vậy có kê thừa một

phan về chi tiết xây dựng chú thích gan nhãn.

MultiBooked: A Corpus of Basque and Catalan Hotel Reviews Annotated for

Aspect-level Sentiment Classification [4]: Đây là nghiên cứu về xây dựng dt liệuphân loại khía cạnh cảm xúc được xây dựng bằng 2 ngôn ngữ là tiếng Basque vàCatalan Nghiên cứu cung cấp những chú thích và cách tính đồng thuận chỉ tiết giúpcho các bộ dữ liệu khác có thể kế thừa và xây dựng phục vụ cho nghiên cứu tìnhcảm chỉ tiết Nghiên cứu này cũng chú thích các cảm xúc, đối tượng và chủ thé, do

đó có thé xem nghiên cứu nay là nên tang cho việc nghiên cứu hướng dẫn gan nhãn.

Các nghiên cứu trong nước:

Emotion recognition for vietnamese social media text [5]: Nghiên cứu này đã

giải quyết vẫn đề phân loại cảm xúc ở các bình luận mạng xã hội đã mang hiệu quả

và độ chính xác khá cao ở bộ đữ liệu UIT-VSMEC Nghiên cứu này cung cấp các

tác vụ xử lí cho bài toán phân loại cảm xúc với độ chính xác khá cao Bên cạnh đó

còn cung cấp hướng dẫn quy trình gán nhãn chỉ tiết, phù hợp để nghiên cứu cho quá

trình gán nhãn.

Span Detection for Aspect-Based Sentiment Analysis in Vietnamese [6]: Trong

bai toán này tập trung vào việc nhận diện các đoạn văn ban tương ứng với các khía

cạnh cụ thể và phân loại cảm xúc liên quan Dữ liệu thường là các đánh giá sảnphẩm, dịch vụ từ người dùng Bai toán giải quyết việc xác định chính xác các khíacạnh và cảm xúc trong văn bản, giúp hiểu rõ hơn ý kiến của người dùng Bài toáncung cấp hướng dẫn gan nhãn và các quy trình gan nhãn chi tiết, phù hợp dé nghiên

cứu cho bài toán nhận diện cảm xúc.

A corpus for aspect-based sentiment analysis in Vietnamese [7]: Bài toán nay

tập trung vào việc thu thập va gán nhãn các đánh giá sản phẩm, dich vụ từ ngườidùng Bộ dữ liệu được thu thập từ các bình luận, đánh giá trên các nên tảng thương

mại điện tử, mạng xã hội Bài toán giải quyêt việc tạo ra một bộ dữ liệu chuân hóa,

Trang 11

có nhãn cho các khía cạnh và cảm xúc, hỗ trợ huấn luyện và đánh giá mô hình Van

đê còn chưa giải quyét là sự thiêu đa dạng và phong phú của dữ liệu, cùng với việc

đảm bảo tính nhất quán và độ chính xác trong quá trình gán nhãn.

Nhưng các nghiên cứu trong nước chưa giải quyêt được vân dé cảm xúc của đôi

tượng và các môi liên hệ giữa các đôi tượng trong câu, cũng chưa chỉ ra được các

quan điểm đa ý kiến cảm xúc theo (Source, Target, Expression, Polarity)

Nên cân một nghiên cứu đê làm rõ nhận dạng cảm xúc và phân loại cảm xúc của đôi

tượng dé tìm ra được nhiều ý kiến quan điểm dé đánh giá bình luận

1.4 Thách thức của bài toán

Hiện tai van chưa có bộ dữ liệu vê cảm xúc chi tiét như các bộ ở nghiên cứu quôc tê

đê nghiên cứu cảm xúc theo mục tiêu nên cân xây dựng bộ dữ liệu cảm xúc chi tiệt

gôm các đôi tượng Source, Target, Expression, Polarity dựa trên các nghiên cứu

quốc tế liên quan dé phục vụ cho cộng dong

Ngoài ra việc phân tích cảm xúc chỉ tiết như vậy cần có phương pháp phù hợp, môhình ngôn ngữ truyền thong bình thường không thé biểu diễn đầy đủ các yếu tố chitiết như các bài toán

1.5 Hướng giải quyết

Trong Khóa luận này đã sử dụng UIT-VSMEC và gán nhãn lại từ đầu theo hướngdẫn gán nhãn Đồng thời thu thập thêm các bình luận ý kiến đánh giá trên Facebook

dé làm tăng sự đa dạng phong phú cho dữ liệu tiếng Việt

Việc biểu diễn mô hình khá phức tạp khi phải biểu các thực thé và mối liên hệ theothực thé dé tạo ra các biểu đồ cảm xúc chứa đối tượng/chủ thể cần phải sử dụng đồ

thị cảm xúc (Sentiment Graph).

Đê hiêu rõ hơn về các yêu câu bài toán chương sau trong Khóa luận sẽ giải thích rõ.

Trang 12

Chương2 CƠ SỞ LÝ THUYET

2.1 Mô tả bài toán

Bài toán nhận điện cảm xúc của đối tượng dựa trên bình luận mạng xã hội là bàitoán phân loại cảm xúc nhờ vào các liên kết giữa các chủ thê và đối tượng bên trongcâu được liên kết với nhau tạo thành nhiều bộ ý nghĩa mang nhiều cảm xúc khác

nhau Bài toán được mở rộng va kết hợp từ nhiều bài toán như nhận diện thực thé

(name entities detection), phân loại cam xúc (sentiment analysis).

Trong bai toán này các thực thể được nhắc đến là chủ thể bình luận(Holder/Source), đối tượng bị tác động bởi ý kiến (Target), cảm xúc bày tỏ bởi ý

kiến chủ thể (Expression) Ngoài ra việc phân loạ cảm xúc

(Polarity/Polar_ Expression) dé tạo lập mối quan hệ liên kết giữa các thực thể thànhmột bộ ý kiến (S, T, E, P)

Cu thé các chức năng từng thực thể và mối quan hệ sẽ được làm rõ ở phần sau.

2.1.1 Nguồn gốc chủ thé (Source/Holder)

Holder/Source được định nghĩa theo Jindal và Liu là nguồn gốc chủ thể bình luận

hoặc nguôn gôc chủ thê ý kiên, quan điềm, cảm xúc [8].

Chủ thể nguồn sốc bình luận/ ý kiến trong bình luận mạng xã hội thường ít được thểhiện rõ ràng hoặc xuất hiện trong bình luận, nên thường các ý kiến quan điểm đánhgiá hay bày tỏ cảm xúc thường được ngầm định là của tac giả nếu như không tồn taitường minh Mặc dù vậy khi chủ thé nguồn gốc ấy tồn tại thì thường tồn tại ở dangđại từ (pronoun) và cũng có thé được diễn đạt với dang danh từ (noun) hay tên riêngcủa tác giả Bên cạnh đó chủ thể còn tổn tại ở dạng khác như đại từ sở hữu, danh từ

sở hữu, chỉ từ,

Dé hiểu rõ hơn nguồn gốc chủ thé thì ví dụ sau giúp ta có cái nhìn tong quan hơn:

Trang 13

xX Yiu iB H ¿£ ñ

Ua, ăn chay, ăn trứng không trống, các món ko giết hại van day đủ dinh dưỡng mà Thịt

nhân tạo cũng là một lựa chọn trong tương lai An để sống và cống hiến chứ không phải

sống để ăn, nên ăn sao vừa đủ dinh dưỡng vừa tránh sự giết hai là on.

Tui cũng đã từng như thế Quê quá sSource

Hình 2.1 Minh họa Source

- “Ua, ăn chay, ăn trứng không trống các món ko giết hại van đầy đủ dinh

dưỡng mà Thịt nhân tạo cũng là một lựa chọn trong tương lai Ăn dé sống vacống hiến chứ không phải sống để ăn, nên ăn sao vừa đủ dinh dưỡng vừatránh sự giết hại là ôn.”

Source ở câu này đã ngầm định là tác giả bình luận

- “Tui cũng đã từng như thé Quê quá”

Source là “Tui”, vì câu này đã tường minh nhận định chủ thể là “Tui”

Trong bài toán này các dữ liệu bình luận cũng sẽ tương tự như vậy đều có chủ thểtường minh và chủ thê ngầm định Điều này khá khó khăn cho việc gán nhãn dữliệu nhưng sẽ tạo thách thức cho bài toán cần giải quyết

2.1.2 Đối tượng (Target)

Target được định nghĩa theo Jindal và Liu là mục tiêu, đối tượng bị các ý kiến đánh

giá, bay tỏ quan điểm [8]

Đối tượng bị bày tỏ quan điểm trên mạng xã hội thường được xuất hiện nhiều trongcác bình luận, đối tượng không chỉ là cá nhân con người mà đối tượng là cụm từ chỉcho các sự vật hiện tượng Dĩ nhiên trong bình luận mạng xã hội không chỉ ton tại

một đuôi tượng duy nhât mà có thê có nhiêu đôi tượng cùng tôn tại và có thê được

Trang 14

đánh giá nhiều quan điểm khác nhau cho từng đối tượng Một một số ít trường hợp

đối tượng được nói đến là tác giả Đối tượng thường được nhắc đến có thể mang

danh từ chung hoặc danh từ riêng tùy thuộc vào bình luận.

Đề hiểu rõ hơn cụ thé đối tượng thì ví du sau giúp ta có cái nhìn tổng quan hon:

Hinh 2.2 Minh hoa Target

- “dé rồi có nhiều tình yêu không phân biệt tudi tác”

Target ở đây là tuổi tác và tình yêu Vì câu này đang chọn mục tiêu trừutượng dé bày tỏ quan điểm là tình yêu và tuôi tác

- “cai giá của đồng tiền”

Target ở đây là đồng tiền Vì đồng tiền đang là sự vật đang được nhắcđến

- _ “nhân văn quá sếp”

Target là sếp Vì sếp là chỉ về danh từ người đang được tác giả bày tỏquan điểm

Trong bài toán này dữ liệu trên mạng xã hội Việt Nam được thu thập sẽ đa dang

phong phú hơn về Target vì không chỉ là những cụm từ đơn lẻ mà có thể mang luôn

cả cụm từ, cụm danh từ, cụm danh từ quan hệ sở hữu bao gồm các sự vật, hiện

tượng và con người.

Trang 15

2.1.3 Biểu thức cực chứa cảm xúc (Expression/Polar_Expression)

Expression/Polar_ Expression được định nghĩa theo Jindal và Liu là bay tỏ quan

điểm (được gọi là biểu thức cực) góp phan tạo nên tinh chất quan điểm đánh giá [8]

Trong bình luận mạng xã hội biểu thức cực được mô tả bởi các đánh giá phản anh

của người bình luận Biểu thức cực thường là một khoảng cách cụm từ lớn chứathông tin, cảm xúc, đánh giá, cũng có thể chứa cả những thông tin không liên quan

nhưng có mối quan hệ chặt chẽ không thể tách rời Cho nên biểu thức cực phải

mang tính chất của những sự vật hiện tượng con người vì thế thường là tính từ hoặc

động từ cũng có thé kèm theo danh từ Ngoài ra nhờ vào biểu thức cực này mới có

thê phân loại được cảm xúc của bình luận theo mục tiêu là tích cực hay tiêu cực.

Đê hiêu rõ hơn cụ thê biêu thức cực thì ví dụ sau giúp ta có cái nhìn tông quan hơn:

xY :! mm H ¿ ñ es

Quá Hay! Qu: là một vide 6 cùng cảm động, v ý nghĩa, đ

sExpression °Expression °Ex ì

lâu lam roi tôi chưa được thay một stat ang đâm tính in va

pression

éna

Hinh 2.3 Minh hoa Expression

Câu “Quá Hay! Quả thật là một video vô cùng cam động, vô cùng ý

nghĩa, đã lâu lắm rồi tôi chưa được thấy một status mang đậm tính nhânvăn như thế này” có bốn Expression cụ thể là:

Expression là “Quá Hay!” vì đây là một câu khen ngợi của bình luận Ngoài ra còn có “vô cùng cảm động”, “vô cùng ý nghĩa” đây là 2 cụm

mang tính chất khen ngợi nếu chỉ tách ra cụm từ chỉ tính chất “cảm động

— ý nghĩa” thì nó chưa đủ mô tả hết nội dung và lời tác giả bình luận

Trang 16

muốn thé hiện Cụm tính từ “mang đậm tính nhân văn như thế này” phía

sau cũng mô tả rất chỉ tiết và bộc lộ quan điểm rõ ràng

Trong bài toán này khi thu thập dir liệu Khóa luận này cũng chú ý đến việc thu thậptoàn bộ câu mang nhiều sự bày tỏ quan điểm như thế này để giúp tăng cường sự

phong phú và đa dạng cho nhãn gán.

2.1.4 Phan loại cảm xúc dựa vào quan điểm(Polarity)

Polarity được định nghĩa là khả năng phân cực là phân loại bình luận theo hướng tích cực (Positive), tiêu cực (Negative) hoặc trung tính là Neutral [8].

Trong nghiên cứu này bình luận không chỉ phân cực về tích cực, tiêu cực hay trungtinh, mà sẽ phân cực theo quan điểm của biểu thức phân cực (polar_expression) vàmối liên hệ đến đối tượng (target), do đó bài toán sẽ trở nên thách thức hơn

Vi dụ minh họa sau đây cho phân loại cảm xúc giúp ta dé nhìn thấy tổng quan hon:

Hình 2.4 Minh họa Polarity

Câu “nói chuyện như vậy bảo sao đất nước không phát triển” có 2 sự bộc lộ

về quan điểm đầu “nói chuyện như vậy” là sự bộc lộ chưa rõ ràng, chưa rõtác giả muốn bày tỏ quan điểm tích cực hay tiêu cực Quan điểm sau “khôngphát triển” là sự bày tỏ khá tiêu cực khi đối tượng được bài tỏ ở đây là “đất

nước”, vì vậy sẽ xêp vào nghĩa tiêu cực.

10

Trang 17

2.1.5 Bai toán nhận diện cảm xúc của đôi tượng

Input: Di liệu bình luận tiếng Việt từ nền tảng Facebook va Youtube Các bình luận

mạng cảm xúc khác nhau và mang các câu trúc khác nhau.

Ouput: Các biểu thức quan hệ đã phân loại cực cảm xúc gồm nhiều bộ {{“Holder”,

“Target”, “Expression”, “Polarity”}}.

Vi dụ minh họa input va output:

Bang 2.1 Minh hoa output va output cua bai toan Input: Comment Output: { “Holder”, “Target”, “Expression”, “Polarity”}

{ “Tôi”, “anh”, “chưa từng gặp”, “Neutral”}

{ “Tôi”, “anh”, “vừa ăn cướp vừa la làng 32 c€

, NegatIve”}

` “” “Tm coi”, “Neutral”}

{“tu, *°? “bực bội”, “Negative”}

Mục tiêu của bài toán này là cô găng tìm ra các bộ biêu thức có môi quan hệ giữa

các thực thê (h, t, e) sau đó phân cực cảm xúc (p) đê tạo ra các bộ ý kiên riêng biệt

mang ngữ nghĩa khác nhau trong câu Tuy nhiên việc hướng đên đôi tượng của biêu

thức phân cực sẽ khá phức tạp khi có thê tồn tại ra nhiều mối quan hệ {nE/nP-nT}

Tương tự việc liên kết với đối tượng, chủ thé cũng có thé bày tỏ ra nhiều biểu thứcphân cực, và mối quan hệ được xác lập sẽ tồn tại dạng này {nH-nE/nP} Khi đóbiểu thức sẽ trở nên phức tạp tạo thành nhiều bộ quan hệ {nH-{(nE/P-nT)}}, đây làdạng thách thức khó nhất của bài toán ở dạng đầy đủ, và cũng cần có phương pháp

11

Trang 18

điều chỉnh phù hợp mới có thể biểu đạt hết được nhiều ý kiến quan điểm của của

bình luận.

Dé khai thác được những yếu tố trên ta cần mô hình ngôn ngữ phù hợp và cách xử líphù hop, phần tiếp theo sau sẽ giải quyết van dé này

2.2 Mô hình ngôn ngữ máy học

Đề giải quyết bài toán trên một cách tự động cần mô hình ngôn ngữ có thé biểu thị

được mối quan hệ giữa các node và có thể truy xuất với độ chính xác tốt nên sửdụng đồ thị phân loại cảm xúc (sentiment graph) là giải pháp tốt nhất

Ngoài ra khi biểu diễn ý nghĩa thì việc biểu diễn mã hóa hai chiều từ các mô hình

BERT để giúp bài toán dễ xử lí trở nên đỡ phức tạp hơn.

2.2.1 M6 hình sentiment graph

Đồ thị cam xúc là đồ thị có hướng, gồm một tập hợp các nút được gán nhãn và một

tập hợp các cạnh không nhãn kết nối các cặp nút (node) Các nút trong đồ thị cảm xúc có thể trải dài qua nhiều token và có thể có nhiều cạnh vào Các đồ thị này có

thé có nhiều điểm bắt đầu (root), không nhất thiết phải kết nối hoàn toàn, và khôngphải mỗi token đều là một nút trong đồ thị Các biểu thức cảm xúc

(Polar_expression) của câu tương ứng với các gốc của đồ thị, từ gốc này sẽ kết nối

với các chủ thé (Holder) và đối tượng (Target) (Hình minh họa 2.5)

Tao thay E phim | có cái gi hay ho dau ma xem

Hình 2.5 Minh hoa về đồ thị

12

Trang 19

Ap dụng thuật toán đồ thị của Dozat và Manning [8] trong đồ thị này, các nút tươngứng một — một với các token của chuỗi và theo thứ tự tuyến tính Các cạnh được vẽ

như các cung trong nửa mặt phang phía trên câu, kết nối các đầu (head) với các phụ

thuộc (dependents) Đồ thị có thể có nhiều gốc và các nút có thể có nhiều hoặc

không có cung vào.

Dựa vào kha năng biểu diễn khác nhau, tùy thuộc vào việc chon dau của các token

riêng lẻ trong các đoạn biêu thức cảm xúc - chủ thê - đôi tượng Có hai cách biêu

diễn đơn giản được đề xuất là: head-first và head-final

- Head-first: Chọn token đầu tiên của biểu thức cảm xúc làm nút gốc, và tương

tự, chọn token đầu tiên trong mỗi đoạn chủ thể và mục tiêu làm “đầu” của đoạn

đó, với tất cả các token khác trong đoạn đó làm phụ thuộc Các nhãn chỉ đơngiản biểu thị loại quan hệ (mục tiêu/chủ thể) và đối với các biểu thức cảm xúc,

mã hóa thêm độ cực (Ví dụ mình họa hình 2.6)

- Head-final: Chon token cuối cùng của biểu thức cảm xúc làm nút gốc, và tương

tự, chọn token cuối cùng trong mỗi đoạn chủ thể và mục tiêu làm “đầu” của

đoạn đó, với tất cả các token khác trong đoạn đó làm phụ thuộc Các nhãn chỉđơn giản biểu thị loại quan hệ (mục tiêu/chủ thé) và đối với các biéu thức cảm

xúc, mã hóa thêm độ cực (Vi dụ minh họa hình 2.7).

13

Trang 20

Source Target exp: Neg

Dé biểu dién token bằng các embedding ngữ cảnh hóa nên trong nghiên cứu nay đã

sử dụng bộ multilingual-BERT [10] nhằm tăng hiệu suất cho mô hình ngôn ngữ, vì đây là mô hình được huấn luyện bởi 104 ngôn ngữ bao gồm tiếng Việt Mô hình

này vừa thích hợp cho việc xử lí đa ngôn ngữ ké cả mô hình đơn ngữ Nhưng dékiểm chứng hiệu suất trong Khóa luận này còn sử dụng lại XLM-R [11] là một môhình được phat triển từ RoBERTa, được thiết kế ra để xử lí trên nhiều ngôn ngữtrong đó có tiếng Việt

Dé dễ dàng cho việc huấn luyện trên dữ liệu tiếng Việt và tinh chỉnh trong nghiên

cứu nay sử dụng các phiên bản BERT [12] khác là PhoBERT [13], VisoBERT [14],

CafeBERT [15] nhằm đánh giá hiệu suất dé chọn ra mô hình phù hợp nhất với bài

toán.

Ngoài ra chuyên đổi các từ trong ngôn ngữ tự nhiên thành các vector số có chiều cóđịnh, giúp các mô hình máy học xử lý và hiểu ngôn ngữ tự nhiên Các vector này có

đặc điểm là các từ có ngữ nghĩa tương tự sẽ có các vector gần nhau trong không

gian vector Vì vậy mỗi token được biểu diễn bởi các BERTTology [16] (gọi chung

của các mô hình BERT), POS Tag Embedding (Biéu diễn nhãn của từ loại), LemmaEmbedding (Biểu diễn gốc của từ), Character Embedding (biểu diễn các ký tự cấu

thành từ, được tạo bởi một LSTM dựa trên ký tự).

14

Trang 21

F1-S F1)=2 PXcore(F1) = P+R

Dé đánh giá và xếp hang các mô hình dựa trên khả năng nắm bắt mối quan hệ giữa

tất cả các yếu tố được dự đoán, bài toán này đã sử dụng các độ đo F1 cho 4 thành

phân sau:

Token-F1 {Holders, Targets, Exressions} đánh giá khả năng của mô hình trong

việc xác định các thành phần của đồ thị cảm xúc ở mức độ token F1-Score ở mức

độ token cung cấp cái nhìn chỉ tiết về hiệu suất của mô hình đối với từng thành phầnriêng lẻ như chủ thé (holder), đối tượng (target), và biéu thức (expression)

Trong trường hợp tính nhãn cua Token F1 thì TP, FP, FN sẽ có quy ước riêng:

e True Positives (TP): Số lượng nhãn đúng được dự đoán chính xác

e False Positives (FP): Số lượng nhãn sai được dự đoán là đúng.

e False Negatives (FN): Số lượng nhãn đúng bị bỏ sót

Targeted-F1 là một số liệu phổ biến trong phân tích cảm xúc nhắm mục tiêu, cònđược gọi là FI-I ( Day là sự kết hợp giữa việc trích xuất chính xác mục tiêu cảm

xúc và độ cực đúng Trong trường hợp Targeted-F1 thì TP, FP, FN sẽ có quy ước:

e True Positives (TP): Số lượng mục tiêu cảm xúc đúng và độ cực được dự

đoán chính xác.

e False Positives (FP): Số lượng mục tiêu sai được dự đoán là đúng

e False Negatives (FN): Số lượng mục tiêu đúng bị bỏ sót

15

Trang 22

Parsing graph metrics hay còn gọi là số liệu đồ thị phân tích cú pháp trong đó sẽ

e Non-polar Sentiment Graph F1 (NSF1): dùng đo kha năng của mô hình

trong việc năm bắt đầy đủ đồ thị cảm xúc không phân cực, dưới dạng tuple

(holder, target, expression).

¢ Sentiment Graph F1 (SF1): do kha năng của mô hình trong việc nắm bat

đầy đủ đồ thị cảm xúc phân cực, dưới dang tuple (holder, target, expression,

Trong đó:

e_ Overlap (pred, gold) là số lượng token dự đoán đúng

e Pred sé lượng token dự đoán

se Gold số lượng token thực tế

Đề giải quyết cho bài toán này trên tiếng Việt thì dữ liệu đóng vai trò quan trọng déhuấn luyện Do đó, trong chương kế của Khóa luận sẽ trình bày quá trình xây dựng,

và phân tích đặc trưng dit liệu cho tiếng Việt

16

Trang 23

Chương 3 BỘ DU LIEU CHO BÀI TOÁN

3.1 Nguồn dir liệu và thu thập

Dữ liệu được thu thập từ việc tai sử dung lại bộ dữ liệu UIT-VSMEC [5], vì bộ dtr liệu này là bộ dữ liệu nhận diện cảm xúc trên mạng xã hội gân giông với bài toán này cân xử lí Mặc dù bị lệch nhãn cảm xúc ở bộ dữ liệu gôc nhưng bộ dữ liệu được gán nhãn trong Khóa luận khi gán nhãn đã xử lí tôt ở việc tìm ra biêu thức cảm xúc theo mục tiêu chứ không đánh cảm xúc theo một phương diện như UIT-VSMEC.

Ngoài ra khi xây dựng bộ dt liệu nay còn thu thập dữ liệu trên mạng xã hội từ các

bài viết đánh giá trên Facebook và lưu trữ dưới tệp text (.txt)

Bộ dữ liệu gồm 6000 câu từ bộ UIT-VSMEC và 5010 câu từ mang xã hội được trộn

ngau nhiên với nhau.

3.2 Gán nhãn dữ liệu

3.2.1 Quy trình gan nhãn dữ liệu

‘ai liệu hướng dẫn gan nhãn

[| Hoan thanh data

Lưu trữ vào json

Hình 3.1 Quy trình gan nhãn dữ liệu

17

Trang 24

Quy trình gan nhãn sẽ được trai qua các công đoạn sau:

Bước 1: Tạo lập hướng dẫn gan nhãn dit liệu cho người gan nhãn.

Bước 2: Huan luyện ba người gan nhãn dữ liệu bằng hướng dẫn gan nhãn trong mộttuần và cho thử nghiệm gán nhãn

Bước 3: Gắn mẫu 210 câu bình luận.

Bước 4: Tính đồng thuận giữa các người gán nhãn Nếu đồng thuận dưới 0.6 quay

trở lại Bước 3 Nếu đồng thuận trên 0.6 thì tiếp tục cho gán hàng loạt

Bước 5: Sau khi gán hàng loạt cho đến xong dữ liệu thì ta bắt đầu cho kiểm chứng

chéo giữa các người gan nhãn.

Bước 6: Hoàn thành data và xuất file lưu trữ dữ liệu

3.2.2 Người gán nhãn và yêu cầu gan nhãn

Số lượng người gán nhãn: 3

Yêu câu người gan: Đọc hiêu được tiêng Việt và có sử dụng mạng xã hội thương

xuyên đặc biệt là Facebook vì để có thé hiểu được những vấn đề mới nồi

Công cụ gán nhãn: Docano chạy trên Docker.

Luu trữ dữ liệu: File JSONL và JSON.

3.2.3 Hướng dẫn gan nhãn

Như chương 2 đã trình bày về các cơ sở lý thuyết về nhãn gán Chủ thê - Đối tượng

— Biểu thức phân cực — Phân loại cảm xúc Trong chương này sẽ hướng dan gan

nhãn dựa vào các đặc trưng theo tiếng Việt.

Sau đây là bảng mô tả nhãn gan:

18

Trang 25

Bảng 3.1 Hướng dan gan nhãn dành cho người gan

Nhãn Mô tả Vi dụ minh họa

Source Nguồn gốc cmt sé bắt nguồn từ người |- Tao nói m mà m

gửi hoặc 1 trích dẫn, hoặc 1 cá nhân, tổ chăng bao giờ nghe

chức nao đó cả.

Nguồn gốc cmt sẽ “nói” về quan điểm, | Source: “Tao” (Nguốncảm xúc, hành động của 1 cá nhân đối | gốc của comment)

với đối tượng, sự vật, hiện tượng được

đề cập den - Toi đã nói với anh

Nguôn gôc cmt mang tính chủ quan của ấy là ngày mai tôi người cmt và sẽ được bộc lộ qua nhiêu không tham gia buổi

cảm xúc hình thái khác nhau x

lễ được Các khía cạnh thường bắt nguôn từ các Source: “Tôi” (Nguồn

danh từ, dai từ xưng hô và /hưởờng ở | „⁄£„ ›

gôc của comment).

ngôi thứ nhat

Ví dụ:

| = - Me tui lam cai nay

- Tôi, Tao, T, Tui, Tớ

; kì công hơn ban

- Mình `

aa ‹ nhiêu

- Bọn tao, bọn tôi, bọn mình,

„ ¬ ` Source: “Me tui”

- Chúng ta, chúng tôi, chúng minh l „

, ¬ : (Nguôn gôc của

- Cac đại từ sở hữu: Me tui, Ba tui,

` op - | comment).

Ngoài ra còn có thêm các từ xưng hô

khác tùy thuộc vào ngữ cảnh mà đối

tượng được nói tới.

Lưu ý: Source có thé có hoặc không

Target Đối tượng hướng tới sé chi 1 cá nhân, | - M làm bạn t hơi lâu

tập thể, sự vật, hiện tượng rồi đó :))

19

Trang 26

“Đôi tượng” này được “người nói”

(Source hoặc chính người bình

luận) hướng đến nhằm bày tỏ những

cảm xúc, trạng thái, ý nghĩ, tác động

đến “đối tượng”

Các đối tượng bắt nguồn từ danh từ, đại

từ nhân xưng va /hưởng ở ngôi thứ hai.

Ngoài ra còn có thêm các từ xưng hô

khác tùy thuộc vào ngữ cảnh mà đối

tượng được nói toi.

Lưu ý: Target có thể có hoặc không

Target: “M” (Đối tượng

của người comment

hướng đến)

- Anh ấy vừa mua 1

con mec nên anh ấyrất vui

Target: “Anh ấy” (Đối

tượng trong câu).

Expression Bày tỏ cảm xúc, ý nghĩ, cảm nhận, hành

động, của người comment đối với đối

tượng, sự việc nào đó.

Tính từ: Buồn, vui, giận,

Thán từ: Chao ôi, Ôi, (chỉ nhận biết

để dễ dàng gán nhãn chứ không gán

nhãn này vì nó dung 1 mình không có y

- H6m nay tôi buôn Polar_expression:

Trang 27

nghĩa cảm xúc hay cảm nhận)

Lưu ý: Expression phải có

giận” (Cảm xúc)

Polarity Miêu tả tính tiêu cực, tích cực, trung

tính trong câu nói của người cmt

Một câu có thể mang nhiều tính tích

cực va tiêu cực hoặc trung tính

Dựa theo cảm xúc (Expression) của

người comment mà ta phân loại:

Tích cực: Những bình luận mang tính

khích lệ, động viên, chia sẽ, Những

bình luận vui đùa không mang tính chất

xúc phạm, gây thù ghét, mang tính chia

rẽ hay kích động

e Luu ý: Những từ vui đùa có

chứa những từ ngữ thô tục,

nhạy cảm mang tính chất vui

đùa không xúc phạm hay tác

động đến đối tượng nào thì vẫn

có thé chấp nhận được

Tiêu cực: Những bình luận mang cảm

xúc gây xúc phạm, kích động, chia rẽ, gây thù, Những bình luận sai sự that

và dẫn dắt người đọc hiểu sai vấn đề

Những bình luận này thường chứa

những từ tục tu, thô lỗ, nhạy cảm hoặc

không chứa.

¢ Luu ý: Bao gồm những từ viết

tắt, teencode, những bình luận

mang hàm ý, ân ý,

- Trông cậu ay buôn

vậy chắc mới chia

tay với bô

Polarity: “Tiêu cực”

- Me biết mẹ buồn đó

Polarity: “Tích cực”

21

Trang 28

Trung tính: Những bình luận bình

thường.

Lưu ý: Polarity tồn tại khi

Expression tôn tại.

Cách gắn nhãn:

Ứng với mỗi câu là 1 bình luận trên mạng xã hội, mỗi người gán nhãn (annotator) gán cho mỗi câu 4 nhãn(có thể có đủ toàn bộ nhãn hoặc không chứa đủ): Source —

Target — Expression — Polarity.

Mối quan hệ (Relation) giữa các nhãn là gan 1 trong 3 mối quan hệ Positive,

Negative, Neutral (Minh họa như hình 3.2):

Polar_Expression (Relation) Positive

Source (Entity) Negative Target (Entity)

Neutral

Tức là gan mối liên kết từ Source -> Polarity sau đó gan Polarity -> Target cuối

cùng gan từ Expression -> Polarity.

Expression sẽ di chung với Polarity Nếu không có Expression thì không cóPolarity Khi nối mối quan hệ thì Ưu tiên Polarity + Expression

22

Tiêu đề	Nhận diện cảm xúc của đối tượng cho dữ liệu bình luận tiếng Việt trên mạng xã hội
Tác giả	Vừ Chơn Chánh
Người hướng dẫn	PGS.TS Nguyễn Lưu Thủy Ngân, ThS. Lưu Thanh Sơn
Trường học	Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành	Công nghệ thông tin
Thể loại	khóa luận tốt nghiệp
Năm xuất bản	2024
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	57
Dung lượng	60,21 MB

Tài liệu tham khảo	Loại	Chi tiết
[1] Almars, A., Li, X., Zhao, X., Ibrahim, I. A., Yuan, W., & Li, B. (2017).Structured sentiment analysis. In Advanced Data Mining and Applications: 13th International Conference, ADMA 2017, Singapore, November 5-6, 2017, Proceedings 13 (pp. 695-707). Springer International Publishing	Khác
[2] Barnes, J., Kurtz, R., Oepen, S., Ovrelid, L., & Velldal, E. (2021). Structured sentiment analysis as dependency graph parsing. arXiv preprint arXiv:2105.14504	Khác
[3] ỉvrelid, L., Mzhlum, P., Barnes, J., & Velldal, E. (2019). A fine-grained sentiment dataset for Norwegian. arXiv preprint arXiv:1911.12722	Khác
[4] Barnes, J., Lambert, P., & Badia, T. (2018). MultiBooked: A corpus of Basque and Catalan hotel reviews annotated for aspect-level sentiment classification. arXiv preprint arXiv: 1803.08614	Khác
[7] Nguyen, M. H., Nguyen, T. M., Van Thin, D., & Nguyen, N. L. T. (2019, October). A corpus for aspect-based sentiment analysis in Vietnamese. In 2019 11th International Conference on Knowledge and Systems Engineering (KSE) (pp. 1-5).TEEE	Khác
[9] Dozat, T., & Manning, C. D. (2018). Simpler but more accurate semantic dependency parsing. arXiv preprint arXiv:1807.01396	Khác
[10] Pires, T., Schlinger, E., & Garrette, D. (2019). How multilingual 1s multilingual BERT?. arXiv preprint arXiv:1906.01502	Khác
[11] Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzman, F., ... & Stoyanov, V. (2019). Unsupervised cross-lingual representation learning at scale. arXiv preprint arXiv:1911.02116	Khác
[12] Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805	Khác
[13] Nguyen, D. Q., & Nguyen, A. T. (2020). PhoBERT: Pre-trained language models for Vietnamese. arXiv preprint arXiv:2003.00744	Khác
[14] Nguyen, Q. N., Phan, T. C., Nguyen, D. V., & Van Nguyen, K. (2023).ViSoBERT: A pre-trained language model for Vietnamese social media text processing. arXiv preprint arXiv:2310.11166	Khác
[16] Rogers, A., Kovaleva, O., & Rumshisky, A. (2021). A primer in BERTology:What we know about how BERT works. Transactions of the Association for Computational Linguistics, 8, 842-866	Khác
[17] Flight, L., & Julious, S. A. (2015). The disagreeable behaviour of the kappa statistic. Pharmaceutical statistics, 14(1), 74-78	Khác
[18] Kurtz, R., Oepen, S., & Kuhlmann, M. (2020, July). End-to-end negation resolution as graph parsing. In Proceedings of the 16th International Conference on Parsing Technologies and the IWPT 2020 Shared Task on Parsing into EnhancedUniversal Dependencies (pp. 14-24)	Khác