Việc ứng dụng công nghệ xử lý ngôn ngữ tự nhiên không chỉ giúp phân tích và rút trích thông tin quý giá từ nguồn dữ liệu này, mà còn mở ra khả năng tạo ra các giải pháp công nghệ, chăng
Trang 1ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
Wa
NGUYEN NHU THANH
NHAN DIEN BAO HANH TRONG VAN BAN
TU SU TIENG VIET
LUAN VAN THAC SI NGANH KHOA HOC MAY TINH
MA SO: 8.48.01.01
NGƯỜI HƯỚNG DAN KHOA HOC
PGS.TS Nguyén Luu Thuy Ngan
TP HO CHÍ MINH — NAM 2024
Trang 2LỜI CAM ĐOAN
Tôi xin cam đoan:
Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn
trực tiếp của PGS TS Nguyễn Lưu Thùy Ngân
Mọi tham khảo trong luận văn đều được trích dẫn rõ ràng tên tác giả, tên côngtrình, và thời gian công bồ
Mọi sao chép không hợp lệ và vi phạm quy chế đào tạo tôi xin chịu hoàn toàn
Trang 3LỜI CẢM ƠN
Trong suốt hành trình thực hiện luận văn này, tôi đã trải qua biết bao cảm xúc
lo lắng, bat an Có những lúc tưởng chừng như bế tắc, muốn bỏ cuộc, nhưng nhờ sựgiúp đỡ nhiệt tình và động viên đến từ Cô và nhiều bạn bè đã giúp tôi vượt qua giaiđoạn khó khăn để hoàn thành luận văn này Với lòng biết ơn sâu sắc, tôi xin dànhnhững lời cảm ơn chân thành nhất đến những người đã hỗ trợ tôi trong suốt quá trìnhhoàn tất luận văn thạc sĩ này
Tôi xin được gửi lời cảm ơn đầu tiên đến PGS TS Nguyễn Lưu Thùy Ngân,
người đã không chỉ là người hướng dẫn chuyên môn, mà còn là nguồn cảm hứng với
tôi trong quá trình làm đề tài Sự nhiệt huyết và kiến thức sâu rộng của Cô là kim chỉ
nam cho tôi trong suốt quá trình nghiên cứu
Tôi cũng xin gửi lời cảm ơn đến Thạc sĩ Nguyễn Đức Vũ, người đã hỗ trợ tôirất nhiều về mặt chuyên môn và góp ý giúp tôi hoàn thiện luận văn này
Lời cảm ơn cũng không thê thiếu đến bạn bè và đồng nghiệp, những người
đã sẻ chia, hỗ trợ tôi trong từng thí nghiệm, từng khảo sát Sự góp sức của các bạn là
một phần không thé tách rời trong thành công của luận văn này
Và cuối cùng, tôi muôn gửi lời cảm ơn đặc biệt đến gia đình tôi, nguồn động
viên vô hình nhưng mạnh mẽ nhất Sự kiên nhẫn, tin tưởng và yêu thương không điều
kiện của gia đình là điểm tựa tinh thần vững chắc cho tôi trong suốt quãng thời gian
qua.
Xin chúc tất cả mọi người thật nhiều sức khỏe và gặt hái nhiều thành công
trong công việc và cuộc sông
Thành phố Hồ Chi Minh, ngày tháng năm 2024
Học viên Nguyễn Như Thanh
il
Trang 4MỤC LỤC
LOG CAM GOAN 8n 1
LOG CAM OT nh - il 0 0 5 a.aa 11 Danh mu Cac Dang 00057 e V Danh mục các hình vẽ và đồ thị, 2-22 2+2 2112212712171 re vi Chương 1 Tổng quan o cccccccsscsscssssssssssssssesssssssessessecsusssesssesssssecsusesesssecseeesees | 1.1 Động lực thực hiện đề tài ¿- 2-5522 2 2E eExerkrrer | 1.2 Mô tả đề tài chau | DBN, an ` |
1.2.2 Phạm vi nghiÊn CỨU ¿22+ 3S 3+1 *+*EE+EEseErrrrrrrrrsrrre 3 1.3 Mục tiêu đề tài che 4 1.4 Giá trị thực tiễn và ý nghĩa khoa học - - 2+2 s+£+£s+£ez+zzerxez 5 1.4.1 Giá trị thực tiễn cc-cctcriitriirrirrrirrrrrrrrrirrierreeo 5 1.4.2 Ý nghĩa khoa hoC cescsscsssesscsseesessessessesssessessessessessessesessesseesees 5 1.5 Các công trình liên quañ - c2 332218331 E332EEEEEEEErsrrererrvre 5 1.6 Đóng góp chính của luận văn - 5 5+ vn ng HH nrưy 6 1.7 Công bố khoa hỌc -:- 2+ 2252 E+EE+EE£EEE2EE2E12E12712711211211211271 21 re, 7 1.8 Cấu trúc luận văn -:-sc St x2EE12E115111155111211111111111111111 E1 Txce 7 Chương 2 Khái niệm về bạo hành và phân loại - 2-52 25s xczxerxersez 8 P.9 8
2.2.1 Bao hành vat ly (physical) - - c cv rey 9 2.2.2 Bao hành tinh dục (sexual) - 52c + scxseresreerreses 10 2.2.3 Bao hành lời nói/cảm xúc (verbal/emotional) .- 10
2.2.4 Bao hành tinh than/tam lý (mental/psychological]) 11
2.2.5 Bao hành tài chinh/kinh tế (financial/economic) 12
2.2.6 Bao hành van hóa/định danh (cultural/Identity) 13
1H
Trang 5Chương 3 Xây dựng bộ dữ liệu - - Ăn He 14
3.1 Quy trình tổng quan các bước xây dựng bộ dữ liệu - 14
3.1.1 Tìm hiểu về dé liệu hiện có và khởi tao guidelines 15
3.1.3 Huấn luyện gan nhãn và hiệu chỉnh guidelines - 17
3.1.4 Tiến hành gan nhãn và hiệu chỉnh guideline -. - 18
3.1.5 Một số quy tắc được cập nhật sau quá trình huấn luyện và gan ¡0 1 20 3.2 Phân tích bộ dữ liệu - ¿2:22 +E 2213119122321 1511E21221 E111 1 e2 21 Chương 4 Thí nghiệm và đánh giá - - Gà HH HH HH re 25 4.1 Tông quan các phương pháp sử dụng 2-2 s+cx+zxzE+zzzzserxee 25 CS Bs Dod 1X0) 5) 5) 26
4.1.2 RoBE ND SEN NT 1 511 re 27 4.1.3 XLM-ROBERT 1057 27
AV.4 BiLSTM 28
4.1.5 BILSTM kết hợp CRE s- 2-52 5 E+SE‡EE2EE2EEEEEEEEEEeEkrrered 28 4.2 Tiền xử lý dữ liệu -¿ ¿ 2-55: 252 S2 222E12E121211211211221 217121211 xe 29 4.3 Kết quả thí nghiệm và đánh giá - 2-2 s2 ++2E2Ext£EE2Exzzxerxrre 32 4.3.1 Phương pháp đánh giả 2S 2S 1323 EsvEseresresreses 32 4.3.2 Kết quả thí nghiệm 22-2: ©2222x2EE22E222E2EEEEEerkrrrree 33 4.3.3 Phân tích mẫu kết quả dự đoán 2-©52+cz+cz+csrxze 36 Chương 5: Kết luận và hướng phát triỂn 2 s+S<+S£Ee+EeEeExeExrrerrees 40 nh {nan 40 5.2 Hướng phát triỀn 2-2: ++2+22Ext2EE£2E2212112711221211271221 21.22 re 40
Tài liệu tham khảo - - - - LH ng HH nh TH Hà HH ch nh Hưng 42
Phụ lục A Công bố khoa học 2-52 2SESEEEEEEE2E12E12E1271 212121 ectxee 48 Phụ lục B Guidelines gan nhãn dữ liệu -. 5 5 S25 S*2sscssersserssses 49
IV
Trang 6DANH MỤC CÁC BANG
Bảng 1: Các loại nhãn bang tiếng Anh và ý nghĩa tương ứng ¿ cs¿ 21
Bảng 2: Độ dài trung bình của các đoạn bạo hành theo từng loại trong bộ dữ liệu 24
Bảng 3: Các mô hình thí nghiệm của đề tài - 222 2222£2EEEE22EEE122EEEeerrrrrved 26Bảng 4: Kết quả thực nghiệm cho tác vụ nhận diện bạo hành nhưng không phân loại.34Bảng 5: Kết quả thực nghiệm cho tác vụ nhận diện bạo hành va phân loại 35
Trang 7DANH MỤC HÌNH VE VA ĐỎ THỊ
Hình 1.1: Hình minh họa Input và Output bai toán -. ¿555 <s+cs+sc+sssesses 3
Hình 2.1 Định nghĩa về bạo hành theo [40] - 2-52 2 x2E+2EE££E++EeExerEeerxeez § Hình 2.2 Định nghĩa về bạo hành của tổ chức REACH [ 1] -2- 5z: § Hình 2.3 Định nghĩa về bạo hành (abuse) trong từ điển Cambrigde 9 Hình 3.1: Quy trình tổng quan xây dựng bộ đữ liệu -2- 255z+cs+cxccse2 14
Hình 3.2: Xây dựng guideline gan nhãn dữ liệu - ¿5c +22 *+++xsexsses 15
Hình 3.3: Quy trình huấn luyện gam nhãn -2- 2 52+ 2+x+2E2EE+£xzEzerxrrerred 18 Hình 3.4: Giao diện tổng quan của công cụ gan nhãn doccano - 19 Hình 3.5: Giao điện khi gan nhãn bằng công cụ doccano - -: -: z2 19 Hình 3.6: Giao diện khi gan nhãn bằng công cụ doccano -. -: 2-52 20 Hình 3.7: Biéu đồ thé hiện sự phân bồ của các loại bạo hành trên tong thé dữ liệu 22 Hình 3.8: Biểu đồ thể hiện sự phân bồ các loại bạo hành theo từng tập train, dev,
Hình 4.2: Một dự đoán của PhoBERT large cho tác vụ nhận diện đoạn bạo hành
H000601538 4010015800(7)001) 000171777 37 Hình 4.3: Một dự đoán của PhoBER Tlarge cho tác vụ nhận diện va phân loại bạo
Mi
Trang 8Chương 1 TONG QUAN
1.1 Động lực thực hiện đề tai
Trong thời đại số hóa thông tin hiện nay, dữ liệu văn ban từ các chuyên mục
tâm sự trên báo điện tử và mạng xã hội không chỉ phong phú về số lượng mà còn đa
dạng về nội dung, phản ánh trực tiếp các van dé tâm ly và xã hội đang diễn ra Việc
ứng dụng công nghệ xử lý ngôn ngữ tự nhiên không chỉ giúp phân tích và rút trích
thông tin quý giá từ nguồn dữ liệu này, mà còn mở ra khả năng tạo ra các giải pháp
công nghệ, chăng hạn như các chatbot tư vấn tâm lý, hệ thống hỏi đáp tự động, đóng
vai trò như những trợ lý ảo thông minh hỗ trợ tâm lý cho người dùng.
Dựa trên nền tang này, đề tai mong muốn đóng góp vào việc phát triển bộ dữliệu chuyên biệt và áp dụng một số phương pháp tiêu biểu trong lĩnh vực xử lý ngônngữ tự nhiên vào việc phân loại và phát hiện tự động các hanh vi trong văn ban tiếngViệt để đánh giá bộ dữ liệu Điều này không chỉ có ý nghĩa khoa học, mà còn gópmột phần nhỏ giúp nâng cao nhận thức xã hội về van dé bạo hành, đang là một van
đề nhức nhối và được cộng đồng quan tâm sâu sắc
Với xu hướng tăng trưởng không ngừng của ngành công nghệ thông tin và sự
quan tâm ngày càng cao đối với van đề sức khỏe tâm than trên toàn cau, đây chính là
nguồn cảm hứng và động lực cho học viên trong việc thực hiện đề tài này
1.2 Mô tả đề tài
1.2.1 Phát biểu đề tài
Khái niệm bạo hành là một khái niệm phức tap và khó Do đó, dé thống nhất va
dễ dàng trong việc xây dựng guideline, đề tài sẽ dựa theo khái niệm như sau: bạo
hành là hành vi mà một người dùng để thể hiện quyền lực và sự kiểm soát đối vớingười khác Bạo hành không chỉ giới hạn ở hình thức vật lý mà còn bao gồm nhiềuhình thức khác nhau, phản ánh qua ngôn ngữ và hành vi trong giao tiếp
Khái niệm này sẽ được đề cập chi tiết ở Chương 2 của luận văn
Về phân loại, theo [1] sẽ có 06 loại bạo hành như sau:
e Physical (vật ly).
e Sexual (tinh duc).
e Financial/Economic (tai chinh/kinh tế)
¢ Cultural/Identity (văn hóa/bản sắc)
Trang 9e Verbal/Emotional (lời ndi/cam xúc).
e Mental/Psychological (tinh than/tam ly)
Mỗi loại bao hành ké trên có đặc trưng riêng, từ cách thé hiện đến tác động lênnạn nhân Chỉ tiết về khái niệm các loại bạo hành, cách nhận diện, dấu hiện, cách xácđịnh loại bạo hành sẽ được đề cập ở những chương sau
Sau cùng, dé đánh giá bộ dit liệu, học viên cũng tiến hành chạy các thí nghiệmvới một số phương pháp tiêu biểu cho bài toán Nhận diện bạo hành trong văn bản tự
sự tiếng Việt Cụ thé input va output như sau:
e Input: văn bản tự sự tiếng Việt Bai toán yêu cầu xác định các đoạn văn bản
chứa hành vi bạo hành và phân loại chúng vào một trong các loại trên.
e Output: các đoạn trong văn bản có chứa bạo hành, cùng với phân loại bạo
hành tương ứng.
Trang 10Nhận diện bạo hành trong văn bản tự sự Tiếng Việt
lAnh bảo vợ người ta giảu có, vợ minh vô tích sự, ăn hại Anh
mua noi cái xe, bảo tôi phải mua xe để đi lại, ngoài ra các kho:
‘ciing bắt tôi gánh vác Tôi chưa kiếm được việc làm, anh bảo.
lười nhac Đến khi tôi đi làm, lại nói vợ ăn diện, đi theo các
trên công ty Chưa đóng tiền nhà trọ, anh cho rằng tôi đi theo ngư
ta dé trừ tiền trọ Tôi không như thé mà bị chồng vu oan nhiều là
‘ctr bảo tôi di với người nọ người kia Tôi cảm thấy mình khô
được tôn trọng Anh sống giả dối, không có tình cảm với tôi,
ham giàu Nếu ở hoàn cảnh của tôi, mọi người nên làm thé nào?
tôi gánh vác GinanciaVeconomic) | Tôi chưa kiếm được việc làm, anh bảo tôi lười! nhac Đến khi tôi đi làm, lại nói vợ ăn diện, đi theo các anh trên công ty Chưa đồng)
xiên nhà trọ, anh cho rằng tôi đi theo người ta đẻ trừ tiền trọ [
JƑSM.0960EEÌ lTôi cảm thấy mình không được tôn trọng
mental/psychological) | Anh séng gi déi, không có tình cảm với tôi, lại hám giàu;
u ở hoàn cảnh của tôi, mọi người nên lam thế nào?
{He said that other people's wives were rich, but his wife was!
‘useless and a loser He couldn't buy a car, so he told me to buy one!
‘for him, then forced me to bear his debts When I don’t have a joi
the concludes I'm lazy When I went to work, he told me dressing’
‘up, having an affair with other guys at my company When I haven't:
loreed me to bear his debis AAAI vn ¡ gọn, have a job, he!
yconcludes I'm lazy When I went to work, he told me dressing up, having an affair!
‘paid the rent, he assumes I'm going with someone to deduct the; ith other guys at my company When I haven't paid the rent, he assumes I'm going!
‘rent I'm not that person, but my husband has accused me many: jwith someone to deduct the rent [I'm not that person, but my husband has accused:
‘times, concluding that I have an affair with this person or that; me many times, concluding that I have an affair with this person or that person!
‘person I feel disrespected He lives a lie, has no feelings for me,' TERBIRERIHEEGI [I feel disrespected (mental/psychological) He lives a lie, has no!
‘and is greedy for wealth What should people do if they were in my; ‘feelings for me, and is greedy for wealth What should people do if they were in my!
‘situation?) i situation?)
1.2.2 Phạm vi nghiên cứu
Phạm vi của đề tài tập trung nghiên cứu cho việc phát hiện bạo hành trong các
văn bản tiếng Việt có nội dung tự sự Văn bản tự sự là các văn bản mà người viết
trình bày trải nghiệm, cảm xúc hoặc suy nghĩ của bản thân họ, thường thấy trong cácbài viết như nhật ký, tâm sự
Đề tài cụ thê sẽ tiễn hành phát hiện và phân loại bạo hành thành 06 loại khác
nhau:
e Vật lý (Physical): những hành động gây thương tích hoặc đau đớn về thê xác e@ Tinh dục (Sexual): các hành vi xâm phạm hoặc lạm dụng về mặt tình dục.
e Tài chính/Kinh tế (Financial/Economic): bạo hành thông qua việc kiểm soát
hoặc lạm dụng các nguồn lực tài chính hoặc kinh tế của người khác, hoặc hanh vi
khống chế, không cho nạn nhân đi làm, hoặc sử dụng tiền do chính mình làm ra.
e Văn hóa/Bản sắc (Cultural/Identity): Bao hành liên quan đến việc xúc phạm,
phân biệt bản sắc văn hóa hoặc danh tính cá nhân
® Lời nói/Cảm xúc (Verbal/Emotional): Bao hành thông qua việc sử dụng lờinói dé gây ton thương tinh than
e Tinh than/Tam ly (Mental/Psychological): Hanh vi gây áp luc tâm lý, như đe
doa, ham dọa hoặc làm suy yếu lòng tự trọng của người khác
Trang 111.3 Mục tiêu đề tài
Mục tiêu của đề tài này là xây dựng một bộ dữ liệu tiếng Việt chuyên biệt dùng
dé nhận diện và phân loại các hình thức bạo hành trong các văn bản tự sự bằng tiếng
Việt, làm tiền đề nhằm cung cấp sự hiểu biết sâu hơn về cách thức bạo hành được
biểu hiện trong ngôn ngữ và cách chúng ảnh hưởng đến người bị hại
e Mục tiêu 1: Hiéu được các phương pháp, cách tiếp cận tiêu biểu hiện nay cho
bài toán phát hiện tự động và phân loại các hành vi trong văn bản.
e Muc tiêu 2: Xây dựng bộ đữ liệu tiếng Việt cho bài toán và guidelines gan
nhãn dữ liệu.
e Mục tiéu 3: Dựa trên bộ đữ liệu thu thập ở mục tiêu 1, thử nghiệm va đưa ra
kết quả so sánh giữa các phương pháp
Đối với mục tiéu 1, học viên tập trung tìm hiểu các phương pháp tiên tiến
hiện nay cho bài toán phát hiện và phân loại hành vi trong văn ban Cu thể, học viên
sẽ tập trung vào việc khảo sát, phân tích một mô hình xử lý ngôn ngữ tự nhiên (NLP).
Đối với muc tiêu 2, dé xây dựng bộ dữ liệu tiếng Việt cho bài toán và hướngdẫn cách gan nhãn cho dir liệu Học viên tập trung vào việc thu thập, tổ chức một bộ
đữ liệu tiếng Việt có chứa các hành vi bạo hành, bao gồm 06 loại bạo hành khác nhau
đã đề cập Nguôn đữ liệu sẽ là từ các nguồn chính thống và công khai, sau đó phát
triển một bộ guideline bao gồm các quy tắc và chi tiết dé gan nhãn cho các loại baohành trong văn bản, đảm bảo tính chính xác và đồng nhất trong việc gán nhãn
Đối với mục tiéu 3, học viên sẽ tiến hành thực hiện thử nghiệm dé đánh giá bộ
dữ liệu đã thu thập và gán nhãn thủ công.
Tóm lại, mục tiêu của đề tài như sau:
e Xây dựng bộ dữa liệu riêng biệt cho văn bản tự sự tiếng Việt bang cáchthu thập bài viết tâm sự, tự sự trên trang báo điện tử VnExpress, và xây dựngguideline và tiến hành gán nhãn thủ công, cũng như chỉnh sửa guideline hoàn
chỉnh.
e Chạy thử nghiệm dựa trên một số mô hình baseline tiêu biểu như: PhoBERT[23], XLM-RoBERTa [30] dé đánh giá độ phức tạp bộ đữ liệu
Trang 121.4 Giá trị thực tiễn và ý nghĩa khoa học
1.4.1 Giá trị thực tiễn
Việc áp dụng xử lý ngôn ngữ tự nhiên để phát hiện và phân loại bạo hành trong
văn bản tiếng Việt sẽ hỗ trợ trong việc nhận diện các vấn đề tâm lý và xã hội, góp
phần nhỏ làm tiền đề cho việc phát triển các ứng dụng xử lý ngôn ngữ tự nhiên về tư
van tâm lý, chăm sóc sức khỏe tinh thần của con người trong xã hội Điều này khôngchỉ giúp ích cho người dùng cuối trong việc tiếp cận dịch vụ tư van tâm lý, mà còn
hỗ trợ cộng đồng và các tô chức xã hội trong việc cảnh báo, nhận diện các vấn đề liên
quan đến bạo lực và sức khỏe tâm thần
1.4.2 Ý nghĩa khoa học
Về mặt khoa học, nghiên cứu này góp phần đặt nền móng cho bài toán nhận
diện bạo hành trong các văn bản tự sự, việc này đóng góp vào cơ sở kiến thức về ứngdụng xử lý ngôn ngữ tự nhiên, mở rộng khả năng của các thuật toán, mô hình hiệndai và tăng cường hiéu biết về đặc thù ngôn ngữ cũng như văn hóa Việt Nam Ngoài
ra, việc tạo ra bộ dữ liệu và phát triên hướng dẫn gán nhãn dữ liệu sẽ là tiền đề chocác nghiên cứu tiếp theo
1.5 Các công trình liên quan
Trong những năm gần đây, việc phát hiện các ngôn ngữ và các vấn đề liênquan như lời nói xúc phạm đã thu hút sự chú ý đáng ké từ cộng đồng Xử lý Ngôn ngữ
Tự nhiên (NLP) Nghiên cứu trong lĩnh vực này chủ yếu tập trung vào một số chủ đề
cụ thê như HateSpeech [8, 26], Cyberbullying [1-3, 11], và Phân biệt giới tính/Chủngtộc [6, 16, 37] Phần lớn các công trình nghiên cứu này được thực hiện bằng tiếng
Anh hoặc các ngôn ngữ khác như tiếng Trung, tiếng Tây Ban Nha và tiếng Pháp Bêncạnh đó, đa số các tập dữ liệu cho các nhiệm vụ này được thu thập từ hai nên tảngmạng xã hội phô biến hiện nay, bao gồm Twitter [2, 8] và Facebook [11, 17] Tương
tự, trong lĩnh vực tiếng Việt, hầu hết các công trình liên quan đến lĩnh vực này cũng
chủ yếu tập trung vào Hate Speech như ViHSD [21], HSD-VLSP [36], UIT-ViCTSD
[24], và Vi-HOS [14] dựa trên các bình luận thu thập từ các nền tảng mạng xã hội.Tất cả các tập dữ liệu này đều đại diện cho các vấn đề phân loại đa lớp, ngoại trừ tập
dữ liệu SemEval-2021 Task5: Toxic Spans Detection [26] cho tiếng Anh và Vi-HOS:
Hate Speech Spans Detection [14] cho tiếng Việt, liên quan đến phân loại đa nhãn
Trang 13Phần lớn các công trình liên quan đến việc phát hiện ngôn từ xúc phạm và thù
hận đã sử dụng các mô hình học máy truyền thống như Logistic Regression dựa trên
ky tự n-gram [13], va Support Vector Machines [25] cũng như các mô hình liên quanđến mạng nơ-ron sâu kết hợp với word embeddings [4, 29, 41] Ké từ khi BERT [9]
xuất hiện, nhiều công trình đã được thực hiện dựa trên BERT [9] và các biến thé của
nó, đạt được kết quả cao trong các cuộc thi như 2019 task 6 [39],
SemEval-2020 task 12 [40], và SemEval-2021 task 5 [27] Đối với bài toán phát hiện đoạn vănđộc hai, có một số công trình bằng tiếng Anh như các nhóm tham gia SemEval-2021
Task 5: Toxic Spans Detection [26] va tập dữ liệu HateXplain [22], và ở Việt Nambao gồm ViHOS: Hate Speech Spans Detection cho tiếng Việt [14] Nhìn chung, các
công trình trên sử dụng các mô hình kết hợp dựa trên transformer và mạng nơ-ron
Đặc biệt, nhóm đạt giải cao nhất (HITSZ-HLT) trong SemEval-2021 Task 5 [39] đã
sử dụng hai hệ thống dựa trên BERT [9], trong đó một hệ thống thêm lớp Conditional
Random Field (CRF) [31], và một hệ thong khác thêm lớp LSTM [12] giữa BERT va
lop CRF Đối với tap dữ liệu HateXplain [4], họ đã thi nghiệm với nhiều mô hình
như CNN-GRU, BIRNN, BiRNN-Attention, va BERT trên tập dữ liệu của ho.
Trong VIHOS [14], họ đã sử dụng các mô hình baseline mạnh như
BiLSTM-CRF [33], XLM-RoBERTa [30], và PhoBERT [23] dé đánh giá hiệu quả của tập dữliệu của họ Các thí nghiệm của đề tài cũng sẽ dựa vào các phương pháp của bài báonày dé thực hiện
1.6 Đóng góp chính của luận văn
Các đóng góp chính của luận văn như sau:
e Xây dựng bộ dit liệu chuyên biệt bằng tiếng Việt về các hình thức bạo hành,
kèm theo guidelines về cách thức gán nhãn cho dữ liệu Bộ dữ liệu này không chỉ
phục vụ cho nghiên cứu này mà còn là nguồn tài nguyên có giá trị cho các nghiên
cứu sau nay trong lĩnh vực tương tự.
e Thí nghiệm trên bộ đữ liệu cho bài toán nhận diện bạo hành trong văn bản
tự sự tiếng Việt Từ đó rút ra những thách thức về mặt dữ liệu cho bài toán này, cũng
như các hướng cải tiễn và phát triển khác trong tương lai Từ đó, cung cấp cái nhìntổng quan cho bài toán nhận diện bạo hành trong văn bản
Trang 141.7 Công bố khoa học
Nhu-Thanh Nguyen, Khoa Thi-Kim Phan, Duc-Vu Nguyen, and Ngan
Luu-Thuy Nguyen 2023 Abusive Span Detection for Vietnamese Narrative Texts In The 12th International Symposium on Information and Communication Technology
(SOICT 2023), December 7—8, 2023, Ho Chi Minh, Vietnam ACM, New York, NY, USA, 8 pages https://doi.org/10.1145/3628797.3628921
1.8 Cầu trúc luận văn
Luận văn này được cấu trúc thành năm chương như sau:
e Chương 1: Tổng quan - Chương này giới thiệu khái quát về dé tài nghiên
cứu, bao gồm ngữ cảnh, mục đích và ý nghĩa của luận văn
e Chương 2: Khái niệm về bạo hành và phân loại - Chương này trình bày các
khái niệm về bạo hành, các định nghĩa của từng loại bạo hành
e Chương 3: Xây dựng bộ dữ liệu - Chương này tập trung vào việc phát triển
và mô tả quy trình xây dựng bộ dữ liệu được sử dụng trong nghiên cứu, cũng như
phân tích bộ dữ liệu xây được được.
e Chương 4: Thí nghiệm và đánh giá - Chương này mô tả việc thực hiện các
thử nghiệm và phương pháp sử dụng trong nghiên cứu.
e Chương 5: Kết luận và hướng phát triển - Tổng hợp kết quả nghiên cứu,
nhận định về ý nghĩa và tác động của nó Ngoài ra, chương này cũng đưa ra những
đề xuất cho các hướng nghiên cứu tiếp theo, cũng như khả năng áp dụng thực tiễn
của nghiên cứu trong tương lai.
Trang 15Chương 2 KHÁI NIEM VE BAO HANH VÀ PHAN LOẠI
Trong chương này, học viên sẽ trình bày về khái niệm bạo hành, các định nghĩa
của từng loại bạo hành.
2.1 Khái niệm
Có nhiêu khái niệm về bạo hành, ví dụ như:
Office on Violence Our Offices Find Help Contac’
Against Women (OVW)
U.S Department of Justice
Justice.gov > Office on Violence Against Women (OVW) > Focus Areas > Domestic Violence
Domestic Violence
Share
Quick Exit Cf
What Is Domestic Violence?
partner relationship This includes any behaviors that intimidate, manipulate, humiliate, isolate, frighten, terrorize, coerce, threaten, blame, hurt, injure, or wound someone.
Hinh 2.1 Dinh nghia vé bao hanh theo [40]
Tổ chức REACH [32], định nghĩa bạo hành cũng tương tự như trên:
reachma.org
6 Different Types of Abuse
by: REACH TEAM
Date: Mar 23, 2017
The commonly held definition of abuse, which we use in all of our trainings, is “a pattern of behavior used by one person to gain and
in other words, not just one incident These behaviors can take on a number of different forms Many people, when they hear the word “abuse,” think of physical violence It’s important to note that physical force is one means of power and control and it is far from the only one It’s often not the first one an abuser will use Below are six different types of abuse we discuss in our training with new volunteers or employees.
Hình 2.2 Dinh nghĩa về bạo hành của tổ chức REACH [32]
Trang 16Định nghĩa trong từ điển Cambrigde? như sau:
*s dictionary.cambridge.org
tionary Translate © Grammar Thesaurus Cambridge Dictionary +Plus ShopZ
(Definition of abuse from the Cambridge Advanced Learners Dictionary & Thesaurus © Cambridge University Press)
“abuse | AMERICAN DICTIONARY,
to treat a person or animal badly or cruelly, or to use something in the wrong way
Hình 2.3 Dinh nghĩa về bao hành (abuse) trong từ điển Cambrigde
Từ những định nghĩa trên, học viên khái quát lại định nghĩa của bạo hành như
sau: là những hành vi, lời nói, hành động được sử dụng bởi một người nhằm mục
đích giành lay hoặc duy trì quyền lực, kiểm soát đối với người khác
2.2 Phân loại bạo hành & định nghĩa
Có 6 loại bạo hành [32]: vat ly (physical), tình duc (sexual), lời nói/cảm xúc(verbal/emotional), tinh than/tam lý (mental/psychological), tài chính/kinh tế
(financial/economic), văn hóa/định danh (cutural/identity) Cụ thé sẽ được trình bày
như sau:
2.2.1 Bao hành vật ly (physical) [32,40,42]
Day là loại bạo hành mà nhiều người khi nghe đến bạo hành thường nghĩ đếnnhất Nó có thể bao gồm các tác động vật lý như: đánh, đấm, tát, đá, bóp cô, hoặc
kiềm chế một cách cưỡng bức đối với người khác Tóm lại là những tác động vật lý
bằng bất kỳ cách nào khác lên người khác trái với ý muốn của họ, với mục đích duytrì quyền lực, kiểm soát đối phương
Thường sẽ có các tình huống tương tự như sau:
! https://dictionary.cambridge.org/dictionary/english/abuse
Trang 17e Cac hành động đánh, đấm, tát, đá, bóp cô, hoặc khống chế người khác
trái với ý muốn của họ
¢ Bao gồm việc có ý/liều lĩnh lái xe gây tai nạn
e Sử dụng vũ khí dé táo|đØÚb lêm đối phương
e Hoặc hành vi cô ý khác xâm hại đên sức khoẻ, tính mạng của người khác.
Có các từ ngữ mô tả các hành động như sau:
e đánh, dam, đá, tát, bóp cô, giết, ban, hành ha, xô ngã, đau, bị thương,
sưng, bam tím, lôi cổ, kéo lê,
2.2.2 Bao hành tình dục (sexual) [2,32,40,41]
Hành động cưỡng bức, cưỡng ép ai đó về tình dục, trái với mong muốn của họ,
hoặc không có sự đồng ý của họ
Thường sẽ có các tình huống tương tự như sau:
e Quan hệ tình dục không có sự đồng thuận: một người bị ép buộc phải
quan hệ tình dục bởi người khác mà không có sự đồng ý của họ
e Hành vi quấy rồi tinh dục, cưỡng bức Ví dụ như:
o Một nhân viên bi cấp trên đụng chạm cơ thể hoặc dùng lời lẽ mang
tính chất ga gam tình dục tại nơi làm việc
o Một người bị ép buộc phải thực hiện các hành vi tình dục thông
qua đe dọa hoặc cưỡng ép.
e Lén quay phim, chụp ảnh nhạy cảm mà không có sự cho phép và dùng
những hình ảnh nhạy cảm để đe dọa nạn nhân
Các hành vi bên dưới có thể xuất hiện:
e _ Đánh đập, khống chế, vũ lực dé cưỡng ép, [rong một sỐ trường hợp,
hành vi tình dục cưỡng bức có thể đi kèm với bạo hành vật lý như đánh
đập hoặc khống chế nạn nhân dé thực hiện hành vi tình dục.
2.2.3 Bao hành lời nói/cảm xúc (verbal/emotional) [32,43]
Dùng lời nói dé làm tôn thương tinh thần, cảm xúc của người khác Thường sẽ
có các tình huống tương tự như sau: dùng lời nói dé mang chửi, si nhục, bôi nhọ danh
dự, sỉ nhục về ngoại hình, hoặc không đúng thực tế và làm ton thương đến tâm lý,
10
Trang 18tinh than nạn nhân Và có các từ thường xuất hiện: chửi bới, mắng, sỉ nhục, sỉ vả, bôi
nhọ danh dự, xúc phạm, chê bai, mia mai, soi mói, bia đặt, bêu rếu,
Một số ví dụ:
e Ví dụ 1: Một học sinh bị bạn bè liên tục chê bai về ngoại hình, gọi bang
những biệt danh xúc phạm.
Phân tích: Lời nói gây ton thương tâm lý bạn học sinh này
e Ví dụ 2: Một nhân viên bị đồng nghiệp bêu rếu và vu oan về việc ăn cắp
trong công ty, khiến anh ta bị mọi người xa lánh và tinh thần suy sup
Phân tích: Lời nói và hành động này làm tổn hại đến danh dự và tinh thần
của nhân viên.
e Vi du 3: Phụ huynh thường xuyên sỉ nhục va mia mai con minh về việc
học hành kém cỏi.
Phân tích: Lời nói này gây tôn hại tinh thần và tâm lý của đứa trẻ
2.2.4 Bao hành tinh thần/tâm lý (mental/psychological) [32,45]
Bạo hành này xảy ra khi một người thông qua một loạt các hành động, làm
suy giảm sức khỏe tinh than của người kia Bao gồm việc làm cho nạn nhân nghỉ ngờ
về sự tỉnh táo của chính mình Bao gồm chủ yếu là các hành vi được sử dụng dé kiêm
soát, cô lập hoặc làm nạn nhân sợ hãi Thường thì người bạo hành sử dụng nó dé pha
vỡ lòng tự trọng va gia tri ban thân của nạn nhân nhằm tạo ra sự phụ thuộc tâm lý vào
họ Thường có các tình huống tương tự như sau:
e Nạn nhân luôn bị kiểm soát, điều khiển tâm ly bởi kẻ bạo hành Vi du:
Chồng luôn theo đõi, kiểm soát mọi hoạt động của vợ, từ việc ra ngoài,nói chuyện với ai đến cách ăn mặc
e BỊ coi thường, mia mai ước mơ Ví dụ: Một đứa trẻ luôn bị cha mẹ xem
thường ước mơ của mình, dù nó đạt được nhiều thành tích trong học tập
nhưng vẫn không được công nhận.
e Bị đánh giá thấp năng lực, bi cho rằng không đủ khả năng và năng lực
chồng đánh giá thấp, cho rằng cô không đủ khả năng để làm việc hay đưa
ra quyết định cho cuộc sông của mình.
11
Trang 19e Bị tiết lộ và chia sẻ thông tin hoặc những bí mật của riêng cho nhiều
người khác, mặc dù chưa có sự đông ý.
2.2.5 Bạo hành tài chính/kinh tế (financial/economic) [32,44]
Dùng tài chính, kinh tế dé kiểm soát người khác Bởi vi bạo hành liên quan đếnquyền lực và kiểm soát, kẻ bạo hành sé sử dụng bat kỳ phương tiện nao cần thiết dé
duy trì sự kiểm soát đó, và thường bao gồm cả tài chính
Có thê là kiểm soát toàn bộ ngân sách trong gia đình và không cho người bị bạo
hành truy cập vào tài khoản ngân hàng hoặc tiền chi tiêu của minh, hay mở thẻ tindụng và tạo ra các khoản nợ dưới tên của người bị bạo hành, hoặc đơn giản là khôngcho người bị bạo hành có việc làm và kiếm tiền riêng Loại bạo hành này thường là
lý do lớn khiến ai đó không thê rời khỏi mỗi quan hệ bạo hành Thường có các tìnhhuống tương tự như sau:
e Kiểm soát tài chính của nạn nhân, không cho họ sử dụng tiền của chính
họ.
o Ví dụ: một người chồng không cho vợ tiếp cận tài khoản ngân
hàng hoặc sử dụng thẻ tín dụng của chính mình, kiểm soát mọi
chi tiêu của vợ.
e Dùng tên nạn nhân dé mở tín dụng, vay mượn không trả dẫn tới nợ xấu
o_ Ví dụ: một người sử dụng thông tin cá nhân của người khác để
mở thẻ tín dụng và vay mượn tiền, sau đó không trả nợ, dẫn đến
nạn nhân bị nợ xấu và gặp khó khăn trong việc vay tiền hoặc tìm
việc làm.
e Không cho nạn nhân (là người trưởng thành, đủ điều kiện đi làm) có việc
làm, tự kiếm thu nhập
o Ví dụ: Một người vợ muốn đi làm nhưng bị chồng cắm cản, không
cho phép ra khỏi nhà hoặc liên hệ với nhà tuyển dụng
e Lua đảo, ăn cắp tiền của nạn nhân
Thường có các từ thường xuất hiện như sau: nợ, thiếu tiền, cờ bạc, giam lỏng,cam, tịch thu, ăn cap, lừa đảo, lừa dôi, tài chính, nợ tín dụng, vay mượn.
12
Trang 202.2.6 Bao hành văn hóa/định danh (cultural/identity) [19,32,35]
Dùng các khía cạnh văn hóa, bản sắc của cá nhân dé làm tốn hại tinh thần, cảmxúc của họ, hoặc đe đọa họ Bạo hành văn hóa danh tính xảy ra khi kẻ bạo hành sửdụng các khía cạnh trong danh tinh văn hóa của nạn nhân dé gây đau khổ hoặc làm
phương tiện kiểm soát Thường có một số tình huống tương tự như sau:
e Không cho phép ai đó tuân thủ các phong tục ăn uống hoặc trang phục
theo đức tin của họ, sử dụng lời lẽ phân biệt chủng tộc, đe dọa sẽ tiết lộ
ai đó là LGBQ/T nếu bạn bè và gia đình của họ không biết
e_ Hoặc cô lập một người không nói ngôn ngữ chính nơi họ sống - tat cả
những điêu này đêu là ví dụ của bạo hành văn hóa.
13
Trang 21Chương 3 XÂY DỰNG BỘ DỮ LIỆU
3.1 Quy trình tổng quan các bước xây dựng bộ dữ liệu
1 Huấn luyện gan
Hình 3.1: Quy trình tổng quan xây dựng bộ dữ liệu
Nguồn dữ liệu cho đề tài này được thu thập từ chuyên mục Tâm Sự của báo điện
tử VnExpress ?, nơi mà người dùng đăng tải nhiều câu chuyện tâm sự của họ về nhiềukhía cạnh khác nhau trong cuộc sống xã hội Tổng cộng, học viên đã thu thập hơn
4,800 câu chuyện, mỗi câu chuyện sau đó được lưu trữ dưới dạng tệp văn bản (.txt),
tạo thành một bộ dữ liệu thô phục vụ cho quá trình nghiên cứu.
Sau đó, học viên đã chọn ngẫu nhiên ra 1,041 văn bản từ bộ dữ liệu thô thu
thập được Các văn bản được chọn sẽ được sử dụng để gán nhãn và thực hiện các thínghiệm đánh giá Những văn bản còn lại trong bộ dir liệu thô ban đầu sẽ tiếp tục được
gan nhãn trong trong tương lai, nhằm mở rộng và củng cố bộ dữ liệu phục vụ cho cácnghiên cứu sau này.
Tổng quan quy trình xây dựng bộ đữ liệu sẽ có hai bước chính là: huấn luyện
gán nhãn và gán nhãn Ở mỗi bước, guidelines déu sé duoc hiéu chinh, cap nhat thém
các quy tắc giúp người gan nhãn xác định được loại bao hành một cách đồng nhất
hơn.
? https://vnexpress.net/tam-su
14
Trang 22Trước tiên, học viên sẽ trình bày về quá trình khởi tạo guidelines từ các định
nghĩa Tiếp đến, học viên sẽ đề cập đến hai bước chính của quá trình xây dựng bộ dữliệu.
Thông tin đội ngũ xây dựng guidelines, gan nhãn như sau:
Họ tên Background Vai trò Nội dung công việc
Nguyễn Như Thanh | Tốt nghiệp trường | - Xây dựng | Chịu trách nhiệm chính
ĐH Công nghệ guidelines |trong việc xây dung
thông tin - Gan nhãn | guideline, hiệu chỉnh,
Tham gia vào quá trình
gan nhãn dữ liệu.
Lưu Kim Long Tốt nghiệp trường | Gán nhãn | Tham gia vào quá trình
ĐH Công Nghiệp huấn luyện và gan nhãn
— ngành CNTT dữ liệu.
Nguyễn Thanh Hải | Tốtnghiệp trường | Gánnhãn | Tham gia vào quá trình
ĐH Khoa Học Tự huấn luyện và gán nhãn
Nhiên - ngành dữ liệu.
CNTT
3.1.1 Tìm hiểu về dữ liệu hiện có và khởi tạo guidelines
(2) Annotate data based on guidelines
—
1) Initialize guideline
| Guidelines Guidelines
author L7 data
(3) Adjust or provide more examples
about the abuse to guidelines.
Hình 3.2: Xây dung guideline gan nhãn dữ liệu
15
Trang 23Giai đoạn này tập trung vào việc khởi tạo guidelines gán nhãn dữ liệu Mục tiêuchính là cung cấp các hướng dẫn, quy tắc phân loại cho các người gan nhãn dữ liệu
(annotators), giúp họ có thé xác định va phân loại các nội dung bạo hành Trong quá
trình khởi tạo này, cũng được chia ra làm 03 bước nhỏ như sau:
e Bước 1 Khởi tao guidelines: từ các định nghĩa bạo hành & loại bạo hành,
cùng với các dau hiệu nhận diện cho từng loại
e Bước 2 Gan nhãn trên tập dữ liệu mẫu: chọn ngẫu nhiên một tập 100 văn
bản và tiễn hành gan nhãn dựa trên guidelines bước 1 Bước này nhằm mục đích giúpcho tác gia guidelines hiểu hơn về dữ liệu, cũng như thu thập một số tình huống thực
tế và những từ hay xuất hiện Đầu tiên, văn bản sẽ được đánh giá dé xác định liệu nó
có chứa yếu tô bạo hành hay không Việc đánh giá nay, sẽ dựa vào quy tắc như sau:
Quy tắc lọc nhanh văn bản có bạo hành hay khôngTình huống/hành VI Các tác động vật lý: đánh đập, ngược đãi, hành
hung, giết, tat, đá, xô đây, giam cam, cưỡng bức,
Lời nói gây tôn hại cảm xúc: chửi bới, măng, dụ dỗ,
bêu rêu, quây ray, mia mai, sỉ nhuc,
Hành vi khác như: ngoại tình, cờ bạc, nước mắt, nợ
nân, tiên, cờ bạc, rượu chè,
Một số từ ngữ diễn tả | Ví dụ: ám ảnh, đau đớn, suy sup, gia trưởng, that
cảm xúc vọng, rôi bời, tram cảm, chanh lòng, tui nhục
Sau khi xác định văn bản có thể chứa nội dung bạo hành, sẽ tiến hành đọc kỹ văn bản
và bám sát định nghĩa trong guidelines để xác định đoạn bạo hành và phân loại trên
tap dir liệu mẫu.
e Bước 3 Hiệu chỉnh guideline: trong quá trình gan nhãn thử trên tập dữ liệu
mẫu, guidelines sẽ được chỉnh sửa, bồ sung Sau đây là một số ví dụ trong quá trình
hiệu chỉnh:
Cập nhập 1: Nếu lời nói là lời nhận xét, khiển trách mang tính xây dung, không
có ý sỉ nhục, vu khống thì không được xem là bạo hành.
16
Trang 24Vị dụ 1: Một giáo viên nhận xét rằng học sinh cần cố gắng hơn trong việc học,
khiến học sinh cảm thấy buồn
Ví dụ 2: Lời mắng chửi, sỉ nhục xuất phát từ cả hai phía cũng không được xem
là bạo hành lời nói.
Cập nhật 2: Bạo hành không phải là một tai nạn, sự cô do vô ý Những hành vi,
lời nói vô ý làm tốn thương cảm xúc, tinh thần của người khác, thi không được gannhãn là bạo hành.
Vị dụ 1: Trong lúc chơi bóng, một cầu thủ vô tình va chạm mạnh làm đối phương
bị chấn thương
Vị dụ 2: Một người mẹ đang nấu ăn, vô tình dé nước sôi bắn vào tay con mình
Ví dụ 3: Một nhân viên văn phòng vô tình làm đồ cà phê lên máy tính của đồng
nghiệp, gây hỏng hóc.
Ví dụ 4: Một người vô tình bước vào phòng và làm giật mình người khác, khiến
người đó ngã và bị thương.
3.1.3 Huấn luyện gán nhãn và hiệu chỉnh guidelines
Quá trình này dé đảm bảo các annotators hiểu rõ các hướng và có thé gan nhãnmột cách đồng nhất, điều này quyết định tới chất lượng của bộ dữ liệu Cụ thể, cácannotators sẽ thực hành gan nhãn trên cùng một tập mau dữ liệu nhỏ bao gồm những
văn bản nội dung bạo hành và những văn bản không bạo hành Sau khi annotators
hoàn thành nhiệm vụ của mình thì sẽ xem xét và đánh giá lại các kết quả, cũng như
hiệu chỉnh guidelines dé có được sự đồng thuận cao giữa các annotators
Hình bên dưới mô tả vê quy trình huân luyện của học viên như sau:
17
Trang 25_ Training phaS6 - + -~~=~~~zzz=reeerrrrrrrrrmre cư tre "¬
wae Provide feedback to annotators about the conflicts
and differences in the last results.
Hình 3.3: Quy trình huấn luyện gan nhãn
Sau quá trình này, một số quy tắc được thêm vào guidelines dé đảm bảo cho
việc nhận diện bạo hành đồng nhất giữa các annotators Phần 3.1.5 sẽ đề cập cụ thé
một số quy tac được cập nhật, hiệu chỉnh trong quá trình training va gan nhãn
3.1.4 Tiến hành gán nhãn và hiệu chỉnh guidelineMỗi annotator được giao một tập hợp các văn bản dé gan nhãn bằng phương
pháp gán nhãn theo chuỗi (sequence labeling) [12].
18
Trang 26Về công cu hỗ trợ gán nhãn, học viên sử dụng công cụ Doccano 3, đây là một công cụ hỗ trợ việc gan nhãn rất hiệu quả Dưới đây là một sô hình minh họa
giao diện công cụ:
= ®eCleanup-ver2 @ ENv — Projects
ea o 1889 [ Finishes Ö giám đốc là đàn ông, tôi trẻ nhất công ty, các chị toàn 8x đời đầu Tôi là can 8} 0
nhiệt tình, hòa đông, vui vẻ, được đánh giá là nhanh nhẹn.
@ Tôi và anh quen nhau 10 năm, cô một số ly do về đường con cái nên nw
‘Comments P i
1 ¡ quyết định trước khi há gi
n 890 { Fished chúng tôi quyết định c6 con trước khi cưới Nhà tôi khá giả,còn ba me “Coneeesdx} 0
chồng nghèo, do một phần cờ bac, không biết lo làm ăn Tôi biết
[ sưa Giờ trong tôi chỉ còn cảm giác chán nản, sợ hãi khi nghĩ đến lúc tan làm "
[1% BBD pnd va nna 101 40 106i, 1a me don thin cia ba dia con.cia inh wics (112 D
6 Si sẽ A “Comments’: [])
lu, = Metrics: sáu người, bố mẹ đã ly di, môi người ở phòng riêng Tử.
Ching tôi 36 tui, công chức nhà nước Chúng tôi cưới nhau cách đây sự
[ 1É%=z BRED ar 10 nde cõhẽcomotoimottasihxingỏigangTOlangvi (114, 0
CC Settings os "Comments": [])
miền Tây, ăn học đàng hoàng, công việc khá ốn định Trước.
Tôi 23 tuối, là mẹ của bé ba tuổi kháu khinh và đáng yêu, bé là kết quá "
h TU ? pe (id: 117,
TA 1® BE cite mot tai nan ma cé aos toi khong thé ndo quén Nếu tdi từng két hon comenngx °°
và ly hôn thi &t hẳn sẽ không có gì chua xót Ding nay từ.
Tôi và vợ làm chung công ty, phòng của vợ chỉ có vài người, hầu hết toàn "
C154 QE crema ii chico mot cfu con trai cu nay thém nién am vige nna (160 °
"Comments": 1) phòng, tinh tinh đồng bóng, hơi éo lả, hay buôn chuyện
Tôi 30 tuổi lễ mẹ cúa bé gái gin ba tuổi Cuộc sống của tôi thay đổitíh as sg
1895 [Fished ) cực và hạnh phúc hon từ khi tách ra khỏi nhà đẻ Dù đã cố gắng nhiều “Comments’: 01) 0
nhưng tôi vẫn không thể ngừng khỏ chịu với mẹ Người ta
2 ~
Hình 3.4: Giao diện tô ia cô hồ án nhã ình 3.4: Giao diện tông quan của công cụ hỗ trợ gán nhãn
= #eCleanupver2 lŸÔ ENS = Projects =
Mỗi lần nhìn ánh mắt của con tôi không khỏi đau đớn, từng mong ước sé
có ai đó đến và tốt với con ở vị trí người cha Vậy mà có lẽ chỉ là mơ ước,
ảo tưởng của bản thân, bởi sẽ chẳng ai muốn quen và yêu một cô gái
Trang 27Hình 3.6: Giao diện khi gan nhãn dữ liệu
3.1.5 Một số quy tắc được cập nhật sau quá trình huấn luyện và gán nhãn
Sau quá trình huấn luyện/gán nhãn, một số quy tắc được cập nhật, chỉnh sửa với
mục đích làm cho dễ dàng nhận diện bạo hành và phân loại chúng Một sỐ quy tắc
được thêm mới như sau:
Cập nhật 1: Bao hành vật lý nhưng có liên quan đến van đề tình dục thì sẽ phânloại bạo hành tình dục (sexual) (mục đích dé xác định đúng bạo hành tình dục thay vì
bạo hành vật lý).
Cập nhật 2: Nạn nhân phải có đề cập là bản thân họ bị ton thương, tinh thansuy sụp bởi những lời nói đó, không nhất thiết phải nam ở đoạn mô tả hành động
măng chửi, sỉ nhục, (mục đích đê làm rõ hơn cách xác định bạo hành lời nó!)
Cùng với một sô quy tac được thêm vào như trên, một sô quy tac cũ được chỉnh
sửa đê làm rõ hơn Dưới đây là một sô ví dụ như sau:
Quy tắc xác định
đoạn bạo hành
Gán nhãn cho các cụm từliền kề diễn tả hành động
bạo hành, không nhất thiết
phải nguyên câu.
Một đoạn bạo hành phải chứa ítnhất một câu Không gán nhãn nửa
câu hoặc một cụm từ trong câu dé
dam bao tinh nhat quan va toan ven
của thông tin.
Trang 28một nhãn duy nhất, không | một nhãn duy nhất, không được
được gán nhiều nhãn cho | gán nhiều nhãn cho một đoạn
một đoạn (Thêm)
Hai đoạn bạo hành phải tách biệt,
không được trùng nhau hoặc lồng
nhau: Nếu có hai đoạn bạo hành
khác nhau trong cùng một văn bản, chúng phải được tách biệt rõ ràng
và không được chông lân hoặc
lồng ghép vào nhau
Lý do: đề đồng nhất trong việc xác định điểm bắt đầu và điểm kết thúc của đoạn
bạo hành.
Guidelines đầy đủ được trình bày ở PHỤ LỤC B của báo cáo luận văn bao gồm
toàn bộ các khái niệm, định nghĩa, và bộ các quy tắc phân loại bạo hành
3.2 Phân tích bộ dữ liệu
Tập dữ liệu thu thập được bao gồm 1041 văn bản tự sự, được chia thành banhóm: 700 văn bản dành cho tập huấn luyện (train set), 100 văn bản dành cho tậpphát triển (dev set) và 241 văn bản còn lại dành cho tập kiểm tra (test set)
Các thí nghiệm của học viên tập trung vào khai thác hai bài toán đó là:
e Bài toán 1: Phát hiện các đoạn bạo hành nhưng không phân loại bạo hành cụ thê
e Bài toán 2: Phát hiện các đoạn bạo hành và có kèm theo phân loại bạo hành
cụ thể
Đối với bài toán 1, các đoạn bạo hành trong tập dữ liệu chỉ có một nhãn là
bạo hành Đôi với bài toán 2, các đoạn bạo hành trong tập dt liệu của sẽ có một trongsau nhãn đại diện cho sáu loại bạo hành như bảng bên dưới:
Bảng 1: Các loại nhãn bằng tiếng Anh và ý nghĩa tương ứng
Nhãn Y nghia
Physical Tương ứng với bạo hành vật ly
Verbal/Emotional Tương ứng với bao hành lời nói/cảm xúc
Cutural/Identity Tương ứng với bạo hành văn hóa/bản sắc
21
Trang 29Sexual Tương ứng với bạo hành tình dục
Financial/Economic Tương ứng với bao hành tai chinh/kinh tế
Mental/Psychological Tương ứng với bạo hành tinh than/tam lý
Theo kết quả thong kê trên bộ dữ liệu, học viên thấy rằng sé lượng các văn ban có
xuất hiện bạo hành chiếm 19.02% tổng số dữ liệu Điều này cho thấy số lượng văn
bản tự sự có xuất hiện bạo hành thấp hơn so với các văn bản tự sự không chứa bạo
hành Do đó, độ chính xác trong nhận diện bạo hành có thé bị ảnh hưởng Đây là một
trong những thách thức, mà chúng ta sẽ thấy qua kết quả thí nghiệm
Bên cạnh đó, sau khi tiễn hành thong kê các loại bạo hành trong bộ dữ liệu, hocviên nhận thấy có sự mất cân băng giữa các loại bạo hành khác nhau Điều này được
thê hiện qua các biêu đô như sau:
Trang 30#8 Train @ Valid TM Test 150
e Bao hành Verbal/Emotional (lời nói/cảm xúc) và Mental/Psychological (tinh
than/tam lý) chiếm hơn 60% đữ liệu
e Trong khi phân bố của các loại bạo hành Sexual (tình dục) chỉ chiếm tổng
cộng 2,1% và Cutural/Identity (văn hóa/bản sắc) (chỉ chiếm tổng cộng tổng cộng
3,1%) thấp đáng kể Việc thiếu dữ liệu về các loại bạo hành Sexual (tình dục) và bạo
hành Cutural/Identity (văn hóa/bản sắc) sẽ ảnh hưởng đến các kết quả dự đoán chocác loại này.
Bên cạnh đó, khi xét về độ dài trung bình của một đoạn bạo hành, học viên
nhận thấy rằng độ dài trung bình của một đoạn bạo hành trong tập dữ liệu tương đối
dài Như trong bảng 1 thé hiện:
e Độ dài trung bình lớn nhất cho một đoạn được gán nhãn bạo hành trong tập
dữ liệu là 30,44 từ (loại Financial/Economic — tài chinh/kinh tế)
23
Trang 31e Và độ dài trung bình 26,59 từ mỗi đoạn cho đữ liệu trong tập không phân loại
bạo hành Độ dài của các đoạn bạo hành cũng là một yếu tố thể hiện sự phức tạp của
Trang 32Chương 4 THÍ NGHIỆM VÀ ĐÁNH GIÁ
4.1 Tông quan các phương pháp sử dụng
Về mặt tổng quan, phương pháp tiếp cận của dé tai là đóng bang pre-trainedmodel như PhoBERT [23], XLM-RoBERTa [30], chỉ sử dụng kết quả dau ra của cácpre-trained model dé lam input cho mạng BiLSTM BiLSTM kết hợp với lớp Softmax
hoặc CRF sẽ đóng vai trò là lớp phân loại cuối cùng
Theo ViHOS [14], tác giả đã sử dụng các mô hình baseline tiêu biéu như RoBERTa [30], và PhoBERT [23] kết hợp với BiLSTM-CRF [33] dé đánh giá tập
XLM-dữ liệu tiếng Việt về các bình luận tiêu cực của, và cho một số kết quả khả quan Với
mục tiêu là đánh giá bộ dữ liệu của đề tài, học viên cũng sẽ dựa theo những mô hình
baseline này Bên cạnh đó, một số lý do học viên chọn các mô hình baseline này là
do:
e©_ PhoBERT [23] là một mô hình ngôn ngữ dành riêng cho tiếng Việt, được tiền
huấn luyện trên tập đữ liệu 20GB tiếng Việt PhoBERT [23] đã được chứng
minh là phương pháp tiêu biéu hiện nay cho nhiều bài toán xử lý ngôn ngữ tự
nhiên (NLP) đặc thù cho tiếng Việt như: gán nhãn từ loại (Part-Of-SpeechTagging), phân tích cú pháp (Dependency Parsing) và nhận diện thực thé
(NER).
e XLM-RoBERTa [30] là một mô hình ngôn ngữ đa ngữ và là một biến thé của
RoBERTa, được tiền huấn luyện trên 2.5T dữ liệu từ 100 ngôn ngữ, trong đó
có bao gồm 137GB văn bản tiếng Việt
e BiLSTM-CRF [33] cho kết quả cao cho nhiệm vụ phát hiện các đoạn trong
văn bản Học viên cũng thực hiện thí nghiệm với BILSTM-Sofmax, và
BiLSTM-CRE dé so sánh đánh giá kết quả
Bảng dưới đây thống kê về những phương pháp mà học viên đã chạy thử nghiệmtrên bộ dữ liệu.
25
Trang 33Bảng 3: Tóm tắt các phương pháp thí nghiệm
Pre-trained Language Model | RNN-Decoder layer
PhoBERTpase BIST Softmax
PhoBERTarge BEST Sofia
4.1.1 PhoBERT [23]
PhoBERT [23] là một mô hình ngôn ngữ được thiết kế riêng cho tiếng Việt,phát triển bởi VinAI Research, dựa trên cấu trúc của BERT [9] nhưng được điều
chỉnh đề tương thích tốt hơn với các đặc thù ngôn ngữ của Việt Nam PhoBERT [23]
đã được huấn luyện trên một tap hop lớn dữ liệu văn ban tiếng Việt, bao gồm sách,
báo, và các nguồn trực tuyến, nhăm mục dich xử lý hiệu quả các ngữ cảnh ngôn ngữ
đa dạng.
Mô hình này sử dụng kiến trúc Transformer [10], vì vậy với cơ chế Attention, PhoBERT [23] có khả năng nhận diện va hiểu rõ mối quan hệ giữa các từtrong cùng một câu mà không phụ thuộc vào vị trí tuyến tính của chúng Thêm vào
Self-đó, mô hình áp dụng kỹ thuật Byte Pair Encoding (BPE) [30] dé mã hóa ngôn ngữ,
giúp nó xử lý hiệu quả các từ ghép phức tạp trong tiếng Việt
PhoBERT [23] đã được áp dụng thành công trong nhiều lĩnh vực của xử lý ngônngữ tự nhiên, như phân tích cảm xúc, phân loại văn bản, nhận dạng thực thể có tên,
và trả lời câu hỏi Với sự tối ưu hóa đặc biệt cho tiếng Việt, PhoBERT [23] đã trở
thành công cụ hữu ích không chỉ cho các nhà nghiên cứu mà còn cho các nhà phát
triển ứng dụng AI
Giống với BERT [9], PhoBERT [23] cũng có hai phiên bản là: PhoBERTj„.;„ vàPhoBERTtx„-„¿ Phiên ban base bao gồm 12 lớp transformers với 12 attention headsmỗi lớp và kích thước của hidden layers là 768, phù hợp với các ứng dụng cần đếntốc độ xử lý nhanh Trong khi đó, phiên bản large mở rộng lên 24 lớp transformers,
26
Trang 34mỗi lớp có 16 heads và kích thước hidden layers là 1024, cho phép mô hình xử lý sâu
hơn các tác vụ phức tạp, tuy nhiên đòi hỏi nhiều tài nguyên tính toán hơn
4.1.2 ROBERTa
RoBERTa [20], viết tắt của "Robustly Optimized BERT Pretraining Approach",
là một biến thé cải tiến của BERT [9], được giới thiệu bởi Facebook AI Mô hình đa
ngôn ngữ này được phát triển nhăm mục đích khắc phục một số hạn chế của BERT
[9] thông qua việc tối ưu hóa phương pháp huấn luyện và cấu hình của mô hình
Về kiến trúc, RoBERTa [20] giữ nguyên cấu trúc cơ bản của BERT [9] nhưng
đã thực hiện các cải tiến đáng ké trong quá trình huấn luyện Cụ thé, các nhà nghiên
cứu đã loại bỏ tác vụ Next Sentence Prediction (NSP), một thành phần được đánh giá
không hiệu quả trong quá trình huấn luyện BERT [9] Ngoài ra, ROBERTa [20] cũng
mở rộng quy mô dit liệu huấn luyện và tăng số lần lặp qua dit liệu (epochs), điều này
cải thiện đáng kể hiệu suất của mô hình
RoBERTa [20] hiệu quả trong các tác vụ xử lý ngôn ngữ tự nhiên như phân tích
cảm xúc, phân loại văn ban và trả lời câu hỏi Sự cải tiến đã giúp RoBERTa [20] trở
thành một công cụ mạnh mẽ cho các nghiên cứu và ứng dụng trong lĩnh vực AI, đặc
biệt là trong xử lý ngôn ngữ tự nhiên.
4.1.3 XLM-RoBERTa
XLM-RoBERTa [30] là một phiên bản tối ưu hóa của RoBERTa [10], được
phát triển dé giải quyết các thách thức của bài toán phân loại văn bản đa nhãn
Về kiến trúc, XLM-RoBERTa [30] mở rộng và điều chỉnh từ kiến trúc ban đầu
của RoBERTa [20] dé tối ưu hóa cho việc phân loại đa nhãn Các thay đôi bao gồmviệc sử dụng các chiến lược huấn luyện tiên tiễn và kỹ thuật xử ly dir liệu đặc biệt,
đảm bảo mô hình có thé hiệu quả trong việc xử lý độ phức tạp và độ lớn của không
gian nhãn trong các bộ dữ liệu XLM.
XLM-RoBERTa [30] phù hợp cho các tác vụ phân loại đa nhãn, phù hợp với
các bộ dữ liệu lớn và số lượng nhãn cao cần được xử lý hiệu quả Khả năng của mô
hình trong việc xử lý mối quan hệ phức tạp giữa các nhãn làm cho nó trở thành một
công cụ hữu hiệu, đặc biệt trong các ứng dụng yêu cầu độ chính xác cao trong phân
loại đa nhãn.
27
Trang 354.1.4 BILSTM
BiLSTM [33] là viết tắt của Bidirectional Long Short-Term Memory, đây là
một biến thé phức tạp của mạng nơ-ron hồi quy [16] (RNN), được thiết kế dé cảithiện khả năng hiểu và xử lý thông tin chuỗi bang cách tích hợp ngữ cảnh từ cả hai
Output layer forward
Hidden backward
layer
Input
layer
Hình 4.1: Bidirectional LSTM = forward LSTM + backward LSTM
hướng: trước va sau.
BiLSTM [33] bao gồm hai lớp LSTM độc lập, một lớp xử ly chuỗi dữ liệu từ
trái sang phải (forward LSTM) và một lớp từ phải sang trái (backward LSTM) Sự
kết hợp thông tin từ cả hai lớp này cho phép BiLSTM [33] đưa ra dự đoán chính xác
hơn so với các mạng LSTM đơn chiều
Về ưu điềm, khả năng tích hợp thông tin từ cả hai hướng của chuỗi dit liệulàm cho BiLSTM [33] trở thành công cụ mạnh mẽ trong việc xử lý các van đề liênquan đến ngữ nghĩa và cú pháp của ngôn ngữ, đặc biệt hiệu quả trong các tác vụ nhưnhận dạng thực thê có tên, phân tích cảm xúc, và dịch máy
4.1.5 BiLSTM kết hop CRFBiLSTM-CRF [33] là mô hình kết hợp giữa BiLSTM với Conditional RandomField (CRF) để tăng hiệu quả trong các tác vụ nhận dạng thực thể có tên (NamedEntity Recognition, NER) Mô hình này sử dụng CRF ở tầng cuối cùng nhằm môhình hóa các mối quan hệ phụ thuộc giữa các nhãn trong chuỗi đầu ra Điều này giúp
cải thiện độ chính xác của dự đoán chuỗi đầu ra, và đảm bảo tính liên tục của các
nhãn liền kề, từ đó nâng cao đáng ké chất lượng tổng thé của dự đoán
Điểm cải tiến so với BiLSTM đó là sự kết hợp này giúp không chỉ nắm bắt
thông tin ngữ cảnh từ cả hai hướng, mà BILSTM-CRF [33] còn cải thiện khả năng
dự đoán chuỗi nhãn bằng cách xem xét mối liên kết giữa các nhãn liên tiếp Điều này
giúp mô hình hiệu quả hơn trong việc giải quyết các tác vụ như NER, nơi mà sự phụ
thuộc giữa các nhãn là rất quan trọng
28
Trang 36Về ưu điểm, BiLSTM-CRF [33] cải thiện đáng ké chất lượng dự đoán của
chuỗi, đặc biệt trong các tác vụ có yếu tố phụ thuộc mạnh mẽ giữa các nhãn liền kề,
giúp cho các nhãn được suy ra một cách chính xác hơn Tuy nhiên, điểm hạn chế củaBiLSTM-CRF [33] là tăng độ phức tạp của mô hình do sự kết hợp giữa hai kiến trúcphức tạp và yêu cau tính toán cao hơn
4.2 Tiền xử lý dữ liệu
Sau quá trình gán nhãn thủ công, dữ liệu sẽ có câu trúc dạng như sau:
{"1d":2692,"text":"Tôi 32 tuổi, vợ kém hai tudi, có hai con, bé hai tuôi và năm tuôi; kinh tế gia
đình tôi lo, vợ lo chăm sóc con cái.\nCông việc nha vợ chồng tôi cùng chia sẻ Bình thường cuộc
sống không có gì phàn nàn, chỉ khi nào vợ có việc bực bội là trút giận lên chồng con, khi tôi nói
lại thì vợ văng tục Tôi mà nhịn thì mọi việc êm đẹp Tôi trao đổi với vợ về vấn đề này, vợ bảo
nóng lên thì không kiểm soát được lời nói Tôi phải làm gì bây giờ? Xin được lời khuyên của
mọi người.","label":[[157,291,"verbal_emotional"|],"Comments":[ |}
Những dữ liệu này sẽ được tiền xử lý trước khi input vào các pre-trained model nhưPhoBERT [23], XLM-RoBERTa [30] Bước tiền xử lý sẽ bao gồm những tác vụ như
Sau:
Tạo mask label bằng cách những từ không nằm trong đoạn bạo hành sẽ được
gán nhãn O, còn những từ trong đoạn bạo hành sẽ có label là category Ví dụ: physical Ngoài ra, để giữ lại nhiều ngữ nghĩa/ngữ cảnh của câu trước khi tới bước
I-tokenize, học viên sử dụng thư viện python dé phan doan cau muc dich dé tach các
cụm từ trong câu Dữ liệu trước khi input vào pre-trained model cần phải đượctokenzie, đối với bước nay, học viên sử dụng thư viện tokenizer của PhoBERT Ngoài
ra, độ dài tối đa của câu input vào mô hình huấn luyện sẵn pre-trained model được
cau hình là 254 Do đó, nếu câu có độ dài vượt quá 254 ký tự thì sẽ tiến hành ưu tiên
loại bỏ các từ/cụm từ có nhãn O, giữ lại nhãn I-category.
Dữ liệu sau khi tiền xử lý sẽ có dạng như bên dưới, và sẽ được input vào huấn
luyện cho các pre-trained model.
{"id": "1", "raw_ text": "T\u00f4i 32 tu\uled5i, v\ulee3 k\u00e9m hai tu\uled5i, c\u00f3 hai con,
b\u00e9 hai tu\uled5i v\u00e0 n\u0103m tu\uled5i; kinh t\ulebf gia \u0111\u00ecnh t\u00f4i lo, v\ulee3 lo ch\u0103m s\u00f3c con c\u00eli.\nC\u00f4ng vi\ulec7c nhìu00e0 v\ulee3 ch\uled3ng t\u00f4i c\u00f9ng chia s\ulebb B\u00ecnh th\u01b0\uleddng cu\uled9c s\uleding
29
Trang 37khu00f4ng c\u00f3 g\u00ec phìu00e0n n\u00e0n, ch\ulec9 khi nu00e0o v\ulee3 c\u00f3 vi\ulec7c b\ulefle b\uled9i I\u00e0 tr\u00fat gi\uleadn Ru00ean ch\uled3ng con, khi t\u00f4i n\u00f3i l\uleali th\u00ec v\ulee3 v\u0103ng t\uleeSc T\u00f4i m\u00e0 nh\ulecbn th\u00ec m\ulecdi vi\ulec7c \u00eam \u0111\uleb9p T\u00f4i trao \u0111\uled5i v\uledbi v\ulee3
v\ulecl v\ulea5n \u0111\ulecl n\u00e0y, v\ulee3 b\ulea30 n\u00f3ng l\u00ean th\u00ec
kh\u00f4ng ki\ulec3m so\u00elt \u0111\u01b0\ulee3c l\uleddi n\u00f3i T\u00f4i ph\ulea3i Ru00e0m g\u00ec b\u00e2y gi\uledd? Xin \u0111\u01b0\ulee3c l\uleddi khuy\u00ean c\ulee7a m\ulecdi ng\u01b0\uleddi.", "raw label": [[157, 291, "verbal_emotional"]], "context": ["T\u00f4i", "32", "tu\uled5i,", "v\ulee3", "k\u00e9m", "hai", "tu\uledSi,", "c\u00f3", "hai",
"con,", "b\u00e9", "hai", "tu\uled51", "v\u00e0", "n\u0103m", "tu\uled5i;", "kinh_ t\ulebf",
"gia \u0111\u00ecnh", "t\u00f4i", "lo,", "v\ulee3", "lo", "ch\u0103m_s\u00f3c", "con",
"c\u00e1li.", "CAu00f4ng vi\ulec7c", "nh\u00c0", "v\ulee3_ch\uled3ng", = "t\u00f4i",
"c\u00f9ng", "chia", "s\ulebb.", "B\u00ecnh_th\u01b0\uleddng", "cu\uled9c_s\uleding",
"kh\u00f4ng", "c\u00f3", "g\u00ec", "ph\u00e0n", "n\u00e0n,", "ch\ulec9", "khi", "n\u00e00",
"v\ulee3", "c\u00f3", "vi\ulec7c", "b\uleflc_b\uled9i", "Ru00e0", "tru00fat", "gi\uleadn",
"Ru00ean", "ch\uled3ng", "con,", "khi", "t\u00f4i", "n\u00f3i", "I\uleali", "th\u00ec", "v\ulee3",
"v\u0103ng t\uleeSc", ".", "T\u00f4i", "m\u00c0", "nh\ulecbn", "th\u00ec", "m\ulecdi",
"vilulec7c", "\u00eam", "\u0111\uleb9p.", "T\uOOf4i", "trao \u0111\uled5i", "v\uledbi",
"v\ulee3", "v\ulecl", "v\ulea5n \u0111\ulecl", "n\u00e0y,", "vAulee3", "b\ulea3o",
"n\u00f3ng", "]\u00ean", "th\u00ec", "kh\u00f4ng", "ki\ulec3m_so\u00elt",
"\u0111\u01b0\ulee3c", "I\uleddi", "n\u00f31.", "T\u00f4i", "ph\ulea3i", "Ru00e0m”", "g\u00ec",
"b\u00e2y", "gi\uledd?", "Xin", "\u0111\u01b0\ulee3c", "I\uleddi", "khuy\u00ean", "c\ulee7a",
"m\ulecdi", "ng\u01b0\uleddi."], "label": ["O", "O", "O", "0", "O", "O","O", "0", "0", "0", "O",
"O", "0", "0", "0", "0", "0", "O", "O", "O", "oO", "Q", "O", "0", "O", "O", "O", "O", "O", "Q",
"Q", "O", verbal_emotional", verbal emotional", verbal emotional",
verbal emotional", verbal emotlonal", verbal emotional", verbal emotional",
verbal emotional", verbal_emotional", verbal_emotional", verbal emotional", verbal emotional", "I-verbal_emotional", "I-verbal_emotional", "I-verbal emotional", "I- verbal emotional", "I-verbal_emotional", "I-verbal_emotional", "I-verbal_emotional", "I- verbal emotional", "I-verbal_emotional", "I-verbal_emotional", "I-verbal_emotional", "I-
"I-verbal emotional", "I-"I-verbal_emotional", "I-"I-verbal_emotional", "I-"I-verbal_emotional", "O", "O",
"o","o", "0", "0", "0", "0", "oO", "O", "O", "oO", "Q", "O", "oO", "O", "O", "Q", "O", "O", "O",
"o","o", "Oo", "O", "oO", "oO", "oO", "oO", "oO", "oO", "Oo", "O", "O", "O", "O", "O", "O", "O"],
"original_context": ["T\u00f4i", "32", "tu\uled5i,", "v\ulee3", "k\u00e9m", "hai", "tu\uled5i,",
"c\u00f3", "hai", "con,", "b\u00e9", "hai", "tu\uledSi", "v\u00e0", "n\u0103m", "tu\uledsi;",
"kinh_t\ulebf", "gia _\u0111\u00ecnh", "t\u00f4i", "lo,", "v\ulee3", "lo", "ch\u0103m_s\u00f3c",
30