1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học máy tính: Nhận diện bạo hành trong văn bản tự sự tiếng Việt

74 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nhận diện bạo hành trong văn bản tự sự tiếng Việt
Tác giả Nguyen Nhu Thanh
Người hướng dẫn PGS.TS. Nguyen Luu Thuy Ngan
Trường học ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH
Chuyên ngành Khoa học máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2024
Thành phố TP. HO CHÍ MINH
Định dạng
Số trang 74
Dung lượng 46,2 MB

Nội dung

Việc ứng dụng công nghệ xử lý ngôn ngữ tự nhiên không chỉ giúp phân tích và rút trích thông tin quý giá từ nguồn dữ liệu này, mà còn mở ra khả năng tạo ra các giải pháp công nghệ, chăng

Trang 1

ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

Wa

NGUYEN NHU THANH

NHAN DIEN BAO HANH TRONG VAN BAN

TU SU TIENG VIET

LUAN VAN THAC SI NGANH KHOA HOC MAY TINH

MA SO: 8.48.01.01

NGƯỜI HƯỚNG DAN KHOA HOC

PGS.TS Nguyén Luu Thuy Ngan

TP HO CHÍ MINH — NAM 2024

Trang 2

LỜI CAM ĐOAN

Tôi xin cam đoan:

Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn

trực tiếp của PGS TS Nguyễn Lưu Thùy Ngân

Mọi tham khảo trong luận văn đều được trích dẫn rõ ràng tên tác giả, tên côngtrình, và thời gian công bồ

Mọi sao chép không hợp lệ và vi phạm quy chế đào tạo tôi xin chịu hoàn toàn

Trang 3

LỜI CẢM ƠN

Trong suốt hành trình thực hiện luận văn này, tôi đã trải qua biết bao cảm xúc

lo lắng, bat an Có những lúc tưởng chừng như bế tắc, muốn bỏ cuộc, nhưng nhờ sựgiúp đỡ nhiệt tình và động viên đến từ Cô và nhiều bạn bè đã giúp tôi vượt qua giaiđoạn khó khăn để hoàn thành luận văn này Với lòng biết ơn sâu sắc, tôi xin dànhnhững lời cảm ơn chân thành nhất đến những người đã hỗ trợ tôi trong suốt quá trìnhhoàn tất luận văn thạc sĩ này

Tôi xin được gửi lời cảm ơn đầu tiên đến PGS TS Nguyễn Lưu Thùy Ngân,

người đã không chỉ là người hướng dẫn chuyên môn, mà còn là nguồn cảm hứng với

tôi trong quá trình làm đề tài Sự nhiệt huyết và kiến thức sâu rộng của Cô là kim chỉ

nam cho tôi trong suốt quá trình nghiên cứu

Tôi cũng xin gửi lời cảm ơn đến Thạc sĩ Nguyễn Đức Vũ, người đã hỗ trợ tôirất nhiều về mặt chuyên môn và góp ý giúp tôi hoàn thiện luận văn này

Lời cảm ơn cũng không thê thiếu đến bạn bè và đồng nghiệp, những người

đã sẻ chia, hỗ trợ tôi trong từng thí nghiệm, từng khảo sát Sự góp sức của các bạn là

một phần không thé tách rời trong thành công của luận văn này

Và cuối cùng, tôi muôn gửi lời cảm ơn đặc biệt đến gia đình tôi, nguồn động

viên vô hình nhưng mạnh mẽ nhất Sự kiên nhẫn, tin tưởng và yêu thương không điều

kiện của gia đình là điểm tựa tinh thần vững chắc cho tôi trong suốt quãng thời gian

qua.

Xin chúc tất cả mọi người thật nhiều sức khỏe và gặt hái nhiều thành công

trong công việc và cuộc sông

Thành phố Hồ Chi Minh, ngày tháng năm 2024

Học viên Nguyễn Như Thanh

il

Trang 4

MỤC LỤC

LOG CAM GOAN 8n 1

LOG CAM OT nh - il 0 0 5 a.aa 11 Danh mu Cac Dang 00057 e V Danh mục các hình vẽ và đồ thị, 2-22 2+2 2112212712171 re vi Chương 1 Tổng quan o cccccccsscsscssssssssssssssesssssssessessecsusssesssesssssecsusesesssecseeesees | 1.1 Động lực thực hiện đề tài ¿- 2-5522 2 2E eExerkrrer | 1.2 Mô tả đề tài chau | DBN, an ` |

1.2.2 Phạm vi nghiÊn CỨU ¿22+ 3S 3+1 *+*EE+EEseErrrrrrrrrsrrre 3 1.3 Mục tiêu đề tài che 4 1.4 Giá trị thực tiễn và ý nghĩa khoa học - - 2+2 s+£+£s+£ez+zzerxez 5 1.4.1 Giá trị thực tiễn cc-cctcriitriirrirrrirrrrrrrrrirrierreeo 5 1.4.2 Ý nghĩa khoa hoC cescsscsssesscsseesessessessesssessessessessessessesessesseesees 5 1.5 Các công trình liên quañ - c2 332218331 E332EEEEEEEErsrrererrvre 5 1.6 Đóng góp chính của luận văn - 5 5+ vn ng HH nrưy 6 1.7 Công bố khoa hỌc -:- 2+ 2252 E+EE+EE£EEE2EE2E12E12712711211211211271 21 re, 7 1.8 Cấu trúc luận văn -:-sc St x2EE12E115111155111211111111111111111 E1 Txce 7 Chương 2 Khái niệm về bạo hành và phân loại - 2-52 25s xczxerxersez 8 P.9 8

2.2.1 Bao hành vat ly (physical) - - c cv rey 9 2.2.2 Bao hành tinh dục (sexual) - 52c + scxseresreerreses 10 2.2.3 Bao hành lời nói/cảm xúc (verbal/emotional) .- 10

2.2.4 Bao hành tinh than/tam lý (mental/psychological]) 11

2.2.5 Bao hành tài chinh/kinh tế (financial/economic) 12

2.2.6 Bao hành van hóa/định danh (cultural/Identity) 13

1H

Trang 5

Chương 3 Xây dựng bộ dữ liệu - - Ăn He 14

3.1 Quy trình tổng quan các bước xây dựng bộ dữ liệu - 14

3.1.1 Tìm hiểu về dé liệu hiện có và khởi tao guidelines 15

3.1.3 Huấn luyện gan nhãn và hiệu chỉnh guidelines - 17

3.1.4 Tiến hành gan nhãn và hiệu chỉnh guideline -. - 18

3.1.5 Một số quy tắc được cập nhật sau quá trình huấn luyện và gan ¡0 1 20 3.2 Phân tích bộ dữ liệu - ¿2:22 +E 2213119122321 1511E21221 E111 1 e2 21 Chương 4 Thí nghiệm và đánh giá - - Gà HH HH HH re 25 4.1 Tông quan các phương pháp sử dụng 2-2 s+cx+zxzE+zzzzserxee 25 CS Bs Dod 1X0) 5) 5) 26

4.1.2 RoBE ND SEN NT 1 511 re 27 4.1.3 XLM-ROBERT 1057 27

AV.4 BiLSTM 28

4.1.5 BILSTM kết hợp CRE s- 2-52 5 E+SE‡EE2EE2EEEEEEEEEEeEkrrered 28 4.2 Tiền xử lý dữ liệu -¿ ¿ 2-55: 252 S2 222E12E121211211211221 217121211 xe 29 4.3 Kết quả thí nghiệm và đánh giá - 2-2 s2 ++2E2Ext£EE2Exzzxerxrre 32 4.3.1 Phương pháp đánh giả 2S 2S 1323 EsvEseresresreses 32 4.3.2 Kết quả thí nghiệm 22-2: ©2222x2EE22E222E2EEEEEerkrrrree 33 4.3.3 Phân tích mẫu kết quả dự đoán 2-©52+cz+cz+csrxze 36 Chương 5: Kết luận và hướng phát triỂn 2 s+S<+S£Ee+EeEeExeExrrerrees 40 nh {nan 40 5.2 Hướng phát triỀn 2-2: ++2+22Ext2EE£2E2212112711221211271221 21.22 re 40

Tài liệu tham khảo - - - - LH ng HH nh TH Hà HH ch nh Hưng 42

Phụ lục A Công bố khoa học 2-52 2SESEEEEEEE2E12E12E1271 212121 ectxee 48 Phụ lục B Guidelines gan nhãn dữ liệu -. 5 5 S25 S*2sscssersserssses 49

IV

Trang 6

DANH MỤC CÁC BANG

Bảng 1: Các loại nhãn bang tiếng Anh và ý nghĩa tương ứng ¿ cs¿ 21

Bảng 2: Độ dài trung bình của các đoạn bạo hành theo từng loại trong bộ dữ liệu 24

Bảng 3: Các mô hình thí nghiệm của đề tài - 222 2222£2EEEE22EEE122EEEeerrrrrved 26Bảng 4: Kết quả thực nghiệm cho tác vụ nhận diện bạo hành nhưng không phân loại.34Bảng 5: Kết quả thực nghiệm cho tác vụ nhận diện bạo hành va phân loại 35

Trang 7

DANH MỤC HÌNH VE VA ĐỎ THỊ

Hình 1.1: Hình minh họa Input và Output bai toán -. ¿555 <s+cs+sc+sssesses 3

Hình 2.1 Định nghĩa về bạo hành theo [40] - 2-52 2 x2E+2EE££E++EeExerEeerxeez § Hình 2.2 Định nghĩa về bạo hành của tổ chức REACH [ 1] -2- 5z: § Hình 2.3 Định nghĩa về bạo hành (abuse) trong từ điển Cambrigde 9 Hình 3.1: Quy trình tổng quan xây dựng bộ đữ liệu -2- 255z+cs+cxccse2 14

Hình 3.2: Xây dựng guideline gan nhãn dữ liệu - ¿5c +22 *+++xsexsses 15

Hình 3.3: Quy trình huấn luyện gam nhãn -2- 2 52+ 2+x+2E2EE+£xzEzerxrrerred 18 Hình 3.4: Giao diện tổng quan của công cụ gan nhãn doccano - 19 Hình 3.5: Giao điện khi gan nhãn bằng công cụ doccano - -: -: z2 19 Hình 3.6: Giao diện khi gan nhãn bằng công cụ doccano -. -: 2-52 20 Hình 3.7: Biéu đồ thé hiện sự phân bồ của các loại bạo hành trên tong thé dữ liệu 22 Hình 3.8: Biểu đồ thể hiện sự phân bồ các loại bạo hành theo từng tập train, dev,

Hình 4.2: Một dự đoán của PhoBERT large cho tác vụ nhận diện đoạn bạo hành

H000601538 4010015800(7)001) 000171777 37 Hình 4.3: Một dự đoán của PhoBER Tlarge cho tác vụ nhận diện va phân loại bạo

Mi

Trang 8

Chương 1 TONG QUAN

1.1 Động lực thực hiện đề tai

Trong thời đại số hóa thông tin hiện nay, dữ liệu văn ban từ các chuyên mục

tâm sự trên báo điện tử và mạng xã hội không chỉ phong phú về số lượng mà còn đa

dạng về nội dung, phản ánh trực tiếp các van dé tâm ly và xã hội đang diễn ra Việc

ứng dụng công nghệ xử lý ngôn ngữ tự nhiên không chỉ giúp phân tích và rút trích

thông tin quý giá từ nguồn dữ liệu này, mà còn mở ra khả năng tạo ra các giải pháp

công nghệ, chăng hạn như các chatbot tư vấn tâm lý, hệ thống hỏi đáp tự động, đóng

vai trò như những trợ lý ảo thông minh hỗ trợ tâm lý cho người dùng.

Dựa trên nền tang này, đề tai mong muốn đóng góp vào việc phát triển bộ dữliệu chuyên biệt và áp dụng một số phương pháp tiêu biểu trong lĩnh vực xử lý ngônngữ tự nhiên vào việc phân loại và phát hiện tự động các hanh vi trong văn ban tiếngViệt để đánh giá bộ dữ liệu Điều này không chỉ có ý nghĩa khoa học, mà còn gópmột phần nhỏ giúp nâng cao nhận thức xã hội về van dé bạo hành, đang là một van

đề nhức nhối và được cộng đồng quan tâm sâu sắc

Với xu hướng tăng trưởng không ngừng của ngành công nghệ thông tin và sự

quan tâm ngày càng cao đối với van đề sức khỏe tâm than trên toàn cau, đây chính là

nguồn cảm hứng và động lực cho học viên trong việc thực hiện đề tài này

1.2 Mô tả đề tài

1.2.1 Phát biểu đề tài

Khái niệm bạo hành là một khái niệm phức tap và khó Do đó, dé thống nhất va

dễ dàng trong việc xây dựng guideline, đề tài sẽ dựa theo khái niệm như sau: bạo

hành là hành vi mà một người dùng để thể hiện quyền lực và sự kiểm soát đối vớingười khác Bạo hành không chỉ giới hạn ở hình thức vật lý mà còn bao gồm nhiềuhình thức khác nhau, phản ánh qua ngôn ngữ và hành vi trong giao tiếp

Khái niệm này sẽ được đề cập chi tiết ở Chương 2 của luận văn

Về phân loại, theo [1] sẽ có 06 loại bạo hành như sau:

e Physical (vật ly).

e Sexual (tinh duc).

e Financial/Economic (tai chinh/kinh tế)

¢ Cultural/Identity (văn hóa/bản sắc)

Trang 9

e Verbal/Emotional (lời ndi/cam xúc).

e Mental/Psychological (tinh than/tam ly)

Mỗi loại bao hành ké trên có đặc trưng riêng, từ cách thé hiện đến tác động lênnạn nhân Chỉ tiết về khái niệm các loại bạo hành, cách nhận diện, dấu hiện, cách xácđịnh loại bạo hành sẽ được đề cập ở những chương sau

Sau cùng, dé đánh giá bộ dit liệu, học viên cũng tiến hành chạy các thí nghiệmvới một số phương pháp tiêu biểu cho bài toán Nhận diện bạo hành trong văn bản tự

sự tiếng Việt Cụ thé input va output như sau:

e Input: văn bản tự sự tiếng Việt Bai toán yêu cầu xác định các đoạn văn bản

chứa hành vi bạo hành và phân loại chúng vào một trong các loại trên.

e Output: các đoạn trong văn bản có chứa bạo hành, cùng với phân loại bạo

hành tương ứng.

Trang 10

Nhận diện bạo hành trong văn bản tự sự Tiếng Việt

lAnh bảo vợ người ta giảu có, vợ minh vô tích sự, ăn hại Anh

mua noi cái xe, bảo tôi phải mua xe để đi lại, ngoài ra các kho:

‘ciing bắt tôi gánh vác Tôi chưa kiếm được việc làm, anh bảo.

lười nhac Đến khi tôi đi làm, lại nói vợ ăn diện, đi theo các

trên công ty Chưa đóng tiền nhà trọ, anh cho rằng tôi đi theo ngư

ta dé trừ tiền trọ Tôi không như thé mà bị chồng vu oan nhiều là

‘ctr bảo tôi di với người nọ người kia Tôi cảm thấy mình khô

được tôn trọng Anh sống giả dối, không có tình cảm với tôi,

ham giàu Nếu ở hoàn cảnh của tôi, mọi người nên làm thé nào?

tôi gánh vác GinanciaVeconomic) | Tôi chưa kiếm được việc làm, anh bảo tôi lười! nhac Đến khi tôi đi làm, lại nói vợ ăn diện, đi theo các anh trên công ty Chưa đồng)

xiên nhà trọ, anh cho rằng tôi đi theo người ta đẻ trừ tiền trọ [

JƑSM.0960EEÌ lTôi cảm thấy mình không được tôn trọng

mental/psychological) | Anh séng gi déi, không có tình cảm với tôi, lại hám giàu;

u ở hoàn cảnh của tôi, mọi người nên lam thế nào?

{He said that other people's wives were rich, but his wife was!

‘useless and a loser He couldn't buy a car, so he told me to buy one!

‘for him, then forced me to bear his debts When I don’t have a joi

the concludes I'm lazy When I went to work, he told me dressing’

‘up, having an affair with other guys at my company When I haven't:

loreed me to bear his debis AAAI vn ¡ gọn, have a job, he!

yconcludes I'm lazy When I went to work, he told me dressing up, having an affair!

‘paid the rent, he assumes I'm going with someone to deduct the; ith other guys at my company When I haven't paid the rent, he assumes I'm going!

‘rent I'm not that person, but my husband has accused me many: jwith someone to deduct the rent [I'm not that person, but my husband has accused:

‘times, concluding that I have an affair with this person or that; me many times, concluding that I have an affair with this person or that person!

‘person I feel disrespected He lives a lie, has no feelings for me,' TERBIRERIHEEGI [I feel disrespected (mental/psychological) He lives a lie, has no!

‘and is greedy for wealth What should people do if they were in my; ‘feelings for me, and is greedy for wealth What should people do if they were in my!

‘situation?) i situation?)

1.2.2 Phạm vi nghiên cứu

Phạm vi của đề tài tập trung nghiên cứu cho việc phát hiện bạo hành trong các

văn bản tiếng Việt có nội dung tự sự Văn bản tự sự là các văn bản mà người viết

trình bày trải nghiệm, cảm xúc hoặc suy nghĩ của bản thân họ, thường thấy trong cácbài viết như nhật ký, tâm sự

Đề tài cụ thê sẽ tiễn hành phát hiện và phân loại bạo hành thành 06 loại khác

nhau:

e Vật lý (Physical): những hành động gây thương tích hoặc đau đớn về thê xác e@ Tinh dục (Sexual): các hành vi xâm phạm hoặc lạm dụng về mặt tình dục.

e Tài chính/Kinh tế (Financial/Economic): bạo hành thông qua việc kiểm soát

hoặc lạm dụng các nguồn lực tài chính hoặc kinh tế của người khác, hoặc hanh vi

khống chế, không cho nạn nhân đi làm, hoặc sử dụng tiền do chính mình làm ra.

e Văn hóa/Bản sắc (Cultural/Identity): Bao hành liên quan đến việc xúc phạm,

phân biệt bản sắc văn hóa hoặc danh tính cá nhân

® Lời nói/Cảm xúc (Verbal/Emotional): Bao hành thông qua việc sử dụng lờinói dé gây ton thương tinh than

e Tinh than/Tam ly (Mental/Psychological): Hanh vi gây áp luc tâm lý, như đe

doa, ham dọa hoặc làm suy yếu lòng tự trọng của người khác

Trang 11

1.3 Mục tiêu đề tài

Mục tiêu của đề tài này là xây dựng một bộ dữ liệu tiếng Việt chuyên biệt dùng

dé nhận diện và phân loại các hình thức bạo hành trong các văn bản tự sự bằng tiếng

Việt, làm tiền đề nhằm cung cấp sự hiểu biết sâu hơn về cách thức bạo hành được

biểu hiện trong ngôn ngữ và cách chúng ảnh hưởng đến người bị hại

e Mục tiêu 1: Hiéu được các phương pháp, cách tiếp cận tiêu biểu hiện nay cho

bài toán phát hiện tự động và phân loại các hành vi trong văn bản.

e Muc tiêu 2: Xây dựng bộ đữ liệu tiếng Việt cho bài toán và guidelines gan

nhãn dữ liệu.

e Mục tiéu 3: Dựa trên bộ đữ liệu thu thập ở mục tiêu 1, thử nghiệm va đưa ra

kết quả so sánh giữa các phương pháp

Đối với mục tiéu 1, học viên tập trung tìm hiểu các phương pháp tiên tiến

hiện nay cho bài toán phát hiện và phân loại hành vi trong văn ban Cu thể, học viên

sẽ tập trung vào việc khảo sát, phân tích một mô hình xử lý ngôn ngữ tự nhiên (NLP).

Đối với muc tiêu 2, dé xây dựng bộ dữ liệu tiếng Việt cho bài toán và hướngdẫn cách gan nhãn cho dir liệu Học viên tập trung vào việc thu thập, tổ chức một bộ

đữ liệu tiếng Việt có chứa các hành vi bạo hành, bao gồm 06 loại bạo hành khác nhau

đã đề cập Nguôn đữ liệu sẽ là từ các nguồn chính thống và công khai, sau đó phát

triển một bộ guideline bao gồm các quy tắc và chi tiết dé gan nhãn cho các loại baohành trong văn bản, đảm bảo tính chính xác và đồng nhất trong việc gán nhãn

Đối với mục tiéu 3, học viên sẽ tiến hành thực hiện thử nghiệm dé đánh giá bộ

dữ liệu đã thu thập và gán nhãn thủ công.

Tóm lại, mục tiêu của đề tài như sau:

e Xây dựng bộ dữa liệu riêng biệt cho văn bản tự sự tiếng Việt bang cáchthu thập bài viết tâm sự, tự sự trên trang báo điện tử VnExpress, và xây dựngguideline và tiến hành gán nhãn thủ công, cũng như chỉnh sửa guideline hoàn

chỉnh.

e Chạy thử nghiệm dựa trên một số mô hình baseline tiêu biểu như: PhoBERT[23], XLM-RoBERTa [30] dé đánh giá độ phức tạp bộ đữ liệu

Trang 12

1.4 Giá trị thực tiễn và ý nghĩa khoa học

1.4.1 Giá trị thực tiễn

Việc áp dụng xử lý ngôn ngữ tự nhiên để phát hiện và phân loại bạo hành trong

văn bản tiếng Việt sẽ hỗ trợ trong việc nhận diện các vấn đề tâm lý và xã hội, góp

phần nhỏ làm tiền đề cho việc phát triển các ứng dụng xử lý ngôn ngữ tự nhiên về tư

van tâm lý, chăm sóc sức khỏe tinh thần của con người trong xã hội Điều này khôngchỉ giúp ích cho người dùng cuối trong việc tiếp cận dịch vụ tư van tâm lý, mà còn

hỗ trợ cộng đồng và các tô chức xã hội trong việc cảnh báo, nhận diện các vấn đề liên

quan đến bạo lực và sức khỏe tâm thần

1.4.2 Ý nghĩa khoa học

Về mặt khoa học, nghiên cứu này góp phần đặt nền móng cho bài toán nhận

diện bạo hành trong các văn bản tự sự, việc này đóng góp vào cơ sở kiến thức về ứngdụng xử lý ngôn ngữ tự nhiên, mở rộng khả năng của các thuật toán, mô hình hiệndai và tăng cường hiéu biết về đặc thù ngôn ngữ cũng như văn hóa Việt Nam Ngoài

ra, việc tạo ra bộ dữ liệu và phát triên hướng dẫn gán nhãn dữ liệu sẽ là tiền đề chocác nghiên cứu tiếp theo

1.5 Các công trình liên quan

Trong những năm gần đây, việc phát hiện các ngôn ngữ và các vấn đề liênquan như lời nói xúc phạm đã thu hút sự chú ý đáng ké từ cộng đồng Xử lý Ngôn ngữ

Tự nhiên (NLP) Nghiên cứu trong lĩnh vực này chủ yếu tập trung vào một số chủ đề

cụ thê như HateSpeech [8, 26], Cyberbullying [1-3, 11], và Phân biệt giới tính/Chủngtộc [6, 16, 37] Phần lớn các công trình nghiên cứu này được thực hiện bằng tiếng

Anh hoặc các ngôn ngữ khác như tiếng Trung, tiếng Tây Ban Nha và tiếng Pháp Bêncạnh đó, đa số các tập dữ liệu cho các nhiệm vụ này được thu thập từ hai nên tảngmạng xã hội phô biến hiện nay, bao gồm Twitter [2, 8] và Facebook [11, 17] Tương

tự, trong lĩnh vực tiếng Việt, hầu hết các công trình liên quan đến lĩnh vực này cũng

chủ yếu tập trung vào Hate Speech như ViHSD [21], HSD-VLSP [36], UIT-ViCTSD

[24], và Vi-HOS [14] dựa trên các bình luận thu thập từ các nền tảng mạng xã hội.Tất cả các tập dữ liệu này đều đại diện cho các vấn đề phân loại đa lớp, ngoại trừ tập

dữ liệu SemEval-2021 Task5: Toxic Spans Detection [26] cho tiếng Anh và Vi-HOS:

Hate Speech Spans Detection [14] cho tiếng Việt, liên quan đến phân loại đa nhãn

Trang 13

Phần lớn các công trình liên quan đến việc phát hiện ngôn từ xúc phạm và thù

hận đã sử dụng các mô hình học máy truyền thống như Logistic Regression dựa trên

ky tự n-gram [13], va Support Vector Machines [25] cũng như các mô hình liên quanđến mạng nơ-ron sâu kết hợp với word embeddings [4, 29, 41] Ké từ khi BERT [9]

xuất hiện, nhiều công trình đã được thực hiện dựa trên BERT [9] và các biến thé của

nó, đạt được kết quả cao trong các cuộc thi như 2019 task 6 [39],

SemEval-2020 task 12 [40], và SemEval-2021 task 5 [27] Đối với bài toán phát hiện đoạn vănđộc hai, có một số công trình bằng tiếng Anh như các nhóm tham gia SemEval-2021

Task 5: Toxic Spans Detection [26] va tập dữ liệu HateXplain [22], và ở Việt Nambao gồm ViHOS: Hate Speech Spans Detection cho tiếng Việt [14] Nhìn chung, các

công trình trên sử dụng các mô hình kết hợp dựa trên transformer và mạng nơ-ron

Đặc biệt, nhóm đạt giải cao nhất (HITSZ-HLT) trong SemEval-2021 Task 5 [39] đã

sử dụng hai hệ thống dựa trên BERT [9], trong đó một hệ thống thêm lớp Conditional

Random Field (CRF) [31], và một hệ thong khác thêm lớp LSTM [12] giữa BERT va

lop CRF Đối với tap dữ liệu HateXplain [4], họ đã thi nghiệm với nhiều mô hình

như CNN-GRU, BIRNN, BiRNN-Attention, va BERT trên tập dữ liệu của ho.

Trong VIHOS [14], họ đã sử dụng các mô hình baseline mạnh như

BiLSTM-CRF [33], XLM-RoBERTa [30], và PhoBERT [23] dé đánh giá hiệu quả của tập dữliệu của họ Các thí nghiệm của đề tài cũng sẽ dựa vào các phương pháp của bài báonày dé thực hiện

1.6 Đóng góp chính của luận văn

Các đóng góp chính của luận văn như sau:

e Xây dựng bộ dit liệu chuyên biệt bằng tiếng Việt về các hình thức bạo hành,

kèm theo guidelines về cách thức gán nhãn cho dữ liệu Bộ dữ liệu này không chỉ

phục vụ cho nghiên cứu này mà còn là nguồn tài nguyên có giá trị cho các nghiên

cứu sau nay trong lĩnh vực tương tự.

e Thí nghiệm trên bộ đữ liệu cho bài toán nhận diện bạo hành trong văn bản

tự sự tiếng Việt Từ đó rút ra những thách thức về mặt dữ liệu cho bài toán này, cũng

như các hướng cải tiễn và phát triển khác trong tương lai Từ đó, cung cấp cái nhìntổng quan cho bài toán nhận diện bạo hành trong văn bản

Trang 14

1.7 Công bố khoa học

Nhu-Thanh Nguyen, Khoa Thi-Kim Phan, Duc-Vu Nguyen, and Ngan

Luu-Thuy Nguyen 2023 Abusive Span Detection for Vietnamese Narrative Texts In The 12th International Symposium on Information and Communication Technology

(SOICT 2023), December 7—8, 2023, Ho Chi Minh, Vietnam ACM, New York, NY, USA, 8 pages https://doi.org/10.1145/3628797.3628921

1.8 Cầu trúc luận văn

Luận văn này được cấu trúc thành năm chương như sau:

e Chương 1: Tổng quan - Chương này giới thiệu khái quát về dé tài nghiên

cứu, bao gồm ngữ cảnh, mục đích và ý nghĩa của luận văn

e Chương 2: Khái niệm về bạo hành và phân loại - Chương này trình bày các

khái niệm về bạo hành, các định nghĩa của từng loại bạo hành

e Chương 3: Xây dựng bộ dữ liệu - Chương này tập trung vào việc phát triển

và mô tả quy trình xây dựng bộ dữ liệu được sử dụng trong nghiên cứu, cũng như

phân tích bộ dữ liệu xây được được.

e Chương 4: Thí nghiệm và đánh giá - Chương này mô tả việc thực hiện các

thử nghiệm và phương pháp sử dụng trong nghiên cứu.

e Chương 5: Kết luận và hướng phát triển - Tổng hợp kết quả nghiên cứu,

nhận định về ý nghĩa và tác động của nó Ngoài ra, chương này cũng đưa ra những

đề xuất cho các hướng nghiên cứu tiếp theo, cũng như khả năng áp dụng thực tiễn

của nghiên cứu trong tương lai.

Trang 15

Chương 2 KHÁI NIEM VE BAO HANH VÀ PHAN LOẠI

Trong chương này, học viên sẽ trình bày về khái niệm bạo hành, các định nghĩa

của từng loại bạo hành.

2.1 Khái niệm

Có nhiêu khái niệm về bạo hành, ví dụ như:

Office on Violence Our Offices Find Help Contac’

Against Women (OVW)

U.S Department of Justice

Justice.gov > Office on Violence Against Women (OVW) > Focus Areas > Domestic Violence

Domestic Violence

Share

Quick Exit Cf

What Is Domestic Violence?

partner relationship This includes any behaviors that intimidate, manipulate, humiliate, isolate, frighten, terrorize, coerce, threaten, blame, hurt, injure, or wound someone.

Hinh 2.1 Dinh nghia vé bao hanh theo [40]

Tổ chức REACH [32], định nghĩa bạo hành cũng tương tự như trên:

reachma.org

6 Different Types of Abuse

by: REACH TEAM

Date: Mar 23, 2017

The commonly held definition of abuse, which we use in all of our trainings, is “a pattern of behavior used by one person to gain and

in other words, not just one incident These behaviors can take on a number of different forms Many people, when they hear the word “abuse,” think of physical violence It’s important to note that physical force is one means of power and control and it is far from the only one It’s often not the first one an abuser will use Below are six different types of abuse we discuss in our training with new volunteers or employees.

Hình 2.2 Dinh nghĩa về bạo hành của tổ chức REACH [32]

Trang 16

Định nghĩa trong từ điển Cambrigde? như sau:

*s dictionary.cambridge.org

tionary Translate © Grammar Thesaurus Cambridge Dictionary +Plus ShopZ

(Definition of abuse from the Cambridge Advanced Learners Dictionary & Thesaurus © Cambridge University Press)

“abuse | AMERICAN DICTIONARY,

to treat a person or animal badly or cruelly, or to use something in the wrong way

Hình 2.3 Dinh nghĩa về bao hành (abuse) trong từ điển Cambrigde

Từ những định nghĩa trên, học viên khái quát lại định nghĩa của bạo hành như

sau: là những hành vi, lời nói, hành động được sử dụng bởi một người nhằm mục

đích giành lay hoặc duy trì quyền lực, kiểm soát đối với người khác

2.2 Phân loại bạo hành & định nghĩa

Có 6 loại bạo hành [32]: vat ly (physical), tình duc (sexual), lời nói/cảm xúc(verbal/emotional), tinh than/tam lý (mental/psychological), tài chính/kinh tế

(financial/economic), văn hóa/định danh (cutural/identity) Cụ thé sẽ được trình bày

như sau:

2.2.1 Bao hành vật ly (physical) [32,40,42]

Day là loại bạo hành mà nhiều người khi nghe đến bạo hành thường nghĩ đếnnhất Nó có thể bao gồm các tác động vật lý như: đánh, đấm, tát, đá, bóp cô, hoặc

kiềm chế một cách cưỡng bức đối với người khác Tóm lại là những tác động vật lý

bằng bất kỳ cách nào khác lên người khác trái với ý muốn của họ, với mục đích duytrì quyền lực, kiểm soát đối phương

Thường sẽ có các tình huống tương tự như sau:

! https://dictionary.cambridge.org/dictionary/english/abuse

Trang 17

e Cac hành động đánh, đấm, tát, đá, bóp cô, hoặc khống chế người khác

trái với ý muốn của họ

¢ Bao gồm việc có ý/liều lĩnh lái xe gây tai nạn

e Sử dụng vũ khí dé táo|đØÚb lêm đối phương

e Hoặc hành vi cô ý khác xâm hại đên sức khoẻ, tính mạng của người khác.

Có các từ ngữ mô tả các hành động như sau:

e đánh, dam, đá, tát, bóp cô, giết, ban, hành ha, xô ngã, đau, bị thương,

sưng, bam tím, lôi cổ, kéo lê,

2.2.2 Bao hành tình dục (sexual) [2,32,40,41]

Hành động cưỡng bức, cưỡng ép ai đó về tình dục, trái với mong muốn của họ,

hoặc không có sự đồng ý của họ

Thường sẽ có các tình huống tương tự như sau:

e Quan hệ tình dục không có sự đồng thuận: một người bị ép buộc phải

quan hệ tình dục bởi người khác mà không có sự đồng ý của họ

e Hành vi quấy rồi tinh dục, cưỡng bức Ví dụ như:

o Một nhân viên bi cấp trên đụng chạm cơ thể hoặc dùng lời lẽ mang

tính chất ga gam tình dục tại nơi làm việc

o Một người bị ép buộc phải thực hiện các hành vi tình dục thông

qua đe dọa hoặc cưỡng ép.

e Lén quay phim, chụp ảnh nhạy cảm mà không có sự cho phép và dùng

những hình ảnh nhạy cảm để đe dọa nạn nhân

Các hành vi bên dưới có thể xuất hiện:

e _ Đánh đập, khống chế, vũ lực dé cưỡng ép, [rong một sỐ trường hợp,

hành vi tình dục cưỡng bức có thể đi kèm với bạo hành vật lý như đánh

đập hoặc khống chế nạn nhân dé thực hiện hành vi tình dục.

2.2.3 Bao hành lời nói/cảm xúc (verbal/emotional) [32,43]

Dùng lời nói dé làm tôn thương tinh thần, cảm xúc của người khác Thường sẽ

có các tình huống tương tự như sau: dùng lời nói dé mang chửi, si nhục, bôi nhọ danh

dự, sỉ nhục về ngoại hình, hoặc không đúng thực tế và làm ton thương đến tâm lý,

10

Trang 18

tinh than nạn nhân Và có các từ thường xuất hiện: chửi bới, mắng, sỉ nhục, sỉ vả, bôi

nhọ danh dự, xúc phạm, chê bai, mia mai, soi mói, bia đặt, bêu rếu,

Một số ví dụ:

e Ví dụ 1: Một học sinh bị bạn bè liên tục chê bai về ngoại hình, gọi bang

những biệt danh xúc phạm.

Phân tích: Lời nói gây ton thương tâm lý bạn học sinh này

e Ví dụ 2: Một nhân viên bị đồng nghiệp bêu rếu và vu oan về việc ăn cắp

trong công ty, khiến anh ta bị mọi người xa lánh và tinh thần suy sup

Phân tích: Lời nói và hành động này làm tổn hại đến danh dự và tinh thần

của nhân viên.

e Vi du 3: Phụ huynh thường xuyên sỉ nhục va mia mai con minh về việc

học hành kém cỏi.

Phân tích: Lời nói này gây tôn hại tinh thần và tâm lý của đứa trẻ

2.2.4 Bao hành tinh thần/tâm lý (mental/psychological) [32,45]

Bạo hành này xảy ra khi một người thông qua một loạt các hành động, làm

suy giảm sức khỏe tinh than của người kia Bao gồm việc làm cho nạn nhân nghỉ ngờ

về sự tỉnh táo của chính mình Bao gồm chủ yếu là các hành vi được sử dụng dé kiêm

soát, cô lập hoặc làm nạn nhân sợ hãi Thường thì người bạo hành sử dụng nó dé pha

vỡ lòng tự trọng va gia tri ban thân của nạn nhân nhằm tạo ra sự phụ thuộc tâm lý vào

họ Thường có các tình huống tương tự như sau:

e Nạn nhân luôn bị kiểm soát, điều khiển tâm ly bởi kẻ bạo hành Vi du:

Chồng luôn theo đõi, kiểm soát mọi hoạt động của vợ, từ việc ra ngoài,nói chuyện với ai đến cách ăn mặc

e BỊ coi thường, mia mai ước mơ Ví dụ: Một đứa trẻ luôn bị cha mẹ xem

thường ước mơ của mình, dù nó đạt được nhiều thành tích trong học tập

nhưng vẫn không được công nhận.

e Bị đánh giá thấp năng lực, bi cho rằng không đủ khả năng và năng lực

chồng đánh giá thấp, cho rằng cô không đủ khả năng để làm việc hay đưa

ra quyết định cho cuộc sông của mình.

11

Trang 19

e Bị tiết lộ và chia sẻ thông tin hoặc những bí mật của riêng cho nhiều

người khác, mặc dù chưa có sự đông ý.

2.2.5 Bạo hành tài chính/kinh tế (financial/economic) [32,44]

Dùng tài chính, kinh tế dé kiểm soát người khác Bởi vi bạo hành liên quan đếnquyền lực và kiểm soát, kẻ bạo hành sé sử dụng bat kỳ phương tiện nao cần thiết dé

duy trì sự kiểm soát đó, và thường bao gồm cả tài chính

Có thê là kiểm soát toàn bộ ngân sách trong gia đình và không cho người bị bạo

hành truy cập vào tài khoản ngân hàng hoặc tiền chi tiêu của minh, hay mở thẻ tindụng và tạo ra các khoản nợ dưới tên của người bị bạo hành, hoặc đơn giản là khôngcho người bị bạo hành có việc làm và kiếm tiền riêng Loại bạo hành này thường là

lý do lớn khiến ai đó không thê rời khỏi mỗi quan hệ bạo hành Thường có các tìnhhuống tương tự như sau:

e Kiểm soát tài chính của nạn nhân, không cho họ sử dụng tiền của chính

họ.

o Ví dụ: một người chồng không cho vợ tiếp cận tài khoản ngân

hàng hoặc sử dụng thẻ tín dụng của chính mình, kiểm soát mọi

chi tiêu của vợ.

e Dùng tên nạn nhân dé mở tín dụng, vay mượn không trả dẫn tới nợ xấu

o_ Ví dụ: một người sử dụng thông tin cá nhân của người khác để

mở thẻ tín dụng và vay mượn tiền, sau đó không trả nợ, dẫn đến

nạn nhân bị nợ xấu và gặp khó khăn trong việc vay tiền hoặc tìm

việc làm.

e Không cho nạn nhân (là người trưởng thành, đủ điều kiện đi làm) có việc

làm, tự kiếm thu nhập

o Ví dụ: Một người vợ muốn đi làm nhưng bị chồng cắm cản, không

cho phép ra khỏi nhà hoặc liên hệ với nhà tuyển dụng

e Lua đảo, ăn cắp tiền của nạn nhân

Thường có các từ thường xuất hiện như sau: nợ, thiếu tiền, cờ bạc, giam lỏng,cam, tịch thu, ăn cap, lừa đảo, lừa dôi, tài chính, nợ tín dụng, vay mượn.

12

Trang 20

2.2.6 Bao hành văn hóa/định danh (cultural/identity) [19,32,35]

Dùng các khía cạnh văn hóa, bản sắc của cá nhân dé làm tốn hại tinh thần, cảmxúc của họ, hoặc đe đọa họ Bạo hành văn hóa danh tính xảy ra khi kẻ bạo hành sửdụng các khía cạnh trong danh tinh văn hóa của nạn nhân dé gây đau khổ hoặc làm

phương tiện kiểm soát Thường có một số tình huống tương tự như sau:

e Không cho phép ai đó tuân thủ các phong tục ăn uống hoặc trang phục

theo đức tin của họ, sử dụng lời lẽ phân biệt chủng tộc, đe dọa sẽ tiết lộ

ai đó là LGBQ/T nếu bạn bè và gia đình của họ không biết

e_ Hoặc cô lập một người không nói ngôn ngữ chính nơi họ sống - tat cả

những điêu này đêu là ví dụ của bạo hành văn hóa.

13

Trang 21

Chương 3 XÂY DỰNG BỘ DỮ LIỆU

3.1 Quy trình tổng quan các bước xây dựng bộ dữ liệu

1 Huấn luyện gan

Hình 3.1: Quy trình tổng quan xây dựng bộ dữ liệu

Nguồn dữ liệu cho đề tài này được thu thập từ chuyên mục Tâm Sự của báo điện

tử VnExpress ?, nơi mà người dùng đăng tải nhiều câu chuyện tâm sự của họ về nhiềukhía cạnh khác nhau trong cuộc sống xã hội Tổng cộng, học viên đã thu thập hơn

4,800 câu chuyện, mỗi câu chuyện sau đó được lưu trữ dưới dạng tệp văn bản (.txt),

tạo thành một bộ dữ liệu thô phục vụ cho quá trình nghiên cứu.

Sau đó, học viên đã chọn ngẫu nhiên ra 1,041 văn bản từ bộ dữ liệu thô thu

thập được Các văn bản được chọn sẽ được sử dụng để gán nhãn và thực hiện các thínghiệm đánh giá Những văn bản còn lại trong bộ dir liệu thô ban đầu sẽ tiếp tục được

gan nhãn trong trong tương lai, nhằm mở rộng và củng cố bộ dữ liệu phục vụ cho cácnghiên cứu sau này.

Tổng quan quy trình xây dựng bộ đữ liệu sẽ có hai bước chính là: huấn luyện

gán nhãn và gán nhãn Ở mỗi bước, guidelines déu sé duoc hiéu chinh, cap nhat thém

các quy tắc giúp người gan nhãn xác định được loại bao hành một cách đồng nhất

hơn.

? https://vnexpress.net/tam-su

14

Trang 22

Trước tiên, học viên sẽ trình bày về quá trình khởi tạo guidelines từ các định

nghĩa Tiếp đến, học viên sẽ đề cập đến hai bước chính của quá trình xây dựng bộ dữliệu.

Thông tin đội ngũ xây dựng guidelines, gan nhãn như sau:

Họ tên Background Vai trò Nội dung công việc

Nguyễn Như Thanh | Tốt nghiệp trường | - Xây dựng | Chịu trách nhiệm chính

ĐH Công nghệ guidelines |trong việc xây dung

thông tin - Gan nhãn | guideline, hiệu chỉnh,

Tham gia vào quá trình

gan nhãn dữ liệu.

Lưu Kim Long Tốt nghiệp trường | Gán nhãn | Tham gia vào quá trình

ĐH Công Nghiệp huấn luyện và gan nhãn

— ngành CNTT dữ liệu.

Nguyễn Thanh Hải | Tốtnghiệp trường | Gánnhãn | Tham gia vào quá trình

ĐH Khoa Học Tự huấn luyện và gán nhãn

Nhiên - ngành dữ liệu.

CNTT

3.1.1 Tìm hiểu về dữ liệu hiện có và khởi tạo guidelines

(2) Annotate data based on guidelines

1) Initialize guideline

| Guidelines Guidelines

author L7 data

(3) Adjust or provide more examples

about the abuse to guidelines.

Hình 3.2: Xây dung guideline gan nhãn dữ liệu

15

Trang 23

Giai đoạn này tập trung vào việc khởi tạo guidelines gán nhãn dữ liệu Mục tiêuchính là cung cấp các hướng dẫn, quy tắc phân loại cho các người gan nhãn dữ liệu

(annotators), giúp họ có thé xác định va phân loại các nội dung bạo hành Trong quá

trình khởi tạo này, cũng được chia ra làm 03 bước nhỏ như sau:

e Bước 1 Khởi tao guidelines: từ các định nghĩa bạo hành & loại bạo hành,

cùng với các dau hiệu nhận diện cho từng loại

e Bước 2 Gan nhãn trên tập dữ liệu mẫu: chọn ngẫu nhiên một tập 100 văn

bản và tiễn hành gan nhãn dựa trên guidelines bước 1 Bước này nhằm mục đích giúpcho tác gia guidelines hiểu hơn về dữ liệu, cũng như thu thập một số tình huống thực

tế và những từ hay xuất hiện Đầu tiên, văn bản sẽ được đánh giá dé xác định liệu nó

có chứa yếu tô bạo hành hay không Việc đánh giá nay, sẽ dựa vào quy tắc như sau:

Quy tắc lọc nhanh văn bản có bạo hành hay khôngTình huống/hành VI Các tác động vật lý: đánh đập, ngược đãi, hành

hung, giết, tat, đá, xô đây, giam cam, cưỡng bức,

Lời nói gây tôn hại cảm xúc: chửi bới, măng, dụ dỗ,

bêu rêu, quây ray, mia mai, sỉ nhuc,

Hành vi khác như: ngoại tình, cờ bạc, nước mắt, nợ

nân, tiên, cờ bạc, rượu chè,

Một số từ ngữ diễn tả | Ví dụ: ám ảnh, đau đớn, suy sup, gia trưởng, that

cảm xúc vọng, rôi bời, tram cảm, chanh lòng, tui nhục

Sau khi xác định văn bản có thể chứa nội dung bạo hành, sẽ tiến hành đọc kỹ văn bản

và bám sát định nghĩa trong guidelines để xác định đoạn bạo hành và phân loại trên

tap dir liệu mẫu.

e Bước 3 Hiệu chỉnh guideline: trong quá trình gan nhãn thử trên tập dữ liệu

mẫu, guidelines sẽ được chỉnh sửa, bồ sung Sau đây là một số ví dụ trong quá trình

hiệu chỉnh:

Cập nhập 1: Nếu lời nói là lời nhận xét, khiển trách mang tính xây dung, không

có ý sỉ nhục, vu khống thì không được xem là bạo hành.

16

Trang 24

Vị dụ 1: Một giáo viên nhận xét rằng học sinh cần cố gắng hơn trong việc học,

khiến học sinh cảm thấy buồn

Ví dụ 2: Lời mắng chửi, sỉ nhục xuất phát từ cả hai phía cũng không được xem

là bạo hành lời nói.

Cập nhật 2: Bạo hành không phải là một tai nạn, sự cô do vô ý Những hành vi,

lời nói vô ý làm tốn thương cảm xúc, tinh thần của người khác, thi không được gannhãn là bạo hành.

Vị dụ 1: Trong lúc chơi bóng, một cầu thủ vô tình va chạm mạnh làm đối phương

bị chấn thương

Vị dụ 2: Một người mẹ đang nấu ăn, vô tình dé nước sôi bắn vào tay con mình

Ví dụ 3: Một nhân viên văn phòng vô tình làm đồ cà phê lên máy tính của đồng

nghiệp, gây hỏng hóc.

Ví dụ 4: Một người vô tình bước vào phòng và làm giật mình người khác, khiến

người đó ngã và bị thương.

3.1.3 Huấn luyện gán nhãn và hiệu chỉnh guidelines

Quá trình này dé đảm bảo các annotators hiểu rõ các hướng và có thé gan nhãnmột cách đồng nhất, điều này quyết định tới chất lượng của bộ dữ liệu Cụ thể, cácannotators sẽ thực hành gan nhãn trên cùng một tập mau dữ liệu nhỏ bao gồm những

văn bản nội dung bạo hành và những văn bản không bạo hành Sau khi annotators

hoàn thành nhiệm vụ của mình thì sẽ xem xét và đánh giá lại các kết quả, cũng như

hiệu chỉnh guidelines dé có được sự đồng thuận cao giữa các annotators

Hình bên dưới mô tả vê quy trình huân luyện của học viên như sau:

17

Trang 25

_ Training phaS6 - + -~~=~~~zzz=reeerrrrrrrrrmre cư tre "¬

wae Provide feedback to annotators about the conflicts

and differences in the last results.

Hình 3.3: Quy trình huấn luyện gan nhãn

Sau quá trình này, một số quy tắc được thêm vào guidelines dé đảm bảo cho

việc nhận diện bạo hành đồng nhất giữa các annotators Phần 3.1.5 sẽ đề cập cụ thé

một số quy tac được cập nhật, hiệu chỉnh trong quá trình training va gan nhãn

3.1.4 Tiến hành gán nhãn và hiệu chỉnh guidelineMỗi annotator được giao một tập hợp các văn bản dé gan nhãn bằng phương

pháp gán nhãn theo chuỗi (sequence labeling) [12].

18

Trang 26

Về công cu hỗ trợ gán nhãn, học viên sử dụng công cụ Doccano 3, đây là một công cụ hỗ trợ việc gan nhãn rất hiệu quả Dưới đây là một sô hình minh họa

giao diện công cụ:

= ®eCleanup-ver2 @ ENv — Projects

ea o 1889 [ Finishes Ö giám đốc là đàn ông, tôi trẻ nhất công ty, các chị toàn 8x đời đầu Tôi là can 8} 0

nhiệt tình, hòa đông, vui vẻ, được đánh giá là nhanh nhẹn.

@ Tôi và anh quen nhau 10 năm, cô một số ly do về đường con cái nên nw

‘Comments P i

1 ¡ quyết định trước khi há gi

n 890 { Fished chúng tôi quyết định c6 con trước khi cưới Nhà tôi khá giả,còn ba me “Coneeesdx} 0

chồng nghèo, do một phần cờ bac, không biết lo làm ăn Tôi biết

[ sưa Giờ trong tôi chỉ còn cảm giác chán nản, sợ hãi khi nghĩ đến lúc tan làm "

[1% BBD pnd va nna 101 40 106i, 1a me don thin cia ba dia con.cia inh wics (112 D

6 Si sẽ A “Comments’: [])

lu, = Metrics: sáu người, bố mẹ đã ly di, môi người ở phòng riêng Tử.

Ching tôi 36 tui, công chức nhà nước Chúng tôi cưới nhau cách đây sự

[ 1É%=z BRED ar 10 nde cõhẽcomotoimottasihxingỏigangTOlangvi (114, 0

CC Settings os "Comments": [])

miền Tây, ăn học đàng hoàng, công việc khá ốn định Trước.

Tôi 23 tuối, là mẹ của bé ba tuổi kháu khinh và đáng yêu, bé là kết quá "

h TU ? pe (id: 117,

TA 1® BE cite mot tai nan ma cé aos toi khong thé ndo quén Nếu tdi từng két hon comenngx °°

và ly hôn thi &t hẳn sẽ không có gì chua xót Ding nay từ.

Tôi và vợ làm chung công ty, phòng của vợ chỉ có vài người, hầu hết toàn "

C154 QE crema ii chico mot cfu con trai cu nay thém nién am vige nna (160 °

"Comments": 1) phòng, tinh tinh đồng bóng, hơi éo lả, hay buôn chuyện

Tôi 30 tuổi lễ mẹ cúa bé gái gin ba tuổi Cuộc sống của tôi thay đổitíh as sg

1895 [Fished ) cực và hạnh phúc hon từ khi tách ra khỏi nhà đẻ Dù đã cố gắng nhiều “Comments’: 01) 0

nhưng tôi vẫn không thể ngừng khỏ chịu với mẹ Người ta

2 ~

Hình 3.4: Giao diện tô ia cô hồ án nhã ình 3.4: Giao diện tông quan của công cụ hỗ trợ gán nhãn

= #eCleanupver2 lŸÔ ENS = Projects =

Mỗi lần nhìn ánh mắt của con tôi không khỏi đau đớn, từng mong ước sé

có ai đó đến và tốt với con ở vị trí người cha Vậy mà có lẽ chỉ là mơ ước,

ảo tưởng của bản thân, bởi sẽ chẳng ai muốn quen và yêu một cô gái

Trang 27

Hình 3.6: Giao diện khi gan nhãn dữ liệu

3.1.5 Một số quy tắc được cập nhật sau quá trình huấn luyện và gán nhãn

Sau quá trình huấn luyện/gán nhãn, một số quy tắc được cập nhật, chỉnh sửa với

mục đích làm cho dễ dàng nhận diện bạo hành và phân loại chúng Một sỐ quy tắc

được thêm mới như sau:

Cập nhật 1: Bao hành vật lý nhưng có liên quan đến van đề tình dục thì sẽ phânloại bạo hành tình dục (sexual) (mục đích dé xác định đúng bạo hành tình dục thay vì

bạo hành vật lý).

Cập nhật 2: Nạn nhân phải có đề cập là bản thân họ bị ton thương, tinh thansuy sụp bởi những lời nói đó, không nhất thiết phải nam ở đoạn mô tả hành động

măng chửi, sỉ nhục, (mục đích đê làm rõ hơn cách xác định bạo hành lời nó!)

Cùng với một sô quy tac được thêm vào như trên, một sô quy tac cũ được chỉnh

sửa đê làm rõ hơn Dưới đây là một sô ví dụ như sau:

Quy tắc xác định

đoạn bạo hành

Gán nhãn cho các cụm từliền kề diễn tả hành động

bạo hành, không nhất thiết

phải nguyên câu.

Một đoạn bạo hành phải chứa ítnhất một câu Không gán nhãn nửa

câu hoặc một cụm từ trong câu dé

dam bao tinh nhat quan va toan ven

của thông tin.

Trang 28

một nhãn duy nhất, không | một nhãn duy nhất, không được

được gán nhiều nhãn cho | gán nhiều nhãn cho một đoạn

một đoạn (Thêm)

Hai đoạn bạo hành phải tách biệt,

không được trùng nhau hoặc lồng

nhau: Nếu có hai đoạn bạo hành

khác nhau trong cùng một văn bản, chúng phải được tách biệt rõ ràng

và không được chông lân hoặc

lồng ghép vào nhau

Lý do: đề đồng nhất trong việc xác định điểm bắt đầu và điểm kết thúc của đoạn

bạo hành.

Guidelines đầy đủ được trình bày ở PHỤ LỤC B của báo cáo luận văn bao gồm

toàn bộ các khái niệm, định nghĩa, và bộ các quy tắc phân loại bạo hành

3.2 Phân tích bộ dữ liệu

Tập dữ liệu thu thập được bao gồm 1041 văn bản tự sự, được chia thành banhóm: 700 văn bản dành cho tập huấn luyện (train set), 100 văn bản dành cho tậpphát triển (dev set) và 241 văn bản còn lại dành cho tập kiểm tra (test set)

Các thí nghiệm của học viên tập trung vào khai thác hai bài toán đó là:

e Bài toán 1: Phát hiện các đoạn bạo hành nhưng không phân loại bạo hành cụ thê

e Bài toán 2: Phát hiện các đoạn bạo hành và có kèm theo phân loại bạo hành

cụ thể

Đối với bài toán 1, các đoạn bạo hành trong tập dữ liệu chỉ có một nhãn là

bạo hành Đôi với bài toán 2, các đoạn bạo hành trong tập dt liệu của sẽ có một trongsau nhãn đại diện cho sáu loại bạo hành như bảng bên dưới:

Bảng 1: Các loại nhãn bằng tiếng Anh và ý nghĩa tương ứng

Nhãn Y nghia

Physical Tương ứng với bạo hành vật ly

Verbal/Emotional Tương ứng với bao hành lời nói/cảm xúc

Cutural/Identity Tương ứng với bạo hành văn hóa/bản sắc

21

Trang 29

Sexual Tương ứng với bạo hành tình dục

Financial/Economic Tương ứng với bao hành tai chinh/kinh tế

Mental/Psychological Tương ứng với bạo hành tinh than/tam lý

Theo kết quả thong kê trên bộ dữ liệu, học viên thấy rằng sé lượng các văn ban có

xuất hiện bạo hành chiếm 19.02% tổng số dữ liệu Điều này cho thấy số lượng văn

bản tự sự có xuất hiện bạo hành thấp hơn so với các văn bản tự sự không chứa bạo

hành Do đó, độ chính xác trong nhận diện bạo hành có thé bị ảnh hưởng Đây là một

trong những thách thức, mà chúng ta sẽ thấy qua kết quả thí nghiệm

Bên cạnh đó, sau khi tiễn hành thong kê các loại bạo hành trong bộ dữ liệu, hocviên nhận thấy có sự mất cân băng giữa các loại bạo hành khác nhau Điều này được

thê hiện qua các biêu đô như sau:

Trang 30

#8 Train @ Valid TM Test 150

e Bao hành Verbal/Emotional (lời nói/cảm xúc) và Mental/Psychological (tinh

than/tam lý) chiếm hơn 60% đữ liệu

e Trong khi phân bố của các loại bạo hành Sexual (tình dục) chỉ chiếm tổng

cộng 2,1% và Cutural/Identity (văn hóa/bản sắc) (chỉ chiếm tổng cộng tổng cộng

3,1%) thấp đáng kể Việc thiếu dữ liệu về các loại bạo hành Sexual (tình dục) và bạo

hành Cutural/Identity (văn hóa/bản sắc) sẽ ảnh hưởng đến các kết quả dự đoán chocác loại này.

Bên cạnh đó, khi xét về độ dài trung bình của một đoạn bạo hành, học viên

nhận thấy rằng độ dài trung bình của một đoạn bạo hành trong tập dữ liệu tương đối

dài Như trong bảng 1 thé hiện:

e Độ dài trung bình lớn nhất cho một đoạn được gán nhãn bạo hành trong tập

dữ liệu là 30,44 từ (loại Financial/Economic — tài chinh/kinh tế)

23

Trang 31

e Và độ dài trung bình 26,59 từ mỗi đoạn cho đữ liệu trong tập không phân loại

bạo hành Độ dài của các đoạn bạo hành cũng là một yếu tố thể hiện sự phức tạp của

Trang 32

Chương 4 THÍ NGHIỆM VÀ ĐÁNH GIÁ

4.1 Tông quan các phương pháp sử dụng

Về mặt tổng quan, phương pháp tiếp cận của dé tai là đóng bang pre-trainedmodel như PhoBERT [23], XLM-RoBERTa [30], chỉ sử dụng kết quả dau ra của cácpre-trained model dé lam input cho mạng BiLSTM BiLSTM kết hợp với lớp Softmax

hoặc CRF sẽ đóng vai trò là lớp phân loại cuối cùng

Theo ViHOS [14], tác giả đã sử dụng các mô hình baseline tiêu biéu như RoBERTa [30], và PhoBERT [23] kết hợp với BiLSTM-CRF [33] dé đánh giá tập

XLM-dữ liệu tiếng Việt về các bình luận tiêu cực của, và cho một số kết quả khả quan Với

mục tiêu là đánh giá bộ dữ liệu của đề tài, học viên cũng sẽ dựa theo những mô hình

baseline này Bên cạnh đó, một số lý do học viên chọn các mô hình baseline này là

do:

e©_ PhoBERT [23] là một mô hình ngôn ngữ dành riêng cho tiếng Việt, được tiền

huấn luyện trên tập đữ liệu 20GB tiếng Việt PhoBERT [23] đã được chứng

minh là phương pháp tiêu biéu hiện nay cho nhiều bài toán xử lý ngôn ngữ tự

nhiên (NLP) đặc thù cho tiếng Việt như: gán nhãn từ loại (Part-Of-SpeechTagging), phân tích cú pháp (Dependency Parsing) và nhận diện thực thé

(NER).

e XLM-RoBERTa [30] là một mô hình ngôn ngữ đa ngữ và là một biến thé của

RoBERTa, được tiền huấn luyện trên 2.5T dữ liệu từ 100 ngôn ngữ, trong đó

có bao gồm 137GB văn bản tiếng Việt

e BiLSTM-CRF [33] cho kết quả cao cho nhiệm vụ phát hiện các đoạn trong

văn bản Học viên cũng thực hiện thí nghiệm với BILSTM-Sofmax, và

BiLSTM-CRE dé so sánh đánh giá kết quả

Bảng dưới đây thống kê về những phương pháp mà học viên đã chạy thử nghiệmtrên bộ dữ liệu.

25

Trang 33

Bảng 3: Tóm tắt các phương pháp thí nghiệm

Pre-trained Language Model | RNN-Decoder layer

PhoBERTpase BIST Softmax

PhoBERTarge BEST Sofia

4.1.1 PhoBERT [23]

PhoBERT [23] là một mô hình ngôn ngữ được thiết kế riêng cho tiếng Việt,phát triển bởi VinAI Research, dựa trên cấu trúc của BERT [9] nhưng được điều

chỉnh đề tương thích tốt hơn với các đặc thù ngôn ngữ của Việt Nam PhoBERT [23]

đã được huấn luyện trên một tap hop lớn dữ liệu văn ban tiếng Việt, bao gồm sách,

báo, và các nguồn trực tuyến, nhăm mục dich xử lý hiệu quả các ngữ cảnh ngôn ngữ

đa dạng.

Mô hình này sử dụng kiến trúc Transformer [10], vì vậy với cơ chế Attention, PhoBERT [23] có khả năng nhận diện va hiểu rõ mối quan hệ giữa các từtrong cùng một câu mà không phụ thuộc vào vị trí tuyến tính của chúng Thêm vào

Self-đó, mô hình áp dụng kỹ thuật Byte Pair Encoding (BPE) [30] dé mã hóa ngôn ngữ,

giúp nó xử lý hiệu quả các từ ghép phức tạp trong tiếng Việt

PhoBERT [23] đã được áp dụng thành công trong nhiều lĩnh vực của xử lý ngônngữ tự nhiên, như phân tích cảm xúc, phân loại văn bản, nhận dạng thực thể có tên,

và trả lời câu hỏi Với sự tối ưu hóa đặc biệt cho tiếng Việt, PhoBERT [23] đã trở

thành công cụ hữu ích không chỉ cho các nhà nghiên cứu mà còn cho các nhà phát

triển ứng dụng AI

Giống với BERT [9], PhoBERT [23] cũng có hai phiên bản là: PhoBERTj„.;„ vàPhoBERTtx„-„¿ Phiên ban base bao gồm 12 lớp transformers với 12 attention headsmỗi lớp và kích thước của hidden layers là 768, phù hợp với các ứng dụng cần đếntốc độ xử lý nhanh Trong khi đó, phiên bản large mở rộng lên 24 lớp transformers,

26

Trang 34

mỗi lớp có 16 heads và kích thước hidden layers là 1024, cho phép mô hình xử lý sâu

hơn các tác vụ phức tạp, tuy nhiên đòi hỏi nhiều tài nguyên tính toán hơn

4.1.2 ROBERTa

RoBERTa [20], viết tắt của "Robustly Optimized BERT Pretraining Approach",

là một biến thé cải tiến của BERT [9], được giới thiệu bởi Facebook AI Mô hình đa

ngôn ngữ này được phát triển nhăm mục đích khắc phục một số hạn chế của BERT

[9] thông qua việc tối ưu hóa phương pháp huấn luyện và cấu hình của mô hình

Về kiến trúc, RoBERTa [20] giữ nguyên cấu trúc cơ bản của BERT [9] nhưng

đã thực hiện các cải tiến đáng ké trong quá trình huấn luyện Cụ thé, các nhà nghiên

cứu đã loại bỏ tác vụ Next Sentence Prediction (NSP), một thành phần được đánh giá

không hiệu quả trong quá trình huấn luyện BERT [9] Ngoài ra, ROBERTa [20] cũng

mở rộng quy mô dit liệu huấn luyện và tăng số lần lặp qua dit liệu (epochs), điều này

cải thiện đáng kể hiệu suất của mô hình

RoBERTa [20] hiệu quả trong các tác vụ xử lý ngôn ngữ tự nhiên như phân tích

cảm xúc, phân loại văn ban và trả lời câu hỏi Sự cải tiến đã giúp RoBERTa [20] trở

thành một công cụ mạnh mẽ cho các nghiên cứu và ứng dụng trong lĩnh vực AI, đặc

biệt là trong xử lý ngôn ngữ tự nhiên.

4.1.3 XLM-RoBERTa

XLM-RoBERTa [30] là một phiên bản tối ưu hóa của RoBERTa [10], được

phát triển dé giải quyết các thách thức của bài toán phân loại văn bản đa nhãn

Về kiến trúc, XLM-RoBERTa [30] mở rộng và điều chỉnh từ kiến trúc ban đầu

của RoBERTa [20] dé tối ưu hóa cho việc phân loại đa nhãn Các thay đôi bao gồmviệc sử dụng các chiến lược huấn luyện tiên tiễn và kỹ thuật xử ly dir liệu đặc biệt,

đảm bảo mô hình có thé hiệu quả trong việc xử lý độ phức tạp và độ lớn của không

gian nhãn trong các bộ dữ liệu XLM.

XLM-RoBERTa [30] phù hợp cho các tác vụ phân loại đa nhãn, phù hợp với

các bộ dữ liệu lớn và số lượng nhãn cao cần được xử lý hiệu quả Khả năng của mô

hình trong việc xử lý mối quan hệ phức tạp giữa các nhãn làm cho nó trở thành một

công cụ hữu hiệu, đặc biệt trong các ứng dụng yêu cầu độ chính xác cao trong phân

loại đa nhãn.

27

Trang 35

4.1.4 BILSTM

BiLSTM [33] là viết tắt của Bidirectional Long Short-Term Memory, đây là

một biến thé phức tạp của mạng nơ-ron hồi quy [16] (RNN), được thiết kế dé cảithiện khả năng hiểu và xử lý thông tin chuỗi bang cách tích hợp ngữ cảnh từ cả hai

Output layer forward

Hidden backward

layer

Input

layer

Hình 4.1: Bidirectional LSTM = forward LSTM + backward LSTM

hướng: trước va sau.

BiLSTM [33] bao gồm hai lớp LSTM độc lập, một lớp xử ly chuỗi dữ liệu từ

trái sang phải (forward LSTM) và một lớp từ phải sang trái (backward LSTM) Sự

kết hợp thông tin từ cả hai lớp này cho phép BiLSTM [33] đưa ra dự đoán chính xác

hơn so với các mạng LSTM đơn chiều

Về ưu điềm, khả năng tích hợp thông tin từ cả hai hướng của chuỗi dit liệulàm cho BiLSTM [33] trở thành công cụ mạnh mẽ trong việc xử lý các van đề liênquan đến ngữ nghĩa và cú pháp của ngôn ngữ, đặc biệt hiệu quả trong các tác vụ nhưnhận dạng thực thê có tên, phân tích cảm xúc, và dịch máy

4.1.5 BiLSTM kết hop CRFBiLSTM-CRF [33] là mô hình kết hợp giữa BiLSTM với Conditional RandomField (CRF) để tăng hiệu quả trong các tác vụ nhận dạng thực thể có tên (NamedEntity Recognition, NER) Mô hình này sử dụng CRF ở tầng cuối cùng nhằm môhình hóa các mối quan hệ phụ thuộc giữa các nhãn trong chuỗi đầu ra Điều này giúp

cải thiện độ chính xác của dự đoán chuỗi đầu ra, và đảm bảo tính liên tục của các

nhãn liền kề, từ đó nâng cao đáng ké chất lượng tổng thé của dự đoán

Điểm cải tiến so với BiLSTM đó là sự kết hợp này giúp không chỉ nắm bắt

thông tin ngữ cảnh từ cả hai hướng, mà BILSTM-CRF [33] còn cải thiện khả năng

dự đoán chuỗi nhãn bằng cách xem xét mối liên kết giữa các nhãn liên tiếp Điều này

giúp mô hình hiệu quả hơn trong việc giải quyết các tác vụ như NER, nơi mà sự phụ

thuộc giữa các nhãn là rất quan trọng

28

Trang 36

Về ưu điểm, BiLSTM-CRF [33] cải thiện đáng ké chất lượng dự đoán của

chuỗi, đặc biệt trong các tác vụ có yếu tố phụ thuộc mạnh mẽ giữa các nhãn liền kề,

giúp cho các nhãn được suy ra một cách chính xác hơn Tuy nhiên, điểm hạn chế củaBiLSTM-CRF [33] là tăng độ phức tạp của mô hình do sự kết hợp giữa hai kiến trúcphức tạp và yêu cau tính toán cao hơn

4.2 Tiền xử lý dữ liệu

Sau quá trình gán nhãn thủ công, dữ liệu sẽ có câu trúc dạng như sau:

{"1d":2692,"text":"Tôi 32 tuổi, vợ kém hai tudi, có hai con, bé hai tuôi và năm tuôi; kinh tế gia

đình tôi lo, vợ lo chăm sóc con cái.\nCông việc nha vợ chồng tôi cùng chia sẻ Bình thường cuộc

sống không có gì phàn nàn, chỉ khi nào vợ có việc bực bội là trút giận lên chồng con, khi tôi nói

lại thì vợ văng tục Tôi mà nhịn thì mọi việc êm đẹp Tôi trao đổi với vợ về vấn đề này, vợ bảo

nóng lên thì không kiểm soát được lời nói Tôi phải làm gì bây giờ? Xin được lời khuyên của

mọi người.","label":[[157,291,"verbal_emotional"|],"Comments":[ |}

Những dữ liệu này sẽ được tiền xử lý trước khi input vào các pre-trained model nhưPhoBERT [23], XLM-RoBERTa [30] Bước tiền xử lý sẽ bao gồm những tác vụ như

Sau:

Tạo mask label bằng cách những từ không nằm trong đoạn bạo hành sẽ được

gán nhãn O, còn những từ trong đoạn bạo hành sẽ có label là category Ví dụ: physical Ngoài ra, để giữ lại nhiều ngữ nghĩa/ngữ cảnh của câu trước khi tới bước

I-tokenize, học viên sử dụng thư viện python dé phan doan cau muc dich dé tach các

cụm từ trong câu Dữ liệu trước khi input vào pre-trained model cần phải đượctokenzie, đối với bước nay, học viên sử dụng thư viện tokenizer của PhoBERT Ngoài

ra, độ dài tối đa của câu input vào mô hình huấn luyện sẵn pre-trained model được

cau hình là 254 Do đó, nếu câu có độ dài vượt quá 254 ký tự thì sẽ tiến hành ưu tiên

loại bỏ các từ/cụm từ có nhãn O, giữ lại nhãn I-category.

Dữ liệu sau khi tiền xử lý sẽ có dạng như bên dưới, và sẽ được input vào huấn

luyện cho các pre-trained model.

{"id": "1", "raw_ text": "T\u00f4i 32 tu\uled5i, v\ulee3 k\u00e9m hai tu\uled5i, c\u00f3 hai con,

b\u00e9 hai tu\uled5i v\u00e0 n\u0103m tu\uled5i; kinh t\ulebf gia \u0111\u00ecnh t\u00f4i lo, v\ulee3 lo ch\u0103m s\u00f3c con c\u00eli.\nC\u00f4ng vi\ulec7c nhìu00e0 v\ulee3 ch\uled3ng t\u00f4i c\u00f9ng chia s\ulebb B\u00ecnh th\u01b0\uleddng cu\uled9c s\uleding

29

Trang 37

khu00f4ng c\u00f3 g\u00ec phìu00e0n n\u00e0n, ch\ulec9 khi nu00e0o v\ulee3 c\u00f3 vi\ulec7c b\ulefle b\uled9i I\u00e0 tr\u00fat gi\uleadn Ru00ean ch\uled3ng con, khi t\u00f4i n\u00f3i l\uleali th\u00ec v\ulee3 v\u0103ng t\uleeSc T\u00f4i m\u00e0 nh\ulecbn th\u00ec m\ulecdi vi\ulec7c \u00eam \u0111\uleb9p T\u00f4i trao \u0111\uled5i v\uledbi v\ulee3

v\ulecl v\ulea5n \u0111\ulecl n\u00e0y, v\ulee3 b\ulea30 n\u00f3ng l\u00ean th\u00ec

kh\u00f4ng ki\ulec3m so\u00elt \u0111\u01b0\ulee3c l\uleddi n\u00f3i T\u00f4i ph\ulea3i Ru00e0m g\u00ec b\u00e2y gi\uledd? Xin \u0111\u01b0\ulee3c l\uleddi khuy\u00ean c\ulee7a m\ulecdi ng\u01b0\uleddi.", "raw label": [[157, 291, "verbal_emotional"]], "context": ["T\u00f4i", "32", "tu\uled5i,", "v\ulee3", "k\u00e9m", "hai", "tu\uledSi,", "c\u00f3", "hai",

"con,", "b\u00e9", "hai", "tu\uled51", "v\u00e0", "n\u0103m", "tu\uled5i;", "kinh_ t\ulebf",

"gia \u0111\u00ecnh", "t\u00f4i", "lo,", "v\ulee3", "lo", "ch\u0103m_s\u00f3c", "con",

"c\u00e1li.", "CAu00f4ng vi\ulec7c", "nh\u00c0", "v\ulee3_ch\uled3ng", = "t\u00f4i",

"c\u00f9ng", "chia", "s\ulebb.", "B\u00ecnh_th\u01b0\uleddng", "cu\uled9c_s\uleding",

"kh\u00f4ng", "c\u00f3", "g\u00ec", "ph\u00e0n", "n\u00e0n,", "ch\ulec9", "khi", "n\u00e00",

"v\ulee3", "c\u00f3", "vi\ulec7c", "b\uleflc_b\uled9i", "Ru00e0", "tru00fat", "gi\uleadn",

"Ru00ean", "ch\uled3ng", "con,", "khi", "t\u00f4i", "n\u00f3i", "I\uleali", "th\u00ec", "v\ulee3",

"v\u0103ng t\uleeSc", ".", "T\u00f4i", "m\u00c0", "nh\ulecbn", "th\u00ec", "m\ulecdi",

"vilulec7c", "\u00eam", "\u0111\uleb9p.", "T\uOOf4i", "trao \u0111\uled5i", "v\uledbi",

"v\ulee3", "v\ulecl", "v\ulea5n \u0111\ulecl", "n\u00e0y,", "vAulee3", "b\ulea3o",

"n\u00f3ng", "]\u00ean", "th\u00ec", "kh\u00f4ng", "ki\ulec3m_so\u00elt",

"\u0111\u01b0\ulee3c", "I\uleddi", "n\u00f31.", "T\u00f4i", "ph\ulea3i", "Ru00e0m”", "g\u00ec",

"b\u00e2y", "gi\uledd?", "Xin", "\u0111\u01b0\ulee3c", "I\uleddi", "khuy\u00ean", "c\ulee7a",

"m\ulecdi", "ng\u01b0\uleddi."], "label": ["O", "O", "O", "0", "O", "O","O", "0", "0", "0", "O",

"O", "0", "0", "0", "0", "0", "O", "O", "O", "oO", "Q", "O", "0", "O", "O", "O", "O", "O", "Q",

"Q", "O", verbal_emotional", verbal emotional", verbal emotional",

verbal emotional", verbal emotlonal", verbal emotional", verbal emotional",

verbal emotional", verbal_emotional", verbal_emotional", verbal emotional", verbal emotional", "I-verbal_emotional", "I-verbal_emotional", "I-verbal emotional", "I- verbal emotional", "I-verbal_emotional", "I-verbal_emotional", "I-verbal_emotional", "I- verbal emotional", "I-verbal_emotional", "I-verbal_emotional", "I-verbal_emotional", "I-

"I-verbal emotional", "I-"I-verbal_emotional", "I-"I-verbal_emotional", "I-"I-verbal_emotional", "O", "O",

"o","o", "0", "0", "0", "0", "oO", "O", "O", "oO", "Q", "O", "oO", "O", "O", "Q", "O", "O", "O",

"o","o", "Oo", "O", "oO", "oO", "oO", "oO", "oO", "oO", "Oo", "O", "O", "O", "O", "O", "O", "O"],

"original_context": ["T\u00f4i", "32", "tu\uled5i,", "v\ulee3", "k\u00e9m", "hai", "tu\uled5i,",

"c\u00f3", "hai", "con,", "b\u00e9", "hai", "tu\uledSi", "v\u00e0", "n\u0103m", "tu\uledsi;",

"kinh_t\ulebf", "gia _\u0111\u00ecnh", "t\u00f4i", "lo,", "v\ulee3", "lo", "ch\u0103m_s\u00f3c",

30

Ngày đăng: 03/11/2024, 19:18

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
13] Tommi Gréndahl, Luca Pajola, Mika Juuti, Mauro Conti, and N Asokan. 2018. All you need is" love" evading hate speech detection. In Proceedings of the 11th ACMworkshop on artificial intelligence and security. 2-12 Sách, tạp chí
Tiêu đề: love
5] Tommaso Caselli, Valerio Basile, Jelena Mitrovié, Inga Kartoziya, and Michael Granitzer. 2020. I Feel Offended, Don’t Be Abusive! Implicit/Explicit Messages in Offensive and Abusive Language. In Proceedings of the Twelfth Language Resources and Evaluation Conference. European Language Resources Association, Marseille, France, 6193-6202. https://aclanthology.org/2020.lrec-1.760 Link
7] Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guil- laume Wenzek, Francisco Guzman, Edouard Grave, Myle Ott, Luke Zettlemoyer, and Veselin Stoyanov. 2020. Unsupervised Cross-lingual Representation Learning at Scale. In Proceedings of the 58th Annual Meeting of the Association for Computa-tional Linguistics. Association for Computational Linguistics, Online, 8440-8451.https://doi.org/10.18653/v1/2020.acl-main.747 Link
14] Phu Gia Hoang, Canh Duc Luu, Khanh Quoc Tran, Kiet Van Nguyen, and Ngan Luu-Thuy Nguyen. 2023. ViHOS: Hate Speech Spans Detection for Vietnamese.In Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, Dubrovnik, Croatia, 652-669. https://aclanthology.org/2023.eacl-main.47 Link
1] Stephen Afrifa. 2022. Cyberbullying detection on twitter using natural language processing and machine learning techniques. International Journal of Innovative Khác
2] Mohammed Ali Al-Garadi, Sangmi Kim, Yuting Guo, Elise Warren, Yuan-Chi Yang, Sahithi Lakamana, and Abeed Sarker. 2022. Natural language model for automatic identification of intimate partner violence reports from twitter. Array15 (2022), 100217 Khác
3] Wan Noor Hamiza Wan Ali, Masnizah Mohd, and Fariza Fauzi. 2018. Cyberbul- lying detection: an overview. In 2018 Cyber Resilience Conference (CRC). IEEE,1-3 Khác
4] Aymé Arango, Jorge Pérez, and Barbara Poblete. 2022. Hate speech detection is not as easy as you may think: A closer look at model validation (extended version). Information Systems 105 (2022), 101584 Khác
6] Patricia Chiril, Farah Benamara, Véronique Moriceau, Marlene Coulomb-Gully, and Abhishek Kumar. 2019. Multilingual and multitarget hate speech detection in tweets. In Conférence sur le Traitement Automatique des Langues Naturelles (TALN-PFIA 2019). ATALA, 351-360 Khác
8] Thomas Davidson, Dana Warmsley, Michael Macy, and Ingmar Weber. 2017.Automated hate speech detection and the problem of offensive language. In Proceedings of the international AAAI conference on web and social media, Vol. 11.512-515 Khác
9] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding.arXiv:1810.04805 [cs.CL] Khác
10] Chuka Emezue et al. 2020. Digital or digitally delivered responses to domestic and intimate partner violence during COVID-19. JMIR public health and surveillance 6, 3 (2020), e19831 Khác
11] Md Imdadul Haque Emon, Khondoker Nazia Iqbal, Md Humaion Kabir Mehedi, Mohammed Julfikar Ali Mahbub, and Annajiat Alim Rasel. 2022. Detection of bangla hate comments and cyberbullying in social media using nlp and trans- former models. In International Conference on Advances in Computing and DataSciences. Springer, 86-96 Khác
12] Alex Graves and Alex Graves. 2012. Long short-term memory. Supervised sequence labelling with recurrent neural networks (2012), 37-45 Khác

HÌNH ẢNH LIÊN QUAN

Bảng 1: Các loại nhãn bang tiếng Anh và ý nghĩa tương ứng........................----¿--cs¿ 21 - Khóa luận tốt nghiệp Khoa học máy tính: Nhận diện bạo hành trong văn bản tự sự tiếng Việt
Bảng 1 Các loại nhãn bang tiếng Anh và ý nghĩa tương ứng........................----¿--cs¿ 21 (Trang 6)
Hình 2.2 Dinh nghĩa về bạo hành của tổ chức REACH [32] - Khóa luận tốt nghiệp Khoa học máy tính: Nhận diện bạo hành trong văn bản tự sự tiếng Việt
Hình 2.2 Dinh nghĩa về bạo hành của tổ chức REACH [32] (Trang 15)
Hình 2.3 Dinh nghĩa về bao hành (abuse) trong từ điển Cambrigde - Khóa luận tốt nghiệp Khoa học máy tính: Nhận diện bạo hành trong văn bản tự sự tiếng Việt
Hình 2.3 Dinh nghĩa về bao hành (abuse) trong từ điển Cambrigde (Trang 16)
Hình 3.1: Quy trình tổng quan xây dựng bộ dữ liệu - Khóa luận tốt nghiệp Khoa học máy tính: Nhận diện bạo hành trong văn bản tự sự tiếng Việt
Hình 3.1 Quy trình tổng quan xây dựng bộ dữ liệu (Trang 21)
Hình 3.2: Xây dung guideline gan nhãn dữ liệu - Khóa luận tốt nghiệp Khoa học máy tính: Nhận diện bạo hành trong văn bản tự sự tiếng Việt
Hình 3.2 Xây dung guideline gan nhãn dữ liệu (Trang 22)
Hình 3.3: Quy trình huấn luyện gan nhãn - Khóa luận tốt nghiệp Khoa học máy tính: Nhận diện bạo hành trong văn bản tự sự tiếng Việt
Hình 3.3 Quy trình huấn luyện gan nhãn (Trang 25)
Hình 3.4: Giao diện tô ia cô hồ án nhã ình 3.4: Giao diện tông quan của công cụ hỗ trợ gán nhãn - Khóa luận tốt nghiệp Khoa học máy tính: Nhận diện bạo hành trong văn bản tự sự tiếng Việt
Hình 3.4 Giao diện tô ia cô hồ án nhã ình 3.4: Giao diện tông quan của công cụ hỗ trợ gán nhãn (Trang 26)
Hình 3.6: Giao diện khi gan nhãn dữ liệu - Khóa luận tốt nghiệp Khoa học máy tính: Nhận diện bạo hành trong văn bản tự sự tiếng Việt
Hình 3.6 Giao diện khi gan nhãn dữ liệu (Trang 27)
Bảng 1: Các loại nhãn bằng tiếng Anh và ý nghĩa tương ứng - Khóa luận tốt nghiệp Khoa học máy tính: Nhận diện bạo hành trong văn bản tự sự tiếng Việt
Bảng 1 Các loại nhãn bằng tiếng Anh và ý nghĩa tương ứng (Trang 28)
Hình 3.7: Biểu đồ thé hiện sự phân bố của các loại bạo hành trên tổng thé dữ - Khóa luận tốt nghiệp Khoa học máy tính: Nhận diện bạo hành trong văn bản tự sự tiếng Việt
Hình 3.7 Biểu đồ thé hiện sự phân bố của các loại bạo hành trên tổng thé dữ (Trang 29)
Bảng 2: Độ dài trung bình của các đoạn bạo hành theo từng loại - Khóa luận tốt nghiệp Khoa học máy tính: Nhận diện bạo hành trong văn bản tự sự tiếng Việt
Bảng 2 Độ dài trung bình của các đoạn bạo hành theo từng loại (Trang 31)
Bảng 3: Tóm tắt các phương pháp thí nghiệm - Khóa luận tốt nghiệp Khoa học máy tính: Nhận diện bạo hành trong văn bản tự sự tiếng Việt
Bảng 3 Tóm tắt các phương pháp thí nghiệm (Trang 33)
Hình 4.1: Bidirectional LSTM = forward LSTM + backward LSTMhướng: trước va sau. - Khóa luận tốt nghiệp Khoa học máy tính: Nhận diện bạo hành trong văn bản tự sự tiếng Việt
Hình 4.1 Bidirectional LSTM = forward LSTM + backward LSTMhướng: trước va sau (Trang 35)
Bảng 5: Kết quả thực nghiệm cho tác vụ nhận diện bạo hành và phân loại - Khóa luận tốt nghiệp Khoa học máy tính: Nhận diện bạo hành trong văn bản tự sự tiếng Việt
Bảng 5 Kết quả thực nghiệm cho tác vụ nhận diện bạo hành và phân loại (Trang 42)
Hình 4.2 Một dự đoán của PhoBERT large cho tac vu - Khóa luận tốt nghiệp Khoa học máy tính: Nhận diện bạo hành trong văn bản tự sự tiếng Việt
Hình 4.2 Một dự đoán của PhoBERT large cho tac vu (Trang 44)

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w