1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Công nghệ thông tin: Nhận diện tính xây dựng và tính độc hại của bình luận tiếng Việt

80 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nhận diện tính xây dựng và tính độc hại của bình luận tiếng Việt
Tác giả Nguyễn Thành Luân
Người hướng dẫn ThS. Nguyễn Văn Kiệt
Trường học Trường Đại học Công nghệ Thông tin
Chuyên ngành Công nghệ Thông tin
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2021
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 80
Dung lượng 37,5 MB

Nội dung

Chúng tôi đề xuất về việc xây dựng bộ dữ liệu tiếng Việt bao gồm các bình luận trên tính xây dựng và tính độc hai của chúng với tên gọi UIT-ViCTSD Vietnamese Constructive... Từ bộ dữ liệ

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRUONG DAI HQC CONG NGHE THONG TIN KHOA KHOA HOC VA KY THUAT THONG TIN

NGUYEN THANH LUAN

KHOA LUAN TOT NGHIEP

NHẬN DIEN TÍNH XÂY DỰNG

VÀ TÍNH DOC HAI CUA BÌNH LUẬN TIENG VIỆT

Constructive and Toxic Speech Detection for Open-domain Social Media Comments in Vietnamese

CU NHAN NGANH CONG NGHE THONG TIN

TP HO CHi MINH, NAM 2021

Trang 2

ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

NGUYÊN THÀNH LUAN - 17520721

KHÓA LUẬN TÓT NGHIỆP

VA TÍNH ĐỘC HAI CUA BÌNH LUẬN TIENG VIỆT

Constructive and Toxic Speech Detection for Open-domain Social Media Comments in Vietnamese

CỬ NHÂN NGANH CÔNG NGHỆ THONG TIN

GIẢNG VIÊN HƯỚNG DẪN

ThS NGUYEN VĂN KIỆT

TP HÒ CHÍ MINH, NĂM 2021

Trang 3

THÔNG TIN HỌI ĐÒNG CHÁM KHÓA LUẬN TÓT NGHIỆP

Hội đồng châm khóa luận tốt nghiệp, thành lập theo Quyết định số

.-nB8ầy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

Trang 4

LỜI CẢM ƠN

Em xin được gửi cảm ơn chân thành nhất đến ThS Nguyễn Văn Kiệt và TS Nguyễn

Lưu Thùy Ngân luôn đông hành, hỗ trợ và quan tâm đến em ngay từ những ngày đầu tiên lựa chọn đề tài cho đến khi hoàn tất khóa luận tốt nghiệp này Thây và cô cũng

chính là người truyền cảm hứng cho em trong suốt quá trình học tập tại ngôi trường này, và từ đó, giúp em có đủ nhiệt huyết và năng lượng để có thể thực hiện khóa luận

tốt nghiệp này một cách chỉn chu và tốt nhất.

Em cũng xin gửi lời cảm ơn tới các anh, chị và các bạn trong nhóm nghiên cứu

NLP@UIT và DS@UIT đã giúp đỡ, chia sẻ kinh nghiệm và góp ÿ cho dé tài dé đạt

được kết quả tốt nhất.

Hơn nữa, em muốn gửi lời cam ơn sâu sắc nhất đến quý thay, cô tại trường Đại học

Công nghệ Thông tin nói chung và quý thdy, cô Khoa Khoa học và Kỹ thuật Thông tin nói riêng đã truyền đạt những bài học và kiến thức vô cùng quý báu cho em cũng

như là các bạn sinh viên ngay từ những ngày dau tiên chập chững bước chân vào giảng đường đại học Từ những kinh nghiệm ấy, em đã có thể tự tin và vững bước

trong quá trình thực hiện khóa luận tốt nghiệp của mình.

Sau cùng, em muốn xin cảm ơn gia đình, người thân và bạn bè đã luôn quan tâm, động viên và truyền năng lượng đến cho em đề hoàn thành khóa luận tốt nghiệp này.

Một lần nữa, em xin chân thành cảm ơn!

Tác giả

Nguyễn Thành Luân

Trang 5

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH CONG HOA XÃ HỘI CHỦ NGHĨA VIET NAM

TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHỆ THÔNG TIN

DE CƯƠNG CHI TIẾT

TÊN ĐÈ TÀI: NHẬN DIỆN TÍNH XÂY DỰNG VÀ TÍNH ĐỘC HẠI CỦA BÌNH

LUẬN TIENG VIỆT (Constructive and Toxic Speech Detection for Open-domain Social

Media Comments in Vietnamese)

Cán bộ hướng dẫn: ThS Nguyễn Văn Kiệt

Thời gian thực hiện: Từ 02/2020 đến ngày 07//2021

Sinh viên thực hiện: Nguyễn Thành Luân - 17520721

Nội dung đề tài:

Giới thiêu:

Trong bối cảnh nội dung số phát triển như hiện nay, một trong những nhiệm vụ chính cần

phải được quan tâm đó là nâng cao chất lượng của các cuộc hội thoại, thảo luận trực tuyến.

Việc chú trọng vào những bình luận có tính xây đựng và tiến hành thúc đầy các bình luận

nay trong các chủ dé thảo luận sẽ giúp đem lại nhiều kiến thức, kinh nghiệm cho độc giả,

góp phần nâng cao chất lượng các cuộc thảo luận trên không gian mạng Bên cạnh đó, việc

xuất hiện những bình luận mang ý nghĩa tiêu cực, độc hại cũng đã gây ra những ảnh hưởng

không tích cực đến tâm lý của người dùng Vì thế, việc quan tâm đến tính độc hại của các

bình luận cũng góp phần xây dựng, phát triển các cuộc thảo luận trên không gian mạng trở

nên tích cực hơn.

Chúng tôi đề xuất về việc xây dựng bộ dữ liệu tiếng Việt bao gồm các bình luận trên tính

xây dựng và tính độc hai của chúng với tên gọi UIT-ViCTSD (Vietnamese Constructive

Trang 6

and Toxic Speech Detection dataset) với kích thước 10,000 bình luận trên 10 miễn dữ liệu Sau đó, tiền hành thử nghiệm và đánh giá hiệu suất các phương pháp máy học truyền thống

và các mô hình học sâu hiện đại trên bộ dữ liệu Bên cạnh đó, chúng tôi cũng chỉ ra mối

liên hệ giữa tính xây dựng và tính độc hại của các bình luận Từ bộ dữ liệu được xây dựng,

phát triển bài toán nhận diện tự động các bình luận có tính xây dựng và các bình luận có

tính độc hại của người dùng của nó trên không gian mạng.

Bài toán:

Xây dựng bộ dữ liệu về tính xây dựng và tính độc hại của bình luận tiếng Việt Và nhiệm

vụ chính được đặt ra là nhận diện tính xây dựng cũng như là tính độc hại của bình luận

tiếng Việt, đồng thời chỉ ra mối liên hệ giữa tính xây dựng và tính độc hại của bình luận,

từ đó góp phần phát triển các cuộc hội thoại trên không gian mạng.

- Đầu vào: Một đoạn văn bản (bình luận) tiếng Việt của người dùng.

- Đầura:

+ Có tính xây dựng hoặc Không có tính xây dựng.

+ Độc hại hoặc Không độc hại.

Mục tiêu:

Xây dựng bộ dữ liệu về tính xây dựng và tính độc hại của bình luận tiếng Việt với 10,000

bình luận Sau đó, nghiên cứu và thử nghiệm các phương pháp Máy học cũng như là các

phương pháp Học sâu trên bộ dữ liệu đã xây dựng; tiến hành so sánh và đánh giá hiệu suất

của các mô hình.

Công trình liên quan:

Trên thế giới:

Trang 7

Vào năm 2017, Napoles và cộng sự đã đưa ra khái niệm về những cuộc thảo luận mang tính xây dựng gọi là ERIC - những cuộc thảo luận chứa nội dung rõ ràng, cung cấp nhiều

thông tin hữu ích Từ đó, họ đã xây dựng Bộ dir liệu Các bình luận được gan nhãn của báo

điện tử Yahoo Tiếp sau đó, Varada và cộng sự đã có nghiên cứu sâu hơn về các bình luận

mang tính xây dựng - những nhân tố chính, góp phan tạo ra những cuộc thảo luận chất lượng với Bộ dữ liệu về Bình luận có tính xây dựng C3 Bên cạnh việc xây dựng bộ dữ

liệu về tính xây dựng của bình luận, Varada và cộng sự của cô cũng đề cập đến tính độc

hại của bình luận, mối liên kết giữa nó với tính xây dựng và phát triển bài toán nhận diện tính xây dựng và độc hại của bình luận trên phương pháp học sâu Bi-LSTM với kết quả

72,59% trên bộ dit liệu.

Tại Việt Nam:

Hiện tại, lĩnh vực xử lý ngôn ngữ tự nhiên tại Việt Nam đang ngày càng phát triển với các

bộ dữ liệu chất lượng Một 36 bộ dữ liệu về bình luận trên các phương tiện truyền thông

xã hội như Bộ dữ liệu về cảm xúc của bình luận tiếng Việt UIT-VSMEC gồm 6,927 câu

được gán nhãn với kết quả F1 59,74% trên mô hình học sâu CNN hoặc Bộ dữ liệu phân tích cảm xúc về phản hồi của sinh viên UIT-VSEC gồm 16,000 câu với kết quả F1 84,03%

trên phương pháp Maximum Entropy Tuy nhiên, vì tiếng Việt là một ngôn ngữ ít tài nguyên và hiện tại vẫn chưa có bộ dữ liệu cụ thể nào về tính xây dựng để giải quyết bài

toán này Vì thế, chúng tôi mong muốn xây dựng bộ dữ liệu để phục vụ cho bài toán nhận diện tự động các bình luận mang tính xây dựng và tính độc hại, từ đó góp phần xây dựng

một cộng đồng phát triển nội dung một cách lành mạnh, hữu ích và chất lượng hơn.

Bô dữ liêu:

Định nghĩa bộ dữ liệu:

Tính xây dựng của bình luận

- Có tính xây dung: Là những bình luận của độc giả với nội dung mang tính xây

dựng, củng có luận điểm cho bài báo Thông thường, những bình luận này cung cấp

Trang 8

nhiều thông tin, dẫn chứng cụ thê, góp phần tạo dựng các cuộc thảo luận mở rộng chủ đề.

- Không có tính xây dựng: Là những bình luận của độc giả với nội dung không

mang tính xây dựng, chỉ bày tỏ cảm xúc đơn thuần và không mang nhiều ý nghĩa

Mức độ độc hại của bình luận

-_ Rất độc hai: Là những bình luận của độc giả với ngôn từ mang nội dung xúc phạm,

thô tục; công kích trực tiếp đến cá nhân, tập thể; hạ thấp người khác, thể hiện thái

độ không tôn trọng Đặc biệt là giọng văn mong muốn người khác rời khỏi cuộc

thảo luận.

- Độc hại: Là những bình luận của độc giả với nội dung châm biếm, chỉ trích van dé

được nêu ra; có thái độ chế giễu, trêu chọc người khác; không đồng tình với ý kiến

nhưng với thái độ thiếu tế nhị, bắt lịch sự.

- Kha độc hại: Là những bình luận của độc giả với nội dung có thé mang tính độc

hại đối với người này nhưng có thể không đối với người khác trong một số ngữ

cảnh nhất định; bày tỏ cảm xúc thất vọng.

- Khong độc hại: Là những bình luận của độc giả với nội dung không mang tính xây

dựng, chỉ bày tỏ cảm xúc đơn thuần và không mang nhiều ý nghĩa.

Quy trình xây dựng

Chúng tôi lựa chọn thu thập dữ liệu từ các bình luận của người dùng trên trang thông tin điện tử VnExpress.net Sau khi thu thập dữ liệu, chúng tôi thực hiện quá trình gán nhãn

dữ liệu Với quy trình này, những câu bình luận được gan nhãn có độ đồng thuận giữa các

thành viên thấp sẽ được gán lại Bên cạnh đó, chúng tôi đồng thời tiến hành phân tích lỗi trên những trường hợp có độ đồng thuận thấp và cập nhật lại hướng dẫn gán nhãn dữ liệu

sao cho phù hợp, nhằm cải thiện độ chất lượng bộ dữ liệu.

Trang 9

đồng thuận thấp

Hình: Quy trình xây dựng bộ dữ liệu.

Phạm vi: Bộ dữ liệu được xây dựng với dữ liệu thô được lấy từ trang tin tức điện tử VnExpress.net Áp dụng các phương pháp Máy học phô biến và các phương pháp Học sâu

hiện đại trên tiếng việt.

Đối tượng:

-_ Bộ dữ liệu về tính xây dựng và tính độc hại của bình luận tiếng Việt.

- Phuong pháp Máy học phổ biến.

- Phương pháp Học sâu hiện dai.

Phương pháp thực hiện:

- Nghiên cứu tình hình thực tiễn, nhu cau và lý do thực hiện dé tài này.

- _ Nghiên cứu va phân tích các đặc điểm của những công trình liên quan trong nước

và trên thế giới.

- _ Xây dựng bộ dit liệu đảm bảo được các yêu cầu đề ra.

- _ Nghiên cứu thử nghiệm với các mô hình Máy học va Học sâu cho việc phân loại

văn bản.

Trang 10

- So sánh, đánh giá và lựa chọn phương pháp đạt hiệu suất tốt nhất.

- _ Đánh giá bộ dữ liệu và phân tích lỗi.

- Cai đặt trên sản phâm thực tiễn (Demo)

Kết quả mong đợi:

Xây dựng bộ dữ liệu về tính xây dựng cũng như là tính độc hại của bình luận tiếng Việt

UIT-ViCTSD với 10,000 câu bình luận trên 10 miền dữ liệu Trong quá trình thu thập và

xử lý di liệu, chúng tôi đã xây dựng hướng dẫn gan nhãn dữ liệu cũng như là một công cụ

hỗ trợ gan nhãn dữ liệu Sau đó, tiến hành thử nghiệm với các phương pháp máy học vàhọc sâu trên bộ dữ liệu được xây dựng, so sánh, đánh giá và chọn ra mô hình phù hợp nhất

Kế hoạch thực hiện:

Giai đoạn 1: Từ thang 02/2021 — 03/2021

- Khao sát tình hình thực tế và nhu cầu thực tiễn đề thực hiện đề tài

- _ Nghiên cứu các công trình liên quan trong nước và trên thé giới

- _ Nghiên cứu nên tảng cơ bản của lĩnh vực xử lý ngôn ngữ tự nhiên, đặc biệt là những

đặc điểm trên xử lý tiếng Việt

- _ Nghiên cứu quy trình xây dựng bộ dữ liệu.

Giai đoạn 2: Từ thang 03/2021 — 04/2021

- Tim nguồn và thu thập dữ liệu

- _ Xây dựng hướng dan gan nhãn và gan nhãn dữ liệu.

- _ Đánh giá bộ dữ liệu theo từng mốc thời gian, đảm bảo chất lượng bộ dit liệu

- _ Nghiên cứu các phương pháp Máy học va Hoc sâu.

Trang 11

- _ Đánh giá bộ đữ liệu và phân tích lỗi.

Giai đoạn 4: Từ thang 05/2021 — 06/2021

- Cai tiến hiệu suất của các mô hình và mở rộng bải toán

- _ Xây dựng ứng dụng thử nghiệm cho các mô hình.

Giai đoan 5: Từ tháng 06/2021 — 07/2021

- Viét bài báo khoa học gửi đến các Hội nghị, tạp chí Khoa học

- _ Viết báo cáo trình bày về quá trình nghiên cứu và kết qua đạt được

- Báo cáo và nghiệm thu dé tài.

Hướng phát triển: Xây dựng tiếp tục và mở rộng quy mô bộ đữ liệu, phục vụ cho những

bài toán khác Nâng cao hiệu suât của các mô hình trên bộ dữ liệu.

Xác nhận của CBHD TP HCM, ngày 01 tháng 02 năm 2021 (Ký tên và ghi rõ họ tên) Sinh viên

(Ký tên và ghi rõ họ tên)

Nguyễn Thành Luân

Trang 12

MỤC LỤC

TOM TAT KHÓA LUẬN 2-52 5E2E+2E2E12E19E157121121121121127171711211 21111 re 1

MỞ DAU oes ceccsssessesssesssessssssecssessssssecsusssssssessusssessuetsssssessuessesssessusssesssessusssesssessessseesses 3Chương 1 TONG QUAN v.eccssccsscssssssessesscsscsvessessessessvssucssessessesseessssssssessessessesaee 10

1.1 Mô tả bài tOAN ee ecccecccccessesssesssessecssessuessessuessesssessussssssecsusssesssessesssesseeeses 10

1.2 Thách thức của đề tài - + St+2E2E2E1221221271 2121211211221 111.3 Tính ứng dụng của đề tai ccccssesesesessessessessesessessessesesessesessseaee 121.4 Kết luận 2c 2 2E ET212211211211 2112121221 ere 13

Chương 2 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN - 14

2.1 Cac công trình trên thé giới -:- -¿©-++2++2x++zxttx++rxzrxerkeerxee 14

2.2 Cac công trình trong HƯỚC - -c- c- c1 ng nh ng ng 15

Chương3 XÂY DUNG BO DU LIEU VÀ TIEN HANH ĐÁNH GIA CÁC

PHƯƠNG PHAP THU NGHIEM cssssssssscssssessssnescssneecssneeessneeessneeesnneeennneeesnesee 17

3.1 Dinh nghĩa các nhãn ¿c1 TH Hà HH như 17 3.2 Quy cà 0 18

3.2.1 Thu thập dữ liỆu - LH HH HH Hiện 19

3.2.2 Xây dựng hướng dan gan nhãn ¿2+2 +x+E+E+Ez£EeErxererxrrs 20

3.2.3 Gan nhãn dit liệu 22 11 2221111123111 195111199 vn key 21

3.3 Phan tich b6 i0 0 22

3.3.1 Sự phân bố của các Nhat oi eeceseeseesessessessessesesseesesssssestesessessesseeees 223.3.2 Mối quan hệ giữa tính xây dựng và tính độc hại - 253.4 COmg a5 25

3.5 Các phương pháp thử nghiỆm - - - 2c S11 kEsrEEkresrirsrrrrkrree 25

3.5.1 Các phương pháp máy học truyền thống - 2 s+s+zxzzz+z 25

Trang 13

3.5.2 Cac phương pháp học sâu - +2 3221121111111 rrek 27

3.5.3 Phương pháp học chuyển tiẾp - 2-5252 E+ExvE2E2EcrEerxersrreee 30

3.6 Nghiên cứu thử nghiỆm - c2 2322113111311 1111181 1111111 xe 30

3.6.1 _ Tiền xử lý dữ liệu :-©-¿+2E+2EE22E222E221271221 21122121 re 303.6.2 Các bộ biểu diễn từ -2-©2z+2E2EE22E12712112711211 711211211 cre 313.6.3 Thông số cài đặt các mô hình 2-2 2 +E£E£E+E2ErEerxerxrrees 32

3.6.4 Phương pháp đánh gIã c2 3121131211 31111 1111511111111 rrve 33

3.6.5 _ Kết quả thử nghiệm -¿- 2+2 2212212217171 E1 343.6.6 Phan tích kết quả -2k+x+EE2E2E12E1EE1E71711211211 221 353.7 Kết luận 8 36

Chương 4 SO SÁNH ĐỘ HIỆU QUA CÁC PHƯƠNG PHÁP HỌC CHUYEN

TẾP Z⁄ 6 « «e À Ẻ 37

4.1 Các phương pháp học chuyên tiếp cho tiếng Việt -: 5:¿ 37

4.1.1 Mô hình da ngôn ngữ LG St S St v* HH HH nh re 38 4.1.2 Mô hình đơn ngôn ngữ - S2 31 3S 19 11111111 1xx ree 40

4.2 Nghiên cứu thử nghiỆm - c2 3322332113511 re+ 44

4.2.1 _ Tiền xử lý dữ liệu c- c2 E2 2121221211212, 444.2.2 Cac thông số mô hình -¿- 2 c+s+SE+EE2EE2EEEEEEEEEEEEEEEEEEEErkerkrex 444.2.3 Kết quả thử nghiệm ¿5c SE EE2E21E71E1121121121 1111 xe 454.2.4 Phân tích kết quả -¿- 2© SE 2 21121E711121121121 1111 46

4.3 Nghiên cứu thử nghiệm trên các bộ dữ liệu khác -5+>+ 46

4.3.1 Cac bộ dữ liệu cho bài toán phân loại văn ban tiếng Việt liên quan 474.3.2 Tiền xử lý đữ liệu - +22 2112212711121 cre, 474.3.3 Các tham số mô hinh c.ccccccccccssescscssesessssesesessesesesueacscsvssescsesveueecsvenees 48

Trang 14

4.3.4 Kết quả thử nghiệm - 2© te 2221212121211 504.3.1 Phân tích kết quả - ¿- -+k+SE+EESEE2E2EEEEEEE2E121121 2121 eEcer 504.4 Đánh giá hiệu suất phân loại giữa mô hình đa ngôn ngữ và mô hình đơn

NEON NT 011177 aaa Ả 51

AS KẾt luận 22.22222122 2212211211211 ee 51

Chương 5 _ KÉT LUẬN VA HƯỚNG PHAT TRIẺN 2-2 s+cse+se2 53

5.1 KẾtluận - 2c 2k2 222221 2122122121121121121111121 Ea 535.2 Hạn chế c St St 1 E1 1215111111111111111111115111111111.1E111E 1x Etxe 545.3 Hướng phat triển 5c St EEEE211211 1111112112111 111 54DANH MỤC CONG TRINH TAC GIẢ - 2-2: ©522522S£+EE£EEtEEt£EZEESEEerxerxersee %6TÀI LIEU THAM KHẢO 2-©522522S22EESEE£EE2EE12112212717171211211211 211 cxe 58

085090922 ( 6t " 61

Trang 15

DANH MỤC HÌNH

Hình 2.1: Hình ảnh minh hoa cho sự hiển thi của các bình luận trong một bài viết trên

\M⁄415 20.520 11

Hình 3.1: Quy trình gan nhãn dữ liệu -. - (2S 322132112 E2EEEEEserrrvrss 19

Hình 3.2: Thống kê về số lượng bình luận mang tính xây dựng theo mức độ độc hại

Hình 3.3: Số lượng nhãn 0 và nhãn | tương ứng với từng nhiệm vụ nhận diện tính

xây dựng va tính độc hạI - - c3 32112111311 1111111 11111111 1111111111 11 E11 gx grry 23

Hình 3.4: Sự phân bố của các bình luận có tinh xây dựng trong bộ dt liệu theo độ dai

Dir Tan oes Ũ 24

Hinh 3.5: Su phan bố của các bình luận vào các miền dữ liệu :- -=zss¿ 25Hình 3.6: Kiến trúc mạng RNN với 1 tầng ẩn - ¿5 x+c++E+ErEerkerxereee 28Hình 3.7: Kiến trúc mạng LSTM với 4 tang ẩn - 2 5¿2++2x++zxzzxerxzzzxez 29Hình 3.8: Ma trận nhầm lẫn của nhiệm vụ nhận diện tính xây dựng và tính độc hại

của bình luận với mô hình PhoBER'T + 2< + 2222 1E +2 EE+£+##EEEezeeeeseeeesse 35

Hình 4.3: Kiến trúc transformer của BERT 2 + ©2+2x++£++£x++zxtzxxerxesrxee 39Hình 4.4: Số lượng encoder của BERT base và BER Tiarge (tương tự với PhoBERT) 41Hình 4.5: Quá trình phát hiện các token bị thay thé bởi mô hình ELECTRA 43

Hình PL 1: Giao diện demo nhận diện tính xây dựng và tính độc hại của bình luận

với đầu vào là một bình luận của người dùng 2-2 52+ ++£z+Ex+rxerxerreee 62

Hình PL 2: Kết quả dự đoán tính xây dựng và tính độc hại của bình luận sử dụng các

mô hình đã tinh chỉnh - - - << << << << << k xxx 11x11 SE SE SE SE SE SE ng 002415455555 63

Trang 16

DANH MỤC BANG

Bảng 3.1: Các miền dữ liệu trong bộ dữ liệu - - Sc 2S ssireirreirerrre 19Bảng 3.2: Một số trường hợp minh họa cho việc chuẩn hóa dit liệu 31Bang 3.3: Các thông số tương ứng với từng mô hình được lựa chọn - 33Bảng 3.4: Thống kê kết quả của các mô hình trên bộ dữ liệu được xây dựng 34Bảng 4.1: Các bộ tham số của từng mô hình trên nhiệm vụ nhận diện tính xây dựng

của bình luận + 22 1111111222231 1111111295311 111110031 K kg kg 11kg 45

Bảng 4.2: Kết quả của các phương pháp học chuyền tiếp trên nhiệm vụ nhận diện tinhxây dựng của bình luận tiếng Việt với độ đo Fl-macro-averaged (%) 46

Bang 4.3: Các kỹ thuật tiền xử ly dir liệu được sử dụng tương ứng với từng nhiệm vụ

của các bộ dữ liệu . - E221 112211111153 81 11511 11100111111 1kg kg kg ky 48

Bảng 4.4: Các tham số của từng mô hình tương ứng với từng bộ dữ liệu được lựa

09 131 ẽẻ⁄/đứ « 49

Bang 4.5: Kết qua của các phương pháp học chuyên tiếp trên các bộ dit liệu tiếng

Việt về phân loại văn bản với độ đo F1-macro-averaged (%) 2-5 z+s+ 50

Trang 17

DANH MỤC TỪ VIET TAT

STT Từ viết tắt Ý nghĩa

| NLP Natural Language Processing

2 BERT Bidirectional Encoder Representations from

Transformers

3 XLM-R XLM-RoBERTa

4 mBERT Multilingual BERT

5 DistlmBERT Distil Multilingual BERT

6 LSTM Long Short-Term Memory

7 Bi-GRU-LSTM-CNN | Bidirectional - Gated Recurrent Units - Long

Short-Term Memory - Convolutional Neural Network

API Application Programming Interface

Trang 18

TÓM TẮT KHÓA LUẬN

Các phương tiện truyền thông xã hội ngày càng phát triển, kéo theo đó là số

lượng người dùng ngày càng gia tăng Việc phát triển này giúp cho người dùng cóthé dé dàng bày tỏ cảm xúc, trao đôi thông tin cũng như là tương tác với các nội dungtrên internet Nhận thấy những giá trị từ nguồn tài nguyên nay, chúng tôi đề xuất vàxây dựng một bộ dif liệu chất lượng với tên gọi là UIT-ViCTSD [1] bao gồm các quy

trình xây dựng nghiêm ngặt và chặt chẽ, phục vụ cho bài toán nhận diện tính xây

dựng cũng như là tính độc hại của bình luận người dùng trên các phương tiện truyềnthông xã hội tiếng Việt Được biết rằng, đa phần các bình luận trên mạng internethiện tại thường không được chọn lọc và có rất ít những những bình luận có ích, cungcấp những thông tin cho người dùng hoặc là có nhưng không được nỗi bật Khôngnhững thế, những bình luận này đôi khi mang nội dung độc hại, làm ảnh hưởng đến

tâm lý của người đọc cũng như là các nhà sáng tạo nội dung.

Bên cạnh đó, sau khi xây dựng bộ dit liệu chúng tôi tiến hành đánh giá nhữngphương pháp trải dài từ truyền thống cho đến hiện đại trên bộ dữ liệu Các mô hìnhmáy học truyền thống như Logistic Regression [2], Support Vector Machine [3],Random Forest [4] hay là các mô hình học sâu hiện đại như LSTM [5], mô hình kếthợp Bi-LSTM-GRU-CNN [6] hay đặc biệt phải ké đến là việc sử dụng mô hình thuộcphương pháp học chuyên tiếp, phương pháp tiên tiến và là xu hướng hiện tại trong xử

lý ngôn ngữ tự nhiên, mà trong đề tài chúng tôi sử dụng chính là PhoBERT [7] Thôngqua việc thử nghiệm ban đầu với những phương pháp kê trên, chúng tôi thu được kếtquả cao nhất trên tập kiểm tra thông qua độ đo F1-score macro với mô hình PhoBERT

lần lượt là 78,59% cho nhiệm vụ nhận diện tính xây dựng và 59,40% cho nhiệm vụ

nhận diện tính độc hại của bình luận.

Ngoài ra, sau khi tiến hành những thử nghiệm ban đầu trên, chúng tôi nhận

thấy răng các mô hình học chuyền tiếp đã đạt hiệu suất rất ấn tượng Vì thế, chúng

tôi quyết định thử nghiệm mở rộng với nhiều phương pháp học chuyên tiếp hiện đại

khác trên nhiệm vụ phân loại bình luận có tính xây dựng của bộ dữ liệu UTT-VICTSD

Trang 19

đã xây dựng Các phương pháp học chuyền tiếp được chúng tôi lựa chọn và sử dụng

là những phương pháp hiện tại đang hỗ trợ tiếng Việt, bao gồm các mô hình đa ngôn

ngữ: mBERT [8], XLM-R [9], DistiimBERT [10] và các mô hình đơn ngôn ngữ:

PhoBERT [7], viBERT [11], VELECTRA [11] và viBERT4news [12] Kết quả cuốicùng sau khi tiến hành nghiên cứu thử nghiệm, hầu hết các mô hình học chuyền tiếpđều cho kết quả cao hơn kết quả ban đầu của chúng tôi trên bộ dữ liệu Đặc biệt làcác mô hình đơn ngôn ngữ cho hiệu suất vượt bật hơn han kết quả của các mô hình

đa ngôn ngữ Kết quả cao nhất chúng tôi dat được trên độ đo FI là 84,15% với mô

hình viBERT4news Bên cạnh đó, sau khi có những thử nghiệm trên bộ dữ liệu

UIT-ViCTSD [1] của đã xây dựng, chúng tôi tiến hành thử nghiệm và đánh giá những môhình học chuyên tiếp này trên các bộ dữ liệu tiếng Việt về phân loại văn bản khác để

xem thử liệu rằng hiệu suất của chúng có thật sự hiệu quả cho nhiệm vụ này hay

không Các bộ dữ liệu có liên quan được sử dụng để đánh giá các phương pháp baogồm UIT-VSMEC [13], UIT-ViHSD [14] và UIT-ViOCD [15] Kết quả thu đượcđược đánh giá trên độ đo F1 lần lượt như sau: 65,44% sử dụng mô hình PhoBERT

với UIT-VSMEC, 95,26% sử dung mô hình vELECTRA với UIT-ViOCD và cuốicùng là 66,43% sử dụng mô hình viBERT4news với UIT-ViHSD Từ kết quả này,

chúng tôi nhận ra rằng các mô hình học chuyên tiếp thực sự hiệu quả trên nhiệm vụphân loại văn bản tiếng Việt và đặc biệt đạt hiệu quả nhất với các mô hình đơn ngôn

ngữ.

Sau cùng, dé phục vụ cho mục đích nghiên cứu của cộng đồng xử lý ngôn ngữ

tự nhiên trên tiếng Việt, chúng tôi đã công bố bộ dữ liệu lên nền tảng Github! vàHuggingFace? Đồng thời, để có một cái nhìn tổng quan về bài toán này, chúng tôi đãtiễn hành xây dựng một demo dựa trên các mô hình đạt hiệu suất cao nhất trên hai

nhiệm vụ.

! https://github.com/tarudesu/vietnamese-constructive-toxic-speech-detection-dataset/

? https://huggingface.co/datasets/tarudesu/UIT-ViCTSD

Trang 20

MỞ DAU

Đặt vấn đề

Trong bối cảnh nội dung số phát triển như hiện nay, một trong những nhiệm vụ chính

đó là việc nâng cao chất lượng của các cuộc hội thoại, thảo luận trực tuyến Người

dùng ngày càng dễ dàng hơn trong việc bày tỏ cảm xúc, suy nghĩ cũng như là ý kiến

của mình đối với các nội dung, chủ đề mà họ quan tâm Nhưng cũng chính vì lẽ đó,một số lượng lớn những bình luận xuất hiện hiện nay tràn lan và không được kiểm

soát Những bình luận chứa nội dung không liên quan, không hữu ích cho người đọc

xuất hiện ở khắp mọi nơi trên các diễn đàn, hội nhóm Đặc biệt hơn, đôi lúc nhữngbình luận này còn mang tính chất độc hai, thù han làm ảnh hưởng rat lớn đến tâm lýcủa người đọc cũng như những cá nhân hay tập thể mà nó hướng đến Chính vì thế,việc chú trọng vào những bình luận của người dùng và tiến hành xử lý những bìnhluận có tính độc hại song song với việc quan tâm và thúc đây các bình luận có tínhxây dựng trong các chủ đề sẽ góp phần nâng cao chất lượng các cuộc thảo luận trên

không gian mạng, đem lại nhiều kiến thức và kinh nghiệm cho độc giả.

Bài toán phân loại văn bản (text classification) là bài toán phổ biến trong lĩnh vực xử

lý ngôn ngữ tự nhiên Đây là một bài toán thuộc nhóm học có giám sắt trong học máy.

Đầu vảo của bài toán yêu cầu dữ liệu là dữ liệu có nhãn, từ đó mô hình sẽ tiến hànhquá trình học từ các dữ liệu có nhãn đó Mô hình sau khi được huấn luyện sẽ được

dùng dé dự đoán các nhãn cho các dữ liệu mới mà mô hình chưa được học qua Cónhiều dạng bài toán trong phân loại văn bản, chang hạn như bai toán phân loại cảm

xúc, bài toán phân loại tích cực tiêu cực, bai toán phân loại thư điện tử, v.v Một

trong những tính chất của bình luận đó tính là tính xây dựng hiện tại vẫn chưa có một

bộ dữ liệu nào sẵn có cho tiếng Việt Chính vì thế chúng tôi quyết định thực hiện đềtài này để có những nghiên cứu sâu hơn về tính chất này, song song với đó cũng

nghiên cứu về tính độc hại của bình luận.

Bài toán nhận diện nhận diện tính xây dựng và tính độc hại của bình luận tổng quát

như sau:

Trang 21

e Đầu vào: Một văn ban được trích xuất từ bình luận của người dùng trên

website VnExpress.net.

e Đầu ra: Nhãn dự đoán bởi mô hình, tương ứng với hai nhiệm vụ là Có tính

xây dựng - Không có tính xây dựng; Độc hại - Không độc hại.

Bên dưới đây là các mẫu dữ liệu được trích từ bộ dit liệu mà chúng tôi xây dựng:

*Một số trường hợp về các mẫu đữ liệu trong bộ dữ liệu được xây dựng

Có tính xây dựng - Độc hại

Tôi thấy có nhiều cha mẹ coi con như cục vàng nuông

chiều quá nên dẫn tới sẵn sàng ăn hiếp bạn khác Nhưng

Bình luận: khi động đến con họ thì họ sẽ làm 4m ï lên Loại người

như vậy sau này cũng chả làm được gì cho xã hội, có khi

lớn lên lại thành dòng dõi đầu đường xó chợ

Tính xây dựng: | Có Tính độc hại: Có

Có tính xây dựng - Không Độc hại

Ca voi xanh (còn gọi là cá ông) được mệnh danh là những

ca sĩ lang du khắp các đại dương Vì cá voi xanh có thé

phát ra âm thanh siêu trầm ở tần số 14 Hz Và đó cũng làBình luận: thứ âm thanh lớn nhất trên thế giới, lớn hơn cả tiếng rít

của máy bay phản lực, với cường độ 200 decibel Nếu sosánh với tiếng hét của loài người ở 70 decibel, âm thanh

cao hơn 120 decibel gây nguy hiểm cho tai người

Tính xây dụng: | Có

Tính độc hại: Không

Trang 22

Không có tính xây dựng - Độc hại

Không biết làm sao như thế nào mà hệ thống thoát nước

Bình luận: của bệnh viện lại tệ hại như thế này? Chắc là lại có thằng

ngu nao vứt rác xuống chứ gì Ngu vãi c** thật

Tính xây dựng: | Không Tính độc hại: Có

Không có tính xây dựng - Không độc hại

Bình luận: Cảm ơn các anh đã vì cuộc sống bình yên của nhân dân

Tính xây dựng: | Không

Tính độc hại: Không

Mục tiêu khóa luận tốt nghiệp

Mục tiêu của khóa luận tốt nghiệp là nghiên cứu về bài toán phân loại văn bản vớicác tính chất như là tính xây dựng và tính độc hại của bình luận người dùng Tổng

quan gôm bôn mục tiêu chính:

e Dau tiên, chúng tôi xây dựng một bộ dữ liệu chat lượng, đủ lớn và bao quát

trên nhiêu miên dữ liệu đê phục vụ cho các nghiên cứu về bai toán nhận

diện tính xây dựng và tính độc hại của bình luận của người dùng trên các

phương tiện truyền thông xã hội tiếng Việt

e Thứ hai, chúng tôi tiến hành các thử nghiệm ban đầu trên bộ dit liệu với

các phương pháp trải dài từ truyền thống như máy học với Logistic

Regression [2], SVM [3], Random Forest [4] cho đến các phương pháp

Trang 23

hiện đại như học sâu bao gồm LSTM [5], Bi-GRU-LSTM-CNN [6] và học

chuyển tiếp như PhoBERT [7] trên bộ đữ liệu được xây dựng

e Thứ ba, chúng tôi nghiên cứu thử nghiệm mo rộng với hàng loạt phương

pháp học chuyền tiếp với các mô hình đơn ngôn ngữ và đa ngôn ngữ hỗ trợtiếng Việt trên nhiệm vụ nhận diện tính xây dựng của bộ dữ liệu để đánh

giá độ hiệu quả của các phương pháp này Ngoài ra, chúng tôi lựa chọn thêm những bộ dữ liệu khác có liên quan như UTT-VSMEC [13], UIT-

ViHSD [14] và UIT-ViOCD [15] để thử nghiệm và đánh giá cùng các

phương pháp này để xem các phương pháp này có thực sự hiệu quả trênnhững nhiệm vụ phân loại văn bản tiếng Việt nói chung hay không

e Cuối cùng, chúng tôi công bố dit liệu cho cộng đồng nghiên cứu trên nền

tảng HuggingFace - nền tảng cộng đồng cung cấp dit liệu cũng như là các

mô hình tiên tiến phổ biến của xử lý ngôn ngữ tự nhiên trên thế giới vàGitHub’ Bên cạnh đó, chúng tôi có xây dựng một demo cho khóa luận tốt

nghiệp này.

Đối tượng và phạm vi nghiên cứu

> Đối tượng:

Bài toán nhận diện tính xây dựng và tính độc hại của bình luận tiếng Việt của người

dùng trên các phương tiện truyền thông xã hội

> Pham vi:

Pham vi nghiên cứu của dé tài tap trung chủ yếu vào các bình luận của người dùngtrên các phương tiện truyền thông xã hội và trải dài trên 10 miền dữ liệu khác nhaunhư là giải trí, giáo dục, khoa học, kinh doanh, ô tô - xe máy, pháp luật, sức khỏe, thếgiới, thể thao và thời sự

Dé tai của chúng tôi chủ yêu tập trung vào các vân dé sau:

> https://huggingface.co/datasets/tarudesu/UIT-ViCTSD

* https://github.com/tarudesu/vietnamese-constructive-toxic-speech-detection-dataset/

Trang 24

- Xây dựng bộ dữ liệu đủ lớn và chất lượng phục vụ cho bài toán nhận diện tính xâydựng và tính độc hại của bình luận tiếng Việt.

- Đánh giá hiệu suất của các phương pháp trải dài từ truyền thống cho đến hiện đại

trên bộ đữ liệu được xây dựng.

- Nghiên cứu thử nghiệm mở rộng với các phương pháp học chuyền tiếp bao gồm các

mô hình đa và đơn ngôn ngữ trên nhiệm vụ nhận diện tính xây dựng dé đánh giá độhiệu quả của các mô hình này Bên cạnh đó, chúng tôi đồng thời thử nghiệm cácphương pháp này trên những bộ dữ liệu tiếng Việt khác có liên quan dé trả lời chocâu hỏi "Liệu rằng các phương pháp học chuyền tiếp có thực sự hiệu quả trên những

bài toán phân loại văn bản tiếng Việt hay không?"

Kết quả nghiên cứu

Sau khi hoàn thành, nghiên cứu của chúng tôi đạt được những kết quả như sau:

e Chúng tôi đóng góp một bộ dữ liệu chất lượng UIT-ViCTSD [1] cho công

động với 10,000 bình luận trên 10 miền dit liệu Bộ dit liệu được xây dựngvới quy trình nghiêm ngặt và được gán nhãn thủ công băng đội ngũ nhữngngười gan nhãn được huấn luyện kỹ càng Với bộ đữ liệu này, chúng tôi hy

vọng sẽ phục vụ cho bài toán nhận diện tính xây dựng và tính độc hại của

bình luận người dùng trên các phương tiện truyền thông xã hội tiếng Việt

e Chúng tôi tiến hành những nghiên cứu thử nghiệm ban dau và đạt được kết

quả cao nhất trên mô hình PhoBERT [7] với 78,59% và 59,40% lần lượt cho

nhiệm vụ nhận diện tính xây dựng và tính độc hại của bình luận Ngoài ra,

chúng tôi cũng thử nghiệm với những phương pháp máy học như Logistic

Regression [2], SVM [3], Random Forest [4] hay học sâu như LSTM [5],

Bi-GRU-LSTM-CNN [6] dé có một cái nhìn khách quan về hiệu suất của các môhình phân loại trên bộ đữ liệu được xây dựng Những kết quả này cũng chính

là tiền đề dé các nghiên cứu trong tương lai sử dụng dé so sánh hiệu suất của

các mô hình trên các nhiệm vụ mà bộ dữ liệu hướng đên.

Trang 25

e Chúng tôi thử nghiệm mở rộng trên nhiệm vụ nhận diện tính xây dựng bằng

các phương pháp học chuyền giao hiện đại và đạt được các kết quả tương đối

khả quan và cao nhất là mô hình viBERT4news [12] với 84,15% trên độ doF1 Ngoài ra, chúng tôi đồng thời tiến hành các thử nghiệm với cùng cácphương pháp này trên các bộ dữ liệu có liên quan và đạt kết quả lần lượt trên

độ đo F1 với 65,44% cho nhiệm vu phân loại cảm xúc của bộ dữ liệu VSMEC

[13] với mô hình PhoBERT [7]; 95,26% đối với nhiệm vụ phân loại bình luậnphan nàn của ViOCD [15] bang sử dụng mô hình VELECTRA [11]; 66,43%

cho tác vu phát hiện lời nói xúc phạm của bộ dữ liệu VIHSD [14] với mô hình

viBERT4news [12].

e Xây dựng demo cho khóa luận tốt nghiệp này bang cách sử dụng các mô hình

đạt hiệu suất tốt nhất trên từng nhiệm vụ của bộ dữ liệu để hỗ trợ cho việctrực quan hóa bài toán chúng tôi thực hiện Demo được trình bay tại phần Phụ

lục của báo cáo nảy.

e Viết và gửi 02 bài báo khoa học đến các hội nghị uy tín trên thé giới Trong

đó, một bài báo đã được chấp nhận và đăng tải tại proceedings [1] của hội

nghị IEA/AIE 2021 (Rank B) Một bài báo còn lại đã được gửi đến hội nghị

ICONIP 2021 (Rank B) va đang trong quá trình xét duyệt.

Cấu trúc khóa luân

Khóa luận được chia thành 5 Chương với các nội dung chính như sau:

> Chương 1: Tổng quan

Trong chương này, chúng tôi sé trình bay tổng quan về bài toán nhận diện tinh xâydựng và tính độc hại cho bình luận tiếng Việt của người dùng trên các phương tiện

truyền thông xã hội

> Chương 2: Các công trình nghiên cứu liên quan

Các công trình nghiên cứu trên thế giới và trong nước có liên quan đến bài toán nhậndiện tính xây dựng và tính độc hại của bình luận sẽ được đề cập tại Chương 2 này bao

Trang 26

gồm các bộ dit liệu đã được xây dung và các phương pháp cho bai toán phân loại văn

bản.

> Chương 3: Xây dựng và đánh giá bộ dữ liệu

Trong chương 3, chúng tôi mô tả hướng dẫn gán nhãn chỉ tiết với các định nghĩa củacác nhiệm vụ và đồng thời là quy trình xây dựng dữ liệu Sau khi bộ dữ liệu hoàn tất,chúng tôi tiến hành phân tích bộ dữ liệu và sau đó tiến hành thử nghiệm, đánh giáhiệu suất của các mô hình máy học, học sâu và học chuyên tiếp trên bộ dữ liệu được

xây dựng.

> Chương 4: Độ hiệu quả của các mô hình đa ngôn ngữ va đơn ngôn ngữ

Bên cạnh việc thử nghiệm các phương pháp đánh giá ban đầu cho bộ dữ liệu, chúng

tôi tiến hành thử nghiệm hàng loạt các phương pháp học chuyền tiếp từ đơn cho đến

đa ngôn ngữ có hỗ trợ tiếng Việt cho nhiệm vụ nhận diện tính xây dựng của bộ dữliệu Sau đó, dé đánh giá mức độ hiệu quả thực sự của các phương pháp này trên bàitoán phân loại văn bản tiếng Việt, chúng tôi tiến hành thử nghiệm cùng các phươngpháp trên những bộ dữ liệu tiếng Việt có liên quan

> Chương 5: Kết luận và hướng phát triển

Trong chương cuối, chúng tôi trình bày các kết quả đã thực hiện và thu được trongkhóa luận tốt nghiệp này Các mặt hạn chế cũng như là các hướng phát triển và mở

rộng đề tài trong tương lai sẽ được trình bày

Trang 27

Chương 1 TONG QUAN

1.1 Mô ta bài toán

Phân loại văn ban (Text Classification) là một trong những bài toán phổ biến tronglĩnh vực xử lý ngôn ngữ tự nhiên hiện nay Một số bài toán điển hình trong phân loạivăn bản có thể kể đến như bài toán phân loại cảm xúc, bai toán phân loại thư điện tửspam, bai toán nhận diện bình luận xúc phạm, v.v Đề phục vụ cho nhiều lĩnh vực

cũng như là các mục đích khác nhau, nhiều tính chất của ngôn ngữ đã được khai thác

và ngày càng mở rộng cho bài toán tổng quát là phân loại văn bản trong lĩnh vực xử

lý ngôn ngữ tự nhiên.

Tính xây dựng của bình luận là một trong những đặc điểm hữu ích, giúp ích cho ngườidùng trên các phương tiện truyền thông xã hội Các bình luận này thường chứa đựngthông tin ý nghĩa và góp phần thúc đây các nội dung trực tuyến Bên cạnh đó, tínhđộc hại của bình luận cũng là một trong những nhân tố tác động trực tiếp đến tâm ly

của người dùng trên không gian mang Việc các phương tiện truyền thông xã hội ngày

càng bùng nổ, kéo theo đó là các bình luận người dùng ngày càng gia tăng và matkiểm soát như hiện nay thì rất cần thiết để phát trién các công cụ cũng như là có những

nghiên cứu về các đặc điểm của bình luận người dùng, nhằm xây dựng một cộng đồng

trực tuyến lành mạnh và an toàn Hình 2.1 là một ví dụ về thực trạng hiện nay của cácbình luận người dùng Chúng ta thấy rằng, sự xuất hiện lộn x6n của các bình luậnkhông cung cấp nội dung thông tin hữu ích nằm xen lẫn giữa các bình luận có tính

xây dựng và khiến cho người dùng khó khăn trong việc tiếp nhận các thông tin hơn

10

Trang 28

< œ ©) https://vnexpress.net,

[=| Moi nhat Thoisw Gócnhìn Thếgiới Video Kinhdoanh Khoahọc Giải trí Théthao Pháp luật Giáo dục

H Hoàng Quan Bài học cho những người thích sống ảo

i Trảlời Chiasẻ 4h trước

x kieuphonggtn Ông ngoại nhắn mai tiêm, bệnh viện nói trường hợp tiêm khi dư liều bác sỹ bị kỷ

luật

2 im Trảlời Chiasẻ 7h trước

N ntrongquyen1975 Theo mình thì nhân viên y tế bị kỷ luật là do đã đăng ký tim nhưng lại không hướng

dẫn cụ thể cho cô gái kia để cô ấy nghĩ mình không đăng ký mà vẫn được tim vậy nên mới đăng tin sai

sự thật ảnh hưởng đến bệnh viện và ngành y tế,đôi khi có những van đề chỉ sai một chút nhỏ thôi

nhưng hậu quả nó lại rất lớn

1 if Trảiời Chiasẻ 7h trước

@_ Tran Hoang Nghề nghiệp kinh doanh tự do mà được đăng kí tiêm vác xin, trong khi nhiều người được

` wu tiên hơn lại chưa được tiêm hết bó tay

2iề Trảiời Chiasẻ 7h trước

K Kotora Cả nước có bao nhiêu đối tượng ưu tiên chưa được tiêm, mà có chuyện dư vac xin, tránh lãng

phí?

11 Trảiời Chiasẻ 8htrước

T Thanh Nói thật với trường hợp này làm tôi chạnh lòng lắm Tôi là dược sĩ, hàng ngày bán thuốc tiếp

xúc với nhiều bệnh nhân, nguy cơ lây nhiễm cao, nhưng dược sĩ tư nhân như tôi không thuộc đối

tượng ưu tiên, chưa được tiêm mũi nào Với trách nhiệm và sự ràng buộc công việc, hàng ngày chúng

tôi vẫn mở cửa bán với bao nhiêu rủi ro, mà nhỡ có f0 vào, là có nguy cơ đóng cửa và phải chịu các

mức phạt khác nhau Trong khi đó gia đình tôi có tham gia ủng hộ quỹ vaccin, mà giờ nghe cô này

được tiêm mà mình thấy thật tủi thân.

13 im Trảlời Chiasẻ 8h trước

Hình 2.1: Hình ảnh minh họa cho sự hiền thị của các bình luận trong một bải viết

trên VnExpress.net.

Đề thực hiện được các nhiệm vụ đó, trước tiên chúng ta cần phải có dữ liệu dé huấnluyện cho các mô hình Chính vì lẽ đó, chúng tôi đề xuất xây dựng một bộ dữ liệuchất lượng và đủ lớn xoay quanh tính xây dựng và tính độc hại của bình luận trên cácphương tiện truyền thông xã hội tiếng Việt trong khóa luận tốt nghiệp này

1.2 Thách thức của đề tài

Một trong những rào cản lớn nhât đôi với việc nghiên cứu vào tính xây dựng và tính

độc hại của bình luận chính là việc tiêng Việt vẫn chưa có nhiều bộ dữ liệu va đặc biệt là vẫn chưa có bộ đữ liệu nào về các tính chất này để phục vụ cho mục đích

nghiên cứu Chính vì thế, muốn nghiên cứu và thử nghiệm những phương pháp thì

II

Trang 29

chúng tôi cần phải khảo sát và tiến hành xây dựng một bộ dữ liệu về tính xây dựng

và tính độc hại của bình luận một cách chất lượng và quy mô

Bên cạnh đó, sự khác biệt giữa tiếng Việt so với tiếng Anh về mặt cấu trúc câu, ngữ

nghĩa và cũng như là cách thé hiện từ cũng là một trong những khó khăn trong việc

áp dụng những nghiên cứu đã có trên tiếng Anh cho tiếng Việt Dé áp dụng được cácnghiên cứu đi trước, chúng tôi cần phải có kiến thức nhất định về tiếng Việt dé có thé

thực hiện những bước xử lý phù hợp trên bộ dt liệu Bên cạnh đó, việc hiểu được

tiếng Việt trong bộ dit liệu sẽ giúp cho các mô hình hoạt động hiệu quả và hiểu được

nội dung của dữ liệu hơn.

Cuối cùng, sự nhập nhằng trong việc phân biệt bình luận có tính xây dựng và không

có tính xây dựng chính là thách thức lớn nhất mà chúng tôi cần phải quan tâm Cácbình luận có tính xây dựng vì chứa đựng các thông tin hữu ích nên thường sẽ có số

lượng các từ trong câu lớn và điều đó gây sự nhằm lẫn cho việc phân biệt chính là

"những câu dài sẽ là câu có tính xây dựng" Minh chứng cho việc nhằm lẫn đó là một

vi dụ ngay sau đây: “Nhìn cảnh này thực sự cảm thấy né phục và cũng như là trântrọng sự anh đũng đó Xin được gửi lời cảm ơn đến tất cả mọi người đã giúp đỡ họ

Không biết rằng nếu không có sự xuất hiện kịp thời đó thì liệu họ có thê tiếp tục sống

hay không Mà tôi thắc mắc răng, vì sao mà nơi hoang vu như vậy lại có người đếnnhỉ? Thắc mắc thực sự luôn ấy” Đây mà một bình luận không có tính xây dựng vìnội dung không cung cấp thông tin cũng như kinh nghiệm hay câu chuyện gì hữu ích

cả và đây chỉ là một câu bày tỏ cảm xúc của người bình luận và những thắc mắc của

họ Nhìn lướt qua, chúng ta dễ bị nhằm lẫn là có tính xây dựng bởi vì độ dài của nó.Hơn thế, nếu như công việc phân loại này được thực hiện thủ công bởi những nhàkiểm duyệt thì sẽ rất dé bị nhầm lẫn và không đạt được hiệu quả tốt như mong muốn

1.3 Tính ứng dụng của đề tài

Trước tiên, với việc xây dựng một bộ dữ liệu mới, chúng tôi hy vọng rằng sẽ đóng

góp và góp phan làm giàu mạnh nguồn dé liệu cho lĩnh vực xử lý ngôn ngữ tự nhiêntiếng Việt Hiện tại, số lượng các bộ dữ liệu chất lượng tiếng Việt phục vụ cho cộng

12

Trang 30

đồng vẫn còn khá ít và không đa dạng Chính vì thế, việc xây dựng một bộ dữ liệu

mới sẽ góp phần bổ sung và thúc đây những nghiên cứu sau này của lĩnh vực xử lý

ngôn ngữ tự nhiên tại Việt Nam.

Ngoài ra, việc có những nghiên cứu xoay quanh tính xây dựng cũng như là tính độc

hại của bình luận cũng góp phần nâng cao chất lượng không gian mạng Các thôngtin có ích sẽ ngày càng được quan tâm và chú trọng, hạn chế sự xuất hiện tràn lan của

các nội dung vô nghĩa và không chứa đựng nhiều thông tin giá trị và hữu ích chongười dùng Bên cạnh đó, việc quan tâm đến tính độc hại của bình luận sẽ góp phần

cải thiện chất lượng các cuộc trò chuyện trên các phương tiện truyền thông xã hội,giảm thiểu tối đa các bạo lực mạng cũng như là các hành vi, lời lẽ làm ảnh hưởng đếntâm lý người dùng mạng Với những hiệu quả mang lại, chúng tôi hy vọng những kếtquả của khóa luận này có thê đóng góp và góp phần xây dựng môi trường trực tuyến

ngảy cảng văn minh, hiện đại và thân thiện hơn cho người dùng.

1.4 Kết luận

Đối với bài toán phân loại văn bản, đây không phải là một chủ đề mới nhưng nó lại

là một thứ thiết yếu để giải quyết các vấn đề trong đời sống hiện nay Việc internet

ngày càng phát triển mà không có sự kiểm soát sẽ dẫn đến những hệ lụy không thélường trước được Chúng tôi thực hiện bai toán này với mong muốn từ bộ dữ liệu

được xây dựng cũng như là với các phương pháp thử nghiệm sơ khởi trong khóa luận

này sẽ góp phần xây dựng và cải thiện chất lượng của môi trường trực tuyến hiện nay,

giúp cho cộng đồng mạng ngày càng văn minh và an toàn hơn cho người dùng

13

Trang 31

Chương 2 CÁC CÔNG TRÌNH NGHIÊN CỨU LIEN QUAN

2.1 Các công trình trên thế giới

Cốt lõi của các công nghệ công nghệ tân tiến hiện nay dé bắt nguồn từ dữ liệu Việchuấn luyện một mô hình hoặc một phương pháp có hiệu quả hay không phụ thuộc rất

nhiều vào đữ liệu đầu vào Chính vì thế, bên cạnh việc phát triển các phương pháp,

việc xây dựng các bộ dữ liệu chất lượng và hữu ích là một vấn đề luôn được các nhànghiên cứu đặt lên hàng đầu Đối với lĩnh vực xử lý ngôn ngữ tự nhiên, nguồn đữ liệu

thô từ các văn bản trên internet, các bình luận của người dùng sau khi được thu thập

về sẽ trải qua các quá trình xử lý dé có thé trở thành những bộ dữ liệu có thể phục vu

cho các bai toán khác nhau, tùy vào mục dich sử dung của người xây dựng.

Bài toán phân loại văn bản, một trong những bài toán cơ bản và phổ biến trong lĩnh

vực xử lý ngôn ngữ tự nhiên đã và đang có những phát triển nồi bật với nhiều ứngdụng hữu ích Những bài toán phân loại phổ biến có thé nhắc đến như bài toán phân

loại thư rác, bai toán phân loại tính tiêu cực và tích cực, bài toán nhận diện cảm xúc

trong bình luận người dùng v.v Ngoài ra, bên cạnh những bài toán cơ bản thì những

đặc điểm khác của ngôn ngữ cũng dần được các nhà nghiên cứu quan tâm và xâydựng lên những công cụ cho việc phân loại các đặc điểm này, nhằm phục vụ vào

những nhu câu và mục đích của cuộc sông hiện nay.

Sự phát triển của công nghệ hiện nay đã giúp cho con người có thé dé dang kết nốivới thông tin cũng như là mọi người thông qua các phương tiện truyền thông xã hội

Và các bình luận trên những diễn đàn này cũng chính là nguồn tài nguyên quý trong

dữ liệu văn bản đang dần được quan tâm chú ý và khai thác Một trong những đặcđiểm của các bình luận có thé có được chính là tinh xây dựng Các bình luận có tínhxây dựng là những bình luận có ích cho người dùng, góp phần cung cấp các kiến thứccũng như là thúc đây và phát triển các nội dung, chủ đề được đề cập Vào năm 2017,Napoles và cộng sự [16] đã đưa ra khái nệm về những cuộc thảo luận mang tính xâydựng gọi là ERIC - những cuộc thảo luận chứa nội dung rõ ràng, cung cấp nhiều

thông tin hữu ích Từ đó, họ đã xây dựng bộ dữ liệu các bình luận được gán nhãn của

14

Trang 32

báo điện tử Yahoo Tiếp sau đó, Varada và cộng sự [17] đã có nghiên cứu sâu hơn vềcác bình luận mang tính xây dựng, những nhân tô chính, góp phan tạo ra những cuộcthảo luận chất lượng với bộ dir liệu về bình luận có tính xây dựng C3 Bên cạnh việc

xây dựng bộ dữ liệu về tính xây dựng của bình luận, Varada và cộng sự của cô cũng

đề cập đến tính độc hại của bình luận, mối liên kết giữa nó với tính xây dựng và phát

triển bài toán nhận diện tính xây dựng và độc hại của bình luận trên phương pháp họcsâu Bi-LSTM với kết quả 72,59% trên bộ dữ liệu

2.2 Các công trình trong nước

Tiếng Việt, một trong những ngôn ngữ ít tài nguyên trên thế giới, đã và đang được sự

quan tâm và chú ý của các nhà nghiên cứu trong và ngoài nước Hiện tại, lĩnh vực xử

lý ngôn ngữ tự nhiên cho tiếng Việt đang ngày càng phát triển với các bộ dữ liệu chấtlượng Một số bộ dữ liệu về bình luận trên các phương tiện truyền thông xã hội như

Bộ dữ liệu về cảm xúc của bình luận tiếng Việt trên mạng xã hội UIT-VSMEC [13]

gồm 6.927 câu được gán nhãn với kết quả F1 59,74% trên mô hình học sâu CNN

hoặc Bộ dit liệu phân tích cảm xúc về phản hồi của sinh viên UIT-VSFC [18] với hơn16.000 câu với kết quả F1 84,03% trên phương pháp Maximum Entropy

Mặc dù số lượng các bộ dữ liệu tiếng Việt hiện tại phục vụ cho bài toán xử lý ngôn

ngữ tự nhiên là không ít, nhưng hiện tại hầu hết các bộ dữ liệu này chỉ xoay quanh

các nhiệm vụ nhận diện cảm xúc hoặc là tính tích cực, tiêu cực của văn bản Và cho

đến thời điểm chúng tôi thực hiện khóa luận tốt nghiệp nay vẫn chưa có bộ dữ liệunào về tính xây dựng của bình luận Chính vì lẽ đó, chúng tôi quyết định xây dựngmột bộ dữ liệu chất lượng về tinh chất này dé phục vụ cho bai toán nhận diện tínhxây dựng và tính độc hại của bình luận của người dùng trên các phương tiện truyềnthông xã hội tiếng Việt

Việc xây dựng một bộ dit liệu chất lượng va đủ lớn dé phục vụ cho các nhiệm vụ

trong lĩnh vực xử lý ngôn ngữ tự nhiên nói chung và bai toán nhận diện tính xây dựng

và tính độc hại của bình luận tiếng Việt nói riêng cần phải có những khảo sát kỹ càng

và liên hệ đến những nghiên cứu đã có sẵn trên thê giới Ban đầu, chúng tôi tham

15

Trang 33

khảo các nghiên cứu hiện tại về bộ dữ liệu nhận diện tính xây dung va tính độc haitrên tiếng Anh đã có, từ đó sử dụng định nghĩa của các nhiệm vụ cũng như là cácnhãn đã xây dựng dé áp dụng vào xây dựng hướng dẫn gan nhãn cho bộ dữ liệu tiếng

Việt sắp tới Ngoài ra, các phương pháp đã được cài đặt thành công trên các bài toánliên quan cũng được tham khảo và áp dụng vào đề tài mình thực hiện trong thời gian

sap toi.

16

Trang 34

Chương 3 XAY DUNG BỘ DU LIEU VA TIEN HANH ĐÁNH GIÁ

CAC PHUONG PHAP THU NGHIEM

3.1 Dinh nghia cac nhan

Nhiệm vụ chính trong khóa luận tốt nghiệp này là nhận diện các bình luận mang tínhxây dựng của các bình luận tiếng Việt Dé giúp cho người gan nhãn có được cái nhìnchỉ tiết và đúng đăn các nhiệm vụ, chúng tôi định nghĩa các nhãn Có tính xây dựng

(1) và Không có tính xây dựng (0) như bên dưới.

e_ Có tính xây dựng: Là các bình luận của người dùng mang nội dung bao gồm

các quan điềm, kinh nghiệm cũng như là các trải nghiệm của người bình luận.Thông thường, những bình luận này chứa đựng nhiều thông tin hữu ích cũng

như là có ý kiến cụ thé của người bình luận Từ những bình luận nay, các nhà

phát triển nội dung có thé tiếp nhận các ý kiến góp ý và xây dựng đó dé pháttriển hơn

e_ Không có tính xây dựng: Là các bình luận của người dùng không cung cấp

thông tin và đa phần là các nội dung không hữu ích Nội dung của các bìnhluận này thường chỉ là những cảm xúc của người dùng đối với nội dung bài

viết và hữu ích cho việc thúc đây và xây dựng các nội dung hay đối tượng mà

bài viết hướng đến

Bài toán nhận diện tính xây dựng trên bộ dữ liệu tiếng Anh được chia thành hai giaiđoạn chính Ban đầu, các nghiên cứu chỉ tập trung vào phần nội dung của bình luận

mà không quan tâm đến các ngữ cảnh hoặc nội dung của chủ đề chứa các bình luậnnay Sau đó, các nghiên cứu mới tiến hành các thử nghiệm mở rộng và tập trung hơn

vào ngữ cảnh của bình luận Trong nghiên cứu nảy, chúng tôi chỉ sử dụng các định

nghĩa từ giai đoạn đầu tiên của việc xây dựng bộ dữ liệu và không tập trung đến ngữ

cảnh của bình luận Nghiên cứu về giai đoạn tiếp theo sẽ được triển khai vào trong

những nghiên cứu tương lai.

Bên cạnh tính xây dựng, chúng tôi cũng tập trung vào một nhiệm vụ khác là nhận

diện các bình luận có tính độc hại Với đặc điểm này, chúng tôi gan chúng một trong

17

Trang 35

bốn nhãn khác nhau bao gồm Rat độc hại (3), Độc hại (2), Kha độc hai (1) hoặc

Không độc hại (0) và được định nghĩa chỉ tiết như sau:

e Rat độc hai: Những bình luận có nội dung phản cam, tục tiu; tấn công trực

tiếp vào cá nhân, tô chức, thể hiện sự thiếu tôn trọng, coi thường người khác

Đặc biệt là các bình luận này sử dụng những từ ngữ xúc phạm và khiến cho

cuộc trò chuyện kết thúc nhanh chóng

e Độc hại: Những bình luận có nội dung châm biếm, chỉ trích hoặc bày tỏ thái

độ giéu cot, trêu chọc người khác khi không đồng tình với ý kiến của một ai

đó; cách trình bày bình luận không tôn trọng và thiếu lịch sự

e Kha độc hai: Các bình luận có nội dung có thé là độc hại đối với người này

(nhưng không có hại đối với người khác) và trong một số ngữ cảnh cụ thé

e Không độc hại: Những bình luận có nội dung đơn thuần, chi thể hiện cảm xúc

bình thường và không có nhiều ý nghĩa

3.2 Quy trình xây dựng

Đầu tiên, chúng tôi tiễn hành thu thập đữ liệu từ các nguồn có liên quan Sau khi thu

thập dữ liệu, chúng tôi thực hiện quá trình gan nhãn dữ liệu Với quy trình này, những

câu bình luận được gan nhãn có độ đồng thuận giữa các thành viên thấp sẽ được gán

lại Bên cạnh đó, chúng tôi đồng thời tiến hành phân tích lỗi trên những trường hợp

có độ đồng thuận thấp và cập nhật lại hướng dẫn gán nhãn dữ liệu sao cho phù hợp,nhằm cải thiện độ chất lượng bộ dữ liệu Hình 3.1 bên dưới mô tả chỉ tiết các bước

của quy trình xây dựng bộ dit liệu chất lượng

18

Trang 36

UIT- ViCTSD

Bình luận được gán có độ đông thuận thap

chủ đề ta đang quan tâm Sau khi có những kết quả khảo sát, chúng tôi đã quyết định

lựa chọn lay dữ liệu từ các bình luận trên chuyên trang báo điện tử VnExpress.net? vicác nội dung trên đây đa phần chứa nhiều thông tin, hữu ích cho bài toán Sau khi xácđịnh nguồn thu thập dữ liệu, chúng tôi xây dựng công cụ phục vụ cho việc thu thập

di liệu Công cụ chúng tôi xây dựng sử dụng thư viện Beautiful Soup° với các hàm,

tính năng hỗ trợ cho việc thu thập đữ liệu Các miền dữ liệu chúng tôi lựa chọn trong

đề tài lần này được mô tả trong Bảng 3.1 bên dưới Bao gồm 10 miền đữ liệu với tổng

cộng 20.000 bình luận và được phân đều tại mỗi miền đữ liệu

Bảng 3.1: Các miền dữ liệu trong bộ đữ liệu

Miền đữ liệu Số lượng bình luận

Trang 37

Kinh doanh 1.000

Ô tô - Xe máy 1.000

Pháp luật 1.000 Sức khỏe 1.000

Thế giới 1.000Thể thao 1.000

Thời sự 1.000

Bộ dữ liệu chúng tôi xây dựng được gan nhãn bởi đội ngũ gan nhãn có kinh nghiệm

và đối với mỗi mau đữ liệu (bình luận) sẽ được gan nhãn đồng thời bởi 03 thành viên

Trước khi tiến hành gan nhãn, chúng tôi xây dựng hướng dẫn gan nhãn chỉ tiết và rõ

ràng với các thông tin cần thiết giúp cho quá trình gán nhãn trở nên nhanh chóng và

chính xác.

3.2.2 Xây dựng hướng dẫn gan nhãn

Trong phần hướng dẫn gán nhãn, chúng tôi xây dựng định nghĩa chỉ tiết các nhãn(đã được đề cập ở Mục 3.2.1.), đồng thời cũng đề cập các ví dụ minh hoạ cũng như

là những trường hop dé nhầm lẫn giữa các nhãn Từ đó, việc gan nhãn của các thànhviên trở nên dé dang và chính xác hơn Bên cạnh đó, dé dé dàng hơn trong việc gan

nhãn dữ liệu, chúng tôi xây dựng công cụ gán nhãn cho bộ dữ liệu Việc thực hiện

trên công cụ này sẽ giúp cho người gán nhãn dễ dàng hơn trong việc đọc và nhận diện

các bình luận của bộ dit liệu, đồng thời cũng giúp cho việc ghi nhận các kết qua gan

nhãn trở nên dễ dàng, nhanh chóng hơn.

Đề đánh giá mức độ đồng thuận của các thành viên trong quá trình gán nhãn, chúng

tôi đã thực hiện đánh giá theo kỹ thuật thống kê Fleiss’ Kappa (1), giúp cho quá trình

đánh giá trở nên nhanh chóng và đáng tin cậy.

Công thức:

20

Trang 38

- _ P;: Xác suất đồng thuận mong đợi giữa những người gan nhãn.

- Po: Xác suất độ đồng thuận thực tế giữa những người gán nhãn

3.2.3 Gan nhãn dữ liệu

Nhiệm vụ nhận diện tính xây dựng trong bài báo này là một bài toán khó trong việc

xử lý dữ liệu ban đầu Việc nắm được rõ các khái niệm về tính xây dựng của bình

luận đòi hỏi các thành viên trong đội gán nhãn phải được huấn luyện một cách kỹcàng, rõ ràng Nếu chỉ đọc qua hướng dẫn gán nhãn cũng không thể giúp cho việcgán nhãn có độ chính xác cao Chính vì thế, chúng tôi tiễn hành thực hiện các thửthách để huấn luyện cho đội ngũ gán nhãn Với 05 thử thách được đưa ra, với mỗithử thách là 100 câu bình luận cần được gán nhãn, các thành viên trong đội gán nhãndần dan có những hiểu biết nhất định về bài toán, cũng như là có những lựa chọnchính xác hơn cho loại nhãn Với thử thách đầu tiên, thỏa thuận độ đồng thuận giữa

các thành viên chỉ đạt 21,7% trong nhiệm vụ nhận diện tính xây và 30,4% cho nhiệm

vụ nhận diện tính độc hại của bình luận Sở dĩ, độ đồng thuận giữa các thành viên củađội gán nhãn trong cả hai nhiệm vụ không cao như mong đợi trong thử thách đầu tiên

vì sự khác biệt đến từ kiến thức cũng như là mức độ hiểu của mỗi thành viên trong

nhiệm vụ được Do đó, sau mỗi thử thách, chúng tôi xem xét các trường hợp xung đột, sau đó chúng tôi chỉnh sửa và cập nhật hướng dẫn gán nhãn cho phù hợp Qua

các thử thách, độ đồng thuận hiện tại của các thành viên là 59,48% với tính xây dựng

và 58,74% với tính độc hại của bình luận.

Sau khi tiến hành gan nhãn dữ liệu, kết quả nhãn cuối cùng tương ứng với nhiệm

vụ nhận diện tính xây dựng sẽ là kết quả được trên 2/3 người gán nhãn đã chọn Còn

21

Trang 39

đối với nhãn tính độc hại, vì đây là nhãn mức độ nên chúng tôi quyết định nhãn cuối

cùng của bình luận đó bằng trung bình của nhãn của ba người gán

3.3 Phân tích bộ dữ liệu

Bộ dữ liệu chúng tôi xây dựng với tên gọi là UTT-VICTSD (Vietnamese Constructive

and Toxic Speech Detection) Sau khi xây dựng xong, chúng tôi tiến hành phân tíchmột số thành phần trong bộ dữ liệu dé có một cái nhìn khách quan

3.3.1 Su phân bố của các nhãn

Chúng tiễn hành phân tích, tong hợp và thông kê số lượng của các bình luận tương

ứng với các nhãn dữ liệu, từ đó có được cái nhìn tông quan về sự phân bô của các

nhãn.

10000

8899 9000

Hình 3.2: Thống kê về số lượng bình luận mang tính xây dựng theo mức độ độc hại

Đầu tiên, chúng tôi tiến hành thống kê số lượng các bình luận mang tính xây dựngtheo mức độ độc hại của chúng Chúng tôi nhận ra rằng, bộ dữ liệu sau khi xây dựngchứa rất ít nhãn mang tính độc hại (gồm Rat độc hại, Độc hại va Kha độc hại) Chính

vì thế, chúng tôi quyết định gộp các nhãn Rất độc hại, Độc hại và Khá độc hại lại

thành một và nhiệm vụ nhận diện tính độc hại của chúng tôi bây giờ trở thành nhiệm

vụ phân loại nhị phân bình luận Độc hại hay Không độc hại Thống kê số lượng các

bình luận theo nhãn 0 và nhãn | tương ứng với từng nhiệm vụ được mô tả trong Hình

3.3 Chúng ta thấy rằng, mặc dù đã gộp các nhãn lại trong nhiệm vụ nhận diện tính

độc hại của bình luận nhưng phân bô các nhãn hiện tại vẫn còn rât mât cân băng Đây

22

Trang 40

cũng chính là thử thách cho chúng tôi trong việc tiễn hành thử nghiệm với các phương

pháp đánh giá sau này.

Vì nhiệm vụ chính chúng tôi mong muốn thúc đây trong khóa luận tốt nghiệp này

chính là tính xây dựng của bình luận nên chúng tôi sẽ thực hiện một sỐ phân tích sâuhơn về tính chất này Tại Hình 3.4 là sự phân bồ của các bình luận có tính xây dựngdựa theo độ dài của các bình luận này Chúng ta thấy rằng, đa số các bình luận có tínhxây dựng thường có độ dài câu hơn hăn những bình luận không có tính xây dựng

Tuy nhiên, cũng có một số trường hợp, tuy không đáng kể, nhưng những bình luận

có độ dài câu dài nhưng vẫn không phải là bình luận có tính xây dựng Bởi vì, một

bình luận muốn trở thành bình luận xây dựng phải đáp ứng các tính chất và đặc điểm

nhất định (như đã được đề cập tại Mục 3.1.) mà không phụ thuộc vào độ dài của nó

23

Ngày đăng: 23/10/2024, 02:02

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN