Đề tài của chúng tôi cung cấp giải pháp là một quy trình tiền xử lý dữ liệu phục vụcho mô hình có vai trò phân loại các bình luận trên các trang mạng xã hội phổ biếntại Việt Nam như Face
Trang 1TRAN QUOC KHÁNH
NGUYEN TRONG AN
KHOA LUAN TOT NGHIEP
NHAN DIEN NOI DUNG XUC PHAM TREN DU LIEU
MANG XA HOI VIET NAM SU DUNG MO HINH
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THONG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN
TRAN QUOC KHÁNH - 18520908 NGUYEN TRONG AN - 18520434
KHOA LUAN TOT NGHIEP
NHAN DIEN NOI DUNG XUC PHAM TREN DU LIEU
MANG XA HOI VIET NAM SU DUNG MO HINH
PHOBERT-CNN
HATE AND OFFENSIVE DETECTION ON VIETNAMESE SOCIAL MEDIA TEXT USING PHOBERT-CNN MODEL
CU NHÂN NGANH KHOA HOC DU LIEU
GIANG VIEN HUONG DAN
ThS NGUYEN VAN KIỆT
TS DO TRONG HOP
TP HO CHi MINH, 2022
Trang 3THÔNG TIN HỘI ĐÒNG CHÁM KHÓA LUẬN TÓT NGHIỆP
Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định só
ngầy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
Trang 4LỜI CẢM ƠNĐâu tiên, chúng tôi xin gửi lời cảm ơn đến thay Nguyễn Văn Kiệt và thay
Dé Trọng Hop đã đông hành cùng nhóm và tận tình hướng dẫn chúng tôi trong
suốt quá trình học tập, nghiên cứu và công bồ bài báo khoa học Bên cạnh đó,
chúng tôi cũng xin chân thành cảm ơn Hội đồng phản biện và bảo vệ khoá luận
vì những phản hồi quý giá về kiến thức và chuyên môn
Khoá luận này sẽ không thể thực hiện được nếu không có sự ung hộ cua
nhiễu cá nhân và tập thể Chúng tôi xin gửi lời cảm ơn đến Khoa Khoa học và
Kỹ thuật thông tin, Phòng thí nghiệm Xử lý Ngôn ngữ Tự nhiên UIT
(NLP@UIT) và Câu lạc bộ Xử lý Ngôn ngữ và Tiếng nói tiếng Việt (VLSP) đã
tạo điều kiện thuận lợi nhất cho chúng tôi hoàn thành khoá luận này Ngoài ra,
chúng tôi muốn gửi lời cảm ơn đến em Hoàng Gia Phú và Lưu Đức Cảnh vì đã
hỗ trợ tích cực cho khoá luận này và sẵn sàng chia sẻ những kiến thức của mình.Cũng xin cảm ơn những người bạn cùng lớp, cùng nhóm nghiên cứu của tôi đãcùng tôi cô gắng trong quá trình đài này
Nhóm chúng tôi cũng xin chân thành cảm ơn quý thay cô của Trường Đại
học Công nghệ Thông tin - ĐHQG TP HCM đã tận tâm, nhiệt huyết truyền đạt
cho chúng tôi những kiến thức hữu ích cũng như các kỹ năng can thiết dé có thé
đạt được những thành công nhất định sau này Đây là một cơ hội tuyệt vời để
chúng tôi có được nhiều kinh nghiệm trong các dự án xử lý dữ liệu thời gian thực,
các kiến thức về cách thiết kế và phân tích các dự án thực tế
Cuối cùng, sẽ thật thiếu sót khi không dé cập đến gia đình, đặc biệt là bố
mẹ của chúng tôi Chúng tôi luôn biết ơn sự quan tâm, kiên nhẫn và ủng hộ của
gia đình Niém tin của ho đã thúc đẩy tinh than và động lực cua chúng tôi Thanh
tựu này sẽ không thể thực hiện được nếu không có họ
Chúng tôi xin chân thành cảm ơn!
Nhóm tác giả
Trân Quốc Khánh
Nguyễn Trọng An
Trang 5ĐẠI HỌC QUOC GIA TP HO CHÍMINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHỆ THÔNG TIN
DE CƯƠNG CHI TIẾT
TÊN DE TÀI: NHAN DIỆN NOI DUNG XUC PHAM TREN DU LIEU MẠNG XÃ
HOI VIET NAM SU DUNG MO HINH PHOBERT-CNN
TEN DE TAI (tiéng Anh): HATE AND OFFENSIVE DETECTION ON
VIETNAMESE SOCIAL MEDIA TEXT USING PHOBERT-CNN MODEL
Cán bộ hướng dẫn: ThS Nguyễn Văn Kiệt
TS Đỗ Trọng Hợp
Thời gian thực hiện: Từ ngày 28/01/2022 đến ngày 01/07/2022
Sinh viên thực hiện:
Trần Quốc Khánh — 18520908 Lớp: KHDL2018
Email: 18520908 @gm.uit.edu.vn Dién thoai: 0971958350
Nguyễn Trọng Ân — 18520434 Lớp: KHDL2018
Email: 18520434(@gm.uif.edu.vn Điện thoại: 0367831269
Nội dung đề tài:(Mô ta chỉ tiết mục tiêu, phạm vi, doi tượng, phương pháp thực hiện, kết
quả mong đợi của dé tai)
e Mục tiêu, phạm vi va đối tượng của đề tài
Sự phát triển của cách mạng công nghiệp 4.0 đã và đang dần thay đổi cuộc sống củacon người theo từng ngày, nhất là với sự phát triển mạnh mẽ của mạng xã hội Khi
đó, an toàn không gian mạng là một vấn đề ảnh hưởng trực tiếp tới đời sống của người
sử dụng đặc biệt là đối tượng như trẻ em hay những người dé bị tốn thương Theo các
báo cáo và nghiên cứu cho thấy, môi trường mạng xã hội chứa nhiều nội dung độc hại
như bình luận xúc phạm thù địch, tin giả, nội dung không phù hợp tiêu chuẩn cộngdong, có sự ảnh hưởng tiêu cực không hê nhỏ đên sô đông người dùng và thậm chí
Trang 6cả người kiểm duyệt Vì vậy, đề tài của chúng tôi đề xuất một giải pháp mới ứng dụng
các kỹ thuật xử lý ngôn ngữ hiện đại nhằm giải quyết bài toán phân loại bình luận xúcphạm, thù địch trên mạng xã hội, hướng đến một mạng xã hội lành mạnh, an toàn
Các bài toán cần giải quyết có thé từ nhỏ như các bình luận đơn lẻ cho đến nhu cầu
lớn như xử lý lượng lớn dữ liệu.
Đề tài của chúng tôi cung cấp giải pháp là một quy trình tiền xử lý dữ liệu phục vụcho mô hình có vai trò phân loại các bình luận trên các trang mạng xã hội phổ biếntại Việt Nam như Facebook và Youtube một cách tự động Giải pháp dé xuất có nhiệm
vụ xác định nội dung của bình luận có mang tính độc hại, phản cảm hay không bằngcách ứng dụng các công nghệ xử lý ngôn ngữ tiên tiến
Chúng tôi sử dụng bộ dữ liệu ViHSD được xây dựng và công bố bởi Son T Luu vàđồng tác giả [1] làm bộ dữ liệu chính đề tiễn hành xây dựng mô hình từ đó xây dựngứng dụng phục vụ một số nhu cau cụ thé Ngoài ra, để chứng minh tinh đúng đắn và
sự hiệu quả của giải pháp trên miền dữ liệu bình luận mạng xã hội mà không bị bóbuộc bởi một quy trình xây dựng dữ liệu, chúng tôi ngoài ra còn đánh giá giải pháptrên bộ dit liệu HSD-VLSP được xây dựng và công bố bởi Xuan-Son Vu và đồng tácgiả [2] Cả hai bộ dữ liệu đều bao gồm các bình luận tiếng Việt được thu thập trên cáctrang mạng xã hội phô biến tại Việt Nam như Facebook và Youtube
Giải pháp của chúng tôi được xây dựng dựa trên hai kỹ thuật chính gồm: kỹ thuật tiền
xử lý dữ liệu hai giai đoạn; kỹ thuật xây dựng và tối ưu hóa mô hình kết hợp
PhoBERT-CNN để phân loại các bình luận Trong đó, quá trình tiền xử lý dữ liệu
giúp nâng cao không chỉ tính sạch của dữ liệu, mà còn tăng đáng ké khả năng trích
xuất thông tin trước khi huấn luyện mô hình Từ đó, công đoạn xây dựng và huấnluyện mô hình phân loại cũng có được kỹ năng học tốt hơn từ một bộ đữ liệu chấtlượng, góp phan cải thiện hiệu suất và tạo nên giải pháp phân loại tối ưu nhất
Không chỉ thành công trong việc xây dựng giải pháp nhận diện bình luận xúc phạm
trên mạng xã hội cho tiếng Việt dựa trên mô hình kết hợp PhoBERT- CNN, chúng tôi
từ đó còn tiễn hành xây dựng API, ứng dụng giả lập các trang báo điện tử, và streaming
dữ liệu từ trang mạng xã hội cho mục đích chứng minh khả năng phân loại, từ đó,
Trang 7cung cấp cái nhìn trực quan về tính ứng dụng của đề tài trong thực tế.
Chính vì các lý do đó, nghiên cứu này đưa ra một giải pháp mới và mạnh mẽ nhằm
việc phân loại, bóc tách ra bình luận xúc phạm, phản cảm, từ đó đưa ra giải pháp giúp
tăng cường cho nỗ lực đưa các môi trường mạng nói chung và môi trường mạng xã
hội nói riêng trở nên an toàn.
Đóng góp chính của đề tài
Nghiên cứu của chúng tôi góp phần phát triển bài toán nhận diện nội dung xúc phạm
trên dữ liệu mạng xã hội Việt Nam Nghiên cứu của chúng tôi đề xuất một hệ thốngmới áp dụng các kỹ thuật xử lý ngôn ngữ tự nhiên tiên tiến dé phân loại các bình luận
xúc phạm, phản cảm nhăm hướng tới một không gian trực tuyến lành mạnh, an toàn
Nghiên cứu của chúng tôi có thể xử lý các vấn đề từ nhỏ như các bình luận đơn lẻ đến
việc liên tục xử lý lượng dữ liệu không lồ trong thời gian thực Những đóng góp khoahọc chính trong nghiên cứu của chúng tôi được tóm tắt như sau:
- _ Chúng tôi đã thực hiện các kỹ thuật tiền xử lý dữ liệu chặt chẽ và hiệu quả dé làm
sạch các bình luận thu thập được từ các trang mạng xã hội Các kỹ thuật tiền xử
lý hiệu quả mà chúng tôi đề xuất sẽ nâng cao chất lượng dữ liệu và cải thiện đáng
kể việc trích xuất thông tin trước khi dao tạo mô hình
- Một mô hình mới được dé xuất đề cải thiện hiệu suất của bài toán nhận diện nội
dung xúc phạm, phản cảm ở Việt Nam Đề đạt được mục tiêu này, các thử nghiệmkhác nhau đã được tiến hành với ba phương pháp tiếp cận hiện đại: phương pháp
học sâu, phương pháp học chuyền tiếp và phương pháp tiếp cận kết hợp So với
mô hình PhoBERT-CNN được đề xuất của chúng tôi, các phương pháp tiếp cậnhiện đại này hỗ trợ trong việc phát triển các mô hình cơ sở Kết quả là, mô hìnhPhoBERT-CNN vượt trội hơn các mô hình cơ sở va chúng tôi hiểu rõ mức độ hiệu
quả của các giải pháp hiện có tại Việt Nam.
- Dé chứng minh tính hữu ích của hệ thống được đề xuất, chúng tôi đã xây dựng
một ứng dụng giả lập trang báo điện tử và ứng dụng có khả năng xử lý liên tục từnguồn dit liệu không 16 của các nền tảng truyền thông xã hội dé phát hiện các bình
luận mang tính xúc phạm, phản cảm.
Trang 8e_ Các van đề còn tồn đọng
- _ Về kỹ thuật tiền xử lý dữ liệu:
+ Các kỹ thuật tiền xử lý dữ liệu luôn đóng vai trò như một mắt xích quan trọng
khi thực hiện các dự án máy học nói chung và cho các bài toán phân loại dữ liệu
từ mạng xã hội Việt Nam nói riêng Khang Phuoc-Quy Nguyen và đồng tác giả
(2020) [3] đã chứng minh tầm quan trọng của quá trình tiền xử lý trên các bộ dữ
liệu được thu thập từ mạng xã hội tiếng Việt và kết luận quá trình này có ảnh
hưởng trực tiếp đến quá trình trích xuất thông tin từ dữ liệu Các bình luận tiếng
Việt trên mạng xã hội thường có xu hướng chứa các ký tự, các từ mang sắc cácthái cảm xúc được trình bày một cách đa dạng gây khó khăn cho việc phân biệt,nhận diện và trích xuất thông tin Công trình nghiên cứu của Khang Phuoc-QuyNguyen và dong tác gia (2020) [3] cũng đã thành công khi áp dụng tiền xử đữ liệuban đầu dé cải thiện kết quả thêm 4,66% so với công trình trước đó trên cùng bộ
dữ liệu và độ đo đánh giá.
+ Tuy nhiên, các nghiên cứu được công bồ ở hiện tại dựa trên cả hai bộ dit liệu làViHSD [1] và HSD-VLSP [2] đều chưa áp dung các kỹ thuật tiền xử lý đữ liệuhiện đại và hiệu quả để cải thiện hiệu suất phân loại của các mô hình Nội dungcủa các bình luận chỉ được xử lý loại bỏ các thông tin nhạy cảm cá nhân như địachỉ email, số điện thoại, khiến đây cũng chính là những khuyết điểm của cáccông trình này mà chúng tôi cần lưu ý và cải thiện trong giải pháp của chúng tôi
- _ Về việc đề xuất giải pháp dựa trên mô hình kết hop: Mô hình kết hợp BERT
[4] va CNN [5] gan đây da được sử dung rộng rãi dé phan loai van ban ngan được
thu thập từ các mạng xã hội, đặc biệt là dé phan loai cac binh luan xtic pham, phan
cam va đạt được kết qua đầy hứa hẹn Trong dé tài này, các mô hình kết hợpBERT [4] và CNN [5] biến thể được triển khai để đánh giá hiệu quả của các môhình kết hợp trong việc phân loại các bình luận căm thu và xúc phạm đối với người
Việt Nam Hơn nữa, việc so sánh các mô hình BERT-CNN [6], ROBERTa-CNN
[7] và XLMR-CNN [8] với mô hình PhoBERT-CNN được đề xuất của chúng tôicung cap cái nhìn sâu sắc vé tác dụng của các mô hình ngôn ngữ được đào tạo
Trang 9trước đơn ngữ và đa ngôn ngữ đôi với bài toán này.
- _ Về việc phát triển mô hình vào ứng dung thực tế:
+ Nhu cầu được đặt ra là cần có một giải pháp ứng dụng trong việc xử lý những
bình luận xúc phạm, phản cảm trên môi trường dữ liệu lớn như mạng xã hội Việc
này giúp mạng xã hội tại Việt Nam có khả năng nhận diện được bình luận phảncảm tốt hơn, giảm thiểu được khối lượng công việc của người kiểm duyệt Ngoài
ra nhu cầu của các đơn vị thông tin truyền thông cũng cần công cụ tự động kiểmduyệt, giúp họ có thê sát sao hơn những bình luận cho phép được hién thị
+ Đáp ứng những nhu cầu nay, chúng tôi xây dựng hai ứng dụng dé phân tích bìnhluận gồm: ứng dụng có khả năng thu thập liên tục nội dung từ các trang mạng xã
hội dé phân tích sắc thái bình luận, và một ứng dụng gia lập một trang báo điện tử
có nhu cầu xử lý sát sao hơn từng bình luận Những ứng dụng này sẽ thông qua
một API dé gửi yêu cầu xử lý bình luận đến giải pháp dé phân loại
e Phuong pháp thực hiện
Mô hình PhoBERT-CNN
Dữ liệu HSD
Hình 1 Tổng quan quy trình giải pháp của chúng tôi
Quy trình xây dựng giải pháp phân loại bình luận trên mạng xã hội của chúng tôi được
thực thiện như Hình 1 Quy trình bao gồm các bước được thực hiện theo thứ tự nhưsau: hai bộ dữ liệu ViHSD [1] và HSD-VLSP [2] sẽ được tiền xử lý dữ liệu theo haitrước khi đưa vào mô hình huấn luyện PhoBERT-CNN Mô hình sau khi huấn luyện
có thé dự đoán các bình luận mới phục vụ phần mềm ứng dụng
Định nghĩa bài toán:
Trong phần này, chúng tôi tóm tắt nhiệm vụ phát hiện, phân bình luận tiêu cực, xúc
phạm tiếng Việt Nhiệm vụ này nhằm mục đích xác định xem nội dung của một bình
luận trên mạng xã hội là thù địch, xúc phạm, hay trong sạch Về mặt hình thức, nhiệm
vụ được mô tả như sau:
- Input: Các bình luận bằng tiếng Việt trên trang mạng xã hội
- Output: Một trong ba nhãn sau:
Trang 10+ Nhãn CLEAN (Nhãn 0): Là một bình luận thông thường như trò chuyện, thé
hiện cảm xúc một cach bình thường, không chứa ngôn ngữ độc hai, xúc phạm hay
căm thù nhắm tới một ai đó
+ Nhãn OFFENSIVE (Nhãn 1): là nhãn chứa bình luận có nội dung quấy rối,thậm chí cả những từ tục tiu nhưng không tan công bat kỳ đối tượng cụ thé nào.+ Nhãn HA TE (Nhãn 2): là các bình luận có sự quấy rỗi, lạm dụng, có chứa nộidung trực tiếp nhắm vào một cá nhân, nhóm hoặc tổ chức dựa trên đặc điểm nhưtôn giáo, quốc tịch
Tiền xứ lý dữ liệu:
Chúng tôi sử dụng hai bộ dữ liệu là ViHSD [1] và HSD- VLSP [2] với số lượng bình
luận cho mỗi bộ lần lượt là 33.400 và 25.431 Cả hai bộ dữ liệu đều sử dụng cho việcthực nghiệm, tối ưu và đánh giá hiệu suất mô hình kết hợp PhoBERT-CNN mà chúngtôi đề xuất Vì được thu thập trên các trang mạng xã hội nên hai bộ dữ liệu trên đều
chứa các bình luận có độ phức tạp và đa dạng cao Cụ thé, nội dung của bình luận
xuất hiện nhiều câu, chữ không đồng nhất chuẩn unicode, xuất hiện các từ của giớitrẻ (teencode), các từ viết tắt và từ có ký tự lặp Chính vì vậy, chúng tôi tiến hành xâydựng quy trình tiền xử ly đữ liệu với mục dich mang lại bộ dữ liệu chất lượng và sẵn
sàng để sử dụng cho việc huấn luyện mô hình phân loại Quy trình tiền xử lý dữ liệu
theo hai giai đoạn được mô tả như Hình 2 bên dưới.
Chúng tôi tiến hành thực hiện các bước tiền xử lý dữ liệu bằng cách chia thành hai
giai đoạn chính như sau:
Ý Giai đoạn 1 Giai đoạn 2
Chuẩn hoá Chuẩn hoá
từ viết thường kiểu gõ dấu Tach từ
”> Xoá khoảng Xoá các ký tự —
ting = aoa
Xo liên kết › Chuẩn hoá
URLs Unicode Xoa Stopwords
Hình 2 Quy trình tiền xử ly dữ liệu hai giai đoạn
- Giai đoạn một: sử dung các kỹ thuật Regular Expression của Python dé tiền xử
lý trên toàn bộ câu bình luận như: chuẩn hóa viết thường, xóa ký tự hoặc khoảng
Trang 11trăng dư thừa, xóa các liên kết, chuân hóa các từ có dâu va chuân hóa unicode.
- Giai đoạn hai: thực hiện nhiệm vụ xử lý chi tiết các từ có trong một câu bình luận
như: tách từ, chuẩn hóa teencode và xóa các từ đừng (stopwords)
Việc áp dụng các kỹ thuật xử lý dữ liệu theo hai giai đoạn giúp xây dựng được mộtquy trình có tính hệ thống và chặt chẽ khi tiến hành tiền xử lý trên hai bộ dữ liệu
đều có kích thước lớn như ViHSD [1] và HSD-VLSP [2] Với quy trình tiền xử lý
này, thông tin trích xuất được thực hiện một cách dễ dàng, tiết kiệm được nhiều chi
phí, tài nguyên và hiệu quả hơn.
Phương pháp giải quyết bài toán:
Trong đề tài này, một mô hình nhận diện bình luận xúc phạm, phản cảm (Hate SpeechDetection) mới được đề xuất đề cải thiện hiệu suất của nhiệm vụ phát hiện lời nói xúcphạm, phản cảm ở Việt Nam Đề đạt được mục tiêu này, các thử nghiệm khác nhau đãđược tiến hành với ba phương pháp tiếp cận hiện đại: phương pháp học sâu, phương
pháp học chuyền tiếp và phương pháp tiếp cận kết hợp So với mô hình
PhoBERT-CNN được đề xuất của chúng tôi, các phương pháp tiếp cận hiện đại này hỗ trợ trong
việc phát triên các mô hình cơ sở.
Pretrained PhoBERT,„„,
Output
© đơn giản villll :D :D Input presentation Transformer Block Transformer Block
roi TIEN XU LY DU LIEU 2 PHA Contextiualized word embedding
kk k có chuyện gi nói thi call nhau rồi nhìn nhau thé là vuiiiii kaka nói call nhìn vui 3Z5Z đơn giản vãi l*n :D :D
(12435) Feature Max Fully connected
3 reach maps pooling layer and softmax
re
Hình 3 Kiến trúc giải pháp dựa trên mô hình kết hop PhoBERT-CNN
Chúng tôi thực hiện việc kết hợp hai mô hình PhoBERT [9] và Text-CNN [5] bằngcách sử dụng PhoBERT [9] với vai trò như một lớp embedding dé vector hóa hai bộ
Trang 12dữ liệu ViHSD [1] và HSD-VLSP [2] đã qua tiền xử lý Từ đó, một ma trận các bình
luận đã được ánh xạ thành các vector sẽ trở thành đầu vào vào cho mô hình Text-CNN
dé huấn luyện và phân loại
Cả 2 mô hình đơn là PhoBERT [9] và Text-CNN [5] mà chúng tôi sử dụng đều là các
mô hình cho hiệu suất vượt trội so với các mô hình cùng loại cho nhiệm vụ phân loạivăn bản tiếng Việt và đặc biệt là trên bộ dữ liệu ViHSD [1] và HSD-VLSP [2] Việckết hợp các mô hình trên sẽ giúp cải thiện đáng kể hiệu suất phân loại các bình luận
nhờ vào cơ chế cộng hưởng của hai mô hình đơn, góp phần làm giảm sự chênh lệchgiữa trung bình sự khác biệt của nhãn dự đoán và nhãn thực tế
Úng dụng tương tác với mô hình:
Nhu cầu được đặt ra là cần có một giải pháp nâng cao trong việc xử lý những bìnhluận xúc phạm, thù địch trong môi trường dữ liệu lớn như mạng xã hội Việc này giúpmạng xã hội tại Việt Nam có khả năng phân loại được bình luận phản cảm tốt hơn,giảm thiểu được khối lượng công việc của người kiêm duyệt Ngoài ra nhu cầu của
các đơn vị thông tin truyền thông cũng cần công cụ tự động kiểm duyệt, giúp họ có
thé sát sao hơn những bình luận cho phép được hiền thị
Đáp ứng những nhu cầu này, chúng tôi xây dựng hai luồng ứng dụng dé phân tích
bình luận gồm: ứng dụng có khả năng thu thập liên tục nội dung từ các trang mạng xãhội dé phân tích sắc thái bình luận, và một ứng dụng giả lập một trang báo điện tử cónhu cầu xử lý sát sao hơn từng bình luận Mỗi ứng dụng này sẽ thông qua một API dé
gửi yêu cầu xử lý bình luận đến giải pháp để phân loại
Trang 13- Ung dụng xử lý dữ liệu lớn bình luận từ mang xã hội theo thời gian thực: Sau khi
thực hiện các khảo sát và thực nghiệm về xử lý dữ liệu streaming, chúng tôi đãxây dựng thành công hệ thống có khả năng xử lý được lượng lớn dữ liệu theo thờigian thực từ nền tảng mạng xã hội mà cụ thể ở đây là các bình luận của Youtube
DataFrames\ \\ Soar’ ,uery with SQLInteractively
Hình 4 Quy trình ứng dụng xử ly dữ liệu lớn bình luận từ Youtube
theo thời gian thực.
- Ung dụng giả lập trang báo điện tứ: Ung dụng báo điện tử được giả lập một tình
huống là trang báo tên “NEWSPAPER” với phần bình luận mở cho người đọc andanh có thé bình luận vào một bài báo đưa tin về Covid-19 của họ Hình sau mô
tả về quy trình của ứng dụng
Front-end Back-end
a nae ` Bình luậ
Ứng dụng báo điện tử mein tên xir ly do liệu hai bước
Request Binh luận.
Hình 5 Quy trình ứng dụng giả lập trang báo điện tử.
e Kết quả mong đợi của đề tài
Nghiên cứu của chúng tôi góp phần tạo dựng một công trình trong công cuộc phân
tích và xử lý ngôn ngữ tự nhiên cho tiếng Việt Với đề xuất giải pháp hai thành phần
gom tiền xử ly dữ liệu hai giai đoạn và mô hình kết hợp trên một hướng tiếp cận mớicũng là một đóng góp tư liệu cho hướng nghiên cứu ứng dụng các mô hình học máytruyền thống, học sâu, học chuyền tiếp và mô hình kết hợp và quy trình tiền xử lý dữliệu đặc thù trong hướng nghiên cứu bình luận trên mạng xã hội tại Việt Nam.
Từ việc nghiên cứu mô hình, kết quả nghiên cứu của chúng tôi có thể ứng dụng vào
việc phân loại liên tục và hàng loạt bình luận trực tiếp từ các trang mạng xã hội tại
Trang 14Việt Nam Không những vậy, giải pháp từ mô hình còn có thê ứng dụng vào các cơquan, tổ chức có nhu cầu tương tự tại các trang thông tin truyền thông của mình Từ
đó, giải pháp giúp nâng cao sự kiểm duyệt toàn diện bình luận xúc phạm, thù địch
trên không gian mạng tại Việt Nam.
Tư liệu tham khảo
[1] Luu, Son T and Van Nguyen, Kiet and Nguyen, Ngan Luu-Thuy, "A Large-scale
Dataset for Hate Speech Detection on Vietnamese Social Media Texts," arXiv preprint arXiv:2103.11528, 2021.
[2] Vu, Xuan-Son and Vu, Thanh and Tran, Mai-Vu and Le-Cong, Thanh and Nguyen,
Huyen, "HSD shared task in VLSP campaign 2019: Hate speech detection for social good," arXiv preprint arXiv:2007.06493, 2020.
[3] Nguyen, Khang Phuoc-Quy and Van Nguyen, Kiet, "Exploiting Vietnamese Social
Media Characteristics for Textual Emotion Recognition in Vietnamese," in 2020 International Conference on Asian Language Processing (IALP), 2020, pp 276 281.
[4] Devlin, Jacob and Chang, Ming-Wei and Lee, Kenton and Toutanova, Kristina, "Bert:
[6] Safaya, Ali and Abdullatif, Moutasem and Yuret, Deniz, "Kuisail at semeval-2020
task 12: Bert-cnn for offensive speech identification in social media," in Proceedings
of the Fourteenth Workshop on Semantic Evaluation, 2020, pp 2054 2059.
[7] Liu, Yuanxia and Liu, Hai and Wong, Leung-Pun and Lee, Lap-Kei and Zhang, Haijun
and Hao, Tianyong, "A Hybrid Neural Network RBERT-C Based on Pre-trained RoBERTa and CNN for User Intent Classification," in International Conference on Neural Computing for Advanced Applications, 2020, pp 306 319.
Trang 15[8] Saha, Debjoy and Paharia, Naman and Chakraborty, Debajit and Saha, Punyajoy and
Mukherjee, Animesh, "Hate-Alert@ DravidianLangTech-EACL2021: Ensembling strategies for Transformer-based Offensive language Detection," arXiv preprint arXiv:2102.10084, 2021.
[9] Nguyen, Dat Quoc and Nguyen, Anh Tuan, "PhoBERT: Pre-trained language models
for Vietnamese," arXiv preprint arXiv:2003.00744, 2020.
Kế hoạch thực hién:(M6 ta kế hoạch làm việc và phân công công việc cho từng sinh viên
và khảo sát dé tàiNghiên cứu phươngpháp và triển khaiĐánh giá hiệu suât
mô hình và cải thiện Xây dựng các ứng
Nghiên cứu phương pháp và hướng tiếp cận
giải quyết bài toán
Trang 16Triên khai mô hình thực nghiệm x x
Đánh giá và phân tích kết qua x x
Xây dựng các ứng dung demo x x
Viết báo cáo và báo cáo x x
TP HCM, ngay 26 thang 01 nam 2022
Xác nhận của CBHD Sinh viên
(Ký tên và ghi rõ họ tên) (Ký tên và ghi rõ họ tên)
Nguyễn Văn Kiệt Trần Quốc Khánh
Đỗ Trọng Hợp Nguyễn Trọng Ân
Trang 17MỤC LỤC
Chương 1 TONG QUAN c2 22s 5sSseSssSssESsEEseEseEseEsevssexserserserssrsssse 8
1.1 Giới thiệu khoá luận 2< s°s<s£sseEsssseEssesseEsserseesserssersere 8 1.2 Tính ứng dụng của khoá IAN s- << s6 S95 %5 9599459496556 95949% 9
Chương 2 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN 11
2.1 Công trình nghiên cứu về tiền xử lý dữ liệu ° s2 -s-ssses 112.2 Công trình nghiên cứu về các mô hình giải quyết bài toán nhận diện nội
dung phản cảm tiếng ViỆK 5- 5< 5< s2 SsSsEEseEseEssEssesserserserssrsssssesse 11
2.3 Công trình nghiên cứu về phát triển ứng dụng cho bài toán nhận diện
bình luận phan cảm tiếng Viet -.- 5-5-5 se se ssEssersersersssssrsssssee 13
Chương 3 PHƯƠNG PHÁP DE XUẤTT - se sessvssexseessesseevsee 15
3.1 Tổng quan về phương pháp đề xuất .s s-s- se ssssessessessecsee 15
3.2 Phương pháp tiền xử lý dit liệu - -s-s<sssscssesssessessessessesses 15
3.2.1 Giai Moan Í d 70-5 5S 9 9 9 TH 00.00.0000 0096006 16
3.2.2 Giai MOAN 2 G5 cọ TH TH 0000600060 100184 18
3.3 Xử lý dữ liệu mắt cân bằng s2 se se ssssessessersersssssesssssee 19
3.4 Mô hình đề xuất cho bài toán nhận diện nội dung xúc phạm trên tiếng
Việt: PhoBERTT-CNN o- << cọ HH HH HH HH HH 000000000050 21
Chương 4 CÀI ĐẶT, THU NGHIỆM VÀ ĐÁNH GIA -«- 26
4.1 Quy trình thir nghiém d 0 G5 G S2 %9 9996 9.9.0 006096996906 8.0 26
4.2 Cac mô hình cơ sở (Baseline Models) -<s sec o5 55s sSSS9555SSsss5 27
4.2.1 Mô hình học máy (Machine Learning)) -s-<s<<s<se<sesses 27 4.2.2 Mô hình học sâu (Deep earniÏT) - << 5< sssssss s5 se 304.2.3 Mô hình học chuyển tiếp (Transfer Learning) -.s«ss «se 354.2.4 Mô hình kết hop (Combined Learning) -ssssssesses<2 38
4.3 Độ đo đánh giá hiệu suất các mô hình nhận diện nội dung xúc phạm 39
4.4 Bộ dữ liệu cho nhận diện nội dung xúc phạm trên tiếng Việt 394.5 Cài đặt thử ng hÏỆ¡m o- 5- < = << SH SH HH 08408408080 50 41
4.5.1 Mô hình học may (Machine LearnÏng) s=<<s«<se<ss< sesse 41
Trang 184.5.2 Mô hình học sâu (Deep Learning) os- << s55 s5 92s 5 96599656 424.5.3 Mô hình học chuyển tiếp (Transfer Learning) .s-.s s- 424.5.4 Mô hình kết hop (Combined Learning) -ssssssssesss 424.5.5 Mô hình đề xuất: PhoBERT-CNN -cs°-cesscvesserrxee 434.6 Phân tích và thảo luận về kết quả thử nghiệm - 25s 43
4.6.1 Xác minh hiệu suất của mô hình đề xuất: PhoBERT-CNN 43
4.6.2 Phân tích lỗi và thảo luận - <5 5 sssessssssessessessesssse 44
4.6.3 Phân tích kết quả tăng cường dữ liệu . -s-sccssssessesse 46
4.6.4 So sánh kết quả với các công trình nghiên cứu trước - 47
4.6.5 Phân tích cắt bỏ (Ablation ANALYSIS) Go 0 Y6 50 50
Chương 5 XÂY DỰNG ỨNG DỤNG HỖ TRỢ PHÁT HIỆN BÌNH LUẬN
XUC PHAM TIENG VIET -e << s°s£©+ssSssSEsseEsserssersseerssorsserse 52
5.1 Môi trường thực hién - G5 6 5 52 5 99 99.999 9905099869885698386948856 52 5.2 Xây dung ứng dụng tương tác với mô hình -s«- «s5 ssss sses« 52
5.2.1 Xây dung ứng dụng xử lý dữ liệu bình luận theo thời gian thực 52
5.2.2 Xây dựng ứng dung gia lập trang báo điện tử «- << << 55
5.3 Kết quả xây dung ứng dụng tương tác với mô hình - 59
5.3.1 Ứng dụng xử lý dữ liệu lớn theo thời gian thực . -<- 59
5.3.2 Ứng dụng giả lập trang báo điện tử: -s-secsscsscssessesse 61
Chương 6 KET LUẬN VÀ HUONG PHAT TRIEN -5 <¿ 63
6.1 Ket WAM 8 ) ).)) ) 63
6.2 Han 0u "3 63
6.3 Hướng phat triỄn s- << 5£ 5£ << Es£ se sEEsESEseEseEsessessesersersee 64
DANH MỤC CÔNG TRÌNH TÁC GIẢ 2-2-2 css©sseessesseessess 65
TÀI LIEU THAM KHAO -° 22+£°£E©EEEEV2dd£et2222vvvzrssee 66
Trang 19DANH MỤC HÌNH
Hình 1.1 Một SỐ VÍ dụ cho bài toán nhận diện nội dung xúc phạm tiếng Việt 9
Hình 1.2 Thực trạng nhức nhói của ngôn ngữ xúc phạm trên mạng xã hội 10
Hình 3.1 Giải pháp đề xuất của chúng tôi cho bài toán HSD tiếng Việt l5 Hình 3.2 Tong quan về quy trình tiền xử lý dữ liệu . .: -+-5:-: l6 Hình 3.3 Phân phối nhãn trên hai bộ dữ liệu ViHSD và HSD-VLSP trước và sau khi tăng cường dữ lIỆU - - G5 1 191k 9 HH HH HH Hà 21 Hình 3.4 Tổng quan về giải pháp đề xuất sử dụng mô hình PhoBERT-CNN 22
Hình 3.5 Quá trình biéu diễn dữ liệu đầu vào của mô hình PhoBERT 23
Hình 4.1 Tông quan về quy trình tiến hành thử nghiệm của chúng tôi 26
Hình 4.2 Các mặt phân chia của SVM trong bài toán phân loại nhị phân 29
Hình 4.3 Tổng quan về nguyên lý hoạt động của mô hình Random Forest 30
Hình 4.4 RNN tiêu chuẩn và dạng khai trién của nó -¿©cz©5+5c5++: 30 Hình 4.5 Kiến trúc mô hình LSTM được đề xuất bởi Sepp Hochreiter và Jiirgen k8 3010117201777 31
Hình 4.6 Kiến trúc mô hình Bi-LSTM được đề xuất bởi M Schuster và K.K Paliwal E h.: mñ6.ẻẳềỶề.ồ.ẻốẺ éếẽố Ááe 31
Hình 4.7 Kiến trúc mô hình Text-CNN được đề xuất bởi Yoon Kim [56] 33
Hình 4.8 Phân phối độ dài bình luận trong hai bộ dữ liệu - -<<: 40 Hình 4.9 Ma trận nhằm lẫn của mô hình PhoBERT-CNN do chúng tôi đề xuất 45
Hình 5.1 Tông quan về hệ thống nhận diện nội dung xúc phạm tiếng Việt theo thời [r0 1 53
Hình 5.2 Quy trình ứng dụng xử ly dữ liệu lớn từ Youtube theo thời gian thuc 55
Hình 5.3 Quy trình xây dựng ứng dung giả lập trang báo điện tử - 55
Hình 5.4 Giao diện của ứng dụng giả lập trang báo điện tử ‹ 56
Hình 5.5 Xây dựng lớp dữ liệu chuẩn tương thích với đầu vào của API 57
Hình 5.6 Khởi động mô hình dự đoán tai trạng thái kích hoạt của API 57
Hình 5.7 Một đoạn lệnh request ví dụ dé gửi dữ liệu OT 58 Hình 5.8 Trạng thái hoạt động nhận request thành công của API - 58
Trang 20Hình 5.9 Giao diện của ứng dụng HSD với dữ liệu trực tuyến — 60
Hình 5.10 Hai requests va responds tương ứng hai trường hợp chạy thử nghiệm 61
Hình 5.11 Giao diện ứng dụng hién thị với respond mang nhãn “CLEAN” 61Hình 5.12 Giao diện ứng dụng hiền thị với nhãn “HATE/OFFENSIVE” 62Hình 5.13 Giao diện hỗ trợ chức năng "AN/ HIỆN" bình luận . 5- 62
Trang 21DANH MỤC BANGBảng 3 1 Thống kê thay đổi sau khi thực hiện các kỹ thuật tiền xử lý dữ liệu Giaiđoạn 1 trên hai bộ dữ liệu VIHSD và HSD-VLSP - 525cc cccc2scceseces 17
Bang 3 2 Một số ví dụ về teencode và các nghĩa biểu diễn đúng của nó 18
Bảng 3 3 Thống kê thay đổi sau khi thực hiện các kỹ thuật tiền xử lý dữ liệu Giai
đoạn 2 trên hai bộ dữ liệu ViHSD và HSD-VL,SP -2¿- + 5z+cxcczscrsce 19
Bang 3 4 Thống kê tông quan trên bộ dữ liệu ViHSD và HSD-VLSP trước và saukhi 0r sấu) 00ï15000ì0119: 01 4 Ỏ 20Bang 4.1 So sánh mô hình BERT và các biến thé cái tiến của nó - 37
Bang 4.2 Thống kê tổng quan về hai bộ dữ liệu ViHSD và HSD-VLSP 40
Bảng 4.3 Kết quả đánh giá của các mô hình trên hai bộ dữ liệu nhận diện nội dung
Xtic pham tiéng Vist NA 44
Bang 4.4 Một số vi du về các lỗi phân loại trên các bộ dữ liệu đã cho 45
Bảng 4.5 Kết quả so sánh kết quả sử dụng kỹ thuật tăng cường dữ liệu “W” và
“W/o” lần lượt biéu thị rằng kết quả có và không có tăng cường dữ liệu 47
Bang 4.6 Kết qua so sánh các kỹ thuật tiền xử lý trên bộ dữ liệu ViHSD và
HSD-VLSP "LT," "HT" và "OT" lần lượt đề cập đến nghiên cứu của Luu và các cộng sự
[8], Huynh và các cộng sự [21] và các kỹ thuật tiền xử ly được chúng tôi đề xuất 48
Bảng 4.7 Kết quả so sánh hiệu suất mô hình so với các nghiên cứu trước đó trên bộ
Att LGU /4s8190 11151 49
Bảng 4.8 Kết quả so sánh hiệu suất mô hình so với các nghiên cứu trước đó trên bộ
dữ liệu HSD-VLSP (*) biéu thị rằng kết quả được đánh giá trên bộ kiểm thử (test
set) của VLSP 2019 shared-task Những kết quả khác sử dụng 5-Fold
Cross Validation để đánh giá mô hình -2- 2-22 £+££+E£+EE+EE+EEzEzEzrxerxees 49
Bang 4.9 Thử nghiệm cắt bỏ trên phương pháp tiếp cận được chúng tôi đề xuất
“OP”, “DA”, “PB” và “TC” lần lượt biểu thị việc sử dụng tiền xử lý được chúng tôi
đề xuất, các kỹ thuật tăng dữ liệu, mô hình PhoBER Ti: và mô hình Text-CNN 50
Trang 22DANH MỤC TỪ VIET TAT
Trang 23TÓM TẮT KHÓA LUẬN
Sự phát triển của cách mạng công nghiệp 4.0 đã va đang dan thay đổi cuộc
sống của con người theo từng ngày, nhất là với sự phát triển mạnh mẽ của mạng xã
hội Khi đó, an toàn không gian mạng là một vấn đề ảnh hưởng trực tiếp tới đời sống
của người sử dụng đặc biệt là đối tượng như trẻ em hay những người dễ bị tổn thương.
Theo các báo cáo và nghiên cứu cho thấy, môi trường mạng xã hội chứa nhiều nội
dung độc hại như bình luận xúc phạm thù địch, tin giả, nội dung không phù hợp tiêu
chuẩn cộng đồng có sự ảnh hưởng tiêu cực không hề nhỏ đến số đông người dùng
và thậm chí cả người kiểm duyệt Vì vậy, khoá luận của chúng tôi đề xuất một giải
pháp mới ứng dụng các kỹ thuật xử lý ngôn ngữ tiên tiễn nhằm giải quyết bài toánphân loại bình luận xúc phạm, thù địch trên mạng xã hội, hướng đến một mạng xã
hội lành mạnh, an toàn Các bài toán cần giải quyết có thê từ nhỏ như các bình luận
đơn lẻ cho đến nhu cầu lớn như xử lý khối lượng lớn dit liệu liên tục
Cụ thể, giải pháp chúng tôi đề xuất gồm hai đóng góp chính: đề xuất phương
pháp mới và hiệu quả để giải quyết bài toán phát hiện ngôn ngữ xúc phạm tiếng Việt
dựa trên mô hình PhoBERT-CNN; xây dựng các ứng dụng phân loại trực tiếp, liên
tục nội dung từ kho dữ liệu lớn của Youtube và ứng dụng giả lập trang báo điện tử dé
phân loại bình luận xúc phạm dé chứng minh tính ứng dung của khoá luận Bên cạnh
đó, chúng tôi cũng có những đóng góp bồ sung liên quan đến bài toán, chăng hạn như
việc triển khai các kỹ thuật tiền xử lý dữ liệu và tăng cường dữ liệu phủ hợp, giúp cảithiện đáng ké hiệu suất của mô hình
Khoá luận có ý nghĩa quan trọng về mặt khoa học khi không chỉ đề xuất các
kỹ thuật tiền xử lý dữ liệu cần thiết cho miền dữ liệu bình luận tiếng Việt mà còn xây
dựng thành công một mô hình phân loại bình luận có độ chính xác Fl-score và
Accuracy lần lượt là 67,46% và 87,76% Từ đó, hệ thống mang lại ý nghĩa về mặt xã
hội khi có tiềm năng ứng dụng rộng rãi vào van dé văn hóa ứng xử trên mạng phục
vụ cho các nhu câu của cơ quan, tô chức đa ngành, đa mục đích.
Trang 24MỞ ĐẦU
Đặt vấn đề:
Cùng với sự phát triển bùng nỗ của cuộc cách mạng công nghiệp lần thứ tư,các trang mạng xã hội, trang thông tin điện tử đã và đang ảnh hưởng theo nhiều chiềuhướng đến nhiều mặt của đời sống xã hội và kinh tế Nhiều chuyên gia truyền thông
đánh giá rằng sự tấn công, bắt nạt qua mạng hay thông tin giả trên mạng xã hội
đang nhanh chóng lan rộng, thậm chí dần mắt kiểm soát Không chi tại Việt Nam, bat
cứ quốc gia nảo trên thế giới cũng đều đang đối diện với những vấn đề tiêu cực này
Thực trạng trên thu hút sự quan tâm, đầu tư của nhiều cơ quan, tổ chức trongviệc kiểm duyệt nội dung bình luận chống phá, thù địch nhằm mục đích đảm bảo an
toàn cũng như xây dựng môi trường văn hóa mạng lành mạnh Điều này bởi lẽ những
lý do cốt lõi sau: Đầu tiên, những thông tin quan trọng, đặc biệt là các thông tin từcác cơ quan Chính Phủ được đông đảo quan chúng quan tâm theo dõi; Hai là, nhữngthông tin được khai thác từ Internet rất dễ được tái truyền thông bằng các phươngthức truyền miệng, chuyên tiếp dưới dạng số hay in ấn van bản, và khiến chúng rat
dễ lan rộng trong xã hội; Ba là, những thông tin gây tranh cãi này thuộc một môi
trường số mở cho toàn cau, rất dé truy cập và thu hút sự theo dõi Chính vì vậy, chủ
thê thông tin trên các trang mạng xã hội rất tự do nhưng cũng rất dễ bị gây nhiễu củacác bình luận luận điệu, chống phá, gây han có quy mô tác động nhanh, rộng lênnhiều đối tượng thông tin và ảnh hưởng đáng kê đến bộ mặt và giá trị cốt lõi thực sự
của các cơ quan, tô chức và Chính Phủ
Ngoài ra, theo khảo sát của Microsoft [1], cứ 100 người dùng là thanh thiếuniên hoặc trưởng thành tại Việt Nam thì lên tới 70 người tham gia cho biết trong vòngmột tháng gần đây họ đã gặp phải một trong 21 hành xử không đúng mực; 97 người
thừa nhận ho đã bị tổn thương từ những hành xử đó và 83 người lo lắng rằng họ sẽ
gap phải những hành vi tương tự một lần nữa Đó là một trong những lý do khiến
Việt Nam được khảo sát trên xếp hạng thuộc các quốc gia có chỉ số văn minh không
gian mạng thấp nhất trong số 25 quốc gia được khảo sát về 21 vấn đề rủi ro gây nên
từ các hanh xử không đúng mực Day là một hôi chuông cảnh báo về mặt trái của các
Trang 25nền tảng mạng xã hội tại Việt Nam đã và đang bị các thành phần có hành vi xấu trụclợi từ “mảnh đất màu mỡ” này dé kích động các quan điểm thù địch, xúc phạm màkhông màng tới hậu quả Vì vậy, nhu cầu của người dùng lên các trang mạng xã hội,trang thông tin điện tử về các cơ chế, chính sách khuyên khích các hành động văn
minh trên mạng và sẽ có những hình phạt thích đáng cho các hành vi sai phạm ngày
càng tăng cao Đặc biệt là các nền tảng có số lượng lớn thành viên là trẻ em, hay
người dễ bị ảnh hưởng bởi lời nói tiêu cực lại cần có sự can thiệp sâu sắc.
Không những vậy, gần đây cơ quan, t6 chức còn có nhu cầu đánh giá hành vi
của các cá nhân thuộc cơ quan, tổ chức Từ đó cơ quan, tổ chức xác định các cá thé
có tư tưởng lệch lạc, chưa đạt các chuẩn mực đạo đức về hành vi, ứng xử trên cáctrang mạng xã hội Các đơn vị giáo dục như Trung học cơ sở, Trung học phô thônghay một SỐ trường Đại học cũng theo dõi học sinh, sinh viên của mình từ đó đánh giáhạnh kiểm, đạo đức
Nhận thấy được tính quan trọng của vấn đề, Bộ Thông tin và Truyền thông
vào tháng 6 năm 2021 vừa qua đã ban hành Quyết định về Bộ quy tắc ứng xử trên
mạng xã hội Nội dung quyết định nhằm xây dựng mạng xã hội lành mạnh tại Việt
Nam, đảm bảo các quyền về tự do cá nhân, quyền tự do kinh doanh, tôn trong các nhà
cung cấp dịch vụ trong và ngoài nước, phủ hợp với thông lệ, chuẩn mực quốc tế Đâycũng là một động thái từ Chính Phủ góp phần xây dựng các chuẩn mực đạo đức vềhành vi, ứng xử trên mạng xã hội, tạo một thói quen tích cực của người dùng, xây
dựng nên môi trường mạng an toan, lành mạnh tại Việt Nam.
Tuy nhiên, việc kiểm soát được bình luận có nội dung xúc phạm, thù địch trên
các nền tảng mạng xã hội gặp rất nhiều thách thức vì đặc trưng khối lượng cực lớn
và đa dạng cả về mức độ và chủ đề của chúng Theo nghiên cứu năm 2018, “DentalTrauma in Social Media - Analysis of Facebook Content and Public Engagement”của Suha Abu-Ghazale và các cộng sự [2] cho biết, cứ mỗi 60 giây trên nên tảngmạng xã hội tỷ người dùng Facebook, thì có đến 293.000 bài viết được đăng lên, và
có hơn 510.000 bình luận được viết Mặt khác, theo trang báo cáo số liệu uy tín
Statista đưa tin năm 2018 [3] Facebook phải gỡ bỏ hơn 11,3 triệu nội dung xúc phạm
Trang 26và thù địch trên toàn cầu Trong khi Youtube năm 2019 phải loại bỏ hơn 1.800 triệubình luận bị vi phạm tiêu chuẩn cộng đồng Con số này ở hai nền tảng còn tăng trưởngkhủng khiếp theo thời gian Năm 2020, Facebook phải loại bỏ hơn 81 triệu nội dungxúc phạm, thù địch tức là tăng gấp bảy lần so với năm 2018 Trong khi Youtube trongnăm 2020 phải loại bỏ hơn 4.800 triệu bình luận tức tăng gấp 2,7 so với năm trướcđó.
Thành quả trên là công sức của hai nền tảng mạng xã hội lớn nhất thế giới.Theo đưa tin từ Wall Street Journal [4], tính tới thời điểm năm 2018, Facebook đãphải chi hang trăm triệu đô la Mỹ cho đội ngũ kiểm duyệt nội dung của họ Còn theotrang thông tin công nghệ lớn của Mỹ - The Verge với bài viết The Terror Queue,Google cũng có đội ngũ lên tới 10.000 người đảm nhiệm nhiệm vụ tương tự Tuynhiên, đội ngũ này vẫn còn nhiều bất cập
Thứ nhất, mặc dù Facebook đã có mặt trên 100 ngôn ngữ [4] nhưng chỉ hơnmột phan hai trong số chúng có các đội ngũ kiêm soát nội dung chuyên nghiệp Trong
khi, thị trường lớn của Facebook là Đông Nam Á, trong đó có Việt Nam, thì họ lại
cực kỳ thiếu nhân lực có chuyên môn cao về ngôn ngữ Và Việt Nam lại có môi
trường mạng xã hội cực kỳ độc hại theo khảo sát của Microsoft [1].
Thứ hai, công việc của các người kiểm soát nội dung chuyên nghiệp, dẫu cho
họ đã được cảnh báo từ trước về nội dung cực kỳ độc hại họ sẽ xử lý, cũng như tổ
chức các buồi huấn luyện, chọn lọc của các tập đoàn lớn và nhận hỗ trợ cực kỳ chu
đáo từ các tập đoàn này, rất nhiều trong số họ vẫn gặp vấn đề về tâm lý, thậm chí họ
còn bị hội chứng Rối loạn căng thắng sau sang chan (Posttraumatic Stress Disorder PTSD) [5], hội chứng thường gặp sau khi chứng kiến sự kiện kinh hoàng Và nhiềutrong số họ không thể hoàn toàn hồi phục theo nhà báo Deepa Seetharaman (2018)
-tại The Verge.
Thứ ba, các tập đoàn lớn sở hữu mạng xã hội này cũng như các phòng nghiên
cứu đã và đang bỏ ra rất nhiều công sức và tiền bạc vào việc xây dựng các hệ thống
ứng dụng Trí tuệ nhân tạo vào xử lý bài toán này nhưng chưa thực sự hiệu quả Những
hệ thong này sử dụng nguồn đữ liệu dôi dào và chat lượng có sẵn trên các nên tảng
Trang 27mạng xã hội của họ, cộng với việc sở hữu các phương pháp tiên tiễn có thé áp dụngtrên đa ngôn ngữ, khiến các hệ thông rất mạnh mẽ trong việc phân loại rất rộng và rấtnhanh những nội dung xúc phạm và phản cảm [6], [7] Tuy nhiên, chính vì hệ thốnghọc từ nguồn dữ liệu có sẵn cộng với tinh không chuyên biệt về ngôn ngữ, làm chocác hệ thống này khó nhận diện được những nội dung hay bình luận thiếu ngữ cảnh,
chuyên biệt hoá bởi văn hoá vùng miền, khu vực, và hơn hết là chậm trong việc bắt
kịp với phương thức được cải tiến liên tục của các nội dung xấu Và ở Việt Nam,
những hệ thống này thậm chí còn chưa có sự nghiên cứu đủ sâu và rộng, những hạnchế vẫn còn tồn đọng trong quá trình xây dựng hệ thống và kết quả thu được cũngchưa đủ mạnh đề có khả năng giải quyết vấn đề thực tế
Chính vì các lý do đó, khoá luận này đưa ra một giải pháp mới và mạnh mẽnhằm việc phân loại, bóc tách ra bình luận xúc phạm, phản cảm, từ đó đưa ra giải
pháp giúp tăng cường cho nỗ lực đưa các môi trường mạng nói chung và môi trường
mạng xã hội nói riêng trở nên an toàn.
Mục tiêu khoá luận:
Trong khóa luận này, chúng tôi tập trung nghiên cứu các kỹ thuật tiền xử lý
dữ liệu, các thuật toán máy học, các kỹ thuật tăng cường đữ liệu và các ứng dụngtương tác với mô hình Chúng tôi đã đặt ra các mục tiêu cụ thể như sau:
- Chung tôi đã thực hiện các kỹ thuật tiền xử lý dữ liệu nghiêm ngặt và hiệu quả
dé làm sạch các bình luận được thu thập từ các trang mạng xã hội Các kỹ thuật
này được kỳ vọng sẽ nâng cao chất lượng đữ liệu và giúp cải thiện hiệu suất
của các mô hình phân loại.
- _ Một mô hình mới được đề xuất dé cải thiện hiệu suất của bài toán nhận diện
nội dung xúc phạm, phản cảm trên tiếng Việt Đề đạt được mục tiêu này, cácthử nghiệm khác nhau đã được tiến hành với bốn phương pháp tiếp cận hiện
đại: học máy, học sâu, học chuyền giao và học kết hợp So với mô hình
PhoBERT-CNN được đề xuất của chúng tôi, những cách tiếp cận này hỗ trợ
trong việc phát triển các mô hình cơ sở
- Chung tôi áp dụng các kỹ thuật EDA cho bộ dữ liệu VIHSD [8] và bộ dt liệu
Trang 28HSD-VLSP [9] để xử lý dữ liệu mat cân bang và xác minh tính hiệu quả và sựcần thiết của việc tăng cường dữ liệu cho bài toán nhận diện nội dung xúcphạm tiếng Việt.
- Đề chứng minh tính hữu ích của hệ thống được đề xuất, chúng tôi đã xây dựng
một ứng dụng liên tục truyền đữ liệu từ nguồn dữ liệu không 16 của các nền
tảng truyền thông xã hội dé phát hiện các nhận xét thù địch và xúc phạm
Đối tượng và phạm vi nghiên cứu:
> Đối tượng: Internet đặc biệt là mạng xã hội qua thời gian đang dần bộc lộ rõ
nhiều khía cạnh tiêu cực Trong đó, vấn đề nội dung xúc phạm, phản cảm luôngây quan ngại về sự ảnh hưởng đáng kể của chúng tới người dùng Điều nàythúc đây chúng tôi đề xuất giải pháp ứng dụng các kỹ thuật xử lý ngôn ngữtiên tiến và hiệu qua dé bóc tách các nội dung độc hại trên ra khỏi không gianmạng, góp phần xây dựng môi trường an toàn, thân thiện
> Phạm vi: Tuy giải pháp đề xuất chỉ ở pha nền tảng, sơ khởi, nhưng phạm vi
ứng dụng của nó là vô cùng lớn Giải pháp đề xuất có thé áp dung từ các đơn
vị báo điện tử hay trang thông tin điện tử có lưu lượng thấp bình luận nhưng
cần sự kiểm duyệt cao, cho đến các nền tảng bình luận lớn như mạng xã hội
hay diễn đàn Từ đó, xây dựng môi trường tích cực, văn minh hay thoả mãn
nhu cầu định hướng và bảo vệ các đối tượng dễ bị ảnh hưởng như người già,
trẻ em Không những vậy, ứng dung còn là cơ sở dé các cơ quan, tô chức đánhgiá, theo dõi các đối tượng nhằm mục dich quản lý, nghiên cứu, giáo duc
Kết quả nghiên cứu:
Khóa luận của chúng tôi thực hiện góp phần trở thành một công trình trong
công cuộc phân tích và xử lý ngôn ngữ tự nhiên cho Tiếng Việt Qua quá trình nghiên
cứu, chúng tôi mang tới giải pháp đề xuất bao gồm tiến hành tiền xử lý dữ liệu hai
giai đoạn, xây dựng mô hình kết hợp trên một hướng tiếp cận mới và tìm ra kỹ thuật
tăng cường đữ liệu hiệu quả Những kết quả này cũng là một đóng góp về mặt tư liệu
cho hướng nghiên cứu ứng dụng các mô hình kết hợp và quy trình xử lý dữ liệu đặcthù trong hướng nghiên cứu về dữ liệu trên mạng xã hội tại Việt Nam Cũng chính
Trang 29việc áp dụng quy trình tiền xử lý dữ liệu, tăng cường đữ liệu và mô hình kết hợp chokết quả cao trong phân loại nội dung xúc phạm, phản cảm Công trình đã đóng góp
được một giải pháp toàn diện trong việc nâng cao tính văn minh môi trường mạng.
Khiên công trình có tính ứng dụng cao trong ngữ cảnh bùng nô của mạng xã hội.
Câu trúc khoá luân:
Khoá luận gôm 6 chương với các nội dung chính như sau:
> Chuong 1: Téng quan
Giới thiệu về bài toán nhận diện nội dung xúc phạm, phản cảm trên mạng xãhội và tầm quan trọng của các kết quả nghiên cứu trong bối cảnh hiện tại, đặcbiệt là tính ứng dụng thực tế của khoá luận trong các cơ quan, tô chức
Chương 2: Các công trình nghiên cứu liên quanChúng tôi giới thiệu một số công trình nghiên cứu tiêu biểu trong và ngoàinước liên quan đến việc tiền xử lý dit liệu, mô hình huấn luyện, xử lý dữ liệumat cân bằng và ứng dung tương tác với mô hình máy học
Chương 3: Phương pháp đề xuất
Trinh bay các phương pháp tiền xử lý dữ liệu, mô hình huấn luyện, xử ly ditliệu mất cân bằng mà chúng tôi đề xuất và áp dụng
Chương 4: Cài đặt, thử nghiệm và đánh giáTrong chương này, chúng tôi trình bày các thông tin liên quan đến việc thiếtlập thử nghiệm, phân tích và đánh giá các kết quả đạt được
Chương 5: Xây dựng các ứng dụng hỗ trợ phát hiện bình luận xúc phạmtiếng Việt
Chúng tôi sẽ trình bày các công nghệ sử dụng và tông quan về các ứng dụng
phát hiện nội dung xúc phạm tiếng Việt cùng với một số chức năng cơ bản của
các ứng dụng hỗ trợ.
Chương 6: Kết luận và hướng phát triển
Tổng kết các kết quả đã đạt được và đề xuất các hướng phát triển trong tương
lai của khoá luận.
Trang 30Chương 1 TỎNG QUAN
1.1 Giới thiệu khoá luận
Hiện tại, các đề tài nghiên cứu về phân loại bình luận chưa thực sự đem lại hiệusuất cao dé có thé ứng dụng vao thực tế Lý do của van dé này đến từ việc tuy các bộ
dữ liệu được phân chia thành nhiều lớp nhưng một số kết quả phân loại trên các nhãn
lại không cao bởi sự định nghĩa nhập nhằng Điển hình bộ như dữ liệu ViHSD của
Luu và các cộng sự được chia thành ba lớp HATE, OFFENSIVE va CLEAN nhưngkết quả phân loại đúng trên lớp HATE, OFFENSIVE lần lượt chỉ bằng 49,27% và
36,04% ở độ đo Accuracy Ngoài ra, các giải pháp hiện hữu vẫn còn gặp những hạn
chế về tiền xử lý đữ liệu, xử lý đữ liệu mất cân bằng và cả về mô hình huấn luyện
chưa thực sự hiệu quả cũng là lý do thúc day chúng tôi xây dựng một giải pháp khoa
học mới, kế thừa những ưu điểm đã có, và cải thiện các hạn chế còn tồn đọng
Dựa vào cách tiếp cận vấn đề và nhu cầu của xã hội, chúng tôi xây dựng giảipháp hướng tới ứng dụng thực tế tại môi trường mạng ở Việt Nam Chúng tôi tìmhiểu và tiến hành kết hợp mô hình học chuyên tiếp đơn ngôn ngữ sử dụng cho tiếngViệt là PhoBERT kết hợp với mô hình học sâu Text-CNN Với ưu điểm vượt trộitrong cả việc trích xuất thông tin và khả năng phân loại của mô hình kết hợp này giúpgiải pháp tối ưu và đem lại giá trị vượt trội khi phân loại bình luận, sẵn sàng ứng dụng
vào thực tế, góp phần xây dựng một cộng đồng mạng trong sạch, lành mạnh
Bài toán nhận diện nội dung xúc phạm, phản cảm (Hate Speech Detection HSD) và bài toán phân tích cảm xúc (Sentiment Analysis) có mối liên hệ chặt chẽ vớinhau [10] Những bài toán này gần đây đã trở thành chủ đề phố biến và thu hút được
-sự quan tâm trong lĩnh vực Xử lý ngôn ngữ tự nhiên (Natural Language Processing).
Trong phần này, chúng tôi tóm tắt bài toán nhận diện nội dung xúc phạm, phản cảm
tiếng Việt [8], [9] Bai toán này nhằm mục đích xác định xem một nội dung trên mạng
xã hội có mang sắc thái xúc phạm hay không Bài toán có thé được mô tả ngắn gọn
như sau:
- Pau vào: Một câu bình luận tiếng Việt trực tiếp thu thập từ mạng xã hội
- _ Đầu ra: Một trong ba nhãn tương ứng với sắc thai của bình luận
Trang 31o HATE (Nhãn 2): chứa ngôn ngữ xúc phạm, thường có mục dich xúc
phạm các cá nhân hoặc tô chức Một bài đăng hoặc bình luận đượcxác định là HATE nếu nó (1) nhắm mục tiêu đến các cá nhân hoặc tổchức dựa trên đặc điểm của họ ,ví dụ như tôn giáo, quốc tịch; (2) thểhiện ý định kích động gây hại hoặc gây thù hận; (3) có thể có hoặckhông sử dụng các từ xúc phạm hoặc tục tiu.
o OFFENSVIE (Nhãn 1): là bình luận có chứa nội dung quấy rối,
thậm chí cả những từ tục tu nhưng không tan công bat kỳ đối tượng
cụ thé nao
o CLEAN (Nhấn 0): là một bình luận thông thường như cuộc trò
chuyện, thể hiện cảm xúc một cách bình thường Nó không chứa ngônngữ độc hại, xúc phạm hay căm thù nhắm tới một ai đó
Hình 1.1 Một số ví dụ cho bài toán nhận diện nội dung xúc phạm tiếng Việt
1.2 Tính ứng dụng của khoá luận
Như đã đề cập, việc lượng lớn bình luận có nội dung xúc phạm, phản cảm hiệndiện và sinh ra liên tục trên mạng xã hội làm ảnh hưởng sâu sắc tới người dùng Đặcbiệt, trong bối cảnh Chính Phủ đang từng bước mở cửa lại nền kinh tế hướng tới “bình
1 Các ví dụ trong khoá luận này được đưa ra dé chứng minh mức độ nghiêm trọng của vấn đề ngôn ngữ xúc
phạm Chúng dựa trên dữ liệu trực tuyên thực tê và không phản ánh ý kiên của các tác giả.
9
Trang 32thường mới” sống chung với SARS-CoV-2 Điều này khiến cho các cơ quan, tô chức
ra sức không chỉ dựa vào đội ngũ kiểm duyệt hay sự ý thức của người dùng, mà thayvào đó là một giải pháp hiệu quả, tiết kiệm và có khả năng xử lý lượng lớn nội dungtiêu cực này Trong bối cảnh cấp thiết đó, giải pháp của chúng tôi đề xuất có tiềmnăng ứng dụng rất lớn trong môi trường mạng xã hội tại Việt Nam
Từ việc nghiên cứu mô hình, kết quả nghiên cứu của chúng tôi có thể ứng dụngvào việc phân loại liên tục và hàng loạt bình luận trực tiếp từ các trang mạng xã hội
tại Việt Nam Bên cạnh đó, giải pháp từ mô hình còn có thể ứng dụng vào các cơ
quan, tổ chức có nhu cầu tương tự tại các trang thông tin truyền thông của mình Từ
đó, giải pháp giúp nâng cao sự kiểm duyệt toàn diện bình luận xúc phạm, thù địch
trên không gian mạng tại Việt Nam.
[Ì Ares Lee (¿` cao Minh Ngọc
ngày -® giáo viên mac hế này thi dạy ai trời
“
ỘỠíyỶễi nh : : Thích - Phản hồi
Nữ giáo viên tiêm 2 mũi vaccine cách nhau 10 phút
Chip Chip a Nobi Ta
Mấy vụ rồi chứ 1 đâu Lớn rồi lại còn cô giáo Này cố ý Oi Giáo VIÊN
chứ lỗi đâu của nvyt Chừa cho người khác n rới chứ Thích - Phản hồi - 2
19
Thích - Phản hồi - 3 ng: ư
Dân Trí Giáo dục - Hướng nghiệp tu
Hon nữa, với chi phí đầu tư thấp, tài nguyên tiêu tốn ít, cho phép tối ưu và cập
nhật liên tục theo xu hướng của mạng xã hội giúp cho giải pháp không chỉ mang tính
ứng dụng về mặt xã hội giúp môi trường mạng lành mạnh, tích cực mà còn có cơ hội
mang lại hiệu quả cao vê mặt kinh tê.
10
Trang 33Chương 2 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
2.1 Công trình nghiên cứu về tiền xử lý dữ liệu
Kỹ thuật tiền xử lý đữ liệu luôn đóng vai trò thiết yếu trong nhiệm vụ phân loại
dữ liệu từ mạng xã hội Việt Nam nói chung và trong bài toán phát hiện nội dung xúcphạm, phản cảm nói riêng [11] Khang và các cộng sự [12] đã kiểm tra tác động của
quá trình tiền xử lý đối với các bộ đữ liệu được thu thập từ các mạng xã hội Việt
Nam Theo phát hiện của nghiên cứu này, việc tiền xử lý có tác động đáng ké đếnviệc trích xuất thông tin từ đữ liệu Các bình luận bằng tiếng Việt trên mạng xã hộithường chứa các ký tự, từ ngữ liên quan đến cảm xúc và được trình bày theo nhiềucách khác nhau gây khó khăn cho việc xác định, phân biệt và trích xuất thông tin
Khang và các cộng sự [12] cũng đã thành công trong việc sử dụng tiền xử lý đữ liệu
dé cải thiện kết quả thêm 4,66% Day là một thành công so với các công trình nghiêncứu trước đó trên cùng một bộ dữ liệu và độ đo đánh giá.
Tuy nhiên, các nghiên cứu hiện tại trên hai bộ dữ liệu VIHSD và HSD-VLSP
vẫn chưa sử dụng các kỹ thuật tiền xử lý dữ liệu hiện đại và hiệu quả để cải thiện
hiệu suất của các mô hình Chỉ các kỹ thuật tiền xử lý đơn giản được sử dụng trong
các nghiên cứu trước đây, chang hạn như phân đoạn văn bản, chuẩn hoá dạng viết
thường, xóa thông tin nhạy cảm, xóa URL và các ký tự không phải chữ cái.
Trong khoá luận này, chúng tôi kế thừa những ưu điểm của các nghiên cứu trước
và triển khai các kỹ thuật tiền xử lý mới và cụ thé dé xử lý một số thách thức khókhăn đặc thù với dữ liệu mạng xã hội, chăng hạn như tách từ tiếng Việt bang cach strdụng thư viện SOTA là VnCoreNLP [13], De-teencode và xóa từ dừng (stopwords).Những kỹ thuật này góp phan đáng ké trong việc nâng cao hiệu suất của các mô hình.2.2 Công trình nghiên cứu về các mô hình giải quyết bài toán nhận diện nội
dung phản cảm tiếng Việt
Một số khảo sát về bài toán nhận diện nội dung xúc phạm và các phương pháp
máy học được dùng cho bài toán cung cấp thông tin nghiên cứu về tình trạng hiện tại
của lĩnh vực này [14] Chúng không chỉ cung cấp cấu trúc tổng quan về các phươngpháp tiếp cận trước đây mà còn mô tả các lĩnh vực phụ đã được khám phá dé tự động
11
Trang 34phát hiện các loại ngôn ngữ xúc phạm [10] Ngoài việc cung cấp một khảo sát về các
kỹ thuật xử lý ngôn ngữ tự nhiên hiện đại được sử dụng dé phat hiện tự động nội
dung xúc phạm trên mạng xã hội trực tuyến, Alrehili và các cộng sự [15] còn chỉ ra
rằng các kỹ thuật tiền xử lý như Bag of Words, Dictionary, Part of Speech và các môhình học máy như Random Forest, Naive Bayes và Decision Trees cũng tạo ra kết
quả tích cực cho bài toán nhận diện nội dung xúc phạm, phản cảm Điều này thúcđây các nhà nghiên cứu khác, chang hạn như Waseem và các cộng sự [16], Chen và
các cộng sự [17], Davidson và các cộng sự [18] áp dụng hệ thống nhận diện tự động
với mục đích giải quyết vấn đề thực tế về ngôn ngữ xúc phạm trên mạng xã hội
Mặt khác, chúng tôi đã tiến hành khảo sát các công trình nghiên cứu liên quan
phục vụ bài toán phân loại bình luận trên mạng xã hội tiếng Việt, đặc biệt là bài toán
nhận diện nội dung xúc phạm vẫn còn khiêm ton [8], [9] [19]-[24] Cụ thé, cácnghiên cứu hiện tại chỉ xoay quanh hai bộ dữ liệu điền hình bởi chất lượng và sốlượng lớn các điểm dit liệu là bộ dit liệu ViHSD [8] và bộ dit liệu HSD-VLSP [9]
Các phương pháp giải quyết bài toán nhận diện nội dung xúc phạm rat đa dạng,
trong đó các mô hình học máy là nền tảng cơ bản nhất Các mô hình học máy truyềnthống như Support Vector Machine (SVM) và mô hình Random Forest được áp dụng
trong nghiên cứu của Davidson và các cộng sự [18], Martins và các cộng sự [25].
Đây là những cách tiếp cận tốt nhất trong các nghiên cứu của họ và kết quả nghiêncứu đóng vai trò là nền tảng cho sự phát triển của các giải pháp trong tương lai
Trong những năm gần đây, các giải pháp hiện đại (SOTA) với hiệu suất vượttrội đã được giới thiệu Một số giải pháp tiêu biểu có thé kế đến như sự ra đời củacác mô hình đa ngôn ngữ được đảo tạo trước như BERT [26], ROBERTa [27], XLM-
R [28] Bên cạnh đó, các giải pháp kết hợp dé tạo ra các mô hình cao cấp hơn cũngnhận được sự quan tâm đáng ké Trong quá trình phát triển đó, sự ra đời của các môhình kết hợp BERT-CNN [29], RoBERT-CNN [30], XLMR-CNN [31] đã mang lạinhững giải pháp góp phần cải thiện hiệu suất bài toán nhận diện nội dung xúc phạm
Lay cảm hứng từ sự thành công của việc kết hợp các biến thé của mô hình BERT
với mô hình CNN [29]-[31], mô hình kết hợp PhoBERT-CNN được thực hiện trong
12
Trang 35khoá luận này nhằm kiểm tra tinh hiệu quả của nó trong bài toán nhận diện nội dungxúc phạm trên tiếng Việt.
Mang CNN được sử dụng thay vì các mạng nơ-ron điển hình khác như LSTM[32], Bi-LSTM [33] và GRU [34] vì nó hiện là một trong những mô hình thành côngnhất dé giải quyết các nhiệm vụ phân loại văn bản ngắn [35] Các kỹ thuật tích chập
(convolution) và tổng hợp (pooling) của CNN hỗ trợ việc trích xuất các khái niệm
và từ khóa chính của văn bản dưới dạng các đặc trưng, dẫn đến cải thiện đáng kế
hiệu suất của mô hình phân loại Tuy nhiên, mang CNN có một hạn chế đáng ké là
nó không phù hợp với văn bản cấp trình tự (sequence-level) [35], [36] Dé giải quyết
hạn chế này, mô hình đơn ngôn ngữ được đào tạo trước cho tiếng Việt, PhoBERT
[27] là sự kết hợp thích hợp do PhoBERT sẽ có nhiệm vụ trích xuất các đặc trưng
từ câu cho đầu vào của mô hình Text-CNN
PhoBERT, mô hình đơn ngữ quy mô lớn được đào tạo trước đầu tiên cho tiếngViệt, được giới thiệu bởi Nguyen và các cộng sự vào năm 2020 [37] PhoBERT đã
được đào tạo với khoảng 20GB dữ liệu, bao gồm khoảng 1GB từ kho dữ liệuWikipedia tiếng Việt và 19GB còn lại từ kho tin tức tiếng Việt Kiến trúc của
PhoBERT tương tự như mô hình RoBERTa được phát triển bởi Liu và các cộng sự
[27] (mô hình được tối ưu hóa từ mô hình BERT với lượng lớn dữ liệu đào tạo dữ
liệu lên đến 160GB, tăng 10 lần so với BERT) Hơn nữa, khi áp dụng cho các nhiệm
vụ xử lý ngôn ngữ tự nhiên tiếng Việt, PhoBERT đã được chứng minh là hoạt độnghiệu quả và tạo ra kết quả tốt hơn so với mô hình đa ngôn ngữ tốt nhất hiện nay là
mô hình XLM-R [28], [37].
2.3 Công trình nghiên cứu về phát triển ứng dung cho bài toán nhận diện bình
luận phản cảm tiếng ViệtBên cạnh các bộ dữ liệu và phương pháp luận mới, nhiều ứng dụng và hệ thong
dé giải quyết bài toán nhận diện nội dung xúc phạm cũng được giới thiệu Một số dự
án tiêu biểu có thé kế đến như hệ thống phân luồng đữ liệu của Nagarajan và cáccộng sự [38], hệ thống xử ly tweet theo thời gian thực trên Twitter sử dung Spark
2 https://github.com/binhvg/news-corpus
13
Trang 36Streaming [39] Một số ứng dụng khác được sử dụng trong thực tế cũng đã được giới
thiệu trong thập kỷ qua Vào năm 2015, Burnap và các cộng sự [40] đã cung cấpthành công Giao diện kết hợp chương trình ứng dụng (Application ProgrammingInterfaces - API) dựa trên các dịch vụ trang web như CrowdFlower hoặc AmazonMechanical Turk và có thê được tích hợp vào một đường dẫn dữ liệu (data pipeline)
dé phân loại ngôn ngữ xúc phạm Sau đó, vào năm 2018, Anagnostou và các cộng
sự [41] cũng đã trình bày một ứng dụng web để có thé hỗ trợ tích cực báo cáo cho
Youtube về các trường hợp vi phạm tiêu chuẩn cộng đồng
Tuy nhiên, theo hiểu biết của chúng tôi, nghiên cứu hiện nay về bài toán nhậndiện nội dung xúc phạm cho tiếng Việt vẫn đang ở giai đoạn phân tích lý thuyết, cácgiải pháp ứng dụng thực tế vẫn còn gặp nhiều hạn chế Do đó, chúng tôi cần xâydụng các ứng dụng có tích hợp các công cụ truyền đữ liệu có khả năng mở rộng cao,đáng tin cậy và chịu được sai số cao cho bài toán này
Chúng tôi cũng khắc phục các hạn chế còn tồn đọng trong các nghiên cứu trước
đây [8], [9], [19]-[24] trên hai bộ dữ liệu ViHSD và HSD-VLSP bằng cách đề xuất
kỹ thuật tiền xử lý đữ liệu hai giai đoạn và áp dụng kỹ thuật xử lý hiệu quả vấn đề
mat cân bằng dữ liệu Hơn nữa, chúng tôi kế thừa những ưu điểm của mỗi nghiên
cứu, chăng hạn như khả năng tiến hành thử nghiệm với các phương pháp học máy
truyền thống, học sâu, học chuyển tiếp và các mô hình kết hợp Đặc biệt, chúng tôi
kết hợp mô hình ngôn ngữ mạnh mẽ cho tiếng Việt là PhoBERT và một mô hình học
sâu là Text-CNN đề tạo ra một mô hình có hiệu suất vượt trội hơn cho bài toán nhận
diện nội dung xúc phạm Cuối cùng, các ứng dụng sẽ được triển khai dé chứng minhtính hữu ích và đóng góp của hệ thống mà chúng tôi đề xuất
14
Trang 37Chương 3 PHƯƠNG PHÁP ĐÈ XUẤT
3.1 Tổng quan về phương pháp đề xuất
Phần này giới thiệu cách tiếp cận hiệu quả và đơn giản mà chúng tôi đề xuất
cho bài toán nhận diện nội dung xúc phạm (HSD) trên tiếng Việt Bằng cách sử dụng
các chiến lược tinh chỉnh (fine-tune), chúng tôi tập trung vào việc tối ưu hóa mô hình
kết hợp, PhoBERT-CNN để tạo ra mô hình có hiệu suất tốt nhất Hình 3.1 cho thấytổng quan về hệ thống sử dụng các kỹ thuật tiền xử lý và tăng cường dữ liệu Sau đó,
dữ liệu được huấn luyện sử dụng mô hình đề xuất PhoBERT-CNN Mô hình sau khi
được huấn luyện sẽ được sử dụng dé phát triển các ứng dụng tương tác với mô hình
đê nhận diện bình luận xúc phạm trực tuyên trên nhiêu nên tảng.
Hình 3.1 Giải pháp đề xuất của chúng tôi cho bài toán HSD tiếng Viet.
3.2 Phương pháp tiền xử lý dữ liệu
Chúng tôi sử dung hai bộ dữ liệu: VIHSD [8] và HSD-VLSP [9] lần lượt chứa
33.400 và 20.345 bình luận được thu thập từ các trang mang xã hội phô biến tại Việt
Nam Do bộ dữ liệu VIHSD và HSD-VLSP được thu thập từ các trang mạng xã hội
nên chúng chứa các bình luận có cấu trúc đa dạng và phức tạp Đặc biệt, lượng bình
luận phong phú trong cả hai bộ dữ liệu đều chứa các ký tự không tuân thủ theo tiêu
chuẩn unicode, teencode, từ viết tắt và các từ có ký tự lặp lại Do đó, chúng tôi tiến
hành xây dựng và kiểm thử quy trình tiền xử lý dữ liệu dé nâng cao chất lượng của
bộ dé liệu nhằm trích xuất các thông tin có giá trị trước khi sử dụng chúng cho việc
huấn luyện các mô hình phân loại Hình 3.2 mô tả tổng quan về quy trình tiền xử lý
dữ liệu hai giai đoạn mà chúng tôi đê xuât.
15
Trang 38Chuẩn hoá Chuẩn hoá
từ viết thường kiểu gõ dấu Tach từ
v A
— Xoá khoảng Xoá các ký tự ee
SA 2 =
Xöá liên kết > Chuẩn hoá
URLs Unicode Xoá Stopwords
(Giai đoạn 1 ` | Giai đoạn 2
Hình 3.2 Tổng quan về quy trình tiền xử lý dữ liệu.
3.2.1 Giai đoạn 1
Chúng tôi sử dụng các hàm được cung cấp bởi thư viện Regular Expression để
tiên hành xây dựng các hàm phục vụ cho việc tiên xử lý dữ liệu:
Chuẩn hóa viết hoa thành viết thường: Chúng tôi chuan hóa tất cả các
từ trong bộ dữ liệu về dạng viết thường để tránh Python nhận dạng hai từ
tách biệt vì hình thức của chúng.
Vi dụ: “Hòa Thuan” > “hòa thuận”
Xóa các khoảng trắng thừa: Do người dùng trên các phương tiện truyền
thông xã hội vô tình hoặc cố ý gõ các khoảng trăng trong bình luận của họ
gây ảnh hưởng tới khả năng trích xuất thông tin của mô hình do các khoảng
trắng dư thừa sẽ gây nên sự nhập nhang khi trích xuất
Ví dụ: “buồn cười quá!” > “buồn cười quá!!”
Xóa liên kết URLs: Qua nhiều lần chạy thử nghiệm và đánh giá, chúng tôikết luận được rằng các liên kết bên trong mỗi bình luận không ảnh hưởng
đến cảm xúc của bình luận Do đó, chúng tôi cũng đã quyết định xóa tất cả
liên kết URLs có trong đữ liệu
Vi du: “vkl https://www.facebook/Linh” > “vk!”
Chuẩn hóa Unicode: Chúng tôi nhận thay rang hai bộ dữ liệu có chứa các
từ tiếng Việt giống nhau nhưng các mô hình lại gặp nhiều khó khăn trong
việc nhận biết và phân biệt chúng do sự không thống nhất của các bảng mã
tiếng Việt Vì vậy, chúng tôi tiến hành chuan hóa bang mã các bình luận
trong về định dang thống nhất là UTF-8
Trang 39- _ Xóa kí tự thừa: Chúng tôi tiến hành xóa các kí tự dư thừa mà người dùng
tạo ra khi bình luận Các ki tự nay sẽ tạo ra một từ mới dựa trên từ gốc mặc
dù nghĩa của hai từ này là không thay đôi, điều này sẽ gây ảnh hưởng đếnquá trình nhận biết và trích xuất thông tin của các mô hình
- Chuẩn hóa từ có dấu: Do có sự đa dang trong việc kết hợp của các dấu
giữa các nguyên âm, chúng tôi quyết định tiến hành chuan hóa dau câu theo
các quy tắc sau:
o Nếu chỉ có một nguyên âm, dấu câu sẽ nằm trên nguyên âm đó
Vi du: má, lá, mê.
o Nếu có hai nguyên âm, dấu câu sẽ nằm trên nguyên âm đầu tiên
Vi du: lóa, khóa.
o Nếu có ba nguyên âm hoặc hai nguyên âm theo sau một phụ âm thì
dấu câu sẽ nằm ở nguyên âm thứ hai
Ví dụ: Khuỷu, quán.
o_ “ê” và “ơ” là các trường hợp đặc biệt vì dấu sẽ luôn nam trên nó
Ví du: khuyến, quyền, quo
Bảng 3.1 Thống kê thay đổi sau khi thực hiện các kỹ thuật tiền xử lý dữ liệu Giai
đoạn | trên hai bộ dữ liệu ViHSD và HSD-VLSP.
: Dư thừa Chuẩn hoáViệt
Bộ dữ liệu Khoảng Gõ | Link
thường , Ký tự | Unicode
trang dau
ViHSD 28.540 488 | 2.127 753 620 21 HSD-VLSP 0 1| 2.667 0 761 1
Tất cả các bước trong Giai đoạn 1 sẽ được tiễn hành theo thứ tự liệt kê như
trên Kết quả đầu ra của dữ liệu sau Giai đoạn 1 này được cung cấp trực tiếp làmđâu vao cho việc xử lý ở Giai đoạn 2 tiệp theo.
17
Trang 403.2.2 Giai đoạn 2
Tách từ: Dữ liệu đầu vào được chia thành các từ hoặc cụm từ tiếng Việt
có nghĩa Đề thực hiện việc này, chúng tôi đã sử dụng công cụ tách từ
VnCoreNLP [13] cho mô hình PhoBERT và NLTK [42] cho các mô hình khác Vì các bình luận trong cả hai bộ dữ liệu, VIHSD và HSD-VLSP, là
dữ liệu văn bản thô, nên cần phải tách từ dé chuẩn bi đữ liệu cho việc huấn
luyện mô hình PhoBERT [37] Hơn nữa, PhoBERT đã sử dụng
VnCoreNLP RDRSegmenter [13] dé tiền xử ly dữ liệu dao tạo trước
(pre-trained), nên chúng tôi cần sử dụng cùng một trình tách từ cho việc ứng
dụng PhoBERT vào các bài toán liên quan đến các văn bản đầu vào ở dang
thô Mặt khác, các mô hình khác có thé học từ dữ liệu văn ban ở cấp tiếng
(token) mà không yêu cầu tách từ, như mô hình PhoBERT Do đó, chúngtdi quyét định mã hoa dir liệu dao tao trước bang cach su dung NLTK [42]
Vi du: “cute vel tộc trưởng” > “[‘cute’, ‘vel’, “tộc trưởng”]”
De-teencode: Trong mạng xã hội, người dùng thường dành một lượng thời
gian đáng kế để trò chuyện và cũng thường sử dụng các dạng từ ngắn
(teencode) dé gõ nhanh hơn Một số được sử dụng dé đánh lừa hệ thongkhi ho chửi thé hoặc có những hành vi văng tục Do đó, dé giúp các môhình của chúng tôi hiéu rõ hơn về các câu bình luần đầu vào, chúng tôi đãthực hiện ánh xạ các dạng từ ngắn (teencode) đó thành các từ gốc của
chúng Chúng tôi đặt tên cho quá trình ánh xạ các từ teencode là De —
teencode và Bảng 3.2 cho thay một số trường hợp minh hoa của chúng
Vi du: “dc lun nhé, haha” —> “được luôn nhé, haha”
Bảng 3.2 Một số ví dụ về teencode và các nghĩa biểu diễn đúng của nó.
STT Teencode Nghia đúng
1 Imht, lol Liên minh huyền thoại
2 sv, svien, SV Sinh viên
3 bjt, pit, bik Biét
4 mk, mik, mih Minh
18