1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học dữ liệu: Nhận diện nội dung xúc phạm trên dữ liệu mạng xã hội việt nam sử dụng mô hình phobert-cnn

133 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 133
Dung lượng 84,17 MB

Nội dung

Đề tài của chúng tôi cung cấp giải pháp là một quy trình tiền xử lý dữ liệu phục vụcho mô hình có vai trò phân loại các bình luận trên các trang mạng xã hội phổ biếntại Việt Nam như Face

Trang 1

TRAN QUOC KHÁNH

NGUYEN TRONG AN

KHOA LUAN TOT NGHIEP

NHAN DIEN NOI DUNG XUC PHAM TREN DU LIEU

MANG XA HOI VIET NAM SU DUNG MO HINH

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THONG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

TRAN QUOC KHÁNH - 18520908 NGUYEN TRONG AN - 18520434

KHOA LUAN TOT NGHIEP

NHAN DIEN NOI DUNG XUC PHAM TREN DU LIEU

MANG XA HOI VIET NAM SU DUNG MO HINH

PHOBERT-CNN

HATE AND OFFENSIVE DETECTION ON VIETNAMESE SOCIAL MEDIA TEXT USING PHOBERT-CNN MODEL

CU NHÂN NGANH KHOA HOC DU LIEU

GIANG VIEN HUONG DAN

ThS NGUYEN VAN KIỆT

TS DO TRONG HOP

TP HO CHi MINH, 2022

Trang 3

THÔNG TIN HỘI ĐÒNG CHÁM KHÓA LUẬN TÓT NGHIỆP

Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định só

ngầy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

Trang 4

LỜI CẢM ƠNĐâu tiên, chúng tôi xin gửi lời cảm ơn đến thay Nguyễn Văn Kiệt và thay

Dé Trọng Hop đã đông hành cùng nhóm và tận tình hướng dẫn chúng tôi trong

suốt quá trình học tập, nghiên cứu và công bồ bài báo khoa học Bên cạnh đó,

chúng tôi cũng xin chân thành cảm ơn Hội đồng phản biện và bảo vệ khoá luận

vì những phản hồi quý giá về kiến thức và chuyên môn

Khoá luận này sẽ không thể thực hiện được nếu không có sự ung hộ cua

nhiễu cá nhân và tập thể Chúng tôi xin gửi lời cảm ơn đến Khoa Khoa học và

Kỹ thuật thông tin, Phòng thí nghiệm Xử lý Ngôn ngữ Tự nhiên UIT

(NLP@UIT) và Câu lạc bộ Xử lý Ngôn ngữ và Tiếng nói tiếng Việt (VLSP) đã

tạo điều kiện thuận lợi nhất cho chúng tôi hoàn thành khoá luận này Ngoài ra,

chúng tôi muốn gửi lời cảm ơn đến em Hoàng Gia Phú và Lưu Đức Cảnh vì đã

hỗ trợ tích cực cho khoá luận này và sẵn sàng chia sẻ những kiến thức của mình.Cũng xin cảm ơn những người bạn cùng lớp, cùng nhóm nghiên cứu của tôi đãcùng tôi cô gắng trong quá trình đài này

Nhóm chúng tôi cũng xin chân thành cảm ơn quý thay cô của Trường Đại

học Công nghệ Thông tin - ĐHQG TP HCM đã tận tâm, nhiệt huyết truyền đạt

cho chúng tôi những kiến thức hữu ích cũng như các kỹ năng can thiết dé có thé

đạt được những thành công nhất định sau này Đây là một cơ hội tuyệt vời để

chúng tôi có được nhiều kinh nghiệm trong các dự án xử lý dữ liệu thời gian thực,

các kiến thức về cách thiết kế và phân tích các dự án thực tế

Cuối cùng, sẽ thật thiếu sót khi không dé cập đến gia đình, đặc biệt là bố

mẹ của chúng tôi Chúng tôi luôn biết ơn sự quan tâm, kiên nhẫn và ủng hộ của

gia đình Niém tin của ho đã thúc đẩy tinh than và động lực cua chúng tôi Thanh

tựu này sẽ không thể thực hiện được nếu không có họ

Chúng tôi xin chân thành cảm ơn!

Nhóm tác giả

Trân Quốc Khánh

Nguyễn Trọng An

Trang 5

ĐẠI HỌC QUOC GIA TP HO CHÍMINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHỆ THÔNG TIN

DE CƯƠNG CHI TIẾT

TÊN DE TÀI: NHAN DIỆN NOI DUNG XUC PHAM TREN DU LIEU MẠNG XÃ

HOI VIET NAM SU DUNG MO HINH PHOBERT-CNN

TEN DE TAI (tiéng Anh): HATE AND OFFENSIVE DETECTION ON

VIETNAMESE SOCIAL MEDIA TEXT USING PHOBERT-CNN MODEL

Cán bộ hướng dẫn: ThS Nguyễn Văn Kiệt

TS Đỗ Trọng Hợp

Thời gian thực hiện: Từ ngày 28/01/2022 đến ngày 01/07/2022

Sinh viên thực hiện:

Trần Quốc Khánh — 18520908 Lớp: KHDL2018

Email: 18520908 @gm.uit.edu.vn Dién thoai: 0971958350

Nguyễn Trọng Ân — 18520434 Lớp: KHDL2018

Email: 18520434(@gm.uif.edu.vn Điện thoại: 0367831269

Nội dung đề tài:(Mô ta chỉ tiết mục tiêu, phạm vi, doi tượng, phương pháp thực hiện, kết

quả mong đợi của dé tai)

e Mục tiêu, phạm vi va đối tượng của đề tài

Sự phát triển của cách mạng công nghiệp 4.0 đã và đang dần thay đổi cuộc sống củacon người theo từng ngày, nhất là với sự phát triển mạnh mẽ của mạng xã hội Khi

đó, an toàn không gian mạng là một vấn đề ảnh hưởng trực tiếp tới đời sống của người

sử dụng đặc biệt là đối tượng như trẻ em hay những người dé bị tốn thương Theo các

báo cáo và nghiên cứu cho thấy, môi trường mạng xã hội chứa nhiều nội dung độc hại

như bình luận xúc phạm thù địch, tin giả, nội dung không phù hợp tiêu chuẩn cộngdong, có sự ảnh hưởng tiêu cực không hê nhỏ đên sô đông người dùng và thậm chí

Trang 6

cả người kiểm duyệt Vì vậy, đề tài của chúng tôi đề xuất một giải pháp mới ứng dụng

các kỹ thuật xử lý ngôn ngữ hiện đại nhằm giải quyết bài toán phân loại bình luận xúcphạm, thù địch trên mạng xã hội, hướng đến một mạng xã hội lành mạnh, an toàn

Các bài toán cần giải quyết có thé từ nhỏ như các bình luận đơn lẻ cho đến nhu cầu

lớn như xử lý lượng lớn dữ liệu.

Đề tài của chúng tôi cung cấp giải pháp là một quy trình tiền xử lý dữ liệu phục vụcho mô hình có vai trò phân loại các bình luận trên các trang mạng xã hội phổ biếntại Việt Nam như Facebook và Youtube một cách tự động Giải pháp dé xuất có nhiệm

vụ xác định nội dung của bình luận có mang tính độc hại, phản cảm hay không bằngcách ứng dụng các công nghệ xử lý ngôn ngữ tiên tiến

Chúng tôi sử dụng bộ dữ liệu ViHSD được xây dựng và công bố bởi Son T Luu vàđồng tác giả [1] làm bộ dữ liệu chính đề tiễn hành xây dựng mô hình từ đó xây dựngứng dụng phục vụ một số nhu cau cụ thé Ngoài ra, để chứng minh tinh đúng đắn và

sự hiệu quả của giải pháp trên miền dữ liệu bình luận mạng xã hội mà không bị bóbuộc bởi một quy trình xây dựng dữ liệu, chúng tôi ngoài ra còn đánh giá giải pháptrên bộ dit liệu HSD-VLSP được xây dựng và công bố bởi Xuan-Son Vu và đồng tácgiả [2] Cả hai bộ dữ liệu đều bao gồm các bình luận tiếng Việt được thu thập trên cáctrang mạng xã hội phô biến tại Việt Nam như Facebook và Youtube

Giải pháp của chúng tôi được xây dựng dựa trên hai kỹ thuật chính gồm: kỹ thuật tiền

xử lý dữ liệu hai giai đoạn; kỹ thuật xây dựng và tối ưu hóa mô hình kết hợp

PhoBERT-CNN để phân loại các bình luận Trong đó, quá trình tiền xử lý dữ liệu

giúp nâng cao không chỉ tính sạch của dữ liệu, mà còn tăng đáng ké khả năng trích

xuất thông tin trước khi huấn luyện mô hình Từ đó, công đoạn xây dựng và huấnluyện mô hình phân loại cũng có được kỹ năng học tốt hơn từ một bộ đữ liệu chấtlượng, góp phan cải thiện hiệu suất và tạo nên giải pháp phân loại tối ưu nhất

Không chỉ thành công trong việc xây dựng giải pháp nhận diện bình luận xúc phạm

trên mạng xã hội cho tiếng Việt dựa trên mô hình kết hợp PhoBERT- CNN, chúng tôi

từ đó còn tiễn hành xây dựng API, ứng dụng giả lập các trang báo điện tử, và streaming

dữ liệu từ trang mạng xã hội cho mục đích chứng minh khả năng phân loại, từ đó,

Trang 7

cung cấp cái nhìn trực quan về tính ứng dụng của đề tài trong thực tế.

Chính vì các lý do đó, nghiên cứu này đưa ra một giải pháp mới và mạnh mẽ nhằm

việc phân loại, bóc tách ra bình luận xúc phạm, phản cảm, từ đó đưa ra giải pháp giúp

tăng cường cho nỗ lực đưa các môi trường mạng nói chung và môi trường mạng xã

hội nói riêng trở nên an toàn.

Đóng góp chính của đề tài

Nghiên cứu của chúng tôi góp phần phát triển bài toán nhận diện nội dung xúc phạm

trên dữ liệu mạng xã hội Việt Nam Nghiên cứu của chúng tôi đề xuất một hệ thốngmới áp dụng các kỹ thuật xử lý ngôn ngữ tự nhiên tiên tiến dé phân loại các bình luận

xúc phạm, phản cảm nhăm hướng tới một không gian trực tuyến lành mạnh, an toàn

Nghiên cứu của chúng tôi có thể xử lý các vấn đề từ nhỏ như các bình luận đơn lẻ đến

việc liên tục xử lý lượng dữ liệu không lồ trong thời gian thực Những đóng góp khoahọc chính trong nghiên cứu của chúng tôi được tóm tắt như sau:

- _ Chúng tôi đã thực hiện các kỹ thuật tiền xử lý dữ liệu chặt chẽ và hiệu quả dé làm

sạch các bình luận thu thập được từ các trang mạng xã hội Các kỹ thuật tiền xử

lý hiệu quả mà chúng tôi đề xuất sẽ nâng cao chất lượng dữ liệu và cải thiện đáng

kể việc trích xuất thông tin trước khi dao tạo mô hình

- Một mô hình mới được dé xuất đề cải thiện hiệu suất của bài toán nhận diện nội

dung xúc phạm, phản cảm ở Việt Nam Đề đạt được mục tiêu này, các thử nghiệmkhác nhau đã được tiến hành với ba phương pháp tiếp cận hiện đại: phương pháp

học sâu, phương pháp học chuyền tiếp và phương pháp tiếp cận kết hợp So với

mô hình PhoBERT-CNN được đề xuất của chúng tôi, các phương pháp tiếp cậnhiện đại này hỗ trợ trong việc phát triển các mô hình cơ sở Kết quả là, mô hìnhPhoBERT-CNN vượt trội hơn các mô hình cơ sở va chúng tôi hiểu rõ mức độ hiệu

quả của các giải pháp hiện có tại Việt Nam.

- Dé chứng minh tính hữu ích của hệ thống được đề xuất, chúng tôi đã xây dựng

một ứng dụng giả lập trang báo điện tử và ứng dụng có khả năng xử lý liên tục từnguồn dit liệu không 16 của các nền tảng truyền thông xã hội dé phát hiện các bình

luận mang tính xúc phạm, phản cảm.

Trang 8

e_ Các van đề còn tồn đọng

- _ Về kỹ thuật tiền xử lý dữ liệu:

+ Các kỹ thuật tiền xử lý dữ liệu luôn đóng vai trò như một mắt xích quan trọng

khi thực hiện các dự án máy học nói chung và cho các bài toán phân loại dữ liệu

từ mạng xã hội Việt Nam nói riêng Khang Phuoc-Quy Nguyen và đồng tác giả

(2020) [3] đã chứng minh tầm quan trọng của quá trình tiền xử lý trên các bộ dữ

liệu được thu thập từ mạng xã hội tiếng Việt và kết luận quá trình này có ảnh

hưởng trực tiếp đến quá trình trích xuất thông tin từ dữ liệu Các bình luận tiếng

Việt trên mạng xã hội thường có xu hướng chứa các ký tự, các từ mang sắc cácthái cảm xúc được trình bày một cách đa dạng gây khó khăn cho việc phân biệt,nhận diện và trích xuất thông tin Công trình nghiên cứu của Khang Phuoc-QuyNguyen và dong tác gia (2020) [3] cũng đã thành công khi áp dụng tiền xử đữ liệuban đầu dé cải thiện kết quả thêm 4,66% so với công trình trước đó trên cùng bộ

dữ liệu và độ đo đánh giá.

+ Tuy nhiên, các nghiên cứu được công bồ ở hiện tại dựa trên cả hai bộ dit liệu làViHSD [1] và HSD-VLSP [2] đều chưa áp dung các kỹ thuật tiền xử lý đữ liệuhiện đại và hiệu quả để cải thiện hiệu suất phân loại của các mô hình Nội dungcủa các bình luận chỉ được xử lý loại bỏ các thông tin nhạy cảm cá nhân như địachỉ email, số điện thoại, khiến đây cũng chính là những khuyết điểm của cáccông trình này mà chúng tôi cần lưu ý và cải thiện trong giải pháp của chúng tôi

- _ Về việc đề xuất giải pháp dựa trên mô hình kết hop: Mô hình kết hợp BERT

[4] va CNN [5] gan đây da được sử dung rộng rãi dé phan loai van ban ngan được

thu thập từ các mạng xã hội, đặc biệt là dé phan loai cac binh luan xtic pham, phan

cam va đạt được kết qua đầy hứa hẹn Trong dé tài này, các mô hình kết hợpBERT [4] và CNN [5] biến thể được triển khai để đánh giá hiệu quả của các môhình kết hợp trong việc phân loại các bình luận căm thu và xúc phạm đối với người

Việt Nam Hơn nữa, việc so sánh các mô hình BERT-CNN [6], ROBERTa-CNN

[7] và XLMR-CNN [8] với mô hình PhoBERT-CNN được đề xuất của chúng tôicung cap cái nhìn sâu sắc vé tác dụng của các mô hình ngôn ngữ được đào tạo

Trang 9

trước đơn ngữ và đa ngôn ngữ đôi với bài toán này.

- _ Về việc phát triển mô hình vào ứng dung thực tế:

+ Nhu cầu được đặt ra là cần có một giải pháp ứng dụng trong việc xử lý những

bình luận xúc phạm, phản cảm trên môi trường dữ liệu lớn như mạng xã hội Việc

này giúp mạng xã hội tại Việt Nam có khả năng nhận diện được bình luận phảncảm tốt hơn, giảm thiểu được khối lượng công việc của người kiểm duyệt Ngoài

ra nhu cầu của các đơn vị thông tin truyền thông cũng cần công cụ tự động kiểmduyệt, giúp họ có thê sát sao hơn những bình luận cho phép được hién thị

+ Đáp ứng những nhu cầu nay, chúng tôi xây dựng hai ứng dụng dé phân tích bìnhluận gồm: ứng dụng có khả năng thu thập liên tục nội dung từ các trang mạng xã

hội dé phân tích sắc thái bình luận, và một ứng dụng gia lập một trang báo điện tử

có nhu cầu xử lý sát sao hơn từng bình luận Những ứng dụng này sẽ thông qua

một API dé gửi yêu cầu xử lý bình luận đến giải pháp dé phân loại

e Phuong pháp thực hiện

Mô hình PhoBERT-CNN

Dữ liệu HSD

Hình 1 Tổng quan quy trình giải pháp của chúng tôi

Quy trình xây dựng giải pháp phân loại bình luận trên mạng xã hội của chúng tôi được

thực thiện như Hình 1 Quy trình bao gồm các bước được thực hiện theo thứ tự nhưsau: hai bộ dữ liệu ViHSD [1] và HSD-VLSP [2] sẽ được tiền xử lý dữ liệu theo haitrước khi đưa vào mô hình huấn luyện PhoBERT-CNN Mô hình sau khi huấn luyện

có thé dự đoán các bình luận mới phục vụ phần mềm ứng dụng

Định nghĩa bài toán:

Trong phần này, chúng tôi tóm tắt nhiệm vụ phát hiện, phân bình luận tiêu cực, xúc

phạm tiếng Việt Nhiệm vụ này nhằm mục đích xác định xem nội dung của một bình

luận trên mạng xã hội là thù địch, xúc phạm, hay trong sạch Về mặt hình thức, nhiệm

vụ được mô tả như sau:

- Input: Các bình luận bằng tiếng Việt trên trang mạng xã hội

- Output: Một trong ba nhãn sau:

Trang 10

+ Nhãn CLEAN (Nhãn 0): Là một bình luận thông thường như trò chuyện, thé

hiện cảm xúc một cach bình thường, không chứa ngôn ngữ độc hai, xúc phạm hay

căm thù nhắm tới một ai đó

+ Nhãn OFFENSIVE (Nhãn 1): là nhãn chứa bình luận có nội dung quấy rối,thậm chí cả những từ tục tiu nhưng không tan công bat kỳ đối tượng cụ thé nào.+ Nhãn HA TE (Nhãn 2): là các bình luận có sự quấy rỗi, lạm dụng, có chứa nộidung trực tiếp nhắm vào một cá nhân, nhóm hoặc tổ chức dựa trên đặc điểm nhưtôn giáo, quốc tịch

Tiền xứ lý dữ liệu:

Chúng tôi sử dụng hai bộ dữ liệu là ViHSD [1] và HSD- VLSP [2] với số lượng bình

luận cho mỗi bộ lần lượt là 33.400 và 25.431 Cả hai bộ dữ liệu đều sử dụng cho việcthực nghiệm, tối ưu và đánh giá hiệu suất mô hình kết hợp PhoBERT-CNN mà chúngtôi đề xuất Vì được thu thập trên các trang mạng xã hội nên hai bộ dữ liệu trên đều

chứa các bình luận có độ phức tạp và đa dạng cao Cụ thé, nội dung của bình luận

xuất hiện nhiều câu, chữ không đồng nhất chuẩn unicode, xuất hiện các từ của giớitrẻ (teencode), các từ viết tắt và từ có ký tự lặp Chính vì vậy, chúng tôi tiến hành xâydựng quy trình tiền xử ly đữ liệu với mục dich mang lại bộ dữ liệu chất lượng và sẵn

sàng để sử dụng cho việc huấn luyện mô hình phân loại Quy trình tiền xử lý dữ liệu

theo hai giai đoạn được mô tả như Hình 2 bên dưới.

Chúng tôi tiến hành thực hiện các bước tiền xử lý dữ liệu bằng cách chia thành hai

giai đoạn chính như sau:

Ý Giai đoạn 1 Giai đoạn 2

Chuẩn hoá Chuẩn hoá

từ viết thường kiểu gõ dấu Tach từ

”> Xoá khoảng Xoá các ký tự —

ting = aoa

Xo liên kết › Chuẩn hoá

URLs Unicode Xoa Stopwords

Hình 2 Quy trình tiền xử ly dữ liệu hai giai đoạn

- Giai đoạn một: sử dung các kỹ thuật Regular Expression của Python dé tiền xử

lý trên toàn bộ câu bình luận như: chuẩn hóa viết thường, xóa ký tự hoặc khoảng

Trang 11

trăng dư thừa, xóa các liên kết, chuân hóa các từ có dâu va chuân hóa unicode.

- Giai đoạn hai: thực hiện nhiệm vụ xử lý chi tiết các từ có trong một câu bình luận

như: tách từ, chuẩn hóa teencode và xóa các từ đừng (stopwords)

Việc áp dụng các kỹ thuật xử lý dữ liệu theo hai giai đoạn giúp xây dựng được mộtquy trình có tính hệ thống và chặt chẽ khi tiến hành tiền xử lý trên hai bộ dữ liệu

đều có kích thước lớn như ViHSD [1] và HSD-VLSP [2] Với quy trình tiền xử lý

này, thông tin trích xuất được thực hiện một cách dễ dàng, tiết kiệm được nhiều chi

phí, tài nguyên và hiệu quả hơn.

Phương pháp giải quyết bài toán:

Trong đề tài này, một mô hình nhận diện bình luận xúc phạm, phản cảm (Hate SpeechDetection) mới được đề xuất đề cải thiện hiệu suất của nhiệm vụ phát hiện lời nói xúcphạm, phản cảm ở Việt Nam Đề đạt được mục tiêu này, các thử nghiệm khác nhau đãđược tiến hành với ba phương pháp tiếp cận hiện đại: phương pháp học sâu, phương

pháp học chuyền tiếp và phương pháp tiếp cận kết hợp So với mô hình

PhoBERT-CNN được đề xuất của chúng tôi, các phương pháp tiếp cận hiện đại này hỗ trợ trong

việc phát triên các mô hình cơ sở.

Pretrained PhoBERT,„„,

Output

© đơn giản villll :D :D Input presentation Transformer Block Transformer Block

roi TIEN XU LY DU LIEU 2 PHA Contextiualized word embedding

kk k có chuyện gi nói thi call nhau rồi nhìn nhau thé là vuiiiii kaka nói call nhìn vui 3Z5Z đơn giản vãi l*n :D :D

(12435) Feature Max Fully connected

3 reach maps pooling layer and softmax

re

Hình 3 Kiến trúc giải pháp dựa trên mô hình kết hop PhoBERT-CNN

Chúng tôi thực hiện việc kết hợp hai mô hình PhoBERT [9] và Text-CNN [5] bằngcách sử dụng PhoBERT [9] với vai trò như một lớp embedding dé vector hóa hai bộ

Trang 12

dữ liệu ViHSD [1] và HSD-VLSP [2] đã qua tiền xử lý Từ đó, một ma trận các bình

luận đã được ánh xạ thành các vector sẽ trở thành đầu vào vào cho mô hình Text-CNN

dé huấn luyện và phân loại

Cả 2 mô hình đơn là PhoBERT [9] và Text-CNN [5] mà chúng tôi sử dụng đều là các

mô hình cho hiệu suất vượt trội so với các mô hình cùng loại cho nhiệm vụ phân loạivăn bản tiếng Việt và đặc biệt là trên bộ dữ liệu ViHSD [1] và HSD-VLSP [2] Việckết hợp các mô hình trên sẽ giúp cải thiện đáng kể hiệu suất phân loại các bình luận

nhờ vào cơ chế cộng hưởng của hai mô hình đơn, góp phần làm giảm sự chênh lệchgiữa trung bình sự khác biệt của nhãn dự đoán và nhãn thực tế

Úng dụng tương tác với mô hình:

Nhu cầu được đặt ra là cần có một giải pháp nâng cao trong việc xử lý những bìnhluận xúc phạm, thù địch trong môi trường dữ liệu lớn như mạng xã hội Việc này giúpmạng xã hội tại Việt Nam có khả năng phân loại được bình luận phản cảm tốt hơn,giảm thiểu được khối lượng công việc của người kiêm duyệt Ngoài ra nhu cầu của

các đơn vị thông tin truyền thông cũng cần công cụ tự động kiểm duyệt, giúp họ có

thé sát sao hơn những bình luận cho phép được hiền thị

Đáp ứng những nhu cầu này, chúng tôi xây dựng hai luồng ứng dụng dé phân tích

bình luận gồm: ứng dụng có khả năng thu thập liên tục nội dung từ các trang mạng xãhội dé phân tích sắc thái bình luận, và một ứng dụng giả lập một trang báo điện tử cónhu cầu xử lý sát sao hơn từng bình luận Mỗi ứng dụng này sẽ thông qua một API dé

gửi yêu cầu xử lý bình luận đến giải pháp để phân loại

Trang 13

- Ung dụng xử lý dữ liệu lớn bình luận từ mang xã hội theo thời gian thực: Sau khi

thực hiện các khảo sát và thực nghiệm về xử lý dữ liệu streaming, chúng tôi đãxây dựng thành công hệ thống có khả năng xử lý được lượng lớn dữ liệu theo thờigian thực từ nền tảng mạng xã hội mà cụ thể ở đây là các bình luận của Youtube

DataFrames\ \\ Soar’ ,uery with SQLInteractively

Hình 4 Quy trình ứng dụng xử ly dữ liệu lớn bình luận từ Youtube

theo thời gian thực.

- Ung dụng giả lập trang báo điện tứ: Ung dụng báo điện tử được giả lập một tình

huống là trang báo tên “NEWSPAPER” với phần bình luận mở cho người đọc andanh có thé bình luận vào một bài báo đưa tin về Covid-19 của họ Hình sau mô

tả về quy trình của ứng dụng

Front-end Back-end

a nae ` Bình luậ

Ứng dụng báo điện tử mein tên xir ly do liệu hai bước

Request Binh luận.

Hình 5 Quy trình ứng dụng giả lập trang báo điện tử.

e Kết quả mong đợi của đề tài

Nghiên cứu của chúng tôi góp phần tạo dựng một công trình trong công cuộc phân

tích và xử lý ngôn ngữ tự nhiên cho tiếng Việt Với đề xuất giải pháp hai thành phần

gom tiền xử ly dữ liệu hai giai đoạn và mô hình kết hợp trên một hướng tiếp cận mớicũng là một đóng góp tư liệu cho hướng nghiên cứu ứng dụng các mô hình học máytruyền thống, học sâu, học chuyền tiếp và mô hình kết hợp và quy trình tiền xử lý dữliệu đặc thù trong hướng nghiên cứu bình luận trên mạng xã hội tại Việt Nam.

Từ việc nghiên cứu mô hình, kết quả nghiên cứu của chúng tôi có thể ứng dụng vào

việc phân loại liên tục và hàng loạt bình luận trực tiếp từ các trang mạng xã hội tại

Trang 14

Việt Nam Không những vậy, giải pháp từ mô hình còn có thê ứng dụng vào các cơquan, tổ chức có nhu cầu tương tự tại các trang thông tin truyền thông của mình Từ

đó, giải pháp giúp nâng cao sự kiểm duyệt toàn diện bình luận xúc phạm, thù địch

trên không gian mạng tại Việt Nam.

Tư liệu tham khảo

[1] Luu, Son T and Van Nguyen, Kiet and Nguyen, Ngan Luu-Thuy, "A Large-scale

Dataset for Hate Speech Detection on Vietnamese Social Media Texts," arXiv preprint arXiv:2103.11528, 2021.

[2] Vu, Xuan-Son and Vu, Thanh and Tran, Mai-Vu and Le-Cong, Thanh and Nguyen,

Huyen, "HSD shared task in VLSP campaign 2019: Hate speech detection for social good," arXiv preprint arXiv:2007.06493, 2020.

[3] Nguyen, Khang Phuoc-Quy and Van Nguyen, Kiet, "Exploiting Vietnamese Social

Media Characteristics for Textual Emotion Recognition in Vietnamese," in 2020 International Conference on Asian Language Processing (IALP), 2020, pp 276 281.

[4] Devlin, Jacob and Chang, Ming-Wei and Lee, Kenton and Toutanova, Kristina, "Bert:

[6] Safaya, Ali and Abdullatif, Moutasem and Yuret, Deniz, "Kuisail at semeval-2020

task 12: Bert-cnn for offensive speech identification in social media," in Proceedings

of the Fourteenth Workshop on Semantic Evaluation, 2020, pp 2054 2059.

[7] Liu, Yuanxia and Liu, Hai and Wong, Leung-Pun and Lee, Lap-Kei and Zhang, Haijun

and Hao, Tianyong, "A Hybrid Neural Network RBERT-C Based on Pre-trained RoBERTa and CNN for User Intent Classification," in International Conference on Neural Computing for Advanced Applications, 2020, pp 306 319.

Trang 15

[8] Saha, Debjoy and Paharia, Naman and Chakraborty, Debajit and Saha, Punyajoy and

Mukherjee, Animesh, "Hate-Alert@ DravidianLangTech-EACL2021: Ensembling strategies for Transformer-based Offensive language Detection," arXiv preprint arXiv:2102.10084, 2021.

[9] Nguyen, Dat Quoc and Nguyen, Anh Tuan, "PhoBERT: Pre-trained language models

for Vietnamese," arXiv preprint arXiv:2003.00744, 2020.

Kế hoạch thực hién:(M6 ta kế hoạch làm việc và phân công công việc cho từng sinh viên

và khảo sát dé tàiNghiên cứu phươngpháp và triển khaiĐánh giá hiệu suât

mô hình và cải thiện Xây dựng các ứng

Nghiên cứu phương pháp và hướng tiếp cận

giải quyết bài toán

Trang 16

Triên khai mô hình thực nghiệm x x

Đánh giá và phân tích kết qua x x

Xây dựng các ứng dung demo x x

Viết báo cáo và báo cáo x x

TP HCM, ngay 26 thang 01 nam 2022

Xác nhận của CBHD Sinh viên

(Ký tên và ghi rõ họ tên) (Ký tên và ghi rõ họ tên)

Nguyễn Văn Kiệt Trần Quốc Khánh

Đỗ Trọng Hợp Nguyễn Trọng Ân

Trang 17

MỤC LỤC

Chương 1 TONG QUAN c2 22s 5sSseSssSssESsEEseEseEseEsevssexserserserssrsssse 8

1.1 Giới thiệu khoá luận 2< s°s<s£sseEsssseEssesseEsserseesserssersere 8 1.2 Tính ứng dụng của khoá IAN s- << s6 S95 %5 9599459496556 95949% 9

Chương 2 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN 11

2.1 Công trình nghiên cứu về tiền xử lý dữ liệu ° s2 -s-ssses 112.2 Công trình nghiên cứu về các mô hình giải quyết bài toán nhận diện nội

dung phản cảm tiếng ViỆK 5- 5< 5< s2 SsSsEEseEseEssEssesserserserssrsssssesse 11

2.3 Công trình nghiên cứu về phát triển ứng dụng cho bài toán nhận diện

bình luận phan cảm tiếng Viet -.- 5-5-5 se se ssEssersersersssssrsssssee 13

Chương 3 PHƯƠNG PHÁP DE XUẤTT - se sessvssexseessesseevsee 15

3.1 Tổng quan về phương pháp đề xuất .s s-s- se ssssessessessecsee 15

3.2 Phương pháp tiền xử lý dit liệu - -s-s<sssscssesssessessessessesses 15

3.2.1 Giai Moan Í d 70-5 5S 9 9 9 TH 00.00.0000 0096006 16

3.2.2 Giai MOAN 2 G5 cọ TH TH 0000600060 100184 18

3.3 Xử lý dữ liệu mắt cân bằng s2 se se ssssessessersersssssesssssee 19

3.4 Mô hình đề xuất cho bài toán nhận diện nội dung xúc phạm trên tiếng

Việt: PhoBERTT-CNN o- << cọ HH HH HH HH HH 000000000050 21

Chương 4 CÀI ĐẶT, THU NGHIỆM VÀ ĐÁNH GIA -«- 26

4.1 Quy trình thir nghiém d 0 G5 G S2 %9 9996 9.9.0 006096996906 8.0 26

4.2 Cac mô hình cơ sở (Baseline Models) -<s sec o5 55s sSSS9555SSsss5 27

4.2.1 Mô hình học máy (Machine Learning)) -s-<s<<s<se<sesses 27 4.2.2 Mô hình học sâu (Deep earniÏT) - << 5< sssssss s5 se 304.2.3 Mô hình học chuyển tiếp (Transfer Learning) -.s«ss «se 354.2.4 Mô hình kết hop (Combined Learning) -ssssssesses<2 38

4.3 Độ đo đánh giá hiệu suất các mô hình nhận diện nội dung xúc phạm 39

4.4 Bộ dữ liệu cho nhận diện nội dung xúc phạm trên tiếng Việt 394.5 Cài đặt thử ng hÏỆ¡m o- 5- < = << SH SH HH 08408408080 50 41

4.5.1 Mô hình học may (Machine LearnÏng) s=<<s«<se<ss< sesse 41

Trang 18

4.5.2 Mô hình học sâu (Deep Learning) os- << s55 s5 92s 5 96599656 424.5.3 Mô hình học chuyển tiếp (Transfer Learning) .s-.s s- 424.5.4 Mô hình kết hop (Combined Learning) -ssssssssesss 424.5.5 Mô hình đề xuất: PhoBERT-CNN -cs°-cesscvesserrxee 434.6 Phân tích và thảo luận về kết quả thử nghiệm - 25s 43

4.6.1 Xác minh hiệu suất của mô hình đề xuất: PhoBERT-CNN 43

4.6.2 Phân tích lỗi và thảo luận - <5 5 sssessssssessessessesssse 44

4.6.3 Phân tích kết quả tăng cường dữ liệu . -s-sccssssessesse 46

4.6.4 So sánh kết quả với các công trình nghiên cứu trước - 47

4.6.5 Phân tích cắt bỏ (Ablation ANALYSIS) Go 0 Y6 50 50

Chương 5 XÂY DỰNG ỨNG DỤNG HỖ TRỢ PHÁT HIỆN BÌNH LUẬN

XUC PHAM TIENG VIET -e << s°s£©+ssSssSEsseEsserssersseerssorsserse 52

5.1 Môi trường thực hién - G5 6 5 52 5 99 99.999 9905099869885698386948856 52 5.2 Xây dung ứng dụng tương tác với mô hình -s«- «s5 ssss sses« 52

5.2.1 Xây dung ứng dụng xử lý dữ liệu bình luận theo thời gian thực 52

5.2.2 Xây dựng ứng dung gia lập trang báo điện tử «- << << 55

5.3 Kết quả xây dung ứng dụng tương tác với mô hình - 59

5.3.1 Ứng dụng xử lý dữ liệu lớn theo thời gian thực . -<- 59

5.3.2 Ứng dụng giả lập trang báo điện tử: -s-secsscsscssessesse 61

Chương 6 KET LUẬN VÀ HUONG PHAT TRIEN -5 <¿ 63

6.1 Ket WAM 8 ) ).)) ) 63

6.2 Han 0u "3 63

6.3 Hướng phat triỄn s- << 5£ 5£ << Es£ se sEEsESEseEseEsessessesersersee 64

DANH MỤC CÔNG TRÌNH TÁC GIẢ 2-2-2 css©sseessesseessess 65

TÀI LIEU THAM KHAO -° 22+£°£E©EEEEV2dd£et2222vvvzrssee 66

Trang 19

DANH MỤC HÌNH

Hình 1.1 Một SỐ VÍ dụ cho bài toán nhận diện nội dung xúc phạm tiếng Việt 9

Hình 1.2 Thực trạng nhức nhói của ngôn ngữ xúc phạm trên mạng xã hội 10

Hình 3.1 Giải pháp đề xuất của chúng tôi cho bài toán HSD tiếng Việt l5 Hình 3.2 Tong quan về quy trình tiền xử lý dữ liệu . .: -+-5:-: l6 Hình 3.3 Phân phối nhãn trên hai bộ dữ liệu ViHSD và HSD-VLSP trước và sau khi tăng cường dữ lIỆU - - G5 1 191k 9 HH HH HH Hà 21 Hình 3.4 Tổng quan về giải pháp đề xuất sử dụng mô hình PhoBERT-CNN 22

Hình 3.5 Quá trình biéu diễn dữ liệu đầu vào của mô hình PhoBERT 23

Hình 4.1 Tông quan về quy trình tiến hành thử nghiệm của chúng tôi 26

Hình 4.2 Các mặt phân chia của SVM trong bài toán phân loại nhị phân 29

Hình 4.3 Tổng quan về nguyên lý hoạt động của mô hình Random Forest 30

Hình 4.4 RNN tiêu chuẩn và dạng khai trién của nó -¿©cz©5+5c5++: 30 Hình 4.5 Kiến trúc mô hình LSTM được đề xuất bởi Sepp Hochreiter và Jiirgen k8 3010117201777 31

Hình 4.6 Kiến trúc mô hình Bi-LSTM được đề xuất bởi M Schuster và K.K Paliwal E h.: mñ6.ẻẳềỶề.ồ.ẻốẺ éếẽố Ááe 31

Hình 4.7 Kiến trúc mô hình Text-CNN được đề xuất bởi Yoon Kim [56] 33

Hình 4.8 Phân phối độ dài bình luận trong hai bộ dữ liệu - -<<: 40 Hình 4.9 Ma trận nhằm lẫn của mô hình PhoBERT-CNN do chúng tôi đề xuất 45

Hình 5.1 Tông quan về hệ thống nhận diện nội dung xúc phạm tiếng Việt theo thời [r0 1 53

Hình 5.2 Quy trình ứng dụng xử ly dữ liệu lớn từ Youtube theo thời gian thuc 55

Hình 5.3 Quy trình xây dựng ứng dung giả lập trang báo điện tử - 55

Hình 5.4 Giao diện của ứng dụng giả lập trang báo điện tử ‹ 56

Hình 5.5 Xây dựng lớp dữ liệu chuẩn tương thích với đầu vào của API 57

Hình 5.6 Khởi động mô hình dự đoán tai trạng thái kích hoạt của API 57

Hình 5.7 Một đoạn lệnh request ví dụ dé gửi dữ liệu OT 58 Hình 5.8 Trạng thái hoạt động nhận request thành công của API - 58

Trang 20

Hình 5.9 Giao diện của ứng dụng HSD với dữ liệu trực tuyến — 60

Hình 5.10 Hai requests va responds tương ứng hai trường hợp chạy thử nghiệm 61

Hình 5.11 Giao diện ứng dụng hién thị với respond mang nhãn “CLEAN” 61Hình 5.12 Giao diện ứng dụng hiền thị với nhãn “HATE/OFFENSIVE” 62Hình 5.13 Giao diện hỗ trợ chức năng "AN/ HIỆN" bình luận . 5- 62

Trang 21

DANH MỤC BANGBảng 3 1 Thống kê thay đổi sau khi thực hiện các kỹ thuật tiền xử lý dữ liệu Giaiđoạn 1 trên hai bộ dữ liệu VIHSD và HSD-VLSP - 525cc cccc2scceseces 17

Bang 3 2 Một số ví dụ về teencode và các nghĩa biểu diễn đúng của nó 18

Bảng 3 3 Thống kê thay đổi sau khi thực hiện các kỹ thuật tiền xử lý dữ liệu Giai

đoạn 2 trên hai bộ dữ liệu ViHSD và HSD-VL,SP -2¿- + 5z+cxcczscrsce 19

Bang 3 4 Thống kê tông quan trên bộ dữ liệu ViHSD và HSD-VLSP trước và saukhi 0r sấu) 00ï15000ì0119: 01 4 Ỏ 20Bang 4.1 So sánh mô hình BERT và các biến thé cái tiến của nó - 37

Bang 4.2 Thống kê tổng quan về hai bộ dữ liệu ViHSD và HSD-VLSP 40

Bảng 4.3 Kết quả đánh giá của các mô hình trên hai bộ dữ liệu nhận diện nội dung

Xtic pham tiéng Vist NA 44

Bang 4.4 Một số vi du về các lỗi phân loại trên các bộ dữ liệu đã cho 45

Bảng 4.5 Kết quả so sánh kết quả sử dụng kỹ thuật tăng cường dữ liệu “W” và

“W/o” lần lượt biéu thị rằng kết quả có và không có tăng cường dữ liệu 47

Bang 4.6 Kết qua so sánh các kỹ thuật tiền xử lý trên bộ dữ liệu ViHSD và

HSD-VLSP "LT," "HT" và "OT" lần lượt đề cập đến nghiên cứu của Luu và các cộng sự

[8], Huynh và các cộng sự [21] và các kỹ thuật tiền xử ly được chúng tôi đề xuất 48

Bảng 4.7 Kết quả so sánh hiệu suất mô hình so với các nghiên cứu trước đó trên bộ

Att LGU /4s8190 11151 49

Bảng 4.8 Kết quả so sánh hiệu suất mô hình so với các nghiên cứu trước đó trên bộ

dữ liệu HSD-VLSP (*) biéu thị rằng kết quả được đánh giá trên bộ kiểm thử (test

set) của VLSP 2019 shared-task Những kết quả khác sử dụng 5-Fold

Cross Validation để đánh giá mô hình -2- 2-22 £+££+E£+EE+EE+EEzEzEzrxerxees 49

Bang 4.9 Thử nghiệm cắt bỏ trên phương pháp tiếp cận được chúng tôi đề xuất

“OP”, “DA”, “PB” và “TC” lần lượt biểu thị việc sử dụng tiền xử lý được chúng tôi

đề xuất, các kỹ thuật tăng dữ liệu, mô hình PhoBER Ti: và mô hình Text-CNN 50

Trang 22

DANH MỤC TỪ VIET TAT

Trang 23

TÓM TẮT KHÓA LUẬN

Sự phát triển của cách mạng công nghiệp 4.0 đã va đang dan thay đổi cuộc

sống của con người theo từng ngày, nhất là với sự phát triển mạnh mẽ của mạng xã

hội Khi đó, an toàn không gian mạng là một vấn đề ảnh hưởng trực tiếp tới đời sống

của người sử dụng đặc biệt là đối tượng như trẻ em hay những người dễ bị tổn thương.

Theo các báo cáo và nghiên cứu cho thấy, môi trường mạng xã hội chứa nhiều nội

dung độc hại như bình luận xúc phạm thù địch, tin giả, nội dung không phù hợp tiêu

chuẩn cộng đồng có sự ảnh hưởng tiêu cực không hề nhỏ đến số đông người dùng

và thậm chí cả người kiểm duyệt Vì vậy, khoá luận của chúng tôi đề xuất một giải

pháp mới ứng dụng các kỹ thuật xử lý ngôn ngữ tiên tiễn nhằm giải quyết bài toánphân loại bình luận xúc phạm, thù địch trên mạng xã hội, hướng đến một mạng xã

hội lành mạnh, an toàn Các bài toán cần giải quyết có thê từ nhỏ như các bình luận

đơn lẻ cho đến nhu cầu lớn như xử lý khối lượng lớn dit liệu liên tục

Cụ thể, giải pháp chúng tôi đề xuất gồm hai đóng góp chính: đề xuất phương

pháp mới và hiệu quả để giải quyết bài toán phát hiện ngôn ngữ xúc phạm tiếng Việt

dựa trên mô hình PhoBERT-CNN; xây dựng các ứng dụng phân loại trực tiếp, liên

tục nội dung từ kho dữ liệu lớn của Youtube và ứng dụng giả lập trang báo điện tử dé

phân loại bình luận xúc phạm dé chứng minh tính ứng dung của khoá luận Bên cạnh

đó, chúng tôi cũng có những đóng góp bồ sung liên quan đến bài toán, chăng hạn như

việc triển khai các kỹ thuật tiền xử lý dữ liệu và tăng cường dữ liệu phủ hợp, giúp cảithiện đáng ké hiệu suất của mô hình

Khoá luận có ý nghĩa quan trọng về mặt khoa học khi không chỉ đề xuất các

kỹ thuật tiền xử lý dữ liệu cần thiết cho miền dữ liệu bình luận tiếng Việt mà còn xây

dựng thành công một mô hình phân loại bình luận có độ chính xác Fl-score và

Accuracy lần lượt là 67,46% và 87,76% Từ đó, hệ thống mang lại ý nghĩa về mặt xã

hội khi có tiềm năng ứng dụng rộng rãi vào van dé văn hóa ứng xử trên mạng phục

vụ cho các nhu câu của cơ quan, tô chức đa ngành, đa mục đích.

Trang 24

MỞ ĐẦU

Đặt vấn đề:

Cùng với sự phát triển bùng nỗ của cuộc cách mạng công nghiệp lần thứ tư,các trang mạng xã hội, trang thông tin điện tử đã và đang ảnh hưởng theo nhiều chiềuhướng đến nhiều mặt của đời sống xã hội và kinh tế Nhiều chuyên gia truyền thông

đánh giá rằng sự tấn công, bắt nạt qua mạng hay thông tin giả trên mạng xã hội

đang nhanh chóng lan rộng, thậm chí dần mắt kiểm soát Không chi tại Việt Nam, bat

cứ quốc gia nảo trên thế giới cũng đều đang đối diện với những vấn đề tiêu cực này

Thực trạng trên thu hút sự quan tâm, đầu tư của nhiều cơ quan, tổ chức trongviệc kiểm duyệt nội dung bình luận chống phá, thù địch nhằm mục đích đảm bảo an

toàn cũng như xây dựng môi trường văn hóa mạng lành mạnh Điều này bởi lẽ những

lý do cốt lõi sau: Đầu tiên, những thông tin quan trọng, đặc biệt là các thông tin từcác cơ quan Chính Phủ được đông đảo quan chúng quan tâm theo dõi; Hai là, nhữngthông tin được khai thác từ Internet rất dễ được tái truyền thông bằng các phươngthức truyền miệng, chuyên tiếp dưới dạng số hay in ấn van bản, và khiến chúng rat

dễ lan rộng trong xã hội; Ba là, những thông tin gây tranh cãi này thuộc một môi

trường số mở cho toàn cau, rất dé truy cập và thu hút sự theo dõi Chính vì vậy, chủ

thê thông tin trên các trang mạng xã hội rất tự do nhưng cũng rất dễ bị gây nhiễu củacác bình luận luận điệu, chống phá, gây han có quy mô tác động nhanh, rộng lênnhiều đối tượng thông tin và ảnh hưởng đáng kê đến bộ mặt và giá trị cốt lõi thực sự

của các cơ quan, tô chức và Chính Phủ

Ngoài ra, theo khảo sát của Microsoft [1], cứ 100 người dùng là thanh thiếuniên hoặc trưởng thành tại Việt Nam thì lên tới 70 người tham gia cho biết trong vòngmột tháng gần đây họ đã gặp phải một trong 21 hành xử không đúng mực; 97 người

thừa nhận ho đã bị tổn thương từ những hành xử đó và 83 người lo lắng rằng họ sẽ

gap phải những hành vi tương tự một lần nữa Đó là một trong những lý do khiến

Việt Nam được khảo sát trên xếp hạng thuộc các quốc gia có chỉ số văn minh không

gian mạng thấp nhất trong số 25 quốc gia được khảo sát về 21 vấn đề rủi ro gây nên

từ các hanh xử không đúng mực Day là một hôi chuông cảnh báo về mặt trái của các

Trang 25

nền tảng mạng xã hội tại Việt Nam đã và đang bị các thành phần có hành vi xấu trụclợi từ “mảnh đất màu mỡ” này dé kích động các quan điểm thù địch, xúc phạm màkhông màng tới hậu quả Vì vậy, nhu cầu của người dùng lên các trang mạng xã hội,trang thông tin điện tử về các cơ chế, chính sách khuyên khích các hành động văn

minh trên mạng và sẽ có những hình phạt thích đáng cho các hành vi sai phạm ngày

càng tăng cao Đặc biệt là các nền tảng có số lượng lớn thành viên là trẻ em, hay

người dễ bị ảnh hưởng bởi lời nói tiêu cực lại cần có sự can thiệp sâu sắc.

Không những vậy, gần đây cơ quan, t6 chức còn có nhu cầu đánh giá hành vi

của các cá nhân thuộc cơ quan, tổ chức Từ đó cơ quan, tổ chức xác định các cá thé

có tư tưởng lệch lạc, chưa đạt các chuẩn mực đạo đức về hành vi, ứng xử trên cáctrang mạng xã hội Các đơn vị giáo dục như Trung học cơ sở, Trung học phô thônghay một SỐ trường Đại học cũng theo dõi học sinh, sinh viên của mình từ đó đánh giáhạnh kiểm, đạo đức

Nhận thấy được tính quan trọng của vấn đề, Bộ Thông tin và Truyền thông

vào tháng 6 năm 2021 vừa qua đã ban hành Quyết định về Bộ quy tắc ứng xử trên

mạng xã hội Nội dung quyết định nhằm xây dựng mạng xã hội lành mạnh tại Việt

Nam, đảm bảo các quyền về tự do cá nhân, quyền tự do kinh doanh, tôn trong các nhà

cung cấp dịch vụ trong và ngoài nước, phủ hợp với thông lệ, chuẩn mực quốc tế Đâycũng là một động thái từ Chính Phủ góp phần xây dựng các chuẩn mực đạo đức vềhành vi, ứng xử trên mạng xã hội, tạo một thói quen tích cực của người dùng, xây

dựng nên môi trường mạng an toan, lành mạnh tại Việt Nam.

Tuy nhiên, việc kiểm soát được bình luận có nội dung xúc phạm, thù địch trên

các nền tảng mạng xã hội gặp rất nhiều thách thức vì đặc trưng khối lượng cực lớn

và đa dạng cả về mức độ và chủ đề của chúng Theo nghiên cứu năm 2018, “DentalTrauma in Social Media - Analysis of Facebook Content and Public Engagement”của Suha Abu-Ghazale và các cộng sự [2] cho biết, cứ mỗi 60 giây trên nên tảngmạng xã hội tỷ người dùng Facebook, thì có đến 293.000 bài viết được đăng lên, và

có hơn 510.000 bình luận được viết Mặt khác, theo trang báo cáo số liệu uy tín

Statista đưa tin năm 2018 [3] Facebook phải gỡ bỏ hơn 11,3 triệu nội dung xúc phạm

Trang 26

và thù địch trên toàn cầu Trong khi Youtube năm 2019 phải loại bỏ hơn 1.800 triệubình luận bị vi phạm tiêu chuẩn cộng đồng Con số này ở hai nền tảng còn tăng trưởngkhủng khiếp theo thời gian Năm 2020, Facebook phải loại bỏ hơn 81 triệu nội dungxúc phạm, thù địch tức là tăng gấp bảy lần so với năm 2018 Trong khi Youtube trongnăm 2020 phải loại bỏ hơn 4.800 triệu bình luận tức tăng gấp 2,7 so với năm trướcđó.

Thành quả trên là công sức của hai nền tảng mạng xã hội lớn nhất thế giới.Theo đưa tin từ Wall Street Journal [4], tính tới thời điểm năm 2018, Facebook đãphải chi hang trăm triệu đô la Mỹ cho đội ngũ kiểm duyệt nội dung của họ Còn theotrang thông tin công nghệ lớn của Mỹ - The Verge với bài viết The Terror Queue,Google cũng có đội ngũ lên tới 10.000 người đảm nhiệm nhiệm vụ tương tự Tuynhiên, đội ngũ này vẫn còn nhiều bất cập

Thứ nhất, mặc dù Facebook đã có mặt trên 100 ngôn ngữ [4] nhưng chỉ hơnmột phan hai trong số chúng có các đội ngũ kiêm soát nội dung chuyên nghiệp Trong

khi, thị trường lớn của Facebook là Đông Nam Á, trong đó có Việt Nam, thì họ lại

cực kỳ thiếu nhân lực có chuyên môn cao về ngôn ngữ Và Việt Nam lại có môi

trường mạng xã hội cực kỳ độc hại theo khảo sát của Microsoft [1].

Thứ hai, công việc của các người kiểm soát nội dung chuyên nghiệp, dẫu cho

họ đã được cảnh báo từ trước về nội dung cực kỳ độc hại họ sẽ xử lý, cũng như tổ

chức các buồi huấn luyện, chọn lọc của các tập đoàn lớn và nhận hỗ trợ cực kỳ chu

đáo từ các tập đoàn này, rất nhiều trong số họ vẫn gặp vấn đề về tâm lý, thậm chí họ

còn bị hội chứng Rối loạn căng thắng sau sang chan (Posttraumatic Stress Disorder PTSD) [5], hội chứng thường gặp sau khi chứng kiến sự kiện kinh hoàng Và nhiềutrong số họ không thể hoàn toàn hồi phục theo nhà báo Deepa Seetharaman (2018)

-tại The Verge.

Thứ ba, các tập đoàn lớn sở hữu mạng xã hội này cũng như các phòng nghiên

cứu đã và đang bỏ ra rất nhiều công sức và tiền bạc vào việc xây dựng các hệ thống

ứng dụng Trí tuệ nhân tạo vào xử lý bài toán này nhưng chưa thực sự hiệu quả Những

hệ thong này sử dụng nguồn đữ liệu dôi dào và chat lượng có sẵn trên các nên tảng

Trang 27

mạng xã hội của họ, cộng với việc sở hữu các phương pháp tiên tiễn có thé áp dụngtrên đa ngôn ngữ, khiến các hệ thông rất mạnh mẽ trong việc phân loại rất rộng và rấtnhanh những nội dung xúc phạm và phản cảm [6], [7] Tuy nhiên, chính vì hệ thốnghọc từ nguồn dữ liệu có sẵn cộng với tinh không chuyên biệt về ngôn ngữ, làm chocác hệ thống này khó nhận diện được những nội dung hay bình luận thiếu ngữ cảnh,

chuyên biệt hoá bởi văn hoá vùng miền, khu vực, và hơn hết là chậm trong việc bắt

kịp với phương thức được cải tiến liên tục của các nội dung xấu Và ở Việt Nam,

những hệ thống này thậm chí còn chưa có sự nghiên cứu đủ sâu và rộng, những hạnchế vẫn còn tồn đọng trong quá trình xây dựng hệ thống và kết quả thu được cũngchưa đủ mạnh đề có khả năng giải quyết vấn đề thực tế

Chính vì các lý do đó, khoá luận này đưa ra một giải pháp mới và mạnh mẽnhằm việc phân loại, bóc tách ra bình luận xúc phạm, phản cảm, từ đó đưa ra giải

pháp giúp tăng cường cho nỗ lực đưa các môi trường mạng nói chung và môi trường

mạng xã hội nói riêng trở nên an toàn.

Mục tiêu khoá luận:

Trong khóa luận này, chúng tôi tập trung nghiên cứu các kỹ thuật tiền xử lý

dữ liệu, các thuật toán máy học, các kỹ thuật tăng cường đữ liệu và các ứng dụngtương tác với mô hình Chúng tôi đã đặt ra các mục tiêu cụ thể như sau:

- Chung tôi đã thực hiện các kỹ thuật tiền xử lý dữ liệu nghiêm ngặt và hiệu quả

dé làm sạch các bình luận được thu thập từ các trang mạng xã hội Các kỹ thuật

này được kỳ vọng sẽ nâng cao chất lượng đữ liệu và giúp cải thiện hiệu suất

của các mô hình phân loại.

- _ Một mô hình mới được đề xuất dé cải thiện hiệu suất của bài toán nhận diện

nội dung xúc phạm, phản cảm trên tiếng Việt Đề đạt được mục tiêu này, cácthử nghiệm khác nhau đã được tiến hành với bốn phương pháp tiếp cận hiện

đại: học máy, học sâu, học chuyền giao và học kết hợp So với mô hình

PhoBERT-CNN được đề xuất của chúng tôi, những cách tiếp cận này hỗ trợ

trong việc phát triển các mô hình cơ sở

- Chung tôi áp dụng các kỹ thuật EDA cho bộ dữ liệu VIHSD [8] và bộ dt liệu

Trang 28

HSD-VLSP [9] để xử lý dữ liệu mat cân bang và xác minh tính hiệu quả và sựcần thiết của việc tăng cường dữ liệu cho bài toán nhận diện nội dung xúcphạm tiếng Việt.

- Đề chứng minh tính hữu ích của hệ thống được đề xuất, chúng tôi đã xây dựng

một ứng dụng liên tục truyền đữ liệu từ nguồn dữ liệu không 16 của các nền

tảng truyền thông xã hội dé phát hiện các nhận xét thù địch và xúc phạm

Đối tượng và phạm vi nghiên cứu:

> Đối tượng: Internet đặc biệt là mạng xã hội qua thời gian đang dần bộc lộ rõ

nhiều khía cạnh tiêu cực Trong đó, vấn đề nội dung xúc phạm, phản cảm luôngây quan ngại về sự ảnh hưởng đáng kể của chúng tới người dùng Điều nàythúc đây chúng tôi đề xuất giải pháp ứng dụng các kỹ thuật xử lý ngôn ngữtiên tiến và hiệu qua dé bóc tách các nội dung độc hại trên ra khỏi không gianmạng, góp phần xây dựng môi trường an toàn, thân thiện

> Phạm vi: Tuy giải pháp đề xuất chỉ ở pha nền tảng, sơ khởi, nhưng phạm vi

ứng dụng của nó là vô cùng lớn Giải pháp đề xuất có thé áp dung từ các đơn

vị báo điện tử hay trang thông tin điện tử có lưu lượng thấp bình luận nhưng

cần sự kiểm duyệt cao, cho đến các nền tảng bình luận lớn như mạng xã hội

hay diễn đàn Từ đó, xây dựng môi trường tích cực, văn minh hay thoả mãn

nhu cầu định hướng và bảo vệ các đối tượng dễ bị ảnh hưởng như người già,

trẻ em Không những vậy, ứng dung còn là cơ sở dé các cơ quan, tô chức đánhgiá, theo dõi các đối tượng nhằm mục dich quản lý, nghiên cứu, giáo duc

Kết quả nghiên cứu:

Khóa luận của chúng tôi thực hiện góp phần trở thành một công trình trong

công cuộc phân tích và xử lý ngôn ngữ tự nhiên cho Tiếng Việt Qua quá trình nghiên

cứu, chúng tôi mang tới giải pháp đề xuất bao gồm tiến hành tiền xử lý dữ liệu hai

giai đoạn, xây dựng mô hình kết hợp trên một hướng tiếp cận mới và tìm ra kỹ thuật

tăng cường đữ liệu hiệu quả Những kết quả này cũng là một đóng góp về mặt tư liệu

cho hướng nghiên cứu ứng dụng các mô hình kết hợp và quy trình xử lý dữ liệu đặcthù trong hướng nghiên cứu về dữ liệu trên mạng xã hội tại Việt Nam Cũng chính

Trang 29

việc áp dụng quy trình tiền xử lý dữ liệu, tăng cường đữ liệu và mô hình kết hợp chokết quả cao trong phân loại nội dung xúc phạm, phản cảm Công trình đã đóng góp

được một giải pháp toàn diện trong việc nâng cao tính văn minh môi trường mạng.

Khiên công trình có tính ứng dụng cao trong ngữ cảnh bùng nô của mạng xã hội.

Câu trúc khoá luân:

Khoá luận gôm 6 chương với các nội dung chính như sau:

> Chuong 1: Téng quan

Giới thiệu về bài toán nhận diện nội dung xúc phạm, phản cảm trên mạng xãhội và tầm quan trọng của các kết quả nghiên cứu trong bối cảnh hiện tại, đặcbiệt là tính ứng dụng thực tế của khoá luận trong các cơ quan, tô chức

Chương 2: Các công trình nghiên cứu liên quanChúng tôi giới thiệu một số công trình nghiên cứu tiêu biểu trong và ngoàinước liên quan đến việc tiền xử lý dit liệu, mô hình huấn luyện, xử lý dữ liệumat cân bằng và ứng dung tương tác với mô hình máy học

Chương 3: Phương pháp đề xuất

Trinh bay các phương pháp tiền xử lý dữ liệu, mô hình huấn luyện, xử ly ditliệu mất cân bằng mà chúng tôi đề xuất và áp dụng

Chương 4: Cài đặt, thử nghiệm và đánh giáTrong chương này, chúng tôi trình bày các thông tin liên quan đến việc thiếtlập thử nghiệm, phân tích và đánh giá các kết quả đạt được

Chương 5: Xây dựng các ứng dụng hỗ trợ phát hiện bình luận xúc phạmtiếng Việt

Chúng tôi sẽ trình bày các công nghệ sử dụng và tông quan về các ứng dụng

phát hiện nội dung xúc phạm tiếng Việt cùng với một số chức năng cơ bản của

các ứng dụng hỗ trợ.

Chương 6: Kết luận và hướng phát triển

Tổng kết các kết quả đã đạt được và đề xuất các hướng phát triển trong tương

lai của khoá luận.

Trang 30

Chương 1 TỎNG QUAN

1.1 Giới thiệu khoá luận

Hiện tại, các đề tài nghiên cứu về phân loại bình luận chưa thực sự đem lại hiệusuất cao dé có thé ứng dụng vao thực tế Lý do của van dé này đến từ việc tuy các bộ

dữ liệu được phân chia thành nhiều lớp nhưng một số kết quả phân loại trên các nhãn

lại không cao bởi sự định nghĩa nhập nhằng Điển hình bộ như dữ liệu ViHSD của

Luu và các cộng sự được chia thành ba lớp HATE, OFFENSIVE va CLEAN nhưngkết quả phân loại đúng trên lớp HATE, OFFENSIVE lần lượt chỉ bằng 49,27% và

36,04% ở độ đo Accuracy Ngoài ra, các giải pháp hiện hữu vẫn còn gặp những hạn

chế về tiền xử lý đữ liệu, xử lý đữ liệu mất cân bằng và cả về mô hình huấn luyện

chưa thực sự hiệu quả cũng là lý do thúc day chúng tôi xây dựng một giải pháp khoa

học mới, kế thừa những ưu điểm đã có, và cải thiện các hạn chế còn tồn đọng

Dựa vào cách tiếp cận vấn đề và nhu cầu của xã hội, chúng tôi xây dựng giảipháp hướng tới ứng dụng thực tế tại môi trường mạng ở Việt Nam Chúng tôi tìmhiểu và tiến hành kết hợp mô hình học chuyên tiếp đơn ngôn ngữ sử dụng cho tiếngViệt là PhoBERT kết hợp với mô hình học sâu Text-CNN Với ưu điểm vượt trộitrong cả việc trích xuất thông tin và khả năng phân loại của mô hình kết hợp này giúpgiải pháp tối ưu và đem lại giá trị vượt trội khi phân loại bình luận, sẵn sàng ứng dụng

vào thực tế, góp phần xây dựng một cộng đồng mạng trong sạch, lành mạnh

Bài toán nhận diện nội dung xúc phạm, phản cảm (Hate Speech Detection HSD) và bài toán phân tích cảm xúc (Sentiment Analysis) có mối liên hệ chặt chẽ vớinhau [10] Những bài toán này gần đây đã trở thành chủ đề phố biến và thu hút được

-sự quan tâm trong lĩnh vực Xử lý ngôn ngữ tự nhiên (Natural Language Processing).

Trong phần này, chúng tôi tóm tắt bài toán nhận diện nội dung xúc phạm, phản cảm

tiếng Việt [8], [9] Bai toán này nhằm mục đích xác định xem một nội dung trên mạng

xã hội có mang sắc thái xúc phạm hay không Bài toán có thé được mô tả ngắn gọn

như sau:

- Pau vào: Một câu bình luận tiếng Việt trực tiếp thu thập từ mạng xã hội

- _ Đầu ra: Một trong ba nhãn tương ứng với sắc thai của bình luận

Trang 31

o HATE (Nhãn 2): chứa ngôn ngữ xúc phạm, thường có mục dich xúc

phạm các cá nhân hoặc tô chức Một bài đăng hoặc bình luận đượcxác định là HATE nếu nó (1) nhắm mục tiêu đến các cá nhân hoặc tổchức dựa trên đặc điểm của họ ,ví dụ như tôn giáo, quốc tịch; (2) thểhiện ý định kích động gây hại hoặc gây thù hận; (3) có thể có hoặckhông sử dụng các từ xúc phạm hoặc tục tiu.

o OFFENSVIE (Nhãn 1): là bình luận có chứa nội dung quấy rối,

thậm chí cả những từ tục tu nhưng không tan công bat kỳ đối tượng

cụ thé nao

o CLEAN (Nhấn 0): là một bình luận thông thường như cuộc trò

chuyện, thể hiện cảm xúc một cách bình thường Nó không chứa ngônngữ độc hại, xúc phạm hay căm thù nhắm tới một ai đó

Hình 1.1 Một số ví dụ cho bài toán nhận diện nội dung xúc phạm tiếng Việt

1.2 Tính ứng dụng của khoá luận

Như đã đề cập, việc lượng lớn bình luận có nội dung xúc phạm, phản cảm hiệndiện và sinh ra liên tục trên mạng xã hội làm ảnh hưởng sâu sắc tới người dùng Đặcbiệt, trong bối cảnh Chính Phủ đang từng bước mở cửa lại nền kinh tế hướng tới “bình

1 Các ví dụ trong khoá luận này được đưa ra dé chứng minh mức độ nghiêm trọng của vấn đề ngôn ngữ xúc

phạm Chúng dựa trên dữ liệu trực tuyên thực tê và không phản ánh ý kiên của các tác giả.

9

Trang 32

thường mới” sống chung với SARS-CoV-2 Điều này khiến cho các cơ quan, tô chức

ra sức không chỉ dựa vào đội ngũ kiểm duyệt hay sự ý thức của người dùng, mà thayvào đó là một giải pháp hiệu quả, tiết kiệm và có khả năng xử lý lượng lớn nội dungtiêu cực này Trong bối cảnh cấp thiết đó, giải pháp của chúng tôi đề xuất có tiềmnăng ứng dụng rất lớn trong môi trường mạng xã hội tại Việt Nam

Từ việc nghiên cứu mô hình, kết quả nghiên cứu của chúng tôi có thể ứng dụngvào việc phân loại liên tục và hàng loạt bình luận trực tiếp từ các trang mạng xã hội

tại Việt Nam Bên cạnh đó, giải pháp từ mô hình còn có thể ứng dụng vào các cơ

quan, tổ chức có nhu cầu tương tự tại các trang thông tin truyền thông của mình Từ

đó, giải pháp giúp nâng cao sự kiểm duyệt toàn diện bình luận xúc phạm, thù địch

trên không gian mạng tại Việt Nam.

[Ì Ares Lee (¿` cao Minh Ngọc

ngày -® giáo viên mac hế này thi dạy ai trời

ỘỠíyỶễi nh : : Thích - Phản hồi

Nữ giáo viên tiêm 2 mũi vaccine cách nhau 10 phút

Chip Chip a Nobi Ta

Mấy vụ rồi chứ 1 đâu Lớn rồi lại còn cô giáo Này cố ý Oi Giáo VIÊN

chứ lỗi đâu của nvyt Chừa cho người khác n rới chứ Thích - Phản hồi - 2

19

Thích - Phản hồi - 3 ng: ư

Dân Trí Giáo dục - Hướng nghiệp tu

Hon nữa, với chi phí đầu tư thấp, tài nguyên tiêu tốn ít, cho phép tối ưu và cập

nhật liên tục theo xu hướng của mạng xã hội giúp cho giải pháp không chỉ mang tính

ứng dụng về mặt xã hội giúp môi trường mạng lành mạnh, tích cực mà còn có cơ hội

mang lại hiệu quả cao vê mặt kinh tê.

10

Trang 33

Chương 2 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

2.1 Công trình nghiên cứu về tiền xử lý dữ liệu

Kỹ thuật tiền xử lý đữ liệu luôn đóng vai trò thiết yếu trong nhiệm vụ phân loại

dữ liệu từ mạng xã hội Việt Nam nói chung và trong bài toán phát hiện nội dung xúcphạm, phản cảm nói riêng [11] Khang và các cộng sự [12] đã kiểm tra tác động của

quá trình tiền xử lý đối với các bộ đữ liệu được thu thập từ các mạng xã hội Việt

Nam Theo phát hiện của nghiên cứu này, việc tiền xử lý có tác động đáng ké đếnviệc trích xuất thông tin từ đữ liệu Các bình luận bằng tiếng Việt trên mạng xã hộithường chứa các ký tự, từ ngữ liên quan đến cảm xúc và được trình bày theo nhiềucách khác nhau gây khó khăn cho việc xác định, phân biệt và trích xuất thông tin

Khang và các cộng sự [12] cũng đã thành công trong việc sử dụng tiền xử lý đữ liệu

dé cải thiện kết quả thêm 4,66% Day là một thành công so với các công trình nghiêncứu trước đó trên cùng một bộ dữ liệu và độ đo đánh giá.

Tuy nhiên, các nghiên cứu hiện tại trên hai bộ dữ liệu VIHSD và HSD-VLSP

vẫn chưa sử dụng các kỹ thuật tiền xử lý dữ liệu hiện đại và hiệu quả để cải thiện

hiệu suất của các mô hình Chỉ các kỹ thuật tiền xử lý đơn giản được sử dụng trong

các nghiên cứu trước đây, chang hạn như phân đoạn văn bản, chuẩn hoá dạng viết

thường, xóa thông tin nhạy cảm, xóa URL và các ký tự không phải chữ cái.

Trong khoá luận này, chúng tôi kế thừa những ưu điểm của các nghiên cứu trước

và triển khai các kỹ thuật tiền xử lý mới và cụ thé dé xử lý một số thách thức khókhăn đặc thù với dữ liệu mạng xã hội, chăng hạn như tách từ tiếng Việt bang cach strdụng thư viện SOTA là VnCoreNLP [13], De-teencode và xóa từ dừng (stopwords).Những kỹ thuật này góp phan đáng ké trong việc nâng cao hiệu suất của các mô hình.2.2 Công trình nghiên cứu về các mô hình giải quyết bài toán nhận diện nội

dung phản cảm tiếng Việt

Một số khảo sát về bài toán nhận diện nội dung xúc phạm và các phương pháp

máy học được dùng cho bài toán cung cấp thông tin nghiên cứu về tình trạng hiện tại

của lĩnh vực này [14] Chúng không chỉ cung cấp cấu trúc tổng quan về các phươngpháp tiếp cận trước đây mà còn mô tả các lĩnh vực phụ đã được khám phá dé tự động

11

Trang 34

phát hiện các loại ngôn ngữ xúc phạm [10] Ngoài việc cung cấp một khảo sát về các

kỹ thuật xử lý ngôn ngữ tự nhiên hiện đại được sử dụng dé phat hiện tự động nội

dung xúc phạm trên mạng xã hội trực tuyến, Alrehili và các cộng sự [15] còn chỉ ra

rằng các kỹ thuật tiền xử lý như Bag of Words, Dictionary, Part of Speech và các môhình học máy như Random Forest, Naive Bayes và Decision Trees cũng tạo ra kết

quả tích cực cho bài toán nhận diện nội dung xúc phạm, phản cảm Điều này thúcđây các nhà nghiên cứu khác, chang hạn như Waseem và các cộng sự [16], Chen và

các cộng sự [17], Davidson và các cộng sự [18] áp dụng hệ thống nhận diện tự động

với mục đích giải quyết vấn đề thực tế về ngôn ngữ xúc phạm trên mạng xã hội

Mặt khác, chúng tôi đã tiến hành khảo sát các công trình nghiên cứu liên quan

phục vụ bài toán phân loại bình luận trên mạng xã hội tiếng Việt, đặc biệt là bài toán

nhận diện nội dung xúc phạm vẫn còn khiêm ton [8], [9] [19]-[24] Cụ thé, cácnghiên cứu hiện tại chỉ xoay quanh hai bộ dữ liệu điền hình bởi chất lượng và sốlượng lớn các điểm dit liệu là bộ dit liệu ViHSD [8] và bộ dit liệu HSD-VLSP [9]

Các phương pháp giải quyết bài toán nhận diện nội dung xúc phạm rat đa dạng,

trong đó các mô hình học máy là nền tảng cơ bản nhất Các mô hình học máy truyềnthống như Support Vector Machine (SVM) và mô hình Random Forest được áp dụng

trong nghiên cứu của Davidson và các cộng sự [18], Martins và các cộng sự [25].

Đây là những cách tiếp cận tốt nhất trong các nghiên cứu của họ và kết quả nghiêncứu đóng vai trò là nền tảng cho sự phát triển của các giải pháp trong tương lai

Trong những năm gần đây, các giải pháp hiện đại (SOTA) với hiệu suất vượttrội đã được giới thiệu Một số giải pháp tiêu biểu có thé kế đến như sự ra đời củacác mô hình đa ngôn ngữ được đảo tạo trước như BERT [26], ROBERTa [27], XLM-

R [28] Bên cạnh đó, các giải pháp kết hợp dé tạo ra các mô hình cao cấp hơn cũngnhận được sự quan tâm đáng ké Trong quá trình phát triển đó, sự ra đời của các môhình kết hợp BERT-CNN [29], RoBERT-CNN [30], XLMR-CNN [31] đã mang lạinhững giải pháp góp phần cải thiện hiệu suất bài toán nhận diện nội dung xúc phạm

Lay cảm hứng từ sự thành công của việc kết hợp các biến thé của mô hình BERT

với mô hình CNN [29]-[31], mô hình kết hợp PhoBERT-CNN được thực hiện trong

12

Trang 35

khoá luận này nhằm kiểm tra tinh hiệu quả của nó trong bài toán nhận diện nội dungxúc phạm trên tiếng Việt.

Mang CNN được sử dụng thay vì các mạng nơ-ron điển hình khác như LSTM[32], Bi-LSTM [33] và GRU [34] vì nó hiện là một trong những mô hình thành côngnhất dé giải quyết các nhiệm vụ phân loại văn bản ngắn [35] Các kỹ thuật tích chập

(convolution) và tổng hợp (pooling) của CNN hỗ trợ việc trích xuất các khái niệm

và từ khóa chính của văn bản dưới dạng các đặc trưng, dẫn đến cải thiện đáng kế

hiệu suất của mô hình phân loại Tuy nhiên, mang CNN có một hạn chế đáng ké là

nó không phù hợp với văn bản cấp trình tự (sequence-level) [35], [36] Dé giải quyết

hạn chế này, mô hình đơn ngôn ngữ được đào tạo trước cho tiếng Việt, PhoBERT

[27] là sự kết hợp thích hợp do PhoBERT sẽ có nhiệm vụ trích xuất các đặc trưng

từ câu cho đầu vào của mô hình Text-CNN

PhoBERT, mô hình đơn ngữ quy mô lớn được đào tạo trước đầu tiên cho tiếngViệt, được giới thiệu bởi Nguyen và các cộng sự vào năm 2020 [37] PhoBERT đã

được đào tạo với khoảng 20GB dữ liệu, bao gồm khoảng 1GB từ kho dữ liệuWikipedia tiếng Việt và 19GB còn lại từ kho tin tức tiếng Việt Kiến trúc của

PhoBERT tương tự như mô hình RoBERTa được phát triển bởi Liu và các cộng sự

[27] (mô hình được tối ưu hóa từ mô hình BERT với lượng lớn dữ liệu đào tạo dữ

liệu lên đến 160GB, tăng 10 lần so với BERT) Hơn nữa, khi áp dụng cho các nhiệm

vụ xử lý ngôn ngữ tự nhiên tiếng Việt, PhoBERT đã được chứng minh là hoạt độnghiệu quả và tạo ra kết quả tốt hơn so với mô hình đa ngôn ngữ tốt nhất hiện nay là

mô hình XLM-R [28], [37].

2.3 Công trình nghiên cứu về phát triển ứng dung cho bài toán nhận diện bình

luận phản cảm tiếng ViệtBên cạnh các bộ dữ liệu và phương pháp luận mới, nhiều ứng dụng và hệ thong

dé giải quyết bài toán nhận diện nội dung xúc phạm cũng được giới thiệu Một số dự

án tiêu biểu có thé kế đến như hệ thống phân luồng đữ liệu của Nagarajan và cáccộng sự [38], hệ thống xử ly tweet theo thời gian thực trên Twitter sử dung Spark

2 https://github.com/binhvg/news-corpus

13

Trang 36

Streaming [39] Một số ứng dụng khác được sử dụng trong thực tế cũng đã được giới

thiệu trong thập kỷ qua Vào năm 2015, Burnap và các cộng sự [40] đã cung cấpthành công Giao diện kết hợp chương trình ứng dụng (Application ProgrammingInterfaces - API) dựa trên các dịch vụ trang web như CrowdFlower hoặc AmazonMechanical Turk và có thê được tích hợp vào một đường dẫn dữ liệu (data pipeline)

dé phân loại ngôn ngữ xúc phạm Sau đó, vào năm 2018, Anagnostou và các cộng

sự [41] cũng đã trình bày một ứng dụng web để có thé hỗ trợ tích cực báo cáo cho

Youtube về các trường hợp vi phạm tiêu chuẩn cộng đồng

Tuy nhiên, theo hiểu biết của chúng tôi, nghiên cứu hiện nay về bài toán nhậndiện nội dung xúc phạm cho tiếng Việt vẫn đang ở giai đoạn phân tích lý thuyết, cácgiải pháp ứng dụng thực tế vẫn còn gặp nhiều hạn chế Do đó, chúng tôi cần xâydụng các ứng dụng có tích hợp các công cụ truyền đữ liệu có khả năng mở rộng cao,đáng tin cậy và chịu được sai số cao cho bài toán này

Chúng tôi cũng khắc phục các hạn chế còn tồn đọng trong các nghiên cứu trước

đây [8], [9], [19]-[24] trên hai bộ dữ liệu ViHSD và HSD-VLSP bằng cách đề xuất

kỹ thuật tiền xử lý đữ liệu hai giai đoạn và áp dụng kỹ thuật xử lý hiệu quả vấn đề

mat cân bằng dữ liệu Hơn nữa, chúng tôi kế thừa những ưu điểm của mỗi nghiên

cứu, chăng hạn như khả năng tiến hành thử nghiệm với các phương pháp học máy

truyền thống, học sâu, học chuyển tiếp và các mô hình kết hợp Đặc biệt, chúng tôi

kết hợp mô hình ngôn ngữ mạnh mẽ cho tiếng Việt là PhoBERT và một mô hình học

sâu là Text-CNN đề tạo ra một mô hình có hiệu suất vượt trội hơn cho bài toán nhận

diện nội dung xúc phạm Cuối cùng, các ứng dụng sẽ được triển khai dé chứng minhtính hữu ích và đóng góp của hệ thống mà chúng tôi đề xuất

14

Trang 37

Chương 3 PHƯƠNG PHÁP ĐÈ XUẤT

3.1 Tổng quan về phương pháp đề xuất

Phần này giới thiệu cách tiếp cận hiệu quả và đơn giản mà chúng tôi đề xuất

cho bài toán nhận diện nội dung xúc phạm (HSD) trên tiếng Việt Bằng cách sử dụng

các chiến lược tinh chỉnh (fine-tune), chúng tôi tập trung vào việc tối ưu hóa mô hình

kết hợp, PhoBERT-CNN để tạo ra mô hình có hiệu suất tốt nhất Hình 3.1 cho thấytổng quan về hệ thống sử dụng các kỹ thuật tiền xử lý và tăng cường dữ liệu Sau đó,

dữ liệu được huấn luyện sử dụng mô hình đề xuất PhoBERT-CNN Mô hình sau khi

được huấn luyện sẽ được sử dụng dé phát triển các ứng dụng tương tác với mô hình

đê nhận diện bình luận xúc phạm trực tuyên trên nhiêu nên tảng.

Hình 3.1 Giải pháp đề xuất của chúng tôi cho bài toán HSD tiếng Viet.

3.2 Phương pháp tiền xử lý dữ liệu

Chúng tôi sử dung hai bộ dữ liệu: VIHSD [8] và HSD-VLSP [9] lần lượt chứa

33.400 và 20.345 bình luận được thu thập từ các trang mang xã hội phô biến tại Việt

Nam Do bộ dữ liệu VIHSD và HSD-VLSP được thu thập từ các trang mạng xã hội

nên chúng chứa các bình luận có cấu trúc đa dạng và phức tạp Đặc biệt, lượng bình

luận phong phú trong cả hai bộ dữ liệu đều chứa các ký tự không tuân thủ theo tiêu

chuẩn unicode, teencode, từ viết tắt và các từ có ký tự lặp lại Do đó, chúng tôi tiến

hành xây dựng và kiểm thử quy trình tiền xử lý dữ liệu dé nâng cao chất lượng của

bộ dé liệu nhằm trích xuất các thông tin có giá trị trước khi sử dụng chúng cho việc

huấn luyện các mô hình phân loại Hình 3.2 mô tả tổng quan về quy trình tiền xử lý

dữ liệu hai giai đoạn mà chúng tôi đê xuât.

15

Trang 38

Chuẩn hoá Chuẩn hoá

từ viết thường kiểu gõ dấu Tach từ

v A

— Xoá khoảng Xoá các ký tự ee

SA 2 =

Xöá liên kết > Chuẩn hoá

URLs Unicode Xoá Stopwords

(Giai đoạn 1 ` | Giai đoạn 2

Hình 3.2 Tổng quan về quy trình tiền xử lý dữ liệu.

3.2.1 Giai đoạn 1

Chúng tôi sử dụng các hàm được cung cấp bởi thư viện Regular Expression để

tiên hành xây dựng các hàm phục vụ cho việc tiên xử lý dữ liệu:

Chuẩn hóa viết hoa thành viết thường: Chúng tôi chuan hóa tất cả các

từ trong bộ dữ liệu về dạng viết thường để tránh Python nhận dạng hai từ

tách biệt vì hình thức của chúng.

Vi dụ: “Hòa Thuan” > “hòa thuận”

Xóa các khoảng trắng thừa: Do người dùng trên các phương tiện truyền

thông xã hội vô tình hoặc cố ý gõ các khoảng trăng trong bình luận của họ

gây ảnh hưởng tới khả năng trích xuất thông tin của mô hình do các khoảng

trắng dư thừa sẽ gây nên sự nhập nhang khi trích xuất

Ví dụ: “buồn cười quá!” > “buồn cười quá!!”

Xóa liên kết URLs: Qua nhiều lần chạy thử nghiệm và đánh giá, chúng tôikết luận được rằng các liên kết bên trong mỗi bình luận không ảnh hưởng

đến cảm xúc của bình luận Do đó, chúng tôi cũng đã quyết định xóa tất cả

liên kết URLs có trong đữ liệu

Vi du: “vkl https://www.facebook/Linh” > “vk!”

Chuẩn hóa Unicode: Chúng tôi nhận thay rang hai bộ dữ liệu có chứa các

từ tiếng Việt giống nhau nhưng các mô hình lại gặp nhiều khó khăn trong

việc nhận biết và phân biệt chúng do sự không thống nhất của các bảng mã

tiếng Việt Vì vậy, chúng tôi tiến hành chuan hóa bang mã các bình luận

trong về định dang thống nhất là UTF-8

Trang 39

- _ Xóa kí tự thừa: Chúng tôi tiến hành xóa các kí tự dư thừa mà người dùng

tạo ra khi bình luận Các ki tự nay sẽ tạo ra một từ mới dựa trên từ gốc mặc

dù nghĩa của hai từ này là không thay đôi, điều này sẽ gây ảnh hưởng đếnquá trình nhận biết và trích xuất thông tin của các mô hình

- Chuẩn hóa từ có dấu: Do có sự đa dang trong việc kết hợp của các dấu

giữa các nguyên âm, chúng tôi quyết định tiến hành chuan hóa dau câu theo

các quy tắc sau:

o Nếu chỉ có một nguyên âm, dấu câu sẽ nằm trên nguyên âm đó

Vi du: má, lá, mê.

o Nếu có hai nguyên âm, dấu câu sẽ nằm trên nguyên âm đầu tiên

Vi du: lóa, khóa.

o Nếu có ba nguyên âm hoặc hai nguyên âm theo sau một phụ âm thì

dấu câu sẽ nằm ở nguyên âm thứ hai

Ví dụ: Khuỷu, quán.

o_ “ê” và “ơ” là các trường hợp đặc biệt vì dấu sẽ luôn nam trên nó

Ví du: khuyến, quyền, quo

Bảng 3.1 Thống kê thay đổi sau khi thực hiện các kỹ thuật tiền xử lý dữ liệu Giai

đoạn | trên hai bộ dữ liệu ViHSD và HSD-VLSP.

: Dư thừa Chuẩn hoáViệt

Bộ dữ liệu Khoảng Gõ | Link

thường , Ký tự | Unicode

trang dau

ViHSD 28.540 488 | 2.127 753 620 21 HSD-VLSP 0 1| 2.667 0 761 1

Tất cả các bước trong Giai đoạn 1 sẽ được tiễn hành theo thứ tự liệt kê như

trên Kết quả đầu ra của dữ liệu sau Giai đoạn 1 này được cung cấp trực tiếp làmđâu vao cho việc xử lý ở Giai đoạn 2 tiệp theo.

17

Trang 40

3.2.2 Giai đoạn 2

Tách từ: Dữ liệu đầu vào được chia thành các từ hoặc cụm từ tiếng Việt

có nghĩa Đề thực hiện việc này, chúng tôi đã sử dụng công cụ tách từ

VnCoreNLP [13] cho mô hình PhoBERT và NLTK [42] cho các mô hình khác Vì các bình luận trong cả hai bộ dữ liệu, VIHSD và HSD-VLSP, là

dữ liệu văn bản thô, nên cần phải tách từ dé chuẩn bi đữ liệu cho việc huấn

luyện mô hình PhoBERT [37] Hơn nữa, PhoBERT đã sử dụng

VnCoreNLP RDRSegmenter [13] dé tiền xử ly dữ liệu dao tạo trước

(pre-trained), nên chúng tôi cần sử dụng cùng một trình tách từ cho việc ứng

dụng PhoBERT vào các bài toán liên quan đến các văn bản đầu vào ở dang

thô Mặt khác, các mô hình khác có thé học từ dữ liệu văn ban ở cấp tiếng

(token) mà không yêu cầu tách từ, như mô hình PhoBERT Do đó, chúngtdi quyét định mã hoa dir liệu dao tao trước bang cach su dung NLTK [42]

Vi du: “cute vel tộc trưởng” > “[‘cute’, ‘vel’, “tộc trưởng”]”

De-teencode: Trong mạng xã hội, người dùng thường dành một lượng thời

gian đáng kế để trò chuyện và cũng thường sử dụng các dạng từ ngắn

(teencode) dé gõ nhanh hơn Một số được sử dụng dé đánh lừa hệ thongkhi ho chửi thé hoặc có những hành vi văng tục Do đó, dé giúp các môhình của chúng tôi hiéu rõ hơn về các câu bình luần đầu vào, chúng tôi đãthực hiện ánh xạ các dạng từ ngắn (teencode) đó thành các từ gốc của

chúng Chúng tôi đặt tên cho quá trình ánh xạ các từ teencode là De —

teencode và Bảng 3.2 cho thay một số trường hợp minh hoa của chúng

Vi du: “dc lun nhé, haha” —> “được luôn nhé, haha”

Bảng 3.2 Một số ví dụ về teencode và các nghĩa biểu diễn đúng của nó.

STT Teencode Nghia đúng

1 Imht, lol Liên minh huyền thoại

2 sv, svien, SV Sinh viên

3 bjt, pit, bik Biét

4 mk, mik, mih Minh

18

Ngày đăng: 03/11/2024, 19:00

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN